Český sociálněvědní datový archiv a jeho služby PhDr. Martin Vávra, PhD Sociologický ústav Akademie věd ČR Český sociálněvědní datový archiv martin.vavra@soc.cas.cz Praha 2017
Cílem tohoto informačního článku 1 je seznámit čtenáře se službami Českého sociálněvědního datového archivu Sociologického ústavu AV ČR 2 (dále i jako ČSDA) a to nejen na obecné úrovni (čemu archiv slouží), ale také prakticky s ukázkami práce v online datové bázi, kterou datový archiv provozuje, a která představuje pro zájemce nejjednodušší cestu k datům uloženým v archivu. Předpokládanými čtenáři tohoto dokumentu jsou především výzkumníci a studenti v oblasti sociálních a humanitních věd. Co je Český sociálněvědní datový archiv Sociálněvědní datové archivy mají relativně dlouho tradici. První z nich, americký Roper Center for Public Opinion Research 3, byl založen už v roce 1947 a obsah jeho sbírek zasahuje až do třicátých let minulého století, to znamená do doby, kdy metodologie dotazníkového šetření v dnešním slova smyslu teprve vznikala. Dotazníkové výzkumy zde nezmiňujeme náhodou, představují jádro uložených sbírek řady archivů v sociálních vědách, včetně ČSDA. V Evropě (nejdříve ve Velké Británii a v Německu) vznikaly archivy od šedesátých let. Jejich cílem bylo a stále je shromažďovat a dále pro sekundární analýzu zpřístupňovat data z výzkumů. Bez systematického shromažďování by byla totiž většina dat, existujících pouze ve formě elektronických digitálních souborů, relativně rychle ztracena především kvůli 1 Text byl napsán s podporou Strategie Akademie věd AV21, výzkumného programu "Paměť v digitálním věku" 2 http://archiv.soc.cas.cz 3 https://ropercenter.cornell.edu/
stárnutí a degradaci datových nosičů, ale také díky ztrátě čitelnosti formátů, v kterých jsou data uložena. Navíc vzhledem k vysokým nákladům, které pořízení dat často vyžaduje, je i z hlediska vědní politiky státu (či nadstátního aktéra jako je EU) logické požadovat, aby byla data pořízená z veřejných peněz zpřístupněna pro další, sekundární analýzy. Zpřístupnění dat pro další výzkumníky představuje také způsob interní kontroly vědy tím, že pomáhá odhalovat a korigovat nedostatky v samotných datech i v následných analýzách, které data využívají. Současné sociální vědy využívající kvantitativní data také kladou stále větší důraz na možnost provádět replikace provedených analýz, protože tím, že analýzu zopakuje jiný tým na stejných datech nebo datech, která byla sebrána stejnou metodologií jako ta původní, může dojít k nezávislému zhodnocení práce týmu, který původní data sebral a analyzoval. Aby se však replikace mohly provádět, je potřeba zpřístupňovat data z výzkumů společně s podrobným popisem metodologie, Proto se také zpřístupňování dat pořízených z veřejných zdrojů dnes stává oficiální politikou v rámci Evropského výzkumného prostoru 4. Sociologický ústav AV se připojil k tomuto trendu zřizování datových archivů jako nástroje uchovávání dat a otevřeného přístupu k dat na konci devadesátých let minulého století, když zřídil Sociologický datový archiv, který byl později přejmenován na Český sociálněvědní datový archiv (změna názvu vyjadřuje zaměření na širší portfolio dat, přesahující pole sociologie). ČSDA je nyní národním centrem, 4 Týká se to kupříkladu výzkumného programu EU Horizon 2020.
poskytujícím otevřený přístup k elektronickým souborům dat z výzkumných projektů sociálních věd. ČSDA je ve srovnání s některými sociálněvědními archivy západní Evropy (například s německým archivem 5 či britským UK Data Archive) malou institucí, ovšem co do objemu zpřístupňovaných dat pro uživatele rozhodně relevantní. V současné době (prosinec 2017) je v archivu dostupných více než 831 datových souborů z výzkumů, z nichž ty nejstarší prochází z roku 1946 6. V ČSDA jsou dostupná především primární data (datové matice) z výzkumů, která jsou určena pro další analytické zpracování. V některých případech jsou ovšem přes on-line katalog ČSDA 7 dostupné zpracované výsledky projektů či alespoň odkazy na jejich umístění v jiných úložištích (jde především o tiskové zprávy či závěrečné zprávy z výzkumů). ČSDA je součástí evropské výzkumné infrastruktury CESSDA (http://cessda.net), která propojuje evropské sociálněvědní datové archivy. Cílem této organizace je ustavení společného systému datových služeb. Co se týče obsahu českého datového archivu, většinově jde o data z dotazníkových šetření, prováděných na reprezentativních vzorcích dospělé populace ČR. Tematická škála uložených dat je velice široká. V online katalogu ČSDA jsou kupříkladu uloženy 5 V tomto archivu německého institutu pro sociální vědy GESIS (adresa http://zacat.gesis.org/webview pro online katalog s daty) jsou dostupná data z řady mezinárodních výzkumů, i těch kterých se zúčastnila Česká republika (potažmo Československo). 6 Je ovšem potřeba dodat, že nejstarší výzkumy se nedochovaly v podobě datových matic, tedy s údaji za jednotlivé případy (respondenty), ale pouze ve formě závěrečných zpráv, z kterých byla vytěžena pro účely zveřejnění v archivu agregovaná data. 7 Je dostupný na http://nesstar.soc.cas.cz/webview/
všechny dostupné výzkumy prováděné Centrem pro výzkum veřejného mínění a jeho předchůdci od roku 1989 8. Díky tomu je možné sestavovat časové řady popisující například vývoj důvěry obyvatel ČR v politiku nebo jejich postoje k cizincům (a to jsou jen dva příklady fenoménů, které se měří kontinuálně od roku 1990, v některých případech je možné časové řady sestavovat do ještě hlubší minulosti). A takto by bylo možné pokračovat, ale lepší než zahlcovat čtenáře výčtem dostupných datových souborů a pokrytých témat, je nasměrovat je přímo do datového katalogu. Práce s online databází Nesstar Podívejme se nyní na celou věc prakticky, z hlediska uživatele, který se chce k datům dostat a pracovat s nimi. Základním přístupovým bodem je hlavní stránka ČSDA (http://archiv.soc.cas.cz/), kde lze nalézt řadu informací o dalších datových zdrojích (sekce Přístup k datům ) nebo o tom, jak s vlastními daty nakládat, aby mohla být v archivu uložena (sekce Depozice dat ). To, co nás zde ale nyní především zajímá, je vstup do datového katalogu ČSDA. Stačí klinout na tlačítko Vstup do katalogu (viz. obrázek 1) a ocitneme se přímo v online databázi, která funguje díky software Nesstar 9. 8 Což bohužel neznamená všechny datové soubory z výzkumů CVVM, které vznikly. Některé soubory z devadesátých let jsou ztraceny právě kvůli zastarávání datových formátů respektive nosičů data se v době, kdy byla přejímána do archivu, již nepodařilo načíst, nebo převést do nových formátů. 9 http://nesstar.com/
Obrázek 1: Vstup do datového katalogu V pak už stačí rozklikávat nabídku nacházející se v levé části obrazovky abychom se postupně přes ČSDA a Česky 10 dostali až k tématům výzkumů respektive konkrétním výzkumným sériím. Pokud klikáme dále, dostaneme se až na úroveň jednotlivých výzkumů. Příklad je uveden na obrázku 2 v nabídce českých dat jsme klikli na sekci CVVM (kde jsou uloženy všechny výzkumy Centra pro výzkum veřejného mínění od roku 2001), poté na rok 2017 a v rámci tohoto roku na měsíc prosinec. 10 V anglické části nabídky je pouze část dat z těch dostupných i v češtině přeložena do angličtiny pro zahraniční uživatele. Nechávám zde stranou i kvalitativní data prezentovaná v sekci Medard. Nabídka kvalitativních dat v ČSDA je zatím bohužel velmi omezená a navíc jsou tato data dostupná jen za specifických podmínek.
Obrázek 2. Prozkoumávání konkrétního datového souboru v databázi Nesstar V databázi se prezentace každého výzkumu skládá ze dvou základních částí. První jsou metadata, kde je výzkum popsán. Jsou zde uvedeny všechny informace potřebné k tomu, aby uživatel mohl datům porozumět například údaje o tom, kdo výzkum provedl, kdy, na jaké populaci a s využitím jakým metod. V metadatech jsou také odkazy na další dokumenty vztahující se k výzkumu, například na dotazník, doplňkové metodologické informace a v případě výzkumů CVVM také na tiskové správy, kde jsou zpracovány základní výsledky výzkumu. Druhá sekce každého výzkumu se v databázi nazývá popis proměnných. Zde už můžeme získat informace o jednotlivých otázkách dotazníku, respektive o proměnných, které na jejich základě vytvořili výzkumníci. Kromě textu samotné otázky
a počtu respondentů, kteří na ni odpovídali, zde ve většině případů zjistíme i to, jak na ni respondenti odpovídali (frekvence odpovědí). Pokud už má uživatel nějaké téma, které ho zajímá a k němuž chce najít vhodná data, může se k němu dostat procházením jednotlivých uložených výzkumů. Vzhledem k jejich množství je ale mnohem efektivnější cestou použití vyhledávácího nástroje dostupného na horní liště (obrázek lupy se znamínkem +). V okně, které se nám otevře po jeho stisknutí, pak zadáme pole, v kterém chceme vyhledávat (můžeme vyhledávat pochopitelně v názvech výzkumů, v klíčových slovech, ale také například můžeme zvolit pole uzemní pokrytí a vyhledat všechny výzkumy, kde byla data sbírána na území Československa) a stiskneme hledat. Pokud nám jde o vyhledání výzkumů nebo konkrétních otázek spojených s určitým tématem, pak asi nejefektivnější je vyhledávání v poli proměnná. Kupříkladu můžeme chtít vyhledat proměnné, které jsou vázány na téma důvěry. Do vyhledávacího pole pak můžeme zadat výraz důvěr*, protože pak budou ve výsledcích obsaženy všechny varianty slova následující za počátkem důvěr (důvěru, důvěra atd.). Vhodné je také zaškrtnout variantu hledat proměnné, protože pak budou výsledky obsahovat pouze ty proměnné, které daný výraz obsahují a nikoli celé datové soubory, jako by tomu bylo v případě, kdybychom nechali defaultní možnost hledat datové soubory. Pokud je výsledek vyhledávání neuspokojující, například proto, že nalezených dat je příliš mnoho a jejich tematický záběr je příliš široký (což je právě případ důvěry, která se zkoumá v mnoha modalitách ke konkrétním lidem, institucím, lidem obecně atd.), je možné jej zúžit přidáním dalšího vyhledávaného výrazu po stisknutí tlačítka + vedle pole s vyhledávaným výrazem. Na obrázku 2 vidíme příklad, kdy do vyhledávacího pole kromě výrazu důvěr* přidáme podmínku, že v dané proměnné bude muset být i výraz prezid* a
pak budou většinu výsledků tvořit proměnné/otázky zjišťující důvěru k prezidentovi ČR. Díky této možnosti vyhledávání může Nesstar fungovat i jako banka otázek, kdy lze pomocí klíčových slov prohledávat otázky, které je následně možno využít pro přípravu vlastního výzkumu. Obrázek 3. Vyhledávání dat Kromě procházení a prohledávání dat a metadat má Nesstar ještě dvě důležité funkce. První je online analýza dat a druhou stahování dat. Pro využívání těchto funkcí je ovšem již nutná registrace (na http://archivreg.soc.cas.cz/registrace). Po odsouhlasení podmínek využívání dat 11 uživatel již pouze vyplní krátký online formulář login a 11 Mezi hlavní principy práce s daty ze strany uživatele patří: závazek k tomu, že data bude používat pro nekomerční účely, pokud je využije v nějaké své práci, bude tato data i jejich zdroj citovat a také že se nebude snažit identifikovat jednotlivé respondenty, kteří jsou v datech anonymizováni.
heslo pro přístup k vyšším funkcím databáze mu pak přijdou na email, který zadal v registračním formuláři. Po registraci je pak možné vytváření tabulek, v kterých mohou být dány do vztahu dvě nebo i tři proměnné. Postup je jednoduchý - na horní liště na stránce databáze Nesstar se uživatel přepne ze sekce popis do tabulek. Poté již zvolí konkrétní proměnné a to tak, že klikne levým tlačítkem myši nad názvem dané proměnné a zvolí, zda ji chce přidat do řádků, sloupců nebo podúrovní (viz obrázek 4). Alternativně lze zobrazit proměnné a jejich vztahy několika typy grafů. Výsledné tabulky či grafy lze pak vyexportovat ve formátech.xls respektive.pdf. Obrázek 4: On-line analýza vztahu dvou proměnných
Systém Nesstar umožňuje také provádění korelační a regresní analýzy, jde již ale o obtížnější postupy, jejichž popis přesahuje zaměření tohoto textu. Jak už bylo naznačeno, soubor je možné si také stáhnout do svého počítače pro účely podrobnější analýzy. Pro tuto analýzu je ovšem vhodné mít a umět ovládat nějaký specializovaný software jako je například SPSS nebo Statistica, práce s těmito daty například v Excelu je poměrně obtížná. Pro registrované uživatele je samotné stažení souboru velice jednoduché. Nejprve si uživatel vybere výzkum a rozklikne jej. Poté stačí kliknout na tlačítko s disketou a v nabídce si vybrat formát dat. Nakonec pak stisknout stáhnout, zadat uživatelské jméno a heslo a soubor se začne stahovat. Český sociálněvědní datový archiv, jak vidno, může nabídnout těm, kdo chtějí pracovat s empirickými daty sociálních věd (především daty z dotazníkových výzkumů) řadu možností která data zvolit a také jak nimi dále pracovat. Doporučené texty o datech a datových zdrojích KREJČÍ, Jindřich, ed. a LEONTIYEVA, Yana, ed. Cesty k datům: zdroje a management sociálněvědních dat v České republice. Praha: Sociologické nakladatelství (SLON), 2012. ISBN 978-80-7419-111-4. KREJČÍ, Jindřich. Introduction to the management ofsocialsurvey data. Prague: Institute of Sociology CAS, 2014. ISBN 978-80-7330-252-8. KREJČÍ, Jindřich. Kvalita sociálněvědních výběrových šetření v České republice. Praha: Sociologické nakladatelství (SLON), 2008. ISBN 978-80-7419-001-8. LYONS, Pat. Theory, data and analysis: data resourcesforthe study ofpolitics in the Czech Republic. 1st ed. Prague: Institute of Sociology, AcademyofSciencesofthe Czech Republic, 2012. ISBN 978-80-7330-219-1.
Použitá data: 12 Sociologický ústav (Akademie věd ČR). Centrum pro výzkum veřejného mínění. Naše společnost 2017 - prosinec [datový soubor] [online]. Ver. 1.0. Praha: Český sociálněvědní datový archiv, 2018 [citováno 12.12.2017]. DOI 10.14473/V1712 Sociologický ústav (Akademie věd ČR). Centrum pro výzkum veřejného mínění. Naše společnost 2016 - prosinec [datový soubor] [online]. Ver. 1.0. Praha: Český sociálněvědní datový archiv, 2017 [citováno 12.12.2017]. DOI 10.14473/V1612 12 Data jsou citována ve formátu doporučeném pro elektronické zdroje podle normy ČSN ISO 690. Uživatelé ČSDA mohou využít připravené vzory citací pro jednotlivé datové soubory v příslušných metadatech.