Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i. Jilská 1, 110 00 Praha 1, Česká republika; http://archiv.soc.cas.cz Datové archivy a jejich využití pro sekundární analýzu dat v sociálních vědách (se zaměřením na Český sociálněvědní datový archiv a jeho online databázi Nesstar) Martin Vávra martin.vavra@soc.cas.cz Prezentace byla vytvořena v rámci Strategie Akademie věd AV21, výzkumného programu "Paměť v digitálním věku"
Zdroje dat pro sekundární analýzu a proč je využívat Provedení vlastního výzkumu je obtížné (u některých témat prakticky nemožné) Vysoké finanční náklady Čas potřebný pro primární výzkum Aktuální nedostupnost subjektů/objektů pro výzkum Záchranou může být využití dat, která sebral někdo jiný (tj. sekundární analýza) Nalezení a získání vhodných dat je usnadněno vytvářením příslušné infrastruktury (datové archivy) a pravidel archivování dat (zejména systematické vytváření metadat, která data popisují)
Přínosy sekundární analýzy a dostupnosti dat pro tuto analýzu Usnadňuje přenos a kumulativní vytváření poznání (archivace -> zabezpečení, zachování) Skrze možnosti kombinovat různé datové zdroje napomáhá zvyšování informační hodnoty, komparace v čase, mezinárodní komparace Dostupnost dat pro sekundární analýzu -> zdokonalování metod analýzy metodologický výzkum, testování nástrojů, vytváření nových projektů systematičnost, prosazování kvality Ustavuje lepší prostředí pro spolupráci týmů (zejména mezinárodních) Usnadňuje dostupnost dat pro výuku a zvyšuje množství sekundárních analýz prováděných studenty Napomáhá ověřování výsledků a obecně transparentnosti výzkumu Z hlediska vědní politiky: efektivita veřejných investic - maximalizace využití
Rizika sekundární analýzy Rizika plynou z oddělení fází produkce a analýzy dat. Známe dostatečně původní koncept a kontext výzkumu? Máme dost informací o průběhu sběru dat? Rozumíme modifikacím provedeným v datech? Při nedostupnosti vhodných dat dat hrozí vynucená modifikace výzkumných záměrů Kvalita dat je u sekundání analýzy méně transparentní a pokud nemáme o kvalitu dat zájem a/nebo nejsme schopni ji vyhodnotit, riziko chyby či dezinterpretace je značné Koncepty výzkumu či jednotlivé proměnné nemusí být zcela srovnatelné s těmi našimi (nebo pokud používáme více zdrojů dat, nemusí být srovnatelné mezi sebou) Riziko chyby vyplývá i z nekompatibility formátů a s nimi spojených technických problémů zpracování
Sekundární analýza není rutinní úloha! koncepce výzkumu vyhledání a identifikace dat studium metadat a širšího kontextu původního výzkumu prozkoumání dat, zhodnocení a verifikace úpravy, transformace dat analýza, interpretace dokumentace použitých dat v publikované práci systematický management dat s ohledem na sekundární využití při realizaci šetření i při sekundární analýze
Co je datový archiv
Sdílení výzkumných dat - standard výměna znalostí -> rozvoj vědy kombinování databází, komparace (mezinárodní) spolupráce odpovědnost k veřejným financím: hodnota zpět až s použitím dat => požadavek maximálního využití OTEVŘENÝ PŘÍSTUP K VÝZKUMNÝM DATŮM otevřenost znamená přístup za rovných podmínek pro mezinárodní vědeckou komunitu za nejnižší možnou cenu, nejlépe nepřesahující mezní náklady distribuce. Otevřený přístup k výzkumným datům z veřejného financování by měl být snadný, časově nenáročný, uživatelsky přívětivý a nejlépe založený na Internetu. (OECD Principles and Guidelines for Access to Research Data... http://www.oecd.org/dataoecd/9/61/38500813.pdf)
Consortium of European Social Science Data Archives Zapojení Českého sociálněvědního archivu do mezinárodní spolupráce sdružení datových archivů CESSDA http://www.cessda.org Nyní se tato spolupráce dostává na vyšší úroveň a v rámci CESSDA vzniká skutečná celoevropská datová infrastruktura Jednotný přístup do národních datových úložišť, standardizace dat a metadat Austria Czech Republic Denmark Finland France Germany Lithuania Netherlands Norway Slovenia Sweden Switzerland United Kingdom Vývoj zdrojů dat, Olomouc 17.-19.10.2013 Snímek 8
V ČSDA používané standardy a nástroje Pro zápis metadat používáme standard DDI (více informací na http://www.ddialliance.org/) Pro zápis klíčových slov používáme European Language Social Science Thesaurus (ELSST) K datových souborům nově připojujeme DOI (Digital Object Identifier), na základě registrace u organizace da ra (součást německého institutu GESIS) Dokumenty k datům ukládáme v databázovém systému DSpace Získali jsme Data Seal of Approval certifikaci důvěryhodnosti digitálního archivu
Co je Nesstar a jak jej ČSDA a další datové archivy využívají Nesstar je software pro webové publikování dat a jejich on-line analýzu. Uživatelé mohou prostřednictvím Nesstaru data prohledávat, on-line analyzovat a stahovat si je do svého počítače. Nesstar využívají všechny archivy sdružené v organizaci CESSDA i některé další. v roce 2016 bylo v systému Nesstar (on-line systém pro prezentaci, analýzu a stahování dat), který ČSDA používá, dostupných 741 datových souborů (v drtivé většině z dotazníkových šetření), došlo k 1535 stažení dat (75% pro účely výuky), měli jsme 2210 registrovaných uživatelů (9,1% zahraničních)
K datům se lze dostat z hlavní stránky ČSDA http://archiv.soc.cas.cz/
Dostaneme se tak do databáze Nesstar ČSDA (http://nesstar.soc.cas.cz/webview/)
ČSDA archivuje i publikuje nejen primární data ze současnosti ale i data ze vzdálenější minulosti ve formě agregovaných dat (tabulek) V roce 1946 zahájil činnost Ústav pro výzkum veřejného mínění. Primární data nemáme, ale pokoušíme se na základě dostupných zpráv z výzkumů publikovat tabulky s důležitými výsledky
Medard - digitální archiv "měkkých", kvalitativních, dat Samostatná knihovna kvalitativních dat částečně dostupná také přes rozhraní Nesstar Kvalitativní data: skoro všechny typy datových souborů Archivace kvalitativních dat vázne Problém ochrany osobních údajů
Stejný systém sloužící pro on-line prezentaci dat výzkumu European Social Survey (http://nesstar.ess.nsd.uib.no/webview/)
Také německý datový archiv (součást institutu GESIS) využívá pro zpřístupňování dat Nesstar http://zacat.gesis.org/webview/index.jsp Tento archiv je z hlediska českého výzkumníka významný proto, že zpřístupňuje mezinárodní datové soubory například z výzkumů ISSP nebo EVS
Jak s daty v databázi Nesstar pracovat Poté co se dostanete na stránku http://nesstar.soc.cas.cz/webview/ už stačí jen postupně rozbalovat nabídku klikáním na názvy sekcí (popřípadě na čtverce vedle těchto názvů). Dostanete se tak až na úroveň konkrétních výzkumů a v rámci zvoleného výzkumu po kliknutí na Popis proměnných (případně na Variable description v závislosti na nastavení jazyků ve vašem prohlížeči) na jednotlivé proměnné. V sekci Metadata můžete procházet informace o výzkumu.
Vyhledávání dat V informacích o výzkumu i v informacích, které se vztahují ke konkrétním proměnným je možno vyhledávat prostřednictvím nástroje na horní liště (podrobnější nabídka vyhledávání pod tlačítkem s lupou a symbolem +).
Další funkce Nesstaru Kromě prohlížení metadat a proměnných Nesstar umožňuje: Vytváření kontingenčních tabulek Provádění korelační a regresní analýzy Výsledky analýz lze zobrazit mnoha typy grafů Vytváření nových a rekódování starých proměnných K využívání těchto funkcí je nutná registrace Stahování datových souborů do počítače uživatele I pro to je nutná registrace
Registrace - http://archivreg.soc.cas.cz/registrace Po odsouhlasení podmínek využívání dat uživatel již pouze vyplní krátký online formulář login a heslo mu pak přijdou na email
On-line analýza vztahu dvou proměnných Na horní liště Nesstaru se uživatel přepne do sekce tabulky Poté již zvolí konkrétní proměnné a to tak, že klikne levým tlačítkem myši nad labelem dané proměnné
Korelační analýza v Nesstaru Uživatel přejde na liště do analýzy, poté zvolí korelaci Do korelační matice se proměnné přidávají znovu pomocí levého tlačítka myši Kromě hodnot samotného koeficientu je možno zobrazit i významnosti a počet jednotek, které do daného korelačního vztahu vstupují
Regresní analýza v Nesstaru Práce s proměnnými je stejná jako u korelací, pouze je pochopitelně nutno zvolit závisle proměnnou a ostatní proměnné jako nezávislé
Stahování dat Pokud se uživatel zaregistroval, ČSDA mu přidělí práva ke stahování všech souborů Samotné stažení souboru je pak velice jednoduché Nejprve si uživatel soubor vybere a rozklikne jej Poté stačí kliknout na tlačítko s disketou V nabídce si vybere formát dat Poté dá stáhnout, zadá uživatelské jméno a heslo a soubor se začne stahovat
Ikony důležitých funkcí Nesstaru Zobrazení tabulek Zobrazení grafů Vymazat tato funkce vyčistí okno s analýzami Váha uložené soubory mohou obsahovat váhy, tato funkce umožňuje jejich použití Podsoubor - tato možnost dovoluje uživateli provádět analýzy nebo zobrazení grafů na podsouboru kategorií proměnných (například pouze za osoby mužského pohlaví)
Ikony důležitých funkcí Nesstaru Stáhnout - systém umožňuje stažení datového souboru do většiny používaných statistických formátů. Export vytvořených objektů (tabulek) do formátu.xls Export vytvořených objektů (tabulek, grafů) do formátu.pdf Kontextuální nápověda