Management sociálních dat a datové archivy Kurz ISS FSV UK Management dat II.: založení a správa datového souboru Jindřich Krejčí
Cíle managementu dat integrita dat, kvalita dat - přesnost a správnost výzkumu srozumitelnost pro všechny potenciální uživatele efektivita výzkumné práce - čas a náklady autenticita dat - možnost replikace, opravy analýz zajištění legálních a formálních předpokladů výzkumu zabezpečení a zachování dat zpřístupnění dat Management dat II. Snímek 2
Organizace dat: Struktura datového souboru flat file - obdélníkový datový soubor, datová matice hiearchický soubor: záznamy vyššího a nižšího řádu uspořádány v hiearchické struktuře (např. data z šetření domácností, kde v jedné úrovni jsou zaznamenány údaje o domácnostech a v další úrovni údaje o jednotlivých členech domácností) relační databáze: systém datových tabulek a asociací mezi nimi. např. výzkum domácností, kdy údaje členů domácnosti jsou zaznamenány v samostatných tabulkách propojených parametrem reprezentujícím sounáležitost a vztah mezi členy domácnosti (lze např. vyhledávat řádky se shodnými atributy a vytvářet podsoubory) Management dat II. Snímek 3
When deciding on data file structure, consider the following Units of analysis, objectives and methods of analysis to be used; Relations between different content items and parts of your data file; to sources of your data; to any other relevant external data and information and their structure. Possibilities of building connections to other existing or future data files (future additions of new data or creation of cumulative data files); Possible strategies for version control; Possible technical limitations, e.g. operability in relation to the size of the data file (consider that large and complicated structures may put high demands on both data management and computing capacities. Some software programs also have limitations with respect to the number of variables and cases they can manage); Software you are going to use (this should be done also with respect to flexibility because of possible secondary analysis of your data in other software). https://www.cessda.eu/research-infrastructure/training/expert-tour-guide-on-data-management/2.-organise- Document/Designing-a-data-file-structure Snímek 4
Příklad: SHARE Management dat II. Snímek 5
Who answers what in the CAPI questionnaire? mergeid - unique identifier for all waves. CC-hhhhhh-rr, CC = country code, hhhhhh = household identifier, rr = respondent identifier within each household hhid identifies the household to which a person belonged when entering the panel hhidw identifies the household, where W refers to the specific wave Management dat II. Snímek 6
Příklad - České panelové šetření domácností, W1 Výzkumné instrumenty Management dat II. Snímek 7
CHPS, W1 - pouze jeden datový soubor Management dat II. Snímek 8
Datový soubor obsahuje 13 049 případů, které reprezentují členy dotázaných domácností. Pro každého člena domácnosti jsou dostupné domácnostní a individuální údaje z CAPI dotazníku pro domácnost. Hodnoty proměnných na úrovni domácnosti jsou všem členům domácnosti společné. Hodnoty proměnných z dalších dotazníků (CAPI individuální a proxy dotazník, PAPI dotazníky) jsou dostupné jen u respondentů, kteří vyplnili daný dotazový instrument, v opačném případě je hodnota prázdná (system missing). Schéma struktury datového souboru ilustruje tabulka 8. Management dat II. Snímek 9
Pojmenování datových souborů systematicky, krátké názvy odkazující na obsah a/nebo vznik rozlišení sérií, verzí a edicí (viz dále) konzistentní formát nezávislost jména na umístění a software nepoužívat speciální znaky, místo mezer podtržítka, velká/malá písmena mohou být při převodu nestabilní (převoditelnost mezi systémy)... scalability (rozsah kódu odpovídá počtu verzí, y2k problem...) když hodně souborů lze použít nástroje na automatické přejmenování (batch renaming), např.: Ant Renamer (http://www.antp.be/software/renamer) RenameIT (https://sourceforge.net/projects/renameit/) Bulk Rename Utility (http://www.bulkrenameutility.co.uk/) File naming and folder structure (Expert Tour Guide) https://www.cessda.eu/research-infrastructure/training/expert-tour-guide-on-data-management/2.- Organise-Document/File-naming-and-folder-structure Management dat II. Snímek 10
Proměnné variable names, varible labels řazení a označení dotváří strukturu souboru vzájemné vztahy mezi proměnnými návaznost na další prvky výzkumu (různé zdroje dat, návaznost na dotazník, jiné soubory atp.) pomocné proměnné pro organizaci a správu souboru variable names = volací znaky v software (nezačínat číslem, 8 míst...) => převoditelnost formátu dat přehlednost prezentace dat systémy značení číselný kód (V001, V002...) kód odkazující na výzkumný nástroj (Q1a, Q1b... mnemotechnická jména (BIRTH, EDUC...) variable labels srozumitelnost, návaznost na prvky výzkumu (kódy otázek, zdroje dat...), délka, diakritika formát proměnné (typ proměnné, počet znaků) možnosti analýzy, velikost souboru Expert Tour Guide: https://www.cessda.eu/research-infrastructure/training/expert-tour-guide-on-data-management/2.- Organise-Document/Designing-a-data-file-structure/Organisation-of-variables Management dat II. Snímek 11
Management dat II. Snímek 12
Hodnoty proměnných naměřené hodnoty / odpovědi / audio / video / vzorky... numerické kódování - ve všech stat. softwarech => převoditelnost někdy komplikovaný kognitivní proces (teoreticky a analyticky zal.) příklad ISCO (Harry) kódované kategorie by měly být vztaženy k obsahu testovaných hypotéz, nicméně kódovací struktury jsou využitelné ve více výzkumech standardizace dokumentace, značení (value labels) kódování - samostatný proces u složitějších úloh Expert Tour Guide: https://www.cessda.eu/research-infrastructure/training/expert-tour- Guide-on-Data-Management/3.-Process/Quantitative-coding Management dat II. Snímek 13
Doporučení ke kódování Identifikační proměnné na začátku záznamů - jednoznačnost Kódy kategorií vzájemně exkluzivní, vyčerpávající a přesně definované Kódujte v největší možné podrobnosti. Informaci pak lze převést na méně podrobnou, opačně to nejde Uzavřené otázky: kódovací schéma v digitálním formátu, kvůli zabránění omylům Otevřené otázky: jakékoliv kódovací schéma je třeba uvést v dokumentaci Úplné odpovědi v textovém formátu: posouzení dat z hlediska ochrany osobních údajů Kontrola kódování: opětovné zakódování nezávislým kodérem - ověření práce kodéra i kódovacího schématu Série odpovědí: jestliže série odpovědí vyžadují více než jedno místo, je vhodné aplikovat společné kódovací schéma rozlišující hlavní a sekundární kategorie atd. Shodné kódovací struktury pro více znaků - systematicky vytvořené kódovací schéma Přebírání kódovacích struktur z jiných šetření - standardizace Management dat II. Snímek 14
Management dat II. Snímek 15
TAZATEL: FILTR - PTEJTE SE POKUD JE NEBO BYL/A RESPONDENT(KA) VÝDĚLEČNĚ ČINNÝ/Á (C4=1 NEBO 2) C11. Jaké je (bylo) Vaše současné (poslední) zaměstnání, jakou činnost při něm vykonáváte /jste vykonával/a? Uveďte název zaměstnání, stručně popište pracovní činnost, kterou (jste) v tomto zaměstnání děláte (dělal/a) a co je (bylo) hlavní náplní činnosti organizace, v níž pracujete (jste pracoval). TAZATEL: ODPOVĚĎ ZAZNAMENEJTE CO NEJPODROBNĚJI. U SOUKROMÝCH PODNIKATELŮ SPECIFIKUJTE OBOR / ČINNOST PODNIKÁNÍ. POKUD MÁ / MĚL RESPONDENT VÍCE ZAMĚSTNÁNÍ, PTEJTE SE NA HLAVNÍ = TO, V KTERÉM TRÁVÍ NEJVÍCE ČASU. NEVÍ 998, ODMÍTL/A ODPOVĚDĚT 999. Název zaměstnání (vypište)... Popis práce (vypište) Hlavní naplň činnosti organizace (vypište) Management dat II. Snímek 16
Chybějící hodnoty Žádná odpověď (No Answer, NA) Odmítnutí (Refusal) Neví (Do not Know, DK) Chyba zpracování (Processing Error) Nehodí se (Not Applicable/Inapplicable, NAP, INAP) Chybí přiřazená hodnota (No Match) Chybí údaj jednotný systém kódování Management dat II. Snímek 17
ESS 4 Management dat II. Snímek 18
Management dat II. Snímek 19
Zajištění integrity - kontrola kvality vkládání dat technologie a nastavení procesu vkládání (vývoj technologií a změny koncepce designu) nastavení pravidel kontroly při vkládání specializovaný software (data-entry, CATI/CAPI) - nebo aspoň nastavení pravidel v MS Excel doporučení pro vkládání nepřetěžovat operátory - kódování a vkládání jako samostatné úlohy méně kroků - redukce možností vzniku chyb specializovaný software umožňuje nastavit platné hodnoty a filtry dvojí vkládání a srovnání výsledků Management dat II. Snímek 20
Následná kontrola kvality kontrola úplnosti záznamů logická kontrola a kontrola konzistence dat, např.: kontrola rozsahu hodnot (např. věk respondenta vyšší než 100 let je nepravděpodobný) kontrola nejnižších a nejvyšších hodnot a extrémů kontrola poměrů souvisejících proměnných (např. dosaženému stupni vzdělání by měl odpovídat věk) srovnání s historickými daty (např. počet členů domácnosti mezi dvěma vlnami panel. výzk.) verifikace pomocí náhodných výběrů (testování, analýzy reliability a validity) automatické kontroly za pomoci počítače / určité procento, např. 5-10%, by mělo projít podrobnou hlubší kontrolou dokumentace změn v souboru; původní data obnovitelná kvalitativní data - kontrola přepisu, proof-reading dvojí kontrola, peer-review Management dat II. Snímek 21
Vážení Jsou v souboru váhy? Mám je použít? typ vah, popis vah (algoritmus), rozsah a průběh (DOKUMENTACE!) jaký je výsledek s váhou a bez váhy? Designové váhy: kompenzace rozdílu pravděpodobností výběru jednotek v souboru Vážení výpadků návratnosti: kompenzace rozdílů návratnosti u různých skupin Poststratifikační váhy: dosažení shody rozložení podle známých charakteristik populace Přizpůsobení poměrů skupin: různé skupiny mohou být zastoupené odlišně vzhledem k reálným poměrům (např. kvůli analýze větších celků (Evropa) v mezinárodní databázi) Kombinované, celkové váhy Management dat II. Snímek 22
Management dat II. Snímek 23
3000 VAHA 2000 1000,75,50 0 Std. Dev =,90 Mean =,99 N = 7549,00 Frequency,25 1,00 1,25 1,50 1,75 2,00 2,25 2,50 2,75 3,00 VAHA Management dat II. Snímek 24
Příklad: CHPS - post-stratifikační váhy pro různé skupiny respondentů Datový soubor obsahuje post-stratifikační váhy, které umožňují korigovat odchylky od populačních proporcí vzhledem k pohlaví, věku, vzdělání a kraji bydliště. Protože jednotlivé instrumenty a jejich kombinace vyplnila vždy jiná skupina respondentů, bylo připraveno 16 proměnných s vahami vztahujícími se k různým instrumentům a jejich kombinacím. Pro výběr těchto jednotlivých skupin respondentů slouží binární proměnné hh_hh až child_papi_diary. Binární proměnné hh_hh až child_papi_diary určují, zda člen domácnosti vyplnil daný instrument (bez ohledu na to, zda patřil do populace instrumentu). Pokud ano (1), je mu přiřazena hodnota vážící proměnné pro daný instrument nebo kombinaci instrumentů. Přehled binárních indikátorů a příslušných vah obsahuje tabulka 22, konstrukci dílčích vzorků respondentů ilustruje tabulka 25. Management dat II. Snímek 25
Management dat II. Snímek 26
Management dat II. Snímek 27
Management dat II. Snímek 28
Anonymizace - základní metody viz: https://www.ukdataservice.ac.uk/manage-data/legalethical/anonymisation/quantitative (UK Data Service) odstranění přímých identifikátorů úplné / částečné (datum narození - riziko), umístění do "karantény" (propojení kódem) pseudonymizace identifikace jednotlivce zvlášť (karanténa), propojení kódem deterministická modifikace (stejná původní hodnota nahrazena vždy stejnou modifikovanou hodnotou); také při prezentaci/publikaci; řádná dokumentace, co nahrazeno; konzistentní systém (stejné nahrazeni v databázi, prezentaci, opakovaném výzkumu...) agregace údajů a redukce podrobnosti znaku někdy též potlačení políček tabulek/skupin s malým počtem osob (též vkládání náhodné hodnoty - přičte/odečte se malá hodnota v některých políčkách); zaokrouhlování; standardní klasifikace... Snímek 29
Anonymizace - pokračování generalizace významu (string variables, ale též v případě redukce podrobnosti popisu hodnot) odstranění nebo nahrazení propojení s jinými dostupnými neanonymními databázemi nebo informacemi ošetření extrémních hodnot znaků anonymizace znaků o geografické lokaci (adresy, GPS) prezentace odvozených dat - reálné hodnoty nahrazené derivovanými tak, aby charakter zůstal zachován syntetizace dat - promíchání údajů, ale tak, aby celkové a dílčí součty stejné realizace výběru z vyčerpávajících seznamů Management dat II. Snímek 30
Management dat II. Snímek 31
Anonymizace kvalitativních dat pracné; snížení vypovídací hodnoty opatřit souhlasy, omezit na nutnou míru o kom všem data vypovídají? kdo dal souhlas? přepisy, audio, obrazové materiály... pseudonymizace, redukce podrobnosti - generická označení, kategorizace, kategorizace u jmen, odstranění/změna citlivých informací,... systematičnost!!!! podrobněji: viz např. Tomáš Bitrich nebo FSD: http://www.fsd.uta.fi/aineistonhallinta/en/anonymisation-and-identifiers.html; nebo https://www.ncbi.nlm.nih.gov/pmc/articles/pmc4582834/ "So my first workplace was [Company in Wholesale Trade, Town B] which was about 20 minutes from my home in [Town A]. My best colleagues from day one were [Female B], [Female C] and [Male D] and in fact, I am still very good friends with [Female B] to this day. She lives in the same parish still with her husband [Husband of B] and their son [Son of B]. They have strong religious beliefs as well. They re [specified faith]. We are used to meet at [place of worship]..." Snímek 32
Best practices for anonymising qualitative data (Expert Tour Guide: https://www.cessda.eu/research-infrastructure/training/expert-tour- Guide-on-Data-Management/5.-Protect/Anonymisation Using pseudonyms or generic descriptors to edit identifying information, rather than blanking-out that information; Plan anonymisation at the time of transcription or initial write-up, (longitudinal studies may be an exception if relationships between waves of interviews need special attention for harmonised editing); Use pseudonyms or replacements that are consistent within the research team and throughout the project. For example, using the same pseudonyms in publications and follow-up research; Use 'search and replace' techniques carefully so that unintended changes are not made, and misspelt words are not missed; Identify replacements in text clearly, for example with [brackets] or using XML tags such as <seg>word to be anonymised</seg>; Create an anonymisation log (also known as a de-anonymisation key) of all replacements, aggregations or removals made and store such a log securely and separately from the anonymised data files. Management dat II. Snímek 33
Dokumentace metadata porozumění - interpretace výzkumný tým ostatní výzkumníci pravidla, standardy ESOMAR, WAPOR/AAPOR... elementy dokumentace stanovit předem, protože pořízení obsahu v průběhu celého výzkumu formát dokumentace výzkumné nástroje, codebook, syntax, technická/metodologická zpráva, protokol o experimentu, popis transformací, schéma databáze mezinárodní standard DDI - standardizovaná struktura, XML formát tři základní úrovně projekt databáze proměnné a případy Management dat II. Snímek 34
Informace o projektu původ datového souboru název výzkumu (včetně zkratek, alternativních, cizojazyčných názvů...) institucionální informace (autoři, instituce, sponzoři a čísla grantů, zadavatelé...) abstrakt projektu, cíle, koncepty, hypotézy, odkazy na navazující projekty popis a metody sběru dat popis všech zdrojů, z nichž jsou data získána časové vymezení sběru dat časové a geografické pokrytí cílová populace jednotky pozorování popis výběrového designu včetně opory metody sběru dat původní výzkumný instrument a další materiály použité při sběru dat (zvací dopisy, pokyny pro tazatele atp.) použitá klasifikační schémata a koncepty návratnost a další vyhodnocení (např. známé odchylky od populace) identifikace změn metodiky u časových sérií a longitudiálních výzkumů Management dat II. Snímek 35
Informace o databázi popis datových souborů specifikace verze a edice souboru (pokud jich je víc) struktura souborů specifikace vztahů a propojení informace o rozsahu (počet záznamů a proměnných) informace o formátech a kompatibilitě. editace a modifikace dat metody a výsledky kontrol integrity, validizace, čištění dat, příp. dalších postupů ošetření kvality dat (kalibrace, imputace chybějících hodnot, okontrola a opravy přepisu atp.) anonymizace transformace a konstrukce odvozených proměnných vážení (identifikace proměnných pro vážení a popis metod a jejich konstrukce) Management dat II. Snímek 36
...informace o databázi přístup k datům vymezení přístupnosti, specifikace podmínek používání, informace o ochraně osobních údajů katalogizační a citační informace bibliografická informace, doporučená citace, klíčová slova, katagolizační údaje odkazy na související materiály a zdroje, pokud je to relevantní Expert Tour Guide: https://www.cessda.eu/research-infrastructure/training/expert-tour-guide-on-data- Management/2.-Organise-Document/Documentation-and-metadata Management dat II. Snímek 37
Informace o proměnných a případech informace o proměnných v souboru jména proměnných označení a popis proměnných a jejich hodnot včetně popisu odvozených proměnných k dispozici by mělo být přesné původní znění otázky frekvence, základní třídění apod. (?) informace o případech v souboru specifikace případů, pokud je to relevantní Management dat II. Snímek 38
Citace dat autorství (uznání, hodnocení věd. práce), identifikace dat, verifikovatelnost výsledků, sledování využití dat... praxe: podkapitola "data a metody", současně i citace zdrojů Open Access: data jako součást publikace; metadata jako součást dat; skripty; trvalé identifikátory DataCite: https://www.datacite.org/ hodnocení vědy (Thomson Reuters - WoS) Persistent Identifier - DOI; trvalá identifikace digitálního dokumentu uvádění vzorové citace jako součást dokumentace dat obdobně jako publikace - platné citační standardy Např. citace elektronického zdroje podle ČSN ISO 690: x Sociologický ústav AV ČR. Centrum pro výzkum veřejného mínění. Naše společnost 2013 - leden [datový soubor, online]. Verze 1.0. Praha: Český sociálněvědní datový archiv SOÚ AV ČR [distributor], 2013 [citováno 5.4.2016], doi: <http://dx.doi.org/10.14473/v1301>. 375 kb. Snímek 39
Citace (pokračování) minimum Creator (PublicationYear): Title. Publisher. Identifier Creator (Publ.Year): Title. Version. Publisher. ResourceType. Identifier Denhard, Michael (2009): dphase_mpeps: MicroPEPS LAF Ensemble run by DWD for the MAP D PHASE project. World Data Center for Climate. http://dx.doi.org/10.1594/wdcc/dphase_mpeps IASSIST: Quick Guide to Data Citation, http://www.icpsr.umich.edu/files/icpsr/enewsletters/iassist.html 1) Autorství: individuální nebo institucionální entity (všechny?) 2) Datum publikace: vytvoření (nebo zpřístupnění) 3) Titul: co nejkompletnější, vč. např. evidenčního čísla, id verze 4) Vydavatel a/nebo distributor: instituce - vytvoření, publikace, archivace, distribuce 5) Elektronická adresa nebo trvalý identifikátor (například DOI Digital Object Identifier). Při citaci Webu je nutné doplnit i informaci, kdy byla data získána. Management dat II. Snímek 40
Verze a edice databáze správa dat, analýzy => více verzí a edicí => strategie jejich správy jednoznačná identifikace verzí a edicí, přehled o rozdílech zajištění autenticity (zabránit neautorizovaným zásahům) doporučení stanovit podmínky používání dat a seznámit s nimi uživatele rozlišovat mezi verzemi sdílenými více výzkumníky a prac. verzemi jednotlivců zavést jednoznačné a systematické značení verzí a edicí datového souboru vést záznamy o vytváření verzí a edicí, jejich obsahu a vzájemných vztazích dokumentovat provedené změny zachovávat původní verze datových souborů, resp. materiály umožňující rekonstrukce původních souborů (např. syntax) stanovit master file a přijmout opatření k zachování jeho autenticity, tj. vhodně jej umístit a vymezit přístupová práva a odpovědnosti, kdo a jaké změny smí provádět pokud je více kopií stejné verze, kontrolovat jejich shodnost Management dat II. Snímek 41
Organizace dat: struktura adresářů Logika organizace tématická struktura různé komponenty výzkumu, typy výzkumných aktivit (dotazníky pro domácnost/různé členy..., kontextová data, rozhovory, šetření, focus groups...) typy dat (text, databáze, obrazové materiály...) datový soubor - dokumentace archivní a pracovní soubory, master file verze a edice Management dat II. Snímek 42
Formáty pravidelné zálohování a obnova - archivace je proces digitální média z principu nespolehlivá software, instituce atd. procházejí změnami + další rizika vytvoření dat - determinováno technologií (audio, video...kamera...) kratší čas - operabilita formáty navázané na kokrétní software, ale lépe jejich transportní verze (SPSS: *.por); SPSS, STATA, SAS, CAQDAS, ATLAS.ti, NVivo diakritika => pozor na kódování znaků (UTF 8) uložení na delší čas jednoduché textové formáty (ASCII - fixní/volné) + strukturovaná dokumentace otevření/vytvoření ASCII data file, viz Analytické metody - Transformace dat pomocí syntaxe, http://archiv.soc.cas.cz/analyticke-metody-vyzkumu-pro-magistry PDF/A (archivační verze PDF definovaná ISO) Snímek 43
otevřené a proprietární formáty uzavřené - definice a možnosti rozvojec nejsou veřejné (MP3, MPEG, PSG...) otevřené (ASCII, PDF, Open Document Format, Office Open XML, JPEG 2000, PNG, SVG, HTML, XHTML, RSS, CSS...) formáty redukující informaci např. JPEG vs. TIFF bez redukce; MP3 vs. WAV bez redukce) standardy (ISO) užitečné nástroje FIDO (Format Identification for Digital Objects): identifikace formátu http://openpreservation.org/technology/products/fido/ Apache Tika: software na obsahovou analýzu; detekce a extrakce metadat and textu z množství různých formátů https://tika.apache.org/ média nezáleží jen na typu, ale i kvalitě; náchylnost k fyzickému poškození nejméně dvě různé formy archivace pravidelné přehrávání na nová média Snímek 44
Doporučené formáty pro uložení dat (UK Data Archive 2013) Snímek 45
Děkuji za pozornost a prosím o Vaše otázky Management dat II. Snímek 46