Management sociálních dat a datové archivy Kurz ISS FSV UK. Management dat II.: založení a správa datového souboru Jindřich Krejčí

Podobné dokumenty
Management dat ve výzkumném projektu

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Formáty a dlouhodobé uložení: Identifikace, extrakce a validace

Zpráva o výsledcích výzkumu postojů rodičů žáků 5. ročníku k otázkám spravedlivého přístupu ke vzdělávání a překonávání školního neúspěchu

WORKSHEET 1: LINEAR EQUATION 1

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Sociologický výzkum (stručný úvod) Michal Peliš

Digitální učební materiál

Data management plan (DMP)

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

Průzkumy dopravního chování: základní zdroj dat o dopravní poptávce. Petr Šenk Centrum dopravního výzkumu, v.v.i.

GEN104 Koncipování empirického výzkumu

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

Co nás čeká při skartačním řízení? Připravte se na změny balíčku SIP

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

SMÍŠENÉ MODY SBĚRU DAT - DRUHY CHYB A MOŽNOSTI SROVNATELNOSTI

Metodický manuál pro vypracování seminární práce

Compression of a Dictionary

PŘÍLOHA C Požadavky na Dokumentaci

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

Sociálněvědní datové služby Výzkumný program ISSP

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Problém identity instancí asociačních tříd

O co vlastně jde? Meze a limity terénních šetření a jejich řešení v praxi marketingového výzkumu. Kombinace metodologií sběru dat

Ontologie Příklady. Přednáška z předmětu Socioekonomická geografie pro geomatiku (KMA/SGG) Otakar Čerba Západočeská univerzita

Seminář pro vedoucí knihoven a SVI ústavů AV ČR

Ředitel odboru archivní správy a spisové služby PhDr. Jiří ÚLOVEC v. r.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Jak importovat profily do Cura (Windows a

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Varianty výzkumu Kroky výzkumu Výběrový soubor

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

5.VY_32_INOVACE_AJ_UMB5, Vztažné věty.notebook. September 09, 2013

Závěrečná zpráva z výzkumu

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

EXACT DS OFFICE. The best lens for office work

Sociální sítě jako Velký bratr. Martin Klubal AEC a.s.

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

TESTOVÁNÍ PRAKTICKÝCH ZNALOSTÍ STUDENTŮ HISTOLOGIE V PROSTŘEDÍ POČÍTAČOVÉ UČEBNY

ICCS 2009 od návrhu výzkumu ke zpracování dat

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Spokojenost se životem

SenseLab. z / from CeMaS. Otevřené sledování senzorů, ovládání zařízení, nahrávání a přehrávání ve Vaší laboratoři

IPR v H2020. Matěj Myška myska@ctt.muni.cz

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

METODY VÝZKUMU GENDEROVÉ PROBLEMATIKY

Sylabus předmětu: Metodologie kvantitativního výzkumu

Why PRIME? 20 years of Erasmus Programme Over 2 million students in total Annually

EXTRAKT z mezinárodní normy

TECHNICKÁ NORMALIZACE V OBLASTI PROSTOROVÝCH INFORMACÍ

MODERNÍ MARKETINGOVÝ VÝZKUM

Proces marketingového výzkumu - jednotlivé fáze, význam, stručná charakteristika. Výběr a formulace výzkumného problému. Vztahy mezi proměnnými.

Veritas Information Governance získejte zpět kontrolu nad vašimi daty

II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách

Vznik a vývoj DDI. Struktura DDI. NESSTAR Systém pro publikování, prezentaci a analýzu dat. PhDr. Martin Vávra, Mgr. Tomáš Čížek

Archivační řád Českého sociálněvědního datového archivu (ČSDA)

Přidružené publikace v České republice

Introduction to MS Dynamics NAV

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

KROKY PŘI PŘÍPRAVĚ A REALIZACI DOTAZNÍKOVÉHO ŠETŘENÍ

Dolování v objektových datech. Ivana Rudolfová

Obsah&/&Content& Všeobecné)podmínky)(v)češtině)) Terms)and)Conditions)(in)english)) )

DUM DIGITÁLNÍ UČEBNÍ MATERIÁL ANGLIČTINA. Mgr. Kateřina Kasanová

CO DĚLAT, ABY BYLA DATA V DOKTORSKÝCH DISERTACÍCH ZNOVU VYUŽITELNÁ PRO VÝZKUM? Joachim Schöpfel Hélène Prost Cécile Malleret

DTD pro zvukové dokumenty

EU peníze středním školám digitální učební materiál

S M Ě R N I C E č. 6/2014 ministra financí

Formáty WWW zdrojů. Mgr. Filip Vojtášek.

POPIS STANDARDU CEN TC278/WG4. Oblast: TTI. Zkrácený název: Zprávy přes CN 3. Norma číslo:

Národní technické specifikace. služeb nad prostorovými daty a metadaty

Vzdělávací oblast: Inovace a zkvalitnění Vzdělávací obor: žáci SOU všechny obory výuky cizích jazyků na středních školách

Omnibus Chlumčanského 497/ Praha 8

Statistická šetření - PROČ? Žádná věda není skutečnou vědou, není-li podložena matematickými principy. (L.da Vinci)

Příprava souboru dat a analýza

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Aktivita FCE V. Stručný popis aktivity: žáci si prohloubí slovní zásobu, práci s textem

DC circuits with a single source

EXTRAKT z české technické normy

8.2 Používání a tvorba databází

MBI - technologická realizace modelu

CZ.1.07/1.5.00/

Content management: organizace informací na webových stránkách. Petr Boldiš Studijní a informační centrum Česká zemědělská univerzita v Praze

Výzva k podání nabídky. na realizaci dotazníkového šetření. v rámci řešení projektu. Analýza distribučních a sociálních dopadů sektorových politik

Omnibus Smrčkova 2485/ Praha 8

Zpráva o zhotoveném plnění

Omnibus STEM/MARK 2014

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Soubory KAPITOLA 1. Manuální zápis dat do souboru

Témata k závěrečným bakalářským zkouškám 2019

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

VY_22_INOVACE_CJ_III/2.21

PART 2 - SPECIAL WHOLESALE OFFER OF PLANTS SPRING 2016 NEWS MAY 2016 SUCCULENT SPECIAL WHOLESALE ASSORTMENT

Transkript:

Management sociálních dat a datové archivy Kurz ISS FSV UK Management dat II.: založení a správa datového souboru Jindřich Krejčí

Cíle managementu dat integrita dat, kvalita dat - přesnost a správnost výzkumu srozumitelnost pro všechny potenciální uživatele efektivita výzkumné práce - čas a náklady autenticita dat - možnost replikace, opravy analýz zajištění legálních a formálních předpokladů výzkumu zabezpečení a zachování dat zpřístupnění dat Management dat II. Snímek 2

Organizace dat: Struktura datového souboru flat file - obdélníkový datový soubor, datová matice hiearchický soubor: záznamy vyššího a nižšího řádu uspořádány v hiearchické struktuře (např. data z šetření domácností, kde v jedné úrovni jsou zaznamenány údaje o domácnostech a v další úrovni údaje o jednotlivých členech domácností) relační databáze: systém datových tabulek a asociací mezi nimi. např. výzkum domácností, kdy údaje členů domácnosti jsou zaznamenány v samostatných tabulkách propojených parametrem reprezentujícím sounáležitost a vztah mezi členy domácnosti (lze např. vyhledávat řádky se shodnými atributy a vytvářet podsoubory) Management dat II. Snímek 3

When deciding on data file structure, consider the following Units of analysis, objectives and methods of analysis to be used; Relations between different content items and parts of your data file; to sources of your data; to any other relevant external data and information and their structure. Possibilities of building connections to other existing or future data files (future additions of new data or creation of cumulative data files); Possible strategies for version control; Possible technical limitations, e.g. operability in relation to the size of the data file (consider that large and complicated structures may put high demands on both data management and computing capacities. Some software programs also have limitations with respect to the number of variables and cases they can manage); Software you are going to use (this should be done also with respect to flexibility because of possible secondary analysis of your data in other software). https://www.cessda.eu/research-infrastructure/training/expert-tour-guide-on-data-management/2.-organise- Document/Designing-a-data-file-structure Snímek 4

Příklad: SHARE Management dat II. Snímek 5

Who answers what in the CAPI questionnaire? mergeid - unique identifier for all waves. CC-hhhhhh-rr, CC = country code, hhhhhh = household identifier, rr = respondent identifier within each household hhid identifies the household to which a person belonged when entering the panel hhidw identifies the household, where W refers to the specific wave Management dat II. Snímek 6

Příklad - České panelové šetření domácností, W1 Výzkumné instrumenty Management dat II. Snímek 7

CHPS, W1 - pouze jeden datový soubor Management dat II. Snímek 8

Datový soubor obsahuje 13 049 případů, které reprezentují členy dotázaných domácností. Pro každého člena domácnosti jsou dostupné domácnostní a individuální údaje z CAPI dotazníku pro domácnost. Hodnoty proměnných na úrovni domácnosti jsou všem členům domácnosti společné. Hodnoty proměnných z dalších dotazníků (CAPI individuální a proxy dotazník, PAPI dotazníky) jsou dostupné jen u respondentů, kteří vyplnili daný dotazový instrument, v opačném případě je hodnota prázdná (system missing). Schéma struktury datového souboru ilustruje tabulka 8. Management dat II. Snímek 9

Pojmenování datových souborů systematicky, krátké názvy odkazující na obsah a/nebo vznik rozlišení sérií, verzí a edicí (viz dále) konzistentní formát nezávislost jména na umístění a software nepoužívat speciální znaky, místo mezer podtržítka, velká/malá písmena mohou být při převodu nestabilní (převoditelnost mezi systémy)... scalability (rozsah kódu odpovídá počtu verzí, y2k problem...) když hodně souborů lze použít nástroje na automatické přejmenování (batch renaming), např.: Ant Renamer (http://www.antp.be/software/renamer) RenameIT (https://sourceforge.net/projects/renameit/) Bulk Rename Utility (http://www.bulkrenameutility.co.uk/) File naming and folder structure (Expert Tour Guide) https://www.cessda.eu/research-infrastructure/training/expert-tour-guide-on-data-management/2.- Organise-Document/File-naming-and-folder-structure Management dat II. Snímek 10

Proměnné variable names, varible labels řazení a označení dotváří strukturu souboru vzájemné vztahy mezi proměnnými návaznost na další prvky výzkumu (různé zdroje dat, návaznost na dotazník, jiné soubory atp.) pomocné proměnné pro organizaci a správu souboru variable names = volací znaky v software (nezačínat číslem, 8 míst...) => převoditelnost formátu dat přehlednost prezentace dat systémy značení číselný kód (V001, V002...) kód odkazující na výzkumný nástroj (Q1a, Q1b... mnemotechnická jména (BIRTH, EDUC...) variable labels srozumitelnost, návaznost na prvky výzkumu (kódy otázek, zdroje dat...), délka, diakritika formát proměnné (typ proměnné, počet znaků) možnosti analýzy, velikost souboru Expert Tour Guide: https://www.cessda.eu/research-infrastructure/training/expert-tour-guide-on-data-management/2.- Organise-Document/Designing-a-data-file-structure/Organisation-of-variables Management dat II. Snímek 11

Management dat II. Snímek 12

Hodnoty proměnných naměřené hodnoty / odpovědi / audio / video / vzorky... numerické kódování - ve všech stat. softwarech => převoditelnost někdy komplikovaný kognitivní proces (teoreticky a analyticky zal.) příklad ISCO (Harry) kódované kategorie by měly být vztaženy k obsahu testovaných hypotéz, nicméně kódovací struktury jsou využitelné ve více výzkumech standardizace dokumentace, značení (value labels) kódování - samostatný proces u složitějších úloh Expert Tour Guide: https://www.cessda.eu/research-infrastructure/training/expert-tour- Guide-on-Data-Management/3.-Process/Quantitative-coding Management dat II. Snímek 13

Doporučení ke kódování Identifikační proměnné na začátku záznamů - jednoznačnost Kódy kategorií vzájemně exkluzivní, vyčerpávající a přesně definované Kódujte v největší možné podrobnosti. Informaci pak lze převést na méně podrobnou, opačně to nejde Uzavřené otázky: kódovací schéma v digitálním formátu, kvůli zabránění omylům Otevřené otázky: jakékoliv kódovací schéma je třeba uvést v dokumentaci Úplné odpovědi v textovém formátu: posouzení dat z hlediska ochrany osobních údajů Kontrola kódování: opětovné zakódování nezávislým kodérem - ověření práce kodéra i kódovacího schématu Série odpovědí: jestliže série odpovědí vyžadují více než jedno místo, je vhodné aplikovat společné kódovací schéma rozlišující hlavní a sekundární kategorie atd. Shodné kódovací struktury pro více znaků - systematicky vytvořené kódovací schéma Přebírání kódovacích struktur z jiných šetření - standardizace Management dat II. Snímek 14

Management dat II. Snímek 15

TAZATEL: FILTR - PTEJTE SE POKUD JE NEBO BYL/A RESPONDENT(KA) VÝDĚLEČNĚ ČINNÝ/Á (C4=1 NEBO 2) C11. Jaké je (bylo) Vaše současné (poslední) zaměstnání, jakou činnost při něm vykonáváte /jste vykonával/a? Uveďte název zaměstnání, stručně popište pracovní činnost, kterou (jste) v tomto zaměstnání děláte (dělal/a) a co je (bylo) hlavní náplní činnosti organizace, v níž pracujete (jste pracoval). TAZATEL: ODPOVĚĎ ZAZNAMENEJTE CO NEJPODROBNĚJI. U SOUKROMÝCH PODNIKATELŮ SPECIFIKUJTE OBOR / ČINNOST PODNIKÁNÍ. POKUD MÁ / MĚL RESPONDENT VÍCE ZAMĚSTNÁNÍ, PTEJTE SE NA HLAVNÍ = TO, V KTERÉM TRÁVÍ NEJVÍCE ČASU. NEVÍ 998, ODMÍTL/A ODPOVĚDĚT 999. Název zaměstnání (vypište)... Popis práce (vypište) Hlavní naplň činnosti organizace (vypište) Management dat II. Snímek 16

Chybějící hodnoty Žádná odpověď (No Answer, NA) Odmítnutí (Refusal) Neví (Do not Know, DK) Chyba zpracování (Processing Error) Nehodí se (Not Applicable/Inapplicable, NAP, INAP) Chybí přiřazená hodnota (No Match) Chybí údaj jednotný systém kódování Management dat II. Snímek 17

ESS 4 Management dat II. Snímek 18

Management dat II. Snímek 19

Zajištění integrity - kontrola kvality vkládání dat technologie a nastavení procesu vkládání (vývoj technologií a změny koncepce designu) nastavení pravidel kontroly při vkládání specializovaný software (data-entry, CATI/CAPI) - nebo aspoň nastavení pravidel v MS Excel doporučení pro vkládání nepřetěžovat operátory - kódování a vkládání jako samostatné úlohy méně kroků - redukce možností vzniku chyb specializovaný software umožňuje nastavit platné hodnoty a filtry dvojí vkládání a srovnání výsledků Management dat II. Snímek 20

Následná kontrola kvality kontrola úplnosti záznamů logická kontrola a kontrola konzistence dat, např.: kontrola rozsahu hodnot (např. věk respondenta vyšší než 100 let je nepravděpodobný) kontrola nejnižších a nejvyšších hodnot a extrémů kontrola poměrů souvisejících proměnných (např. dosaženému stupni vzdělání by měl odpovídat věk) srovnání s historickými daty (např. počet členů domácnosti mezi dvěma vlnami panel. výzk.) verifikace pomocí náhodných výběrů (testování, analýzy reliability a validity) automatické kontroly za pomoci počítače / určité procento, např. 5-10%, by mělo projít podrobnou hlubší kontrolou dokumentace změn v souboru; původní data obnovitelná kvalitativní data - kontrola přepisu, proof-reading dvojí kontrola, peer-review Management dat II. Snímek 21

Vážení Jsou v souboru váhy? Mám je použít? typ vah, popis vah (algoritmus), rozsah a průběh (DOKUMENTACE!) jaký je výsledek s váhou a bez váhy? Designové váhy: kompenzace rozdílu pravděpodobností výběru jednotek v souboru Vážení výpadků návratnosti: kompenzace rozdílů návratnosti u různých skupin Poststratifikační váhy: dosažení shody rozložení podle známých charakteristik populace Přizpůsobení poměrů skupin: různé skupiny mohou být zastoupené odlišně vzhledem k reálným poměrům (např. kvůli analýze větších celků (Evropa) v mezinárodní databázi) Kombinované, celkové váhy Management dat II. Snímek 22

Management dat II. Snímek 23

3000 VAHA 2000 1000,75,50 0 Std. Dev =,90 Mean =,99 N = 7549,00 Frequency,25 1,00 1,25 1,50 1,75 2,00 2,25 2,50 2,75 3,00 VAHA Management dat II. Snímek 24

Příklad: CHPS - post-stratifikační váhy pro různé skupiny respondentů Datový soubor obsahuje post-stratifikační váhy, které umožňují korigovat odchylky od populačních proporcí vzhledem k pohlaví, věku, vzdělání a kraji bydliště. Protože jednotlivé instrumenty a jejich kombinace vyplnila vždy jiná skupina respondentů, bylo připraveno 16 proměnných s vahami vztahujícími se k různým instrumentům a jejich kombinacím. Pro výběr těchto jednotlivých skupin respondentů slouží binární proměnné hh_hh až child_papi_diary. Binární proměnné hh_hh až child_papi_diary určují, zda člen domácnosti vyplnil daný instrument (bez ohledu na to, zda patřil do populace instrumentu). Pokud ano (1), je mu přiřazena hodnota vážící proměnné pro daný instrument nebo kombinaci instrumentů. Přehled binárních indikátorů a příslušných vah obsahuje tabulka 22, konstrukci dílčích vzorků respondentů ilustruje tabulka 25. Management dat II. Snímek 25

Management dat II. Snímek 26

Management dat II. Snímek 27

Management dat II. Snímek 28

Anonymizace - základní metody viz: https://www.ukdataservice.ac.uk/manage-data/legalethical/anonymisation/quantitative (UK Data Service) odstranění přímých identifikátorů úplné / částečné (datum narození - riziko), umístění do "karantény" (propojení kódem) pseudonymizace identifikace jednotlivce zvlášť (karanténa), propojení kódem deterministická modifikace (stejná původní hodnota nahrazena vždy stejnou modifikovanou hodnotou); také při prezentaci/publikaci; řádná dokumentace, co nahrazeno; konzistentní systém (stejné nahrazeni v databázi, prezentaci, opakovaném výzkumu...) agregace údajů a redukce podrobnosti znaku někdy též potlačení políček tabulek/skupin s malým počtem osob (též vkládání náhodné hodnoty - přičte/odečte se malá hodnota v některých políčkách); zaokrouhlování; standardní klasifikace... Snímek 29

Anonymizace - pokračování generalizace významu (string variables, ale též v případě redukce podrobnosti popisu hodnot) odstranění nebo nahrazení propojení s jinými dostupnými neanonymními databázemi nebo informacemi ošetření extrémních hodnot znaků anonymizace znaků o geografické lokaci (adresy, GPS) prezentace odvozených dat - reálné hodnoty nahrazené derivovanými tak, aby charakter zůstal zachován syntetizace dat - promíchání údajů, ale tak, aby celkové a dílčí součty stejné realizace výběru z vyčerpávajících seznamů Management dat II. Snímek 30

Management dat II. Snímek 31

Anonymizace kvalitativních dat pracné; snížení vypovídací hodnoty opatřit souhlasy, omezit na nutnou míru o kom všem data vypovídají? kdo dal souhlas? přepisy, audio, obrazové materiály... pseudonymizace, redukce podrobnosti - generická označení, kategorizace, kategorizace u jmen, odstranění/změna citlivých informací,... systematičnost!!!! podrobněji: viz např. Tomáš Bitrich nebo FSD: http://www.fsd.uta.fi/aineistonhallinta/en/anonymisation-and-identifiers.html; nebo https://www.ncbi.nlm.nih.gov/pmc/articles/pmc4582834/ "So my first workplace was [Company in Wholesale Trade, Town B] which was about 20 minutes from my home in [Town A]. My best colleagues from day one were [Female B], [Female C] and [Male D] and in fact, I am still very good friends with [Female B] to this day. She lives in the same parish still with her husband [Husband of B] and their son [Son of B]. They have strong religious beliefs as well. They re [specified faith]. We are used to meet at [place of worship]..." Snímek 32

Best practices for anonymising qualitative data (Expert Tour Guide: https://www.cessda.eu/research-infrastructure/training/expert-tour- Guide-on-Data-Management/5.-Protect/Anonymisation Using pseudonyms or generic descriptors to edit identifying information, rather than blanking-out that information; Plan anonymisation at the time of transcription or initial write-up, (longitudinal studies may be an exception if relationships between waves of interviews need special attention for harmonised editing); Use pseudonyms or replacements that are consistent within the research team and throughout the project. For example, using the same pseudonyms in publications and follow-up research; Use 'search and replace' techniques carefully so that unintended changes are not made, and misspelt words are not missed; Identify replacements in text clearly, for example with [brackets] or using XML tags such as <seg>word to be anonymised</seg>; Create an anonymisation log (also known as a de-anonymisation key) of all replacements, aggregations or removals made and store such a log securely and separately from the anonymised data files. Management dat II. Snímek 33

Dokumentace metadata porozumění - interpretace výzkumný tým ostatní výzkumníci pravidla, standardy ESOMAR, WAPOR/AAPOR... elementy dokumentace stanovit předem, protože pořízení obsahu v průběhu celého výzkumu formát dokumentace výzkumné nástroje, codebook, syntax, technická/metodologická zpráva, protokol o experimentu, popis transformací, schéma databáze mezinárodní standard DDI - standardizovaná struktura, XML formát tři základní úrovně projekt databáze proměnné a případy Management dat II. Snímek 34

Informace o projektu původ datového souboru název výzkumu (včetně zkratek, alternativních, cizojazyčných názvů...) institucionální informace (autoři, instituce, sponzoři a čísla grantů, zadavatelé...) abstrakt projektu, cíle, koncepty, hypotézy, odkazy na navazující projekty popis a metody sběru dat popis všech zdrojů, z nichž jsou data získána časové vymezení sběru dat časové a geografické pokrytí cílová populace jednotky pozorování popis výběrového designu včetně opory metody sběru dat původní výzkumný instrument a další materiály použité při sběru dat (zvací dopisy, pokyny pro tazatele atp.) použitá klasifikační schémata a koncepty návratnost a další vyhodnocení (např. známé odchylky od populace) identifikace změn metodiky u časových sérií a longitudiálních výzkumů Management dat II. Snímek 35

Informace o databázi popis datových souborů specifikace verze a edice souboru (pokud jich je víc) struktura souborů specifikace vztahů a propojení informace o rozsahu (počet záznamů a proměnných) informace o formátech a kompatibilitě. editace a modifikace dat metody a výsledky kontrol integrity, validizace, čištění dat, příp. dalších postupů ošetření kvality dat (kalibrace, imputace chybějících hodnot, okontrola a opravy přepisu atp.) anonymizace transformace a konstrukce odvozených proměnných vážení (identifikace proměnných pro vážení a popis metod a jejich konstrukce) Management dat II. Snímek 36

...informace o databázi přístup k datům vymezení přístupnosti, specifikace podmínek používání, informace o ochraně osobních údajů katalogizační a citační informace bibliografická informace, doporučená citace, klíčová slova, katagolizační údaje odkazy na související materiály a zdroje, pokud je to relevantní Expert Tour Guide: https://www.cessda.eu/research-infrastructure/training/expert-tour-guide-on-data- Management/2.-Organise-Document/Documentation-and-metadata Management dat II. Snímek 37

Informace o proměnných a případech informace o proměnných v souboru jména proměnných označení a popis proměnných a jejich hodnot včetně popisu odvozených proměnných k dispozici by mělo být přesné původní znění otázky frekvence, základní třídění apod. (?) informace o případech v souboru specifikace případů, pokud je to relevantní Management dat II. Snímek 38

Citace dat autorství (uznání, hodnocení věd. práce), identifikace dat, verifikovatelnost výsledků, sledování využití dat... praxe: podkapitola "data a metody", současně i citace zdrojů Open Access: data jako součást publikace; metadata jako součást dat; skripty; trvalé identifikátory DataCite: https://www.datacite.org/ hodnocení vědy (Thomson Reuters - WoS) Persistent Identifier - DOI; trvalá identifikace digitálního dokumentu uvádění vzorové citace jako součást dokumentace dat obdobně jako publikace - platné citační standardy Např. citace elektronického zdroje podle ČSN ISO 690: x Sociologický ústav AV ČR. Centrum pro výzkum veřejného mínění. Naše společnost 2013 - leden [datový soubor, online]. Verze 1.0. Praha: Český sociálněvědní datový archiv SOÚ AV ČR [distributor], 2013 [citováno 5.4.2016], doi: <http://dx.doi.org/10.14473/v1301>. 375 kb. Snímek 39

Citace (pokračování) minimum Creator (PublicationYear): Title. Publisher. Identifier Creator (Publ.Year): Title. Version. Publisher. ResourceType. Identifier Denhard, Michael (2009): dphase_mpeps: MicroPEPS LAF Ensemble run by DWD for the MAP D PHASE project. World Data Center for Climate. http://dx.doi.org/10.1594/wdcc/dphase_mpeps IASSIST: Quick Guide to Data Citation, http://www.icpsr.umich.edu/files/icpsr/enewsletters/iassist.html 1) Autorství: individuální nebo institucionální entity (všechny?) 2) Datum publikace: vytvoření (nebo zpřístupnění) 3) Titul: co nejkompletnější, vč. např. evidenčního čísla, id verze 4) Vydavatel a/nebo distributor: instituce - vytvoření, publikace, archivace, distribuce 5) Elektronická adresa nebo trvalý identifikátor (například DOI Digital Object Identifier). Při citaci Webu je nutné doplnit i informaci, kdy byla data získána. Management dat II. Snímek 40

Verze a edice databáze správa dat, analýzy => více verzí a edicí => strategie jejich správy jednoznačná identifikace verzí a edicí, přehled o rozdílech zajištění autenticity (zabránit neautorizovaným zásahům) doporučení stanovit podmínky používání dat a seznámit s nimi uživatele rozlišovat mezi verzemi sdílenými více výzkumníky a prac. verzemi jednotlivců zavést jednoznačné a systematické značení verzí a edicí datového souboru vést záznamy o vytváření verzí a edicí, jejich obsahu a vzájemných vztazích dokumentovat provedené změny zachovávat původní verze datových souborů, resp. materiály umožňující rekonstrukce původních souborů (např. syntax) stanovit master file a přijmout opatření k zachování jeho autenticity, tj. vhodně jej umístit a vymezit přístupová práva a odpovědnosti, kdo a jaké změny smí provádět pokud je více kopií stejné verze, kontrolovat jejich shodnost Management dat II. Snímek 41

Organizace dat: struktura adresářů Logika organizace tématická struktura různé komponenty výzkumu, typy výzkumných aktivit (dotazníky pro domácnost/různé členy..., kontextová data, rozhovory, šetření, focus groups...) typy dat (text, databáze, obrazové materiály...) datový soubor - dokumentace archivní a pracovní soubory, master file verze a edice Management dat II. Snímek 42

Formáty pravidelné zálohování a obnova - archivace je proces digitální média z principu nespolehlivá software, instituce atd. procházejí změnami + další rizika vytvoření dat - determinováno technologií (audio, video...kamera...) kratší čas - operabilita formáty navázané na kokrétní software, ale lépe jejich transportní verze (SPSS: *.por); SPSS, STATA, SAS, CAQDAS, ATLAS.ti, NVivo diakritika => pozor na kódování znaků (UTF 8) uložení na delší čas jednoduché textové formáty (ASCII - fixní/volné) + strukturovaná dokumentace otevření/vytvoření ASCII data file, viz Analytické metody - Transformace dat pomocí syntaxe, http://archiv.soc.cas.cz/analyticke-metody-vyzkumu-pro-magistry PDF/A (archivační verze PDF definovaná ISO) Snímek 43

otevřené a proprietární formáty uzavřené - definice a možnosti rozvojec nejsou veřejné (MP3, MPEG, PSG...) otevřené (ASCII, PDF, Open Document Format, Office Open XML, JPEG 2000, PNG, SVG, HTML, XHTML, RSS, CSS...) formáty redukující informaci např. JPEG vs. TIFF bez redukce; MP3 vs. WAV bez redukce) standardy (ISO) užitečné nástroje FIDO (Format Identification for Digital Objects): identifikace formátu http://openpreservation.org/technology/products/fido/ Apache Tika: software na obsahovou analýzu; detekce a extrakce metadat and textu z množství různých formátů https://tika.apache.org/ média nezáleží jen na typu, ale i kvalitě; náchylnost k fyzickému poškození nejméně dvě různé formy archivace pravidelné přehrávání na nová média Snímek 44

Doporučené formáty pro uložení dat (UK Data Archive 2013) Snímek 45

Děkuji za pozornost a prosím o Vaše otázky Management dat II. Snímek 46