Management dat ve výzkumném projektu



Podobné dokumenty
Vývoj v oblasti zdrojů dat

Sociálněvědní datové služby Výzkumný program ISSP

Management sociálních dat a datové archivy Kurz ISS FSV UK. Management dat II.: založení a správa datového souboru Jindřich Krejčí

CO DĚLAT, ABY BYLA DATA V DOKTORSKÝCH DISERTACÍCH ZNOVU VYUŽITELNÁ PRO VÝZKUM? Joachim Schöpfel Hélène Prost Cécile Malleret

Data management plan (DMP)

Akademické publikování a autorské právo. Lucie Straková Martin Loučka Konference OpenAlt

Sdílení dat v sociálních vědách Jindřich Krejčí

Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i. Jilská 1, Praha 1, Česká republika;

Průzkumy dopravního chování: základní zdroj dat o dopravní poptávce. Petr Šenk Centrum dopravního výzkumu, v.v.i.

Zpráva o výsledcích výzkumu postojů rodičů žáků 5. ročníku k otázkám spravedlivého přístupu ke vzdělávání a překonávání školního neúspěchu

Otevřený přístup (Open Access) v Akademii věd ČR

PŘÍLOHA C Požadavky na Dokumentaci

Základy autorského práva pro akademické pracovníky

vaným vědeckým Politologická roce Religiozita po - 5 -

UKLÁDÁNÍ DATASETŮ DO REPOZITÁŘE ASEP. Zdeňka Chmelařová

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

Otevřený přístup v evropském kontextu

Autorské právo. SŠSI Tábor - Aplikační software 1

Přidružené publikace v České republice

Horizont 2020 a otevřený přístup k vědeckým publikacím a výzkumným datům:

Vznik a vývoj DDI. Struktura DDI. NESSTAR Systém pro publikování, prezentaci a analýzu dat. PhDr. Martin Vávra, Mgr. Tomáš Čížek

Aktuální hlediska a trendy v přístupu k vědeckým informacím a datům. David Novák Archeologický ústav AV ČR, Praha, v. v. i.

Autorské právo se týká ochrany výsledků práce autora nějakého díla (autorského díla). Může jít o knihu, obraz, umělecký výkon, fotografii, záznam,

ICCS 2009 od návrhu výzkumu ke zpracování dat

Seminář pro vedoucí knihoven a SVI ústavů AV ČR

Úvod do autorského práva, ochrana software, licence. SŠSI Tábor - Aplikační software 1

Zpráva o zhotoveném plnění

Přístup k datům za účelem vědeckého výzkumu

Národní úložiště šedé literatury v roce Mgr. Petr Novák Státní technická knihovna Praha

Průvodce výzkumným rozpočtem aneb kde se opravdu (ne)dá ušetřit

Krajská koncepce e-gov

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

S M Ě R N I C E č. 6/2014 ministra financí

Osobní archivy publikovaných odborných prací v medicíně jako součást Digitální knihovny NLK

Šedá literatura case study v ČR

Národní úložiště šedé literatury

Institut průmyslově právní výchovy. P O K Y N Y pro vypracování odborné práce

Opatření děkana LF MU č. 5/2013 k zajištění ověřitelnosti výzkumných dat. Část I. Základní ustanovení

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

O co vlastně jde? Meze a limity terénních šetření a jejich řešení v praxi marketingového výzkumu. Kombinace metodologií sběru dat

Archeologický informační systém České republiky Národní infrastruktura pro správu a prezentaci archeologických dat

Závěrečná zpráva z výzkumu

PROGRAMOVÉ PROHLÁŠENÍ

Ředitel odboru archivní správy a spisové služby PhDr. Jiří ÚLOVEC v. r.

UŽITÍ VEŘEJNÝCH LICENCÍ KE

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

Český sociálněvědní datový archiv a jeho služby

Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace. Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA

Jak postupovat při použití děl cizích autorů v materiálech pro výuku

AUTORSKÁ PRÁVA. Mgr. Daniel Mareš, PhD.

Marketingová analýza trhu

OZNÁMENÍ REKTORKY č. 8/2013

Sociologický výzkum (stručný úvod) Michal Peliš

Kvantitativní metody výzkumu v praxi PRAKTIKUM. Příprava výzkumného projektu

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Každý písemný, obrazový, zvukový, elektronický nebo jiný záznam, ať již v podobě analogové či digitální, který vznikl z činnosti původce.

Muzea a digitalizace Zvukové a filmové záznamy Národní technické muzeum 24./

Vzdělávací obsah vyučovacího předmětu

PhDr. Jindra Planková, Ph.D. Ústav informatiky, FPF Slezská univerzita v Opavě

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MS Access složitější konverze dat Ing. Kotásek Jaroslav

Digitální fotografie II. Mgr. Milana Soukupová Gymnázium Česká Třebová

CS Jednotná v rozmanitosti CS A8-0245/194. Pozměňovací návrh. Julia Reda za skupinu Verts/ALE

Pecharova 10, PRAHA 4 Tel.: , Fax: INBOX@MARKENT.CZ

Právní aspekty knihovních služeb

Témata k závěrečným bakalářským zkouškám 2019

Užití cizího díla ve výuce. Matěj Myška

MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/ R O Z H O D N U T Í č. 19/2016. ministryně pro místní rozvoj. ze dne

Praha PROJECT INSTINCT

DESET LET S THESES.CZ Ing. Jitka Brandejsová

Řešení pro střednědobé a dlouhodobé ukládání dokumentů ve veřejné správě

PODPORU E-LEARNINGU (nejenom v systému Moodle)

Hodnocení kvality různých typů škol září 2016

Vytvořen. ení genetické databanky vybraných druhů savců ČR ití pro udržitelný rozvoj dopravy. Tomáš. Libosvár

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Technologická centra krajů a ORP

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Výuka s ICT na SŠ obchodní České Budějovice Šablona III/2:

Národní technické specifikace. služeb nad prostorovými daty a metadaty

Neznalost zákona neomlouvá

Logický datový model VF XML DTM DMVS

Sociologický výzkum v praxi

Jak vysoké školy pokročily ve zpřístupňování své šedé literatury

Lekce 9 - Migrace dat

Licence Creative Commons

Odborná zpráva o postupu prací a dosažených výsledcích za rok 2014

AUTORSKO PRÁVNÍ PROBLEMATIKA V GEOINFORMATICE A KARTOGRAFII

UNIVERZITA PARDUBICE Směrnice č. 13/2007 ve znění dodatku č. 1 Pravidla pro zveřejňování závěrečných prací a jejich základní jednotnou formální úpravu

GEN104 Koncipování empirického výzkumu

Úloha 1. Úloha 2. Úloha 3. Text úlohy. Text úlohy. Text úlohy

Hospodářská informatika

Řešení multicentrických klinických registrů

Mgr. Alena Kodrasová, právník PatentCentrum Sedlák & Partners s.r.o. Společnost patentových zástupců. AUTORSKÁ PRÁVA Citace

NOVÉ MOŽNOSTI PŘÍSTUPU K DIGITÁLNÍ ARCHIV NLK PLNOTEXTOVÝM INFORMACÍM : Filip Kříž, Lenka Maixnerová, Ondřej Horsák, Helena Bouzková

DATA ULOŽENÁ NA VĚČNÉ ČASY. (ICZ DESA / Microsoft Azure) Mikulov Michal Matoušek (ICZ) / Václav Koudele (Microsoft)

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Kapitola 4. Úvod 11. Stručný úvod do relačních databází 13. Platforma 10g 23

Autorskoprávní ochrana designu

ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH

Transkript:

Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i. Jilská 1, 110 00 Praha 1, Česká republika; http://archiv.soc.cas.cz Seminář Sociologického ústavu SAV Bratislava, 26. června 2013 Management dat ve výzkumném projektu Jindřich Krejčí jindrich.krejci@soc.cas.cz

DVĚ NOVÉ KNIHY O DATECH

Lyons, P.: Theory, Data and Analysis. Data Resources for the Study of Politics in the Czech Republic. Theories of Political Attitudes and Public Opinion Origins and Nature of Political Attitude Surveying Election Survey Research Comparative Survey Research Elite Survey Research Expert and Manifesto Data Research Interpretation of Political Survey Data Conceptualising Survey Data and Interpretation of Questionnaire Responses Prague 2012/2013 - Institute of Sociology.

Cesty k datům. Zdroje a management sociálněvědních dat v České republice Jindřich Krejčí a Yana Leontiyeva (eds.), Tomáš Čížek, Dana Hamplová, Dalibor Holý, Johana Chylíková, Daniel Chytil, Pat Lyons, Martina Mysíková, Zuzana Podaná, Petr Soukup, Jiří Šafr, Jan Váně, Martin Vávra Praha 2012/2013 SOCIOLOGICKÉ NAKLADATELSTVÍ (SLON) v koedici se Sociologickým ústavem AV ČR, Jilská 1, 110 00 Praha 1 slon@slon-knihy,cz, www.slon-knihy.cz 470 stran, doporučená cena 540 Kč ISBN 978-80-7419-111-4 Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 4

I. Management dat ve výzkumném projektu a archivace dat Koncepce správy dat a výzkumný projekt Založení a správa datového souboru v průběhu výzkumného projektu Standardy dokumentace a archivace dat Sociálněvědní datové archivy: jejich úloha, služby a nástroje Standardizace proměnných v sociálněvědním výzkumu Mezinárodní klasifikace vzdělání a problémy při aplikaci Měření sociálního statusu a sociálních tříd na základě povolání II. Zdroje dat pro sociálněvědní výzkum Mezinárodní sociálněvědní komparativní výzkum a ČR Datová základna české sociologie Data z výzkumů volebního chování v ČR Data získaná z komparativních politologických šetření Šetření ČSÚ a statistiky trhu práce Přehled výzkumů o rodině Mezinárodní výzkumy v oblasti vzdělávání Statistiky a výzkumy imigrantů aneb jak srovnávat nesrovnatelné Výzkumy věnující se podobám religiozity v České republice po roce 1989 Výzkum kriminality Snímek 5

MANAGEMENT DAT VE VÝZKUMNÉM PROJEKTU A A SDÍLENÍ DAT DATA A KONCEPCE VÝZKUMU PŘÍLOHA - MANAGEMENT DAT

Proč management dat efektivita výzkumné práce, redukce chyb verifikovatelnost zabezpečení etických a legálních předpokladů výzkumu umožnění sdílení dat Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 7

Sdílení dat mezi výzkumnými týmy proměna výzkumného prostředí velké množství dat snadná dostupnost - internet nové typy dat - BIG DATA význam sekundární analýzy význam spolupráce ve výzkumu sdílení dat management dat při přípravě a vytváření databáze je třeba počítat se zveřejněním, sdílením a sekundární analýzou Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 8

Cyklus života dat (Humprey) Snímek 9

ICPSR: fáze managementu dat Snímek 10

Snímek 11

Otevřený přístup k výzkumným datům otevřenost znamená přístup za rovných podmínek pro mezinárodní vědeckou komunitu za nejnižší možnou cenu, nejlépe nepřesahující mezní náklady distribuce. Otevřený přístup k výzkumným datům z veřejného financování by měl být snadný, časově nenáročný, uživatelsky přívětivý a nejlépe založený na Internetu. (OECD Principles and Guidelines for Access to Research Data... http://www.oecd.org/dataoecd/9/61/38500813.pdf) pouze výzkumná data vzniklá z veřejných fondů za účelem veřejně přístupného vědeckého výzkumu omezení ochrana soukromí osob a osobních údajů ochrana obchodních tajemství a duševního vlastnictví zajištění národní bezpečnosti ochrana ohrožených druhů nenarušení právních jednání (sub judice) technické bariéry - chybějící infrastruktura... ošetření autorských práv Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 12

Opatření k prosazení principů OA Na mezinárodní úrovni definovány principy (OECD 2007) Národní politiky: strategie rozvoje výzkumné infrastruktury Konkrétní opatření: poskytovatelé podpory definována politika sdílení dat (principy otevřeného přístupu) jako součást pravidel poskytování podpory požadován "plán managementu dat" jako součást grantové aplikace - posouzení souladu s principy v datové politice kontrola splnění při hodnocení projektu Dopad na politiky jednotlivých institucí Obvyklý problém = chybějící infrastruktura Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 13

Etika etické kodexy a normy (např. WAPOR, ESOMAR, ISO 20252:2006...) respondenty je třeba chránit před škodlivými dopady výzkumu i po skončení terénu - tj. při archivaci, zpřístupnění a sekundárním používání dat - informace individuálního charakteru jsou důvěrné; zvláště citlivé údaje respondenti jsou svéprávní, mají právo znát účel a způsob využití jimi poskytnutých informací a rozhodovat o možnostech jejich využití - tato rozhodnutí je pak nezbytné respektovat. vždy je třeba zajistit adekvátní využití získaných informací v souladu se stanoveným účelem - proto, aby úsilí respondentů nevyšlo vniveč; data pořízená z veřejných zdrojů je třeba maximální využít (-> sdílení dat) Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 14

Ochrana osobních údajů Zákon č. 101/2000 Sb. (ČR) přímé, nepřímé identifikace osobní údaje, citlivé údaje informovaný souhlas respondenta registrace u Úřadu na ochranu osobních údajů projekt výzkumu bude potřeba informovaný souhlas respondentů? pokud ano, v jakém rozsahu? budeme data anonymizovat? úřad pro ochranu osobních údajů MEDARD, http://medard.soc.cas.cz/ Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 15

Informovaný souhlas participace dobrovolně a se znalostí a bez nepříznivých důsledků podrobné informace, jednoznačné k čemu se souhlas váže na základě přímého jednání ze zákona (ČR): v jakém rozsahu je poskytován komu a k jakému účelu na jaké období kdo jej poskytuje při organizaci šetření: účel výzkumu co participace představuje k čemu je to dobré, jaká jsou rizika možnost odmítnout specifikace použití dat způsob zajištění důvěrnosti uchování dat kdo, jak a do kdy bude mít přístup k datům Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 16

Autorská práva ochrana duševního vlastnictví (IPR) Zákon 121/2000 Sb. (ČR) databáze uspořádání, způsob výběru... - autorské dílo souborné už v době vzniku (nemusí být označeno (c)) ochrana před ztrátou příjmu a morální újmou způsobenou neautorizovaným šířením ochraně podléhá dílo, nikoliv fakta v něm uvedená např. u hloubkového rozhovoru je držitelem práv na záznam výzkumník, ale k jednotlivým výrokům informant -> svolení práva jsou osobnostní - nepřenosná (právo osobovat si autorství, změny, dohled nad plněním povinností ) a majetková (rozmnožování, zveřejňování, vystavování, půjčování, zpřístupnění) postoupení licenční smlouvou (užití omezené/neomezené, jednotlivé/veškeré, výhradní/nevýhradní) Krejčí: Management dat, Bratislava 26. 6. 2013 21/03/2012 Snímek 17

...autorská práva lze citovat výňatky nebo celá drobná díla v odůvodněné míře pro účely kritiky, recenze, vědecké či odborné práce lze využít pro výukové, ilustrační účely (uvádět autora, název a pramen) držiteli autorských práv jsou všichni spoluautoři - tedy členové výzkumného týmu, nikoliv pouze hlavní řešitel projektu nikoliv pouze učitel, ale také všichni studenti (ale škola má právo na uzavření licenční smlouvy o užití školního díla) porady, technické a administr. či pomocné práce nevedou k autorství činnosti dané pracovní smlouvou => zaměstnavatel vykonává svým jménem autorova majetková práva k dílu studenti nejsou zaměstnanci univerzity, tj. majetková práva kompletně na univerzitu nepřecházejí akademické instituce majetková práva někdy přenechávají svým zaměstnancům licence typu Creative Commons (tvůrčí společenství) Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 18

Data a projekt výzkumu využití existujících databází pro sekundární analýzu příprava vlastních výzkumných nástrojů dotazníky z dokumentace dat využití existujících dat při ověřování zajištění formálních a legálních předpokladů pořízení dat a práce s daty design správy dat rozpočet pořádek -> usnadnění analýzy, předcházení chybám Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 19

Cíle managementu dat integrita dat, kvalita dat - přesnost a správnost výzkumu srozumitelnost pro všechny potenciální uživatele efektivita výzkumné práce - čas a náklady autenticita dat - možnost replikace, opravy analýz zajištění legálních a formálních předpokladů šetření zabezpečení a zachování dat zpřístupnění dat Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 20

PŘÍLOHA: MANAGEMENT DAT PŘI ŘEŠENÍ PROJEKTU

Náklady managementu dat (rozpočet projektu) získání informovaného souhlasu anonymizace zabezpečení a přístup k datům digitalizace, transkripce (např. přepis rozhovorů) formátování a správa souborů popis dat a kódování čištění popis kontextu dat dokumentace (zjišťování dokumentace v průběhu procesu nebo dodatečně) metadata (vytváření popisu - dokumentace k datům) formáty souborů (náklady konverze audiovizuálních dat atp.) plánování, rozdělení rolí a odpovědnosti (spolupráce více institucí atp.) operacionalizace (plánování a implementace datového managementu) UKDA/JISC Costing Tool: http://www.data-archive.ac.uk/media/257647/ukda_jiscdmcosting.pdf Snímek 22

Pojmenování datových souborů systematicky, krátké názvy odkazující na obsah a/nebo vznik rozlišení sérií, verzí a edicí (viz dále) konzistentní formát nezávislost jména na umístění a software nepoužívat speciální znaky, místo mezer podtržítka, velká/malá písmena mohou být při převodu nestabilní (převoditelnost mezi systémy)... scalability (rozsah kódu odpovídá počtu verzí, y2k problem...) když hodně souborů (např. fotografie) lze použít nástroje na automatické přejmenování (batch renaming), např.: Ant Renamer (http://www.antp.be/software/renamer) RenameIT (http://sourceforge.net/prpjects/renameit) Bulk Rename Utility (http://www.bulkrenameutility.co.uk/) Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 23

Struktura datového souboru flat file - obdélníkový datový soubor, datová matice hiearchický soubor: záznamy vyššího a nižšího řádu uspořádány v hiearchické struktuře (např. data z šetření domácností, kde v jedné úrovni jsou zaznamenány údaje o domácnostech a v další úrovni údaje o jednotlivých členech domácností) relační databáze: systém datových tabulek a asociací mezi nimi. např. výzkum domácností, kdy údaje členů domácnosti jsou zaznamenány v samostatných tabulkách propojených parametrem reprezentujícím sounáležitost a vztah mezi členy domácnosti (lze např. vyhledávat řádky se shodnými atributy a vytvářet podsoubory) Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 24

Příklad: SHARE Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 25

Who answers what in the CAPI questionnaire? mergeid - unique identifier for all waves. CC-hhhhhh-rr, CC = country code, hhhhhh = household identifier, rr = respondent identifier within each household hhid identifies the household to which a person belonged when entering the panel hhidw identifies the household, where W refers to the specific wave Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 26

Proměnné variable names, varible labels řazení a označení dotváří strukturu souboru vzájemné vztahy mezi proměnnými návaznost na další prvky výzkumu (různé zdroje dat, návaznost na dotazník, jiné soubory atp.) pomocné proměnné pro organizaci a správu souboru variable names = volací znaky v software (nezačínat číslem, 8 míst...) => převoditelnost formátu dat přehlednost prezentace dat systémy značení číselný kód (V001, V002...) kód odkazující na výzkumný nástroj (Q1a, Q1b... mnemotechnická jména (BIRTH, EDUC...) variable labels srozumitelnost, návaznost na prvky výzkumu (kódy otázek, zdroje dat...), délka, diakritika formát proměnné (typ proměnné, počet znaků) možnosti analýzy, velikost souboru Snímek 27

Hodnoty proměnných naměřené hodnoty / odpovědi / audio / video / vzorky... numerické kódování - ve všech stat. softwarech => převoditelnost někdy komplikovaný kognitivní proces (teoreticky a analyticky zal.) příklad ISCO (Harry) kódované kategorie by měly být vztaženy k obsahu testovaných hypotéz, nicméně kódovací struktury jsou využitelné ve více výzkumech standardizace dokumentace, značení (value labels) kódování - samostatný proces u složitějších úloh Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 28

Doporučení ke kódování Identifikační proměnné na začátku záznamů - jednoznačnost Kódy kategorií vzájemně exkluzivní, vyčerpávající a přesně definované Kódujte v největší možné podrobnosti. Informaci pak lze převést na méně podrobnou, opačně to nejde Uzavřené otázky: kódovací schéma v digitálním formátu, kvůli zabránění omylům Otevřené otázky: jakékoliv kódovací schéma je třeba uvést v dokumentaci Úplné odpovědi v textovém formátu: posouzení dat z hlediska ochrany osobních údajů Kontrola kódování: opětovné zakódování nezávislým kodérem - ověření práce kodéra i kódovacího schématu Série odpovědí: jestliže série odpovědí vyžadují více než jedno místo, je vhodné aplikovat společné kódovací schéma rozlišující hlavní a sekundární kategorie atd. Shodné kódovací struktury pro více znaků - systematicky vytvořené kódovací schéma Přebírání kódovacích struktur z jiných šetření - standardizace Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 29

Chybějící hodnoty Žádná odpověď (No Answer, NA) Odmítnutí (Refusal) Neví (Do not Know, DK) Chyba zpracování (Processing Error) Nehodí se (Not Applicable/Inapplicable, NAP, INAP) Chybí přiřazená hodnota (No Match) Chybí údaj jednotný systém kódování Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 30

Zajištění integrity vkládání dat - programování software (data-entry, CATI/CAPI) vývoj technologií a změny koncepce designu doporučení nepřetěžovat operátory - kódování a vkládání jako samostatné úlohy méně kroků - redukce možností vzniku chyb specializovaný software umožňuje nastavit platné hodnoty a filtry dvojí vkládání a srovnání výsledků. provést kontrolu úplnosti záznamů. provést logickou kontrolu a kontrolu konzistence dat, např.: kontrola rozsahu hodnot (např. věk respondenta vyšší než 100 let je nepravděpodobný), kontrola nejnižších a nejvyšších hodnot a extrémů, kontrola poměrů souvisejících proměnných (např. dosaženému stupni vzdělání by měl odpovídat věk), srovnání s historickými daty (např. počet členů domácnosti mezi dvěma vlnami panel. výzk.). řadu kontrol lze provádět automaticky za pomoci počítače určité procento, např. 5-10%, by mělo projít podrobnou hlubší kontrolou změny by měly být dokumentovány a původní data obnovitelná Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 31

Anonymizace ochrana osobních údajů odstranění přímých identifikací - anonymní kódy malé skupiny, nepřímé identifikace odstranění agregace údajů, redukce podrobnosti geografické a časové informace ošetření extrémních hodnot Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 32

Vážení Různé druhy vah, různý účel Designové váhy: kompenzce rozdílu pravděpodobností výběru jednotek v souboru Vážení výpadků návratnosti: kompenzace rozdílů návratnosti u různých skupin Poststratifikační váhy: dosažení shody rozložení podle známých charakteristik populace Přizpůsobení poměrů skupin: různé skupiny mohou být zastoupené odlišně vzhledem k reálným poměrům Kombinované, celkové váhy Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 33

Dokumentace - metadata formát výzkumné nástroje, codebook, syntax, technická/metodologická zpráva, protokol o experimentu, popis transformací, schéma databáze mezinárodní standard DDI - standardizovaná struktura, XML tři základní úrovně projekt databáze proměnné a případy Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 34

Informace o projektu původ datového souboru název výzkumu (včetně zkratek, alternativních, cizojazyčných názvů...) institucionální informace (autoři, instituce, sponzoři a čísla grantů, zadavatelé...) abstrakt projektu, cíle, koncepty, hypotézy, odkazy na navazující projekty popis a metody sběru dat popis všech zdrojů, z nichž jsou data získána časové vymezení sběru dat časové a geografické pokrytí cílová populace jednotky pozorování popis výběrového designu včetně opory metody sběru dat původní výzkumný instrument a další materiály použité při sběru dat (zvací dopisy, pokyny pro tazatele atp.) použitá klasifikační schémata a koncepty návratnost a další vyhodnocení (např. známé odchylky od populace) identifikace změn metodiky u časových sérií a longitudiálních výzkumů Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 35

Informace o databázi popis datových souborů specifikace verze a edice souboru (pokud jich je víc) struktura souborů specifikace vztahů a propojení informace o rozsahu (počet záznamů a proměnných) informace o formátech a kompatibilitě. editace a modifikace dat metody a výsledky kontrol integrity, validizace, čištění dat, příp. dalších postupů ošetření kvality dat (kalibrace, imputace chybějících hodnot, okontrola a opravy přepisu atp.) anonymizace transformace a konstrukce odvozených proměnných vážení (identifikace proměnných pro vážení a popis metod a jejich konstrukce) Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 36

...informace o databázi přístup k datům vymezení přístupnosti, specifikace podmínek používání, informace o ochraně osobních údajů katalogizační a citační informace bibliografická informace, doporučená citace, klíčová slova, katagolizační údaje odkazy na související materiály a zdroje, pokud je to relevantní Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 37

Informace o proměnných a případech informace o proměnných v souboru jména proměnných označení a popis proměnných a jejich hodnot včetně popisu odvozených proměnných k dispozici by mělo být přesné původní znění otázky frekvence, základní třídění apod. (?) informace o případech v souboru specifikace případů, pokud je to relevantní Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 38

Verze a edice databáze správa dat, analýzy => více verzí a edicí => strategie jejich správy jednoznačná identifikace verzí a edicí, přehled o rozdílech zajištění autenticity (zabránit neautorizovaným zásahům) doporučení stanovit podmínky používání dat a seznámit s nimi uživatele rozlišovat mezi verzemi sdílenými více výzkumníky a prac. verzemi jednotlivců zavést jednoznačné a systematické značení verzí a edicí datového souboru vést záznamy o vytváření verzí a edicí, jejich obsahu a vzájemných vztazích dokumentovat provedené změny zachovávat původní verze datových souborů, resp. materiály umožňující rekonstrukce původních souborů (např. syntax) stanovit master file a přijmout opatření k zachování jeho autenticity, tj. vhodně jej umístit a vymezit přístupová práva a odpovědnosti, kdo a jaké změny smí provádět pokud je více kopií stejné verze, kontrolovat jejich shodnost Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 39

Zálohování, formáty a média proces - pravidelné zálohování a obnova digitální média z principu nespolehlivá software, instituce atd. procházejí změnami + další rizika kratší čas - operabilita formáty navázané na kokrétní software, ale lépe jejich transportní verze (SPSS: *.por) diakritika => kódování znaků (UTF 8) delší čas jednoduché textové formáty (ASCII - fixní/volné) + strukturovaná dokumentace PDF/A (archivační verze PDF definovaná ISO) média nezáleží jen na typu, ale i kvalitě; náchylnost k fyzickému poškození nejméně dvě různé formy archivace pravidelné přehrávání na nová média Krejčí: Management dat, Bratislava 26. 6. 2013 Snímek 40

Děkuji za pozornost a prosím o Vaše otázky Snímek 41