UK FHS Řízení a supervize v sociálních a zdravotnických organizacích (LS 2007) Kvantitativní metody výzkumu v praxi PRAKTIKUM část 2 Příprava souboru dat a analýza Jiří Šafr jiri.safr@seznam.cz vytvořeno 19. 3. 2007
Obsah části 2 Sběr dat Typy sběru dotazníku Příprava dat a analýza Vytváření souboru dat Tabulky Vlastnosti rozdělení znaků Jednoduché popisné statistiky Několik rad jak číst statistiky Typy grafů Praktikum KMVP část 2 2
Typy sběru dotazníku vyplňovaný tazatelem osobní počítačové dotazování CAPI (Computer Assited Personal Interviewing) telefonní počítačové dotazovánícati (Computer Assited Telephone Interviewing) dotazování elektronickou poštou CAMI (Computer Assited Mailing Interviewing) hromadně vyplňovaný dotazník v jedné místnosti poštou distribuovaný dotazník (tam i zpět / zpět) anketa v tisku - není výběrem! Praktikum KMVP část 2 3
Vytváření souboru dat
Převod dotazníků na elektronický soubor dat 1. vytvoření kódovacího klíče (codebook) 2. kódování (dle kódovacího klíče) 3. nahrávání (datová matice - děrování ) 4. čištění dat 5. rekódování Praktikum KMVP část 2 5
Souhrnný index škála Nová proměnná, která vznikne z více otázek (proměnných). Je reliabilnější (přesněji měří zvolený koncept) a validnější (měří právě jen zvolený koncept). Praktikum KMVP část 2 6
Chybějící hodnoty označování a překódování Typy chybějících hodnot a jejich nejčastější kódování: neví (8 / 88) neodpověděl (9 / 99) netýká se Chybějící hodnoty (missing values) jsou nejčastěji vyloučeny z analýzy. Praktikum KMVP část 2 7
Varianty řešení pro neví vyloučit z analýzy kódovat jako missing value, např. hodnota 9 listwise deletion plošné vylučování případů tj. u všech znaků, pokud se u jednoho objevila chybějící hodnota V odůvodněných případech lze i překódovat např. na střední hodnotu. Př. Hodnocení prospěšnosti zavedení zimního času: 1 - uškodilo, 2 - uškodilo trochu, 3 - prospělo trochu, 4 - prospělo. Překódováno na: 1 - uškodilo, 2 - uškodilo trochu, 3 neví, 4 - prospělo trochu, 5 - prospělo. Praktikum KMVP část 2 8
Zmínit se o všech manipulacích (překódování apod.) s daty je nezbytné!
Tabulky
Pravidla pro tvorbu tabulek [Kreidl 2000] Tabulka musí mít název a popsané proměnné (řádky a sloupce). Vždy uvést zdroj dat. Uvést celkový počet případů (marginální distribuce absolutních četností). Praktikum KMVP část 2 11
V názvu tabulky uvést: typ tabulky např. Procentní distribuce... nebo... (%) proměnné zahrnuté v tabulce, např. Religiozita a Úroveň vzdělání z jakého vzorku pocházejí data rok sběru dat Př. Procento uživatelů marihuany podle dosaženého vzdělání, středoškoláci, 1997. Praktikum KMVP část 2 12
Pravidla pro tvorbu tabulek Samotná procenta říkají málo nebo nic. nezamlčovat absolutní četnosti (stačí marginální = řádkové, sloupcové a celkový počet případů). V první řádce či sloupci uvést znak pro %, aby bylo jasné, že se jedná tabulku pro procenta. Praktikum KMVP část 2 13
Pravidla pro tvorbu tabulek Kontrolovat sama sebe tím, že vždy sečtete čísla v jednotlivých řádcích a sloupcích a porovnáte je se skutečnými marginálními četnostmi (z tabulek tř. 1st.). Celáčísla v % v tabulkách většinou bohatě stačí. 23,48 % 23 % [Kreidl 2000] Praktikum KMVP část 2 14
Třídění prvního stupně frekvence jedné proměnné VZD4 Vzdelani na 4 kategorie Valid Missin Total 1 Zaklad 2 Vyuc,S 3 Maturi 4 VS Total 0 Valid Cumulative Percent Percent 334 7,0 7,0 7,0 1571 33,1 33,1 40,2 1934 40,8 40,8 81,0 901 19,0 19,0 100,0 4740 99,9 100,0 4,1 4744 100,0 FrequencyPercent [Zdroj: Deset let transformace, 1999] Praktikum KMVP část 2 15
Třídění druhého stupně absolutní četnosti frekvence jedné vs. druhé proměnné (kategorie příjmu podle vzdělání) PRIJR6 * VZD4 Vzdelani na 4 kategorie Crosstabulation Count PRIJR61,00 2,00 3,00 4,00 5,00 6,00 Total VZD4 Vzdelani na 4 kategorie 1 Zakladni2 Vyuc,SO Maturita 4 VS Total 113 320 250 103 786 127 521 533 134 1315 15 255 341 136 747 10 192 308 186 696 1 51 107 107 266 23 78 91 192 266 1362 1617 757 4002 [Zdroj: Deset let transformace, 1999] Praktikum KMVP část 2 16
Třídění druhého stupně relativní četnosti PRIJR6 * VZD4 Vzdelani na 4 kategorie Crosstabulation % within VZD4 Vzdelani na 4 kategorie VZD4 Vzdelani na 4 kategorie 1 Zakladni2 Vyuc,SO3 Maturita 4 VS Total PRIJR6 1,00 42,5% 23,5% 15,5% 13,6% 19,6% 2,00 47,7% 38,3% 33,0% 17,7% 32,9% 3,00 5,6% 18,7% 21,1% 18,0% 18,7% 4,00 3,8% 14,1% 19,0% 24,6% 17,4% 5,00,4% 3,7% 6,6% 14,1% 6,6% 6,00 1,7% 4,8% 12,0% 4,8% Total 100,0% 100,0% 100,0% 100,0% 100,0% [Zdroj: Deset let transformace, 1999] Praktikum KMVP část 2 17
Nejprve příklad: Procenta v tabulce. Porovnání subpopulací Praktikum KMVP část 2 18
[Babbie 1995: 386-387] Praktikum KMVP část 2 19
Praktikum KMVP část 2 20
Marginální četnosti Relativní sloupcové četnosti = součet v každém sloupci reprezentuje 100% Relativní řádkové četnosti = součet v každém řádku reprezentuje 100% Praktikum KMVP část 2 21
Uspořádání tabulky ZÁVISLÁ - vysvětlovaná NEZÁVISLÁ - vysvětlující pohlaví spokojenost muž žena Celkový součet 1 (nespokojen) 5 (71 %) 2 (29 %) 7 (100 %) 2 5 (83 %) 1 (27 %) 6 (100 %) 3 (spokojen) 2 (25 %) 6 (75 %) 8 (100 %) Celkový součet 12 9 21 (100 %) Nejčastěji bývá závislá proměnná nalevo v řádcích a nezávislá (vysvětlující) ve sloupcích. Praktikum KMVP část 2 22
Interpretace tabulek závislá proměnná = je v hypotéze ovlivňována, způsobována (nejčastěji je v řádcích) nezávislá(é) proměnná = vysvětluje, ovlivňuje závislou V kategoriích nezávislé proměnné ukazujeme kompletní (100 %) distribuci závislé proměnné. Pozor! Směr kauzality je vždy věcí teorie, nelze ji určit z dat samotných. [Kreidl 2000] Praktikum KMVP část 2 23
Interpretace tabulek Tabulky skoro vždy dělejte tak, aby vyjadřovaly podmíněnou pravděpodobnost, že respondent (věc) bude patřit do jednotlivých kategorií závislé proměnné, za předpokladu, že patří do dané kategorie nezávislé proměnné(ných). Procento je stým násobkem pravděpodobnosti. [Kreidl 2000] Praktikum KMVP část 2 24
Souvislost znaků v tabulce Kupení vysokých hodnot na diagonále tabulky naznačuje, že existuje souvislost mezi proměnnými. Souvislost ale může mít i jinou formu, např. v každém sloupci jsou pozorování nahromaděna do jediného pole, jehož pozice je pro každý sloupec jiná. Praktikum KMVP část 2 25
Porovnání podskupin 1. rozdělte případy do adekvátních podskupin (dle hypotéz, např. podle vzdělání) 2. popište proměnnou pro podskupiny pomocí zvolených statistik (např. medián, průměr, procenta) 3. srovnejte tyto údaje pro skupiny Praktikum KMVP část 2 26
Interpretace tabulek Při interpretaci procent obvykle stačí porovnávat extrémní hodnoty a ignorovat střední kategorie. Pokud jde o ordinální proměnné pak není dobré činit obsáhlé závěry na základě % uvnitř jednotlivých kategorií nezávislé proměnné. Smysluplné je dělat porovnání distribucí napříč kategoriemi nezávislé proměnné. Buďte opatrní a neberte názvy kategorií zas tak doslova. Praktikum KMVP část 2 27
Vlastnosti rozdělení znaků
Symetrie, variabilita [Hanousek, Charamza 1992: 21] Praktikum KMVP část 2 29
Šikmost a špičatost [Hanousek, Charamza 1992: 21] Praktikum KMVP část 2 30
Jednoduché popisné statistiky
Střední hodnoty: nominální znaky modus ordinální znaky medián (aritmetický průměr) intervalové znaky aritmetický průměr Praktikum KMVP část 2 32
Modus = kategorie s největší četností Medián = hodnota, která je ve prostředku všech pozorování seřazených podle hodnoty Aritmetický průměr = součet hodnot dělený počtem pozorování Praktikum KMVP část 2 33
Modus Praktikum KMVP část 2 34 [Babbie 1995]
Medián Praktikum KMVP část 2 [Babbie 1995] 35
Průměr Praktikum KMVP část 2 [Babbie 1995] 36
Charakteristiky variability Udávají koncentraci nebo rozptýlení kolem střední hodnoty. Ukazují na kvalitu průměru. Rozptyl = součet kvadratických odchylek od průměru dělený rozsahem výběr zmenšeným o 1. Směrodatná odchylka = odmocnina z rozptylu. Směrodatná odchylka je míra rozptýlení hodnot od průměrné (střední) hodnoty. Praktikum KMVP část 2 37
Výpočet směrodatné odchylky Příklad. Máme pozorování: 7 2 5 4 3 1 8 2 6 2 Součet řady = 40; n = 10; průměr = 40/10 = 4 Odchylky: 3-2 1 0-1 -3 4-2 2-2 součet odchylek je 9 9 = 0 čtverce odchylek: 9; 4; 1; 0; 1; 9; 16; 4; 4; 4 součet čtverců odchylek = 52 průměrná čtvercová odchylka tj. rozptyl = 52/10= 5,2 směrodatná odchylka (odmocnina z rozptylu) = 2,28 Praktikum KMVP část 2 38
Směrodatná odchylka v Excelu STDEVPA pro základní soubor STDEVA pro výběrový soubor Praktikum KMVP část 2 39
Další popisné statistiky Minimum / maximum Rozpětí Kvantily: dolní a horní kvartil Koeficienty šikmosti Praktikum KMVP část 2 40
Několik rad jak číst statistiky [Hanousek, Charamza 1993: 34-35]
Při čtení statistik pozor na: přesná čísla ve statistických zprávách procenta versus absolutní čísla srovnatelné údaje nezaměňovat ukazatele je porovnání vhodné? na výběry (nebyly-li provedeny profesionály) podoba otázek vlastní příprava zjišťování (experimentu) v nemocnici umírají lidé častěji než doma [Hanousek, Charamza 1993: 34-35] celé viz soubor Pozor_statistika.pdf Praktikum KMVP část 2 42
Typy grafů Excel viz část b. - grafy
Histogram 1400 Vzdelani na 6 kategorii 1200 1000 800 600 Frequency 400 200 0 1,0 2,0 3,0 4,0 5,0 6,0 Std. Dev = 1,54 Mean = 3,8 N = 4740,00 Vzdelani na 6 kategorii Praktikum KMVP část 2 44
Histogram 1400 PRIJEM89 1200 1000 800 Frequency 600 400 200 0 5000 9000 17500 35000 62500 6500 12500 25000 45000 87500 PRIJEM89 Praktikum KMVP část 2 45
Polygon 1400 PRIJEM89 1200 1000 800 600 Frequency 400 200 0 5000 9000 17500 35000 62500 6500 12500 25000 45000 87500 PRIJEM89 Praktikum KMVP část 2 46
Literatura Babbie, E. (1995). ThePracticeofsocial Research. 7th Edition. Belmont: Wadsworth Disman, M. (1993): Jak se vyrábí sociologická znalost. Praha: Karolinum Hanousek J., Charamza P. (1992). Moderní metody zpracování dat Matematická statistika pro každého. Praha: Grada. Kreidl, M. (2000). Podklady ke kurzu Analýza kvantitativních dat. FSV UK, LS 2000-2001. Jeřábek, H. (1993): Úvod do sociologického výzkumu. Praha: Karolinum Poděkování za cenné konzultace RNDr. L. Gatnarovi. Praktikum KMVP část 2 47