Příprava souboru dat a analýza

Podobné dokumenty
Výběry z populace, příprava dat, popisné statistiky

Elementární analýza dat

Kurz SPSS: Jednoduchá analýza dat

Excel mini úvod do kontingenčních tabulek

Kontingenční tabulky analýza kategoriálních dat: Úvod. Třídění 2. stupně

Metodologie pro ISK II

Základy pravděpodobnosti a statistiky. Popisná statistika

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Číselné charakteristiky

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Popisná statistika. Komentované řešení pomocí MS Excel

Spokojenost se životem

Zápočtová práce STATISTIKA I

Praktická statistika. Petr Ponížil Eva Kutálková

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Kvantitativní metody výzkumu v praxi PRAKTIKUM. Příprava výzkumného projektu

Statistika pro geografy

Metodologie pro Informační studia a knihovnictví 2

5EN306 Aplikované kvantitativní metody I

Deskriptivní statistika (kategorizované proměnné)

Popisná statistika. Statistika pro sociology

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

5EN306 Aplikované kvantitativní metody I

Analýza dat na PC I.

Metodologie pro Informační studia a knihovnictví 2

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

STATISTICKÉ CHARAKTERISTIKY

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Aplikovaná statistika v R

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku


TECHNICKÁ UNIVERZITA V LIBERCI

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Charakteristika datového souboru

Nejčastější chyby v explorační analýze

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Renáta Bednárová STATISTIKA PRO EKONOMY

Číselné charakteristiky a jejich výpočet

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

VNITROSKUPINOVÝ ROZPTYL. Je mírou variability uvnitř skupin Jiný název: průměr rozptylů Vypočítává se jako průměr rozptylů v jednotlivých skupinách

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Třídění statistických dat

Základy popisné statistiky

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Základní statistické charakteristiky

Minimální hodnota. Tabulka 11

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Kurz SPSS: Jednoduchá analýza dat. Jiří Šafr

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

23. Matematická statistika

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Analýza dat s využitím MS Excel

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Mnohorozměrná statistická data

Návod na statistický software PSPP část 2. Kontingenční tabulky

Kontingenční tabulky v Excelu. Představení programu Statistica

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Základy popisné statistiky

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Tabulka 1. Výběr z datové tabulky

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

1. Kategoriální proměnná nominální: (Tabulka a graf četností) Př.: sloupec (PokudanoJakčasto) -> Analyze -> Descriptive statistics -> Frequencies

TECHNICKÁ UNIVERZITA V LIBERCI

Pravděpodobnost a statistika

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

ADDS cviceni. Pavlina Kuranova

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Analýza dat z dotazníkových šetření

Tomáš Karel LS 2012/2013

Transkript:

UK FHS Řízení a supervize v sociálních a zdravotnických organizacích (LS 2007) Kvantitativní metody výzkumu v praxi PRAKTIKUM část 2 Příprava souboru dat a analýza Jiří Šafr jiri.safr@seznam.cz vytvořeno 19. 3. 2007

Obsah části 2 Sběr dat Typy sběru dotazníku Příprava dat a analýza Vytváření souboru dat Tabulky Vlastnosti rozdělení znaků Jednoduché popisné statistiky Několik rad jak číst statistiky Typy grafů Praktikum KMVP část 2 2

Typy sběru dotazníku vyplňovaný tazatelem osobní počítačové dotazování CAPI (Computer Assited Personal Interviewing) telefonní počítačové dotazovánícati (Computer Assited Telephone Interviewing) dotazování elektronickou poštou CAMI (Computer Assited Mailing Interviewing) hromadně vyplňovaný dotazník v jedné místnosti poštou distribuovaný dotazník (tam i zpět / zpět) anketa v tisku - není výběrem! Praktikum KMVP část 2 3

Vytváření souboru dat

Převod dotazníků na elektronický soubor dat 1. vytvoření kódovacího klíče (codebook) 2. kódování (dle kódovacího klíče) 3. nahrávání (datová matice - děrování ) 4. čištění dat 5. rekódování Praktikum KMVP část 2 5

Souhrnný index škála Nová proměnná, která vznikne z více otázek (proměnných). Je reliabilnější (přesněji měří zvolený koncept) a validnější (měří právě jen zvolený koncept). Praktikum KMVP část 2 6

Chybějící hodnoty označování a překódování Typy chybějících hodnot a jejich nejčastější kódování: neví (8 / 88) neodpověděl (9 / 99) netýká se Chybějící hodnoty (missing values) jsou nejčastěji vyloučeny z analýzy. Praktikum KMVP část 2 7

Varianty řešení pro neví vyloučit z analýzy kódovat jako missing value, např. hodnota 9 listwise deletion plošné vylučování případů tj. u všech znaků, pokud se u jednoho objevila chybějící hodnota V odůvodněných případech lze i překódovat např. na střední hodnotu. Př. Hodnocení prospěšnosti zavedení zimního času: 1 - uškodilo, 2 - uškodilo trochu, 3 - prospělo trochu, 4 - prospělo. Překódováno na: 1 - uškodilo, 2 - uškodilo trochu, 3 neví, 4 - prospělo trochu, 5 - prospělo. Praktikum KMVP část 2 8

Zmínit se o všech manipulacích (překódování apod.) s daty je nezbytné!

Tabulky

Pravidla pro tvorbu tabulek [Kreidl 2000] Tabulka musí mít název a popsané proměnné (řádky a sloupce). Vždy uvést zdroj dat. Uvést celkový počet případů (marginální distribuce absolutních četností). Praktikum KMVP část 2 11

V názvu tabulky uvést: typ tabulky např. Procentní distribuce... nebo... (%) proměnné zahrnuté v tabulce, např. Religiozita a Úroveň vzdělání z jakého vzorku pocházejí data rok sběru dat Př. Procento uživatelů marihuany podle dosaženého vzdělání, středoškoláci, 1997. Praktikum KMVP část 2 12

Pravidla pro tvorbu tabulek Samotná procenta říkají málo nebo nic. nezamlčovat absolutní četnosti (stačí marginální = řádkové, sloupcové a celkový počet případů). V první řádce či sloupci uvést znak pro %, aby bylo jasné, že se jedná tabulku pro procenta. Praktikum KMVP část 2 13

Pravidla pro tvorbu tabulek Kontrolovat sama sebe tím, že vždy sečtete čísla v jednotlivých řádcích a sloupcích a porovnáte je se skutečnými marginálními četnostmi (z tabulek tř. 1st.). Celáčísla v % v tabulkách většinou bohatě stačí. 23,48 % 23 % [Kreidl 2000] Praktikum KMVP část 2 14

Třídění prvního stupně frekvence jedné proměnné VZD4 Vzdelani na 4 kategorie Valid Missin Total 1 Zaklad 2 Vyuc,S 3 Maturi 4 VS Total 0 Valid Cumulative Percent Percent 334 7,0 7,0 7,0 1571 33,1 33,1 40,2 1934 40,8 40,8 81,0 901 19,0 19,0 100,0 4740 99,9 100,0 4,1 4744 100,0 FrequencyPercent [Zdroj: Deset let transformace, 1999] Praktikum KMVP část 2 15

Třídění druhého stupně absolutní četnosti frekvence jedné vs. druhé proměnné (kategorie příjmu podle vzdělání) PRIJR6 * VZD4 Vzdelani na 4 kategorie Crosstabulation Count PRIJR61,00 2,00 3,00 4,00 5,00 6,00 Total VZD4 Vzdelani na 4 kategorie 1 Zakladni2 Vyuc,SO Maturita 4 VS Total 113 320 250 103 786 127 521 533 134 1315 15 255 341 136 747 10 192 308 186 696 1 51 107 107 266 23 78 91 192 266 1362 1617 757 4002 [Zdroj: Deset let transformace, 1999] Praktikum KMVP část 2 16

Třídění druhého stupně relativní četnosti PRIJR6 * VZD4 Vzdelani na 4 kategorie Crosstabulation % within VZD4 Vzdelani na 4 kategorie VZD4 Vzdelani na 4 kategorie 1 Zakladni2 Vyuc,SO3 Maturita 4 VS Total PRIJR6 1,00 42,5% 23,5% 15,5% 13,6% 19,6% 2,00 47,7% 38,3% 33,0% 17,7% 32,9% 3,00 5,6% 18,7% 21,1% 18,0% 18,7% 4,00 3,8% 14,1% 19,0% 24,6% 17,4% 5,00,4% 3,7% 6,6% 14,1% 6,6% 6,00 1,7% 4,8% 12,0% 4,8% Total 100,0% 100,0% 100,0% 100,0% 100,0% [Zdroj: Deset let transformace, 1999] Praktikum KMVP část 2 17

Nejprve příklad: Procenta v tabulce. Porovnání subpopulací Praktikum KMVP část 2 18

[Babbie 1995: 386-387] Praktikum KMVP část 2 19

Praktikum KMVP část 2 20

Marginální četnosti Relativní sloupcové četnosti = součet v každém sloupci reprezentuje 100% Relativní řádkové četnosti = součet v každém řádku reprezentuje 100% Praktikum KMVP část 2 21

Uspořádání tabulky ZÁVISLÁ - vysvětlovaná NEZÁVISLÁ - vysvětlující pohlaví spokojenost muž žena Celkový součet 1 (nespokojen) 5 (71 %) 2 (29 %) 7 (100 %) 2 5 (83 %) 1 (27 %) 6 (100 %) 3 (spokojen) 2 (25 %) 6 (75 %) 8 (100 %) Celkový součet 12 9 21 (100 %) Nejčastěji bývá závislá proměnná nalevo v řádcích a nezávislá (vysvětlující) ve sloupcích. Praktikum KMVP část 2 22

Interpretace tabulek závislá proměnná = je v hypotéze ovlivňována, způsobována (nejčastěji je v řádcích) nezávislá(é) proměnná = vysvětluje, ovlivňuje závislou V kategoriích nezávislé proměnné ukazujeme kompletní (100 %) distribuci závislé proměnné. Pozor! Směr kauzality je vždy věcí teorie, nelze ji určit z dat samotných. [Kreidl 2000] Praktikum KMVP část 2 23

Interpretace tabulek Tabulky skoro vždy dělejte tak, aby vyjadřovaly podmíněnou pravděpodobnost, že respondent (věc) bude patřit do jednotlivých kategorií závislé proměnné, za předpokladu, že patří do dané kategorie nezávislé proměnné(ných). Procento je stým násobkem pravděpodobnosti. [Kreidl 2000] Praktikum KMVP část 2 24

Souvislost znaků v tabulce Kupení vysokých hodnot na diagonále tabulky naznačuje, že existuje souvislost mezi proměnnými. Souvislost ale může mít i jinou formu, např. v každém sloupci jsou pozorování nahromaděna do jediného pole, jehož pozice je pro každý sloupec jiná. Praktikum KMVP část 2 25

Porovnání podskupin 1. rozdělte případy do adekvátních podskupin (dle hypotéz, např. podle vzdělání) 2. popište proměnnou pro podskupiny pomocí zvolených statistik (např. medián, průměr, procenta) 3. srovnejte tyto údaje pro skupiny Praktikum KMVP část 2 26

Interpretace tabulek Při interpretaci procent obvykle stačí porovnávat extrémní hodnoty a ignorovat střední kategorie. Pokud jde o ordinální proměnné pak není dobré činit obsáhlé závěry na základě % uvnitř jednotlivých kategorií nezávislé proměnné. Smysluplné je dělat porovnání distribucí napříč kategoriemi nezávislé proměnné. Buďte opatrní a neberte názvy kategorií zas tak doslova. Praktikum KMVP část 2 27

Vlastnosti rozdělení znaků

Symetrie, variabilita [Hanousek, Charamza 1992: 21] Praktikum KMVP část 2 29

Šikmost a špičatost [Hanousek, Charamza 1992: 21] Praktikum KMVP část 2 30

Jednoduché popisné statistiky

Střední hodnoty: nominální znaky modus ordinální znaky medián (aritmetický průměr) intervalové znaky aritmetický průměr Praktikum KMVP část 2 32

Modus = kategorie s největší četností Medián = hodnota, která je ve prostředku všech pozorování seřazených podle hodnoty Aritmetický průměr = součet hodnot dělený počtem pozorování Praktikum KMVP část 2 33

Modus Praktikum KMVP část 2 34 [Babbie 1995]

Medián Praktikum KMVP část 2 [Babbie 1995] 35

Průměr Praktikum KMVP část 2 [Babbie 1995] 36

Charakteristiky variability Udávají koncentraci nebo rozptýlení kolem střední hodnoty. Ukazují na kvalitu průměru. Rozptyl = součet kvadratických odchylek od průměru dělený rozsahem výběr zmenšeným o 1. Směrodatná odchylka = odmocnina z rozptylu. Směrodatná odchylka je míra rozptýlení hodnot od průměrné (střední) hodnoty. Praktikum KMVP část 2 37

Výpočet směrodatné odchylky Příklad. Máme pozorování: 7 2 5 4 3 1 8 2 6 2 Součet řady = 40; n = 10; průměr = 40/10 = 4 Odchylky: 3-2 1 0-1 -3 4-2 2-2 součet odchylek je 9 9 = 0 čtverce odchylek: 9; 4; 1; 0; 1; 9; 16; 4; 4; 4 součet čtverců odchylek = 52 průměrná čtvercová odchylka tj. rozptyl = 52/10= 5,2 směrodatná odchylka (odmocnina z rozptylu) = 2,28 Praktikum KMVP část 2 38

Směrodatná odchylka v Excelu STDEVPA pro základní soubor STDEVA pro výběrový soubor Praktikum KMVP část 2 39

Další popisné statistiky Minimum / maximum Rozpětí Kvantily: dolní a horní kvartil Koeficienty šikmosti Praktikum KMVP část 2 40

Několik rad jak číst statistiky [Hanousek, Charamza 1993: 34-35]

Při čtení statistik pozor na: přesná čísla ve statistických zprávách procenta versus absolutní čísla srovnatelné údaje nezaměňovat ukazatele je porovnání vhodné? na výběry (nebyly-li provedeny profesionály) podoba otázek vlastní příprava zjišťování (experimentu) v nemocnici umírají lidé častěji než doma [Hanousek, Charamza 1993: 34-35] celé viz soubor Pozor_statistika.pdf Praktikum KMVP část 2 42

Typy grafů Excel viz část b. - grafy

Histogram 1400 Vzdelani na 6 kategorii 1200 1000 800 600 Frequency 400 200 0 1,0 2,0 3,0 4,0 5,0 6,0 Std. Dev = 1,54 Mean = 3,8 N = 4740,00 Vzdelani na 6 kategorii Praktikum KMVP část 2 44

Histogram 1400 PRIJEM89 1200 1000 800 Frequency 600 400 200 0 5000 9000 17500 35000 62500 6500 12500 25000 45000 87500 PRIJEM89 Praktikum KMVP část 2 45

Polygon 1400 PRIJEM89 1200 1000 800 600 Frequency 400 200 0 5000 9000 17500 35000 62500 6500 12500 25000 45000 87500 PRIJEM89 Praktikum KMVP část 2 46

Literatura Babbie, E. (1995). ThePracticeofsocial Research. 7th Edition. Belmont: Wadsworth Disman, M. (1993): Jak se vyrábí sociologická znalost. Praha: Karolinum Hanousek J., Charamza P. (1992). Moderní metody zpracování dat Matematická statistika pro každého. Praha: Grada. Kreidl, M. (2000). Podklady ke kurzu Analýza kvantitativních dat. FSV UK, LS 2000-2001. Jeřábek, H. (1993): Úvod do sociologického výzkumu. Praha: Karolinum Poděkování za cenné konzultace RNDr. L. Gatnarovi. Praktikum KMVP část 2 47