Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu
K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech dat (explorační statistika). S pomocí teorie pravděpodobnosti ověřuje platnost hypotéz.
Statistický software Uživatelsky příjemný (Statistica 8, MiniTab) Profesionální (SPSS, SAS)
Typy dat Kategorizované proměnné (do jaké kategorie respondent nebo případ patří) a) nominální (nemá smysl pořadí kategorií) b) ordinální (uspořádání, které vychází z logiky kategorií, lze seřadit vzestupně nebo sestupně) Číselné proměnné (informace, kde se primárně ptáme na nějaké číslo) a) intervalová b) poměrová (vyjádřena číselně sama o sobě)
Typy dat Nominální i. muž, žena ii. vesnice, město iii. absolvoval, neabsolvoval Ordinální i. 1, 2, 3, 4, 5 ii. silně souhlasím, souhlasím, nesouhlasím, silně nesouhlasím Intervalová i. 10, 12, 15, 17, 20 bodů v testu Poměrová i. 12, 18, 22, 38, 54 let ii. 55, 6 kg
Proměnné V případě, že má výzkumný problém dvě proměnné, určujeme závisle a nezávisle proměnnou. Nezávisle proměnná (proměnná, která je příčinou změny) Závisle proměnná (proměnná, jejíž hodnoty se změnily vlivem nezávisle proměnné) Jaký vliv má interaktivnost výuky na míru osvojených znalostí?
Data nám slouží k přesnému výběru statistické metody Jestliže jsou obě proměnné nominální nebo ordinální, použijeme kontingenční tabulku (chí-kvadrát), např. rozdíly v postoji ke škole (pozitivní, negativní) mezi chlapci a dívkami Jestliže je jedna proměnná nominální a druhá metrická (poměrová, intervalová), použijeme t-test, např. rozdíly v EQ u studentů prvních a posledních ročníků gymnázií Jestliže je jedna proměnná metrická a druhá nominální s více kategoriemi (nebo ordinální), použijeme analýzu rozptylu, např. rozdíly v testu tvořivosti v různých věkových kategoriích Jestliže jsou obě proměnné metrické nebo ordinální a zjišťujeme závislost, použijeme test korelace
Popisná statistika Jaká je úspěšnost žáků 5. třídy ZŠ Vsetín Ohrada v matematice? Školní úspěšnost operačně definujeme jako známku z testu matematických znalostí. Vzorek bude tvořit 22 žáků 5. třídy 1, 1, 2, 4, 3, 3, 3, 2, 4, 1, 3, 2, 1, 5, 1, 1, 2, 4, 3, 2, 3, 3 (viz pracovní sešit.xls) Co můžeme o těchto datech říci?
Popis střední hodnoty Popis né statis tiky (pracovni_data2) Proměnná N platných Průměr Minimum Maximum Sm.odch. Známka z testu MA 22 2,454545 1,000000 5,000000 1,184313
Tabulka četností Známka Četnost n i Relativní četnost f i Kumulativní četnost 1 6 0,273 6 2 5 0,227 11 3 7 0,318 18 4 3 0,136 21 5 1 0,046 22 22 1,000
Histogram četností 8 7 6 Histogram z Známka z testu MA pracovni_data 4v*22c Známka z testu MA = 22*1*normal(x; 2,4545; 1,1843) 7; 32% 6; 27% Počet pozorování 5 4 3 5; 23% 3; 14% 2 1 1; 5% 0 1 2 3 4 5 Známka z testu MA
Výsečový graf Výsečový graf z Známka z testu MA pracovni_data 4v*22c 5; 1; 5% 4; 3; 14% 1; 6; 27% 3; 7; 32% 2; 5; 23% Známka z testu MA
Spojnicový graf 5,5 Spojnicový graf z Známka z testu MA pracovni_data 4v*22c 5,0 4,5 4,0 Známka z testu MA 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Krabicový graf 5,5 Krabicový graf z Známka z testu MA pracovni_data2 8v*22c 5,0 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 Známka z testu MA Medián = 2,5 25%-75% = (1, 3) Rozsah neodleh. = (1, 5) Odlehlé Extrémy
Charakteristiky centrální tendence Čísla, která nejlépe zastupují celý soubor dat I. Aritmetický průměr (data metrická) II. Modus (data nominální) III. Medián (data ordinální)
Výpočet střední hodnoty Průměr intervalový popis střední hodnoty Medián prostřední hodnota z řady hodnot seřazených podle velikosti (nad mediánem leží 50% dat a pod mediánem 50% dat) Modus ta hodnota, která se v daném souboru dat vyskytuje nejčastěji 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5
Příklad Výsledky IQ testu 96, 96, 97, 99, 100, 101, 102, 104, 195. Modus (nejfrekventovanější skóre) 96 Medián (prostřední skóre) 100 Průměr (aritmetický průměr) 110,6 V tomto případě centrální hodnotu nejlépe vystihuje medián.
Výpočet průměru Známka Četnost n i n. x i 1 6 6 2 5 10 3 7 21 4 3 12 5 1 5 22 54
Míra variability (charakteristika rozptýlení) Průměr nám nemusí poskytovat komplexní informace o souboru. 1, 1, 1, 5, 5, 5 nebo 3, 3, 3, 3, 3, 3 Rozptyl míra rozptýlení, zda mezi průměry jsou či nejsou významné rozdíly. Směrodatná odchylka druhá odmocnina z rozptylu, jak jsou data rozptýlena od průměru, ukazatel vstupních dat.
Rozptyl a směrodatná odchylka Data 8, 12, 12, 12, 13, 16, 17, 18, 18 Zakreslení dat na číselnou osu (zjišťuji průměrnou vzdálenost od průměru). Vychází nula, jak tedy postupovat? Průměrný součet čtverců odchylek od aritmetického průměru. Jaký je matematický postup výpočtu rozptylu (průměrné odchylky od průměru)?
Výpočet rozptylu a směrodatné odchylky x x 2 1-2 4 1-2 4 1-2 4 5 2 4 5 2 4 5 2 4 r=3 s 2 =4 x x 2 3 0 0 3 0 0 3 0 0 3 0 0 3 0 0 3 0 0 r=3 s 2 =0
Příklad Dva soubory dat se stejným průměrem (data2, testy v páté a šesté třídě. Co nám říká směrodatná odchylka? Jak vypadá distribuce dat? Popis né statis tiky (pracovni_data2) Prom ěnná N platných Prům ěr Minim um Maxim um Sm.odch. TEST5 22 20,00000 16,00000 23,00000 2,070197 TEST6 22 20,00000 8,00000 31,00000 7,131419 K čemu je nám znalost směrodatné odchylky v praxi?
Příklad Petr je student sedmé třídy a v testu z JČ získal 40 bodů, v test z MA získal 30 bodů. Co můžeme říct o srovnání jeho znalostí z obou předmětů? Předmět Počet bodů Průměr Směrodatná odchylka Jazyk český 40 35 10 Matematika 30 25 2 JČ o půl směrodatné odchylky nad průměrem MA o 2,5 směrodatné odchylky nad průměrem
Otázky Jak jsem uspěl v případě, že jsem napsal test hodně špatně, ale směrodatná odchylka bodů v testu je velká? Jak jsem uspěl v případě, že jsem napsal test hodně špatně a směrodatná odchylka bodů v testu je malá? Jak jsem uspěl v případě, že jsem napsal test hodně dobře a směrodatná odchylka bodů v testu je velká? Jak jsem uspěl v případě, že jsem napsal test hodně dobře a směrodatná odchylka bodů v testu je malá?
Otázky Jak jsem uspěl v testech ve srovnání s ostatními spolužáky? Počet bodů Průměr Směrodatná odchylka Matematika 87 75 13 Literatura 16 13 2 Všeobecné znalosti 31 34 6 Vím, jak si vedu ve srovnání s ostatními, můžu to i vyčíslit tzv. percentily nebo z skóre.
Směrodatná odchylka 68,27%, 95,4%, 99,73% -1 +1 r = průměr Hodnoty, kterých může studovaná proměnná nabývat rozptyl
Interval spolehlivosti Odhadujeme skutečnou hodnotu (průměr) základního souboru na základě výběru (výzkumný vzorek). Odhad se může měnit, my ho neznáme (jelikož jsme jej nezměřili na celé populaci), proto určujeme intervalový odhad. S předem zvolenou pravděpodobností obsahuje skutečnou střední hodnotu v populaci. 11.800 Kč 12.800 Kč
Testování hypotéz Při testování hypotéz (relační a kauzální výzkumné problémy) formulujeme dvě vzájemně si odporující hypotézy H 0 nulová hypotéza, jednoduché tvrzení o neexistenci vztahu H A tzv. alternativní hypotéza, negace nulové hypotézy
Postup Stanovení nulové a alternativní hypotézy. Volba matematicko-statistické metody vedoucí k rozhodnutí ve prospěch H 0 nebo H A. Volba spolehlivosti. Kritérium pro rozhodnutí (signifikance).
Testová statistika chí-kvadrát test (kontingenční tabulka) t-test koeficient korelace analýza rozptylu
Spolehlivost Před samotným testováním volíme spolehlivost, s jakou budeme chtít pracovat. Standardně se stanovuje 95%. Povolujeme riziko max. 5%, že uděláme chybu.
Rizika chybných rozhodnutí skutečnost H 0 H A H 0 OK Chyba 1. druhu H A Chyba 2. druhu OK
Signifikance Nejpodstatnější hodnota. Pravděpodobnost toho, že zamítneme nulovou hypotézu, ačkoliv ona platí. Předem jsme si stanovili, že chceme pracovat s pravděpodobností 95%. Signifikance nám toto riziko vyčísluje. Hodnota mezi 0 a 1.
Signifikance p < 0,05 zamítám H 0 p > 0,05 nezamítám H 0 riziko by bylo větší než 5%
Chí-kvadrát Test nezávislosti chí-kvadrát Rozdíly ve známce z matematického testu u dívek a chlapců H 0 : P CH = P D H A : P CH P D p < 0,05, zamítáme nulovou hypotézu Zjistili jsme statisticky významný rozdíl v úspěšnosti u dívek a chlapců.
Test nezávislosti chí-kvadrát Kontingenční tabulka (pracovni_data2) Četnost označených buněk > 10 (Marginální součty nejsou označeny) Známka z testu MA pohlaví D pohlaví CH Řádk. součty 1 6 0 6 2 5 0 5 3 1 6 7 4 1 2 3 5 0 1 1 Vš.skup. 13 9 22 Souhrnná tab.: Očekávané četnos ti (pracovni_data2) Četnost označených buněk > 10 Pears onův chí-kv. : 15,6964, sv=4, p=,003456 Známka z testu MA pohlaví D pohlaví CH Řádk. součty 1 3,54545 2,454545 6,00000 2 2,95455 2,045455 5,00000 3 4,13636 2,863636 7,00000 4 1,77273 1,227273 3,00000 5 0,59091 0,409091 1,00000 Vš.skup. 13,00000 9,000000 22,00000
Korelační analýza Zkoumá vzájemný vztah kvantitativních proměnných Soubor TESTY Nejčastěji se používá Pearsonův koeficient korelace r. Nabývá hodnot od -1 do 1. Záporné hodnoty značí nepřímou závislost, kladné přímou, nula značí nezávislost.
Korelace Proměnná Známka z testu MA Známka z testu PŘ Korelace (pracovni_data2) Označ. korelace js ou významné na hlad. p <,05000 N=22 (Celé případy vynechány u ChD) Průměry Sm.odch. Známka z testu Známka z testu MA PŘ 2,454545 1,184313 1,000000 0,918770 2,318182 1,086119 0,918770 1,000000 Bodový graf: Známka z testu MA vs. Známka z testu PŘ (Celé příp. vynech. u ChD) Známka z testu PŘ =,25000 +,84259 * Známka z testu MA Korelace : r =,91877 8 4 0 Známka z testu PŘ 5,0 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 0 1 2 3 4 5 6 0 4 8 Známka z testu MA 95% hladina spolehlivosti
T- testy Zda ženy dosahují stejného skóre v testu jako muži. H 0 : P M = P Ž (ženy dosahují stejných výsledků jako muži) H A : P M P Ž T- test nezávislé dle skupin p < 0,05, zamítáme nulovou hypotézu
T-testy t-testy; grupováno: pohlaví (pracovni_s es it3) Skup. 1: M Skup. 2: Ž Průměr Průměr t sv p Proměnná M Ž test 9,166667 15,11111-4,63412 46 0,000030 18 Krabicový graf : test 16 14 test 12 10 8 6 M pohlaví Ž Průměr Průměr±SmCh Průměr±1,96*SmCh
ANOVA Zajímá nás vliv více nominálních proměnných na kvantitativní proměnnou. H 0 mezi skupinami není statisticky významný rozdíl H A mezi skupinami je statisticky významný rozdíl Zda má prospěch vliv na výsledek v testu.
Graf Anova 20 Kategoriz. krabicový graf: test 18 16 14 test 12 10 8 6 C D E F A B prospěch Průměr Průměr±SmCh Průměr±1,96*SmCh
Analýza rozptylu Analýza rozptylu (pracovni_s esi t3) Označ. efekty jsou význ. na hlad. p <,05000 SČ SV PČ SČ SV PČ F p Prom ěnná efekt efekt efekt chyba chyba chyba test 665,6992 5 133,1398 333,5508 42 7,941686 16,76468 0,000000
Předpoklady Základním předpokladem pro volbu testu je normalita H 0 : Data pochází z normálního rozdělení H A : Data nepochází z normálního rozdělení Pokud nesplňuje normalitu, musíme použít neparametrický test Základní statistiky, tabulky četností - normalita - histogram
Test normality Proměnná Testy normality N max D K-S Lilliefors otázka 1 240 0,311871 p <,01 p <,01