Statistika v současnosti

1. STATISTIKA z latin. Status (stav nebo stát) 1562 Benátky 17. stol. Německo Anglie 16.-17. st. tzv. politická aritmetika Ideální typ člověka - Adolphe QUETÉLET 18. a 19. st. pozorování a popis zákonitostí pozorovaných na tzv. hromadných jevech (bratři Bernoulliové, Langrange, Euler, de Moivre, Gauss, Laplacce, Bayes, ) až do poč. 20. st. tzv. vyčerpávající šetření 20. a 30. léta 20. st. metody náhodného výběru a dílčích šetření rozvoj statistiky s rozvojem výpočetní techniky (Fischer, Yule, Pearson, Neyman, )

Statistika v současnosti 1. Vědní obor deskriptivní induktivní 2. Metoda sběru, zpracování a vyhodnocování dat 3. Informace

Předmětem zkoumání statistiky ve společenských vědách je

člověk

2. Vědecký výzkum v pedagogice vytvoření příslušné teorie prvky teorie vznikají na základě výzkumu různé pojetí výzkumu Gavora... veškeré systematicky prováděné aktivity vedoucí ke získávání nových poznatků...

Kerlinger (1972): Vědecký výzkum je systematické, kontrolované, empirické a kritické zkoumání hypotetických výroků o předpokládaných vztazích mezi přirozenými jevy.

Základní metody poznávání (Charles Pierce) Metoda tradice Metoda autority Metoda a priori Metoda vědy

Výzkumy Kvantitativní Kvalitativní Ex-post-facto Experimenty

Pedagogický výzkum a jeho fáze Nápad, idea - stanovení problému Formulace hypotéz (Sběr dat) Testování hypotéz Závěry a jejich prezentace

2.1 Stanovení problému formulace problému cíl šetření výzkumná otázka ústřední hypotéza vyjádřit cíle ve zvládnutelné podobě konkrétní jednoznačné empiricky ověřitelné studium odborných pramenů formulace operacionalizovaných definic, proměnných

2.2 Formulace hypotézy pokusné předběžné prozatímní odpovědi na položené otázky (problémy)

Pravidla stanovení hypotézy (Gavora) H je tvrzení, v oznamovací větě (Výzkumný problém je naopak lepší vyjádřit tázací větou) H musí vyjadřuje vztah mezi dvěma proměnnými vždy je to o rozdílech, vztazích nebo následcích H musí být možno empiricky ověřitelné, proměnné musí být měřitelné

H jsou vlastně predikcí o vztazích mezi proměnnými Málokdy je to důsledek jediného faktoru Chyby při formulacích H Nesprávná, neurčitá formulace Složité souvětí Věcná hypotéza X statistická hypotéza

Proměnné - xi je to jev nebo vlastnost ve výzkumu se mění věk, klasifikace,. dělíme je na: Nezávisle proměnné = jev, vlastnost, která je příčinou nebo podmínkou vzniku jiné vlastnosti, jevu Závisle p. = je vlastnost, jev, která je výsledkem působení nezávislé proměnné

2.3 Testování / verifikace hypotézy Prokazujeme pravdivost nebo nepravdivost hypotézy Rozhodujeme na základě: třídění zpracování vyhodnocení shromážděných dat Data shromažďujeme od respondentů

Výzkumný vzorek základní soubor populace výběrový soubor výběr výběr prvků do výzkumných souborů volba jedinců situací, jejich počtu,.. = výběr prvků do výzkumného souboru

Druhy výběrů Prostý náhodný výběr (náhodná čísla) Výběr s vracením Výběr bez vracení Skupinový výběr Stratifikovaný výběr Kontrolovaný výběr Vícenásobný výběr Záměrný výběr Mechanický výběr Spárované výběry

Rozsah (velikost) výběru Čím větší soubor pořídíme, tím více se blížíme skutečným vlastnostem základního souboru Odhady rozsahu výběru u metrických dat : n = ( t²α. s²) / ² u nominálních či ordinálních dat: n = [ t²α. p. (1 p) ] / d²

3. Měření v pedagogickém výzkumu Měření v nejširším slova smyslu je přiřazování čísel předmětům nebo jevům podle pravidel (Stevens, 1951, s. 51)

3 postuláty Jestliže (a = b) (a b) ne však oboje Jestliže (a = b) (b = c) (a = c) Jestliže (a > b) (b > c) (a > c) Platí tyto postuláty při sledovaní jevů např. u lidí?!

Úrovně měření Nominální (tj. označkování) Ordinální (pořadové) Metrické Intervalové Poměrové

Vlastnosti dobrého měření: Validita Reliabilita Praktičnost jednoduchost, hospodárnost,...

2.4 Vyvozování závěrů a jejich prezentace Interpretujeme dosažené výsledky Srovnáváme je s jinými Zdůvodňujeme rozdíly Dedukujeme další podmíněné výroky Přijímáme nebo odmítáme H Vyslovujeme závěry výzkumu

4. Metody sběru dat Experiment Dotazovací techniky Dotazník Anketa Interview Focus group,.. Pozorování Studium dokumentů Sociometrie

5. Metody uspořádání a zpracování dat Tzv. popisná statistika

5.1 Uspořádání a sestavování tabulek Čárkovací metoda Interval - jeho hloubka a střed Zásady tvorby tabulek Četnost absolutní, relativní, kumulativní Využití MS Excell s přenosem dat do NCSS, SPSS,.

Četnostní tabulky Př. Bylo sledováno 92 rodin a zkoumal se počet členů domácnosti Základní pojmy Znak xi Četnost ni Relativní ni/n Kumulativní n1, n1+n2,. Kumulativní relativní p1, p1+p2,

počet členů domácnosti absolutní relativní kumul. kumul. rel.

počet členů domácnosti absolutní relativní xi ni ni/n kumul. n1, n1+n2, kumul. rel. p1, p1+p2,

počet členů domácnosti absolutní relativní xi ni ni/n 1 2 3 4 5 6 7 8 9 kumul. n1, n1+n2, kumul. rel. p1, p1+p2,

počet členů domácnosti absolutní relativní xi ni ni/n 1 10 2 15 3 23 4 28 5 9 6 4 7 2 8 0 9 1 92 kumul. n1, n1+n2, kumul. rel. p1, p1+p2,

počet členů domácnosti absolutní relativní xi ni ni/n 1 10 0,109 2 15 0,163 3 23 4 28 5 9 6 4 7 2 8 0 9 1 92 kumul. n1, n1+n2, kumul. rel. p1, p1+p2,

počet členů domácnosti absolutní relativní xi ni ni/n 1 10 0,109 2 15 0,163 3 23 0,250 4 28 0,304 5 9 0,098 6 4 0,043 7 2 0,022 8 0 0,000 9 1 0,011 92 1,000 kumul. n1, n1+n2, kumul. rel. p1, p1+p2,

počet členů domácnosti absolutní relativní xi ni ni/n kumul. n1, n1+n2, kumul. rel. p1, p1+p2, 1 10 0,109 10 2 15 0,163 25 3 23 0,250 4 28 0,304 5 9 0,098 6 4 0,043 7 2 0,022 8 0 0,000 9 1 0,011 92 1,000

počet členů domácnosti absolutní relativní xi ni ni/n kumul. n1, n1+n2, kumul. rel. p1, p1+p2, 1 10 0,109 10 2 15 0,163 25 3 23 0,250 48 4 28 0,304 76 5 9 0,098 85 6 4 0,043 89 7 2 0,022 91 8 0 0,000 91 9 1 0,011 92 92 1,000

počet členů domácnosti absolutní relativní xi ni ni/n kumul. n1, n1+n2, kumul. rel. p1, p1+p2, 1 10 0,109 10 0,109 2 15 0,163 25 0,272 3 23 0,250 48 4 28 0,304 76 5 9 0,098 85 6 4 0,043 89 7 2 0,022 91 8 0 0,000 91 9 1 0,011 92 92 1,000

počet členů domácnosti absolutní relativní xi ni ni/n kumul. n1, n1+n2, kumul. rel. p1, p1+p2, 1 10 0,109 10 0,109 2 15 0,163 25 0,272 3 23 0,250 48 0,522 4 28 0,304 76 0,826 5 9 0,098 85 0,924 6 4 0,043 89 0,967 7 2 0,022 91 0,989 8 0 0,000 91 0,989 9 1 0,011 92 1,000 92 1,000

Intervalové rozdělení í Obor všech možných hodnot sledovaného znaku rozdělíme do vzájemně se vylučujících intervalů tříd Čím větší rozsah sledovaného souboru tím větší počet intervalů (max. 15 pro přehlednost)

Výpočet intervalu Diskrétní náhodná veličina h = 0,08 R R 24 h R 12 h hloubka (šířka) intervalu R variační šíře (max. min.) Spojitá náhodná veličina k = 1 + 3,3 log(n) k počet dílčích intervalů n počet různých hodnot znaku

Příklad intervalového rozdělení í Na ZŠ se měřila výška žáků v cm: 144, 149, 145, 142, 146, 147, 141, 150, 143, 146, 150, 141, 148, 148, 144, 141, 145, 148, 144, 143, 155, 133, 158, 154, 151, 140, 136, 137, 153, 139, 138. R = 158 133 = 25 h = 0,08 * 25 = 2 25 25 1,04 h 2,08 24 12

5.2 Grafické metody zobrazování dat 100 Histogramy í (sloupcový graf) 80 60 40 20 Východ Západ Sever Polygony í (spojnicový graf) 90 80 70 60 0 1. čtvrt. 3. čtvrt. Výsečové grafy 50 40 30 20 Sever Východ Západ Sever Kartografy 10 0 1. čtvrt. 2. čtvrt. 3. čtvrt. Západ Východ 4. čtvrt. 1. čtvrt. 2. čtvrt. 3. čtvrt. 4. čtvrt.

Count Histogram Sloupcový graf Osa x jednotlivé naměřené hodnoty Osa y i hodnot (absolutní či relativní) Histogram of CS_SUPKT 140,0 105,0 70,0 35,0 0,0 15,0 23,8 32,5 41,3 50,0 CS_SUPKT

absolutní Polygon Četnosti spojujeme úsečkami ve středu jednotlivých intervalů Polygon í 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 počet členů domácnosti

Stromový graf

Stromový graf - příklad Máme k dispozici výkony v určité sportovní disciplíně: 784, 810, 806, 811, 815, 796, 811, 796, 819, 802, 807, 803, 820, 815. 78 79 80 81 82 4 66 2367 011559 0

Krabicový graf Kvantil k 25% kvantil = dolní kvartil 50% kvantil = medián 75% kvantil = horní kvartil 10% kvantily = decily 100% kvantily = percentily

Amount Krabicový graf 50,00 Box Plot horní kvartil 41,25 32,50 23,75 15,00 CS_SUPKT Variables JZ_SUPKT dolní kvartil

6. Základní statistické charakteristiky (číselný popis dat) Střední hodnoty charakteristiky polohy Míry rozptýlenosti - variability Míry koncentrace

6.1 Charakteristiky Modus (Mode) označení polohy xˆ nejčastěji se vyskytující hodnota (nejčetnější) může odhalit nehomogenitu výběru neříká nic o extrémních hodnotách

Medián (Median) označení x~ prostřední hodnota v řadě hodnot uspořádaných podle velikosti používá se jako charakteristika polohy, chceme-li odstranit vliv extrémních hodnot

Aritmetický průměr (Mean) označení x n i 1 x n x má velký význam, nelze však přeceňovat citlivý na extrémní hodnoty i x i x n hodnoty znaku n počet hodnot

Další charakteristiky polohy V symetrickém rozdělení se modus, medián i aritmetický průměr shodují! Vážený průměr Useknutý průměr Harmonický průměr (Harmonic Mean) Geometrický průměr (Geometric Mean)

6.2 Míry variability Rozpětí (Range) označení R výpočet max. hodnota min. hodnota značně ovlivněno extrémními hodnotami

Mezikvartilové rozpětí (Interquartile Range) výpočet horní kvartil dolní kvartil délka obdélníka v krabicovém grafu není ovlivněno extrémními hodnotami

Amount Krabicový graf 50,00 Box Plot horní kvartil 41,25 32,50 23,75 mezikvartilové rozpětí 15,00 CS_SUPKT Variables JZ_SUPKT dolní kvartil

Střední kvadratická odchylka, rozptyl doplňuje průměr rozdělení se stejným průměrem může být více liší se rozptylem s 2 n i 1 ( x i n x) 2. ni

Směrodatná odchylka (Standard Deviation) s s 2 spolu s rozptylem nejužívanější doplnění průměru kritérium věrohodnosti průměru

Variační koeficient (Coefficient of Variation) V s ( c) 100 x bezrozměrný pro porovnání variability hodnot měřených v různých jednotkách orientačně signalizuje případnou hrubou nesourodost dat

Další míry variability Průměrná odchylka d n / xi x /. ni i 1 n Relativní průměrná odchylka rd x d 100

6.3 Míry koncentrace Šikmost (angl. Skewness) označení S m S m = 0 rozdělení symetrické

S m > 0 zešikmené zprava (kladné hodnoty šikmosti) S m < 0 zešikmené zleva (záporné hodnoty šikmosti)

Špičatost (angl. Kurtosis někdy také Exces) označení K m K m = 0 normované normální rozdělení

K m > 0 špičatost (větší i prostředních hodnot) K m 0 plochost (přibližně stejně velké i prostředních a ostatních hodnot)

Normální rozdělení

Pravděpodobnost výskytu hodnot V intervalu od S do + S (kolem aritm. Ø) se nachází přibližně 2/3 (68,27%) všech hodnot V intervalu od 2S do + 2S (kolem Ø) se nachází přibližně 19/20 (95,4%) V intervalu od 3S do + 3S (kolem Ø) se nachází téměř všechny hodnoty (99,73%)