LIMITY APLIKACE STATISTICKÝCH TESTŮ VÝZNAMNOSTI V PEDAGOGICKÉM VÝZKUMU: SEMINÁŘ PRO NESTATISTIKY

Podobné dokumenty
4ST201 STATISTIKA CVIČENÍ Č. 7

Možnosti a limity statistických analýz na datech o profesním rozvoji učitelů ZŠ a SŠ

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Ing. Michael Rost, Ph.D.

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Statistická a věcná významnost. Statistická významnost. Historie hypotézy a testů. Hypotézy a statistické testy.

Cvičení ze statistiky - 8. Filip Děchtěrenko

Proč a jak se stát studentem

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

1 Projekt SIPVZ Tvorba a implementace softwarové podpory výuky matematiky na gymnáziu s využitím CABRI Geometrie

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

STATISTIKA LS Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D.

= = 2368

Testování hypotéz a měření asociace mezi proměnnými

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Aproximace binomického rozdělení normálním

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Metodologie pro Informační studia a knihovnictví 2

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

You created this PDF from an application that is not licensed to print to novapdf printer (

Máte rádi kávu? Statistický výzkum o množství vypité kávy napříč věkovým spektrem.

Jednostranné intervaly spolehlivosti

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Varianty výzkumu Kroky výzkumu Výběrový soubor

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Testování statistických hypotéz

ANALÝZA DAT V R 9. VÝPOČET VELIKOSTI SOUBORU. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Vzorová prezentace do předmětu Statistika

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

TECHNICKÁ UNIVERZITA V LIBERCI

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Testování statistických hypotéz. Obecný postup

Stručný úvod do testování statistických hypotéz

Statistické testování hypotéz II

Náhodné veličiny, náhodné chyby

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

TESTOVÁNÍ KVALITATIVNÍCH ZNAKŮ V PROGRAMU

Jednofaktorová analýza rozptylu

Tomáš Karel LS 2012/2013

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Hodnocení kvality vzdělávání září 2018

Testování statistických hypotéz

Ranní úvahy o statistice

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

STATISTICKÉ TESTY VÝZNAMNOSTI

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Testování statistických hypotéz

STATISTICKÉ ODHADY Odhady populačních charakteristik

VÝBĚR VZORKU V KVANTITATIVNÍM

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Testy. Pavel Provinský. 19. listopadu 2013

Statistické metody v medicíně II. - p-hodnota

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Tomáš Karel LS 2012/2013

Příklady na testy hypotéz o parametrech normálního rozdělení

Testy statistických hypotéz

ČVUT FAKULTA DOPRAVNÍ

STATISTICKÉ HYPOTÉZY

Charakteristika datového souboru

Co je málo a co už je moc? ANEB Ideální počet sexuálních partnerů WHAT IS LITTLE AND WHAT IS TOO MUCH? IDEAL NUMBER OF SEXUAL PARTNERS

Základy pedagogické metodologie. Mgr. Zdeněk Hromádka

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

INDUKTIVNÍ STATISTIKA

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

ADDS cviceni. Pavlina Kuranova

Sociologický výzkum v praxi

Testování hypotéz. 4. přednáška

Analýza studijních výsledků a připravenosti nastupujících studentů v oblasti ICT Informatics Education, Preparation and Results of Students

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

PRAVDĚPODOBNOST A STATISTIKA

Interpretace map povodňového nebezpečí a povodňových rizik a jejich využití v praxi

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Výběrové šetření o zdravotním stavu české populace (HIS CR 2002) - Charakteristika výběrového souboru (II. díl)

Jana Vránová, 3. lékařská fakulta UK

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Vzdělávání jako výraz jistoty zaměstnání?

TECHNICKÁ UNIVERZITA V LIBERCI

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

12. cvičení z PST. 20. prosince 2017

Statistické metody uţívané při ověřování platnosti hypotéz

Transkript:

LIMITY APLIKACE STATISTICKÝCH TESTŮ VÝZNAMNOSTI V PEDAGOGICKÉM VÝZKUMU: SEMINÁŘ PRO NESTATISTIKY Seminář ČAPV 2018

Upozornění Prezentace obsahuje pouze doprovodný text k semináři pro doktorandy v rámci konference ČAPV 2018. Hlavní náplní semináře byly ukázky ve statistickém softwaru a jejich diskuse, přičemž tyto aspekty prezentace neobsahuje.

Cíl semináře V rámci semináře se pokusíme ukázat na jednoduchých příkladech z pedagogického výzkumu limity aplikace statistických testů významnosti. Seminář volně navazuje na článek Soukup, P., & Kočvarová, I. (2016). Velikost a reprezentativita výběrového souboru v kvantitativně orientovaném pedagogickém výzkumu. Pedagogická orientace, 26(3), 512 536.

Obsah semináře Zaměříme se na následující témata: 1. proč užíváme (až nadužíváme) statistické testy významnosti; 2. proč se mají testy aplikovat na reprezentativní výběry; 3. proč záleží na velikosti výběru při aplikaci testů; 4. proč vede užívání testů k černobílé interpretaci výsledků výzkumu; 5. proč statistická významnost není totéž co významnost.

Limity semináře V rámci semináře budeme pracovat bez dostatku času; podrobností; vzorečků; hromadného klikání ve statistickém softwaru; statistika / statističky.

Proč užíváme (až nadužíváme) statistické testy významnosti 1. 3 důvody nesprávného užívání a nadužívání 2. Základní podmínky vhodné aplikace

Důvody nesprávného užívání a nadužívání: 1. neznalost obecně slabá statistická vzdělanost v oblasti pedagogiky / sociálních věd problematika je zjednodušována v rámci metodologického kurikula

Výuka kvantitativní analýzy v pedagogice (2017) statistické testy významnosti tvorba výběru pravděpodobnost 0% 20% 40% 60% 80% 100% Bc. Bc. - Mgr. Ph.D.

Důvody nesprávného užívání a nadužívání: 2. tradice Testování je obecně přijímáno a často vyžadováno recenzenty, školiteli. Soukup (2016) analyzoval 84 článků v časopisech Pedagogika a Pedagogická orientace za 10 let. Závěr: Více než polovina těchto textů používá koncepci statistické významnosti, i když to prezentovaná data neumožňují. (s. 182)

Důvody nesprávného užívání a nadužívání: 3. mechanická aplikace Aplikace testů je ve statistickém softwaru otázkou několika kliknutí, hodnoty statistické významnosti lze do výstupů implementovat automaticky. Jakékoli šetření využívající kvantitativní analýzu dat mohou zdobit p-hodnoty či hvězdičky.

Jenže

Podmínky vhodné aplikace Test statistické významnosti testuje statistickou významnost výsledku, tedy jeho zobecnitelnost z výběru na populaci na zvolené hladině významnosti. O aplikaci testu má smysl uvažovat, pokud máme reprezentativní výběr z populace, který ZÁROVEŇ splňuje nároky na potřebnou velikost s ohledem na přijatelnou výběrovou chybu a na požadovanou sílu testu, a pokud splňujeme ještě další podmínky.

Proč se mají testy aplikovat na reprezentativní výběry 1. Co je reprezentativita 2. Ukázka tvorby reprezentativního výběru

Reprezentativita výběru Reprezentativita znamená takovou kvalitu výběru a dalších postupů metodiky výběrového šetření, díky níž dotázaný soubor jednotek získá rozložení charakteristik, jež můžeme považovat za shodné s populací, ze které vybraný soubor pochází (Krejčí, 2011, s. 3). Reprezentativita závisí především na způsobu tvorby výběru; velikosti výběru.

Reprezentativní výběr

Ukázka 1: výběr z populace Opora výběru: data z šetření AES 2016 N = 12 272 Vybrané charakteristiky Zastoupení Muži 48 % Pražáci 6 % Vysokoškoláci (ISCED 7 - Mgr.) 12 %

Proč záleží na velikosti výběru při aplikaci testů 1. Velikost pravděpodobnostního výběru souvisí s výběrovou chybou 2. Velikost pravděpodobnostního výběru souvisí se sílou testu

Výběrová chyba Výběrová chyba vyjadřuje odchylku mezi populací a výběrem. Při tvorbě výběru se musíme rozhodnout, jakou odchylku jsme ochotni připustit, obvykle 5 %. Vybraný znak populace Zastoupení v populaci Zastoupení ve výběru při 5% toleranci výběrové chyby Muži 49 % 49 % (± 2,5 %)

Velikost prostého náhodného výběru podle tolerance výběrové chyby Populace Tolerance výběrové chyby 5% 3% 2% 1% (± 2,5 %) (± 1,5 %) (± 1 %) (± 0,5 %) 2 000 322 696 1 091 1 655 5 000 357 879 1 622 3 288 10 000 370 964 1 936 4 899 100 000 383 1 056 2 345 8 762 1 000 000 384 1 066 2 395 9 513 10 000 000 384 1 067 2 400 9 595

Síla testu Síla testu měří schopnost statistického testu detekovat rozdíly či souvislosti, o které se zajímáme (Hendl 2015, s. 417-422). Dosahuje hodnot 0 1. Běžně se doporučuje minimální síla testu o velikosti 0,8. Pro stanovení síly testu lze využít statistický software při plánování výzkumu (např. Sample Power, G*Power); ex post při analýze dat (např. SPSS).

Obecně platí, že čím menší je předpokládaný zjištěný efekt (rozdíl, souvislost), tím větší výběr musíme volit. MALÝ ROZDÍL 100 80 60 40 20 VELKÝ ROZDÍL 100 80 60 40 20 0 skupina 1 skupina 2 0 skupina 1 skupina 2

Velikost síly testu pro dvouvýběrový t-test s ohledem na velikost výběru pro prostý náhodný výběr (α = 0,05)

Ukázka 2: vliv velikosti výběru na výsledek testu 2 skupiny žáků psaly test. Bylo možné získat 0 100 bodů. H 0 : Výsledky dvou skupin žáků jsou shodné. μ 1 = μ 2 Ukázka zahrnuje 3 situace n = 100 n = 400 n = 600

Proč vede užívání testů k černobílé interpretaci výsledků výzkumu

Zamítáme H 0? I za situace, kdy splňujeme veškeré podmínky pro vhodnou aplikaci testu statistické významnosti, je nutné si uvědomit, že otázka přijetí / zamítnutí námi testované hypotézy stojí na obecně přijímané dohodě, kdy pracujeme obvykle na 5% či 1% hladině statistické významnosti. Vytváříme tak umělou hranici, která sice přináší jednoznačné vědecké závěry, avšak za cenu extrémního zjednodušení reality.

Výsledek testu na hraně Hypotéza Hodnota statistické signifikance (α = 0,01) Interpretace H 1 0,051 Nezamítáme H 0 H 2 0,050 Nezamítáme H 0 H 3 0,049 Nezamítáme H 0 Hypotéza Hodnota statistické signifikance (α = 0,05) Interpretace H 1 0,051 Nezamítáme H 0 H 2 0,050 Zamítáme H 0 H 3 0,049 Zamítáme H 0

Proč statistická významnost není totéž co významnost

Statistická a věcná významnost STATISTICKÁ Zobecnitelnost Závisí na velikosti výběru Testy statistické významnosti VĚCNÁ Praktická důležitost Nezávisí na velikosti výběru Popisné statistiky a míry věcné významnosti (effect size measures)

(Ne) závislost výsledků na velikosti výběru Velikost výběru Věcný rozdíl Hodnota statistické signifikance n = 100 1 bod 0,214 n = 400 1 bod 0,013 n = 600 1 bod 0,002 Pozor, rozhodně neplatí, že čím větší výběr, tím lepší!

Závěr

Netestujme mechanicky Aplikace statistického testu je možná pouze za splnění požadavků na reprezentativitu, velikost výběru a dalších, které nebyly v rámci prezentace zmíněny. Statistická významnost není významnost. I statisticky významný výsledek může být věcně nevýznamný (a naopak). Zdůrazňování statistické významnosti vede k černobílé interpretaci výsledků výzkumů.

Reference Hendl, J. (2015). Přehled statistických metod: analýza a metaanalýza dat (Páté, rozšířené vydání). Praha: Portál. Krejčí, J. (2011). Kvalita výběrových šetření a standardy v sociálním výzkumu. Praha, Sociologický ústav AV ČR. Mareš, P., Rabušic, L., & Soukup, P. (2015). Analýza sociálněvědních dat (nejen) v SPSS. Brno: Masarykova univerzita. Soukup, P. (2016). Užívání statistické a věcné významnosti v časopise Pedagogická orientace a Pedagogika v posledních deseti letech: pohled statistika. Pedagogická orientace, 26(2), 182 201. Soukup, P., & Kočvarová, I. (2016). Velikost a reprezentativita výběrového souboru v kvantitativně orientovaném pedagogickém výzkumu. Pedagogická orientace, 26(3), 512 536.

Děkuji za pozornost! Ilona Kočvarová Centrum výzkumu FHS UTB ve Zlíně kocvarova@utb.cz