Jak je to opravdu s P hodnotami? Petr Soukup, 23. 5. 2019
Citáty úvodem Přátelé nedoporučují přátelům používat P hodnotu (John K. Kruschke) Shrneme-li základní: statisticky významný, neříkejte to, nepoužívejte to! (Wasserstein, Schirm, Lazar) Statistická významnost je nejméně zajímavá stránka výsledků. Měli bychom se zaměřit na velikost efektu (jeho věcnou významnost), ne pouze na to, zda efekt existuje či nikoliv. (Gene Glass) 2
Struktura prezentace Důvod zájmu o téma Co je to P hodnota? (A co není?) Problémové rysy P hodnoty (Co Fisher věděl?) Problémové rysy používání P hodnot (Co Fisher nemohl vědět?) Výsledky vybraných empirických studií (ČR a svět) Vybrané alternativy pro P hodnotu (Co tedy užívat?) Závěry a doporučení pro praxi (výuka, publikování, recenzování) 3
Důvod zájmu o téma Úvahy nad výukou statistiky a kvantitativní analýzy (2001-2004) Diskuse s prof. Blahušem (2005-2006) 2007 článek s prof. Rabušicem, seminář na SoÚ a další diskuse Další studium a rozvíjení tématu Výsledek: 6 publikovaných článků, další 2 v recenzním řízení, příprava monografie a tento seminář 4
Co dnes nezazní? Chyby měření (Řehák, Kreidl, Schubert) Nesprávné užívání statistických technik (Kalous) Komplexní výběrové designy (Straková&Soukup) Bootstrap jako alternativa k testům (Militký&Meloun) Bayesovské přístupy (Hebák) Nízká návratnost výběrových šetření (Krejčí) Chybějící hodnoty (Petrúšek) Problematika náhodných a nenáhodných výběrů (Soukup&Rabušic, Cuberek&Frömel) A mnoho dalšího 5
6 P HODNOTA
P hodnota Před pokusem o definici si zkusíme malý test Vyhodnocení a diskuse 7
Co JE P hodnota? Vyjádření pravděpodobnosti, že získám data jaká mám, nebo ještě extrémnější, pokud platí H0 Technicky tedy podmíněná pravděpodobnost (P(D/H)) Vypovídá tedy o našich datech!!!, ne o hypotézách (o nich jen nepřímo) Číslo mezi 0 a 1 Stručně o vzniku koncepce (od H0 k NHST) 8
Co NENÍ P hodnota? Pravděpodobnost nulové hypotézy P(H0)) Pravděpodobnost nulové hypotézy, pokud jsem získal určitá data (P(H/D)) Pravděpodobnost alternativní hypotézy (či její doplněk) P(H1) resp. 1-P(H1) Hodnota, která nám sděluje přímo něco o hypotézách, resp. jejich pravděpodobnostech 0,000 Magická, zázračná hodnota, která stačí (když je menší než 0,05), pro publikaci v kvantitativním výzkumu 9
Jaká může P(H/D) pro magickou P(D/H)= 0,05? ŠANCE HYPOTÉZ APRIORI ŠANCE HYPOTÉZ POTÉ 10 Zdroj: Nuzzo, 2014, Nature
Jak nám prší P hodnoty (aneb ruleta ve vědecké praxi)? 11 Zdroj: ESCI, Cumming, https://thenewstatistics.com/itns/
12 PROBLÉMOVÉ RYSY P HODNOTY
Problémové rysy P hodnoty Nedostatečná (žádná) výpověď o základním souboru (P(D/H)), nedostatečná (žádná) výpověď o hypotézách Nereálnost nulových hypotéz (tzv. nicotné hypotézy) už od počátku čekám, že H0 je neudržitelná - viz korelace, t-testy atd. (lze snadno napravit, ale software tomu většinou nepřeje) Jde o náhodnou hodnotu (proměnnou), předpoklad nereálné nekonečné replikace (vypovídá o datech, které nemáme) ilustrace skrze déšť P hodnot Návrhy řešení: umírněné (nutno doplnit dalšími ukazateli, např. APA manuál, Cohen, aj.) až extrémní (nutno okamžitě přestat 13 užívat, Loftus, Trafimow, aj.)
PROBLÉMOVÉ RYSY UŽÍVÁNÍ P HODNOTY 14
Problémové rysy užívání P hodnoty (tedy užívání koncepce chybně) Mechanická práce s klasickou 5% hladinou (hvězdičky, stepwise, skrývání hodnot) Dělení výsledků na statisticky významné a nevýznamné Statisticky významné je označováno jako důležité Statisticky nevýznamné výsledky nejsou odeslány k publikování či přijaty k publikování (file drawer problem, šuplíkový efekt) HARKing P hacking (fishing, hunting, etc.) Vícenásobné testování bez zohlednění při interpretaci výsledků Zkreslení pro metaanalýzy, replikace se nedaří (tzv. replikační krize) 15
P hacking Strategie, kdy hledám jen statisticky významné výsledky a ty publikuji Mnoho studií potvrzuje, že se to v praxi děje 16 Zdroj: Head a kol. 2015 The Extent and Consequences of P-Hacking in Science, PlosOne
P hacking a file drawer 17 Zdroj: Nosek a kol. 2015 Estimating the reproducibility psychological science, Science
P hacking a file drawer 18 Zdroj: Franco 2014 Publication bias in the social sciences, Science
P hacking a file drawer 19 Zdroj: Flore&Wicherts. 2015. Does stereotype threat influence performance of girls in stereotyped domains? Journal of School Psychology
Replikační krize a dopady na metaanalýzu Mnohé studie, které replikují stávající neprokázaly původní (slavné) výsledky Nature a Science (201-2015): 21 studií jen 62 % prokázáno, efekt jen cca poloviční [Caremer a kol. 2018, Nature] 100 replikací z psychologie: efekt byl po replikacích cca poloviční, 97 % původních studií malé P, ale jen 36 % u replikací! [Nosek a kol. 2015, Science, 2015] 20
21 VÝSLEDKY VÝZKUMŮ (ČR A SVĚT)
Výzkum v ČR Nakolik jsou dodržovány současné standardy v oblasti užívání statistické a věcné významnosti v české sociálně vědní produkci prizmatem produkce tří předních českých časopisů? Obsahová analýza kvantitativních článků 3 časopisů: Sociologický časopis, Československá psychologie, Pedagogika Základní sledované období: 2005-2014 (Soc. čas. i 1995-2004) Celkem 363 článků 22
Výzkum 3 českých časopisů - metodologie Sledované oblasti: používání statistických testů pro data, kde tyto využívat nelze, nesprávná užívání statistické významnosti, zejména interpretační pochybení a mechanická práce s výsledky, věcná interpretace výsledků, používání měr věcné významnosti 23
Výzkum 3 českých časopisů - výsledky Častá je mechanická aplikace statistiky či nesprávná interpretace (ve více než 40 % článků Sociologického časopisu za posledních 10 let) zejména v Československé psychologii absentuje věcná interpretace výsledků (50 %) Míry věcné významnosti jsou používány poměrně často, nicméně v jejich užívání jsou také mezery (novější ukazatele se nepoužívají, nadto poměrně málo dochází k jejich interpretaci 24
Výzkumy v zahraničí ESR 2000-2004 2010-2014: polovina analyzovaných textů chybná interpretace statistické významnosti a obdobně zhruba v polovině textů absentuje věcná interpretace [Bernardo,Chakhai,Leopold 2017], AER 1980 1989 a 1990 1999: ekonometrická praxe se v analyzovaných desetiletích sice místy zlepšuje (častěji je užíváno síly testu, rozlišováno mezi statistickou a ekonomickou významností), mnohde zhoršení (zejm. mechanická aplikace) [Ziliak, McCloskey, 2008] ASR a JAS 1935-2000: Nárůst podílu textů, kde jsou užívány statistické testy, 5% hladina statistické významnosti a hvězdičky k označení statisticky významných výsledků (1995: 90 % testy, 80 % 5% hladina a 40 % hvězdičky) [Leahey 2005] 25
26 ALTERNATIVY P HODNOTY
Alternativy P hodnoty (tedy čím ji doplnit či zaměnit) Plnohodnotné alternativy Intervaly spolehlivosti (jsme zpět u deště ) Informační kritéria pro porovnávání modelů BF a Bayesovská statistika Doplňky Reproducibility research (open science) Míry věcné významnosti (effect sizes) Velikost síly testu a plánování velikosti výběrů Speciality SGPV, D hodnota, BBF, FPR aj. 27
Stručně o BF V zásadě bayesovská alternativa k P hodnotě Vyjadřuje jak moc naše data mění přesvědčení o platnosti alternativní vs. nulové hypotézy, jde tedy o poměr věrohodností našich dat při platnosti soupeřících hypotéz Na rozdíl od P hodnoty (zamítá/nezamítá) umí 3 typy závěru (H0, H1, nic) Meze podpory pro hypotézy dle Jeffreys: 28 meze Slovní vyjádření 1-3 Anekdotická 3-10 střední 10-30 silná
Poznámka o BFB Ve většině situací lze provést jednoduchý odhad horní meze BF odvozený od P hodnoty: Viz už Nuzzo, 2014 29 Viz už Nuzzo odsud plyne dále uvedené doporučení pro P pod 0,005
Reproducibility research (open science) Jaké požadavky klást na vědeckou práci? Objektivita Opakovatelnost Jak zajistit? Preregistrace Publikace včetně dat a příkazů k jejich analýze Publikace bez výsledků Co řeší? P hacking, HARKing File drawer Upřednostnění novosti na úkor replikací 30
Věcná významnost a její měření Koncepce věcné významnosti je minimálně stejně stará jako koncepce statistické významnosti Jak měřit věcnou významnost? (effect size) Absolutně v původních jednotkách Relativně v procentech Skrze standardizované míry (nezávisí na původních jednotkách) Jaké jsou základní způsoby měření: Míry zaměřené na rozdíly (d, g) Míry zaměřené na vysvětlený rozptyl (Eta²) Kromě toho mnoho speciálních měr (srov. Soukup, 2013) 31
Stručně o síle testu a stanovení velikosti souboru Síla testu: Pravděpodobnost, že zamítnu nulovou hypotézu a ona skutečně neplatí (1- pravděpodobnost chyby II. druhu) Cíl: mít studie s určitou minimální velikostí síly testu Jak zajistit: Před započetím výzkumu odhadnout sílu testu (nutno znát odhadovanou velikost efektu a požadavek na pravděpodobnost chyby prvního druhu), výpočty v SW Poznámka: Kromě síly testu existují alternativní postupy, nejznámější zřejmě Cumming a New Statistics, přístup založen na intervalech spolehlivosti a jejich šíři Více Soukup, Kočvarová [2016] 32
33 SHRNUTÍ A DOPORUČENÍ
Doporučení plynoucí z výzkumu- publikace A) Publikační praxe Navázat na standardy APA (2010), AERA (2006) a ASA (2016) a požadavky na tzv. reproducibility research tj. publikovat a interpretovat minimálně intervaly spolehlivosti, pro menší datové soubory i sílu testu zvážit použití alternativních postupů (bayesovská statistika, resamplingové přístupy, srovnávání modelů skrze informační kritéria či bayesovský faktor) Počítat, publikovat a interpretovat míry věcné významnosti výsledků Ideálně zveřejňovat data a příkazy Preregistrace??? 34
Doporučení plynoucí z výzkumu- výuka B) Vzdělávání zajišťují poučení vyučující (znají standardy dobré praxe) učební texty zohledňující novinky (v ČR Hendlova [2015]) více praxe (místo teoretických pouček) kombinace statistického rozměru problému s věcným používání reálných dat 35
Doporučení z nejnovějších článků - diskuse P pod 0,005 Neužívat výrazy statisticky významné a nevýznamné Neprovádět HARKing, P hacking, file drawer aj. Nefalšovat data ani výsledky (byť drobně ) 36
37 Zdroj: John a kol. 2012. Measuring the prevalence of QRP with incentives for true telling. Psychological Science.
Literatura Klasické texty: APA. 2010. Publication manual of the American Psychological Association, 6th edition. Washington DC. Harlow, L., L., S. A. Mulaik, M., L. Steiger. 1997. What if there were no significance tests? Mahwah (NJ): Erlbaum. Morrison, D. E., R. E. Henkel. 1970. The Significance Test Controversy: A Reader. London: Butterworth. Kline, R. B. 2004. Beyond the statistical testing. Reforming data analysis methods in behavioral research. Washington, DC: American Psychological Association. Ziliak, S. T., D. M. McKloskey. 2008. The Cult of Statistical Significance (How the Standard Error Costs Us jobs, Justice, and Lives), The University of Michigan Press. 38
Literatura Novější texty (články): Anderson, Ch. J. a kol. 2015. Estimating the reproducibility of psychological science. Science. Benjamin, D.J. a kol. 2017. Redefine Statistical Significance. Nature Human Behaviour 2. Bernard, F., L. Chakhaia, L. Leopold. 2017. Sing Me a Song with Social Significance : The (Mis)Use of Statistical Significance Testing in European Sociological Research. European Sociological Review 33 (1): 1 15. Head, M.L. 2015. The Extent and Consequences of P-Hacking in Science. PLoS Biol 13(3). Nuzzo, R. 2014. Scientific Method: Statistical Errors. Nature (506): 150 152. Wasserstein, R. L., A. L. Lazar. 2016. The ASA s Statement on p- 39Values: Context, Process, and Purpose. The American Statistician 70 (2): 129 133.
Literatura Nejnovější texty (články): Celé číslo The American Statistician 2019 (1 článek v základu a cca 30 v příloze) 40
Literatura Česká Blahuš, P. 2000. Statistická významnost proti vědecké průkaznosti výsledků výzkumu. Česká kinantropologie 4 (2): 53 72. Cuberek, R., K. Frömel. 2011. K problematice výzkumného výběru a testování nulové hypotézy. Československá psychologie 55 (5): 468 477. Ropovik, I. 2017. O význame p-hodnôt: reflexia na silnejúcu kritiku testov významnosti. Československá psychologie, 61(5): 502-516. Soukup, P. 2010. Nesprávná užívání statistické významnosti a jejich možná řešení. Data a výzkum SDA Info 4 (2): 77 104. Soukup, P. 2013. Věcná významnost výsledků a její možnosti měření. Data a výzkum SDA Info 7 (2): 125 148. 41
42 Díky za pozornost