Jak je to opravdu s P hodnotami? Petr Soukup,

Podobné dokumenty
Statistická a věcná významnost. Statistická významnost. Historie hypotézy a testů. Hypotézy a statistické testy.

LIMITY APLIKACE STATISTICKÝCH TESTŮ VÝZNAMNOSTI V PEDAGOGICKÉM VÝZKUMU: SEMINÁŘ PRO NESTATISTIKY

Statistické metody v medicíně II. - p-hodnota

P a d (Používání statistické a věcné významnosti v českých sociálních vědách)*

UNIVERZITA KARLOVA. P a D (statistická a věcná významnost a jejich praktické užívání v českých sociálních vědách) FAKULTA SOCIÁLNÍCH VĚD

7.1. Podstata testu statistické hypotézy

Testování hypotéz a měření asociace mezi proměnnými

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

Ranní úvahy o statistice

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Statistické testování hypotéz II

Ilustrační příklad odhadu LRM v SW Gretl

různé typy přehledových studií integrativní typ snaha o zobecnění výsledků z množství studií

Využití a zneužití statistických metod v medicíně

Návrh a vyhodnocení experimentu

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

4EK211 Základy ekonometrie

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Užívání statistické a věcné významnosti v časopise Pedagogická orientace a Pedagogika v posledních deseti letech: pohled statistika

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Úvod do problematiky měření

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Návrh a vyhodnocení experimentu

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

PRAVDĚPODOBNOST A STATISTIKA

STATISTIKA LS Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D.

SMÍŠENÉ MODY SBĚRU DAT - DRUHY CHYB A MOŽNOSTI SROVNATELNOSTI

BAKALÁŘSKÉ STUDIUM SOCIOLOGIE Tematické okruhy ke státní zkoušce

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Č. j.: TF/5/14 V Praze dne

Sylabus předmětu: Metodologie kvantitativního výzkumu

Zápočtová práce STATISTIKA I

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

INDUKTIVNÍ STATISTIKA

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

8 Coxův model proporcionálních rizik I

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Každá škola (včetně té, která je koordinující) uvede charakteristiku té části projektu, kterou řeší, v následující tabulce:

Metodologie pro Informační studia a knihovnictví 2

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Testování statistických hypotéz

Testování hypotéz Biolog Statistik: Matematik: Informatik:

Optimalizace provozních podmínek. Eva Jarošová

Metodologie pedagogického výzkumu II

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

5EN306 Aplikované kvantitativní metody I

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Doktorské studium na FPH VŠE. Martin Lukeš proděkan pro vědu, výzkum a doktorské studium

PRAVDĚPODOBNOST A STATISTIKA 1 Metodický list č 1.

Zelený produkt automobilek a jeho vnímání různými generacemi českých spotřebitelů EVA JADERNÁ, MARTIN MLÁZOVSKÝ

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Jednostranné intervaly spolehlivosti

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Pokročilejší metody: výběr. Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

VOLBA SAMOSTATNÉHO CENTRÁLNÍHO ÚTVARU LOGISTIKY VE VÝROBNÍM PODNIKU

analýzy dat v oboru Matematická biologie

Alternativní nástroje hodnocení vědy. Adéla Jarolímková Národní lékařská knihovna

Testování hypotéz o parametrech regresního modelu

Testování uživatelského rozhraní

HODNOCENÍ VÝKONNOSTI ATRIBUTIVNÍCH ZNAKŮ JAKOSTI. Josef Křepela, Jiří Michálek. OSSM při ČSJ

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Design Experimentu a Statistika - AGA46E

PRAVDĚPODOBNOST A STATISTIKA

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Základy počtu pravděpodobnosti a metod matematické statistiky

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Porovnání dvou výběrů

TECHNICKÁ UNIVERZITA V LIBERCI

POKROČILÉ METODY V SOCIÁLNÍCH VĚDÁCH SYLABUS PRO AKADEMICKÝ ROK LETNÍ SEMESTR. Vyučující: Mgr. et Mgr. Jakub Lysek

Metodologie pro Informační studia a knihovnictví 2

Fisherův exaktní test

P-value. Alžběta Gardlo, Karel Hron Laboratoř metabolomiky Ústav molekulární a translační medicíny, UPOL a FNOL

Úvodem Dříve les než stromy 3 Operace s maticemi

Dopad fenoménu Industrie 4.0 do finančního řízení

PROHLOUBENÍ NABÍDKY DALŠÍHO VZDĚLÁVÁNÍ NA VŠPJ A SVOŠS V JIHLAVĚ

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Pravděpodobnost a aplikovaná statistika

NAŘÍZENÍ DĚKANA č. 3/2017

AKTIVNÍ ZAPOJOVÁNÍ STUDENTŮ DO VÝUKY STATISTIKY A PSYCHOMETRIE: ZKUŠENOSTI Z USA

Metody přírodních věd aplikované na vědy sociální: předpoklad, že lidské chování můžeme do jisté míry měřit a předpovídat.

Transkript:

Jak je to opravdu s P hodnotami? Petr Soukup, 23. 5. 2019

Citáty úvodem Přátelé nedoporučují přátelům používat P hodnotu (John K. Kruschke) Shrneme-li základní: statisticky významný, neříkejte to, nepoužívejte to! (Wasserstein, Schirm, Lazar) Statistická významnost je nejméně zajímavá stránka výsledků. Měli bychom se zaměřit na velikost efektu (jeho věcnou významnost), ne pouze na to, zda efekt existuje či nikoliv. (Gene Glass) 2

Struktura prezentace Důvod zájmu o téma Co je to P hodnota? (A co není?) Problémové rysy P hodnoty (Co Fisher věděl?) Problémové rysy používání P hodnot (Co Fisher nemohl vědět?) Výsledky vybraných empirických studií (ČR a svět) Vybrané alternativy pro P hodnotu (Co tedy užívat?) Závěry a doporučení pro praxi (výuka, publikování, recenzování) 3

Důvod zájmu o téma Úvahy nad výukou statistiky a kvantitativní analýzy (2001-2004) Diskuse s prof. Blahušem (2005-2006) 2007 článek s prof. Rabušicem, seminář na SoÚ a další diskuse Další studium a rozvíjení tématu Výsledek: 6 publikovaných článků, další 2 v recenzním řízení, příprava monografie a tento seminář 4

Co dnes nezazní? Chyby měření (Řehák, Kreidl, Schubert) Nesprávné užívání statistických technik (Kalous) Komplexní výběrové designy (Straková&Soukup) Bootstrap jako alternativa k testům (Militký&Meloun) Bayesovské přístupy (Hebák) Nízká návratnost výběrových šetření (Krejčí) Chybějící hodnoty (Petrúšek) Problematika náhodných a nenáhodných výběrů (Soukup&Rabušic, Cuberek&Frömel) A mnoho dalšího 5

6 P HODNOTA

P hodnota Před pokusem o definici si zkusíme malý test Vyhodnocení a diskuse 7

Co JE P hodnota? Vyjádření pravděpodobnosti, že získám data jaká mám, nebo ještě extrémnější, pokud platí H0 Technicky tedy podmíněná pravděpodobnost (P(D/H)) Vypovídá tedy o našich datech!!!, ne o hypotézách (o nich jen nepřímo) Číslo mezi 0 a 1 Stručně o vzniku koncepce (od H0 k NHST) 8

Co NENÍ P hodnota? Pravděpodobnost nulové hypotézy P(H0)) Pravděpodobnost nulové hypotézy, pokud jsem získal určitá data (P(H/D)) Pravděpodobnost alternativní hypotézy (či její doplněk) P(H1) resp. 1-P(H1) Hodnota, která nám sděluje přímo něco o hypotézách, resp. jejich pravděpodobnostech 0,000 Magická, zázračná hodnota, která stačí (když je menší než 0,05), pro publikaci v kvantitativním výzkumu 9

Jaká může P(H/D) pro magickou P(D/H)= 0,05? ŠANCE HYPOTÉZ APRIORI ŠANCE HYPOTÉZ POTÉ 10 Zdroj: Nuzzo, 2014, Nature

Jak nám prší P hodnoty (aneb ruleta ve vědecké praxi)? 11 Zdroj: ESCI, Cumming, https://thenewstatistics.com/itns/

12 PROBLÉMOVÉ RYSY P HODNOTY

Problémové rysy P hodnoty Nedostatečná (žádná) výpověď o základním souboru (P(D/H)), nedostatečná (žádná) výpověď o hypotézách Nereálnost nulových hypotéz (tzv. nicotné hypotézy) už od počátku čekám, že H0 je neudržitelná - viz korelace, t-testy atd. (lze snadno napravit, ale software tomu většinou nepřeje) Jde o náhodnou hodnotu (proměnnou), předpoklad nereálné nekonečné replikace (vypovídá o datech, které nemáme) ilustrace skrze déšť P hodnot Návrhy řešení: umírněné (nutno doplnit dalšími ukazateli, např. APA manuál, Cohen, aj.) až extrémní (nutno okamžitě přestat 13 užívat, Loftus, Trafimow, aj.)

PROBLÉMOVÉ RYSY UŽÍVÁNÍ P HODNOTY 14

Problémové rysy užívání P hodnoty (tedy užívání koncepce chybně) Mechanická práce s klasickou 5% hladinou (hvězdičky, stepwise, skrývání hodnot) Dělení výsledků na statisticky významné a nevýznamné Statisticky významné je označováno jako důležité Statisticky nevýznamné výsledky nejsou odeslány k publikování či přijaty k publikování (file drawer problem, šuplíkový efekt) HARKing P hacking (fishing, hunting, etc.) Vícenásobné testování bez zohlednění při interpretaci výsledků Zkreslení pro metaanalýzy, replikace se nedaří (tzv. replikační krize) 15

P hacking Strategie, kdy hledám jen statisticky významné výsledky a ty publikuji Mnoho studií potvrzuje, že se to v praxi děje 16 Zdroj: Head a kol. 2015 The Extent and Consequences of P-Hacking in Science, PlosOne

P hacking a file drawer 17 Zdroj: Nosek a kol. 2015 Estimating the reproducibility psychological science, Science

P hacking a file drawer 18 Zdroj: Franco 2014 Publication bias in the social sciences, Science

P hacking a file drawer 19 Zdroj: Flore&Wicherts. 2015. Does stereotype threat influence performance of girls in stereotyped domains? Journal of School Psychology

Replikační krize a dopady na metaanalýzu Mnohé studie, které replikují stávající neprokázaly původní (slavné) výsledky Nature a Science (201-2015): 21 studií jen 62 % prokázáno, efekt jen cca poloviční [Caremer a kol. 2018, Nature] 100 replikací z psychologie: efekt byl po replikacích cca poloviční, 97 % původních studií malé P, ale jen 36 % u replikací! [Nosek a kol. 2015, Science, 2015] 20

21 VÝSLEDKY VÝZKUMŮ (ČR A SVĚT)

Výzkum v ČR Nakolik jsou dodržovány současné standardy v oblasti užívání statistické a věcné významnosti v české sociálně vědní produkci prizmatem produkce tří předních českých časopisů? Obsahová analýza kvantitativních článků 3 časopisů: Sociologický časopis, Československá psychologie, Pedagogika Základní sledované období: 2005-2014 (Soc. čas. i 1995-2004) Celkem 363 článků 22

Výzkum 3 českých časopisů - metodologie Sledované oblasti: používání statistických testů pro data, kde tyto využívat nelze, nesprávná užívání statistické významnosti, zejména interpretační pochybení a mechanická práce s výsledky, věcná interpretace výsledků, používání měr věcné významnosti 23

Výzkum 3 českých časopisů - výsledky Častá je mechanická aplikace statistiky či nesprávná interpretace (ve více než 40 % článků Sociologického časopisu za posledních 10 let) zejména v Československé psychologii absentuje věcná interpretace výsledků (50 %) Míry věcné významnosti jsou používány poměrně často, nicméně v jejich užívání jsou také mezery (novější ukazatele se nepoužívají, nadto poměrně málo dochází k jejich interpretaci 24

Výzkumy v zahraničí ESR 2000-2004 2010-2014: polovina analyzovaných textů chybná interpretace statistické významnosti a obdobně zhruba v polovině textů absentuje věcná interpretace [Bernardo,Chakhai,Leopold 2017], AER 1980 1989 a 1990 1999: ekonometrická praxe se v analyzovaných desetiletích sice místy zlepšuje (častěji je užíváno síly testu, rozlišováno mezi statistickou a ekonomickou významností), mnohde zhoršení (zejm. mechanická aplikace) [Ziliak, McCloskey, 2008] ASR a JAS 1935-2000: Nárůst podílu textů, kde jsou užívány statistické testy, 5% hladina statistické významnosti a hvězdičky k označení statisticky významných výsledků (1995: 90 % testy, 80 % 5% hladina a 40 % hvězdičky) [Leahey 2005] 25

26 ALTERNATIVY P HODNOTY

Alternativy P hodnoty (tedy čím ji doplnit či zaměnit) Plnohodnotné alternativy Intervaly spolehlivosti (jsme zpět u deště ) Informační kritéria pro porovnávání modelů BF a Bayesovská statistika Doplňky Reproducibility research (open science) Míry věcné významnosti (effect sizes) Velikost síly testu a plánování velikosti výběrů Speciality SGPV, D hodnota, BBF, FPR aj. 27

Stručně o BF V zásadě bayesovská alternativa k P hodnotě Vyjadřuje jak moc naše data mění přesvědčení o platnosti alternativní vs. nulové hypotézy, jde tedy o poměr věrohodností našich dat při platnosti soupeřících hypotéz Na rozdíl od P hodnoty (zamítá/nezamítá) umí 3 typy závěru (H0, H1, nic) Meze podpory pro hypotézy dle Jeffreys: 28 meze Slovní vyjádření 1-3 Anekdotická 3-10 střední 10-30 silná

Poznámka o BFB Ve většině situací lze provést jednoduchý odhad horní meze BF odvozený od P hodnoty: Viz už Nuzzo, 2014 29 Viz už Nuzzo odsud plyne dále uvedené doporučení pro P pod 0,005

Reproducibility research (open science) Jaké požadavky klást na vědeckou práci? Objektivita Opakovatelnost Jak zajistit? Preregistrace Publikace včetně dat a příkazů k jejich analýze Publikace bez výsledků Co řeší? P hacking, HARKing File drawer Upřednostnění novosti na úkor replikací 30

Věcná významnost a její měření Koncepce věcné významnosti je minimálně stejně stará jako koncepce statistické významnosti Jak měřit věcnou významnost? (effect size) Absolutně v původních jednotkách Relativně v procentech Skrze standardizované míry (nezávisí na původních jednotkách) Jaké jsou základní způsoby měření: Míry zaměřené na rozdíly (d, g) Míry zaměřené na vysvětlený rozptyl (Eta²) Kromě toho mnoho speciálních měr (srov. Soukup, 2013) 31

Stručně o síle testu a stanovení velikosti souboru Síla testu: Pravděpodobnost, že zamítnu nulovou hypotézu a ona skutečně neplatí (1- pravděpodobnost chyby II. druhu) Cíl: mít studie s určitou minimální velikostí síly testu Jak zajistit: Před započetím výzkumu odhadnout sílu testu (nutno znát odhadovanou velikost efektu a požadavek na pravděpodobnost chyby prvního druhu), výpočty v SW Poznámka: Kromě síly testu existují alternativní postupy, nejznámější zřejmě Cumming a New Statistics, přístup založen na intervalech spolehlivosti a jejich šíři Více Soukup, Kočvarová [2016] 32

33 SHRNUTÍ A DOPORUČENÍ

Doporučení plynoucí z výzkumu- publikace A) Publikační praxe Navázat na standardy APA (2010), AERA (2006) a ASA (2016) a požadavky na tzv. reproducibility research tj. publikovat a interpretovat minimálně intervaly spolehlivosti, pro menší datové soubory i sílu testu zvážit použití alternativních postupů (bayesovská statistika, resamplingové přístupy, srovnávání modelů skrze informační kritéria či bayesovský faktor) Počítat, publikovat a interpretovat míry věcné významnosti výsledků Ideálně zveřejňovat data a příkazy Preregistrace??? 34

Doporučení plynoucí z výzkumu- výuka B) Vzdělávání zajišťují poučení vyučující (znají standardy dobré praxe) učební texty zohledňující novinky (v ČR Hendlova [2015]) více praxe (místo teoretických pouček) kombinace statistického rozměru problému s věcným používání reálných dat 35

Doporučení z nejnovějších článků - diskuse P pod 0,005 Neužívat výrazy statisticky významné a nevýznamné Neprovádět HARKing, P hacking, file drawer aj. Nefalšovat data ani výsledky (byť drobně ) 36

37 Zdroj: John a kol. 2012. Measuring the prevalence of QRP with incentives for true telling. Psychological Science.

Literatura Klasické texty: APA. 2010. Publication manual of the American Psychological Association, 6th edition. Washington DC. Harlow, L., L., S. A. Mulaik, M., L. Steiger. 1997. What if there were no significance tests? Mahwah (NJ): Erlbaum. Morrison, D. E., R. E. Henkel. 1970. The Significance Test Controversy: A Reader. London: Butterworth. Kline, R. B. 2004. Beyond the statistical testing. Reforming data analysis methods in behavioral research. Washington, DC: American Psychological Association. Ziliak, S. T., D. M. McKloskey. 2008. The Cult of Statistical Significance (How the Standard Error Costs Us jobs, Justice, and Lives), The University of Michigan Press. 38

Literatura Novější texty (články): Anderson, Ch. J. a kol. 2015. Estimating the reproducibility of psychological science. Science. Benjamin, D.J. a kol. 2017. Redefine Statistical Significance. Nature Human Behaviour 2. Bernard, F., L. Chakhaia, L. Leopold. 2017. Sing Me a Song with Social Significance : The (Mis)Use of Statistical Significance Testing in European Sociological Research. European Sociological Review 33 (1): 1 15. Head, M.L. 2015. The Extent and Consequences of P-Hacking in Science. PLoS Biol 13(3). Nuzzo, R. 2014. Scientific Method: Statistical Errors. Nature (506): 150 152. Wasserstein, R. L., A. L. Lazar. 2016. The ASA s Statement on p- 39Values: Context, Process, and Purpose. The American Statistician 70 (2): 129 133.

Literatura Nejnovější texty (články): Celé číslo The American Statistician 2019 (1 článek v základu a cca 30 v příloze) 40

Literatura Česká Blahuš, P. 2000. Statistická významnost proti vědecké průkaznosti výsledků výzkumu. Česká kinantropologie 4 (2): 53 72. Cuberek, R., K. Frömel. 2011. K problematice výzkumného výběru a testování nulové hypotézy. Československá psychologie 55 (5): 468 477. Ropovik, I. 2017. O význame p-hodnôt: reflexia na silnejúcu kritiku testov významnosti. Československá psychologie, 61(5): 502-516. Soukup, P. 2010. Nesprávná užívání statistické významnosti a jejich možná řešení. Data a výzkum SDA Info 4 (2): 77 104. Soukup, P. 2013. Věcná významnost výsledků a její možnosti měření. Data a výzkum SDA Info 7 (2): 125 148. 41

42 Díky za pozornost