P-value Alžběta Gardlo, Karel Hron alzbetagardlo@gmail.com Laboratoř metabolomiky Ústav molekulární a translační medicíny, UPOL a FNOL Přírodovědecká fakulta UPOL 18.11. 2015
Obsah 1 Úvod 2 Testování statistických hypotéz 3 Praktický příklad 4 Problémy s p-value 5 Závěr
Co je P-value? Užívá se při testování statistických hypotéz souvisí s danou hypotézou. Velmi často spojována s t-testem. Lze vyčíslit pro jakýkoliv test závisí na použitém testu. Velmi často užívané bez dalších znalostí. Lze použít pro parametrické i neparametrické testy.
Testování statistických hypotéz Souvisí s tzv. distribuční funkcí náhodné veličiny: Rozdělení pravděpodobností statistického znaku závisí na neznámém parametru, o kterém víme, že patří do nějakého parametrického prostoru. Na základě n nezávislých pozorování se můžeme domnívat, že daný parametr má určité vlastnosti. Formulujeme tzv. nulovou hypotézu H 0 a alternativu H 1 (nebo H A ). Ty se formulují na tzv. hladině α (0, 1). Nejčastěji α = 0.05, 0.025, 0.01. O hypotéze můžeme rozhodnout dvěma způsoby: H 0 se zamítá ve prospěch alternativy, H 0 nelze zamítnout.
Testování statistických hypotéz - chyby Eistují dva druhy chyb - tzv. chyba 1. a 2. druhu: H 0 je správná H 0 je chybná H 0 zamítneme chyba 1. druhu správné rozhodnutí H 0 nezamítneme správné rozhodnutí chyba 2. druhu Chceme, aby byla chyba 1. druhu = α. Chyba 2. druhu je minimální.
Testovací statistiky Hypotézy se počítají na základě celé řady statistik. Jednovýběrový t-test, dvouvýběrový t-test, párový t-test - je zde předpoklad normálního rozdělení (velmi často není splněno, případně můžeme použít nějakou transformaci). Neparametrické testy (pracují s pořadími hodnot v jednotlivých výběrech) - např. Wilcoonův test.
Testovací statistiky Normalita dat není často splněna je dobré na začátku udělat test normality: Srovnání histogramu s hustotou normálního rozdělení. Q-Q plot Shapiro-Wilk test Normal Q Q Plot Sample Quantiles 6 2 2 4 6 3 2 1 0 1 2 3 Theoretical Quantiles
Testovací statistiky - problémy, které mohou nastat Např. dvouvýběrový t-test: X n Ȳ m mn(m + n 2) T =. (n 1)S 2 n + (m 1)Sm 2 n + m kde n a m jsou rozsahy výběrů, X n (resp. Ȳ m ) je aritmetický průměr 1. výběru (resp. 2. výběru), S 2 jsou příslušné rozptyly. Aritmetický průměr není robustní: 1 = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10; 1 = 5.5, 2 = 1, 2, 3, 4, 5, 6, 7, 8, 9, 100; 2 = 14.5. Již jedna odlehlá hodnota může zkreslit celou statistiku. Pokud je n nebo m velké, násobí se statistika velkým číslem umělé navýšení.
Testovací statistika - dvouvýběrový t-test X n = 34, Ȳ m = 34.5, S 2 n = 1.8, S 2 m = 1.7, n a m se mění: T test Test statistics Quantile Test statistics 1.0 1.5 2.0 2.5 3.0 3.5 Quantities (10,10) (25,10) (20,15) (25,25) (100,10) (25,100) (50,50) (100,100) (150,150) (200,200)
P-value Pomáhá nám při rozhodování o hypotéze. P-value: Nejmenší hladina, při které bychom ještě hypotézu zamítli. Pravděpodobnost spočítaná za platnosti H 0, že dostaneme právě naši hodnotu testové statistiky nebo hodnotu ještě více odporující testované hypotéze. Testová statistika má za platnosti H 0 dané rozdělení pravděpodobnosti. Je-li p-value menší nebo rovna α, zamítáme nulovou hypotézu na hladině α.
U vod Testova nı hypote z Pr ı klad Proble my Za ve r P-value p-value > α Nulovou hypotézu nelze zamítnout. p-value α Alz be ta Gardlo, Karel Hron 0 testová statistika P-value 18.11. 2015
U vod Testova nı hypote z Pr ı klad Proble my Za ve r P-value p-value < α Nulovou hypotézu zamítáme. α p-value 0 testová statistika Alz be ta Gardlo, Karel Hron P-value 18.11. 2015
Praktický příklad Zadání: Máme dány rozbory krve 10 pacientů a 10 zdravých kontrol. Ve vzorcích měříme 50 metabolitů. Chceme vědět, jestli se od sebe liší hodnoty jednotlivých metabolitů mezi pacienty a kontrolami (např. chceme najít nějaký marker nemoci). Vzorek/Met Arg Phe C18 C4... Pac1 39 800 1 907 000 53 600 6 090 000 Pac2 35 300 2 010 500 45 700 7 430 000 Pac3 88 000 1 920 300 62 500 7 160 000. Kon8 55 200 200 000 52 800 8 280 000 Kon9 12 200 210 400 37 800 8 060 000 Kon10 16 800 230 900 51 200 7 360 000
Praktický příklad Řešení: 1 Musí se řešit pro každý metabolit zvlášt. 2 Test normality: H 0 : rozdělení daného metabolitu je normální. H 1 : rozdělení není normální. Např. pro C4 vychází p = 0.078. Porovnáme p s α = 0.05. Platí tedy p > α nelze zamítnout H 0 nelze zamítnout, že rozdělení C4 je normální. 3 Test normality vyšel pro všechny metabolity můžeme použít parametrické testy.
Praktický příklad Řešení: 4 Porovnáváme dva výběry, které jsou na sobě nezávislé použijeme dvouvýběrový t-test: 5 H 0 : průměrná hodnota pro daný metabolit pro pacienty je stejná jako pro kontroly. H 1 : průměr kontrol a pacientů se liší. 6 Např. pro phenylalanin (Phe) vyšlo p = 0.03. Při porovnání s α = 0.05 platí p < α zamítáme H 0 průměrná hodnota phenylalaninu ve vzorcích pacientů se liší od vzorků kontrol phenylalanin by mohl být jeden z markerů (je třeba ještě porovnat s dalšími metodami - např. PCA, rozdíly v boplotech).
Problémy s p-value P-value definoval Ronald Fisher roku 1920, ovšem nezamýšlel jeho použití jako definitivní test. P-value má pouze udávat informaci o tom, zda je eperiment dobře nastavený. Problémy s opakovatelností eperimentů bylo dokázáno, že řada dříve publikovaných studíı (založených na p-value) je nepravdivá. Má to být pouze jedna část v rozhodovacím procesu, postup, který nám dává základní informaci o datech. P-value pouze sumarizuje data na základě nulové hypotézy. Nemůže rozhodovat o skutečné realitě.
Problémy s p-value Další vliv má například rozsah výběru - čím víc pozorování, tím menší p-value (díky tomu, jak je konstruována testová statistika). P-hacking - zkoušíme tolik různých hypotéz a kombinací dat, až nám to vyjde, tak, jak chceme. Někteří lidé často průběžně kontrolují data. Některá p-value vychází signifikantní pouze díky šumu v datech. Když je p-value dostatečně malé, napovídá to tomu, že výběry pocházejí z různých populací. P-value pouze napovídá, nikoliv dokazuje. Už nic neřekne o tom, jak velký rozdíl mezi těmito skupinami ve skutečnosti je. Ani jestli statistická signifikance souvisí s biologickou signifikancí.
U vod Testova nı hypote z Pr ı klad Proble my Za ve r Proble my s p-value Je tr eba vys etr ovat i mnohorozme rnou strukturu dat. Score 2 Pr i pouz itı p-value se nemusı uka zat rozdı ly, ktere jsou v mnohorozme rne struktur e: Score 1 Alz be ta Gardlo, Karel Hron P-value 18.11. 2015
Problémy s p-value - možná řešení Bayesův vzorec: teorie spojená s výpočty pravděpodobnosti. Použití několika metod na data a následné porovnání výsledků (PCA, PLSDA, OPLSDA, boploty, fold-change). Zveřejňovat všechny podrobnosti o datech - abychom se vyhnuli P-hackingu (Annesley and Boyd, 2014). Dvoustupňová analýza: Místo toho, abychom prováděli několik studíı v jednom a všechny publikovali zaráz, je lepší je vytvářet a publikovat postupně (Nuzzo, 2014). Zveřejňovat data v databázích.
Problémy s p-value - možná řešení Oprostit se od požadavku, že mi jedno magické číslo (p-value) odpoví na všechny otázky. Používat i eplorativní mnohorozměrné metody (např. PCA), které následně vyhodnotí kvalifikovaný odborník. Současný trend: upouštění od standardní statistické inference založené na p-value. Možná je na čase zkusit poslat do časopisu článek, ve kterém nepoužíváme žádné p-value. (K. Hron, 13.11.2015)
Návrhy na budoucí diskusi Nedoporučuje se používat za každou cenu transformace a parametrické testy místo neparametrických. Transformaci neprovádíme proto, abychom dostali normalitu, ale proto, abychom dostali data do měřítka, které je podmínkou pro použití určitých statistických metod. Co je můj výběrový prostor? Jak předzpracovat data? Jaké použít transformace?
Závěr P-value je spojené s testováním statistických hypotéz. Testy jsou parametrické a neparametrické - musíme mezi nimi rozlišovat. Je třeba pracovat s p-value s opatrností. Je lepší jej používat v kombinaci s jinými metodami a výsledky následně porovnat.
Literatura Otyepka M., Banáš P., Otyepková E.: Základy zpracování dat. skripta kurzu Základy zpracování dat PřF UPOL, 2007. Varmuza K., Filzmoser P.: Introduction to multivariate statistical analysis in chemometrics. Taylor & Francis, 2008. Budíková M., Králová M., Maroš B.: Průvodce základními statistickými metodami. Grada, 2010. Nuzzo R.: Statistical errors. Nature 506, 2014, 150-152. Annesley T. M., Boyd J. C.: The P-value: probable does not mean practical. Clinical Chemistry 60 (7), 2014, 1021-1023.
DĚKUJI ZA POZORNOST.