Cvičení 9 Testy více výběrů 1 Příklad - ANOVA 1 Testujeme výdrž baterie mobilů 5 různých výrobců. Každý z mobilů jsme intenzivně používali 7 dní pro volání, psaní a přehled videa, následné časy v minutách jsme zaznamenali. Sony Xperia Z3 507.91275 502.9479 509.34923 506.56307 519.97299 512.32932 508.02479 Huawei Ascend MATE7 507.47047 504.30963 503.48326 500.50637 506.88296 494.95422 506.20452 Samsung Galaxy S5 493.10991 480.60956 495.16966 484.81944 482.69934 496.58462 489.28851 HTC ONE (M8) 486.10934 489.43309 494.68969 475.75987 479.3661 488.77935 483.2337 Apple Iphone 6 plus 472.03696 475.96269 468.91836 483.92119 478.44445 474.45927 478.3459 Liší se výdrž baterie v závislosti na značce mobilu? Ověríme normalitu sony=[507.91275 502.9479 509.34923 506.56307 519.97299 512.32932 508.02479]; huawei=[507.47047 504.30963 503.48326 500.50637 506.88296 494.95422 506.20452]; samsung=[493.10991 480.60956 495.16966 484.81944 482.69934 496.58462 489.28851]; htc=[486.10934 489.43309 494.68969 475.75987 479.3661 488.77935 483.2337]; iphone6p=[472.03696 475.96269 468.91836 483.92119 478.44445 474.45927 478.3459]; p=shapiro_test(sony) //1 je normalni p=shapiro_test(huawei) //1 je normalni p=shapiro_test(samsung) //1 je normalni p=shapiro_test(htc) //1 je normalni p=shapiro_test(iphone6p) //1 je normalni Ověríme předpoklad stejných rozptylů, H 0: všechny rozptyly jsou stejné, H A: minimálně jeden se liší L=[sony huawei samsung htc iphone6p ]; pv=bartlett_test(l) // 0.8823349 -- nezamitame Můžeme použit ANOVA, H 0: všechny střední hodnoty jsou stejné, H A: minimálně jedna se liší p_h=anova_1(l)//5.986d-12 - zamitame Zamítli jsme nulovou hypotézu, chceme vědět, které se lišíly, použijme Scheffého test: p_h2=scheffe_test(l,0.05)//liší se tam, kde je jednička 1
2 Příklad - Kruskal-Wallisův Při stanovování léčby jsme si pacienty rozdělili do 3 skupin podle závažnosti průběhu onemocnění - lehká, střední a vážná. Na hladině významnosti 0,05 testujte tvrzení, že střední hodnota věku je ve všech skupinách stejná. Naměřená data jsou zde: lehka=[56. 30. 74. 35. 30. 34. 21. 26. 30. 49. 80. 30. 63. 21. 28. 50.]; stredni=[23. 31. 69. 47. 22. 22. 26. 33. 26. 35. 25. 35. 47. 26. 23. 34. 44. 30. 31. 52. 22. 46.]; vazna=[39. 33. 43. 64. 35. 46. 30. 53. 30. 42.]; p=shapiro_test(lehka) //0 neni normalni - jiz nemusime dale pokracovat, nemame normalni To je tedy Kruskal-Wallisův test, H 0 : věk pacientů je stejný ve všech skupinách, H A : alespoň v jedné se liší L=lstcat(lehka, stredni, vazna ); //pomocna funkce, pokud neni stejny pocet dat p_kw=kruskal_test(l) //0.1940862 Nezamítli jsme nulovou hypotézu, že věk se v jednotlivých skupinách neliší. Na ukázku, jak to vypadá pomocí boxplotů. Nic se tam extra nevymyká. 2
3 Příklad - ANOVA 2 Chceme zjistit, který druh kukuřice se nejvíce hodí na výrobu popcornu. Vzali jsme 6 různých přístrojů a otestovali, na jaký objem se zvětší stejné počáteční množství kukuřice.výsledky jsme napsali do tabulky. Gourmet National Generic Přístroj 1 5,5 4,5 3,5 P. 2 5,5 4,5 4 P. 3 6 4 3 P. 4 6,5 5 4 P. 5 7 5,5 5 P. 6 7 5 4,5 Na hladině významnosti 0,05 určete, zda se liší buď přístroje nebo druh kukuřice za předpokladu normality dat. máme 2 faktory - přístroje a druh kukuřice Předpokládáme normalitu, takže nemusíme dělat test normality. popcorn = [5.5 4.5 3.5; 5.5 4.5 4.; 6. 4. 3.; 6.5 5. 4.; 7. 5.5 5.; 7. 5. 4.5]; ověříme stejné rozptyly [p_bartlett]=bartlett_test(popcorn) //0.7909157 nezamitame Můžeme tedy použit dvoufaktorovou anovu: H 0 : střední hodnoty objemu kukuřice jsou stejné při použití jakéhokoliv přístroje, H A : alespoň jedná se liší přístroj je v řádcích 3
H 0 : střední hodnoty objemu kukuřice jsou stejné při použití jakéhokoliv druhu kukuřice, H A : alespoň jedná se liší druh kukuřice je ve sloupcích [P_r,P_s]=anova_2(popcorn) //0.0000005, 0.0006548, obe zamitame Obě p-hodnoty jsou menší, proto zamítáme jak to, že přístroj nemá vliv, tak to, že druh kukuřice nemá vliv 4 Příklad - Friedmanův test Pořádá se soutěž ve výrobě popcornu. Každý soutěžící si přinesl svůj přístroj vlastní výroby a zkoušel, jak funguje na různých druzích kukuřice. Na hladině významnosti 0,05 otestujte, zda se některý druh kukuřice více hodí pro výrobu popcornu za předpokladu, že data nejsou normální. popcorn = [5.5000 4.5000 3.5000; 5.5000 4.5000 4.0000; 6.0000 4.0000 3.0000; 6.5000 5.0000 4.0000; 7.0000 5.5000 5.0000; 7.0000 5.0000 4.5000]; Máme 2 faktory, ale zajímá nás shoda výroby popcornu v závislosti na druhu kukuřice a nezávislé na přístroji. normalitu nepředpokládáme To je tedy Friedmanův test, kde jeden ze dvou faktoru (blok) nás nezajímá [P_f]=friedman_test(popcorn) //0.0024788 zamitame Zamítáme hypotézu, že všechny druhy kukuřice se hodí k výrobě popcornu stejně. Příklady na samostatnou práci 5 Příklad Máme 12 zdatných běžců a každého 3x otestujeme, jak se mu běhá pokud rockovou, klasickou nebo moderní hudbu. Běží na běhacím pásu vždy hodinu a na konci si zapíšeme, kolik uběhli km (zaokrouhleně). Výsledky jsme zapsali do tabuky. rocková klasická moderní 1 8 8 7 2 7 6 6 3 6 8 6 4 8 9 7 5 5 8 5 6 9 7 7 7 7 7 7 8 8 7 7 9 8 6 8 10 7 6 6 11 7 8 6 12 9 9 6 Na hladině významnosti 0,01 testujte, zda má vliv na výkon běžce typ hudby. Nepředpokládáme normalitu dat. phf=friedman_test(bezce)//0.0626 [ pval=0.0626] 4
6 Příklad Máme 36 zdatných běžců, které rozdělíme do tří skupin. První skupina rockovou, druhá klasickou a třetí moderní hudbu. Každý běžec běží na běhacím pásu vždy hodinu a na konci si zapíšeme, kolik uběhl km (zaokrouhleně). Výsledky jsme zapsali do tabuky. rocková klasická moderní 1 8 8 7 2 7 6 6 3 6 8 6 4 8 9 7 5 5 8 5 6 9 7 7 7 7 7 7 8 8 7 7 9 8 6 8 10 7 6 6 11 7 8 6 12 9 9 6 Předpokládáme normalitu dat. Na hladině významnosti 0,01 testujte, zda jsou výsledky v běhu shodné. Pokud ne, zda je to způsobeno běžcem nebo druhem hudby. [P_r,P_s]=anova_2(bezce);//0.2036667, 0.0409624 7 Příklad [ pval_s=0.204, pval_r=0.041] Změřili jsme koncentraci červených krvinek u lidí žijících ve čtyřech různých nadmořských výškách. Testujte hypotézu, že data ze všech čtyř skupin mají stejný rozptyl. Amsterodam: 304, 315, 321, 289, 305, 342, 328 Pec pod Sněžkou: 348, 325, 358, 331, 327 Praha: 341, 312, 329, 319, 334, 327,345 Zermatt: 346, 358, 341, 368, 338, 354 L=lstcat(amstero, pecpodsn, Praha,Zermatt ); pv=bartlett_test(l); // 8 Příklad [pval=0.721] Změřili jsme výsledky našich čtyř špičkových vytrvalostních běžců. Testujte tvrzení, že všichni tito běžci běhají stejně dobře. Pokud ne, určete, který/kteří se liší. Jeják: 2.54 2.72 2.38 2.57 2.59 2.64 2.42 Bifousek: 2.42 2.59 2.69 2.75 2.32 2.57 2.31 Poťouch: 2.47 2.21 2.35 2.38 2.21 2.25 2.22 Přešižla: 2.71 2.42 2.57 2.68 2.37 2.67 2.51 p=shapiro_test(jejak); p=shapiro_test(bifousek); p=shapiro_test(potouch); p=shapiro_test(presizla);// vsechny 1 - normalni pnnnn=bartlett_test(l); //0.618815 - nezamitame stejne rozptyly p_h=anova_1(l);//0.0035874 - zamitame p_h2=scheffe_test(l,0.05);//3 [pval=0,004; 3] 5
9 Příklad Čtyři krasobruslaři byli hodnoceni pěti rozhodčími. Získané hodnoty ukazuje tabulka: r\k A B C D P 8.62 4.28 4.95 4.62 Q 3.12 3.18 3.54 3.11 R 6.48 5.59 5.71 5.22 S 1.18 3.25 4.40 3.15 T 4.92 4.87 5.95 4.68 Nepředpokládáme normalitu dat. Testujte hypotézu, že všichni krasobruslaři jsou stejně dobří. [pval=0.0503] [P_f]=friedman_test(Tab) //0.0503311 6