Cvičení 13 Opakování 1 Příklad χ 2 test dobré shody Průzkumem bylo zjištěno, že v roce 2005 bylo ve městě 18% lidí bez maturity, 56% s maturitou, 22% absolventů vysokoškolského studia, zbytek tvořili absolventi doktorského studia. V roce 2017 průzkum byl proveden znovu a bylo naměřeno 316 dospělých bez maturity, 997 s maturitou, 481 vysokoškoláků a 96 držitelů PhD a podobných titulů. Testujte tvrzení, že rozdělení vzdělání v roce 2005 a nyní je stejné. máme diskrétní N.V. vzdělání bez maturity, s maturitou, vysokoškoláci, PhD. její pf je x i bez maturity s maturitou vysokoškoláci PhD f(x i ) 0,18 0,56 0,22 zbytek=0,04 H 0 : rozdělení vzdělání v roce 2005 a nyní je stejné, H A : není stejné testujeme χ 2 testem dobré shod O=[316 997 481 96]; pr=[0.18 0.56.22 0.04]; n=sum(o); E=pr*n; pchi=chisquare_test(o,e,0.05)// 0.0001047- zamitame [ ph=0.0001047 ] 2 Příklad test o shodě dvou podílů V skladu je 1200 výrobků od firmy A a 800 výrobků od firmy B. Z výrobků každé firmy bylo testováno 200 výrobků a byly zjištěny počty vadných 54 a 27. Na hladině 95% testujte tvzení, že firma A má větší podíl vadných výrobků než firma B. toto je test o shodě dvou podílů úspech je vadný výrobek. výběrové podíly jsou pa=54/200; pb=27/200; H 0 : p A = p B nebo p A > p podle tvrzení H A : p do < p de levostranný pab= prop_test_2(pa,200,pb,200, l,0.05)// 0.9996094 -- nezamitame 3 Příklad McNemarův test [ ph=0.9996094 ] Sledujeme reakci na vakcínu F317 a vakcínu D656 u 19 dětí. 6 dětí mělo zvýšenou teplotu po očkování vakcínou F317, ale nemělo žádnou reakci na vakcínu D656. U 9 dětí se projevila zvýšená teplota jako reakce na vakcínu D656, ale nevyskytly se žádné potíže po vakcíně F317. Ověřte tvzení, že není významný rozdíl v četnosti reakcí na jednotlivé vakcíny. 1
vytvoříme kontingenční tabulku F317 \ D656 není reakce je reakce není reakce 0 9 je reakce 6 0 H 0 : není rozdíl, tj četnosti jsou stejné, H A : nejsou stejné tab=[0 9; 6 0]; pvak= mcnemar_test(tab)//0.438578 -- nezamitame, ze jsou stejne cetnosti [ ph= 0.438578] 4 Příklad χ 2 test nezávislosti Při průzkumu bylo osloveno některé množství respondentů s otázkou, kolik dětí má mít rodina (1 dítě, 2 děti nebo 3 a více). Respondenti byli rozděleni podle pohlaví. Výsledky jsou v následující tabulce. 246 mužů se vyslovili pro 1 dítě, 167 mužů bylo pro 2 děti a 37 mužů by chtěli 3 a více dětí. U žen průzkum dopadl následovně: 119 žen byly pro 1 dítě, 319 pro 2 děti a 64 žen by si přály mít 3 a více dětí. Na hladině významnosti 0,05 otestuje tvrzení, že pohlaví a názor na počet dětí v rodině jsou nezávislé. Máme 2 diskrétní náhodné veličiny: pohlaví (2 možné hodnoty) a počet dětí (1 dítě, 2 dětí, 3 a více, tj 3 možné hodnoty) zajímá nas nezávislost diskrétních veličin můžeme použit χ 2 test nezávislosti vytvoříme kontingenční tabulku: H 0 : jsou nezávislé, H A : nejsou pohlaví\počet dětí 1 dítě 2 dětí 3 a více muži 246 167 37 ženy 119 319 64 KT=[246 167 37; 119 319 64]; pchii=chisquare_test_i(kt,0.05)// 1.171D-21 -- zamitame, ze jsou nezavisle [ ph=1.171d-21 ] 5 Příklad - vhodnost dat k polynomiální regresi, validace Zjišt ujeme závislost mezi vývojem ceny na mouku a cenou na špagety v Kč. Máme data za poslední 11 let v tabulce. Ověřte vhodnost dat k polynomiání regresi 3.řádu, proved te regresi a ověřte správnost zvolené metody F-testem. cena mouka 9.09 10.38 10.58 11.21 11.43 11.44 12.03 12.08 13.18 13.2 13.23 cena na špagety 30.29 30.43 27.96 29.32 29.55 31.92 34.13 33.74 34.95 34.73 35.14 2
otestujeme, zda mezi veličinami je závislost zkusíme Spearmana, H 0 : jsou nezávislé, H A : nejsou mouka=[9.09 10.38 10.58 11.21 11.43 11.44 12.03 12.08 13.18 13.2 13.23]; spagety=[30.29 30.43 27.96 29.32 29.55 31.92 34.13 33.74 34.95 34.73 35.14]; pspags=spearman_test(mouka,spagety);//0.0010452 -- zamitame, tj data jsou vhodna k regresi polynomiální regrese 3.řádu koef=pol_reg(mouka,spagety,3); predikce spagetypred=pol_pred(mouka,koef); ověříme výsledky regrese F-testem, H 0 : regrese byla zvolená špatně, H A : zvolená dobře pfspag=f_test_pred(spagety,spagetypred,4)//0.0029815 -- zamitame, regrese byla zvolena dobre 6 Příklad- vhodnost dat k exp. regresi a validace [ ph=0.0029815 ] Zjišt ujeme závislost mezi vývojem cen na benzin natural 95 a na řidičský kurz (skupina B) během let 2007-2017. Máme data v tabulce. Roste cena na řidičský kurz exponenciálně v závislosti na ceně na benzin? Ověřte vhodnost dat k exponenciální regresi a správnost zvolené metody testem na nezávislost reziduí. benzin 23.85 28.44 29. 30. 30.45 31.01 32.88 33.93 34.95 35.11 36.16 řid. kurz 8658.17 9219.96 9146.95 9108.76 9206.27 9284.47 9316.35 9314.01 9316.69 9369.57 9416.43 otestujeme, zda mezi veličinami je závislost zkusíme Spearmana, H 0 : jsou nezávislé, H A : nejsou benzin=[23.85 28.44 29. 30. 30.45 31.01 32.88 33.93 34.95 35.11 36.16]; ridicak=[8658.17 9219.96 9146.95 9108.76 9206.27 9284.47 9316.35 9314.01 9316.69 9369.57 9416.43]; prids=spearman_test(benzin,ridicak);// 0.0000397 - zamitame, ze jsou nezavisle, tj data jsou vhodna k regresi exponenciální regrese: koeff=exp_reg(benzin,ridicak); pro validaci regrese potřebujeme predikci ceny ridicakpred=exp_pred(benzin,koeff); ověříme výsledky regrese testem na nezávislost reziduí, H 0 : regrese byla zvolená dobře, H A : zvolená špatně pwz= wz_test(ridicak,ridicakpred,0.05)// 0.1713909 -- nezamitame, regrese byla OK [ ph= 0.1713909] 3
7 Příklad - ANOVA Chceme otestovat bezpečnost osobních vozidel podle velikosti a počtu zraněných. Rozdělíme je na tři skupiny malá, střední a velká vozidla. Počet zraněných za tři roky je v následující tabulce. malá střední velká 2015 643 469 484 2016 655 427 456 2017 702 525 402 Na hladině významnosti 0,05 otestujte tvrzení, že počet zranění je shodný bez ohledu na typ vozidla. Pokud ne, která vozidla se lišila? Řešení ověříme normalitu auta=[643 469 484; 655 427 456; 702 525 402]; pp=shapiro(auta(:,1)); // 1 je normalni pp=shapiro(auta(:,2));// 1 je normalni pp=shapiro(auta(:,3)); // 1 je normalni pp=shapiro(auta(1,:)); // 1 je normalni pp=shapiro(auta(2,:)); // 1 je normalni pp=shapiro(auta(3,:)); // 1 je normalni ověříme shodné rozptyly pro ANOVU, H 0: všechny rozptyly jsou stejné, H A: minimálně jeden se liší pbart=bartlett_test(auta) // 0.8485191 -- nezamitame, muzeme pouzit ANOVU Můžeme použit ANOVA, H 0: všechny střední hodnoty jsou stejné, H A: minimálně jedna se liší p_h=anova_1(auta)//0.0012071 - zamitame Zamítli jsme nulovou hypotézu, chceme vědět, které se lišíly, použijme Scheffého test: p_h2=scheffe_test(auta,0.05)//liší se tam, kde je jednička -- 2 se liší [ ph=0.0012071; 2 ] 8 Příklad Wilcoxon Aquapark zlevnil celodenní vstupné a pozoruje počet návštěvníků každou hodinu během otevírací doby aquaparku od 9 do 20h. Data před uvedením slevy a po slevě celodenního vstupného jsou v tabulce. Je po uvedení slevy v aquaparku více návštěvníků? Testujte toto tvrzení na hladině 0,05. 9h 10h 11h 12h 13h 14h 15h 16h 17h 18h 19h 20h před slevou 5 37 35 20 41 37 64 37 39 40 42 40 po slevě 17 44 42 46 40 42 46 43 42 42 40 42 Řešení 2 párové výběry, test normality: pred=[5 37 35 20 41 37 64 37 39 40 42 40]; po= [17 44 42 46 40 42 46 43 42 42 40 42]; pp=shapiro(pred)// 0 - neni normalni ppo=shapiro(po)// 0 - neni normalni 4
použijeme Wilcoxonův test H 0 : před = po (je stejný) nebo před<po H A : před >po pravostranný test paqua = wilcoxon_test(pred,po, p,0.05)//0.9701305 - nezamitame [ ph= 0.9701305] 5