Poslední aktualizace: 13. prosince 2011 DOMÁCÍ ÚLOHY Pokyny k vypracování: Ke každé úloze nezapomeňte napsat alespoň krátký závěr, ve kterém shrnete, co jste zjistili. Úlohy není zapotřebí psát v TeXu či jiném editoru. Stačí, když budou čitelné. ;) Odevzdání úlohy emailem je možné pouze ve formátu pdf. Úlohy posílané emailem potvrzuji. Pokud Vám toto potvrzení nepřijde, tak to znamená, že Váš email s úlohou nedorazil. Soubory posílané emailem, prosím, pojmenujte svým jménem a číslem úlohy, např. omelka-7.pdf, omelka-7.r. V případě, že použijete netriviálním způsobem R-ko, tak se očekává, že zašlete také kód a všechny další soubory potřebné pro výpočet. Váš kód by měl fungovat bez jakýchkoliv úprav z mé strany. Pozor zejména na cesty k případným souborům, které si pomocí kódu natahujete do R-ka. DÚ č. 1 (5b) 4. 10. 2011 do 18. 10. 2011 Ze 60 náhodně vybraných studentů bakalářského oboru obecná matematika se 6 považuje za abstinenty. Na hladině 5% otestujte proti oboustranné alternativě hypotézu, že mezi studenty tohoto oboru je 20% abstinentů. Použijte Waldův test, Raoův skórový test, test poměrem věrohodnosti a přesný testu (použijte konzervativní i mid-p-value přístup). U každého testu také spočtěte jeho p-hodnotu. Výsledky testů porovnejte. DÚ č. 2 (5b) 11. 10. 2011 do 25. 10. 2011 Nechť R a K jsou dva jevy a R c a K c jejich doplňky. Dokažte, že P(K R) P(K c R c ) P(K c R) P(K R c ) = P(R K) P(Rc K c ) P(R c K) P(R K c ). DÚ č. 3 (5b) 11. 10. 2011 do 25. 10. 2011 V devadesátých letech zorganizoval Harvard Medical Research následující studii, které se zúčastnilo 22 071 lékařů. Ti byli náhodně rozděleni na dvě skupiny. Zatímco lékaři v první skupině jednou za dva dny brali tabletku aspirinu, lékaři ve druhé skupině brali placebo. Ani jeden z lékařů nevěděl, zda ve skutečnosti bere aspirin nebo placebo. Během pětileté studie 5 z 11 034 lékařů v první skupině zemřelo na srdeční infarkt. Ve druhé skupině zemřelo na srdeční infarkt 18 z 11 037 lékařů. Můžeme prohlásit, že existuje souvislost mezi preventivním braním aspirinu a výskytem smrtelného infarktu? Můžeme tuto souvislost nějak blíže charakterizovat? Můžeme v této studii odhadnout relativní riziko? 1
2 DOMÁCÍ ÚLOHY DÚ č. 4 (6b) 18. 10. 2011 do 1. 11. 2011 Tabulka 1 zachycuje počet živě narozených dětí v ČR v roce 2008 dle měsíců. Můžeme na základě daných dat prohlásit, že děti se rodí rovnoměrně během roku? Výsledek testu se pokuste okomentovat. Měsíc 1 2 3 4 5 6 7 8 9 10 11 12 Počet 9905 9235 9597 9985 10446 10440 11063 10540 10312 9561 9068 9418 Tabulka 1. Počet živě narozených v ČR v roce 2008 dle měsíců. DÚ č. 5 (6b) 18. 10. 2011 do 1. 11. 2011 Pomocí dat z Tabulky 1 testujte hypotézu, že v první polovině roku (tj. v měsících leden až červen) se narodí více (či méně) dětí než v druhé polovině roku (tj. v měsících červenec až prosinec), v prvním čtvrtletí (tj. v měsících leden až březen) se narodí více (či méně) dětí než v druhém čtvrtlení (tj. v měsících duben až červen). DÚ č. 6 (6b) 25. 10. 2011 do 9. 11. 2011 Nechť X 1 má binomické rozdělení Bi(n 1, p 1 ) a X 2 má Bi(n 2, p 2 ), přičemž X 1 a X 2 jsou nezávislé. ( ) Najděte asymptotické rozdělení odhadu pro d = log ˆp1 (1 ˆp 2 ) (1 ˆp 1 )ˆp 2, kde ˆp 1 = X 1 n 1 a ˆp 2 = X 2 n 2. Pomocí předchozího výsledku sestavte 95%-ní interval spolehlivosti pro p 1(1 p 2 ) (1 p 1 )p 2 a tento interval použijte na data z DÚ č. 3. DÚ č. 7 (4b) 1. 11. 2011 do 15. 11. 2011 Politická strana s názvem Mírný pokrok v mezích zákona se rozhodla zhodnotit svou novou kampaň. Z 1 000 náhodně vybraných respondentů jich 371 odpovědělo, že ke straně mělo důvěru před kampaní a důvěra trvá i po kampani; 133 respondentů mělo důvěru před kampaní, ale po kampani ji už nemá; 98 respondentů nemělo důvěru před kampani, ale získalo ji po kampani; a konečně 398 respondentů nemělo důvěru ani před kampaní, ani po kampani. Jak byste zhodnotili kampaň? V závěrečné odpovědi je třeba použít takový jazyk, aby i politické špičky, které zpravidla nemají statistické vzdělání, rozuměli.
DOMÁCÍ ÚLOHY 3 DÚ č. 8 (6b) 1. 11. 2011 do 15. 11. 2011 Tabulka 2 zachycuje počet předchozích těhotenství a kvalitu prenatální péče pro vybranou skupinu matek ve Washingtonu, DC, v letech 1980 až 1985. Zhodnoťte daná data. Kvalita prenatální péče Počet předch. porodů Inadequate Intermediate Adequate 0 83 178 349 1 58 110 345 2 35 62 200 3 22 35 94 4 23 36 89 Tabulka 2. Prenatální péče vs. počet předchozích porodů. DÚ č. 9 (9b) 11. 11. 2011 do 25. 11. 2011 Tabulka 3 zachycuje rozsudky za vraždy v letech 1976 a 1987 na Floridě. Rozsudky jsou členěny dle rasy obžalovaného, rasy oběti a dle toho, zda byl či nebyl vynesen rozsudek smrti. obžalovaný rozsudek smrti oběť počet white Yes white 53 black Yes white 11 white No white 414 black No white 37 white Yes black 0 black Yes black 4 white No black 16 black No black 139 Tabulka 3 (1) Najděte vhodný model pro daná data. (2) Interpretujte podmíněné poměry šancí a marginální poměry šancí pro napozorovaná data. Případné rozdíly vysvětlete. (3) Porovnejte napozorované poměry šancí (podmíněné i marginální) s odpovídajícími poměry šancí, které předpovídá model vybraný v (1).
4 DOMÁCÍ ÚLOHY DÚ č. 10 (5b) 8. 11. 2011 do 22. 11. 2011 Předpokládejme, že v tabulce 2 2 2 platí model párové závislosti (XY, XZ, YZ) a všechny podmíněné poměry šancí pro XY, XZ a YZ jsou větší než 1. Ukažte, že potom marginální poměr šancí XY je větší než podmíněný poměr šancí XY. DÚ č. 11 (3b) 15. 11. 2011 do 29. 11. 2011 V datech o zaměstnání synů a otců (viz 7. cvičení) otestujte, že marginální rozdělení zaměstnaní synů ve Velké Británii a Dánsku je stejné. Obdobně testujte marginální rozdělení otců. DÚ č. 12 (13b) 15. 11. 2011 do 29. 11. 2011 Stillbirth (porození mrtvého dítěte) se rozumí smrt plodu staršího než 20 týdnů. Dítě, které se narodí po 20 týdnu, ale do 37 týdnů se označuje jako předčasně narozené. Soubor stillbirth.csv obsahuje data o porodech v australském státě Queensland v letech 1987 1992. Kromě toho, zda se dítě narodilo mrtvé či živé, se dále sledoval pohlaví dítěte, rasa matky (bílá nebo domorodé obyvatelstvo) a gestační věk dítěte. Do souboru nejsou zahrnuty přenošené děti, tj. děti s gestačním věkem přesahujícím 41 týdnů. Odpovězte na následující otázky: Souvisí porození mrtvého/živého dítěte s rasou? Souvisí porození mrtvého/živého dítěte s pohlavím dítěte? Souvisí rasa matky s tím, zda se dítě narodilo předčasně? Souvisí pohlaví dítěte s tím, zda se dítě narodilo předčasně? Pokud nějakou souvislost objevíte, tak ji popište. Porovnejte marginální a podmíněné poměry šancí. DÚ č. 13 (9b) 22. 11. 2011 do 6. 12. 2011 Soubor jobsatisf.csv obsahuje data zachycuje výšku (ročního) platu, pohlaví a spokojenost zaměstnance. Najděte vhodný model pro vztah mezi spokojeností a výší platu (při zohlednění informace o pohlaví). Tento vztah popište. DÚ č. 14 (10b) 29. 11. 2011 do 13. 12. 2011 V roce 1992 byl uskutečněn průzkum na Wright State University School of Medicine a United Health Services in Dayton v Ohio. 2276 studentů v posledním ročníku odpovídalo, zda zkusili alkohol, cigarety a marihuanu. Výsledky průzkumu jsou v souboru dayton.csv. Pomocí vhodných logitových modelů odpovězte na následující otázky: Liší se vztah k požívání alkoholu u studentů a studentek? Liší se vztah k požívání alkoholu u příslušníků různých ras? Liší se vztah ke kouření u studentů a studentek?
Liší se vztah ke kouření u příslušníků různých ras? DOMÁCÍ ÚLOHY 5 Pokud se výše uvedené vztahy liší, tak tento rozdíl popište a kvantifikujte. DÚ č. 15 (6b) 6. 12. 2011 do 20. 12. 2011 Nechť náhodná veličina Y nabývá pouze hodnot {0, 1} a X je spojitá náhodná veličina (případně vektor). Najděte model pro logit P (Y = 1 X = x) pro následující situace: (1) X za podmínky Y = j má N(µ j, σ 2 ), kde j = 1, 2; (2) X za podmínky Y = j má N(µ j, σj 2 ), kde j = 1, 2; (3) X za podmínky Y = j má mnohorozměrné normální rozdělení N(µ j, Σ), kde j = 1, 2. DÚ č. 16 (12b) 13. 12. 2011 do 3. 1. 2012 Soubor therapy.csv obsahuje data z klinického studie o rakovině plic. Pacienti byli náhodně rozděleni do dvou skupin, kterým se dostalo sekvenční (sequential) a střídavé (alternating) chemoterapie. Výsledek chemoterapie se dělil do čtyř skupin: progressive disease, no change, partial remission, complete remission. Pomocí vhodného logitového modelu vyšetřete, zda se druhy chemoterapie liší svou úspěšností. Popište a interpretujte zajímavé parametry. Pomocí vhodného logaritmicko-lineárního modelu vyšetřete, zda se druhy chemoterapie liší svou úspěšností. Popište a interpretujte zajímavé parametry. Otázku úspěšnosti chemoterapie se pokuste ověřit také pomocí modelu základní logitové kategorie baseline-category logit model. Porovnejte výše uvedené modely z hlediska složitosti, fitu a interpretace.