Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Podobné dokumenty
12. N á h o d n ý v ý b ě r

Náhodný výběr 1. Náhodný výběr

8. Analýza rozptylu.

PRAVDĚPODOBNOST A STATISTIKA

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Pravděpodobnost a aplikovaná statistika

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

4. B o d o v é o d h a d y p a r a m e t r ů

Pravděpodobnost a aplikovaná statistika

Intervalové odhady parametrů některých rozdělení.

Odhady parametrů 1. Odhady parametrů

14. B o d o v é o d h a d y p a r a m e t r ů

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Michaela Kurková. Katedra pravděpodobnosti a matematické statistiky

Pravděpodobnost a aplikovaná statistika

17. Statistické hypotézy parametrické testy

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

Testujeme hypotézu: proti alternativě. Jednoduché třídění:

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

8.2.1 Aritmetická posloupnost I

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Úloha III.S... limitní

8.2.1 Aritmetická posloupnost

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

NEPARAMETRICKÉ METODY

Kapitola 5 - Matice (nad tělesem)

3. Charakteristiky a parametry náhodných veličin

8. Odhady parametrů rozdělení pravděpodobnosti

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Deskriptivní statistika 1

Matematika I, část II

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze

Intervalové odhady parametrů

MATEMATICKÁ INDUKCE. 1. Princip matematické indukce

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

3. Lineární diferenciální rovnice úvod do teorie

Úloha II.S... odhadnutelná

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Komplexní čísla. Definice komplexních čísel

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Budeme pokračovat v nahrazování funkce f(x) v okolí bodu a polynomy, tj. hledat vhodné konstanty c n tak, aby bylo pro malá x a. = f (a), f(x) f(a)

P. Girg. 23. listopadu 2012

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

8 DALŠÍ SPOJITÁ ROZDĚLENÍ PRAVDĚPODOBNOSTI

S polynomy jste se seznámili již v Matematice 1. Připomeňme definici polynomické

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

STUDIUM MAXWELLOVA ZÁKONA ROZDĚLENÍ RYCHLSOTÍ MOLEKUL POMOCÍ DERIVE 6

MATICOVÉ HRY MATICOVÝCH HER

V. Normální rozdělení

2. Náhodná veličina. je konečná nebo spočetná množina;

Seznámíte se s pojmem Riemannova integrálu funkce jedné proměnné a geometrickým významem tohoto integrálu.

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Pavel Pejřimovský. Katedra pravděpodobnosti a matematické statistiky

NMAF063 Matematika pro fyziky III Zkoušková písemná práce 17. ledna 2019

Bc. Barbora Šimková. Odhady parametrů rozdělení náhodných veličin

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

( + ) ( ) ( ) ( ) ( ) Derivace elementárních funkcí II. Předpoklady: Př. 1: Urči derivaci funkce y = x ; n N.

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

Sekvenční logické obvody(lso)

Definice obecné mocniny

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

6. Posloupnosti a jejich limity, řady

11. přednáška 16. prosince Úvod do komplexní analýzy.

Správnost vztahu plyne z věty o rovnosti úhlů s rameny na sebe kolmými (obr. 13).

8.1.3 Rekurentní zadání posloupnosti I

PoznÁmky k přednášce

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Iterační výpočty projekt č. 2

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

DERIVACE FUNKCÍ JEDNÉ REÁLNÉ PROM

NMSA331 Matematická statistika 1

1. K o m b i n a t o r i k a

Pravděpodobnostní modely

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Pravděpodobnostní model doby setrvání ministra školství ve funkci

Popisná statistika. Zdeněk Janák 9. prosince 2007

z možností, jak tuto veličinu charakterizovat, je určit součet

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

n-rozměrné normální rozdělení pravděpodobnosti

NMAF063 Matematika pro fyziky III Zkoušková písemná práce 25. ledna x 1 n

7. Odhady populačních průměrů a ostatních parametrů populace

2.4. INVERZNÍ MATICE

10.3 GEOMERTICKÝ PRŮMĚR

Seriál XXX.II Zpracování dat fyzikálních měření

jsou reálná a m, n jsou čísla přirozená.

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor nezávislost, funkce náhodného vektoru

Kapitola 4 Euklidovské prostory

P2: Statistické zpracování dat

Užití binomické věty

Přednáška VIII. Testování hypotéz o kvantitativních proměnných

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

Cvičení 1.1. Dokažte Bernoulliovu nerovnost (1 + x) n 1 + nx, n N, x 2. Platí tato nerovnost obecně pro všechna x R a n N?

MOŽNOSTI STATISTICKÉHO POSOUZENÍ KVANTITATIVNÍCH VÝSLEDKŮ POŽÁRNÍCH ZKOUŠEK PRO POTŘEBY CERTIFIKACE A POSUZOVÁNÍ SHODY VÝROBKŮ

Transkript:

Uiverzita Karlova v Praze Matematicko-fyzikálí fakulta BAKALÁŘSKÁ PRÁCE Kateřia Jaoušková Dvouvýběrové testy Katedra pravděpodobosti a matematické statistiky Vedoucí bakalářské práce: Studijí program: Studijí obor: doc Mgr Zdeěk Hlávka, PhD Matematika Obecá matematika Praha 03

Děkuji svému vedoucímu doc Mgr Zdeňku Hlávkovi, PhD za ochotu a pomoc s vypracováím bakalářské práce

Prohlašuji, že jsem tuto bakalářskou práci vypracovala samostatě a výhradě s použitím citovaých prameů, literatury a dalších odborých zdrojů Beru a vědomí, že se a moji práci vztahují práva a poviosti vyplývající ze zákoa č /000 Sb, autorského zákoa v platém zěí, zejméa skutečost, že Uiverzita Karlova v Praze má právo a uzavřeí licečí smlouvy o užití této práce jako školího díla podle 60 odst autorského zákoa V Praze de 5 květa 03

Název práce: Dvouvýběrové testy Autor: Kateřia Jaoušková Katedra: Katedra pravděpodobosti a matematické statistiky Vedoucí bakalářské práce: doc Mgr Zdeěk Hlávka, PhD, Katedra pravděpodobosti a matematické statistiky Abstrakt: V této práci jsou popsáy dvouvýběrové t testy, které jsou důležitou metodou pro testováí hypotéz, když je výběr z ormálího rozděleí Hlaví důraz je klade a testováí středích hodot, pokud ezámé rozptyly ejsou stejé V práci jsou uvedey statistiky používaé při testováí hypotéz a je popsáo jejich rozděleí Na začátku je odvozeo Studetovo rozděleí, které je základem pro celou práci Další kapitoly se věují odvozeím Welchovy a Satterthwaitovy statistiky a způsobu, jakým tyto výsledky použijeme a testováí hypotéz o rovosti středích hodot V posledí kapitole je uvede speciálí párový test s chybějícími daty Klíčová slova: t test, dvouvýběrový test, Welchův test, Satterthwaitův test Title: Two-sample tests Author: Kateřia Jaoušková Departmet: Departmet of Probability ad Mathematical Statistics Supervisor: doc Mgr Zdeěk Hlávka, PhD, Departmet of Probability ad Mathematical Statistics Abstract: Two-sample T tests are described i this thesis They are a importat method for testig hypotheses whe samples have ormal distributio The mai emphasis is laid o testig expected values whe ukow variaces are uequal The test statistics used for testig hypotheses are preseted ad their ull distributio is derived I the begiig Studet s distributio is described The ext chapters show how the Welch s ad Satterthwaite s statistics are derived ad it is described how to use them whe testig hypotheses Special paired test with missig samples is preseted i the last chapter Keywords: t test, two-sample test, Welch s test, Satterthwaite s test

Obsah Použité začeí Úvod 3 T testy 4 Jedovýběrový test 4 Základí vlastosti 5 3 Dvouvýběrový test při stejých rozptylech 5 3 Zámý podíl rozptylů 6 4 Dvouvýběrový test při estejých rozptylech 7 Studetovo rozděleí 8 Momety S 8 Cetrálí momety S 0 3 Rozděleí S 0 4 Souvislosti s kapitolou 5 Rozděleí S 6 Normovací kostata 7 Rozděleí T S = X S 3 Welchova statistika 4 3 Rozděleí V 4 3 Hladia testu T 6 33 Hladia Welchova testu V 7 4 Satterthwaitova statistika 8 5 Dvouvýběrový test při estejých rozptylech 0 5 Satterwaithův test 0 5 Welchův test 0 53 Shrutí 6 Párový test při chybějících datech 3 6 Model 3 6 Testová statistika 4 63 Rozděleí R 4 Závěr 6 Literatura 7

Použité začeí N přirozeá čísla PA) pravděpodobost jevu A A idikátor možiy A rová se až a kostatu µ k E X k, k-tý obecý momet µ k E X E X) k, k-tý cetrálí momet σ rozptyl α 3 µ 3 /σ 3 šikmost α 4 µ 4 /σ 4 špičatost Nµ,σ ) ormálí rozděleí se středí hodotou µ a rozptylem σ χ χ rozděleí o stupích volosti t t rozděleí o stupích volosti t,α α-kvatil t rozděleí o stupích volosti χ,α α-kvatil χ rozděleí o stupích volosti X i výběrový průměr veliči X,,X X S X S X i X) výběrový rozptyl veliči X,,X X i X) M k k-tý obecý momet veličiy S M k k-tý cetrálí momet veličiy S

Úvod V praxi se často zabýváme úlohou, ve které rozhodujeme o rovosti dvou středích hodot při dvou a sobě ezávislých ormálích áhodých výběrech Pokud jsou rozptyly stejé, vhodým testem je jedoduše odvoditelý dvouvýběrový t test Shoda rozptylů je ale v praxi je ideálí předpoklad, tudíž musíme odvodit jiý test Nejdříve je v práci popsáo, jak se des odvozuje jedovýběrový a dvouvýběrový t test, základí vlastosti ormálího, Studetova rozděleí a rozděleí χ Na koci růzých kih, zabývajících se tímto problémem, ajdeme odkazy a čláek Studet 908), ebo a růzé čláky B Welche ebo F Satterthwaita Zajímalo mě, jak byly růzé druhy t testů tehdy odvozey, a tak jsou zde ěkteré čláky podrobě rozebráy Jelikož jsou až 00 let staré, bylo potřeba pochopit, jak se tehdy věci dělaly, a hlavě sjedotit začeí To je předmětem kapitol, 3, 4 Ve druhé kapitole jsem ukázala odvozeí t rozděleí, jak ho odvozoval Studet 908), a poukázala a souvislosti s tím, co des alezeme v učebicích V další kapitole je odvozea Welchova statistika, která se používá a testováí středích hodot při estejých rozptylech, tak, jak ji odvodil Welch 938) Čtvrtá kapitola je věováa stejé statistice jako třetí, ale jiému odvozeí Toto odvozeí ašel Satterthwaite 94) Následující kapitola shruje předchozí dvě kapitoly a dává ávod, jak testovat hypotézy o rovosti středích hodot Posledí kapitola je věováa speciálímu testu, který jsem odvodila podobě, jako odvodil svůj test Welch 938) Je to speciálí případ párového t testu, ve kterém máme ěkterá přebývající, espárovaá data 3

Kapitola T testy T testy patří k základím prostředkům používaým při testováí hypotéz Uvažujme model, ve kterém X,,X je áhodý výběr z Nµ,σ ), σ > 0 Chceme testovat, zda se středí hodota µ rová ějaké určité hodotě µ 0 Rozptyl σ je zde rušivý parametr a testová statistika, ai její rozděleí, by a ěm eměly záviset Než se podíváme a samotý t test, musíme si říct, jak vypadá Studetovo rozděleí a rozděleí χ Rozděleí t má hustotu a distribučí fukci F x) = x fx) = Γ ) + Γ ) + x π fu)du = I x + je ormovaá eúplá beta fukce Necht Rozděleí χ má hustotu fx) = ) +, ), kde I z a,b) = / Γ e )x Platí, že středí hodota je a rozptyl Jedovýběrový test x {x>0} z ) 0 ta t) b dt, Ba,b) ) Je třeba testovat hypotézu H 0 : µ = µ 0 proti H : µ µ 0, kde σ ezáme Musíme vytvořit vhodou statistiku pro teto test Je přirozeé test založit a X Jelikož X Nµ, σ ), je zřejmé, že X µ N0,) Testovou statistiku získáme σ tak, že rozptyl σ ahradíme estraým kozistetím odhadem SX Tyto úvahy shreme v ásledujících dvou větách Věta Necht X a Z jsou ezávislé áhodé veličiy takové, že X N0,) a Z χ Pak áhodá veličia T = X Z 4 t

Důkaz viz Aděl 0, Věta 4) Věta Necht X,,X je áhodý výběr z Nµ,σ ),, σ > 0 Potom Důkaz viz Aděl 0, Věta 3) T = X µ S X t Z věty vidíme, že P X µ0 /SX t, α/ H 0 ) = α Hypotézu H 0 zamíteme a hladiě α, pokud X µ0 /SX t, α/ Základí vlastosti Než si ukážeme dvouvýběrový t test, připomeňme základí vlastosti χ rozděleí a rozděleí průměru a výběrového rozptylu Věta 3 Necht Y a Z jsou ezávislé áhodé veličiy takové, že Y χ r Z χ s Pak Y + Z χ r+s a Důkaz viz Aděl 0, Věta 44) Věta 4 Necht X,,X je áhodý výběr z Nµ,σ ), N Pak ) X Nµ,σ /), ) je-li > a σ > 0, pak S X ) σ χ 3) je-li >, jsou veličiy X a S X ezávislé Důkaz viz Aděl 0, Věta 4) Věta 5 Necht X,,X je áhodý výběr z Nµ,σ), Y,,Y je áhodý výběr z Nµ,σ),, Pak ) X µ Ȳ N µ, σ + σ Důkaz viz Aděl 0, Lemma 46, Věta 4) 3 Dvouvýběrový test při stejých rozptylech Necht X,,X je áhodý výběr z Nµ,σ ) a Y,,Y je áhodý výběr z Nµ,σ ) a echt jsou a sobě ezávislé Předpokládejme, že,, σ > 0 Test H 0 : µ = µ proti H : µ µ se abízí založit a X Ȳ Podobě jako u jedovýběrového testu odečteme středí hodoty a vydělíme rozptyly a dostaeme X Ȳ µ µ ) σ + σ N0,) 5

Z vět 3 a 4 ) plye S X ) σ + S Y ) σ χ + Nezávislost X Ȳ a S X ) + S σ Y ) σ plye z věty 4 Upravíme X Ȳ µ µ ) σ + σ ) S X ) + S σ Y ) σ + = X Ȳ µ µ ) ) σ + S X )+S Y ) σ + ) Vzike statistika, kterou ozačíme písmeem T a která má podle věty za platosti H 0 : µ = µ rozděleí t + T = X Ȳ S X )+S Y ) + ) 3) + Chceme-li při ezámém σ testovat hypotézu H 0 : µ = µ proti hypotéze H : µ µ, spočteme T = X Ȳ S X )+S Y ) + ) + a jestliže T t +, α/, zamíteme H 0 a hladiě α 3 Zámý podíl rozptylů Ted si ještě ukážeme speciálí případ toho, když ezáme rozptyly, ale záme jejich podíl θ := σ Počítejme σ S X ) σ X Ȳ σ + σ + S Y ) σ ) + = X Ȳ ) σ θ + σ θ S X )+S Y )) σ σ + ) Zkráceím σ a σ dostaeme T = X Ȳ S X )+θs Y ) θ + ) θ + ) a zamítáme H 0, pokud T t +, α/, ebot T t + 6

4 Dvouvýběrový test při estejých rozptylech Test založeý a statistice 3) jsme odvodili za předpokladu stejých rozptylů V praxi ale většiou emáme jistotu, že rozptyly jsou stejé Testováí rozdílu mezi středími hodotami dvou a sobě ezávislých áhodých výběrů s růzými rozptyly se azývá Behres-Fisherův problém Tímto problémem se zabývalo moho statistiků, mezi imi i Welch 938) a Satterthwaite 94) Ježe jak se výsledý test opravdu jmeuje, je těžké jedozačě říci Například v programu R se teto test jmeuje Welchův, program SAS stejý test azývá Satterthwaitův test Ai v kihách eajdeme jedié pojmeováí V kize Aděl 998, straa 98) ajdeme statistiku pro testováí dvouvýběrového testu s estejými rozptyly a ásledě dva vzorce pro odhad stupňů volosti, jede pojmeovaý Welchův, druhý Satterthwaitův V dalším textu si ujasíme, jak byly tyto testy odvozey V kapitole 3 odvodíme Welchovu statistiku a v kapitole 4 Satterthwaitovu V kapitole 5 ukážeme, jak se používají odvozeé statistiky při testováí hypotéz 7

Kapitola Studetovo rozděleí William Sealy Gosset byl statistik, pracující v irském pivovaru Guiess Jeho zaměstavatel echtěl, aby publikoval vědecké práce pod svým jméem, takže Gosset psal pod pseudoymem Studet Jelikož Studet 908) odvodil t rozděleí, kterému se říká také Studetovo, v této kapitole si ukážeme, jak tehdy postupoval Jak se postupuje des, ajdeme apříklad v kize Aděl 998) Necht X,,X N0,σ ) je áhodý výběr, σ > 0, N Výběrový rozptyl je běžě defiová jako X i X) Studet 908) ale pro odhad rozptylu používal tuto sumu vyděleou Takovou veličiu si ozačíme S := S X a budeme chtít ajít rozděleí S V prvích dvou sekcích ukážeme, jak Studet 908) hledal obecé a cetrálí momety statistiky S, abychom pak v další sekci ukázali, jak aproximoval rozděleí S a pak z věty o trasformaci vypočítal hustotu S a T S = X S Momety S Spočítáme prví čtyři momety S Počítejme S = Xi ) X i = Xi Xi X i X j j= i j Pak M = E S = µ µ = µ ) Jelikož X,,X jsou ezávislé a ormálí, středí hodota čleu X i X j je ula, tj E X i X j = E X i E X j = 0 V celé kapitole µ k = µ k, ebot j= i j středí hodota je ulová j= i j 8

Počítejme dále ) S 4 = Xi X i ) ) = Xi ) 4 Xi X i + X i = X 4 i + X i Xj X 4 3 i 4 X 3 i Xj + X 4 4 i + 6 4 j= i j j= i j Xi Xj + čley, jejichž středí hodota je ula j= i j Čley, jejichž středí hodota je ula, jsou čley typu,, 3 Z ezávislosti opět dostaeme E X 4 i má čleů, kdežto Xi Xj j= i j X i Xj k = j= i j X i Xj k, k = j= i j E X i E Xj k ) = 0 j= i j má ) čleů, tudíž M = µ 4 + µ ) µ 4 µ ) + µ 4 + 3µ ) 3 3 = µ 4 3 + ) + µ 3 ) + 3) Z ormality rozděleí je špičatost X i rova 3, z toho plye, že µ 4 = 3µ a tudíž M = µ ) 3 3 + + 3) = µ ) + ) 3 Stejým postupem spočítáme M 3 = µ 3 ) + ) + 3), 3 M 4 = µ 4 ) + ) + 3) + 5) 4 Studet 908) další momety S euvádí Ale jelikož des víme, jak vypadá hustota S, můžeme si momety pro úplost spočítat: M k = µ k ) + ) + 3) + k 3) k 9

Cetrálí momety S Dále počítejme cetrálí momety S : M = µ [ + ) )] = µ, [ ) + ) + 3) M 3 = µ 3 3 ) ) 3 = µ 3 [ + 4 + 3 6 + 6 + ] = 8µ 3 3 ] )3 3 3, M 4 = µ4 [ ) + ) + 3) + 5) 3 ) ) 3 ) 4] 4 = µ 4 [ 3 + 9 + 3 + 5 3 + 3 4 + 4 3 + 3 3 + ] = µ 4 ) + 3) 4 3 Rozděleí S Studet 908) aproximoval rozděleí S gamma rozděleím s parametry α > 0, β > 0 a hustotou fx) x α e βx {x>0} Prví momet gamma rozděleí je α a rozptyl α Aby souhlasily momety β β gamma rozděleí s parametry α a β s S, dosadíme za β podíl M M a vyjde µ Nebot špičatost gamma rozděleí je 6 + 3, dosazeím vyjde α Hustota S akoec vyjde α = + 3 = α = fx) x 3 e x µ {x>0} Nyí ověříme, podle Studet 908), zda souhlasí momety aproximovaé hustoty gamma rozděleí s momety S Necht I := středí hodotu 0 xx 3 e x µ dx I = [ ] µ x e x µ c x=0 0 + I Prví sčítaec je ula a druhý se rová: µ I I = µ 0 x 3 e x µ dx Počítejme µ x 3 e x µ dx I Další momety budou jeom ásobey +µ +3, µ, atd, jako při vytvářeí mometů M, M 3, M 4, atd Studet 908) pro další odvozováí předpokládal, že alezeá hustota je opravdu hustotou S 0

4 Souvislosti s kapitolou Ukážeme si souvislost s veličiou SX uvedeou v kapitole Když spočítáme pomocí gamma fukce ormovací kostatu S, dostaeme hustotu ) fs) = Γ ) s 3 e s µ {s>0} µ Hustota áhodé veličiy X = )S µ je podle věty o trasformaci ) fx) = Γ + ) x 3 e x µ µ ) 3 µ {x>0} = Γ µ )x e x {x>0}, tj hustota áhodé veličiy S X ) σ, která má χ rozděleí Tedy hustota S je hustota χ rozděleí po lieárí trasformaci 5 Rozděleí S Odvod me dále podle Studet 908) rozděleí S pomocí věty o trasformaci Hustota veličiy S je fx) x 3 e x µ a Y := S Necht tx) := S, pak iverzí zobrazeí je τy) = y a τ y) = y Pak fy) y e y µ {y>0} = y e y µ {y>0} Normovací kostata se ajde itegrací ezormovaé hustoty Necht Potom I p = µ I p := [ ] x p e x µ + µ p ) x=0 jelikož sčítaec je ula Idukcí dostaeme Ale I 0 = Tedy 0 I = { µ ) 3 µ 0 x p e x µ dx ) 0 x p e x µ dx = µ p )I p, 3) 5) 3I 0 pro sudé, ) 3 3) 5) 4I pro liché e x πµ µ dx = a I = I = c = { π µ µ ) 0 xe x µ dx = µ [ ] e x µ x=0 ) 3) 5) 3 pro sudé, 3) 5) 4 pro liché Nakoec zaměíme µ za σ a výsledá hustota S vypadá ásledově ) 3) 5) 3 π σ fx) = x e x σ {x>0} pro sudé, ) σ x e x σ {x>0} pro liché 3) 5) 4 = µ )

6 Normovací kostata V ) byla počítáa kostata metodou per partes My to umíme spočítat jedodušeji, a to pomocí substituce z = y µ, která pak povede a gamma fukci = c 0 = c 3 x e x µ dy = c µ Γ 3 µ 3 z 0 ) Z toho plye, že ormovací kostata je e z dz c = Γ ) 3 σ ) 7 Rozděleí T S = X S Odvodili jsme hustotu směrodaté odchylky S: f S s) s e s σ {s>0} Dále x e σ πσ záme hustotu veličiy X, což je rozděleí průměru: f Xx) = Ted odvodíme, stejým způsobem jako Studet 908), hustotu veličiy T S = X pomocí podmíěé hustoty Hustotu T S S lze vyjádřit jako f TS t) = f S,TS s,t)ds = f TS S=st)f S s)ds Prví rovost plye z toho, že margiálí hustotu dostaeme itegrováím sdružeé hustoty podle přebytečé proměé a druhá rovost plye z defiice podmiňováí Studet 908) uvádí, že jelikož X = T s S a dx = sdt, hustota f TS S=st) vypadá takto s f TS S=st) = s t πσ e σ Pak ft) = = = 0 0 s s t πσ e σ cs e s σ ds c πσ y e y σ + t ) ds c πσ I + t ) = πσ I I + t ) kde I je defiováo v ), c = I z rovice ) a v prví rovosti jsme udělali substituci + t ) / s = y Dosazeím I a I dostaeme výsledou hustotu T S : { ) 4) 4 π 3) 5) 3 ft) = + t ) pro sudé, ) 4) 3 + 3) 5) 4 t ) pro liché Tato hustota je ezávislá a σ, čehož jsme chtěli dosáhout,

Pokud spočítáme ormovací kostatu hustoty T S pomocí Beta fukce, dostaeme hustotu Γ ) ft) = Γ ) + t ) π Abychom ze statistiky T S dostali statistiku ), používaou při jedovýběrových testech, provedeme lieárí trasformací T = T S a dostaeme hustotu t rozděleí 3

Kapitola 3 Welchova statistika V kapitole jsme již astíili dvouvýběrový problém s estejými rozptyly a yí se blíže podíváme a postup, který avrhl Welch 938) Necht X,,X je áhodý výběr z Nµ,σ ) a Y,,Y je áhodý výběr z Nµ,σ ) a echt jsou avzájem ezávislé Předpokládejme, že, a σ > 0, σ > 0 jsou ezámé Dle věty 5 je X Ȳ µ µ ) σ + σ N0,) V kapitole jsme ezámý rozptyl odhadovali výběrovým rozptylem Zde stejě ahradíme rozptyly jejich odhady a dostaeme Welchovu statistiku V = S X X Ȳ + S Y 3) Čitatel má N0, σ + σ ) rozděleí, X Ȳ a S X + S Y jsou ezávislé, proto statistika 3) bude mít t rozděleí podle věty, pokud jmeovatel bude mít χ rozděleí Všiměme si, že pro = jsou kritéria 3) a 3) stejá 3 Rozděleí V V této části ukážeme aproximaci rozděleí testové statistiky 3) tak, jak postupoval Welch 938) Za platosti H 0 : µ = µ můžeme obecě psát: U = η = S X ) σ X Ȳ, σ + σ, η = S Y ), σ kde U N0,), η a η mají rozděleí χ s a stupi volosti a všechy tři áhodé veličiy jsou ezávislé Pak můžeme 3) psát jako V = U aη + bη =: U W, 3) 4

kde a, b jsou kostaty závisející a, a σ, σ Pokud a = b, ebo bud a ebo b jsou rovy ule, W má rozděleí χ vyásobeé ějakou kostatou V takovém případě má 3) t rozděleí vyásobeé kostatou Pro jié hodoty a, b to eí tak jedoduché Welch 938) avrhl ásledující aproximaci hustotou ásobku χ rozděleí fw) = g) f Γ )w f e w g {w>0}, 33) f kde f a g jsou zvoley tak, aby prví dva momety souhlasily s momety W Pro hustotu platí µ = gf, µ = g f, ebot je to hustota χ f rozděleí vyásobeá kostatou g Pro momety W platí µ = af + bf, µ = a f + b f ), kde místo a píšeme f a f Porováím prvích dvou mometů zjistíme, že g = a f + b f, f = af + bf ) 34) af + bf a f + b f Z 33) vidíme, že W g χ U f, U a W jsou ezávislé, tudíž z věty W fg a tedy z 3) dostaeme, že Z ct f, kde c = fg = af + bf, t f a t f je t rozděleí o f stupích volosti, kde f dáo rovicí 34) Z rovic 34) vypočteme: a = f = σ ) σ + σ ), b = ) σ + σ σ 4 ) + σ4 ) σ ) σ + σ ),, c = 35) Odvodili jsme, že statistika 3) má přibližě t rozděleí o f stupích volosti, kde ) σ + σ f = σ 4 ) + σ4 ) 5

3 Hladia testu T V této sekci budeme porovávat statistiky 3) a 3) a příkladech V kapitole jsme spočítali, že statistika 3) má t-rozděleí o + stupích volosti Nyí spočítáme kostaty a, b, f, c i pro statistiku T 3) a dostaeme počet stupňů volosti i pro případ estejých rozptylů ) ) σ + σ + a = ), b = ), σ + ) + σ σ + ) + σ f = [σ ) + σ )] σ 4 ) + σ 4 ), c = ) σ + ) + σ ) + [σ ) + σ )] 36) Všiměme si, že pokud jsou rozptyly stejé, f se z 36) zjedoduší a +, což souhlasí s tím, co jsme odvodili v kapitole Testujeme H 0 : µ = µ proti H : µ µ Necht pravděpodobost chyby prvího druhu je α Pokud předpokládáme, že σ = σ, z tabulek pro t rozděleí ajdeme kritickou hodotu, pro kterou P T > t +, α ) = α Pokud σ σ, test edodržuje hladiu α Máme P ) ) T > t +, α = P ctf > t +, α = P t f > t ) +, α, c 37) kde c a f jsou dáy rovicí 36) Vzhledem ke vztahu ) můžeme psát P t f > t 0 ) = I f f, ) Tudíž z rovice 37) je f+t 0 P T > t +, α ) = I z 0 f, ), kde z 0 = f f + t +, α c Pro daé velikosti výběrů c a f závisejí je a podílu θ = σ /σ a z předchozí rovice můžeme pro každé θ spočítat pravděpodobost chyby druhu Závislost a θ je ejlépe vidět a ásledujících příkladech, které uvádí Welch 938) Příklad Necht = = 0 a α = 005 Zde je + = 8 a t 8;0975 = 0 V případech, kdy =, c se vždy rová jedé Hodoty P T > t f,0975 ) pro růzé θ se dají zjistit umerickou itegrací a jsou zaesey v grafu 3 jako křivka a) graf vykresle v programu Wolfram Mathematica) Je vidět, že pravděpodobost chyby druhu vždy leží mezi 005 a 0065 Vyšší hodoty jsou dosažey, pokud rozptyl jedoho z výběru je rove ule Z toho plye, že test 3) dodržuje hladiu α 6

030 05 00 05 00 005 krivka a krivka b krivka c Θ Obrázek 3: Pravděpodobost chyby druhu v závislosti a θ = σ σ Příklad Necht = 5, = 5, α = 005 Opět spočítáme + = 8 a t 8;0975 = 0 Rovice 36) dává f = 4θ + 4) 4θ + 4, c = 83θ + ) 44θ + 4) P T > t f,0975 ) je yí vyobrazea v 3 jako křivka b) Je vidět, že pravděpodobost chyby druhu je mezi 0004 pro θ = 0, a 005 pro θ = Pak roste k 033, když θ Může tedy astat případ, ve kterém test edodrží hladiu α Podle Welch 938) důvodem eí ai tak fakt, že f může být o hodě vyšší ež 8, ale že c může být o hodě vyšší ež Obecě, čím větší rozdíly mezi a, tím více bude T 3) edodržovat hladiu testu Pro stejě velké výběry test založeý a statistice 3) dodrží hladiu vždy, at je θ jakékoli 33 Hladia Welchova testu V Proved me yí obdobý rozbor pro Welchovu statistiku V Pro = se statistiky T a V rovají, tedy opět dostaeme křivku a) Příklad 3 Proberme případ = 5, = 5, α = 005 Z 35) Vypočteme f = 83θ + ) 63θ +, c = Nyí je P V > t f,0975 ) zázorěa v 3 jako křivka c) Pro θ meší ež / pravděpodobost chyby druhu klesá od 0054 k 005 Pro vyšší θ opět roste do 004 pro θ ) Je vidět, že test V dodržuje hladiu α a důvod je te, že c je vždy jeda Pokud máme jistotu, že se rozptyly rovají, je lepší použít T ež V Pokud je rovost rozptylů ejistá, je bezpečější použít V, protože T může vést ke klamým výsledkům 7

Kapitola 4 Satterthwaitova statistika Stejě jako Welch 938), Satterthwaite 94) odvodil test, který se používá a testováí dvou výběrů s estejými rozptyly Vezmeme si, jako v kapitole 3, statistiku 3) V = S X X Ȳ + S Y a aproximujme její rozděleí Ozačme σb = var X Ȳ ) = σ + σ a SB jeho odhad, tedy S B = S X + S Y Aby V mělo t rozděleí, muselo by SB mít χ rozděleí Ale taková situace eastae V jedovýběrovém testu jsme měli )SX χ σ Chtěli bychom stejě určit f, aby fsb χ σ f B Budeme předpokládat, že fsb χ σ f B ) fs Pak f = var B = f var S σb σb 4 B Tudíž takže f = var S σb 4 B = var σb 4 S X Jelikož SX a S Y jsou ezávislé, f = var S σb 4 X + var S Y ) + S Y Dále víme, že ) S ) = var X ) = ) var SX, Potom σ σ 4 ) var S X = σ4 a aalogicky var S Y = σ4 var SB = σ 4 + σ 4 8

Z toho spočítáme f: f = σ B σ 4 ) + σ4 ) = σ + σ ) σ 4 ) + σ4 ) 4) a tedy vyjde, že statistika 3) má přibližě t rozděleí o f stupích volosti, kde ) σ + σ f = σ 4 ) + σ4 ) 9

Kapitola 5 Dvouvýběrový test při estejých rozptylech V kapitolách 3 a 4 jsme odvodili statistiku 3), která má přibližě t f rozděleí, kde ) σ + σ f = 5) σ 4 ) + σ4 ) Chceme testovat hypotézu H 0 : µ = µ proti H : µ µ Ale rozptyly σ a σ jsou ezámé Budeme se zabývat otázkou, jak v rovici 5) odhadout rozptyly 5 Satterwaithův test Satterthwaite 94) odhadl rozptyly σ, σ odhady SX a S Y a vyšlo estraými a kozistetími f S = S X + S Y ) SX 4 + S4 Y ) ) 5) Takže pokud testujeme rovost středích hodot, spočteme statistiku 3), porováme s hodotou t fs, α/, kde f S je dáo 5) a pokud V t fs, α/, zamítáme hypotézu H 0 a hladiě α 5 Welchův test Welch 947) použil jiý přístup Využil odhadu f W = S X + S Y ) SX 4 + S4 Y +) +) = S X + S Y ) ) S 4 X + S4 Y +) +) SX 4 + S4 Y +) +) 53) Welchova volba vychází z úvahy, že čitatel 53) je estraým odhadem čitatele 5) a jmeovatel 53) je estraým odhadem jmeovatele 5) 0

Dokažme, že tomu tak je Jelikož S X ) σ Aalogicky ) S E SX 4 = E X ) σ = = σ χ, σ 4 ) E σ 4 ) [ ) + )] = σ4 + ) Tedy středí hodota čitatele 53 je E S 4 Y = σ4 + ) S X ) ) S ) E X + S Y SX 4 E + ) + SY 4 + ) = E S X 4 + E SX E SY + E S 4 Y + ) E S4 X + ) E S4 Y = σ 4 + ) + σ σ + σ 4 + ) σ 4 + ) σ 4 + ) + ) + ) ) = σ4 + σ σ + σ4 σ = + σ A středí hodota jmeovatele 53 je ) SX 4 E ) + SY 4 σ = 4 + ) ) + ) ) + σ 4 + ) + ) ) σ 4 = ) + σ 4 ), čímž jsme potvrdili oprávěost Welchovy aproximace 53 Testujeme-li rovost středích hodot dle Welch 947), spočteme statistiku 3), porováme s hodotou t fw, α/, kde f W je dáo 53) a pokud V t fw, α/, zamítáme hypotézu H 0 a hladiě α σ ) 53 Shrutí Welch 938) a Satterthwaite 94) odvodili statistiku 3) každý jiým způsobem, ale obdrželi stejou statistiku a stejý teoretický počet stupňů volosti 5) Způsob, jakým je odhadli, už byl ale jiý Obrázek 5 tyto dva postupy porovává Vezmeme příklad, kde = 5, = 5 a α = 005 Numericky spočítáme pravděpodobost chyby druhu a dostaeme graf, ve kterém Welchův odhad je křivka w) a Satterthwaitův je křivka s)

0 00 008 006 004 00 krivka s krivka w Obrázek 5: Pravděpodobost chyby druhu v závislosti a θ = σ σ Podíváme-li se do programu R, ajdeme, že dvouvýběrový test se azývá Welchův Když se ale podíváme do zdrojového kódu, zjistíme, že R používá odhad Satterthwaitův 5) V programu SAS je apsáo, že používá Satterthwaitův test, tedy opět 5) Dalo by se tedy říci, že se spíše používá statistika 3) s 5) stupi volosti, ale už eí jedoté pojmeováí tohoto testu

Kapitola 6 Párový test při chybějících datech Welchův postup použijeme v této kapitole a párový t test, ve kterém chybějí ěkterá data Běžě použijeme párový test v případě, že každá hodota z prví sady dat má přirozeého partera ve druhé sadě Tedy pokud jsou data získaá před a po ějaké maipulaci s objektem, apříklad před a po aplikaci léku, ebo pokud porováváme dvě růzé metody a stejém objektu, apříklad měřeí veličiy použitím dvou růzých přístrojů My si yí ukážeme případ, kdy máme spárovaá data, ale ěkterá jsme emohli změřit Mohli bychom použít dvouvýběrový test, ale to eí dobrý způsob, protože data ejsou ezávislá Také bychom přebytečá data mohli vyechat, ale to bychom se připravili o ceé iformace 6 Model Necht X,,X je áhodý výběr z Nµ,σ ) a Y,,Y je áhodý výběr z Nµ,σ ), kde, > 4 a ezáme σ > 0, σ > 0 Dále z ich vybereme m > veliči tak, že X,Y ),,X m,y m ) jsou spárovaé veličiy Pak X,,X k a Y,,Y l, k, l >, jsou samostaté veličiy ezávislé a těchto párech a také ezávislé a sobě Dále budeme předpokládat, že chybějící data chybí áhodě Nejdříve si vytvoříme veličiy Z i := X i Y i, i =,,m, tedy rozdíly, které mají ormálí rozděleí se středí hodotou µ µ a rozptylem: varx i Y i ) = var X i + var Y i covx i,y i ) = σ + σ σ σ ρ, kde ρ = corrx i,y i ) Tedy Z,,Z m Nµ µ,σ + σ σ σ ρ) Středí hodota a rozptyl průměru Z m = X m i Y i ) jsou ) E Z m = E X i Y i ) = m m m E X i Y i ) = µ µ, 3

var Z = m m varx i Y i ) + m = σ + σ σ σ ρ, m m m covx i Y i,x j Y j ) protože z ezávislosti X i, X j, i j a z ezávislosti X i, Y j, i j plye m m covx i Y i,x j Y j ) = j= i j = m j= i j m covx i,x j ) + covy i,y j ) covy i,x j ) covx i,y j )) = 0 j= i j 6 Testová statistika Situaci jsme převedli a ásledující model: X,,X k je áhodý výběr z Nµ,σ), Y,,Y l je áhodý výběr z Nµ,σ) a Z,,Z m je áhodý výběr z Nµ µ,σ + σ σ σ ρ) Tyto tři výběry jsou avzájem ezávislé Ozačme σ3 := σ + σ σ σ ρ Jelikož X Ȳ + Z σ k + σ l + σ 3 m N0,), odhademe rozptyly σ, σ, σ3 opět jejich výběrovými rozptyly SX, S Y, S Z a dostaeme statistiku X R = Ȳ + Z 6) SXk + S + Yl S Zm Pokud jmeovatel bude mít χ t rozděleí z věty rozděleí, pak testová statistika R bude mít 63 Rozděleí R Odvodíme přibližé rozděleí statistiky 6 Jelikož postup kopíruje postup v kapitole 3, ebudeme už ho ukazovat celý, je azačíme kroky, ve kterých se liší Necht η = S X U = k ), η σ = S Y X Ȳ + Z σ k + σ l + σ 3 m, l ), η σ 3 = S Z m ) σ3 kde U N0,), η, η, η 3 mají rozděleí χ s k, l a m stupi volosti a všechy veličiy jsou ezávislé Pak 6) můžeme psát jako R = U aη + bη + cη 3 =: U W, 6) 4

kde a, b, c jsou kostaty závisející a k, l, m a σ i, i =,,3 Opět použijeme aproximaci hustotou 33), jejíž momety musí souhlasit s momety 6) Pro momety W platí µ = af + bf + cf 3, µ = a f + b f + c f 3 ), kde místo k, l, m píšeme f, f, f 3 Porováím mometů zjistíme, že g = a f + b f + c f 3 af + bf + cf 3, f = af + bf + cf 3 ) a f + b f + c f 3 63) Z 6) dostáváme, že Z ct f, kde c = fg = af + bf + cf 3, a t f má t rozděleí o f stupích volosti, kde f se spočítá z rovic 63): a = σ kk ) σ + σ k l + σ 3 m ), b = σ ll ) σ + σ k l + σ 3 m ), c = σ 3 mm ) σ + σ k l + σ 3 m ), f = ) σ + σ k l + σ 3 m σ 4 k k ) + σ4 l l ) + σ4 3 m m ), c = 64) Nyí potřebujeme ahradit ezámé rozptyly Můžeme použít dva způsoby, které jsme si uvedli v kapitole 5 Zde uvedeme postup, který ukázal Satterthwaite 94), tedy místo ezámých rozptylů σ, σ, σ3 dosadíme do rovice 64) výběrové rozptyly SX, S Y, S Z Víme, že X R = Ȳ + Z SX k + S Y l + S Z m má přibližě t rozděleí o f R stupích volosti, kde f R = S X k + S Y l + S Z m ) S 4 X k k ) + S4 Y + l l ) S4 Z m m ) Máme testovat H 0 : µ = µ proti H : µ µ Pokud R t fr, zamíteme hypotézu H 0 a hladiě α 5

Závěr Na závěr uvedeme přehled testů, které jsme v této práci odvodili Test Studetův, Welchův a Satterwaithův jsou běžě používaé dešími statistiky Sezam těchto tradičích testů je rozšíře o test se statistikou R, což je speciálí případ párového testu s chybějícími daty Byl odvoze podobým způsobem, jako Welch 938) odvodil svůj test V tabulce 6 vždy testujeme H 0 : µ = µ proti H : µ µ V prvím sloupci je uvedeo, jaký model testujeme V dalším je statistika, která má vždy t f rozděleí, kde f je ve třetím sloupci Pro zkráceí je v posledím řádku substituováo µ 3 = µ µ, σ 3 = σ + σ ρσ σ Model Statistika f X,,X Nµ,σ ) X Ȳ T = Y S X )+S Y ) ),,Y Nµ,σ ) + + + X,,X Nµ,σ) Y,,Y Nµ,σ) Satterthwaitův test X,,X Nµ,σ) Y,,Y Nµ,σ) Welchův test X,,X k Nµ,σ) Y,,Y l Nµ,σ) Z,,Z k Nµ 3,σ3) V = V = R = X Ȳ S X + S Y X Ȳ S X + S Y X Ȳ + Z S X k + S Y l + S Z m ) S X + S Y S X 4 + S4 Y ) ) ) S X + S Y S X 4 + S4 Y +) ) S X k + S Y l + S Z m +) S X 4 k + S4 Y k ) l + S4 Z l ) m m ) Tabulka 6: Tabulka pro dvouvýběrové testy 6

Literatura Aděl, J 998) Statistické metody Druhé přepracovaé vydáí Matfyzpress, Praha ISBN 80-85863-7-8 Aděl, J 0) Základy matematické statistiky Třetí vydáí Matfyzpress, Praha ISBN 978-80-7378-6-0 Satterthwaite, F 94) Sythesis of variace Psychometrika, 6, 309 36 Studet 908) O the probable error of the mea Biometrika, 6, 5 Welch, B 938) The sigificace of the differece betwee two meas whe the populatio variaces are uequal Biometrika, 9, 350 36 Welch, B 947) The geeralizatio of Studet s problem whe several differet populatio variaces are ivolved Biometrika, 34, 8 35 7