Bootstrap - konfidenční intervaly a testy

Podobné dokumenty
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

15. T e s t o v á n í h y p o t é z

Intervalové Odhady Parametrů

15. T e s t o v á n í h y p o t é z

5. T e s t o v á n í h y p o t é z

Testování statistických hypotéz

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PRAVDĚPODOBNOST A STATISTIKA

7. Analýza rozptylu.

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Jednostranné intervaly spolehlivosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

5 Parametrické testy hypotéz

Ing. Michael Rost, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

12. cvičení z PST. 20. prosince 2017

Příklad datového souboru. Pravděpodobnost vs. statistika. Formální definice. Teorie odhadu

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

6. T e s t o v á n í h y p o t é z

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Normální (Gaussovo) rozdělení

Bodové a intervalové odhady parametrů v regresním modelu

Deskriptivní statistické metody II. Míry polohy Míry variability

Pravděpodobnost a statistika

Příklady na testy hypotéz o parametrech normálního rozdělení

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

8. Normální rozdělení

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Intervalové Odhady Parametrů II Testování Hypotéz

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Přednáška X. Testování hypotéz o kvantitativních proměnných

12. prosince n pro n = n = 30 = S X

Vybrané partie z biostatistiky

Základy teorie odhadu parametrů bodový odhad

Statistika pro každého. Párový test Test shody dvou rozptylů Dvouvýběrový t-test Porovnání středních hodnot při nestejných rozptylech

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Testování hypotéz o parametrech regresního modelu

Charakteristika datového souboru

Výběrové charakteristiky a jejich rozdělení

Testování hypotéz o parametrech regresního modelu

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

prosince oboustranný symetrický 95% interval spolehlivosti pro střední hodnotu životnosti τ. X i. X = 1 n.. Podle CLV má veličina

diskriminaci žen letní semestr = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

Testy. Pavel Provinský. 19. listopadu 2013

Odhad parametrů N(µ, σ 2 )

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Přijímací zkouška na navazující magisterské studium 2014

Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

STATISTICKÉ ZJIŠŤOVÁNÍ

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Odhad parametrů N(µ, σ 2 )

Odhady Parametrů Lineární Regrese

Testování statistických hypotéz. Obecný postup

KGG/STG Statistika pro geografy

Přijímací zkouška na navazující magisterské studium 2017

Normální rozložení a odvozená rozložení

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Normální (Gaussovo) rozdělení

STATISTICKÉ TESTY VÝZNAMNOSTI

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Cvičení ze statistiky - 8. Filip Děchtěrenko

Charakterizace rozdělení

ODHADY NÁVRATOVÝCH HODNOT

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Pravděpodobnost a statistika

Intervalová data a výpočet některých statistik

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

NMFM301 Statistika pro finanční matematiky. Michal Kulich

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Pravděpodobnost a aplikovaná statistika

Regresní analýza 1. Regresní analýza

Matematická statistika Zimní semestr Testy o proporci

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Návrh a vyhodnocení experimentu

Transkript:

9. prosince 2008

Konfidenční intervaly obecně Máme data X 1...X n F,(iid), kde F neznáme.

Konfidenční intervaly obecně Máme data X 1...X n F,(iid), kde F neznáme. Chceme odhadnout θ = t(f), např. t(f) = E F (X)

Konfidenční intervaly obecně Máme data X 1...X n F,(iid), kde F neznáme. Chceme odhadnout θ = t(f), např. t(f) = E F (X) Plug-in odhad ˆθ = t(ˆf), kde ˆF je odhad d.f.

Konfidenční intervaly obecně Máme data X 1...X n F,(iid), kde F neznáme. Chceme odhadnout θ = t(f), např. t(f) = E F (X) Plug-in odhad ˆθ = t(ˆf), kde ˆF je odhad d.f. Dá se vyjádřit t(ˆf) = s(x), např. X n pro průměr.

Konfidenční intervaly obecně Máme data X 1...X n F,(iid), kde F neznáme. Chceme odhadnout θ = t(f), např. t(f) = E F (X) Plug-in odhad ˆθ = t(ˆf), kde ˆF je odhad d.f. Dá se vyjádřit t(ˆf) = s(x), např. X n pro průměr. Hodí se nám se F (ˆθ) = var F (ˆθ)

Konfidenční intervaly obecně Máme data X 1...X n F,(iid), kde F neznáme. Chceme odhadnout θ = t(f), např. t(f) = E F (X) Plug-in odhad ˆθ = t(ˆf), kde ˆF je odhad d.f. Dá se vyjádřit t(ˆf) = s(x), např. X n pro průměr. Hodí se nám se F (ˆθ) = var F (ˆθ) Pro N(µ,σ 2 ) máme se(x n ) = var(x n ) = σ/ n

Konfidenční intervaly obecně Máme data X 1...X n F,(iid), kde F neznáme. Chceme odhadnout θ = t(f), např. t(f) = E F (X) Plug-in odhad ˆθ = t(ˆf), kde ˆF je odhad d.f. Dá se vyjádřit t(ˆf) = s(x), např. X n pro průměr. Hodí se nám se F (ˆθ) = var F (ˆθ) Pro N(µ,σ 2 ) máme se(x n ) = var(x n ) = σ/ n Odhad se(ˆθ) ˆ = var(ˆθ) ˆ

Konfidenční intervaly obecně Máme data X 1...X n F,(iid), kde F neznáme. Chceme odhadnout θ = t(f), např. t(f) = E F (X) Plug-in odhad ˆθ = t(ˆf), kde ˆF je odhad d.f. Dá se vyjádřit t(ˆf) = s(x), např. X n pro průměr. Hodí se nám se F (ˆθ) = var F (ˆθ) Pro N(µ,σ 2 ) máme se(x n ) = var(x n ) = σ/ n Odhad se(ˆθ) ˆ = var(ˆθ) ˆ V normálním případě se(x ˆ 1 n ) = n 1 (Xi X n ) 2 / n

Konfidenční intervaly obecně Z CLV dostaneme za určitých předpokladů aproximaci ˆθ θ N(0, 1) se(ˆθ) ˆ

Konfidenční intervaly obecně Z CLV dostaneme za určitých předpokladů aproximaci ˆθ θ N(0, 1) se(ˆθ) ˆ popř. ˆθ θ se(ˆθ) ˆ t n 1

Konfidenční intervaly obecně Z CLV dostaneme za určitých předpokladů aproximaci ˆθ θ N(0, 1) se(ˆθ) ˆ popř. ˆθ θ se(ˆθ) ˆ t n 1 tedy přibližný konfidenční interval: P F (θ [ˆθ t n 1 (1 α/2) ˆ se(ˆθ), ˆθ t n 1 (α/2) ˆ se(ˆθ)]) =1 α

Konfidenční intervaly obecně Z CLV dostaneme za určitých předpokladů aproximaci ˆθ θ N(0, 1) se(ˆθ) ˆ popř. ˆθ θ se(ˆθ) ˆ t n 1 tedy přibližný konfidenční interval: P F (θ [ˆθ t n 1 (1 α/2) ˆ se(ˆθ), ˆθ t n 1 (α/2) ˆ se(ˆθ)]) =1 α Pro odhad střední hodnoty v normálním rozdělení ˆθ = X n jsou konfidenční intervaly přesné

Bootstrap-t konfidenční intervaly Chceme odhadnout θ = t(f), řekněmě že můžeme zapsat ˆθ = s(x)

Bootstrap-t konfidenční intervaly Chceme odhadnout θ = t(f), řekněmě že můžeme zapsat ˆθ = s(x) Odhadneme F (parametricky jako Fˆϑ nebo jako empirickou d.f. ˆF )

Bootstrap-t konfidenční intervaly Chceme odhadnout θ = t(f), řekněmě že můžeme zapsat ˆθ = s(x) Odhadneme F (parametricky jako Fˆϑ nebo jako empirickou d.f. ˆF ) Generujeme bootstrapové výběry x b, b = 1...B

Bootstrap-t konfidenční intervaly Chceme odhadnout θ = t(f), řekněmě že můžeme zapsat ˆθ = s(x) Odhadneme F (parametricky jako Fˆϑ nebo jako empirickou d.f. ˆF ) Generujeme bootstrapové výběry x b, b = 1...B Pro každé b = 1...B spočítáme ˆθ (b) = s(x b)

Bootstrap-t konfidenční intervaly Chceme odhadnout θ = t(f), řekněmě že můžeme zapsat ˆθ = s(x) Odhadneme F (parametricky jako Fˆϑ nebo jako empirickou d.f. ˆF ) Generujeme bootstrapové výběry x b, b = 1...B Pro každé b = 1...B spočítáme ˆθ (b) = s(x b) a ˆ se (ˆθ (b)) = var ˆ ˆθ (b)

Bootstrap-t konfidenční intervaly Vyrobíme studentizované hodnoty Z (b) = ˆθ (b) ˆθ ˆ se (ˆθ (b)) kde ˆθ je odhad z původních dat X 1...X n

Bootstrap-t konfidenční intervaly Vyrobíme studentizované hodnoty Z (b) = ˆθ (b) ˆθ ˆ se (ˆθ (b)) kde ˆθ je odhad z původních dat X 1...X n Napočítáme percentily Z (b) #{Z (b) ˆt α }/B = α

Bootstrap-t konfidenční intervaly Vyrobíme studentizované hodnoty Z (b) = ˆθ (b) ˆθ ˆ se (ˆθ (b)) kde ˆθ je odhad z původních dat X 1...X n Napočítáme percentily Z (b) #{Z (b) ˆt α }/B = α odtud bootstrap-t konfidenční intervaly (ˆθ ˆt 1 α/2 ˆ se, ˆθ ˆt α/2 ˆ se)

Percentilové bootstrapové konfidenční intervaly Vyrobíme bootstrapové výběry x b, b = 1...B pro každé b spočtem ˆθ b = s(x b ) označíme Ĝ empirickou distribuční funkci ˆθ b

Percentilové bootstrapové konfidenční intervaly Vyrobíme bootstrapové výběry x b, b = 1...B pro každé b spočtem ˆθ b = s(x b ) označíme Ĝ empirickou distribuční funkci ˆθ b Percentilovým bootstrapovým konfidenčním intervalem o spolehlivosti α pak myslíme (Ĝ 1 (α/2), Ĝ 1 (1 α/2)) kde Ĝ 1 (u) = inf(x : Ĝ(x) u) jsou empirické kvantily v obvyklém smyslu.

Příklad - porovnání Máme data o myších - délka dožití po experimentální operaci (Efron, 1993) a chceme odhadnout střední hodnotu X = (10, 27, 31, 40, 46, 50, 52, 104, 146)

Příklad - porovnání Máme data o myších - délka dožití po experimentální operaci (Efron, 1993) a chceme odhadnout střední hodnotu X = (10, 27, 31, 40, 46, 50, 52, 104, 146) Ukáže se, že můžeme předpokládat nomalitu na hladině 0.05. Zkonstruujeme konfidenční intervaly pro hladinu α = 0.05:

Příklad - porovnání Máme data o myších - délka dožití po experimentální operaci (Efron, 1993) a chceme odhadnout střední hodnotu X = (10, 27, 31, 40, 46, 50, 52, 104, 146) Ukáže se, že můžeme předpokládat nomalitu na hladině 0.05. Zkonstruujeme konfidenční intervaly pro hladinu α = 0.05: Přibližný interval (X ± u(α/2)ˆσ/ n): (32.97, 79.48)

Příklad - porovnání Máme data o myších - délka dožití po experimentální operaci (Efron, 1993) a chceme odhadnout střední hodnotu X = (10, 27, 31, 40, 46, 50, 52, 104, 146) Ukáže se, že můžeme předpokládat nomalitu na hladině 0.05. Zkonstruujeme konfidenční intervaly pro hladinu α = 0.05: Přibližný interval (X ± u(α/2)ˆσ/ n): (32.97, 79.48) interval z t-rozdělení (X ± t n 1 (α/2)ˆσ/ n): (23.62, 88.83)

Příklad - porovnání Máme data o myších - délka dožití po experimentální operaci (Efron, 1993) a chceme odhadnout střední hodnotu X = (10, 27, 31, 40, 46, 50, 52, 104, 146) Ukáže se, že můžeme předpokládat nomalitu na hladině 0.05. Zkonstruujeme konfidenční intervaly pro hladinu α = 0.05: Přibližný interval (X ± u(α/2)ˆσ/ n): (32.97, 79.48) interval z t-rozdělení (X ± t n 1 (α/2)ˆσ/ n): (23.62, 88.83) Bootstrap-t interval (X ˆt(α/2)ˆσ/ n, X ˆt(1 α/2)ˆσ/ n) (31.80, 126.33)

Příklad - porovnání Máme data o myších - délka dožití po experimentální operaci (Efron, 1993) a chceme odhadnout střední hodnotu X = (10, 27, 31, 40, 46, 50, 52, 104, 146) Ukáže se, že můžeme předpokládat nomalitu na hladině 0.05. Zkonstruujeme konfidenční intervaly pro hladinu α = 0.05: Přibližný interval (X ± u(α/2)ˆσ/ n): (32.97, 79.48) interval z t-rozdělení (X ± t n 1 (α/2)ˆσ/ n): (23.62, 88.83) Bootstrap-t interval (X ˆt(α/2)ˆσ/ n, X ˆt(1 α/2)ˆσ/ n) (31.80, 126.33) Bootstrapový percentilový interval (ˆθ B (α/2), ˆθ B (1 α/2)) (34.21, 85.44)

bootstrap-t konfidenční intervaly - transformace Pro střední hodnotu odhadneme se ˆ (b) = ˆσ (b)/ 1 n n = n 1 i=1 (x b i x b) 2 / n snadno, jindy ne tak snadné.

bootstrap-t konfidenční intervaly - transformace Pro střední hodnotu odhadneme se ˆ (b) = ˆσ (b)/ 1 n n = n 1 i=1 (x b i x b) 2 / n snadno, jindy ne tak snadné. Potřeba pro každé b vyrobit B 2 bootstrapových výběrů z x b se ˆ (b) = 1 B 2 (ˆθ b1 B 2 1 ˆθ B1) 2 b1=1

bootstrap-t konfidenční intervaly - transformace Pro střední hodnotu odhadneme se ˆ (b) = ˆσ (b)/ 1 n n = n 1 i=1 (x b i x b) 2 / n snadno, jindy ne tak snadné. Potřeba pro každé b vyrobit B 2 bootstrapových výběrů z x b se ˆ (b) = 1 B 2 (ˆθ b1 B 2 1 ˆθ B1) 2 b1=1 Ulehčení: transformace stabilizující rozptyl: obecně když máme Y (θ, r(θ) 2 ) a vezmeme takovou monotónní funkci g, že g (θ) = 1 r(θ), bude rozptyl n.veličiny Z = g(y) přibližně konstantní (v θ) (důkaz pomocí delta-metody)

bootstrap-t konfidenční intervaly - transformace Použití v bootstrapu: místo θ zkoumáme φ = g(θ)

bootstrap-t konfidenční intervaly - transformace Použití v bootstrapu: místo θ zkoumáme φ = g(θ) Algoritmus: generuj x b, b = 1...B 1, vyrob ˆθ (b) generuj B 2 bootstrapových výběrů z kadého x b, b = 1...B 1, vyrob se(ˆθ ˆ (b))

bootstrap-t konfidenční intervaly - transformace Použití v bootstrapu: místo θ zkoumáme φ = g(θ) Algoritmus: generuj x b, b = 1...B 1, vyrob ˆθ (b) generuj B 2 bootstrapových výběrů z kadého x b, b = 1...B 1, vyrob se(ˆθ ˆ (b)) z grafu [ˆθ (b), se(ˆθ ˆ (b))] získat r(u) = se(ˆθ θ = u) a funkci g

bootstrap-t konfidenční intervaly - transformace Použití v bootstrapu: místo θ zkoumáme φ = g(θ) Algoritmus: generuj x b, b = 1...B 1, vyrob ˆθ (b) generuj B 2 bootstrapových výběrů z kadého x b, b = 1...B 1, vyrob se(ˆθ ˆ (b)) z grafu [ˆθ (b), se(ˆθ ˆ (b))] získat r(u) = se(ˆθ θ = u) a funkci g generuj nové x b, b = 1...B 3 vyrob Z g (b) = ˆφ (b) ˆφ ˆ se(ˆθ (b))

bootstrap-t konfidenční intervaly - transformace Použití v bootstrapu: místo θ zkoumáme φ = g(θ) Algoritmus: generuj x b, b = 1...B 1, vyrob ˆθ (b) generuj B 2 bootstrapových výběrů z kadého x b, b = 1...B 1, vyrob se(ˆθ ˆ (b)) z grafu [ˆθ (b), se(ˆθ ˆ (b))] získat r(u) = se(ˆθ θ = u) a funkci g generuj nové x b, b = 1...B 3 vyrob Z g (b) = ˆφ (b) ˆφ ˆ se(ˆθ (b)) z Z g (b) bootstrap-t konfidenční intervaly pro φ

bootstrap-t konfidenční intervaly - transformace Použití v bootstrapu: místo θ zkoumáme φ = g(θ) Algoritmus: generuj x b, b = 1...B 1, vyrob ˆθ (b) generuj B 2 bootstrapových výběrů z kadého x b, b = 1...B 1, vyrob se(ˆθ ˆ (b)) z grafu [ˆθ (b), se(ˆθ ˆ (b))] získat r(u) = se(ˆθ θ = u) a funkci g generuj nové x b, b = 1...B 3 vyrob Z g (b) = ˆφ (b) ˆφ ˆ se(ˆθ (b)) z Z g (b) bootstrap-t konfidenční intervaly pro φ konfidenční intervaly pro θ = g 1 (φ)

percentilové konfidenční intervaly - transformace Lemma: Předpokládejme, že existuje transformace ˆφ = m(ˆθ), která normalizuje rozdělení ˆθ, tj. ˆφ N(φ, c 2 ). Pak percentilový konfidenční interval založen na ˆθ je shodný s intervalem (m 1 (ˆφ u(1 α/2)c, m 1 (ˆφ u(α/2)c))

Dvouvýběrové testy Situace: mějme dva nezávislé výběry: X 1,..., X n F Y 1,..., Y m G

Dvouvýběrové testy Situace: mějme dva nezávislé výběry: X 1,..., X n F Y 1,..., Y m G chceme testovat H 0 : F G

Permutační test Můžem vzít permutační test s testovou statistikou ˆθ = ˆθ(X, Y):

Permutační test Můžem vzít permutační test s testovou statistikou ˆθ = ˆθ(X, Y): seřadíme data do (Z 1,..., Z N ) (N = m + n) vyrobíme vektor Z permutací složek Z je n! možností jak může Z vypadat.

Permutační test Můžem vzít permutační test s testovou statistikou ˆθ = ˆθ(X, Y): seřadíme data do (Z 1,..., Z N ) (N = m + n) vyrobíme vektor Z permutací složek Z je n! možností jak může Z vypadat. prvních n prvků Z označme X, zbylých m označíme Y bude ( N n) možností jak může X a Y vypadat za platnosti H 0 jsou všechny stejně pravděpodobné

Permutační test Můžem vzít permutační test s testovou statistikou ˆθ = ˆθ(X, Y): seřadíme data do (Z 1,..., Z N ) (N = m + n) vyrobíme vektor Z permutací složek Z je n! možností jak může Z vypadat. prvních n prvků Z označme X, zbylých m označíme Y bude ( N n) možností jak může X a Y vypadat za platnosti H 0 jsou všechny stejně pravděpodobné vyrobme ze složek Z vektory Z (b), b = 1...B spočtem ˆθ (b) = ˆθ(X (b), Y (b))

Permutační test Můžem vzít permutační test s testovou statistikou ˆθ = ˆθ(X, Y): seřadíme data do (Z 1,..., Z N ) (N = m + n) vyrobíme vektor Z permutací složek Z je n! možností jak může Z vypadat. prvních n prvků Z označme X, zbylých m označíme Y bude ( N n) možností jak může X a Y vypadat za platnosti H 0 jsou všechny stejně pravděpodobné vyrobme ze složek Z vektory Z (b), b = 1...B spočtem ˆθ (b) = ˆθ(X (b), Y (b)) pval = #(ˆθ (b) ˆθ) B

Bootstrapový test F G Použijeme testovou statistiku ˆθ = ˆθ(X, Y): seřadíme data do (Z 1,..., Z N ) (N = m + n)

Bootstrapový test F G Použijeme testovou statistiku ˆθ = ˆθ(X, Y): seřadíme data do (Z 1,..., Z N ) (N = m + n) nagenerujem Z (b) = (Z1 (b),..., Z N (b)), b = 1...B ze Z (bootstrap, s opakováním) označme vždy X (b) prvních n prvků Z (b) a Y (b) zbylých m prvků označíme Z (b)

Bootstrapový test F G Použijeme testovou statistiku ˆθ = ˆθ(X, Y): seřadíme data do (Z 1,..., Z N ) (N = m + n) nagenerujem Z (b) = (Z1 (b),..., Z N (b)), b = 1...B ze Z (bootstrap, s opakováním) označme vždy X (b) prvních n prvků Z (b) a Y (b) zbylých m prvků označíme Z (b) spočtem ˆθ (b) = ˆθ(X (b), Y (b)), b = 1..B pval = #(ˆθ (b) ˆθ) B

Bootstrapový test F G Můžeme např. použít ˆθ(Z) = X Y pro detekci změny v poloze (F(x) = G(x µ), µ > 0)

Bootstrapový test F G Můžeme např. použít ˆθ(Z) = X Y pro detekci změny v poloze (F(x) = G(x µ), µ > 0) nebo ˆθ(Z) = X Y pro oboustrannou alternativu

Bootstrapový test F G Můžeme např. použít ˆθ(Z) = X Y pro detekci změny v poloze (F(x) = G(x µ), µ > 0) nebo ˆθ(Z) = X Y pro oboustrannou alternativu nebo ˆσ X /ˆσ Y resp. log ˆσ X /ˆσ Y pro alternativu změny měřítka

Bootstrapový test F G Můžeme např. použít ˆθ(Z) = X Y pro detekci změny v poloze (F(x) = G(x µ), µ > 0) nebo ˆθ(Z) = X Y pro oboustrannou alternativu nebo ˆσ X /ˆσ Y resp. log ˆσ X /ˆσ Y pro alternativu změny měřítka případně studentizovanou statistiku X n Y m σ 1/n + 1/m kde σ = [ n i=1 (X i X n ) 2 + m i=1 (Y i Y m ) 2 ]/[n + m 2] (testová statistika dvouvýběrového t-testu)

Bootstrapový test rovnosti středních hodnot předpokládejme normalitu dat jedna možnost: použít testovou statistiku dvouvýběrového t-testu nevýhoda: předpokládá rovnost rozptylů

Bootstrapový test rovnosti středních hodnot předpokládejme normalitu dat jedna možnost: použít testovou statistiku dvouvýběrového t-testu nevýhoda: předpokládá rovnost rozptylů alternativa: použít testovou statistiku X n Y m σ 21 /n + σ22 /m, kde σ 2 1 = n i=1 (X i X n ) 2 /(n 1) a σ 2 2 = m i=1 (Y i Y m ) 2 /(m 1)

Bootstrapový test rovnosti středních hodnot předpokládejme normalitu dat jedna možnost: použít testovou statistiku dvouvýběrového t-testu nevýhoda: předpokládá rovnost rozptylů alternativa: použít testovou statistiku X n Y m σ 21 /n + σ22 /m, kde σ 2 1 = n i=1 (X i X n ) 2 /(n 1) a σ 2 2 = m i=1 (Y i Y m ) 2 /(m 1) nemá t-rozdělení (Behrens-Fisherův problém)

Bootstrapový test rovnosti středních hodnot algoritmus: označme x i = x i x n + z N, i = 1..n a ỹ i = y i y m + z N, i = 1..m

Bootstrapový test rovnosti středních hodnot algoritmus: označme x i = x i x n + z N, i = 1..n a ỹ i = y i y m + z N, i = 1..m Generujme (x (b), y (b)) kde x (b) jsou bootstrapové výběry z x a y (b) jsou bootstrapové výběry z ỹ

Bootstrapový test rovnosti středních hodnot algoritmus: označme x i = x i x n + z N, i = 1..n a ỹ i = y i y m + z N, i = 1..m Generujme (x (b), y (b)) kde x (b) jsou bootstrapové výběry z x a y (b) jsou bootstrapové výběry z ỹ spočtem ˆθ (b) = x n(b) ỹ m (b) σ 21 (b)/n + σ22 (b)/m, b = 1..B pval = #(ˆθ (b) ˆθ) B

Příklad Bootstrap - konfidenční intervaly Máme opět data o myších, na prvních provedli operaci, na druhých ne X = (16, 23, 38, 94, 99, 141, 197) Y = (10, 27, 31, 40, 46, 50, 52, 104, 146)

Příklad Bootstrap - konfidenční intervaly Máme opět data o myších, na prvních provedli operaci, na druhých ne X = (16, 23, 38, 94, 99, 141, 197) Y = (10, 27, 31, 40, 46, 50, 52, 104, 146) P-hodnoty jednotlivých testů: (jednostranná alternativa) permutační 0.141 neparametrický bootstrap 0.125 bootstrap pro stř. hodnoty 0.146 dvouvýběrový t-test 0.158

Jednovýběrové testy Mějme náhodný výběr X 1,..., X n předpokládejme normalitu dat, testujme H 0 : µ = µ 0

Jednovýběrové testy Mějme náhodný výběr X 1,..., X n předpokládejme normalitu dat, testujme H 0 : µ = µ 0 Můžeme použít jednovýběrový t-test - testová statistika: ˆθ(X) = X n µ 0 n σ má za platnosti H 0 t-rozdělení o n 1 stupních volnosti

Jednovýběrové testy Bootstrapový přístup: vyrobíme bootstrapové výběry X (b) = (X 1 (b),..., X n (b)), b = 1...B

Jednovýběrové testy Bootstrapový přístup: vyrobíme bootstrapové výběry X (b) = (X 1 (b),..., X n (b)), b = 1...B spočteme statistiky ˆθ (X(b)) = X n(b) X n n σ (b)

Jednovýběrové testy Bootstrapový přístup: vyrobíme bootstrapové výběry X (b) = (X 1 (b),..., X n (b)), b = 1...B spočteme statistiky ˆθ (X(b)) = X n(b) X n n σ (b) p-hodnota pro jednostrannou alternativu µ > µ 0 pak je pval = #(ˆθ (X(b)) > ˆθ(X)). B

Jednovýběrové testy Bootstrapový přístup: vyrobíme bootstrapové výběry X (b) = (X 1 (b),..., X n (b)), b = 1...B spočteme statistiky ˆθ (X(b)) = X n(b) X n n σ (b) p-hodnota pro jednostrannou alternativu µ > µ 0 pak je pval = #(ˆθ (X(b)) > ˆθ(X)). B Pro oboustrannou alternativu vzít absolutní hodnoty z testových statistik.

Jednovýběrové testy Srovnejme provedení jednovýběrový bootstrapový test s konstrukcí bootstrapového konfidenčního intervalu.

Jednovýběrové testy Srovnejme provedení jednovýběrový bootstrapový test s konstrukcí bootstrapového konfidenčního intervalu. konfidenční interval pomocí percentilů statistiky X n(b) X n n, σ (b) je tvořen takovými hodnotami µ 0, které tento bootstrapový test nezamítne

Příklad Bootstrap - konfidenční intervaly Máme opět data o myších. Někdo jiný provedl na svých myších operaci, a vyšla mu průměrná doba dožití 129.

Příklad Bootstrap - konfidenční intervaly Máme opět data o myších. Někdo jiný provedl na svých myších operaci, a vyšla mu průměrná doba dožití 129. To nám přijde hodně, protože naše myši se dožily: X = (16, 23, 38, 94, 99, 141, 197)

Příklad Bootstrap - konfidenční intervaly Máme opět data o myších. Někdo jiný provedl na svých myších operaci, a vyšla mu průměrná doba dožití 129. To nám přijde hodně, protože naše myši se dožily: X = (16, 23, 38, 94, 99, 141, 197) p-hodnoty jednotlivých testů: (jednostranná alternativa) bootstrapový test 0.10 jednovýběrový t-test 0.07

Literatura Bootstrap - konfidenční intervaly Efron B., Tibshirani R.J.:An Introduction to the Bootstrap, Chapman&Hall, 1993

Literatura Bootstrap - konfidenční intervaly Efron B., Tibshirani R.J.:An Introduction to the Bootstrap, Chapman&Hall, 1993 Konec