Návrhy experimentů v neparametrické regresi

Podobné dokumenty
Ústav matematiky a statistiky Masarykova univerzita Brno. workshopy Finanční matematika v praxi III Matematické modely a aplikace Podlesí

AVDAT Nelineární regresní model

Odhady Parametrů Lineární Regrese

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

AVDAT Klasický lineární model, metoda nejmenších

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Testy dobré shody pro časové řady s diskrétními veličinami

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

4EK211 Základy ekonometrie

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Charakterizace rozdělení

Odhad parametrů N(µ, σ 2 )

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Lineární a logistická regrese

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Intervalové Odhady Parametrů

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

PRAVDĚPODOBNOST A STATISTIKA

AVDAT Mnohorozměrné metody, metody klasifikace

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Prostorová variabilita

odpovídá jedna a jen jedna hodnota jiných

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

4EK211 Základy ekonometrie

Odhad parametrů N(µ, σ 2 )

PRAVDĚPODOBNOST A STATISTIKA

Bodové a intervalové odhady parametrů v regresním modelu

5EN306 Aplikované kvantitativní metody I

STATISTICKÉ ODHADY Odhady populačních charakteristik

Tomáš Karel LS 2012/2013

PRAVDĚPODOBNOST A STATISTIKA

Regresní analýza. Eva Jarošová

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

7. Analýza rozptylu.

Intervalová data a výpočet některých statistik

15. T e s t o v á n í h y p o t é z

Regresní a korelační analýza

Normální (Gaussovo) rozdělení

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

PRAVDĚPODOBNOST A STATISTIKA

Inovace bakalářského studijního oboru Aplikovaná chemie

4EK211 Základy ekonometrie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

LWS při heteroskedasticitě

Chyby měření 210DPSM

Zákony hromadění chyb.

4EK211 Základy ekonometrie

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

Regresní a korelační analýza

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

Pravděpodobnost a matematická statistika

5EN306 Aplikované kvantitativní metody I

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistika (KMI/PSTAT)

4EK211 Základy ekonometrie

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

12. cvičení z PST. 20. prosince 2017

4EK211 Základy ekonometrie

ODHADY VARIABILITY POSLOUPNOSTÍ

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

6. Lineární regresní modely

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

15. T e s t o v á n í h y p o t é z

Kontingenční tabulky, korelační koeficienty

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

AVDAT Geometrie metody nejmenších čtverců

Regresní a korelační analýza

Pravděpodobnost a aplikovaná statistika

Klasická a robustní ortogonální regrese mezi složkami kompozice

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

KGG/STG Statistika pro geografy

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

u Pacova Metoda pro validaci koncentrace přízemního ozónu kontinuálně měřené na Atmosférické 1 / 23sta

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36

Náhodné (statistické) chyby přímých měření

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Teorie náhodných matic aneb tak trochu jiná statistika

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Náhodné chyby přímých měření

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Výběrové charakteristiky a jejich rozdělení

Transkript:

Návrhy eperimentů v neparametrické regresi Zdeněk Hlávka Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky 2.5.2012 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 1 / 25

Návrhy eperimentů v neparametrické regresi Parametrická (lineární) regrese: problémy při chybné specifikaci regresní funkce. Neparametrická regrese: odhad regresní funkce, odhad nulových bodů (polohy etrémů), ZH: zobecnění pro slabě závislá pozorování. optimální návrhy eperimentů: přehled literatury (odhady regresní funkce), ZH: návrh eperimentu pro odhad nulového bodu. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 2 / 25

Historická poznámka Lineární regrese (metoda nejmenších čtverců): Legendre (1805) Nouvelles méthodes pour la détermination des orbites des comètes. Gauss (1809) Theoria motus corporum coelestium in sectionibus conicis solem ambientium. Galton (1886) Regression towards mediocrity in hereditary stature. Journ. Anthrop. Inst. 15, 246 263. Neparametrická regrese: Nadaraya (1964), Watson (1964), Gasser & Müller (1984), Fan & Gijbels (1996). Nulové body: Müller (1985), Ziegler (2003), Wieczorek & Ziegler (2010). Optimální návrh eperimentu: H.-G. Müller (1984), Faraway (1990), W.G. Müller (1996), Cheng et al (1998), Fedorov et al (1999), Titterington (2001), Biedermann & Dette (2001a,b), Hlávka (2011, 2012). Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 3 / 25

Regresní model Parametrická regrese Pozorujeme dvojice (X i, Y i ), i = 1,..., n. Předpokládáme, že Y i = m(x i ) + ε i, kde ε i jsou náhodné chyby (Eε i = 0, Varε i = σ 2, X i a ε i nezávislé), a chceme odhadnout funkci m(.). Parametrická regrese: Nejčastěji se předpokládá, že m(.) je lineární a závisí pouze na několika parametrech (lineární model). Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 4 / 25

Parametrická regrese Příklad: simulovaná data 0.0 0.2 0.4 0.6 0.8 1.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 5 / 25

Parametrická regrese Příklad: simulovaná data 0.0 0.2 0.4 0.6 0.8 1.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 5 / 25

Parametrická regrese Příklad: simulovaná data Lineární regrese: Ŷi = α + βx i, i = 1,..., n. 0.0 0.2 0.4 0.6 0.8 1.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 5 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kvadratická regrese: Ŷi = α + β 1 X i + β 2 X 2 i, i = 1,..., n. 0.0 0.2 0.4 0.6 0.8 1.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Parametrická regrese Příklad: simulovaná data Kubická regrese: Ŷi = α + β 1 X i + β 2 X 2 i + β 3 X 3 i, i = 1,..., n. 0.0 0.2 0.4 0.6 0.8 1.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 6 / 25

Neparametrická regrese Neparametrické regresní modely Fleibilní modely, které nevyžadují předpoklady o tvaru regresní funkce: spliny, jádrové vyhlazování (lokálně konstantní a lokálně polynomické), regresní stromy, neuronové sítě atd. Jádrové odhady navrhli Nadaraya (1964) a Watson (1964): n mh NW i=1 () = K h( X i )Y i n i=1 K h( X i ) = n i=1 K h ( X i ) n j=1 K h( X j ) Y i, kde K h () = K(/h)/h, K(.) je jádrová funkce a h je bandwidth. Nadaraya (1964) On estimating regression, Theory of Probability and its Applications 9, 141 142. Watson (1964) Smooth regression analysis, Sankyā A 26, 359 372. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 7 / 25

Neparametrická regrese My se nyní zaměříme na Gasser-Müllerův odhad vhodný pro plánované eperimenty (pevně zvolené i ), ale obdobné výsledky lze odvodit i pro jiné odhady. Gasser-Müllerův odhad m GM h () = n i=1 si s i 1 K h ( u)duy i, kde s i = ( (i) + (i+1) )/2 a K(.) je jádrová funkce řádu (ν, k). Jedná se opět o vážené průměry Y i, protože n i=1 si s i 1 K h ( u)du = K()d = 1. Gasser & Müller (1984) Estimating regression functions and their derivatives by the kernel method, Scand J Statist 11, 171 185. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 8 / 25

Neparametrická regrese 0.0 0.2 0.4 0.6 0.8 1.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 0.0 0.2 0.4 0.6 0.8 1.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 O neparametrické regresi byly napsány desítky monografií. Zajímavý problém: odhad polohy bodů, ve kterých regresní funkce (nebo její derivace) nabývá dané hodnoty. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 9 / 25

Odhad nulových bodů Odhadujeme nulový bod, t.j. polohu bodu, ve kterém funkce m(.) protíná osu. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 10 / 25

Odhad nulových bodů Odhadujeme nulový bod, t.j. polohu bodu, ve kterém funkce m(.) protíná osu. y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 10 / 25

Odhad nulových bodů Odhadujeme nulový bod, t.j. polohu bodu, ve kterém funkce m(.) protíná osu. y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 10 / 25

Odhad nulových bodů Odhadujeme nulový bod, t.j. polohu bodu, ve kterém funkce m(.) protíná osu. y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 10 / 25

Odhad nulových bodů Odhadujeme nulový bod, t.j. polohu bodu, ve kterém funkce m(.) protíná osu. y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 10 / 25

Odhad nulových bodů Neparametrický odhad nulového bodu Neznámý parametr (nulový bod): ξ : m(ξ) = 0 Odhad (empirický nulový bod): ξ n : m GM h (ξ n ) = 0 Vlastnosti ξ n jako odhadu ξ jsou v článku Müller (1985) odvozeny pro iid náhodné chyby. Müller, H.-G. (1985). Kernel estimators of zeros and of location and size of etrema of regression functions, Scand. J. Statist. 12: 221 232. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 11 / 25

Odhad nulových bodů 1 Regresní funkce m(.) je 3 spojitě diferencovatelná, m (ξ) 0. Jádrová funkce K(.) je diferencovatelná a K (.) je Lipschitzovsky spojitá. 2 lim inf n nh3 n > 0, nh 3 n/ log n, ε i jsou iid, Eε i = 0, E ε 1 r < pro nějaké r > 2 a lim inf n h nn 1 2/r / log n > 0. 3 Eistují l < ξ < u, c > 0 a τ 1 takové, že m(.) je ryze monotónní na intervalu l, u a m(t) > c t ξ τ pro t l, u,. Müller (1985), Theorem 3.1: Předpokládejme 1 3 a že body měření i jsou rovnoměrně rozložené na intervalu (0, 1). Pokud nhn 5 d 2 0, pak ( ) (nh n ) 1/2 (ξ n ξ) D N dm(2) (ξ)b 2 σ 2 V m, (ξ) {m (ξ)} 2, kde B 2 = (1/2) K(s)s 2 ds a V = K 2 (s)ds. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 12 / 25

P {( ξ n u 1 α/2 nhn Odhad nulových bodů σ V m (ξ), ξ n + u 1 α/2 σ ) } V nhn m ξ 1 α (ξ) 3 2 1 0 1 y 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 13 / 25

Odhad nulových bodů Závislost na bandwidth h n Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.02 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.04 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.06 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.08 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.10 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.12 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.14 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.16 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.18 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.20 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.22 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.24 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.26 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.28 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Závislost na bandwidth h n bandwidth = 0.30 y 3 2 1 0 1 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 14 / 25

Odhad nulových bodů Optimální bandwidth Teoreticky: asymptoticky optimální bandwidth plyne z porovnání vychýlení (rostoucí funkce h n ) a rozptylu (klesající funkce h n ): konstantní bandwidth h n = O(n 1/(2k+1) ), lokální bandwidth h n () [1/{nf X ()}] 1/(2k+1), kde f X () je hustota měření, lokální bandwidth v heteroskedastickém modelu h n () [σ 2 ()/{nf X ()}] 1/(2k+1). V prai se bandwidth často volí až po ukončení eperimentu (křížové ověřování). Jaká je ale optimální hustota měření f X (.)? Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 15 / 25

Optimální návrh eperimentu Optimální návrhy eperimentů pro odhad m(.) Obvyklé kritérium kvality odhadu: MSE (střední čtvercová chyba). Přehledový článek: Titterington (2001) V literatuře jsou popsány dva různé přístupy: Minimalizace IMSE (integrovaná MSE): Müller (1984), Faraway (1990), Cheng, Hall & Titterington (1998), Biedermann & Dette (2001a,b) Klasický přístup (kritéria optimality): W. G. Müller (1996), Fedorov, Montepiedra & Nachtsheim (1999) Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 16 / 25

Optimální návrh eperimentu Optimální návrhy eperimentů (minimalizace AIMSE) H.-G. Müller (1984). Optimal designs for nonparametric kernel regression, Statistics & Probability Letters 2, 285 290 [ ] Var{m GM ()} = σ2 K 2 (s)ds{f X ()} 1 + o(1) nh n Je-li h(.) kladná a spojitá pravděpodobnostní hustota na 0, 1, pak f X () = h()1/2 h(u) 1/2 du h()1/2 minimalizuje: AIMSE = E {m GM () m()} 2 dh(). Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 17 / 25

Optimální návrh eperimentu Návrhy eperimentů pro odhad nulového bodu V prai často můžeme získat alespoň přibližnou apriorní informaci o poloze nulového bodu (nebo maima) díky: pilotní studii, epertním znalostem a literatuře. Naše očekávání (apriorní informaci) lze vyjádřit pomocí apriorní hustoty a(.) neznámého parametru ξ. Další postup: závislost rozptylu ξ n na hustotě měření (i pro slabě závislá měření) a odvození optimální hustoty měření f X (.). Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 18 / 25

Optimální návrh eperimentu Vlastnosti empirického nulového bodu Zobecnění článku Müller (1985) pro nerovnoměrně rozložené body měření a pro slabě závislé náhodné chyby (motivace: situace, ve kterých po sobě následující měření mohou být závislá). Nástroje: CLV pro nestacionární slabě závislé náhodné veličiny (Peligrad, 1996) a Hoeffdingova nerovnost pro strongly miing posloupnosti náhodných veličin (Roussas, 1996). V heteroskedastickém modelu se slabě závislými náhodnými chybami je ξ n asymptoticky normální a Var ξ n. = σ 2 (ξ)v nh 2ν+1 n {m (ν+1) (ξ)} 2 f X (ξ). Délka konfidenčního intervalu je přímo úměrná σ(ξ)/{f X (ξ)} 1/2. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 19 / 25

Optimální návrh eperimentu Optimální návrh eperimentu V homoskedastickém modelu (σ 2 (.) σ 2 ) lze optimální návrh eperimentu vyjádřit ve tvaru: f X (.) aropt (.). Konstantní bandwidth: r opt (MSE) = 1/2 minimalizuje očekávaný rozptyl Var(ξ n ξ)a(ξ)dξ, r opt (MAD) = 2/3 minimalizuje očekávanou délku konfidenčního intervalu. Lokální bandwidth: r opt (MSE) = (2k + 1)/(4k 2ν + 1) minimalizuje očekávaný rozptyl, r opt (MAD) = (2k + 1)/(3k ν + 1) minimalizuje očekávanou délku konfidenčního intervalu. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 20 / 25

Optimální návrh eperimentu Optimální návrh eperimentu V heteroskedastickém modelu s konstantní bandwidth je optimální návrh eperimentu: f X (.) {σ2 (.)a(.)} 1/2 pro očekávaný rozptyl, f X (.) {σ(.)a(.)}2/3 pro očekávanou délku konfidenčního intervalu. Pro lokální bandwidth: f X (.) {σ2 (.)} (2k 2ν)/(4k 2ν+1) {a(.)} (2k+1)/(4k 2ν+1) minimalizuje očekávaný rozptyl, f X (.) {σ(.)}(2k 2ν)/(3k ν+1) {a(.)} (2k+1)/(3k 2ν+1) minimalizuje očekávanou délku konfidenčního intervalu. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 21 / 25

Simulace Simulace 1 Apriorní rozdělení ξ: a(ξ) = 0.1 + 0.9N(0.4, 0.1 2 ). 2 Regresní funkce: m() = {( + 0.05) 2 (ξ + 0.05) 2 }/( + 0.05). 3 Hustota měření f X () a r (), r 0, 1. 4 Lokální bandwidth h f () = bf 1/5 (), b 0.005, 0.5. a() 0 1 2 3 0.0 0.2 0.4 0.6 0.8 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 22 / 25

y Simulace Simulace 1 Apriorní rozdělení ξ: a(ξ) = 0.1 + 0.9N(0.4, 0.1 2 ). 2 Regresní funkce: m() = {( + 0.05) 2 (ξ + 0.05) 2 }/( + 0.05). 3 Hustota měření f X () a r (), r 0, 1. 4 Lokální bandwidth h f () = bf 1/5 (), b 0.005, 0.5. r = 0.0 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 22 / 25

y Simulace Simulace 1 Apriorní rozdělení ξ: a(ξ) = 0.1 + 0.9N(0.4, 0.1 2 ). 2 Regresní funkce: m() = {( + 0.05) 2 (ξ + 0.05) 2 }/( + 0.05). 3 Hustota měření f X () a r (), r 0, 1. 4 Lokální bandwidth h f () = bf 1/5 (), b 0.005, 0.5. r = 0.1 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 22 / 25

y Simulace Simulace 1 Apriorní rozdělení ξ: a(ξ) = 0.1 + 0.9N(0.4, 0.1 2 ). 2 Regresní funkce: m() = {( + 0.05) 2 (ξ + 0.05) 2 }/( + 0.05). 3 Hustota měření f X () a r (), r 0, 1. 4 Lokální bandwidth h f () = bf 1/5 (), b 0.005, 0.5. r = 0.2 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 22 / 25

y Simulace Simulace 1 Apriorní rozdělení ξ: a(ξ) = 0.1 + 0.9N(0.4, 0.1 2 ). 2 Regresní funkce: m() = {( + 0.05) 2 (ξ + 0.05) 2 }/( + 0.05). 3 Hustota měření f X () a r (), r 0, 1. 4 Lokální bandwidth h f () = bf 1/5 (), b 0.005, 0.5. r = 0.3 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 22 / 25

y Simulace Simulace 1 Apriorní rozdělení ξ: a(ξ) = 0.1 + 0.9N(0.4, 0.1 2 ). 2 Regresní funkce: m() = {( + 0.05) 2 (ξ + 0.05) 2 }/( + 0.05). 3 Hustota měření f X () a r (), r 0, 1. 4 Lokální bandwidth h f () = bf 1/5 (), b 0.005, 0.5. r = 0.4 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 22 / 25

y Simulace Simulace 1 Apriorní rozdělení ξ: a(ξ) = 0.1 + 0.9N(0.4, 0.1 2 ). 2 Regresní funkce: m() = {( + 0.05) 2 (ξ + 0.05) 2 }/( + 0.05). 3 Hustota měření f X () a r (), r 0, 1. 4 Lokální bandwidth h f () = bf 1/5 (), b 0.005, 0.5. r = 0.5 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 22 / 25

y Simulace Simulace 1 Apriorní rozdělení ξ: a(ξ) = 0.1 + 0.9N(0.4, 0.1 2 ). 2 Regresní funkce: m() = {( + 0.05) 2 (ξ + 0.05) 2 }/( + 0.05). 3 Hustota měření f X () a r (), r 0, 1. 4 Lokální bandwidth h f () = bf 1/5 (), b 0.005, 0.5. r = 0.6 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 22 / 25

y Simulace Simulace 1 Apriorní rozdělení ξ: a(ξ) = 0.1 + 0.9N(0.4, 0.1 2 ). 2 Regresní funkce: m() = {( + 0.05) 2 (ξ + 0.05) 2 }/( + 0.05). 3 Hustota měření f X () a r (), r 0, 1. 4 Lokální bandwidth h f () = bf 1/5 (), b 0.005, 0.5. r = 0.7 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 22 / 25

y Simulace Simulace 1 Apriorní rozdělení ξ: a(ξ) = 0.1 + 0.9N(0.4, 0.1 2 ). 2 Regresní funkce: m() = {( + 0.05) 2 (ξ + 0.05) 2 }/( + 0.05). 3 Hustota měření f X () a r (), r 0, 1. 4 Lokální bandwidth h f () = bf 1/5 (), b 0.005, 0.5. r = 0.8 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 22 / 25

y Simulace Simulace 1 Apriorní rozdělení ξ: a(ξ) = 0.1 + 0.9N(0.4, 0.1 2 ). 2 Regresní funkce: m() = {( + 0.05) 2 (ξ + 0.05) 2 }/( + 0.05). 3 Hustota měření f X () a r (), r 0, 1. 4 Lokální bandwidth h f () = bf 1/5 (), b 0.005, 0.5. r = 0.9 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 22 / 25

y Simulace Simulace 1 Apriorní rozdělení ξ: a(ξ) = 0.1 + 0.9N(0.4, 0.1 2 ). 2 Regresní funkce: m() = {( + 0.05) 2 (ξ + 0.05) 2 }/( + 0.05). 3 Hustota měření f X () a r (), r 0, 1. 4 Lokální bandwidth h f () = bf 1/5 (), b 0.005, 0.5. r = 1.0 1.0 0.5 0.0 0.5 1.0 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 22 / 25

Simulace Simulační studie Vyhodnocení: MSE (Mean Squared Error), optimální hodnota r opt (MSE), MAD (Mean Absolute Deviation), optimální hodnota r opt (MAD) jako funkce parametru bandwidth b a hustoty pozorování r. Teoreticky optimální hodnota r pro homoskedastická data a lokální bandwidth: m(.) m (.) r opt (MSE) 5/9. = 0.56 7/11. = 0.63 r opt (MAD) 5/7. = 0.71 7/9. = 0.78 Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 23 / 25

7.9 8.2 0. 6e 04 6e 04 0.0011 Simulace Simulace: lokální bandwidth, n = 800, σ = 0.5 0.0 0.2 0.4 0.6 0.8 1.0 5e 04 MSE (optimal value. = 0.55) r log(mse) b 0.10 0.15 0.20 0.25 0.30 7.7 7.9 7.8 7.6 7.6 8 7.5 8.1 7.7 8.1 7.4 8.1 7.7 8.1 7.6 7.7 7.7 7.4 7.5 7.6 7.7 7.4 7.5 7.5 7.5 6.8 7.6 7.5 7.5 7.5 0.0 0.2 0.4 0.6 0.8 1.0 r Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 24 / 25

0. 0.019 0.0195 0.019 0.0185 Simulace Simulace: lokální bandwidth, n = 800, σ = 0.5 0.0 0.2 0.4 0.6 0.8 1.0 MAD (optimal value. = 0.71) 0.017 r log(mad) 0.017 0.0175 b 0.10 0.15 0.20 0.25 0.30 4.15 4.2 4.2 4.1 4.05 4.05 4.1 4.3 4.1 4.35 4.15 4.15 4.35 4.4 4.15 4.35 4.1 4.15 4.25 4.15 3.95 4 4.05 4.05 4.05 0.0 0.2 0.4 0.6 0.8 1.0 r Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 24 / 25

Shrnutí Závěr Odvození asymptotické normality ξ n i pro slabě závislá pozorování. Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 25 / 25

Shrnutí Závěr Odvození asymptotické normality ξ n i pro slabě závislá pozorování. Nový přístup k navrhování eperimentů v neparametrické regresi (AIMSE optimální návrhy eperimentů jsou MSE optimální i pro odhad nulového bodu). Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 25 / 25

Shrnutí Závěr Odvození asymptotické normality ξ n i pro slabě závislá pozorování. Nový přístup k navrhování eperimentů v neparametrické regresi (AIMSE optimální návrhy eperimentů jsou MSE optimální i pro odhad nulového bodu). Další výzkum: lokálně polynomické modely a modely s více vysvětlujícími pozorování (motivace: závislost GHBC na čase od diagnózy, věku a pohlaví, spolupráce Z. Šumník, 2. LF). Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 25 / 25

Shrnutí Závěr Odvození asymptotické normality ξ n i pro slabě závislá pozorování. Nový přístup k navrhování eperimentů v neparametrické regresi (AIMSE optimální návrhy eperimentů jsou MSE optimální i pro odhad nulového bodu). Další výzkum: lokálně polynomické modely a modely s více vysvětlujícími pozorování (motivace: závislost GHBC na čase od diagnózy, věku a pohlaví, spolupráce Z. Šumník, 2. LF). Dále: neparametrické regresní odhady pro korelovaná data s omezeními (aplikace na ceny opcí, spolupráce W. Härdle: JoE, CSDA) a ověřování předpokladů ( ověřování stability modelu v čase, spolupráce S. Meintanis, C. Kirch, M. Hušková: JMVA, TEST, CSDA). Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 25 / 25

Shrnutí Závěr Odvození asymptotické normality ξ n i pro slabě závislá pozorování. Nový přístup k navrhování eperimentů v neparametrické regresi (AIMSE optimální návrhy eperimentů jsou MSE optimální i pro odhad nulového bodu). Další výzkum: lokálně polynomické modely a modely s více vysvětlujícími pozorování (motivace: závislost GHBC na čase od diagnózy, věku a pohlaví, spolupráce Z. Šumník, 2. LF). Dále: neparametrické regresní odhady pro korelovaná data s omezeními (aplikace na ceny opcí, spolupráce W. Härdle: JoE, CSDA) a ověřování předpokladů ( ověřování stability modelu v čase, spolupráce S. Meintanis, C. Kirch, M. Hušková: JMVA, TEST, CSDA). DĚKUJI ZA POZORNOST Zdeněk Hlávka (KPMS MFF UK) Neparametrická regrese 2.5.2012 25 / 25