Robustní odhady statistických parametrů

Podobné dokumenty
Robustní statistické metody

IDENTIFIKACE BIMODALITY V DATECH

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

AVDAT Klasický lineární model, metoda nejmenších

Regresní analýza 1. Regresní analýza

AVDAT Nelineární regresní model

Odhad parametrů N(µ, σ 2 )

Normální (Gaussovo) rozdělení

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Zápočtová práce STATISTIKA I

Charakterizace rozdělení

Odhad parametrů N(µ, σ 2 )

Aproximace a interpolace

Statistické zpracování výsledků

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

KGG/STG Statistika pro geografy

7. Analýza rozptylu.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Odhady Parametrů Lineární Regrese

Jemný úvod do statistických metod v netržním oceňování

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

Regresní a korelační analýza

Testování hypotéz o parametrech regresního modelu

Čas (s) Model časového průběhu sorpce vyplývá z 2. Fickova zákona a je popsán následující rovnicí

Testování hypotéz o parametrech regresního modelu

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Pravděpodobnost a matematická statistika

oddělení Inteligentní Datové Analýzy (IDA)

Intervalové Odhady Parametrů

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Regresní a korelační analýza

STATISTICKÉ ODHADY Odhady populačních charakteristik

Chceme určit hodnoty parametrů závislosti p 1,.., p n a to

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Normální rozložení a odvozená rozložení

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Normální (Gaussovo) rozdělení

Návrh a vyhodnocení experimentu

Úvod do problematiky měření

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Interpolace pomocí splajnu

Klasifikace a rozpoznávání. Lineární klasifikátory

Charakteristika datového souboru

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Binární vyhledávací stromy pokročilé partie

naopak více variant odpovědí, bude otázka hodnocena jako nesprávně zodpovězená.

Oct 19th Charles University in Prague, Faculty of Mathematics and Physics. Multidimensional estimators. Základní pojmy.

Pravděpodobnost a aplikovaná statistika

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Regresní analýza. Eva Jarošová

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Úvodem Dříve les než stromy 3 Operace s maticemi

Návrh a vyhodnocení experimentu

Chyby měření 210DPSM

3 Bodové odhady a jejich vlastnosti

Číselné charakteristiky a jejich výpočet

UKAZATELÉ VARIABILITY

Hodnocení vlastností materiálů podle ČSN EN 1990, přílohy D

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

STATISTICKÉ CHARAKTERISTIKY

OBECNÉ METODY VYROVNÁNÍ

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Časové řady, typy trendových funkcí a odhady trendů

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Pozn. 1. Při návrhu aproximace bychom měli aproximační funkci vybírat tak, aby vektory ϕ (i) byly lineárně

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Příklady použití tenkých vrstev Jaromír Křepelka

Příklady - Bodový odhad

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Kombinatorická minimalizace

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

Jednofaktorová analýza rozptylu

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

ekologie Pavel Fibich rovnice rovnice Pavel Fibich Shrnutí Literatura

Statistická analýza jednorozměrných dat

Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

M-estimators. Oct 19th Charles University in Prague, Faculty of Mathematics and Physics. M-estimators. Základní pojmy - připomenutí.

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Změna hodnoty pozice v důsledku změn tržních cen.

Jevy a náhodná veličina

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Pavel Klavík. Katedra aplikované matematiky, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze


Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

15. T e s t o v á n í h y p o t é z

PRAVDĚPODOBNOST A STATISTIKA

Náhodné vektory a matice

Metodologie pro ISK II

Odhady - Sdružené rozdělení pravděpodobnosti

Transkript:

Robustní odhady statistických parametrů ěkdy pracují dobře, jinde ne.

Typická data - pozorování BL Lac 100 mag 40 0 0.41 0.40 JD date 0.39 0.38 0.38223-1.586 0.017 0.40550-1.530 0.019 0.39453-1.610 0.024 0.40671-1.511 0.017 0.39575-1.563 0.019 0.38353-1.562 0.019 0.39697-1.552 0.020 0.40792 99.999 9.999 0.39818-1.556 0.019 0.38471-1.618 0.023 0.39939-1.590 0.014 0.38593-1.612 0.026 0.40059 99.999 9.999 0.38726-1.548 0.022 0.40184-1.558 0.015 0.38845-1.561 0.026 0.40428-1.572 0.018 0.39088-1.527 0.025

σ-clipping algoritmy snaží se eliminovat příliš odlehlé hodnoty Příklad použití na data z BL Lac (nevážené, σ 3 3): i x i σ xi 0 9.71900 7.741449 1 9.71900 7.741449... Příklad použití na data z BL Lac (nevážené, σ 2 0): σ xi i x i 0 9.719000 7.74144 1-1.566000 2.913785 2-1.566000 0.0077308... Typy na zlepšení: váhování dat, použití mediánu

Odhad aritmetického průměru Vychází z metody největší věrohodnosti (Brandt 1970): L f x;t l lnl ln f x i ;t kde t jsou hledané parametry a x i pak naměřená data. V případě minimalizace nejmenších čtverců použijeme f x i ;x 1 2π exp x i což vede na x i x 2 0 x 2 2 x 1 x i

Robustní odhad Vychází opět z metody největší věrohodnosti. Základní rozdíl je v tom, že hledáme minimum určité funkce (Launer, Wilkinson 1979): l lnl ln f x i ;t ρ x i ;t Minimalizací pak dostáváme: ρ x i ;t ψ x i ;t 0 Tato poslední rovnice je implicitní rovnicí vzhledem k parametrům. Její řešení je v praktických případech nutné provádět numericky.

Běžně používané volby ψ Gaussova funkce ρ x x 2 2 ρ ψ x x x ρ Huberova funkce (a = 1.645 na 95% hladině) a x 2 x 2 x a 2 x a a 2 ρ ρ a x x a a x a x a -1.345 1.345 x

Robustní aritmerický průměr Jejím základem je řešení rovnice x i i x ψ 0 s 1 kde parameter s je normalizační parametr volený tak aby se blížil k sigma parametru gausova rozdělení u normálně rozdělených dat. Tuto rovnici lze nejlépe řešit ewtonovou metodou. Předtím ovšem musíme znát dobrý odhad kořene, v našem případě prumeru. Obyčejný průměr je k tomu nevhodný, nejlépe je použít median nebo nejčetnější hodnotu. x 0! x 0 #" 0 x i s x i 6745 x i$ 1 x i&% s' ψ( x i *) x ' ψ ( i x i *) x i

Zjednodužšená implementace odhadu z Munipacku: subroutine prumer(n,x,t,dt) integer :: n! pocet dat real :: x(n)! hodnoty vyberu real :: t,dt! odhady parametru! nulty odhad t = median(n,x) s = median(n,abs(x - t)) s = s/0.6745 do d = s*sum(psi((x - t)/s))/ & sum(dpsi((x - t)/s)) t = t + d if( abs(d) < epsilon(d) exit enddo dt = sqrt(s**2*n/(n-1)* & sum(psi((x - t)/s)**2)/ & sum(dpsi((x - t)/s))**2) end subroutine

Porovnání různých metod odhadu pro BL Lac Aritmetický průměr: 9 719+ 7 741 Vážený aritmetický průměr: 1 564530+ 0 0180619 3 3 σ clip bez vah: 1 566000+ 0 0077308 Robustní průměr bez vah : i x i σ xi 0-1.561000 0.0250000 1-1.565836 0.0079912 2-1.565826 0.0079158

Odhad úrovně oblohy CCD snímku Histogram intenzit náhodně vybraných ze snímku. Obloha určena aritmetickým průměrem: 32361 26+ 33 55 Obloha určena robustním průměrem: 31972 72+ 1 634262 4500 4000 3500 3000 frequency 2500 2000 1500 1000 500 0 30000 32000 34000 value 36000 38000 40000

Přehled robustních metod M-odhady představují odhady založené na metodě největší věrohodnosti, (Maximum likelihood) L-odhady jsou Lineární kombinace několika statistik, například průměr, median, kvantily a pod R-odhady jsou na základě fitování parametrů distribucí bud v histogramu nebo distribuční funkci, (Rank tests) (Press, Flannery, Teukolsky, Vetterling 1986), (Launer, Wilkinson 1979) Robustní metody a robustní metody V praxi se lze setkat se dvojím typem tzv. robustních metod: odhady robustní odhad o kterém uz byla řeč metody to je pojem odvozený z různých sw balíků (Matlab, S, Octave,...) kde se tak označují fitovací metody pro vícerozměrnou minimalizaci

Vícerozměrná robustní minimalizace Pricip metod vícerozměrné minimalizace je stejný jako jako u jednorozměrné. Rozdíly jsou: počátecní odhad nelze získávat medianem. Je nutné použít vícerozměrnou obdobu mediánu, kterou je minimalizace součtu absloutních odchylek Je nutné použít vícerozměrnou verzi ewtonovy metody řešení rovnic. Všeobecně nejvíce uznávaná metoda na řešeni nelineárních rovnic jsou algoritmy MIPACKU založené na Marquard-Levendbergove metodě s výpočtem linearnich rovnic pomoci QR algoritmu.

Fitování profilu hvězdy Byla fitována funkce G x y x 0 y 0 σ x σ y B G 0 G 0 e,-/.0 x. x 021 2σ x.2 y. y 021 2σ y/34% B Výsledek pro LM metodu bez robustního odhadu s výpočtem matice LL faktorizací: x 0 66 98005+ 6 9058 y 0 253 1362+ 7 326046 σ x 0 8103039+ 6 632534 σ y 0 9281055+ 7 338552 G 0 47895 81+ 1169 781 B 57268 71+ 389 8009 Residuální součet byl 6.915187E+08. Robustní odhad MIPACKem s QR faktorizací: x 0 66 96627+ 2 690513 y 0 252 4740+ 0 1612529 σ x 0 7978429+ 2 136275 σ y 1 192521+ 0 1654361 G 0 46561 96+ 14156 46 B 57288 08+ 18799 11 Residualní součet 1.641804E+07.

110000 105000 100000 95000 90000 85000 80000 75000 70000 65000 60000 55000 240 245 250 255 intensity 260 265

Literatura S. Brandt: Statistical and Computational Methods in data analysis, Elsevier 1970 W. H. Press, B. P. Flannery, S. A. Teukolsky, W. T. Vetterling : umerical Recipes, Cambridge University Press 1986 R. L. Lauer, G.. Wilkinson (eds.): Robustness in statistics, Academic Press 1979