Předáška V. Úvod do teore odhadu Pojmy a prcpy teore odhadu Nestraé odhady Metoda mamálí věrohodost Průměr vs. medá
Opakováí výběrová dstrbučí fukce Sestrojíme výběrovou dstrbučí fukc pro výšku a váhu ldské postavy, respektve výšku a váhu studetů a předášce Bostatstky v matematcké bolog samozřejmě aoymě. Použjeme volě dostupý software R. Chc srovat výběrová rozděleí výšky a váhy. Budou obě dkovat ormálí rozděleí? Váha by eměla mít ormálí rozděleí. Bostatstka
Opakováí středí hodota Uvažujme dskrétí áhodou velču {,, k } P p,, P k p k Pak středí hodota má tvar: E μ Jaká je její terpretace? k p Bostatstka
Opakováí pravdlo ±3 sgma Co to zameá? K čemu to může být dobré? Bostatstka
. Pojmy a prcpy teore odhadu
Jak se vlastě přšlo a použtí průměru? Použtí průměru jako sumarzace pozorovaých hodot se učí už a základí škole, cméě zmíka o jeho používáí je až z koce 7. století. Byl avrže bez ohledu a jakoukolv souvslost s teorí pravděpodobost jako hodota, ozačme j a, která má ásledující vlastost:. Hodota a mmalzuje rezduálí součet čtverců, tedy součet čtverců rozdílů pozorovaých hodot a hodoty a:. Součet rezduí vzhledem k hodotě a je ula, tedy kladá záporá rezdua jsou v rovováze: a + a Tyto dvě krtéra zohledňují pouze pozorovaý data, vůbec se ezabývají jakýmkolv rozděleím pravděpodobost a jeho parametry. a 0 Bostatstka
Příklad průměr pozorovaých hodot V případě, že osa epředstavuje žádou formac, je použtí průměru v pořádku kladá záporá rezdua jsou v rovováze. Co když osa poese ějakou formac? Bostatstka
Cíl sažeí v teor odhadu Na základě reálých pozorováí áhodé velčy chceme získat formac o parametrech rozděleí pravděpodobost této velčy. Teore odhadu se saží sestrojt statstku, která by a základě pozorovaých dat poskytla ejlepší možý odhad ezámého parametru / parametrů. Teore odhadu předpokládá, že pozorovaé hodoty esou formac o ezámém parametru. Někdy je třeba pozorovaé hodoty před použtím statstky začě upravt ormalzace dat z DNA mkročpů. Bostatstka
Základí pojmy Náhodá velča číselé ohodoceí výsledku epermetu, zajímá ás její pravděpodobostí chováí popsuje ho rozděleí pravděpodobost áhodé velčy. Parametr rozděleí pravděpodobost ezámá hodota,, a které závsí předps rozděleí pravděpodobost Parametrcká fukce reálá fukce parametru. Realzace áhodé velčy realzací představují je pozorovaé hodoty:,,,. Předpokládám jejch vzájemou ezávslost. Odhad parametru reálá fukce d ˆ. Odhad parametrcké fukce g reálá fukce d gˆ. Bostatstka
Klasfkace odhadů Parametrcké odhady vycházejí z předpokladu zalost rozděleí pravděpodobost, kterým se áhodá velča řídí. Případě předpokládají zalost rozděleí pravděpodobost sledovaého parametru tedy áhodé velčy Bayesovské odhady. Neparametrcké odhady v tomto případě ejsou uvažováy žádé předpoklady o pravděpodobostím chováí dat. Výsledkem jsou robustí odhady se šrokým použtím, u kterých ale elze hodott optmaltu vzhledem k pravděpodobostímu modelu. Bostatstka
Klíčové otázky v teor odhadu Jak ajít bodový odhad? Jak hodott kvaltu odhadu? Bostatstka
Jak ajít bodový odhad? Estuje řada postupů k alezeí bodového odhadu ezámého parametru lší se jak flozofí apř. Bayesovské odhady tak defcí krtéra optmálích vlastostí odhadu. Zaměříme se pouze a vybraé pojmy a postupy. Metoda založeá a Rao Blackwellově větě slouží k alezeí estraého odhadu s ejmeší varabltou e vždy to však lze spočítat. Metoda mamálí věrohodost slouží k alezeí odhadu hodoty, který je ve smyslu pozorovaých dat ejvíce pravděpodobý. Respektve lze říc, že př platost této hodoty jsou data ejvíce věrohodá. Bayesovské metody ehledají jedu hodotu parametru, ale celé rozděleí pravděpodobost parametr je zde vlastě áhodá velča. Bostatstka
Jak hodott kvaltu odhadu? Vezmeme l hodotu ˆ jako odhad parametru, pak lze obecě vyjádřt důsledek tohoto odhadu pomocí tzv. ztrátové fukce loss fucto, která má ásledující vlastost: L, ˆ 0 pro každé, ˆ a L, 0 pro každé Celkově můžeme kvaltu odhadu vyjádřt pomocí tzv. rzkové fukce rsk fucto : R, ˆ E L, ˆ Logcky chceme ajít odhad, který by mmalzoval rzkovou fukc pro všechy hodoty. Bostatstka
Špatá zpráva To však eí možé obecě eestuje odhad, který by mmalzoval rzkovou fukc pro všechy hodoty. Vždy jsme totž schop ajít odhad, který bude mít pro daé 0 ulové rzko, ale zároveň bude epřjatelý pro 0. Máme tedy a výběr:. Buď se omezíme pouze a určtou třídu odhadů to zameá omezíme možu odhadů ějakou požadovaou vlastostí estraé odhady.. Nebo upravíme přístup k získáváí odhadů více se zaměříme a pozorovaé hodoty metoda mamálí věrohodost. Bostatstka
. Nestraé odhady
Středí kvadratcká chyba odhadu Výzamou rzkovou fukcí ve statstce je tzv. středí kvadratcká chyba odhadu mea squared error defovaá jako MSE, ˆ E ˆ Výraz pro MSE, respektve MSE odhadu, se dá rozdělt a dvě kompoety vychýleí jeho druhou mocu a varabltu: MSE, ˆ E ˆ + E ˆ E ˆ E ˆ E ˆ E ˆ MSE, ˆ bas ˆ + var ˆ vychýleí + varablta bas + precso Bostatstka
Příklad Máme dva odhady ezámého parametru. Jede je vychýleý s malou varabltou. Druhý je evychýleý s větší varabltou. Výběrové rozděleí odhadu ˆ*. Výběrové rozděleí odhadu ˆ. Ne vždy musí být lepším odhadem te, který je evychýleý! E ˆ E ˆ * Statstka Skutečost Bostatstka
Nestraost Celkem logckým omezeím odhadů, které ás zajímají, je jejch estraost. Odhad d parametru je estraý když E d pro každé Θ Platí tedy: E d 0 pro každé Θ V možě estraých odhadů se poté sažíme ajít odhad s ejmeší varabltou abychom měl mmálí MSE. V úvodí předášce jsme mluvl o zkresleí výsledků based results estraost je ve své podstatě to samé. Bostatstka
Bostatstka Průměr estraý odhad? Normálí rozděleí pravděpodobost: Possoovo rozděleí pravděpodobost: Použtí průměru pro tato rozděleí má smysl, ale je třeba s ověřt daé rozděleí pravděpodobost. R E E E N μ μ σ μ pro každé, ~ R E E E Po λ λ λ pro každé ~
Nestraý odhad příklad Měříme čas, který trvá lékař určtá čost apř. ambulatí ošetřeí. Chceme ajít odhad mama tohoto času, tedy jak mamálě dlouho mu daá čost může trvat. Uvažujme rovoměrě spojté rozděleí pravděpodobost a tervalu [0,]: ~ f f Rs0, / 0 pro každé 0, pro každé 0, Jak můžeme hodotu odhadout? Bostatstka
Nestraý odhad příklad Máme tedy áhodý výběr,,,..d. z rozděleí Rs[0,], které ještě seřadíme podle velkost:,,,. E D Máme dvě zajímavé hodoty: ma Uvažujeme dva odhady: T T + + ma Který je lepší? Bostatstka
Bostatstka Nestraý odhad příklad Máme tedy,,,, které seřadíme podle velkost:,,,. Máme dvě zajímavé hodoty: Uvažujeme dva odhady: ma T T ma + + + + D D ma / + E E E E 3 + D T D T + + + E ET E ET Který je lepší?
Bostatstka Nestraý odhad příklad Máme tedy,,,, které seřadíme podle velkost:,,,. Máme dvě zajímavé hodoty: Uvažujeme dva odhady: ma T T ma + + + + D D ma / + E E E E 3 + D T D T + + + E ET E ET Vítězem se stal odhad T, jeho varablta s rostoucím rychlej klesá k 0.
Vztah vychýleí a varablty odhadu Odhady můžeme kombací vychýleí a varablty rozdělt hypotetcky do čtyř skup. Výzam eí až tak v jedoduchých sumarzacích dat, ale spíš ve stochastckém modelováí. Skutečá hodota ezámého parametru Odhad ezámého parametru Bostatstka
Pozámka o stochastckém modelováí Modely, které jsou přílš jedoduché mají málo vysvětlujících proměých mohou být epřesé kvůl velkému vychýleí, protože ejsou dostatečě fleblí vzhledem k pozorovaým datům. Modely, které jsou přílš složté mají moho vysvětlujících proměých mohou být epřesé kvůl velké varabltě, protože se přílš přzpůsobují pozorovaým datům tzv. overfttg. Tomuto feoméu se říká bas varace tradeoff. Idetfkovat správý model eí jedoduché, je třeba ajít správý počet vysvětlujících proměých model complety. Bostatstka
3. Metoda mamálí věrohodost
Metoda mamálí věrohodost Autorem je R. A. Fsher 9. Aglcky mamum lkelhood estmato. Máme ezávslých stejě rozděleých pozorováí..d. z rozděleí s hustotou f ;. Sdružeá hustota odpovídající pozorovaým hodotám,,, je: Jaká? A proč? Bostatstka
Metoda mamálí věrohodost Autorem je R. A. Fsher 9. Aglcky mamum lkelhood estmato. Máme ezávslých stejě rozděleých pozorováí..d. z rozděleí s hustotou f ;. Sdružeá hustota odpovídající pozorovaým hodotám,,, je: f, K, f ; Sdružeá hustota vyjadřujeza předpokladu, že záme, jak moc je pravděpodobé, že pozorovaé hodoty pochází z rozděleí s hustotou f ; Pota metody mamálí věrohodost: Dívat se a sdružeou hustotu jako a fukc a vybrat takové, aby výraz f, K, f ; byl co ejvětší mamum. Bostatstka
Věrohodostí fukce Zavádíme tzv. věrohodostí fukc lkelhood fucto : L, K, f, K, Mamálě věrohodý odhad, začíme ho věrohodostí fukc, tedy ˆ MLE ˆMLE arg ma L Θ Výpočetě se jedá o řešeí rovce rovc:, je číslo, které mamalzuje, K, dl, K, / d 0 Musíme s ještě ověřt, že se jedá o mamum apř. pomocí druhých dervací. Bostatstka
Logartmus věrohodostí fukce Často je výhodější hlavě výpočetě jedodušší mamalzovat logartmus věrohodostí fukce:, K, l L, K, l f ; l f ; l Bude mamum pro věrohodostí fukc logartmus věrohodostí fukce stejé? Pokud ao, tak proč? Bostatstka
Bostatstka ML odhad parametru λ Possoova rozděleí Máme..d. pozorováí z Possoova rozděleí:,,,. Sdružeá hustota má tvar: Věrohodostí fukce má tvar: Logartmus věrohodostí fukce má tvar: Jak vypadá? e f!,, λ λ λ K Σ e f L! /,,,, λ λ λ λ K K! l l,, l L λ λ λ K ˆMLE
ML odhad parametru λ Possoova rozděleí Dervace logartmu věrohodostí fukce má tvar: d l L dλ / λ 0 Výsledkem je průměr: λˆ Je to mamum? d l L / < λ dλ 0 Bostatstka
Bostatstka ML odhad parametru μ ormálího rozděleí Máme..d. pozorováí z ormálího rozděleí:,,,. Sdružeá hustota má tvar: Logartmus věrohodostí fukce má tvar: Parcálí dervace logartmu věrohodostí fukce mají tvar: e f /,,, σ μ πσ σ μ K L l l,, l μ σ σ π λ K 0 / l L μ σ μ 0 / l 4 + L μ σ σ σ
ML odhad parametru μ ormálího rozděleí Výsledkem jsou ásledující odhady: ˆμ MLE σˆ MLE Bostatstka
4. Srováí průměru a medáu
Nesmyslé použtí průměru u asymetrckých dat Chceme l charakterzovat log ormálí rozděleí z hledska středí hodoty, je použtí průměru esmyslé. Neí totž splě model, pro který byl jako optmálí odhad odvoze! Vhodějším odhadem je medá a geometrcký průměr jsou teoretcky ekvvaletí pro log ormálí data Geometrcký průměr je průměr spočítaý a ormálích datech, tedy po trasformac y l. geometrcký průměr medá průměr Příklad: počty bílých krvek. Bostatstka
Smysluplé použtí průměru u asymetrckých dat Chceme l charakterzovat log ormálí rozděleí z hledska celkového součtu pozorovaých hodot, je použtí průměru smysluplé. Jedá l se totž apř. o spotřebu ějakého materálu, alkoholu ebo peěz, průměr popsuje z hledska celkového součtu spotřebu lépe. Příklad: pláováí celkové spotřeby ějakého materálu, alkoholu ebo peěz do budouca. geometrcký průměr medá průměr Bostatstka
Smysluplé použtí průměru u symetrckých dat Pokud je splě pravděpodobostí model, tedy zejméa ormalta dat, je použtí průměru a místě. Průměr je kozstetí odhad pro koverguje k podle pravděpodobost. Pro rostoucí máme zaručeo, že se průměr přblžuje k. 0 50 500 skutečá hodota průměr Bostatstka medá
Shrutí průměr vs. medá Průměr Medá Výhody Využívá formace celého souboru dat Jedoduché rozděleí pravděpodobost Neí ctlvý a odlehlá pozorováí Použtí pro všechy typy dat Nevýhody Ctlvý a odlehlá pozorováí Omezeé použtí u asymetrckých dat Využívá formac pouze jedoho pozorováí Komplkovaé rozděleí pravděpodobost Bostatstka
Shrutí Používejte průměr! Ale vždy s ověřte předpoklad ormalty ebo alespoň symetre, případě Possoova rozděleí dat! A taky se ezapomeňte podívat a odlehlé hodoty! Pokud s ěčím ejste jstí, použjte medá. Usekutý průměr odhad, který je svým vlastostm mez průměrem a medáem, spočítáme ho tak, že odsekeme m ebo m % mmálích a mamálích hodot a ze zbytku spočítáme průměr. Bostatstka
Poděkováí Rozvoj studjího oboru Matematcká bologe PřFMU Bro je fačě podporová prostředky projektu ESF č. CZ..07/..00/07.038 Víceoborová ovace studa Matematcké bologe a státím rozpočtem České republky Bostatstka