Skalární skór Zdeněk Fabián Ústav informatiky AV ČR, Praha Abstrakt. Po stručném přehledu základních inferenčních funkcí matematické statistiky zavedeme jednu novou a porovnáme její přednosti a nedostatky s ostatními. Úvod Výsledky pozorování náhodných veličin lze reprezentovat pomocí ukazatelů a čísel, které shrnují nějaké obecnější tendence. K tomu slouží statistické charakteristiky dat typu středu a poloměru rozptýlenosti, šikmosti či špičatosti, a statistické analýzy, např. korelace či regrese, kterými se hledají souvislosti mezi náhodnými veličinami. Charakteristiky populace jsou získávány z pozorovaných dat obvykle jako řešení rovnic typu Ψ(data; θ) = 0 kde θ je vektor parametrů zvoleného statistického modelu a Ψ statistická inferenční funkce. V tomto textu popisuji přednosti a nedostatky nejužívanějších inferenčních funkcí a představuji jednu novou, uvedenou do statistické literatury pod jménem core funkce v r. 200 (viz [3]), kterou dnes nazývám skalárním skórem. Skalární skór je užitečný sice univerzálně, ale zdá se, že nejvíce pro rozdělení, jejichž hustoty neklesají dostatečně rychle nule, t.zv. rozdělení s těžkými chvosty, která nemusí mít střední hodnotu ani rozptyl. 2 Základní pojmy a značení R značí reálnou osu a X R otevřený (konečný či nekonečný) interval. P značí pravděpodobnost. Spojitá náhodná veličina X má rozdělení F, popsané distribuční funkcí F (x) = P (X < x) na nosiči X, jestliže je její pravděpodobnostní hustota (dále jen hustota) f(x) = df (x)/dx na X kladná a na R X rovna nule. Místo F s nosičem X někdy říkáme F na X.
Budeme se zabývat úlohami, kdy je možné předpokládat, že pozorovaná data X n = (x,..., x n ) jsou náhodným výběrem z F, t.j. jsou realizací spojitých náhodných veličin X,..., X n, nezávislých a stejně rozdělených podle (neznámého) rozdělení F zkoumané populace (a nabývajícich hodnot v X ). Dat je obvykle méně, než by bylo potřeba k určení hustoty populace např. aproximací histogramu a je nutno použít jiných metod. Parametrický přístup spočívá v předpokladu, že F je člen F θ0 předpokládaného modelu, rodiny {F θ : θ Θ}, kde Θ R m, s hustotami f(x; θ), které jsou spojité a mají v x i θ potřebné derivace. Často užívanou modelovou rodinou je normální rozdělení (Tabulka ) s nosičem R a s parametrem θ = (µ, s). Jako µ R se obecně označuje parametr polohy, t.j. x-ová souřadnice maxima hustoty (mód), a jako s (0, ) značíme parametr měřítka, popisující rozptýlenost hodnot kolem středu µ. Hodnota estimátoru T n (X) = T (X,..., X n ) parametru θ 0, určená z náhodného výběru X n, odhad ˆθ n, kolísá od výběru k výběru: T n (X) je náhodná veličina, která má určité rozdělení, které vypovídá o přesnosti odhadu. Toto rozdělení se obvykle nedá odvodit pro pevné n a je fajn, když určíme alespoň asymptotické, limitní rozdělení pro n. Známe-li je, lze pak doufat (a případně podepřít výsledky počítačových simulací metodou zvanou bootstrap), že přibližně platí i pro taková n, která máme k dispozici. Pak můžeme konstruovat intervaly spolehlivosti, určovat míru rizika že se na základě daného odhadu rozhodneme chybně atd. V dalším nebudeme rozlišovat mezi estimátorem (náhodnou veličinou) a její konkrétní hodnotou pro určitý náhodný výběr (odhadem). Estimátor je konzistentní když ˆθ n θ 0 pro velká n (pokládá se za nutnou vlastnost). Konzistentní odhad ˆθ n je asymptoticky normální, AN(θ 0, v 2 /n), když pro velká n má ˆθ n θ 0 přibližně normální rozdělení s parametrem θ = (0, v/ n). Odhady (kromě výběrového průměru) značíme v dalším stříškou a index n vynecháváme. 3 Identická inferenční funkce Předností identické inferenční funkce Ψ(x) = x je samozřejmě její jednoduchost. Charakteristikami rozdělení jsou momenty µ k = EΨ k (X) = x k f(x) dx () X 2
a centrální momenty ν k = E(X m) k. Pokud integrály () konvergují (momenty existují), populace má střední hodnotu m = µ a rozptyl σ 2 = ν 2. Veličina ν 3 /σ 3 charakterizuje šikmost a ν 4 /σ 4 špičatost rozdělení. Předpokládejme, že střední hodnota a rozptyl populace s rozdělením F existují. Data pak lze charakterizovat konečnou aproximací µ, výběrovým průměrem x = x i (2) n (připomeňme, že se jedná o náhodnou veličinu X = n n X i), a výběrovou středněkvadratickou odchylkou ˆσ, kde ˆσ 2 = (x i x) 2 (3) n je výběrový rozptyl. x a ˆσ 2 jsou konzistentními odhady veličin m a σ 2, a pokud je σ známé, platí podle centrální limitní věty že x je AN(µ, σ 2 /n). Tento hluboký, dobře známý výsledek teorie pravděpodobnosti má nepříjemný důsledek: x se zhusta považuje za typickou pozorovanou hodnotu, což asi není ono v případě šikmých rozdělení s nosičem (0, ). Jednoduchou mírou závislosti (korelace) náhodných veličin X, Y je první smíšený moment, jehož výběrovou podobou je Pearsonův korelační koeficient ˆr XY = (x i x) (y i ȳ) (4) n ˆσ X ˆm Y kde ˆσ X, ˆσ Y jsou příslušné výběrové středněkvadratické odchylky. Nejjednodušší inferenční funkce, Ψ(x) = x, má samozřejmě své mouchy. Generuje jednoduché charakteristiky rozdělení a dat, které nepříliš dobře charakterizují data z šikmých rozdělení a které jsou zcela nepoužitelné pro data z rozdělení s těžkými chvosty, pro které integrály () nekonvergují a výběrové průměry nemají asymptoticky normální rozdělení. Charakteristiky (2), (3) i (4) zásadním způsobem ovlivňují odlehlá data: výběrové charakteristiky nejsou robustní. 4 Skór pro parametr polohy Podle principu maximální věrohodnosti je nejvhodnějším kandidátem pro odhad parametru θ takové ˆθ, které maximalizuje věrohodnost n f(x i; θ), t.j. 3
pravděpodobnost současného výskytu x,..., x n v předpokládaném modelu. Protože f(x) a log f(x) jdou paralelně, máme ˆθ = arg max θ log f(x i ; θ). (5) Pro rodinu s nosičem R a hustotou f(x µ) dostáváme maximálně věrohodný (ML) odhad parametru polohy z rovnice kde U µ (x i ˆµ ML ) = 0, (6) U µ (x µ) = log f(x µ) (7) µ je t.zv. skór pro parametr polohy. Podle (6) je odhad ˆµ ML (módu) konzistentní a za nepříliš omezujících podmínek je AN(µ, σ 2 µ/n), kde σ 2 µ = /I µ a kde I µ = EU 2 µ je Fisherova míra informace o parametru µ. Veličina σ 2 µ/n je pro dané n Cramér-Raova dolní mez rozptylu odhadu: ˆµ ML je vydatný (eficientní). Jasná zpráva, jako skalární inferenční funkci můžeme uvažovat funkci S(x µ) = U µ (x µ). V obecném případě rozdělení s nosičem R a hustotou f(x; µ, θ 2,..., θ m ) je S(x; θ) = U µ (x; µ, θ 2,..., θ m ). Několik rozdělení s parametrem polohy uvádíme v Tabulce. Z důvodu, který bude jasný později, značíme hustotu g(y; µ, s) a položíme u = y µ. s Z tabulky je patrné, že identická inferenční funkce je vlastně skór pro parametr polohy normálního rozdělení. Skór je v tomto případě neomezený pro y ±. Skór U µ Gumbelova rozdělení je neomezený pro y, logistické rozdělení má skór omezený a Cauchyho dokonce redescentní, t.j. klesající pro velká y k nule. Tabulka. Několik rozdělení s parametrem polohy. 4
Rozdělení g(y; µ, s) U µ (y; µ, s) normální 2πs e 2 u2 u s Gumbelovo s eu e eu s (eu ) e logistické u e u s (+e u ) 2 s e u + 2u Cauchyho πs +u 2 s +u 2 Poslední dvě rozdělení tabulky mají těžké chvosty, ale jejich skóry pro parametr polohy jsou omezené. V povaze modelu tedy je generovat odlehlá data, která si ale sám reguluje ve smyslu že ˆµ ML k nim není příliš citlivý, odhad je robustní: přidáme-li k výběru X n obrovské x n+, ˆµ n+ ˆµ n. Poznamenejme zde že Cauchyho rozdělení sice nemá střední hodnotu, ale má mód y = µ, který lze považovat za alternativní charakteristiku středu (centrální tendence) rozdělení, a právě toto my učiníme pro všechna rozdělení s nosičem R (hustota rozdělení na R musí mít maximum, a když je má vícenásobné, lze ji chápat jako hustotu směsi). Rozdělení, jejichž skór pro parametr polohy je u některého z konců nosiče neomezený, jsou v té části naopak k odlehlým hodnotám v datech citlivá. Zde předpokládáme, že odlehlá data pocházejí z kontaminovaného modelu F c = ( ɛ)f + ɛh, ɛ. kde H je rozdělení s velkým rozptylem. Pro takové situace doporučuje robustní statistika modelu F θ do jisté míry nedbat a použít jako inferenční funkci nějakou spojitou a omezenou psí-funkci ψ(x) s vlastností Eψ = 0, a namísto (6) řešit rovnici ψ(x i ˆµ M ) = 0. (8) Odhad ˆµ M je zobecnění ML odhadu, t.zv. M-odhad. Je konzistentní a asymptoticky normální, AN(µ, σm 2 /n), kde σ 2 M = Eψ2 (x) [Eψ (x)] 2. (9) Poznamenejme, že poměr σml 2 /σ2 M je asymptotická vydatnost M-odhadu parametru polohy. ɛ je vždy menší než (Cramer-Raova mez). Volbou ψ se volí 5
určitý kompromis mezi vydatností a robustností odhadu. V případě kontaminovaného normálního rozdělení se jako psí funkce často používá Huberova funkce b pro x > b ψ(x) = x pro x < b b pro x < b, kde b je určeno z požadovaného kompromisu mezi robustností a vydatností. 5 Skórová funkce Parametrický model má obvykle parametr θ s více (2-3) složkami. Derivováním (5) podle θ j dostáváme soustavu m rovnic pro m složek θ, U θj (x i ; ˆθ ML ) = 0, j =,..., m (0) kde U θj (x; θ) = log f(x; θ) θ j () jsou parciální skóry pro jednotlivé složky. Maximálně věrohodné odhady ˆθ ML jsou konzistentní, asymptoticky normální a vydatné. Platí, že (ˆθ MLj θ 0 ) je AN(0, J jj /n), j =,..., m, kde J = {I (θ 0 )} i,j=,...,m a I(θ) = {EU θi U θj (θ)} i,j=,...,m je Fisherova informační matice. Vektorová skórová funkce Ψ(x; θ) = [U θ (x; θ),..., U θm (x; θ)] (2) je inferenční funkcí klasické statistiky a ˆθ ML tím nejlepším odhadem z hlediska minimálníko rozptylu. Má to však několik háčků. a) Namísto výsledku ve tvaru f(x; ˆθ ML ) je často pro další analýzy dobré mít několik čísel charakterizujících data. Parametry různých modelů ale mají 6
různou strukturu a různý význam. Ideální by bylo charakterizovat data nějakou typickou hodnotou a poloměrem rozptýlenosti. Nabízejí se ovšem momenty: střední hodnota a středněkvadratická odchylka jako funkce odhadnutého ˆθ ML. Tento postup se však nepoužívá; momenty jsou často vyjádřeny pomocí speciálních funkcí a momenty rozdělení s těžkými chvosty neexistují. b) Skóry pro různá θ j mají různou citlivost k odlehlým hodnotám. Například rovnice (0) pro model s parametry polohy a měřítka s hustotami s f((x µ)/s) mají tvar ( ) xi µ U µ = 0 (3) s n ( x i µ xi µ U µ s s ) =. (4) Inferenční funkce rovnice (4) je tedy Ψ(ξ) = ξu µ (ξ), což je neomezená funkce, takže simultánní odhady (ˆµ ML, ŝ ML ) nejsou robustní ani když je U µ omezená. Robustní statistika navrhuje v tomto případě použít M-odhady (µ M, s M ) určené z rovnic ( ) xi µ ψ = 0 s ( ) xi µ χ = n s kde ψ(x) je omezená funkce a χ(x) = dψ(x)/dx. Rovnice je nutno řešit iteračním postupem s vhodnými počátečními robustními odhady parametrů, obvykle se používá µ 0 = med(x), což je medián (teoreticky bod x, kde P (X < x) = P (X > x) a prakticky prostřední pozorovaný bod), a s 0 = MAD(x) = med{x med(x)} (pro normálně rozdělená data je s =.4785 MAD(x)). Robustní statistické metody (např. [,3]) eliminují vliv odlehlých pozorování. Volba psí funkce však částečně eliminuje informaci, která vedla k uvažovanému modelu, který může mít i jiné parametry než jsou parametry polohy a měřítka. Pro modely s jinými parametry nebo více parametry jsou však robustní postupy známy spšee jen výjimečně. c) Robustní verze korelačního koeficientu (4) je ˆr XY = n ψ X ( xi ˆm X ˆσ X 7 ) ψ Y ( yi ˆm Y ˆσ Y ), (5)
kde Ψ X, Ψ Y jsou vhodné psí funkce a odhady nšjaké robustní odhady středních hodnot a rozptylu (medián, MAD). Vektorová skórová funkce klasické statistiky je však je pro tento a jiné podobné účely příliš komplikovaná. V praxi se tedy používají korelační koeficienty (4) a v případě možného výskytu odlehlých hodnot (5) nebo koeficient konstruovaný z uspořádaného výběru (Spearmanův). Žádný z nich nevyužívá předpokládané modely náhodných veličin X a Y. 6 Skalární skórová funkce V této kapitole popíšeme postup, kterým lze zavést skalární inferenční funkci S(x), resp. S(x; θ), která koresponduje s hlavními rysy rozdělení) pro libovolné spojité, parametrické či neparametické rozdělení. Uvidíme, že ji lze zvolit tak, aby pro některá rozdělení byla identická s parciálním skórem pro určitý (nejdůležitější) parametr rozdělení. Nazveme ji skalární skórovou funkcí nebo skalárním skórem. Jejími numerickými charakteristikami budou skórové momenty: zobecněné momenty tvaru M k (θ) = ES k (x; θ) = S k (x; θ)f(x; θ) dx. (6) Namísto řešení soustavy (6) získáme odhad ˆθ SM parametru θ = (θ,..., θ m ) jako řešení rovnic n X S k (x i ; θ) = M k (θ) k =,..., m. (7) Z důvodů popsaných v kap. 4 je přirozené zvolit za skalární skór náhodné veličiny Y s rozdělením G na R s hustotou g funkci S G (y) = g (y) g(y) (8) vyjadřující relativní změnu hustoty. Řešením y rovnice S G (y) = 0, a v parametrickém případě S G (y; θ) = 0), je mód rozdělení. Funkce (8) bohužel není vhodným popisem rozdělení s nosičem X = R (viz třeba exponenciální rozdělení na X = (0, ) s hustotou g(y) = e y, pro které S G (y) nebo rovnoměrné rozdělení, kde S G (x) 0). Hustota f(x) 8
nemusí mít na X maximum (může mít třeba supremum v x = 0). Následující konstrukce byla publikována v [3]: X s rozdělením F na X = R považujeme za transformovanou náhodnou veličinu X = η (Y ), kde η : X R je vhodné spojité rostoucí zobrazení a Y = η(x) je prototyp s rozdělením G na R. Rozdělení náhodné veličiny X je F (x) = G(η(x)) a má hustotu f(x) = g(η(x))η (x), (9) kde η (x) = dη(x)/dx je Jacobián zobrazení. Za signifikantní funkci rozdělení F považujeme transformovaný skalární skór prototypu, funkci T F (x) = S G (η(x)). (20) Z (8) a (9) se snadno odvodí, že (20) lze vyjádřit pomocí hustoty f rozdělení F jako T F (x) = ( ) d f(x) dx η (x) f(x). (2) Pro porovnání vlastností různých rozdělení na X je třeba zvolit pro daný nosič jedno určité zobrazení, nejlépe takové, aby (2) byla vyjádřena jednoduchými vzorci pro podstatnou část prakticky užívaných rozdělení. Protože velké množství modelových hustot je vyjádřeno pomocí exponenciálních funkcí, je pro tento účel vhodné Johnsonovo zobrazení [2] { log(x a) pro X = (a, ) η(x) = log x x pro X = (0, ) (22) (jeho zobecnění pro obecný interval je zřejmé). Po dosazení (22) do (2) dostaneme explicitní tvar funkce T F pro různé nosiče X ve tvaru T F (x) = f (x) f(x) X = R (x a) f (x) f(x) X = (a, ) + 2x x( x) f (x) f(x) X = (0, ). T F (x) a její parametrický tvar T F (x; θ) budeme nazývat t-skór. Těžištěm x rozdělení F nazveme řešení rovnice (23) T F (x) = 0. (24) 9
Protože podle (20) 0 = T F (x ) = S G (η(x )) = g (y ) g(y ), je těžiště rozdělení F obrazem módu svého prototypu G. Takto jsme tedy vyřešili dodnes diskutovaný problém, totiž co je nejvhodnější centrální charakteristikou (typickou hodnotou) rozdělení na nosiči (0, ), zda střední hodnota (nemusí existovat) či mód (nemusí existovat) nebo medián (matematicky špatně uchopitelná veličina). Odpověď zní těžiště: transformovaný mód prototypu (ten, jak jsme viděli v kap. 4, existuje). Uvažujme nyní parametrická rozdělení F θ na X = R. Může se stát, že x je přímo jedním z parametrů. Je-li µ parametrem polohy prototypu G θ s vektorovým parametrem θ = (µ, θ 2,..., θ m ), parametrem rozdělení F θ (x) = G θ(η(x)) je θ = (τ, θ 2,..., θ m ), kde τ = η (µ) (25) je obrazem parametru polohy prototypu. Označme třídu těchto rozdělení třeba D X. V Tabulce 2 jsou uvedeny hustoty a t-skóry transformovaných rozdělení z třídy D (0, ) s prototypy z Tabulky. τ (25) je transformovaný parametr polohy, který se obvykle považuje za parametr měřítka; my jej však interpretujeme jako parametr polohy rozdělení s nosičem (0, ). /x je Jakobián transformace, c = /s a výraz u z Tabulky se transformuje na v = log y log µ s ( x ) c =. τ Tabulka 2. Transformovaná rozdělení z třídy D (0, ). Rozdělení f(x; τ, c) T F (x; τ, c) lognormální Weibullovo log-logistické log-cauchy c x 2π e 2 log2 v c log v c x ve v c(v ) c v x (v+) 2 c πx +log 2 v c v v+ 2c log v +log 2 v Ve třídě rozdělení D X platí vztah, dokázaný v [3], že totiž U τ (x; θ) = η (τ)t F (x; θ). (26) 0
Parciální skór pro τ, definovaný pomocí derivace podle parametru, se nám podařilo rozložit na součin Jakobiánu transformace a členu určeného derivací podle proměnné. Ovšem ne každý prototyp musí mít parametr polohy a většina rozdělení na (0, ) není z D (0 ) (jsou to většinou rozdělení s prototypy, které se neuvažují a neužívají, takže není na první pohled patrné, že je lze chápat jako transformovaná). Rozhodujícím krokem bylo si uvědomit, že τ funguje v (26) nejen jako parametr, ale také jako těžiště rozdělení. Rozdělení, která nejsou v D X, sice nemají parametr, který by byl obrazem módu prototypu, mají však těžiště. V práci [4] je definována funkce S(x; θ) = η (x )T F (x; θ) (27) kterou nazýváme skalárním skórem a považujeme ji za obecnou skalární inferenční funkci. Je utvořena podle vzoru (26), proto lze o ní předpokládat, že bude mít podobný význam jako má (26) pro rozdělení z D X. Funkce sice není tak důkladným popisem rozdělení jako vektorová skórová funkce, ale zachycuje jeho hlavní rysy a je to snadno manipulovatelná funkce, a to je ono. Pro rozdělení, která nejsou ve třídě D X, byla (27) (stejně jako T F ) dosud neznámou funkcí. Veličinu ES 2 lze pak chápat jako Fisherovu informaci o těžišti (pro rozdělení z třídy D X je to podle (26) skutečná Fisherova míra informace I τ (θ) o τ). Jako charakteristiku variability rozdělení F pak definujeme její převrácenou hodnotu, ω 2 = ES 2, (28) které budeme říkat s-variance (ze score variance). Podobně jako x, ω 2 existuje i pro rozdělení s těžkými chvosty (poznamenejme, že podmínka 0 < Fisherova míra informace < je obvyklou podmínkou regularity rozdělení). Skalární skór normálního rozdělení s parametry µ a s je S(x; µ, s) = x µ s 2 a protože ES 2 = s 2, platí ω 2 = s 2. Pro normální rozdělení tedy nic nového. V Tabulce 3, kde B značí beta funkci a Γ gamma funkci, uvádíme kromě t-skóru střední hodnotu, těžiště a s-varianci několika dalších rozdělení s nosičem X = R, která nejsou z D X. Skalární skór rozdělení s nosičem (0, ) je S(x; θ) = T F (x; θ)/x, Paretovo rozdělení má nosič (, ) a skalární skór S(x; θ) = T F (x; θ)/(x ) = c( x /x) s použitím (27) a (22). Pro gamma rozdělení s lineárním t-skórem se střední hodnota a těžiště shodují. Zbývající tři rozdělení jsou rozdělení s těžkým chvostem v + ;
jejich skalární skór je omezený (ale všiměte si, že skór Fréchetova rozdělení je neomezený v nule). Pro hodnotu parametru menší nebo rovnou jedné střední hodnoty neexistují, ale jsou nesmyslné velké i v oboru, kde existují, když se Tabulka 3. Těžiště a s-variance některých rozdělení. rozdělení f(x) T F (x) m x ω 2 γ gamma α Γ(α) xα e γx γx α α/γ α/γ α/γ 2 Paretovo c/x c+ c c+ c c+ c+2 x c c c 3 x beta 2.druhu p qx p p p B(p,q) (x+) p+q x+ q q c Fréchetovo ( τ x x )c e ( τ x )c c[ ( ) τ c] x τγ( ) τ τ 2 /c 2 c hodnota parametru blíží k jedné. p(p+q+) q 3 Na obr. jsou znázorněny hustoty a normované skalární skóry S(x)/ES 2 Weibullova (Tabulka 2) a Paretova (Tabulka 3) rozdělení pro několik hodnot parametru c. Hustoty Weibull Hustoty Pareto =0.5 c=0.75 c=2.5.5 5 0 5 Skalar score Weibull 3 5 7 Scalar score Pareto c=2.5 c=0.5 c=2.5 c=0.75 5 0 5 3 5 7 Obr.. Skalární skóry dvou rozdělení, která nejsou v D (0, ) Weibullovo rozdělení s těžištěm x = 5 a hustotami rychle klesajícími k nule má pro x + neomezené skalární skóry. Paretovo rozdělení je jednoduché rozdělení s těžkým chvostem a tedy omezenými skóry v +. 2
7 Použití skalární skórové funkce 7. Zobecněné momentové odhady Skalární skóry jsou často dány jednoduchými vzorci, pasují totiž ke svému rozdělení, takže skórové momenty (6) jsou pro běžná rozdělení elementárními (ale někdy ne zcela jednoduchými) funkcemi parametrů. Odhady parametrů metodou skórových momentů (SM odhady, rovnice (7) kde S je dáno vztahem (27)) jsou M-odhady, takže jsou konzistentní a asymptoticky normální. V jednodušších případech lze skalární skór vyjádřit ve tvaru S(x; x ) kde x = x (θ). Protože M = 0, odhad ˆx SM těžiště x se určí z rovnice S(x i ; ˆx SM) = 0 (29) a má asymptotický rozptyl (9), kde ψ(x; x ) = S(x; x ). Tak např. pro gamma rozdělení (Tabulka 4) je S(x; α, γ) = γ α (γx α) = γ(x/x ), takže z (29) plyne, že x SM = x je AN(α/γ, α/nγ2 ). Pozoruhodné je, že v rovnicích (6) se proměnná vyskytuje pouze uvnitř skalárního skóru. Pokud je tedy S omezená funkce, jsou odhady všech parametrů robustní. V této skutečnosti spočívá hlavní přednost metody skórových momentů oproti metodě maximální věrohodnosti. V případě, že pracujeme s modelem, ve kterém lze předpokládat výskyt odlehlých pozorování, tato pozorování jen málo zkreslí výsledky. Cenou za tuto vlastnost je menší vydatnost nových odhadů. V obr. 2 jsou vyneseny průměry ML a SM odhadů těžiště ˆx na základě 5000 výběrů z Paretova rozdělení s ω =, t.j. (c =.52), v závislosti na velikosti kontaminace d. Rozdělení jsme kontaminovali tak, že k desetině hodnot výběru X 00 byla přičtena konstanta d. Pro představu uvádíme průměrné hodnoty kvantilů uspořádaných výběrů při ω = : q 25 =.23, q 50 =.70, q 75 = 2.9, q 90 = 4.65. Průměrná standardní odchylka odhadů, σ/ n, byla 0.063 pro ML a 0.08 pro SM. Vydatnost SM odhadů je tedy zhruba 0.8, ale s rostoucím d roste vychýlení ML odhadů, kdežto ˆx SM se ustálí na určité zvýšené hladině. 3
Pareto: x* * ML o SM 5 0 5 20 25 d Obr. 2. Odhady těžiště pro kontaminované Pareto Pro rozdělení s neomezeným skalárním skórem (je to většina prakticky používaných rozdělení) lze jednoduše použít postupů robustní statistiky, např. zobecnit Huberovu funkci (kap. 3). Buď X = (a, b) R, a < u < v < b a nechť parametrické rozdělění (rodina) F θ má nosič X a na něm neomezený skór S(x; θ). Definujme zobecněnou Huberovou funkci vztahem v pro x > v Ψ F (x) = S(x; θ) pro u < x < v u pro x < u. Robustní odhady parametrů ve shodě s uvažovaným modelem pak obecně dostaneme řešením soustavy (7) ve tvaru n Ψ k F (x i ; θ) M k (θ) = 0 k =,..., m kde M k (θ) je k-tý moment funkce Ψ k F (x; θ). Kromě nejednodušších případů, praktická aplikace metody zatím naráží na obtížný výpočet těchto momentů. 7.2 Charakteristiky rozdělení a datových souborů Skórové momenty M k = ES k představují nové charakteristiky rozdělení. M = 0 a kořen rovnice S(x) = 0 je těžiště ( střed ), ω 2 = /M 2 je charakteristikou variability (ω je poloměr ), M 3 jistým způsobem charakterizuje šikmost a /M 4 špičatost rozdělení. Namísto výběrové střední hodnoty a výběrového rozptylu můžeme za charakteristiky výběru z rozdělení považovat odhady těžiště a s-variance. Položíme-li ˆx = x (ˆθ) a ˆω 2 = ω 2 (ˆθ), zkonstruujeme jejich odhady z (třeba 4
maximálně věrohodných) odhadů parametrů. Rodina, do které patří rozdělení populace F, je obvykle známa jen přibližně, rozumné je proto vyzkoušet více modelů. Odhady parametrů různě parametrizovaných rodin se porovnávají jen obtížně, je však snadné porovnávat odhady těžiště a s-variance (a jejich přesnost). Z tohoto hlediska nemusí být odhady parametrů konečným cílem zpracování, ale prostředkem k sestrojení výběrového těžiště a výběrové s-variance. Podobně jako pro rozdělení gamma v kap 7., z rovnice (29) lze nalézt analytické výrazy pro ˆx i pro některá další rozdělení, viz Tabulka 4. Výběrovým těžištěm gamma (a tedy i exponenciálního) rozdělení je aritmetický průměr, lognormálního geometrický průměr a Paretova harmonický průměr. Výběrové těžiště Lomaxova rozdělení (beta 2.druhu pro p = ) je dáno jakýmsi originálním průměrem. V tabulce uvádíme i výběrové s-variance. Pro rozdělení s jedním parametrem je ˆω 2 ovšem funkcí ˆx, pro rozdělení se dvěma parametry se po připojení rovnice pro druhý skórový moment našly analytické vzorce pro gamma a lognormální rozdělení. Obecně je třeba ˆx and ˆω 2 hledat iteračními postupy. Tabulka 4. Výběrové těžiště a výběrová skórová variance některých rozdělení. rozdělení ˆx ˆω 2 gamma x (xi x) 2 lognormální x G = xi n n log 2 x i / x G Paretovo x H = n/ /x i (2 x H )( x H ) 2 Lomaxovo x L = 7.3 Vzdálenosti x i + xi x i + x 2 L (2 x L + ) Z předchozího textu kapitoly je patrné, že za relevantní charakteristiky rozdělení lze považovat skórové momenty a za charakteristiky dat výběrové skórové momenty, obecně konstruované z odhadnutých parametrů, které jsou určeny z rovnic, ve kterých vystupují pozorovaná data X n pouze prostřednictvím skalárního skóru. Je tedy možné namísto náhodných veličin X,..., X n s identickým rozdělením F uvažovat náhodné veličiny S(X ),..., S(X n ), kde S je skalární skór rozdělení F, a namísto pozorovaných dat uvažovat latentní data S(x ; θ),..., S(x n ; θ), (30) 5
kde S(x, θ) je skalární skór příslušný uvažovanému modelu F θ 9podobným způsobem se můžeme dívat na data v modelech se skórem pro parametr polohy, a podle (26) i v modelech z třídy D X )). Z tohoto pohledu je přirozená vzdálenost (diference) bodů x, x 2 ve výběrovém prostoru X rozdělení F se skalárním skórem S dána vztahem D(x, x 2 ) = S(x 2 ) S(x ) (3) a latentní vzdálenost ve výběrovém (datovém) prostoru D θ (x, x 2 ) = S(x 2 ; θ) S(x ; θ). Po odhadnutí θ lze diferenci Dˆθ(ˆx, x ) využít ke konstrukci intervalů spolehlivosti pro odhad těžiště, viz [6]. 7.4 Informace a neurčitost Domníváme se, že veličina ES 2 (Fisherova informace) představuje informaci rozdělení. ES 2 je pro štíhlá rozdělení velká a malá pro placatá, což opravňuje volbu s-variance jako ω 2 = /ES 2. Funkce neurčitosti náhodné veličiny X je definována v [7] jako U(x) = S2 (x) (ES 2 ) 2. (32) Střední neurčitost rozdělení je pak EU = ω 2. Na obr. 3 jsou znázorněny funkce neurčitosti tří rozdělení s nosičem (0, ). U(x) 4 3.5 3 2.5 2.5 0.5 0 0 2 4 6 8 x Obr. 3. Funkce neurčitosti rozdělení gamma (plná čára), lognormalného (čárkovaná) and log-logistického (beta 2. druhu s p = q =, tečkovaná). 6
7.5 Korelace a regrese Máme-li data typu (30) pro dvě náhodné veličiny, můžeme je použít pro studium jejich vzájemného vztahu. Skórový kovarianční koeficient náhodných veličin X, Y s rozděleními F X, F Y a skalárními skóry S X, S Y definujeme jako Cov S (X, Y ) = ES X S Y. Skórový korelační koeficient je pak a jeho výběrový protějšek je R(X, Y ) = Cov S (X, Y )/ M 2 (X)M 2 (Y ). (33) ˆR XY = n n S X(x i, ˆθ X )S Y (x i ; ˆθ Y ) S2 X (x i, ˆθ X ) n S2 Y (y i, ˆθ, (34) Y ) kde ˆθ X a ˆθ Y jsou odhady parametrů (marginálních) rozdělení X a Y. V horní části obr. 4 je znázorněna závislost průměrného Pearsonova, Spearmanova a skórového korelačního koeficientu z 5000 výběrů délky n = 00 náhodných veličin X a Y, kde X a Z jsou generovány z Paretova roz- Korel. koeficient, Pareto * ML o SM x Spearman 0.5.5 ω 2 Chyba odhadu 0.5.5 ω 2 Obr. 4. Korelační koeficienty pro kontaminované výběry z Paretova rozdělení 7
dělení a Y = 0.32X + 0.868Z, na rostoucí variabilitě rozdělení popsané veličinou ω. Teoretický korelační koeficient je r XY = 0.5. Z horního obrázku je patrné, že ˆR XY roste (v tomto případě) podobně jako Spearmanův koeficient. Pearsonův ˆr XY sice vypadá na horním obrázku méně ovlivněn generovanými velkými hodnotami při rostoucím ω, ale ze spodního obrázku, kde je vynesena průměrná středněkvadratická odchylka odhadu, je jasné, že v jednotlivých případech ˆr XY poskakuje zcela libovolně. Předpokládejme teď, že náhodnou veličinu Y lze vyjádřit jako Y = α 0 + α X + ε, kde ε je náhodná proměnná s rozdělením F ε. Pro odhad koeficientů α 0 a α požadujme minimální Fisherovu informaci reziduí, t.j. n Sε 2 (ε i ) = min., (35) Zde ε i = y i (α 0 + α x i ) jsou rezidua a S ε je skalární skór rozdělení F ε. Ve dvojicích (x i, y i ) vyznačených kroužky na obr. 5 je x i realizací rovnoměrně rozdělené X a y i = 2.3 +.2x i + (ε ε ), kde ε je generována jako náhodná veličina s nesymetrickým Lomaxovým rozdělením s těžištěm ε. Předpokládáme-li tento model reziduí, určíme během iteračního procesu jeho parametry a výsledkem skórové regrese je přímka, která se od přímky proložené standardní metodou nejmenších čtverců i od přímky proložené robustní metodou s obvyklým předpokladem symetrie rozdělení chyb (kód robustfit v Matlabu) docela výrazně liší. Přímka proložená podle (35) bere nesymetrii v úvahu. Lineární regrese... klasická Huberova beta prime 5 0 5 Obr. 5. Porovnání tří typů lineární regrese 8
Literatura [] Antoch J., Vorlíčková D. (992). Vybrané metody statistické analýzy dat. Academia. [2] Casella, G., Berger, R.L. (2002). Statistical inference. Duxbury. [3] Fabián, Z. (200). Induced cores and their use in robust parametric estimation. Comm. Statist. Theory Methods 30, 537-556. [4] Fabián, Z. (2007). Estimation of simple characteristics of samples from skewed and heavy-tailed distribution. In Skiadas, C. (ed.) Recent Advances in Stochastic Modeling and Data Analysis, Singapore, World Scientific, 43 50. [5] Fabián, Z. (2009). The t-information and its use in multivariate problems and time series analysis. J. Statist. Planning and Inference 39, 3773-3778. [6] Fabián, Z. (2009). Confidence intervals for a new characteristic of central tendency of distributions. Comm. Statist. Theory Methods 38, 804-84. [7] Fabián, Z. (2009). O rozděleních s těžkými chvosty. Informační bulletin ČSS 20, 3. [8] Fabián, Z. (200). Score moment estimators. Proc. of COMPSTAT 200. [9] Fabián, Z. (200). Characteristics of data from skewed distributions. In V. Snášel, V. Voženílek (eds.): Artificial inteligence in GIS, -22. [0] Fabián, Z. (20). A new statistical tool: Scalar score function. Computer Technology and Application 2, 09-9. []. Huber, P. J., Ronchetti, E. M. (2003). Robust Statistic. The Approach Based on Influence Functions, Wiley, New York. [2] Johnson, N.L. (949). Systems of frequency curves generated by methods of translations. Biometrika 36, 49-76. [3] Jurečková, J. (200). Robustní statistické metody. Nakl. Karolinum. [4] Stehlík, M., Potocký, R., Waldl, H., Fabián, Z. (200). On the favorable estimation for fitting heavy tailed data. Comput. Stat. 25, 485-503. 9