VYBOČUJÍCÍ HODOTY VE VÍCEROZMĚRÝCH DATECH JIŘÍ MILITKÝ, Katedra tetlních materálů, Techncká unversta v Lberc, Hálkova 6 461 17 Lberec, e- mal: jr.mlky@vslb.cz MILA MELOU, Katedra analytcké cheme, Unversta Pardubce, Pardubce Motto: Všechno je jnak Abstrakt: Jsou popsány základní postupy pro určování odlehlých měření ve vícerozměrných datech, které jsou modfkací postupů pro jednorozměrná data. Jsou vybrány především metody, které př své jednoduchost umožňují zpracovat výběry obsahující skupny vlvných bodů, kde se může projevt jak maskování tak nesprávné zařazení korektních bodů. Jsou uvedeny jednoduché grafy pro dentfkac skupn vlvných bodů. 1.Úvod Jednou ze základních úloh analytcké cheme je smultánní montorování úrovně různých látek v materálech, ovzduší, vodě a půdě. Cílem je často zjštění, zda dané látky (celkem p nepřekračují zadané úrovně. Standardně se vychází z vícerozměrných výběrů obsahujících měření ( 1.... Vektor j j pro j té měření obsahuje složky ( j1, j jp. Výsledkem měření je tedy matce dat X řádu p obsahující řádků (měření a p sloupců (látek. Účelem je v nejjednodušším případě stanovení vhodného odhadu vektoru středních hodnot µ a porovnání se zadaným úrovněm µ o. S ohledem na varabltu měření je vhodné ověřt, zda vektor µ o padne do oblast spolehlvost CI vektoru parametrů µ č nkolv. Tato úloha může být komplkována jak nestejným rozptyly tak vzájemnou korelací mez látkam (sloupc matce X. Také celá řada dalších úloh z oblast analytcké cheme vede na zpracování vícerozměrných výběrů. Problém komplkuje to, že data z oblast analytcké cheme mají standardně některé specfcké zvláštnost: (a rozsahy zpracovávaných dat nejsou obyčejně velké, (b v datech se vyskytují výrazné nelnearty, neadtvty a struktury, které je třeba dentfkovat a popsat,
(c rozdělení dat jen zřídka odpovídá normálnímu běžně předpokládanému ve standardní statstcké analýze, (d v datech se vyskytují vybočující měření a různé heterogenty, (e statstcké modely se často tvoří na základě předběžných nformací z dat (datově orentované přístupy, (f parametry statstckých modelů mají mnohdy defnovaný fyzkální význam, a musí proto vyhovovat velkostí, znaménkem nebo vzájemným poměrem, (g estuje jstá neurčtost př výběru modelu, popsujícího chování dat. Z hledska použtí statstckých metod je proto žádoucí mít možnost zkoumat statstcké zvláštnost dat (průzkumová analýza, ověřovat základní předpoklady o datech a hodnott kvaltu výsledků s ohledem na základní schéma "data - model - statstcká metoda" Toto schéma se považuje za základ nteraktvní tvorby statstckých modelů všeho druhu. Př jeho praktckém použtí však nastávají problémy s tzv. vybočujícím hodnotam (body a to nejen s jejch ndkací, ale zejména nterpretací a omezením jejch vlvu. Všeobecně se soudí, že většna statstckých metod je výrazně negatvně ovlvněna přítomností vybočujících bodů. Ve skutečnost záleží na tom, o jaké vybočující body jde, a kde se vyskytují. ( např. v regresní analýze mohou vybočující body jak zvětšovat tak zmenšovat korelační koefcent. V některých případech je třeba rozhodnout, zda podezřelé hodnoty považovat za správné (a pracovat např. se zeškmeným rozdělením nebo za chybné a jejch vlv elmnovat. Toto rozhodnutí nelze učnt bez znalost způsobu získávání dat a realzace epermentů. esprávné rozhodnutí může mít katastrofcké důsledky s ohledem na nterpretac výsledků a praktcké závěry. V této prác popsány postupy pro určování odlehlých měření ve vícerozměrných datech, které jsou modfkací postupů pro jednorozměrná data. Jsou uvedeny jednoduché grafy pro dentfkac skupn vlvných bodů.. Vybočující body Pojem vybočující body evokuje představu, že jde o body, které lze vzuálně určt na základě vhodného zobrazení. To platí pro jednorozměrné výběry, kdy vybočující znamená také odlehlé. Ve vícerozměrných případech jsou vybočující hodnoty buď odlehlé co do hodnot od ostatních nebo neodpovídající strukturám v ostatních datech. Pro vybočující body obecně platí, že: - zkreslují výsledky - nelíbí se vypadají nepatřčně - zhoršují přesnost - neumožňují selekc modelu
Pro dentfkac odlehlých měření je obecně třeba: - defnovat čstá data - určt pravděpodobnostní model dat (a často vybočujících bodů - odhadnout parametry tohoto modelu Př analýze vybočujících bodů se množna ndeů I = (1,,3, rozkládá na podmnožnu potencálně dobrých dat D a potencálně vybočujících bodů V. Tedy I = (D,V. Počet potencálně dobrých dat je D a počet potencálně vybočujících bodů je V. Podíl vybočujících bodů je pak e = V /. echť je rozdělení podílu 1 - e dobrých bodů charakterzováno dstrbuční funkcí G( µ 0, Σ 0 s vektorem středních hodnot µ 0 a kovaranční matcí Σ 0 a rozdělení podílu e potencálních vybočujících bodů je µ+µ 0 H ( µ+ µ 0, Ω s vektorem středních hodnot a kovaranční matcí Ω. Očekávaná hodnota výběrového průměru p ze všech dat je pak = 0 E( p µ + e µ a očekávaná hodnota výběrové kovaranční matce S je E ( S = (1 e Σ 0 + e Ω + e (1 e µ Je tedy patrné, že výběrové průměry a kovaranční matce ze všech dat jsou závslé jak na podílu vybočujících bodů tak na jejch parametrech. To může vést k stuac, kdy se z odhadů získaných ze všech dat nedají určt vybočující body. ejhorší stuace z hledska ndkace vybočujících bodů je případ, kdy obě kovaranční matce mají stejný tvar. Tento typ vybočujících bodů se označuje jako posunuté vybočující body. Pro ndkac vybočujících měření se často s výhodou používá defnce zobecněné vzdálenost T µ d = ( AD T *[ w( D, p * S D ] 1 * ( AD kde AD a S D jsou vektor artmetckých průměrů a kovaranční matce pro potencálně dobrá data. Korekční faktor w(d,p byl zaveden ve tvaru [4] p + 1 w( D, p = 1 + + 1 3 D p D p
Většna metod pro ndkac vybočujících bodů vychází z představy vícerozměrné normalty, kdy a G ( µ 0, Σ 0 = ( µ 0, Σ 0 H µ + µ, Ω = ( µ + e µ, k. ( 0 0 Ω Tato představa je potřebná pro určení krtckých mezí oddělujících dobrá a špatná data. Podíl e ovlvňuje také špčatost rozdělení měření. Pro jednorozměrné výběry asymptotcky (pro s / D s V platí, že špčatost g je dána vztahem g = e 3 + (1 e e (1 e 3 Pro e = 0,5 je g = 1 (mnmum a pro e blízké nule je g rostoucí nade všechny meze. ejmenší počet e dobrých bodů je e = nt[( + p +1 / ] Technky ndkace vybočujících bodů jsou ctlvé na tzv. maskování, kdy vybočující jeví jako korektní (díky zvětšení kovaranční matce. Dalším problémem je překryt, kdy přítomnost vybočujících měření způsobí, že některá správná měření leží mmo akceptovatelnou oblast.(díky zkreslení kovaranční matce [1]. Schematcky jsou tyto stuace znázorněny na obr. 1 (vybočující body jsou tmavé. A. maskování B. překryt Obr. 1 Příklad maskování (A a překrytu (B
Znázornění na obr 1. vychází z faktu, že čtverce zobecněných vzdáleností mají χ p rozdělení (elpsa je tedy hranční oblast oddělující dobrá (D a vybočující (V data. Řada metod pro dentfkac vybočujících bodů funguje jen pro některé stuace nebo modely datových struktur. Příkladem jsou technky uvažující pouze jedno vybočující měření (testy založené na odchylkách od průměru atd. nebo specální metody pro regresní modely. Samostatným problémem je nterpretace vybočujících hodnot. Estují dvě mezní stuace: A. Vybočující měření je chybné. To je třeba. případ, kdy vznkne chyba př měření, resp. zpracování dat (např. místo 0.74 je použta hodnota 74. B. Vybočující měření je správné. To je případ, kdy byl použt nesprávný předpoklad o rozdělení dat (např. normalta pro případ, že reálné rozdělení je slně zeškmené nebo jde o tzv. řídké jevy (které se u malých výběrů mohou jevt jako vybočující. V realtě nelze často rozhodnout, o který případ se vlastně jedná. Problém je také v tom, co s vybočujícím hodnotam dělat. Přímá možnost, tj. jejch odstranění je nebezpečná ze dvou důvodů: a data se upravují tak, aby vyhovovala předpokládanému modelu a nelze tedy dobře posoudt jeho vhodnost, b varablta dat vyjde etrémně nízká, což se může negatvně projevt př porovnání s novým daty, resp. nformacem Jednotný postup zde neestuje a záleží na epermentátorov, resp. zpracovatel jakou varantu zvolí.vzhledem k tomu, že vybočující body jsou většnou etrémně vlvné vede zde nevhodná manpulace ke ztrátě nformací a nesprávným závěrům. V souvslost s vybočujícím body je možné defnovat tyto základní paradoy: 1. známe - l rozdělení dat a model můžeme určt vybočující hodnoty. Model a rozdělení dat se však hledá.. pro posouzení vybočujících měření potřebujeme znát čstá data. Robustním metodam však dostaneme data čstá s ohledem na základní model
3. e vše co vypadá jako vybočující skutečně vybočuje a naopak (maskování, překryt 4. Platí, že co je vybočující pro jeden model může být akceptovatelné pro jný model 3. Jednorozměrné výběry Standardní způsob zpracování jednorozměrných výběrů spočívá ve výpočtu artmetckého průměru A a výběrového rozptylu s. Je známo, že pokud zpracovávaný výběr velkost prochází z ne - normálního rozdělení se střední hodnotou µ a rozptylem σ (< má náhodná velčna Z = * ( A µ /σ (1 asymptotcky normální rozdělení. Pokud není σ známo, nahrazuje se výběrovou směrodatnou odchylkou s. Pak má tzv. Studentova náhodná velčna t * ( A µ / s = ( Studentovo rozdělení s ( - 1 stupn volnost. Asymptotcká normalta velčny Z resp. Studentovo rozdělení velčny t umožňuje konstrukc ntervalu spolehlvost střední hodnoty µ. Př tzv. frekventstckém přístupu je 100 (1 - α % na nterval spolehlvost CI defnován vztahem ( CID µ CIH = 1 α P (3 Symbol P (. označuje pravděpodobnost a α je tzv. hladna významnost. Obyčejně se volí α = 0.05 nebo α = 0.01 s tím, že čím je α menší, tím je nterval (CID, CIH šrší. Př znalost rozptylu σ je možno nterval spolehlvost CI vyjádřt ve tvaru s α / µ A z A z1 * α / * (4 kde z1 α / = zα / jsou kvantly normovaného normálního rozdělení. Pokud není σ známo lze použít vztah s A s t1 / ( 1 * A t / ( 1 * α µ α (5 s
t t kde 1 α / ( 1 = α / ( 1 jsou kvantly Studentova rozdělení s -1 stupn volnost. Pro případ normálního rozdělení mají ntervaly (4 resp. (5 přesně 100(1-α % ní pokrytí střední hodnoty.to znamená, že jen v 100α/ % případů je střední hodnota menší než CI (nejstota P zprava a v 100α/ % případů je větší než CI (nejstota L zleva.pro případ ne-normálního rozdělení platí tyto ntervaly pouze asymptotcky tedy pro dostatečně vysoká. Dostatečná velkost závsí slně na škmost g1( rozdělení z kterého data pocházejí [3]. Pro kvantfkac vlvu škmost na rozdělení náhodné velčny Z defnované rov. (1 je možno použít prvního členu Edgeworthova rozvoje pro, který platí P( Z g1( * ( 1 = Fn ( f n ( (6 6 Zde F n ( je dstrbuční funkce normovaného normálního rozdělení a f n ( je odpovídající hustota pravděpodobnost. Škmost náhodné velčny Z je dána vztahem g Z g ( / 1 ( = 1 (7 Čím je g 1 (Z blíže k nule, tím je rozdělení velčny Z blžší normálnímu. Z rov. (6 je patrné, že pro rozdělení dat zeškmené k vyšším hodnotám (tj. g 1 ( kladné, je také rozdělení náhodné velčny Z zeškmené k vyšším hodnotám (tj. g 1 (Z kladné. Interval spolehlvost (4 pak má vyšší horní mez CIH a vyšší dolní mez CID než odpovídá reálnému rozdělení statstky Z. apř. pro výběr rozsahu =10 ze standardzovaného eponencálního rozdělení, kdy je g 1 (=, je 97.5 % ní kvantl rozdělení velčny Z určený z rov. (6 roven.4 a odpovídající kvantl normovaného normálního rozdělení je pouze 1.96. Podobně lze určt, že.5 % ní kvantl Z je pouze 1.65 oprot odpovídajícímu kvantlu normovaného normálního rozdělení -1.96. Interval spolehlvost defnovaný rov. (4 je tedy celý posunut doprava oprot skutečnému [3]. Také pro kvantfkac vlvu škmost na rozdělení náhodné velčny t defnované rov. ( je možno použít prvního členu Edgeworthova rozvoje P( t g1( * ( + 1 = Fn ( + f n ( (8 6 Zde je opět F n ( dstrbuční funkce normovaného normálního rozdělení a f n ( je odpovídající hustota pravděpodobnost. Př porovnání s rov. (6, je patrné
opačné znaménko korekčního členu, což znamená, že pro rozdělení dat zeškmené k vyšším hodnotám (tj. g 1 ( kladné, je rozdělení náhodné velčny t zeškmené k nžším hodnotám (tj. g 1 (t záporné. Interval spolehlvost (5 pak má nžší horní mez CIH a nžší dolní mez CID než odpovídá reálnému rozdělení statstky t. Interval spolehlvost defnovaný rov. (5 je tedy celý posunut doleva oprot skutečnému [3]. To je zvláště nepříjemné u dat slně zeškmených vpravo a vede to k přehnaně optmstckým závěrům. Př testování hypotéz o střední hodnotě se používá statstka ( A µ 0 t( s = (9 Zde je uvažováno jako poslední hodnota ve výběru tj. =. Obecně přjímaný předpoklad je, že stačí přítomnost jednoho vybočujícího bodu aby došlo ke zvýšení t( a tedy zamítnutí nulové hypotézy H o : µ = µ 0 je nesprávný. a obr. je zakreslen průběh funkce t( pro výběr V = (10, 10, 11,11, pro = 5,6, 50. Hvězdčkam je znázorněna krtcká hodnota Studentova rozdělení t1 α ( 1 =.1318 pro α = 0.05 a = 5, která platí pro alternatvní hypotézu H A : µ> µ 0..5 t krtcke 1.5 t( 1 t( 0.5 0-0.5-1 5 10 15 0 5 30 35 40 45 50 Obr. Vlv velkost posledního bodu výběru (10,10,11,11, na velkost t(
Je patrné, že pouze malá oblast nad hvězdčkam vede k přjetí alternatvní hypotézy a slně vybočující bod naopak podporuje hypotézu nulovou o shodě střední hodnoty s. Dá se také ukázat, že [5] µ 0 = 10 lm t( = ± 1 ± Snadno lze také odvodt, jakému odpovídá mamum t(. Zaveďme označení 1 a = a b 1 =. Pak v případě, že a ( 1 µ 0 nabývá t( = 1 = 1 nejvyšší hodnoty pro c rovno [5] c = b aµ 0 a ( 1 µ 0 Je tedy patrné, že slně vybočující měření vede k poklesu t(. Pokud je a = ( 1 µ 0 je t(.monotónně rostoucí od 1 do 1. Příklad Mějme čstá data D1= (10, 10, 11, 11, 1 a µ 0 = 10. Pak t( =,138. Pro data s vybočujícím měřením D = (10,10,11,11,18 je však t( = 1,318. Tedy hypotéza Ho: µ 0 = 10 je pravděpodobnější. Mamálnímu t( odpovídá hodnota c = 11. Pro dentfkac vybočujících hodnot se používá řady testů založených na defnc standardzované mamální odchylky od artmetckého průměru (počítaného bez etrémní hodnoty. Jednoduchá momentová metoda předpokládá, že vybočující je takové j,pro které je A * K. s * j c kde K c [ 0.8. g * 1.log( /10] = 1.55 + *, s*... čsté odhadnuty střední hodnoty a směrodatné odchylky A (bez podezřelého bodu j. g *... odhad špčatost bez vybočujícího bodu
g * =. ( 4 [ ( ] Postup je vhodný pro 0. Pro = 0 vyjde pro různá rozdělení: ormální rozdělení g = 3 K c = 1.89 Rovnoměrné rozdělení g = 1.8 K c = 1.77 Laplaceovo rozdělení g = 6 K c =.09 V případě více vybočujících měření se postupně vylučují podezřelé body na základě výše uvedeného krtéra nebo se smultánně určují všechny vybočující hodnoty pro různé kombnace podezřelých bodů. Obecně je tedy třeba řešt tyto úlohy: A. Výběr vhodného rozdělení dat B. určení čstých odhadů ze všech bodů, nebo podmnožny čstých bodů C. nalezení krtcké hodnoty pro selekc vybočujících bodů Jako vhodné rozdělení dat (A se většnou uvažuje rozdělení normální, protože umožňuje jednoduché nalezení krtckých hodnot (C. Pro určení čstých odhadů se používají především různé robustní metody. Pro nalezení čstých bodů se používá dvou přístupů: Brute force kdy se zkouší všechny možné kombnace podvýběrů. Tento postup vede k cíl ale je časově náročný. Clean subset kdy se hledají data, která jsou určtě čstá a nezkreslí odhady střední hodnoty a rozptylu. Je snahou nalézt takové metody, které nevyžadují přílš komplkované výpočty a přtom jsou dostatečně spolehlvé. Obecně lze tento přístup použít pro lbovolně rozměrná data. 4. Vícerozměrná data Předpokládejme pro jednoduchost, že nestrukturovaná data mají p rozměrné normální rozdělení ( µ, Σ, kde µ je vektor středních hodnot a Σ je kovaranční matce. Vybočující měření leží v oblast out( α p T 1 ( R : ( µ Σ ( µ χ µ, Σ = > 1 α 1 α
Tato oblast pokrývá celý prostor E p s vyloučením vícerozměrného elpsodu kolem vektoru středních hodnot. Vybočující body jsou tedy přílš vzdáleně od střední hodnoty. Oblast vybočujících bodů OR pro výběr velkost je určena výrazem p T 1 ( R : ( S ( c( p,, α OR ( α α, = >, 1 A A kde α = ( 1 α pro α = 0.05, 0. 1. Vše co leží v OR je vybočující. Oblast vybočujících bodů úzce souvsí se zobecněnou (Mahalanobsovou vzdáleností resp. jejch čtvercem d = ( A T S 1 ( A Jako vybočující se pak dentfkují ty body, pro které je d > c( p,, α Pro případ vícerozměrného normálního rozdělení a velké výběry je ( p,, α dáno kvantlem chí kvadrát rozdělení c c( p,, α = χ p (1 α / Pro malé výběry je lépe použít modfkovaný koefcent c( p,, α = p * ( 1 * ( n p 1+ * F p, p 1 p * F p, p 1 (1 α / (1 α / Je zajímavé, že pro případ jednoho vybočujícího měření neroste zobecněná vzdálenost nade všechny meze, ale je ohrančená hodnotou d ma ( 1 Wlks použl pro určení jednoho vybočujícího bodu ve vícerozměrných datech statstku R = det( S det( S
kde S je odhad kovaranční matce s vynecháním -tého bodu a S je odhad kovaranční matce ze všech bodů. Mnmální R ndkuje potencální vybočující bod. Dá se ukázat, že R souvsí se čtvercem zobecněné vzdálenost vztahem R = 1 ( 1 d Aby bylo možno použít zobecněné vzdálenost pro dentfkac vlvných bodů, je třeba určt čsté odhady A a S. Pro robustní odhady se často volí [1]: - M odhady - S odhady mnmalzující det S s omezením - Odhady mnmalzující objem konfdenčního elpsodu Pro stanovení čsté podmnožny dat se doporučuje BACO algortmus, složený z těchto kroků: 1. určení základní podmnožny m > p čstých dat. odhady parametrů předpokládaného modelu M a nalezení rezduí pro všechny body 3. doplnění základní podmnožny o data s malým rezdu a vyloučení dat s velkým rezdu 4. terace kroků a 3 až se překročí pravdlo ukončení 5. body, které nejsou v základní podmnožně jsou vybočující BACO pro vícerozměrná data (bez struktury se skládá z těchto kroků: 1.Výběr základní podmnožny bud na základě - Mahalanobsovy vzdálenost a uřezání podezřelých dat - Vzdálenost od medánu Výsledkem je podmnožna čstých dat s parametry Ac S c. Výpočet rezduí d = ( AC T S 1 C ( AC 3. doplnění čsté podmnožny o body s rezduem menším než c * χ α, kde c 1 = ma(0, ( h r /( h + r ; h = ( n + p + 1 / c = 1+ ( p + 1 /( n p + /( n 1 3p c = c 1 +c
4. Skončení procesu v okamžku, kdy se jž nc nepřdává an neubírá Poměrně jednoduchá je metoda využívající kombnace dentfkace potencálně vybočujících bodů a uřezaných odhadů. V té terac se určí uřezané odhady RC a S C, kde se uřezává defnované procento ( obyčejně 30% bodů s nejvyšším zobecněným vzdálenostm z vektoru d -1 vypočítaného v -1 té terac. Z takto získaných odhadů se vypočte vektor opravených zobecněných vzdáleností d a přechází se na +1 ní terac. Proces je ukončen, když se ve dvou následujících teracích nemění odhady parametrů RC a S C (mamální rozdíl je menší než 10-6 4.Grafcká nterpretace výsledků Př dentfkac skupn vybočujících bodů se s výhodou volí různé typy grafů. Mez základní patří: A. Indeový graf pro Mahalanobsovy vzdálenost. Vynáší se d ( prot a krtcká úroveň. Vybočující body leží nad touto úrovní (0.5 B. Q-Q graf funkcí d p, p. Vynáší se y = d ( prot = Fp, p ( + 1 F medan( d možné také volt klascký Q-Q graf, kdy se vynáší pořádkové statstky d ( (tj. vzestupně uspořádané čtverce vzdáleností prot kvantlům χ p rozdělení.. Poměr y / > ndkuje vybočující body. Je C. Úhlová metoda založená na jednorozměrné projekc dat. Je známo, že 1 pro elptcké rozdělení X = Σ * y + µ má y = S ( m crkulární rozdělení a = má vícerozměrné rovnoměrné u y / rozdělení. Pro zvolené u o má pak velčna rovnoměrné rozdělení. u0 u y w 1 = cos ( u T 0 u Zde u o je blízké směrům, kde nabývá špčatost mama resp. mnma.
Konstruuje se tedy Q-Q graf pro rovnoměrné rozdělení, kdy se vynáší w ( vs. P = /(+1 w ( f 5. Program EXMUL Pro dentfkac vybočujících bodů ve vícerozměrných datech byl sestaven program EXMUL v jazyce MATLAB. Program obsahuje tyto část: - Eploratorní grafy pro vícerozměrná data [1] - Robustní odhad A a S využívající elptcké vícerozměrné uřezání Indeový graf pro d - Q-Q graf pro funkc d - Úhlový graf Pro lustrac čnnost tohoto programu byla použta Hockngova syntetcká data určená pro regresní dagnostku. =6, p = 4 Model: Y = a0 + a1*1 + a* + a3*3 Generace dat : y= 0 + 3*1 - * + eps1 eps1...náhodná čísla z (0,.5 multkolnearta: *3 = 60-3*1-1.5* + eps, eps... náhodná čísla z (0,.16 Vybočující body : č.11,17,18. Etrém : č.4 (leží mmo rovnu multkolnearty Data byla zpracována jako nestrukturalzovaná. Výstupy jsou na obr. 3-9.
100 Andrews Curves 80 60 Andrews Functon 40 0 0-0 -40 Obr. 3 Andrewsův graf -60-4 -3 - -1 0 1 3 4 Theta 1 3 4 Obr. 4 Paralelní souřadnce Obr. 5 Hvězdy
5 0 15 10 5 0 0 5 10 15 0 5 30 Obr. 6 Zobecněné vzdálenost (Mahalanobsovy pro odhady středních hodnot a kovaranční matce ze všech dat (momenty. 500 000 1500 1000 500 0 0 5 10 15 0 5 30 Obr. 7 Zobecněné vzdálenost (Mahalanobsovy pro robustní odhady středních hodnot a kovaranční matce (30% uřezání.
3.5 3.5 1.5 1 0.5 Obr. 8 Q-Q graf pro funkc d 0 0 50 100 150 00 50 300 350 400 450.5 1.5 1 0.5 0 0 0. 0.4 0.6 0.8 1 Obr. 9 Úhlová metoda Je patrné, že: 1. ejvíce vlvný je bod č.. Vybočující jsou body 11, 17, 18 ale také. 3. Robustní Mahalanobsova vzdálenost je vhodná pro vícerozměrná data 4. Indeový graf je jednoduchý a přehledný př postačující schopnost dentfkovat skupny vybočujících bodů
Stále platí, že je třeba nejen dentfkovat potencální vybočující hodnoty ale také rozhodnout co s nm dále 8. Závěr Je patrné, že statstcké zpracování dat v analytcké chem má celou řadu specfckých zvláštností. V řadě případů je třeba ve zdánlvě jednoduchých stuacích používat poměrně komplkované metody. Formální aparát statstky resp. přzpůsobení dat potřebám statstcké analýzy bez hlubšího rozboru zde může vést ke katastrofckým závěrům. Poděkování: Tato práce vznkla s podporou výzkumného centra Tetl L00B090 9. Lteratura [1] Meloun M., Mltký J.: Zpracování epermentálních dat, East Publshng Praha 1998 [] Barnett V., Lews T.: Outlers n statstcal data, 3rd. Ed., Wley, Chcheter 1994 [3] Campbell.A.: Appl. Statst. 9, 31 (1980 [4] Had A. S.: J. R. Stat. Soc. B56, 393 (1994 [5] Grmmet D.R., Rdenhorn J.R.: Amer. Statst. 50, 145 (1996 [6] Hockng R.R.,Pendleton O.J.: Commun.Statst. A1,497 (1983