Vícerozměrná geometrická analýza dat

Podobné dokumenty
Úvodem Dříve les než stromy 3 Operace s maticemi

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Charakterizace rozdělení

MOCNINNÁ TRANSFORMACE VÍCEROZMĚRNÝCH DAT

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Vícerozměrné statistické metody

Matematika I 12a Euklidovská geometrie

Náhodné vektory a matice

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

IDENTIFIKACE BIMODALITY V DATECH

Statistická analýza jednorozměrných dat

Definice spojité náhodné veličiny zjednodušená verze

Normální rozložení a odvozená rozložení

Základy teorie pravděpodobnosti

Statistická analýza jednorozměrných dat

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Univerzita Pardubice 8. licenční studium chemometrie

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Přednáška 13 Redukce dimenzionality

PRAVDĚPODOBNOST A STATISTIKA

Analýza hlavních komponent

AVDAT Mnohorozměrné metody metody redukce dimenze

Faktorová analýza (FACT)

Statistická analýza jednorozměrných dat

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

S E M E S T R Á L N Í

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Statistická analýza jednorozměrných dat

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Pravděpodobnost a aplikovaná statistika

AVDAT Geometrie metody nejmenších čtverců

Porovnání dvou výběrů

Vícerozměrná rozdělení

Téma 22. Ondřej Nývlt

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Shluková analýza dat a stanovení počtu shluků

Kvantily a písmenové hodnoty E E E E-02

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

MATEMATIKA Maturitní témata společná část MZ základní úroveň (vychází z Katalogu požadavků MŠMT)

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Úvod do problematiky měření

Základy matematiky pro FEK

Chyby měření 210DPSM

Základy navrhování průmyslových experimentů DOE

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

MATURITNÍ TÉMATA Z MATEMATIKY

Řízení jakosti 2. Užitná hodnota I. JiříMilitký. Užitná hodnota Regulační diagramy Jakost textilních útvarů

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Průzkumová analýza dat

PRAVDĚPODOBNOST A STATISTIKA

Linearní algebra příklady

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií

Mgr. Ladislav Zemánek Maturitní okruhy Matematika Obor reálných čísel

NÁHODNÝ VEKTOR. 4. cvičení

Statistická analýza. jednorozměrných dat

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika)

Gymnázium Jiřího Ortena, Kutná Hora

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

S E M E S T R Á L N Í

Měření závislosti statistických dat

Testování hypotéz o parametrech regresního modelu

Statistická analýza jednorozměrných dat

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

UNIVERZITA PARDUBICE

Inovace bakalářského studijního oboru Aplikovaná chemie

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Analýza dat na PC I.

Statistika pro geografy

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Stavební fakulta Katedra mechaniky. Jaroslav Kruis, Petr Štemberk

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

Regresní analýza 1. Regresní analýza

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity)

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Testování hypotéz o parametrech regresního modelu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Klasifikace a rozpoznávání. Extrakce příznaků

Požadavky na konkrétní dovednosti a znalosti z jednotlivých tematických celků

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Maturitní témata z matematiky

1. Přednáška. Ing. Miroslav Šulai, MBA

9. Je-li cos 2x = 0,5, x 0, π, pak tgx = a) 3. b) 1. c) neexistuje d) a) x ( 4, 4) b) x = 4 c) x R d) x < 4. e) 3 3 b

Porovnání dvou reaktorů

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Transkript:

Motto: Všechno není jinak Vícerozměrná geometrická analýza dat Jiří Militký Katedra textilních materiálů Technická Universita Liberec,

Obsah Jsou popsány základní problémy vznikající v důsledku použití vícerozměrných dat. Je pojednáno o vybraných projekcích pro obecně korelovaná ádata Jsou uvedeny některé možnosti Jsou uvedeny některé možnosti snižování dimense ve statistické analýze vícerozměrných dat.

Problém rozměrnosti I setosa versicolor Základní rys vícerozměrných dat je jejich rozměr (dimense), která komplikuje jak jejich statistickou tak i průzkumovou analýzu. Redukce proměnných řada proměnných má variabilitu na úrovní šumu takže jsou s ohledem na statistickou analýzu nadbytečná. vdatechexistují výrazné lineární vazby (korelace), které jsou způsobeny buď použitím redundantních proměnných nebo vazbami vyplývajícím i z jejich podstaty. Tt Tyto proměnnéě lze častot bez újmy na přesnosti nahradit podstatně menším počtem proměnných, které jsou již nekorelované. virginica

Problém rozměrnosti II Prokletí vícerozměrnosti (multivariate curse), které se projevuji již v tom, že počet dat potřebných k zachování stejné přesnosti při odhadu funkce několika proměnných je exponenciálně rostoucí funkcí jejich počtu. Problém tzv. prázdného prostoru, který klade další nároky na zvětšování velikosti výběru. Problém vyjádření vzdálenosti, vd eos, která je třeba pro řadu metod jak průzkumové tak i konfirmativní statistické analýzy dat.

Primární data matice (pole) X (n x m) Každý sloupec X představuje jeden znak (proměnnou) Každý řádek X představuje jeden objekt (t.j. měření jako jeden bod v čase, osobu, kus atd.) Objekty řádky Y Data jsou uložena do jedné X Znaky sloupce DATOVÁ MATICE (n x m)

Vícerozměrná data Je k dispozici pro n objektů (bodů) celkem m znaků (proměnných) vyjádřených v kardinální škále. Zdrojová matice X má rozměr n m, kde standardně platí, že n je podstatně vyšší než m. Veličina m definuje dimensi problému (určující počet znaků). x.. x Úkoly x x x 11 1 1 j 1m x.. x n1 n nj nm.. x... (a) posoudit podobnost objektů resp. jejich tendenci ke shlukování, (b) nalézt vybočující objekty, resp. jejich znaky, (c) stanovit, zda lze použít předpoklad lineárních vazeb, (d) ověřit předpoklady o datech (normalitu, nekorelovanost, homogenitu).

Přístupy Standardní analýza vícerozměrných dat je založena na analýze matice dat X. Podobně jako u jednorozměrných výběrů se zde provádí standardní statistická analýza založená na parametrech polohy (vektoru průměrů) a rozptýlení (kovarianční respektive korelační matici). Geometrická analýza vícerozměrných dat nahrazuje již od začátku čísla geometrickými objekty (body, čáry, roviny, obrazce) v definovaném zobrazení. Začíná se představou dat jako shluku bodů v Euklidově m rozměrném prostoru E m. Nejde přitom pouze o zobrazení dat ale zejména kvantitativní zkoumání vzájemných vazeb a souvislostí. Základem je tzv. Euklidovský shluk, což je vlastně matice X vyjádřena jako shluk bodů v Euklidově prostoru.

Postup analýzy I Před vlastní aplikací vhodné metody vícerozměrné statistické analýzy je třeba vždy provést étexploratorní (průzkumovou) ů analýzu dat, která umožňuje (a) posoudit podobnost objektů pomocí rozptylových a symbolových grafů. (b) nalézt vybočující objekty, resp. jejich znaky, (c) stanovit, zda lze použít předpoklad lineárních vazeb, (d) ověřit předpoklady o datech (normalitu, nekorelovanost, homogenitu). Jednotlivé techniky k určení vzájemných vazeb se dále dělí podle toho, zda se hledají (a) struktura a vazby ve znacích nebo (b) struktura a vazby v objektech:

Postup analýzy II 1) Struktury ve znacích v metrické škále:faktorová analýza FA, analýza hlavních komponent PCA a shluková analýza analýza hlavních komponent PCA a shluková analýza. () Struktury v objektech v metrické škále: shluková analýza. (3) Struktury v objektech v metrické i v nemetrické škále: vícerozměrné škálování. (4) Struktury v objektech v nemetrické škále: korespondenční analýza. Většina metod vícerozměrné statistické analýzy umožňuje zpracování lineárních vícerozměrných modelů, kde závisle proměnné se uvažují jako lineární kombinace nezávisle proměnných, resp. vazby mezi proměnnými jsou lineární. V řadě případů se také uvažuje normalita metrických proměnných.

Předzpracování dat I Lineární transformace centrování, škálování, standardizace (z skóre) x μ x / σ Omezuje vliv různých jednotek uznaků Nelineární - logaritmická transformace 1. Omezení vlivu extrémních dat ( x μ ) / σ. Omezení vlivu sešikmení rozdělení k vyšším hodnotám 3. Stabilizace rozptylu (omezení heteroskedasticity) Pořadová transformace - (hodnoty jsou nahrazeny pořadími).

Lineární transformace I Standardní PCA využívá sloupcové škálování dat (kovarianční matice). Standardizace vede k ke korelační matici R. Diference souvisí s různým vážením. Pro centrovaná data jsou sloupce X váženy " úměrně jejich délce (směrodatná odchylka v původních datech). Pro standardizovaná data jsou sloupce X váženy " na jednotkovou délku. Centrování se volí pro případ různých ů ýhjd jednotek tk jednotlivých znaků.

Lineární transformace II Centrování odstraňuje absolutní člen a snižuje tak počet č fk faktorů. ů Konfigurace dat se nemění. Posouvá se pouze počátek. Standardizace odstraňuje závislost na jednotkách a odstraňuje heteroskedasticitu. Má vliv na odhady parametrů (vážená metoda nejmenších čtverců). Je nevhodná pokud jsou některé znaky na úrovni šumu (zvyšuje se jejich význam). centrovaná data normovaná data

Lineární transformace III Centrování. Standardizace

Vícerozměrné zobrazení Techniky umožňujících grafické zobrazení ve dvourozměrném resp. třírozměrném souřadnicovém systému Identifikace objektů nebo jejich složek, které se jeví jako vybočující Indikace různých struktur v datech, které ukazují na ht heterogenitu použitého výběru nebo přítomnost bodů s odlišným chováním.

Vícerozměrná průzkumová analýza Většina metod zobrazení vícerozměrných dat patří do jedné ze dvou základních skupin: zobecněné rozptylové diagramy symbolové grafy.

Objekty Profily Každý objekt x i je charakterizován m vertikálními i úsečkami nebo sloupci. Jejich velikost je úměrná hodnotě Znaky odpovídající složky x ij j = 1,..., m. Na x-ovou osu se vynáší index dané složky j. Profil vzniká spojením koncových bodů těchto úseček. Je vhodné použít škálované znaky Profily jsou jednoduché a snadno lze tedy identifikovat vybočující složku objektu, respektive skupiny objektů, s prakticky shodným chováním.

Latentní proměnné První hlavní komponenta Směr odpovídá maximu variability Ke zjednodušení interpretace a omezení artefaktů se používá rozptylových grafů v modifikovaných souřadnicích, které souvisí se zavedením tzv. latentních proměnných Často jsou využívány techniky založené na metodě hlavních komponent, která je vhodná pro případy, kdy jsou sloupce matice X silně korelovány. Druhá hlavní komponenta

Latentní proměnné II Vhodné jsou dynamické grafy hlavních komponent umožňující rotaci a otáčení.

Vícerozměrná geometrie Představa že data leží v hyper-krychli na diagonálním vektoru v vycházejícím ze středu a končícím v jejím rohu. Úhel mezi tímto vektorem a souřadnicovou osou e i je roven cosθ = i v * e i ± 1 = v * e m Pro dostatečně vysoké m vyjde tento kosínus přibližně roven nule a tedy, diagonální vektory budou přibližně kolmé na všechny souřadné osy. Při použití rozptylových diagramů se pak shluky bodů ležících ve směru těchto diagonálních vektorů promítnou do počátku a nebude je možné je identifikovat. i

Koncentrace objemu Fenomén koncentrace objemu není zřejmý z klasického 3 dimensionální geometrie. Objem hyper-koule poloměru r v m rozměrném m / prostoru Vk π = r Γ( m / + 1) Objem hyper krychle o velikosti strany r m m Vh = * r Hyper- koule vepsaná do hyper-krychle. Poměr objemů je roven m / Vk = π 0 pro Vh Γ m + m m * ( / 1) Objem hyper-krychle se koncentruje v rozích a střední část je málo obsazená m

Poměr objemů Vliv dimense prostoru na poměr objemů krychle a vepsané koule. Je patrné, že už pro m = 8 je objem koule zanedbatelně malý vůči objemu krychle. Data ve vícerozměrném prostoru se bd budou koncentrovat tspíše v oblasti konců než středu a bude potřeba mít dostatečně veliké výběry aby se data významnou měrou vyskytovala i o oblastech blízko módu.

Vícerozměrné normální rozdělení I Dobře je to patrné při použití vícerozměrného normálního rozdělení s nulovým vektorem středních hodnot a jednotkovou kovarianční maticí. Na obrázku je znázorněna závislost velikosti distribuční funkce vícerozměrného stadardizovaného normálního rozdělení v místě x= (1, 1,1.1) na velikosti m.

Vícerozměrné normální rozdělení II V centrální oblasti se výrazně snižuje pravděpodobnost db výskytu náhodné veličiny Naopak, v oblasti konců rozdělení tato pravděpodobnost výrazně roste. Na obrázku je znázorněna závislost velikosti distribuční funkce vícerozměrného stadardizovaného normálního rozdělení v místě x= (,,.). Je opět patrný pokles pravděpodobnosti s růstem m, který demonstruje, že se objem hromadí v oblasti krajů.

Vícerozměrné normální rozdělení III Zpředpokladů nezávislých složek náhodného vektoru x majícího standardizované vícerozměrné normální rozdělení resultuje známý výsledek, že součet čtverců složek má chí kvadrát rozdělení. x m = i= 1 x i Protožejestřední hodnota rovna nulovému vektoru definuje tato norma čtverec vícerozměrné vzdálenosti. Pro výpočet pravděpodobnosti výskytu vícerozměrné náhodné veličiny v hyper kouli s počátkem v nule a poloměrem r pak platí, že. P ( x χ m m r ) = P ( χ r )

Vícerozměrné normální rozdělení IV Na obrázku je závislost výskytu vícerozměrné ě normálně ě rozdělené náhodné veličiny v oblasti o poloměru 3 na dimensi náhodné veličiny. Je patrný rychlý pokles směrem k nule. To ukazuje, že pro případy od m=8bude třeba počítat s tím, že výskyt hodnot jednotlivých objektů v oblastí středu je málo pravděpodobný. Může se tedy snadno stát, zejména pro menší m, že celý výběr bude ležet v oblasti konců. Proti běžné intuici zde tedy dochází k výraznému posílení vlivu konců rozdělení na úkor centra. Paradoxy rozměrnosti

Redukce proměnných V řadě případů lze zjistit, že rozměrnost vektoru objektu je silně ovlivněna šumy, nepřesnostmi a nevýznamnými znaky. Pak je logické hledat redukovanou velikost m, tedy omezený počet č znaků. Pro případ zobrazení dat se spíše hledá vhodná projekce resp. se původní znaky nahrazují latentními proměnnými, které jsou jejich lineární kombinací ale jsou vzájemně nezávislé. 0.1 0.08 0.06 0.04 0.0 0

Lineární projekce D vektory X v jednotkové kružnici s vektorem průměrů (1,1). Transformace typu Y = A*X, A (x) matice Y Y 1 11 1 1 = a a a a * X X 1 Dochází ke škálování a rotaci. Vzdálenosti mezi vektory se mění: y 1 -yy x 1 -xx

Projekce dat (PCA) x α cos α = cos α = x T z ((x T x)*(z T z)) 1/ (x T x) (p T p) p=k*z Obyčejně se pro D projekci volí první dvě hlavní komponenty, Výhodou je, že tyto projekce zachovávají vzdálenosti a úhly mezi jednotlivými objekty. Nevýhodou hlavních komponent je fakt, že není nikterak zohledněna potřeba optimální projekce s ohledem na odkrytí struktur v datech. Tuto nevýhodu odstraňují techniky lineární projekce vícerozměrných dat (projection pursuit), optimalizující zvolený index projekce IP(C i ). Formálně se tedy hledají vektory projekce C i, maximalizující funkci IP(C i )přiomezení C it C i =1. Projekce na tyto vektory je pak C it X. x, cos( α ) = c yc d( x )* d( y ) = c c r z

3 Projekce dat (PP) 0 1-1 Index IP, odpovídající metodě - hlavních h komponentje T T IP( C) = max( Ci SCi ) pro Ci Ci = 1-3 S je výběrová kovarianční matice. Možná robustní varianta. C i splňující podmínku maxima je vlastním vektorem matice S kterému odpovídá i-té největší vlastní číslo λ i, i =1,. Navíc jsou C 1 a C ortogonální. Index IP(C) odpovídá minimu ze všech projekcí C maxima logaritmu věrohodnostníě funkce pro normálně ě rozdělená data. N(c T μ, c T Cc). Za předpokladu normality dat je statisticky odvoditelná jako optimální projekce do prvních dvou hlavních komponent. -3 - -1 0 1 3

3 Projekce 1 dat (SA) -1 0 - Častým požadavkem bývá vyhledávání -3 shluků v projekci. -4-3 - -1 0 1 3 4 Jednoduchý index je poměr mezi průměrnou mezi objektovou vzdáleností D a průměrnou ů ě vzdáleností nejbližších sousedů d. Řada indexů využívá odhadu hustoty rozdělení dat v projekci f P (x). IP ( C ) = f p ( x ) dx Jako odhad f P (x) ) se obyčejně volí jádrový odhad hustoty Odchylky od normality, vyjádřené hustotou pravděpodobnosti φ(x) postihuje index IP ( C ) = φ ( x )[ f p ( x ) φ ( x )] dx

PCA PP PCA vs. PP PCA vertikální čára (není rozdělení dat) PCA..vertikální čára (není rozdělení dat) PP.. Horizontální čára (dva shluky)

PCA vs. PP I - 10 0 Metoda nemenších čtverců (PCA) - 0 0 Oddělitelnost skupin (PP) 5 Minimální chyba rekonstrukce Maximální oddělitelnost obrazců

Nelineární projekce Sammonův algoritmus provádí projekci jkizpůvodníhoů díh prostoru do prostoru menšího rozměru tak, aby byly pokud možno zachovány vzdálenosti mezi objekty. Pokud jsou d * ij vzdálenosti mezi dvěma objekty v původním prostoru a d ij vzdálenosti v redukovaném prostoru je cílová funkce E (která má být minimální) ii álí) ve tvaru * 1 ( dij - dij ) E = * * d d ij i< j i< j Pro minimalizaci se používá iterativní Newtonova metoda nebo řada heuristických optimalizačních postupů p ij

Porovnání projekcí

3 1 Příklad Ia 0-1 Třírozměrné normální rozdělení - 3 1. vektor středních hodnot -4-3 mi = (0,0,0), kovarianční 1 matice jednotková E 0. vektor středních hodnot -1 mi = (0,4,0), kovarianční - -3 matice jednotková E - -3 8 4 6 4 0 - -1 0 1 3 0 - -4 7 6 5 4 3 1 0-1 - -3

3 1 0 Příklad Ib -1 - Třírozměrné normální rozdělení -3-3 - -1 0 1 3 4 5 6 7 3 1. vektor středních hodnot 0 mi = (0,0,0), kovarianční -1 matice jednotková E -. vektor středních hodnot mi = (0,4,0), kovarianční matice jednotková E 1-3 -.5 - -1.5-1 -0.5 0 0.5 1 1.5.5 7 6 5 4 3 1 0-1 - -3 -.5 - -1.5-1 -0.5 0 0.5 1 1.5.5

x1 Příklad Ic x Třírozměrné normální rozdělení 8 1. vektor středních hodnot 6 mi = (0,0,0), kovarianční 4 matice jednotková E. vektor středních hodnot mi = (0,4,0), kovarianční matice jednotková E rews Function And 0 - -4 x3 Andrews Curves -6-8 -4-3 - -1 0 1 3 4 Theta

Vzdálenost Mahalanobisova vzdálenost d i = ( x i x A ) T S 1 ( x i x A ) Eukleidova vzdálenost d i = ( x i x A ) T ( x i x A )

Vybočující objekty I Pojem vybočující objekty (body) evokuje představu, že jde o body, které lze vizuálně určit na základě vhodného zobrazení. To platí pro jednorozměrné výběry, kdy vybočující znamená také odlehlé. Ve vícerozměrných případech p jsou vybočující hodnoty buď odlehlé co do hodnot od ostatních nebo neodpovídající strukturám v ostatních datech. Pro vybočující body obecně platí, že: zkreslují výsledky nelíbí se vypadají nepatřičně zhoršují přesnost neumožňují selekci modelu

Vybočující objekty II Pro identifikaci odlehlých měření je obecně třeba: definovat čistá data určit pravděpodobnostní model dat (a často i vybočujících bodů) odhadnout d parametry tohoto modelu dl Při analýze vybočujících bodů se množina indexů I = (1,,3, N) rozkládá na podmnožinu potenciálně dobrých dat D a potenciálně vybočujících bodů V. Tedy I = (D,V). Počet potenciálně dobrých dat je ND a počet potenciálně vybočujících bodů je NV. Podíl vybočujících bodů je pak e = NV/N. Rozdělení podílu 1 - e dobrých bodů je charakterizováno distribuční funkcí G μ 0, Σ ),vektor středních hodnot μ 0, kovarianční matice Σ 0 ( 0

Vybočující objekty III Rozdělení podílu e potenciálních vybočujících bodů je H ( μ + μ0, Ω ) s vektorem středních hodnot μ + μ0 a kovarianční maticí Ω Očekávaná hodnota výběrového průměru x p ze všech dat je pak E( x ) = μ + e μ p 0 Očekávaná hodnota výběrové kovarianční matice S je T E( S) = (1 e) Σ + e Ω+ e (1 e) μμ 0 Výběrové průměry a kovarianční matice ze všech dat jsou závislé jak na podílu vybočujících bodů tak i na jejich parametrech.. Nejhorší je případ, kdy obě kovarianční matice mají stejný tvar. Tento typ vybočujících bodů se označuje jako posunuté vybočující body.

Vybočující objekty IV Pro indikaci vybočujících měření se často s výhodou používá definice zobecněné vzdálenosti d = ( x x ) *[w(d,p)* S ] *( x x ) T 1 i i AD D i AD kde x AD a S D jsou vektor aritmetických průměrů a kovarianční matice pro potenciálně dobrá data. Korekční faktor w(d,p) p + 1 w( D, p) = 1 + + 1 3 N D p N D p Metody pro indikaci vybočujících bodů vychází z představy vícerozměrné normality, kdy H( μ+ μ, Ω) = N( μ+ e μ,k Ω) G( μ, Σ ) = N( μ, Σ ) 0 0 0 0 0 0

Vybočující objekty V Existují dvě mezní situace: Vybočující č í měření je chybné. To je třeba. ř případ, kdy vznikne chyba přiměření, resp. zpracování dat (např. místo 0.74 je použita hodnota 74). Vybočující měření je správné. To je případ, kdy byl použit nesprávný předpoklad o rozdělení dat (např. normalita pro případ, že reálné rozdělení je silně zešikmené) nebo jde o tzv. řídké jevy (které se u malých výběrů mohou jevit jako vybočující). V realitě nelze často rozhodnout, o který případ se vlastně jedná. Problém je také v tom, co s vybočujícími hodnotami dělat. Přímá možnost, ttjjjih tj. jejich odstranění dt ě íje nebezpečná. č ájd Jednotný týpostup zde neexistuje

Vybočující objekty VI Techniky indikace vybočujících bdů bodů jsou citlivé na tzv. maskování, kdy vybočující se jeví jako korektní (díky zvětšení kovarianční matice) nebo překryt, kdy přítomnost vybočujících měření způsobí, že některá správná měření leží mimo akceptovatelnou t oblast.(díky zkreslení kovarianční matice).

Vybočující objekty VII Jako vybočující se identifikují ty body, pro které je d i > c( p, N, α N ) Pro případ vícerozměrného normálního rozdělení a velké výběry je c( p, N, α N ) dáno kvantilem chí kvadrát rozdělení c( p, N, α N ) = χ (1 α / p N)

Vybočující objekty VIII Aby bylo možno použít zobecněné vzdálenosti pro identifikaci vlivných bodů, je třeba určit čisté odhady x A a S. Pro robustní odhad d kovarianční č matice se častovolí: t - M odhady - S odhady minimalizující det C s omezením - Odhady minimalizující objem konfidenčního elipsoidu Při průzkumové analýze se vlastně očekává, že vybočující body budou výrazné na grafech, ale zkreslení hlavních komponent jako souřadnicového systému je nežádané.

Jednoduché řešení Stanovení čisté podmnožiny dat 1.Výběr základní podmnožiny bud na základě - Mahalanobisovy vzdálenosti a uřezání podezřelých dat - Vzdálenosti od mediánu Výsledkem je podmnožina čistých dat s parametry x Ac S c. Výpočet reziduí d = ( x x T 1 ) S ( x x ) i i AC C i AC 3. doplnění čisté podmnožiny o body s reziduem menším než c * χ α, kde c = max(0,( ( h r ) /( h + r )) h = ( n + p +1) / 1 r c = 1+ ( p + 1) /( n p) + /( n 1 3p) c=c+c c 1 4. Skončení procesu v okamžiku, kdy se již nic nepřidává ani neubírá