Vícerozměrná geometrická analýza dat

Transkript

1 Motto: Všechno není jinak Vícerozměrná geometrická analýza dat Jiří Militký Katedra textilních materiálů Technická Universita Liberec,

2 Obsah Jsou popsány základní problémy vznikající v důsledku použití vícerozměrných dat. Je pojednáno o vybraných projekcích pro obecně korelovaná ádata Jsou uvedeny některé možnosti Jsou uvedeny některé možnosti snižování dimense ve statistické analýze vícerozměrných dat.

3 Problém rozměrnosti I setosa versicolor Základní rys vícerozměrných dat je jejich rozměr (dimense), která komplikuje jak jejich statistickou tak i průzkumovou analýzu. Redukce proměnných řada proměnných má variabilitu na úrovní šumu takže jsou s ohledem na statistickou analýzu nadbytečná. vdatechexistují výrazné lineární vazby (korelace), které jsou způsobeny buď použitím redundantních proměnných nebo vazbami vyplývajícím i z jejich podstaty. Tt Tyto proměnnéě lze častot bez újmy na přesnosti nahradit podstatně menším počtem proměnných, které jsou již nekorelované. virginica

4 Problém rozměrnosti II Prokletí vícerozměrnosti (multivariate curse), které se projevuji již v tom, že počet dat potřebných k zachování stejné přesnosti při odhadu funkce několika proměnných je exponenciálně rostoucí funkcí jejich počtu. Problém tzv. prázdného prostoru, který klade další nároky na zvětšování velikosti výběru. Problém vyjádření vzdálenosti, vd eos, která je třeba pro řadu metod jak průzkumové tak i konfirmativní statistické analýzy dat.

5 Primární data matice (pole) X (n x m) Každý sloupec X představuje jeden znak (proměnnou) Každý řádek X představuje jeden objekt (t.j. měření jako jeden bod v čase, osobu, kus atd.) Objekty řádky Y Data jsou uložena do jedné X Znaky sloupce DATOVÁ MATICE (n x m)

6 Vícerozměrná data Je k dispozici pro n objektů (bodů) celkem m znaků (proměnných) vyjádřených v kardinální škále. Zdrojová matice X má rozměr n m, kde standardně platí, že n je podstatně vyšší než m. Veličina m definuje dimensi problému (určující počet znaků). x.. x Úkoly x x x j 1m x.. x n1 n nj nm.. x... (a) posoudit podobnost objektů resp. jejich tendenci ke shlukování, (b) nalézt vybočující objekty, resp. jejich znaky, (c) stanovit, zda lze použít předpoklad lineárních vazeb, (d) ověřit předpoklady o datech (normalitu, nekorelovanost, homogenitu).

7 Přístupy Standardní analýza vícerozměrných dat je založena na analýze matice dat X. Podobně jako u jednorozměrných výběrů se zde provádí standardní statistická analýza založená na parametrech polohy (vektoru průměrů) a rozptýlení (kovarianční respektive korelační matici). Geometrická analýza vícerozměrných dat nahrazuje již od začátku čísla geometrickými objekty (body, čáry, roviny, obrazce) v definovaném zobrazení. Začíná se představou dat jako shluku bodů v Euklidově m rozměrném prostoru E m. Nejde přitom pouze o zobrazení dat ale zejména kvantitativní zkoumání vzájemných vazeb a souvislostí. Základem je tzv. Euklidovský shluk, což je vlastně matice X vyjádřena jako shluk bodů v Euklidově prostoru.

8 Postup analýzy I Před vlastní aplikací vhodné metody vícerozměrné statistické analýzy je třeba vždy provést étexploratorní (průzkumovou) ů analýzu dat, která umožňuje (a) posoudit podobnost objektů pomocí rozptylových a symbolových grafů. (b) nalézt vybočující objekty, resp. jejich znaky, (c) stanovit, zda lze použít předpoklad lineárních vazeb, (d) ověřit předpoklady o datech (normalitu, nekorelovanost, homogenitu). Jednotlivé techniky k určení vzájemných vazeb se dále dělí podle toho, zda se hledají (a) struktura a vazby ve znacích nebo (b) struktura a vazby v objektech:

9 Postup analýzy II 1) Struktury ve znacích v metrické škále:faktorová analýza FA, analýza hlavních komponent PCA a shluková analýza analýza hlavních komponent PCA a shluková analýza. () Struktury v objektech v metrické škále: shluková analýza. (3) Struktury v objektech v metrické i v nemetrické škále: vícerozměrné škálování. (4) Struktury v objektech v nemetrické škále: korespondenční analýza. Většina metod vícerozměrné statistické analýzy umožňuje zpracování lineárních vícerozměrných modelů, kde závisle proměnné se uvažují jako lineární kombinace nezávisle proměnných, resp. vazby mezi proměnnými jsou lineární. V řadě případů se také uvažuje normalita metrických proměnných.

10 Předzpracování dat I Lineární transformace centrování, škálování, standardizace (z skóre) x μ x / σ Omezuje vliv různých jednotek uznaků Nelineární - logaritmická transformace 1. Omezení vlivu extrémních dat ( x μ ) / σ. Omezení vlivu sešikmení rozdělení k vyšším hodnotám 3. Stabilizace rozptylu (omezení heteroskedasticity) Pořadová transformace - (hodnoty jsou nahrazeny pořadími).

11 Lineární transformace I Standardní PCA využívá sloupcové škálování dat (kovarianční matice). Standardizace vede k ke korelační matici R. Diference souvisí s různým vážením. Pro centrovaná data jsou sloupce X váženy " úměrně jejich délce (směrodatná odchylka v původních datech). Pro standardizovaná data jsou sloupce X váženy " na jednotkovou délku. Centrování se volí pro případ různých ů ýhjd jednotek tk jednotlivých znaků.

12 Lineární transformace II Centrování odstraňuje absolutní člen a snižuje tak počet č fk faktorů. ů Konfigurace dat se nemění. Posouvá se pouze počátek. Standardizace odstraňuje závislost na jednotkách a odstraňuje heteroskedasticitu. Má vliv na odhady parametrů (vážená metoda nejmenších čtverců). Je nevhodná pokud jsou některé znaky na úrovni šumu (zvyšuje se jejich význam). centrovaná data normovaná data

13 Lineární transformace III Centrování. Standardizace

14 Vícerozměrné zobrazení Techniky umožňujících grafické zobrazení ve dvourozměrném resp. třírozměrném souřadnicovém systému Identifikace objektů nebo jejich složek, které se jeví jako vybočující Indikace různých struktur v datech, které ukazují na ht heterogenitu použitého výběru nebo přítomnost bodů s odlišným chováním.

15 Vícerozměrná průzkumová analýza Většina metod zobrazení vícerozměrných dat patří do jedné ze dvou základních skupin: zobecněné rozptylové diagramy symbolové grafy.

16 Objekty Profily Každý objekt x i je charakterizován m vertikálními i úsečkami nebo sloupci. Jejich velikost je úměrná hodnotě Znaky odpovídající složky x ij j = 1,..., m. Na x-ovou osu se vynáší index dané složky j. Profil vzniká spojením koncových bodů těchto úseček. Je vhodné použít škálované znaky Profily jsou jednoduché a snadno lze tedy identifikovat vybočující složku objektu, respektive skupiny objektů, s prakticky shodným chováním.

17 Latentní proměnné První hlavní komponenta Směr odpovídá maximu variability Ke zjednodušení interpretace a omezení artefaktů se používá rozptylových grafů v modifikovaných souřadnicích, které souvisí se zavedením tzv. latentních proměnných Často jsou využívány techniky založené na metodě hlavních komponent, která je vhodná pro případy, kdy jsou sloupce matice X silně korelovány. Druhá hlavní komponenta

18 Latentní proměnné II Vhodné jsou dynamické grafy hlavních komponent umožňující rotaci a otáčení.

19 Vícerozměrná geometrie Představa že data leží v hyper-krychli na diagonálním vektoru v vycházejícím ze středu a končícím v jejím rohu. Úhel mezi tímto vektorem a souřadnicovou osou e i je roven cosθ = i v * e i ± 1 = v * e m Pro dostatečně vysoké m vyjde tento kosínus přibližně roven nule a tedy, diagonální vektory budou přibližně kolmé na všechny souřadné osy. Při použití rozptylových diagramů se pak shluky bodů ležících ve směru těchto diagonálních vektorů promítnou do počátku a nebude je možné je identifikovat. i

20 Koncentrace objemu Fenomén koncentrace objemu není zřejmý z klasického 3 dimensionální geometrie. Objem hyper-koule poloměru r v m rozměrném m / prostoru Vk π = r Γ( m / + 1) Objem hyper krychle o velikosti strany r m m Vh = * r Hyper- koule vepsaná do hyper-krychle. Poměr objemů je roven m / Vk = π 0 pro Vh Γ m + m m * ( / 1) Objem hyper-krychle se koncentruje v rozích a střední část je málo obsazená m

21 Poměr objemů Vliv dimense prostoru na poměr objemů krychle a vepsané koule. Je patrné, že už pro m = 8 je objem koule zanedbatelně malý vůči objemu krychle. Data ve vícerozměrném prostoru se bd budou koncentrovat tspíše v oblasti konců než středu a bude potřeba mít dostatečně veliké výběry aby se data významnou měrou vyskytovala i o oblastech blízko módu.

22 Vícerozměrné normální rozdělení I Dobře je to patrné při použití vícerozměrného normálního rozdělení s nulovým vektorem středních hodnot a jednotkovou kovarianční maticí. Na obrázku je znázorněna závislost velikosti distribuční funkce vícerozměrného stadardizovaného normálního rozdělení v místě x= (1, 1,1.1) na velikosti m.

23 Vícerozměrné normální rozdělení II V centrální oblasti se výrazně snižuje pravděpodobnost db výskytu náhodné veličiny Naopak, v oblasti konců rozdělení tato pravděpodobnost výrazně roste. Na obrázku je znázorněna závislost velikosti distribuční funkce vícerozměrného stadardizovaného normálního rozdělení v místě x= (,,.). Je opět patrný pokles pravděpodobnosti s růstem m, který demonstruje, že se objem hromadí v oblasti krajů.

24 Vícerozměrné normální rozdělení III Zpředpokladů nezávislých složek náhodného vektoru x majícího standardizované vícerozměrné normální rozdělení resultuje známý výsledek, že součet čtverců složek má chí kvadrát rozdělení. x m = i= 1 x i Protožejestřední hodnota rovna nulovému vektoru definuje tato norma čtverec vícerozměrné vzdálenosti. Pro výpočet pravděpodobnosti výskytu vícerozměrné náhodné veličiny v hyper kouli s počátkem v nule a poloměrem r pak platí, že. P ( x χ m m r ) = P ( χ r )

25 Vícerozměrné normální rozdělení IV Na obrázku je závislost výskytu vícerozměrné ě normálně ě rozdělené náhodné veličiny v oblasti o poloměru 3 na dimensi náhodné veličiny. Je patrný rychlý pokles směrem k nule. To ukazuje, že pro případy od m=8bude třeba počítat s tím, že výskyt hodnot jednotlivých objektů v oblastí středu je málo pravděpodobný. Může se tedy snadno stát, zejména pro menší m, že celý výběr bude ležet v oblasti konců. Proti běžné intuici zde tedy dochází k výraznému posílení vlivu konců rozdělení na úkor centra. Paradoxy rozměrnosti

26 Redukce proměnných V řadě případů lze zjistit, že rozměrnost vektoru objektu je silně ovlivněna šumy, nepřesnostmi a nevýznamnými znaky. Pak je logické hledat redukovanou velikost m, tedy omezený počet č znaků. Pro případ zobrazení dat se spíše hledá vhodná projekce resp. se původní znaky nahrazují latentními proměnnými, které jsou jejich lineární kombinací ale jsou vzájemně nezávislé

27 Lineární projekce D vektory X v jednotkové kružnici s vektorem průměrů (1,1). Transformace typu Y = A*X, A (x) matice Y Y = a a a a * X X 1 Dochází ke škálování a rotaci. Vzdálenosti mezi vektory se mění: y 1 -yy x 1 -xx

28 Projekce dat (PCA) x α cos α = cos α = x T z ((x T x)*(z T z)) 1/ (x T x) (p T p) p=k*z Obyčejně se pro D projekci volí první dvě hlavní komponenty, Výhodou je, že tyto projekce zachovávají vzdálenosti a úhly mezi jednotlivými objekty. Nevýhodou hlavních komponent je fakt, že není nikterak zohledněna potřeba optimální projekce s ohledem na odkrytí struktur v datech. Tuto nevýhodu odstraňují techniky lineární projekce vícerozměrných dat (projection pursuit), optimalizující zvolený index projekce IP(C i ). Formálně se tedy hledají vektory projekce C i, maximalizující funkci IP(C i )přiomezení C it C i =1. Projekce na tyto vektory je pak C it X. x, cos( α ) = c yc d( x )* d( y ) = c c r z

29 3 Projekce dat (PP) Index IP, odpovídající metodě - hlavních h komponentje T T IP( C) = max( Ci SCi ) pro Ci Ci = 1-3 S je výběrová kovarianční matice. Možná robustní varianta. C i splňující podmínku maxima je vlastním vektorem matice S kterému odpovídá i-té největší vlastní číslo λ i, i =1,. Navíc jsou C 1 a C ortogonální. Index IP(C) odpovídá minimu ze všech projekcí C maxima logaritmu věrohodnostníě funkce pro normálně ě rozdělená data. N(c T μ, c T Cc). Za předpokladu normality dat je statisticky odvoditelná jako optimální projekce do prvních dvou hlavních komponent

30 3 Projekce 1 dat (SA) Častým požadavkem bývá vyhledávání -3 shluků v projekci Jednoduchý index je poměr mezi průměrnou mezi objektovou vzdáleností D a průměrnou ů ě vzdáleností nejbližších sousedů d. Řada indexů využívá odhadu hustoty rozdělení dat v projekci f P (x). IP ( C ) = f p ( x ) dx Jako odhad f P (x) ) se obyčejně volí jádrový odhad hustoty Odchylky od normality, vyjádřené hustotou pravděpodobnosti φ(x) postihuje index IP ( C ) = φ ( x )[ f p ( x ) φ ( x )] dx

31 PCA PP PCA vs. PP PCA vertikální čára (není rozdělení dat) PCA..vertikální čára (není rozdělení dat) PP.. Horizontální čára (dva shluky)

32 PCA vs. PP I Metoda nemenších čtverců (PCA) Oddělitelnost skupin (PP) 5 Minimální chyba rekonstrukce Maximální oddělitelnost obrazců

33 Nelineární projekce Sammonův algoritmus provádí projekci jkizpůvodníhoů díh prostoru do prostoru menšího rozměru tak, aby byly pokud možno zachovány vzdálenosti mezi objekty. Pokud jsou d * ij vzdálenosti mezi dvěma objekty v původním prostoru a d ij vzdálenosti v redukovaném prostoru je cílová funkce E (která má být minimální) ii álí) ve tvaru * 1 ( dij - dij ) E = * * d d ij i< j i< j Pro minimalizaci se používá iterativní Newtonova metoda nebo řada heuristických optimalizačních postupů p ij

34 Porovnání projekcí

35 3 1 Příklad Ia 0-1 Třírozměrné normální rozdělení vektor středních hodnot -4-3 mi = (0,0,0), kovarianční 1 matice jednotková E 0. vektor středních hodnot -1 mi = (0,4,0), kovarianční - -3 matice jednotková E

36 3 1 0 Příklad Ib -1 - Třírozměrné normální rozdělení vektor středních hodnot 0 mi = (0,0,0), kovarianční -1 matice jednotková E -. vektor středních hodnot mi = (0,4,0), kovarianční matice jednotková E

37 x1 Příklad Ic x Třírozměrné normální rozdělení 8 1. vektor středních hodnot 6 mi = (0,0,0), kovarianční 4 matice jednotková E. vektor středních hodnot mi = (0,4,0), kovarianční matice jednotková E rews Function And x3 Andrews Curves Theta

38 Vzdálenost Mahalanobisova vzdálenost d i = ( x i x A ) T S 1 ( x i x A ) Eukleidova vzdálenost d i = ( x i x A ) T ( x i x A )

39 Vybočující objekty I Pojem vybočující objekty (body) evokuje představu, že jde o body, které lze vizuálně určit na základě vhodného zobrazení. To platí pro jednorozměrné výběry, kdy vybočující znamená také odlehlé. Ve vícerozměrných případech p jsou vybočující hodnoty buď odlehlé co do hodnot od ostatních nebo neodpovídající strukturám v ostatních datech. Pro vybočující body obecně platí, že: zkreslují výsledky nelíbí se vypadají nepatřičně zhoršují přesnost neumožňují selekci modelu

40 Vybočující objekty II Pro identifikaci odlehlých měření je obecně třeba: definovat čistá data určit pravděpodobnostní model dat (a často i vybočujících bodů) odhadnout d parametry tohoto modelu dl Při analýze vybočujících bodů se množina indexů I = (1,,3, N) rozkládá na podmnožinu potenciálně dobrých dat D a potenciálně vybočujících bodů V. Tedy I = (D,V). Počet potenciálně dobrých dat je ND a počet potenciálně vybočujících bodů je NV. Podíl vybočujících bodů je pak e = NV/N. Rozdělení podílu 1 - e dobrých bodů je charakterizováno distribuční funkcí G μ 0, Σ ),vektor středních hodnot μ 0, kovarianční matice Σ 0 ( 0

41 Vybočující objekty III Rozdělení podílu e potenciálních vybočujících bodů je H ( μ + μ0, Ω ) s vektorem středních hodnot μ + μ0 a kovarianční maticí Ω Očekávaná hodnota výběrového průměru x p ze všech dat je pak E( x ) = μ + e μ p 0 Očekávaná hodnota výběrové kovarianční matice S je T E( S) = (1 e) Σ + e Ω+ e (1 e) μμ 0 Výběrové průměry a kovarianční matice ze všech dat jsou závislé jak na podílu vybočujících bodů tak i na jejich parametrech.. Nejhorší je případ, kdy obě kovarianční matice mají stejný tvar. Tento typ vybočujících bodů se označuje jako posunuté vybočující body.

42 Vybočující objekty IV Pro indikaci vybočujících měření se často s výhodou používá definice zobecněné vzdálenosti d = ( x x ) *[w(d,p)* S ] *( x x ) T 1 i i AD D i AD kde x AD a S D jsou vektor aritmetických průměrů a kovarianční matice pro potenciálně dobrá data. Korekční faktor w(d,p) p + 1 w( D, p) = N D p N D p Metody pro indikaci vybočujících bodů vychází z představy vícerozměrné normality, kdy H( μ+ μ, Ω) = N( μ+ e μ,k Ω) G( μ, Σ ) = N( μ, Σ )

43 Vybočující objekty V Existují dvě mezní situace: Vybočující č í měření je chybné. To je třeba. ř případ, kdy vznikne chyba přiměření, resp. zpracování dat (např. místo 0.74 je použita hodnota 74). Vybočující měření je správné. To je případ, kdy byl použit nesprávný předpoklad o rozdělení dat (např. normalita pro případ, že reálné rozdělení je silně zešikmené) nebo jde o tzv. řídké jevy (které se u malých výběrů mohou jevit jako vybočující). V realitě nelze často rozhodnout, o který případ se vlastně jedná. Problém je také v tom, co s vybočujícími hodnotami dělat. Přímá možnost, ttjjjih tj. jejich odstranění dt ě íje nebezpečná. č ájd Jednotný týpostup zde neexistuje

44 Vybočující objekty VI Techniky indikace vybočujících bdů bodů jsou citlivé na tzv. maskování, kdy vybočující se jeví jako korektní (díky zvětšení kovarianční matice) nebo překryt, kdy přítomnost vybočujících měření způsobí, že některá správná měření leží mimo akceptovatelnou t oblast.(díky zkreslení kovarianční matice).

45 Vybočující objekty VII Jako vybočující se identifikují ty body, pro které je d i > c( p, N, α N ) Pro případ vícerozměrného normálního rozdělení a velké výběry je c( p, N, α N ) dáno kvantilem chí kvadrát rozdělení c( p, N, α N ) = χ (1 α / p N)

46 Vybočující objekty VIII Aby bylo možno použít zobecněné vzdálenosti pro identifikaci vlivných bodů, je třeba určit čisté odhady x A a S. Pro robustní odhad d kovarianční č matice se častovolí: t - M odhady - S odhady minimalizující det C s omezením - Odhady minimalizující objem konfidenčního elipsoidu Při průzkumové analýze se vlastně očekává, že vybočující body budou výrazné na grafech, ale zkreslení hlavních komponent jako souřadnicového systému je nežádané.

47 Jednoduché řešení Stanovení čisté podmnožiny dat 1.Výběr základní podmnožiny bud na základě - Mahalanobisovy vzdálenosti a uřezání podezřelých dat - Vzdálenosti od mediánu Výsledkem je podmnožina čistých dat s parametry x Ac S c. Výpočet reziduí d = ( x x T 1 ) S ( x x ) i i AC C i AC 3. doplnění čisté podmnožiny o body s reziduem menším než c * χ α, kde c = max(0,( ( h r ) /( h + r )) h = ( n + p +1) / 1 r c = 1+ ( p + 1) /( n p) + /( n 1 3p) c=c+c c 1 4. Skončení procesu v okamžiku, kdy se již nic nepřidává ani neubírá

48