Hloubka dat a její použití pro klasifikaci Daniel Hlubinka, Lukáš Kotík, Ondřej Vencálek, Stanislav Nagy a Miroslav Šiman Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Novohradské statistické dny Nové Hrady, červen 2012
Úvod Co je vlastně hloubka dat? Zcela obecně: přiřazení pořadí mnohorozměrné náhodné veličině. Klidně i nekonečněrozměrné (funkcionální proměnné). Bud X : (Ω,F, P) (E,E, P X ) náhodná veličina. Hloubka je funkce rozdělení náhodné veličiny a bodů ve výběrovém prostoru: D : (E,P E ) R + (příp. [0, 1]). Můžeme používat různá značení. Nejčastěji D(x, Q) = D Q (x), případně D(x) bude-li jasné o jaké rozdělení se jedná.
Jaké podmínky na hloubku klást? Hloubka by měla zohledňovat polohu bodu s ohledem na rozdělení. Typicky se jedná o částečné lineární uspořádání. Hloubku každých dvou bodů lze porovnat, body se stejnou hloubkou tvoří kontury hloubky. Tyto kontury lze chápat jako variantu kvantilů rozdělení mnohorozměrných náhodných veličin (které nelze přirozeně definovat kvůli absenci lineárního uspořádání). Jak název napovídá, body u okraje nosiče rozdělení by měly mít malou hloubku, naopak budy uprostřed rozdělení by měly mít hloubku velkou.
Intuitivní pojetí hloubky Ochrana krále: Důležitá osoba musí mít ze všech stran krytá záda. Musí být ukryta nejhlouběji v okruhu svých strážců. Slavnostní večeře: Význační hosté jsou uprostřed a s klesajícím významem hostů se zvětšuje vzdálenost jejich sezení od centra. Uspořádání zevnitř-ven: Data, která jsou uvnitř pravděpodobnostního rozdělení dostanou velkou hloubku, data vně dostanou malou hloubku. Opak odlehlosti: Čím větší hloubka, tím méně jsou data odlehlá a naopak.
Serflingův průvodce po hloubce Liu (1990) udává několik žádoucích vlastností hloubky. H1 Hloubka má být afinně invariantní funkcí. H2 Hloubka má být maximální v centru symetrie rozdělení. H3 Hloubka má klesat směrem od nejhlubšího bodu. H4 Hloubka má jít nule pro body jdoucí k nekonečnu (od nejhlubšího bodu). Serfling a Zuo (2000) pak zkoumají jednotlivé hloubky s ohledem na H1 H4 a jako statistickou hloubku definují nezápornou omezenou funkci splňující H1 H4.
Serflingův průvodce po hloubce Serfling a Zuo (2000) dále dělí hloubku na několik typů: A D(x, P) = E P h(x; X 1,...,X r ), kde h je libovolná nezáporná omezená měřitelná funkce měřící blízkost bodu x k bodům x 1,...,x r. B D(x, P) = ( 1+E P h(x; X 1,...,X r ) ) 1, kde h je libovolná nezáporná neomezená měřitelná funkce měřící vzdálenost bodu x od bodů x 1,...,x r. C D(x, P) = ( 1+O(x, P) ) 1, kde O(x, P) je funkce udávající odlehlost bodu x vzhledem k rozdělení P. D D(x, P;H) = inf H H P[x H], kde H je vhodná třída měřitelných množin.
Hloubka je globální funkcionál Přirozeně se naskýtá otázka: je hustota hloubkou? Mohla by být v širším smyslu; hloubka ale je zavedena jako funkcionál zdůrazňující globální nebo alespoň ne limitní charakter pravděpodobnostní míry. V některých případech ale hloubka a hustota úzce souvisejí: z vlastností H1 H4 plyne, že pro unimodální elipticky symetrická absolutně spojitá rozdělení musí existovat neklesající funkce φ : R + R + propojující hloubku a hustotu, tj D(x, P) = φ ( f P (x) ), kde f P je hustota rozdělení P vůči Lebesgueově míře. Hustotu tedy nebudeme považovat za hloubkový funkcionál.
Hloubka a kvantil Označme úrovňové množiny a kontury hloubky L(D, P, q)= {x : D(x, P) q}, C(D, P, q)= L(D, P, q)\l (D, P, q) kde L je vnitřek množiny. Kontura hloubky může být použita jako mnohorozměrná analogie kvantilu. Je tedy žádoucí, aby definice hloubky použitá na jednorozměrná data definovala kvantil (ve skutečnosti dva symetrické kvantily). Vnoření jednotlivých úrovňových množin hloubky je samozřejmostí.
Kvantil a hloubka Pokud máme vhodnou definici mnohorozměrného kvantilu ve smyslu uzavřených (do sebe vnořených) kontur Q(P, p), lze definovat hloubku pomocí jejích kontur množin C ( D, P,ψ(p) ) = Q(P, p) pro nějakou klesající ψ. Čím větší kvantil, tím má menší hloubku (je dál od středu). Aby šlo o rozumnou hloubku, je nutné aby kvantil měl rozumné vlastnosti. Kvantil a hloubka se tedy dají v určitém případě sjednotit do jednoho pojmu.
Hloubka = kvantil C 1 2α Mnohorozměrným mediánem je bod s největší hloubkou. Body se stejnou hloubkou tvoří kvantilové kontury. Hloubka zobecňuje kvantil do více rozměrů. Místo dvojice kvantilů q α a q 1 α máme kvantilovou konturu C 1 2α.
Neparametrické hloubky Hloubkových funkcí je možná více, než matematiků zabývajících se jimi. Historicky první a nejznámější je poloprostorová hloubka definovaná poprvé v článku (Tukey, 1975). Poloprostorová hloubka je typický představitel hloubky typu D. Velkou popularitu získala i simplexová hloubka definovaná v (Liu, 1990). Simplexová hloubka zastupuje hloubky typu A. Hloubku typu C reprezentuje například Mahalanobisova hloubka D(x, P) = ( 1+MD(x, P) ) 1, hloubku typu B pak například hloubka založená na objemu náhodného simplexu.
Semiparametrické kvantily Pro mnohorozměrné kvantily je možné použít definici regresních kvantilů. Místo regresní přímky (křivky), ale volíme vhodnou třídu uzavřených křivek a místo uspořádání větší/menší volíme uspořádání uvnitř/vně (spolu se vzdáleností od křivky). Typicky volme parametrický tvar křivky, proto jde o semiparametrický přístup. Vhodné jsou například elipsy. Pak jde o eliptické kvantily. Vhodnout volbou ztrátové funkce snadno dostaneme přírozenou afinní ekvivarianci eliptických kvantilů a tím pádem afinní invarianci příslušné hloubky.
Mnoho rozměrů, problémy na obzoru Někdy lze říci, že nějaký bod není moc hluboko a jiný je. Ale někdy to tak jednoznačné není.
Hloubka a klasifikace Chaudhuri a Ghosh (2005) zkoumali klasifikaci pomocí maximální hloubky. To se zdá být přirozeným postupem a hloubkovou analogií k věrohodnostní klasifikaci. Bohužel bayesovská optimalita může být zaručena pouze pro unimodální elipticky symetrická rozdělení se stejnou varianční maticí. Na druhou stanu: to není překvapivé, protože v tom případě větší hloubka odpovídá vyšší hustotě.
Nestejné rozptyly jsou problém Představme si dvě rozdělení: N(0, 1) a N(0, 4). Klasifikace pomocí hustot dává bayesovskou optimalitu: klasifikujme do N(0, 1), pokud x < ( ) 8 1/2 3 log 2. Proti tomu stojí fakt, že každý bod kromě počátku má hloubku větší vůči N(0, 1) než vůči N(0, 4). Hlavní důvod je v invarianci hloubky (na rozdíl od hustoty, která invariantní není).
D-D diagram pro dva výběry Vykreslíme dvojice ( D(x, P 1 ), D(x, P 2 ) ), kde za bod x dosazujeme pozorované body. Pamatujeme si, které pozorování patří ke kterému výběru a na této tréninkové skupině zvolíme nejvhodnější klasifikační kritérium. Tento postup se poprvé objevuje v preprintu (Cuesta-Albertos a kol., 2009 10).
Jak obelstít invarianci? Místo maximální hloubky najdeme jiné pravidlo na klasifikaci.
Jak obelstít invarianci? Napříkladu změnou směrnice obcházíme afinní invarianci hloubky. Namísto klasifikace D(x, P 1 ) D(x, P 2 ) > 1 k = 1 použijeme pro nějakou vhodnou konstantu c pravidlo D(x, P 1 ) D(x, P 2 ) > c k = 1. To nápadně připomíná test poměrem věrohodností. Ale zároveň se můžeme ptát, proč tak trváme na invarianci hloubky, když ji potom obcházíme.
Invariance hloubky O užitečnosti invariance pro statistické metody píše Serfling (2010). Jednorozměrné kvantily jsou ekvivariantní vůči libovolné rostoucí transformaci. Něco podobného ve více rozměrech je nedosažitelné. Afinní invariance hloubky a z ní plynoucí afinní ekvivariance kvantilu založeného na hloubce je asi nejsilnější rozumný požadavek na invarianci.
Klasifikace pomocí hloubky Klasifikovat mnohorozměrná data pomocí bayesovského kriteria (věrohodnostně) je náročné. Je složité a asymptoticky pomalé odhadnout hustoty. Hloubka dat může být vhodnou alternativou redukce dimenze ke známé metodě hlavních komponent. Hloubka redukuje rozměr opravdu důkladně; na jednorozměrnou hodnotu. Jak jsme viděli, je potřeba ještě druhý krok: vhodný klasifikátor založený na hloubce. Nabízí se, opět jakési bayesovské kritérium: odhadnout hustotu jednotlivých výběrů v D-D diagramu. Počet rozměrů je roven počtu tříd.
Na hloubce záleží Dvoustupňová klasifikace pomocí hloubky. Spočítejme hloubku každého bodu tréninkového výběru vůči všem rozdělením. Krok 1: místo původního pozorování použijme vektor y = ( D(x, P 1 ),...,D(x, P k ) ) redukce dimenze. Krok 2: na pozorováních Y odlad me nějaké vhodné klasifikační pravidlo. Toto pravidlo použijme na nová pozorování, respektive na jejich vektor hloubek vůči všem rozdělením. V obou krocích je možné hledat optimální volbu.
Globální a přeci lokální Pokud má hloubka být co nejvhodnější pro klasifikaci z hlediska bayesovského pravidla, musí nějakým způsobem zohledňovat lokální vlastnosti rozdělení, nebo klasifikační pravidlo založené na hloubce musí být v nějakém smyslu lokální. Nabízejí se tedy dvě možnosti. Použijeme lokální variantu hloubky. Klasifikační pravidlo nebude založené jen na hodnotě hloubky.
Lokální hloubka K definici hloubky přiřadíme váhovou funkci. Například vážená poloprostorová hloubka: každý bod v daném poloprostoru dostane váhu odpovídající jeho vzdálenosti od směrového vektoru a od dělící nadroviny. Typicky ztratíme afinní invarianci hloubky, někdy i jednoznačnost nejhlubšího bodu. Získáme hloubkové kontury, které jsou poněkud bližší konturám hustoty. Výsledky klasifikace pomocí D-D diagramu se zlepší Symetrickou variantu dostaneme vydělením vážených pravděpodobností protilehlých poloprostorů.
Nejblíže hlubocí sousedé Pozorování je zařazeno do skupiny, kde Lebesgueova míra množiny nejblíže hlubokých sousedů je nejmenší Jde o obdobu metody k nejbližších sousedů; blízkost není dána geometrickou vzdáleností, ale hloubkou. Tato metoda je podstatně lepší než metoda největší hloubky. Asymptotická optimalita se dá dokázat pro i pro nestejná elipticky symetrická rozdělení.
Hloubka a nekonečněrozměrné veličiny Hloubka nepotřebuje k definici hustotu ani distribuční funkci. Je vhodná i pro funkcionální data (není třeba se zabývat rozdělením na funkčních prostorech). Většina současných definic jsou hloubky typu A. Kromě funkčních hodnot lze do výpočtu zapojit i další charakteristiky funkcí. Například derivace.
Klasifikace funkcionálních dat 2 0 2 4 6 8 2 0 2 4 6 8 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Tato data sestávají z funkcí s mírně odlišnou střední hodnotou a velmi rozdílnou kovarianční strukturou. Ukážeme si, jak moc závisí na volbě hloubkového funkcionálu.
Hloubka Lopez-Pintado (2009) 2 0 2 4 6 8 GLP 0.0 0.1 0.2 0.3 0.4 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.1 0.2 0.3 0.4 GLP
Hloubka zahrnující funkční hodnoty i derivace 2 0 2 4 6 8 AKLP 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 AKLP
Hloubka zahrnující hlavně derivaci 2 0 2 4 6 8 RKLP 0.00 0.05 0.10 0.15 0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.05 0.10 0.15 0.20 RKLP
Ještě více názorný příklad 0 2 4 6 8 GLP 0.0 0.1 0.2 0.3 0.4 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.1 0.2 0.3 0.4 GLP 0 2 4 6 8 AKLP 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.05 0.10 0.15 0.20 0.25 0.30 AKLP 0 2 4 6 8 RKLP 0.00 0.05 0.10 0.15 0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.05 0.10 0.15 0.20 RKLP