Hloubka dat. a její použití pro klasifikaci

Podobné dokumenty
Hloubka dat. kontury, klasifikace a konzistence. Daniel Hlubinka

Odhad parametrů N(µ, σ 2 )

Základy teorie pravděpodobnosti

AVDAT Náhodný vektor, mnohorozměrné rozdělení

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Odhad parametrů N(µ, σ 2 )

Definice spojité náhodné veličiny zjednodušená verze

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Přijímací zkouška na navazující magisterské studium 2017

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Poznámky k předmětu Aplikovaná statistika, 4. téma

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Matematika pro informatiky

Přijímací zkouška na navazující magisterské studium 2014

Poznámky k předmětu Aplikovaná statistika, 4. téma

Pravděpodobnost a aplikovaná statistika

Neparametrické metody

Charakterizace rozdělení

Normální (Gaussovo) rozdělení

Výběrové charakteristiky a jejich rozdělení

7. Rozdělení pravděpodobnosti ve statistice

Chyby měření 210DPSM

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

AVDAT Mnohorozměrné metody, metody klasifikace

Řešení. Označme po řadě F (z) Odtud plyne, že

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Matematika I 12a Euklidovská geometrie

Náhodný vektor a jeho charakteristiky

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Lineární klasifikátory

Téma 22. Ondřej Nývlt

UČENÍ BEZ UČITELE. Václav Hlaváč

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Mnohorozměrná statistická data

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Statistika II. Jiří Neubauer

2 Hlavní charakteristiky v analýze přežití

Základní spádové metody

Pravděpodobnost a matematická statistika

Průzkumová analýza dat

Cvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}.

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Normální (Gaussovo) rozdělení

Vybraná rozdělení náhodné veličiny

8 Střední hodnota a rozptyl

MATEMATICKÁ STATISTIKA - XP01MST

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Neparametrické testy

7 Regresní modely v analýze přežití

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2014

LWS při heteroskedasticitě

Mnohorozměrná statistická data

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2014

Praktická statistika. Petr Ponížil Eva Kutálková

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

15. T e s t o v á n í h y p o t é z

PRAVDĚPODOBNOST A STATISTIKA. Odhady parametrů Postačující statistiky

Odhady Parametrů Lineární Regrese

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

KGG/STG Statistika pro geografy

Náhodné chyby přímých měření

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

6 Lineární geometrie. 6.1 Lineární variety

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Stručný úvod do testování statistických hypotéz

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Množiny, funkce

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Úvodem Dříve les než stromy 3 Operace s maticemi

Základy teorie odhadu parametrů bodový odhad

Omezenost funkce. Definice. (shora, zdola) omezená na množině M D(f ) tuto vlastnost. nazývá se (shora, zdola) omezená tuto vlastnost má množina

naopak více variant odpovědí, bude otázka hodnocena jako nesprávně zodpovězená.

Matematická analýza III.

KGG/STG Statistika pro geografy

transformace je posunutí plus lineární transformace má svou matici vzhledem k homogenním souřadnicím [1]

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

NMSA202 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA POZNÁMKY O ZKOUŠCE

Matematická analýza pro informatiky I.

ANALÝZA A KLASIFIKACE DAT

Detekce interakčních sil v proudu vozidel

Aplikovaná numerická matematika

Náhodné (statistické) chyby přímých měření

KGG/STG Statistika pro geografy

Oct 19th Charles University in Prague, Faculty of Mathematics and Physics. Multidimensional estimators. Základní pojmy.

PRAVDĚPODOBNOST A STATISTIKA

Transkript:

Hloubka dat a její použití pro klasifikaci Daniel Hlubinka, Lukáš Kotík, Ondřej Vencálek, Stanislav Nagy a Miroslav Šiman Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Novohradské statistické dny Nové Hrady, červen 2012

Úvod Co je vlastně hloubka dat? Zcela obecně: přiřazení pořadí mnohorozměrné náhodné veličině. Klidně i nekonečněrozměrné (funkcionální proměnné). Bud X : (Ω,F, P) (E,E, P X ) náhodná veličina. Hloubka je funkce rozdělení náhodné veličiny a bodů ve výběrovém prostoru: D : (E,P E ) R + (příp. [0, 1]). Můžeme používat různá značení. Nejčastěji D(x, Q) = D Q (x), případně D(x) bude-li jasné o jaké rozdělení se jedná.

Jaké podmínky na hloubku klást? Hloubka by měla zohledňovat polohu bodu s ohledem na rozdělení. Typicky se jedná o částečné lineární uspořádání. Hloubku každých dvou bodů lze porovnat, body se stejnou hloubkou tvoří kontury hloubky. Tyto kontury lze chápat jako variantu kvantilů rozdělení mnohorozměrných náhodných veličin (které nelze přirozeně definovat kvůli absenci lineárního uspořádání). Jak název napovídá, body u okraje nosiče rozdělení by měly mít malou hloubku, naopak budy uprostřed rozdělení by měly mít hloubku velkou.

Intuitivní pojetí hloubky Ochrana krále: Důležitá osoba musí mít ze všech stran krytá záda. Musí být ukryta nejhlouběji v okruhu svých strážců. Slavnostní večeře: Význační hosté jsou uprostřed a s klesajícím významem hostů se zvětšuje vzdálenost jejich sezení od centra. Uspořádání zevnitř-ven: Data, která jsou uvnitř pravděpodobnostního rozdělení dostanou velkou hloubku, data vně dostanou malou hloubku. Opak odlehlosti: Čím větší hloubka, tím méně jsou data odlehlá a naopak.

Serflingův průvodce po hloubce Liu (1990) udává několik žádoucích vlastností hloubky. H1 Hloubka má být afinně invariantní funkcí. H2 Hloubka má být maximální v centru symetrie rozdělení. H3 Hloubka má klesat směrem od nejhlubšího bodu. H4 Hloubka má jít nule pro body jdoucí k nekonečnu (od nejhlubšího bodu). Serfling a Zuo (2000) pak zkoumají jednotlivé hloubky s ohledem na H1 H4 a jako statistickou hloubku definují nezápornou omezenou funkci splňující H1 H4.

Serflingův průvodce po hloubce Serfling a Zuo (2000) dále dělí hloubku na několik typů: A D(x, P) = E P h(x; X 1,...,X r ), kde h je libovolná nezáporná omezená měřitelná funkce měřící blízkost bodu x k bodům x 1,...,x r. B D(x, P) = ( 1+E P h(x; X 1,...,X r ) ) 1, kde h je libovolná nezáporná neomezená měřitelná funkce měřící vzdálenost bodu x od bodů x 1,...,x r. C D(x, P) = ( 1+O(x, P) ) 1, kde O(x, P) je funkce udávající odlehlost bodu x vzhledem k rozdělení P. D D(x, P;H) = inf H H P[x H], kde H je vhodná třída měřitelných množin.

Hloubka je globální funkcionál Přirozeně se naskýtá otázka: je hustota hloubkou? Mohla by být v širším smyslu; hloubka ale je zavedena jako funkcionál zdůrazňující globální nebo alespoň ne limitní charakter pravděpodobnostní míry. V některých případech ale hloubka a hustota úzce souvisejí: z vlastností H1 H4 plyne, že pro unimodální elipticky symetrická absolutně spojitá rozdělení musí existovat neklesající funkce φ : R + R + propojující hloubku a hustotu, tj D(x, P) = φ ( f P (x) ), kde f P je hustota rozdělení P vůči Lebesgueově míře. Hustotu tedy nebudeme považovat za hloubkový funkcionál.

Hloubka a kvantil Označme úrovňové množiny a kontury hloubky L(D, P, q)= {x : D(x, P) q}, C(D, P, q)= L(D, P, q)\l (D, P, q) kde L je vnitřek množiny. Kontura hloubky může být použita jako mnohorozměrná analogie kvantilu. Je tedy žádoucí, aby definice hloubky použitá na jednorozměrná data definovala kvantil (ve skutečnosti dva symetrické kvantily). Vnoření jednotlivých úrovňových množin hloubky je samozřejmostí.

Kvantil a hloubka Pokud máme vhodnou definici mnohorozměrného kvantilu ve smyslu uzavřených (do sebe vnořených) kontur Q(P, p), lze definovat hloubku pomocí jejích kontur množin C ( D, P,ψ(p) ) = Q(P, p) pro nějakou klesající ψ. Čím větší kvantil, tím má menší hloubku (je dál od středu). Aby šlo o rozumnou hloubku, je nutné aby kvantil měl rozumné vlastnosti. Kvantil a hloubka se tedy dají v určitém případě sjednotit do jednoho pojmu.

Hloubka = kvantil C 1 2α Mnohorozměrným mediánem je bod s největší hloubkou. Body se stejnou hloubkou tvoří kvantilové kontury. Hloubka zobecňuje kvantil do více rozměrů. Místo dvojice kvantilů q α a q 1 α máme kvantilovou konturu C 1 2α.

Neparametrické hloubky Hloubkových funkcí je možná více, než matematiků zabývajících se jimi. Historicky první a nejznámější je poloprostorová hloubka definovaná poprvé v článku (Tukey, 1975). Poloprostorová hloubka je typický představitel hloubky typu D. Velkou popularitu získala i simplexová hloubka definovaná v (Liu, 1990). Simplexová hloubka zastupuje hloubky typu A. Hloubku typu C reprezentuje například Mahalanobisova hloubka D(x, P) = ( 1+MD(x, P) ) 1, hloubku typu B pak například hloubka založená na objemu náhodného simplexu.

Semiparametrické kvantily Pro mnohorozměrné kvantily je možné použít definici regresních kvantilů. Místo regresní přímky (křivky), ale volíme vhodnou třídu uzavřených křivek a místo uspořádání větší/menší volíme uspořádání uvnitř/vně (spolu se vzdáleností od křivky). Typicky volme parametrický tvar křivky, proto jde o semiparametrický přístup. Vhodné jsou například elipsy. Pak jde o eliptické kvantily. Vhodnout volbou ztrátové funkce snadno dostaneme přírozenou afinní ekvivarianci eliptických kvantilů a tím pádem afinní invarianci příslušné hloubky.

Mnoho rozměrů, problémy na obzoru Někdy lze říci, že nějaký bod není moc hluboko a jiný je. Ale někdy to tak jednoznačné není.

Hloubka a klasifikace Chaudhuri a Ghosh (2005) zkoumali klasifikaci pomocí maximální hloubky. To se zdá být přirozeným postupem a hloubkovou analogií k věrohodnostní klasifikaci. Bohužel bayesovská optimalita může být zaručena pouze pro unimodální elipticky symetrická rozdělení se stejnou varianční maticí. Na druhou stanu: to není překvapivé, protože v tom případě větší hloubka odpovídá vyšší hustotě.

Nestejné rozptyly jsou problém Představme si dvě rozdělení: N(0, 1) a N(0, 4). Klasifikace pomocí hustot dává bayesovskou optimalitu: klasifikujme do N(0, 1), pokud x < ( ) 8 1/2 3 log 2. Proti tomu stojí fakt, že každý bod kromě počátku má hloubku větší vůči N(0, 1) než vůči N(0, 4). Hlavní důvod je v invarianci hloubky (na rozdíl od hustoty, která invariantní není).

D-D diagram pro dva výběry Vykreslíme dvojice ( D(x, P 1 ), D(x, P 2 ) ), kde za bod x dosazujeme pozorované body. Pamatujeme si, které pozorování patří ke kterému výběru a na této tréninkové skupině zvolíme nejvhodnější klasifikační kritérium. Tento postup se poprvé objevuje v preprintu (Cuesta-Albertos a kol., 2009 10).

Jak obelstít invarianci? Místo maximální hloubky najdeme jiné pravidlo na klasifikaci.

Jak obelstít invarianci? Napříkladu změnou směrnice obcházíme afinní invarianci hloubky. Namísto klasifikace D(x, P 1 ) D(x, P 2 ) > 1 k = 1 použijeme pro nějakou vhodnou konstantu c pravidlo D(x, P 1 ) D(x, P 2 ) > c k = 1. To nápadně připomíná test poměrem věrohodností. Ale zároveň se můžeme ptát, proč tak trváme na invarianci hloubky, když ji potom obcházíme.

Invariance hloubky O užitečnosti invariance pro statistické metody píše Serfling (2010). Jednorozměrné kvantily jsou ekvivariantní vůči libovolné rostoucí transformaci. Něco podobného ve více rozměrech je nedosažitelné. Afinní invariance hloubky a z ní plynoucí afinní ekvivariance kvantilu založeného na hloubce je asi nejsilnější rozumný požadavek na invarianci.

Klasifikace pomocí hloubky Klasifikovat mnohorozměrná data pomocí bayesovského kriteria (věrohodnostně) je náročné. Je složité a asymptoticky pomalé odhadnout hustoty. Hloubka dat může být vhodnou alternativou redukce dimenze ke známé metodě hlavních komponent. Hloubka redukuje rozměr opravdu důkladně; na jednorozměrnou hodnotu. Jak jsme viděli, je potřeba ještě druhý krok: vhodný klasifikátor založený na hloubce. Nabízí se, opět jakési bayesovské kritérium: odhadnout hustotu jednotlivých výběrů v D-D diagramu. Počet rozměrů je roven počtu tříd.

Na hloubce záleží Dvoustupňová klasifikace pomocí hloubky. Spočítejme hloubku každého bodu tréninkového výběru vůči všem rozdělením. Krok 1: místo původního pozorování použijme vektor y = ( D(x, P 1 ),...,D(x, P k ) ) redukce dimenze. Krok 2: na pozorováních Y odlad me nějaké vhodné klasifikační pravidlo. Toto pravidlo použijme na nová pozorování, respektive na jejich vektor hloubek vůči všem rozdělením. V obou krocích je možné hledat optimální volbu.

Globální a přeci lokální Pokud má hloubka být co nejvhodnější pro klasifikaci z hlediska bayesovského pravidla, musí nějakým způsobem zohledňovat lokální vlastnosti rozdělení, nebo klasifikační pravidlo založené na hloubce musí být v nějakém smyslu lokální. Nabízejí se tedy dvě možnosti. Použijeme lokální variantu hloubky. Klasifikační pravidlo nebude založené jen na hodnotě hloubky.

Lokální hloubka K definici hloubky přiřadíme váhovou funkci. Například vážená poloprostorová hloubka: každý bod v daném poloprostoru dostane váhu odpovídající jeho vzdálenosti od směrového vektoru a od dělící nadroviny. Typicky ztratíme afinní invarianci hloubky, někdy i jednoznačnost nejhlubšího bodu. Získáme hloubkové kontury, které jsou poněkud bližší konturám hustoty. Výsledky klasifikace pomocí D-D diagramu se zlepší Symetrickou variantu dostaneme vydělením vážených pravděpodobností protilehlých poloprostorů.

Nejblíže hlubocí sousedé Pozorování je zařazeno do skupiny, kde Lebesgueova míra množiny nejblíže hlubokých sousedů je nejmenší Jde o obdobu metody k nejbližších sousedů; blízkost není dána geometrickou vzdáleností, ale hloubkou. Tato metoda je podstatně lepší než metoda největší hloubky. Asymptotická optimalita se dá dokázat pro i pro nestejná elipticky symetrická rozdělení.

Hloubka a nekonečněrozměrné veličiny Hloubka nepotřebuje k definici hustotu ani distribuční funkci. Je vhodná i pro funkcionální data (není třeba se zabývat rozdělením na funkčních prostorech). Většina současných definic jsou hloubky typu A. Kromě funkčních hodnot lze do výpočtu zapojit i další charakteristiky funkcí. Například derivace.

Klasifikace funkcionálních dat 2 0 2 4 6 8 2 0 2 4 6 8 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Tato data sestávají z funkcí s mírně odlišnou střední hodnotou a velmi rozdílnou kovarianční strukturou. Ukážeme si, jak moc závisí na volbě hloubkového funkcionálu.

Hloubka Lopez-Pintado (2009) 2 0 2 4 6 8 GLP 0.0 0.1 0.2 0.3 0.4 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.1 0.2 0.3 0.4 GLP

Hloubka zahrnující funkční hodnoty i derivace 2 0 2 4 6 8 AKLP 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 AKLP

Hloubka zahrnující hlavně derivaci 2 0 2 4 6 8 RKLP 0.00 0.05 0.10 0.15 0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.05 0.10 0.15 0.20 RKLP

Ještě více názorný příklad 0 2 4 6 8 GLP 0.0 0.1 0.2 0.3 0.4 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.1 0.2 0.3 0.4 GLP 0 2 4 6 8 AKLP 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.05 0.10 0.15 0.20 0.25 0.30 AKLP 0 2 4 6 8 RKLP 0.00 0.05 0.10 0.15 0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.05 0.10 0.15 0.20 RKLP