Hloubka dat. kontury, klasifikace a konzistence. Daniel Hlubinka

Podobné dokumenty
Hloubka dat. a její použití pro klasifikaci

Základy teorie pravděpodobnosti

1 Rozptyl a kovariance

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Normální (Gaussovo) rozdělení

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Definice spojité náhodné veličiny zjednodušená verze

17. Posloupnosti a řady funkcí

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Náhodná veličina a rozdělení pravděpodobnosti

PRAVDĚPODOBNOST A STATISTIKA

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

AVDAT Náhodný vektor, mnohorozměrné rozdělení

PRAVDĚPODOBNOST A STATISTIKA. Odhady parametrů Postačující statistiky

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Intervalová data a výpočet některých statistik

Normální (Gaussovo) rozdělení

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

JAK MODELOVAT VÝSLEDKY

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Statistika II. Jiří Neubauer

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

2 Hlavní charakteristiky v analýze přežití

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Náhodný vektor a jeho charakteristiky

Matematika pro informatiky

Pravděpodobnost a aplikovaná statistika

Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti:

Diskrétní náhodná veličina. November 12, 2008

I. D i s k r é t n í r o z d ě l e n í

p(x) = P (X = x), x R,

Přednáška 6, 6. listopadu 2013

NMSA202 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA POZNÁMKY O ZKOUŠCE

Náhodné (statistické) chyby přímých měření

Výběrové charakteristiky a jejich rozdělení

7. Rozdělení pravděpodobnosti ve statistice

FREDHOLMOVA ALTERNATIVA

METRICKÉ A NORMOVANÉ PROSTORY

LWS při heteroskedasticitě

Přijímací zkouška na navazující magisterské studium 2017

Základní spádové metody

Vybraná rozdělení náhodné veličiny

Náhodné jevy. Teorie pravděpodobnosti. Náhodné jevy. Operace s náhodnými jevy

8 Střední hodnota a rozptyl

KGG/STG Statistika pro geografy

Matematika III. Miroslava Dubcová, Daniel Turzík, Drahoslava Janovská. Ústav matematiky

Základy teorie pravděpodobnosti

PRAVDĚPODOBNOST A STATISTIKA

Cvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Úvod do teorie her

TEORIE PRAVDĚPODOBNOSTI. 2. cvičení

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2015

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

ZÁKLADNÍ PLANIMETRICKÉ POJMY

FIT ČVUT MI-LOM Lineární optimalizace a metody. Dualita. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Náhodné chyby přímých měření

2 ) 4, Φ 1 (1 0,005)

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

Stručný úvod do testování statistických hypotéz

Kapitola 4: Extrémy funkcí dvou proměnných 1/5

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

15. T e s t o v á n í h y p o t é z

Funkce. Definiční obor a obor hodnot

3 Bodové odhady a jejich vlastnosti

Dnešní látka Variačně formulované okrajové úlohy zúplnění prostoru funkcí. Lineární zobrazení.

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

PRAVDĚPODOBNOST A STATISTIKA

Řešení. Označme po řadě F (z) Odtud plyne, že

Praktická statistika. Petr Ponížil Eva Kutálková

Odhad parametrů N(µ, σ 2 )

Matematická analýza pro informatiky I. Limita posloupnosti (I)

Pravděpodobnost a statistika

Drsná matematika IV 7. přednáška Jak na statistiku?

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

KGG/STG Statistika pro geografy

8. Normální rozdělení

Základy matematiky pro FEK

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

K oddílu I.1 základní pojmy, normy, normované prostory

NMAI059 Pravděpodobnost a statistika

KORELACE. Komentované řešení pomocí programu Statistica

6 PŘEDNÁŠKA 6: Stav kvantového systému, úplná množina pozorovatelných. Operátor momentu hybnosti a kvadrátu momentu hybnosti.

Pravděpodobnostní model volejbalového zápasu

Transkript:

Hloubka dat kontury, klasifikace a konzistence Daniel Hlubinka Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Robust Němčičky 2012

Hloubka Co je vlastně hloubka dat? Zcela obecně: přiřazení pořadí mnohorozměrné náhodné veličině. Klidně i nekonečněrozměrné (funkcionální proměnné). Bud X : (Ω, F, P) (E, E, P X ) náhodná veličina. Hloubka je funkce rozdělení náhodné veličiny a bodů ve výběrovém prostoru: D : (E, P E ) R + (příp. [0, 1]). Můžeme používat různá značení. Nejčastěji D(x, Q) = D Q (x), případně D(x) bude-li jasné o jaké rozdělení se jedná.

Serflingův průvodce po hloubce Liu (1990) udává několik žádoucích vlastností hloubky. H1 Hloubka má být afinně invariantní funkcí. H2 Hloubka má být maximální v centru symetrie rozdělení. H3 Hloubka má klesat směrem od nejhlubšího bodu. H4 Hloubka má jít nule pro body jdoucí k nekonečnu (od nejhlubšího bodu). Serfling a Zuo (2000) pak zkoumají jednotlivé hloubky s ohledem na H1 H4 a jako statistickou hloubku definují nezápornou omezenou funkci splňující H1 H4.

Serflingův průvodce po hloubce Serfling a Zuo (2000) dále dělí hloubku na několik typů: A D(x, P) = E P h(x; X 1,..., X r ), kde h je libovolná nezáporná omezená měřitelná funkce měřící blízkost bodu x k bodům x 1,..., x r. B D(x, P) = ( 1 + E P h(x; X 1,..., X r ) ) 1, kde h je libovolná nezáporná neomezená měřitelná funkce měřící vzdálenost bodu x od bodů x 1,..., x r. C D(x, P) = ( 1 + O(x, P) ) 1, kde O(x, P) je funkce udávající odlehlost bodu x vzhledem k rozdělení P. D D(x, P; H) = inf H H P[x H], kde H je vhodná třída měřitelných množin.

Hloubka a kvantil Označme úrovňové množiny a kontury hloubky L(D, P, q)= {x : D(x, P) q}, C(D, P, q)= L(D, P, q) \ L (D, P, q) kde L je vnitřek množiny. Kontura hloubky může být použita jako mnohorozměrná analogie kvantilu. Je tedy žádoucí, aby definice hloubky použitá na jednorozměrná data definovala kvantil (ve skutečnosti dva symetrické kvantily). Vnoření jednotlivých úrovňových množin hloubky je samozřejmostí.

Hloubka a hustota Hustota je lokální charakteristikou. Naopak hloubka zohledňuje globální postavení bodu vůči rozdělení. Obecně kontury hloubky a hustoty nejsou stejné. Výjimkou jsou elipticky symetrická unimodální rozdělení. Pro ty je hodnota hloubky jednoznačně určena hodnotou hustoty a naopak. Tato vlastnost ale neplatí pro jiné symetrie, ani pro l p symetrická rozdělení pro p 2. Proto není možné úplně přímočaré použití hloubky například pro klasifikaci. Musíme vymýšlet rafinované postupy.

Hloubka a nekonečně mnoho rozměrů Výhodou hloubky je, že může být definována i pro nekonečně rozměrná data (funkcionální data). Nelze ale postupovat úplně přimočaře zobecněním například poloprostorové hloubky. Existují jednoduché příklady, kdy poloprostorová hloubka dává skoro všem bodům nulovou hloubku (teoretická, nejenom empirická). Hloubka pro funkcionální data je inspirována hloubkou pro konečně rozměrná data, ale potřebujeme jiné definice.

Hloubka a konzistence poloprostorová hloubka Připomeňme: HD(x) = inf P(H) = inf P[(X H,x H u =1 x)t u > 0] Ze SZVČ víme, že P n [(X x) T u > 0] P[(X x) T u > 0] pro všechna u. Zde potřebujeme stejnoměrnou konvergenci. Díky stejnoměrnému SZVČ pak dostaneme bodovou konvergenci HD n (x) HD(x) s.j.

Hloubka a konzistence zobecněná poloprostorová hloubka Příliš velká neshoda mezi hloubkou a hustotou pro rozdělení s nekonvexními konturami hustoty vedla k zavedení zobecněné (vážené) poloprostorové hloubky. Vážené zobecnění poloprostorové hloubky: WD(x) = inf Ew(X x, u) u =1 Opět potřebujeme stejnoměrný SZVČ, abychom mohli dokázat WD n (x) WD(x) skoro jistě pro všechna x. Dá se ale ukázat i více: sup x WD n (x) WD(x) 0 s.j.

Hloubka a konzistence simplexová hloubka Připomeňme: SD(x) = P[x S], kde S je náhodný simplex z rozdělení P Problém konzistence je řešitelný pomocí U-statistik. Podobně lze dokazovat i konzistenci některých funkcionálních hloubek (založených na pásech funkcí v roli simplexů). I tam lze využít teorii U-statistik.