AVDAT Mnohorozměrné metody, metody klasifikace

Podobné dokumenty
AVDAT Náhodný vektor, mnohorozměrné rozdělení

AVDAT Klasický lineární model, metoda nejmenších

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

AVDAT Mnohorozměrné metody metody redukce dimenze

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

AVDAT Geometrie metody nejmenších čtverců

Úvodem Dříve les než stromy 3 Operace s maticemi

AVDAT Výběr regresorů v mnohorozměrné regresi

Náhodné vektory a matice

oddělení Inteligentní Datové Analýzy (IDA)

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Implementace Bayesova kasifikátoru

PRAVDĚPODOBNOST A STATISTIKA

AVDAT Nelineární regresní model

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

LINEÁRNÍ MODELY. Zdeňka Veselá

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Klasická a robustní ortogonální regrese mezi složkami kompozice

Odhady - Sdružené rozdělení pravděpodobnosti

Apriorní rozdělení. Jan Kracík.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

ANALÝZA A KLASIFIKACE DAT

Statistická analýza dat

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

15. T e s t o v á n í h y p o t é z

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Stavový model a Kalmanův filtr

4EK211 Základy ekonometrie

15. T e s t o v á n í h y p o t é z

Téma 22. Ondřej Nývlt

Statistika II. Jiří Neubauer

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

cv3.tex. Vzorec pro úplnou pravděpodobnost

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

PRAVDĚPODOBNOST A STATISTIKA

Bayesovské metody. Mnohorozměrná analýza dat

7. Analýza rozptylu.

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Vícerozměrné statistické metody

Kybernetika a umělá inteligence, cvičení 10/11

Klasifikační metody pro genetická data: regularizace a robustnost

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Klasifikace a rozpoznávání. Lineární klasifikátory

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

5. T e s t o v á n í h y p o t é z

4EK211 Základy ekonometrie

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Úlohy nejmenších čtverců

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Regresní a korelační analýza

Bodové a intervalové odhady parametrů v regresním modelu

Matematika pro chemické inženýry

LWS při heteroskedasticitě

Testování statistických hypotéz

6. Lineární regresní modely

Lineární algebra : Metrická geometrie

Interpolace, ortogonální polynomy, Gaussova kvadratura

Charakterizace rozdělení

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

x T 1 matici & S 1 kovarianční matici &

3 Bodové odhady a jejich vlastnosti

Regresní analýza 1. Regresní analýza

Kredibilitní pojistné v pojištění automobilů. Silvie Zlatošová září 2016, Robust

odpovídá jedna a jen jedna hodnota jiných

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Tomáš Karel LS 2012/2013

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Odhad stavu matematického modelu křižovatek

Skóringové a klasifikační metody v bankovnictví

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Odhad parametrů N(µ, σ 2 )

dat Robust ledna 2018

Odhady Parametrů Lineární Regrese

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Pravděpodobnost a aplikovaná statistika

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Lineární a logistická regrese

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

MATEMATICKÁ STATISTIKA - XP01MST

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

EUKLIDOVSKÉ PROSTORY

Výběrové charakteristiky a jejich rozdělení

Odhad parametrů N(µ, σ 2 )

Základní statistické metody v rizikovém inženýrství

Časové řady, typy trendových funkcí a odhady trendů

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Transkript:

AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita

Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných veličin. Regresní analýza bývá považována za samostatnou část stojící vedle mnohorozměrných metod (methods of multivariate analysis). Další metody: testy shody vektorů středních hodnot MANOVA (multivariate analysis of variance) mnohorozměrná analogie analýzy rozptylu kanonické korelace, které můžeme považovat za jisté zobecnění lineární regrese, kdy vysvětlujeme ne jednu náhodnou veličinu, ale vektor náhodných veličin

Mnohorozměrné metody metody klasifikace, kdy předpokládáme, že data pocházejí z více populací a hledáme pravidlo umožňující zařadit (klasifikovat) objekt charakterizovaný vektorem hodnot do jedné z populací (diskriminační analýza, logistická regrese, neuronové sítě atd.) pokoušíme se najít v datech podmnožiny podobných objektů (shluková analýza cluster analysis) metody redukce dimenze úlohy, kdy proměnlivost a závislosti v datech se pokoušíme vyjádřit pomocí méně veličin. Analýza hlavních komponent (principal components) vysvětluje rozptyl. Faktorová analýza vysvětluje kovarianční (korelační) strukturu.

Jednovýběrový Hottelingův T 2 test: Testuje se hypotéza, že p-rozměrný vektor středních hodnot µ je roven nějakému danému konstantnímu vektoru µ 0. Předpokládá se, že výběr je z mnohorozměrného normálního rozdělení. Testovou statistikou je T 2 = n( x µ 0 ) T S 1 ( x µ 0 ). Tato statistika má Hottelingovo rozdělení. Lze také užít statistiku T 2 n 1 n p p F p,n p

Dvouvýběrový Hottelingův T 2 test: Testujeme shodu dvou vektorů středních hodnot H 0 : µ 1 = µ 2 Máme dva výběry z p-rozměrného normálního rozdělení o rozsazích n 1, n 2, a n 1 + n 2 = n. Vektory výběrových průměrů jsou x 1, x 2. Za předpokladu shody kovariančních matic Σ 1 = Σ 2 = Σ můžeme z výběrových kovariančních matic S 1, S 2 odhadnout společnou výběrovou kovarianční matic Označíme δ = µ 1 µ 2. Pak S = (n 1 1)S 1 + (n 2 1)S 2 n 1 + n 2 2 T 2 = n 1n 2 n ( x 1 x 2 δ) T S 1 ( x 1 x 2 δ) má Hottelingovo rozdělení a n p 1 p T 2 F(p, n p 1), n 2

Diskriminační analýza Pravidlo na základě zadaných hodnot vektoru x zařadit objekt do h-té skupiny Pravidlo, které by klasifikovalo pokud možno správně, které minimalizuje pravděpodobnost chybných rozhodnutí. Za jistých předpokladů je takovým pravidlem lineární diskriminační funkce. Odvození jejího tvaru si ukážeme pro klasifikaci do dvou skupin.

Klasifikace do dvou skupin h = 1, 2 index skupiny A h jev příslušnost k h-té skupině P(A h ) = π h apriorní pravděpodobnost f h (x) sdružená hustota pro h-tou skupinu P(A h x) aposteriorní pravděpodobnost, tj. pravděpodobnost příslušnosti k h-té skupině za podmínky daných hodnot x Hustotu můžeme zapsat f h (x) = f (x A h ) pro h = 1, 2, tj. sdružená hustota pro h-tou skupinu je hustota za podmínky, že nastane jev A h.

Klasifikace do dvou skupin Podle Bayesova vzorce vyjádříme aposteriorní pravděpodobnost: P(A h x) = P(A h )f h (x A h ) P(A 1 )f (x A 1 ) + P(A 2 )f (x A 2 ) = h = 1, 2. π h f h (x) π 1 f 1 (x) + π 2 f 2 (x), Klasifikovat budeme do skupiny s největší aposteriorní pravděpodobností. Dále označme S výběrový prostor (množinu všech možných výsledků x). Naším cílem je rozdělit tento výběrový prostor na dvě části splňující podmínky: S = S 1 S 2, S 1 S 2 =. Pak když x S h, zařadíme do h-té skupiny.

Klasifikace do dvou skupin Pravděpodobnost chybného zařazení objektu z h-té skupiny do h -té skupiny je P(x S h A h ) = f h (x)dx, h = 1, 2. Podle věty o úplné pravděpodobnosti je celková pravděpodobnost chybné klasifikace ω = π 1 f 1 (x)dx + π 2 f 2 (x)dx. S 2 S 1 Pokud obě chyby klasifikace mají stejnou váhu, je optimální rozhodovací pravidlo, které minimalizuje ω. S h

Klasifikace do dvou skupin Objekt řadíme do skupiny s vyšší aposteriorní pravděpodobností, např. do skupiny 1 zařadíme objekt, když π 1 f 1 (x) > π 2 f 2 (x) (jmenovatel je shodný pro obě skupiny). Klasifikační pravidlo pro zařazení do skupiny 1 je f 1 (x) f 2 (x) > π 2 π 1 Předpokládáme-li p-rozměrné normální rozdělení vektoru x, tj. N p (µ 1, Σ 1 ) v 1. skupině a N p (µ 2, Σ 2 ) ve 2. skupině, pak hustota je: [ ] f h (x) = (2π) p 2 Σh 1 2 exp (x µ h ) T Σ 1 (x µ h)/2 h

Klasifikace do dvou skupin Po dosazení a zlogaritmování dostaneme x T Γx + η T x + ξ > 0, kde Γ = 0, 5(Σ 1 2 Σ 1 1 ), ξ = 1 2 ln Σ 2 Σ 1 ln π 2 π 1 1 2 η T = µ T 1 Σ 1 1 µ T 2 Σ 1 2 ( µ T 1 Σ 1 1 µ 1 µ T 2 Σ 1 2 µ 2 )

Klasifikace do dvou skupin shoda kovariančních matic Jsou-li kovarianční matice v obou skupinách shodné, tj. Σ 1 = Σ 2, pak odpadne kvadratický člen a rozhodovací pravidlo se podstatně zjednoduší: kde a Funkce β T x + γ > 0, β T = (µ 1 µ 2 ) T Σ 1 γ = 1 2 βt (µ 1 + µ 2 ) 1 2 ln π 2 π 1 L(x) = β T x se nazývá lineární diskriminační funkce, zkratkou LDF.

Klasifikace do více skupin shoda kovariančních matic Podprostory S 1 a S 2 v p-rozměrném prostoru S odděluje nadrovina určená rovnicí LDF lze vyjádřit také jako β T x + γ = 0 čili L(x) = γ L h (x) = µ T h Σ 1 x 1 2 µt h Σ 1 µ h a klasifikovat do té skupiny, pro kterou je L h (x) největší. Tak se postupuje, když se klasifikuje do více než dvou skupin.

Klasifikace do více skupin shoda kovariančních matic LDF je optimální rozhodovací pravidlo pro klasifikaci do skupin, pokud náhodný vektor x má normální rozdělení a skupiny se liší jen vektorem středních hodnot, nikoliv kovarianční strukturou. Procedura diskriminační analýzy z dat, u kterých je klasifikace známa, odhaduje hodnoty parametrů lineární diskriminační funkce β. Pak LDF s hodnotami odhadů lze užít pro klasifikaci objektů, jejichž příslušnost do skupiny známa není.

Klasifikace do dvou skupin příklad Linear Discriminant Functions skup Variable 0 1 Constant -22.93688-44.95984 x1 2.481297 3.438486 x3 1.242258 1.775299 Classification Count Table for skup Predicted Actual 0 1 Total 0 15 0 15 1 1 14 15 Total 16 14 30

Klasifikace do dvou skupin příklad

Klasifikace do dvou skupin shoda kovariančních matic Stejnou úlohu hledání klasifikačního pravidla pro klasifikaci do dvou skupin lze řešit i logistickou regresí. ( ) p ln = x T β 1 p Klasifikace je pak založena na odhadu pravděpodobnosti, že pro dané hodnoty regresorů má veličina Y má hodnotu 1. Tvar klasifikační funkce lze snadno vyjádřit z modelu logistické regrese p = exp(xt β) 1 + exp(x T β) Je-li p větší než zvolená hodnota (většinou 0,5), pak objekt klasifikujeme do skupiny 1, jinak do skupiny 0.