Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Podobné dokumenty
AVDAT Mnohorozměrné metody, metody klasifikace

Implementace Bayesova kasifikátoru

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

AVDAT Náhodný vektor, mnohorozměrné rozdělení

oddělení Inteligentní Datové Analýzy (IDA)

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

cv3.tex. Vzorec pro úplnou pravděpodobnost

Náhodné vektory a matice

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Náhodný vektor a jeho charakteristiky

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Příklady ke čtvrtému testu - Pravděpodobnost

TECHNICKÁ UNIVERZITA V LIBERCI

Vícerozměrná rozdělení

Stavový model a Kalmanův filtr

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Úvodem Dříve les než stromy 3 Operace s maticemi

Definice spojité náhodné veličiny zjednodušená verze

Poznámky k předmětu Aplikovaná statistika, 4. téma

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Poznámky k předmětu Aplikovaná statistika, 4. téma

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

NÁHODNÝ VEKTOR. 4. cvičení

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Zápočtová písemka z Matematiky III (BA04) skupina A

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Téma 22. Ondřej Nývlt

Pravděpodobnost a aplikovaná statistika

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Praktická statistika. Petr Ponížil Eva Kutálková

Odhady - Sdružené rozdělení pravděpodobnosti

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Základy počtu pravděpodobnosti a metod matematické statistiky

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

ANALÝZA A KLASIFIKACE DAT

Normální (Gaussovo) rozdělení

Statistická analýza dat

Příklady na testy hypotéz o parametrech normálního rozdělení

You created this PDF from an application that is not licensed to print to novapdf printer (

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Bayesovské metody. Mnohorozměrná analýza dat

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Základy teorie pravděpodobnosti

Odhad stavu matematického modelu křižovatek

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií


Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Odhad - Problémy se sdruženým rozdělením pravděpodobnosti

ANALÝZA A KLASIFIKACE DAT

Motivace. Náhodný pokus, náhodný n jev. Pravděpodobnostn. podobnostní charakteristiky diagnostických testů, Bayesův vzorec

UČENÍ BEZ UČITELE. Václav Hlaváč

15. T e s t o v á n í h y p o t é z

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

SRE 03 - Statistické rozpoznávání

VLIV STATISTICKÉ ZÁVISLOSTI NÁHODNÝCH VELIČIN NA SPOLEHLIVOST KONSTRUKCE

Vytyčení polohy bodu polární metodou

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

I. D i s k r é t n í r o z d ě l e n í

Usuzování za neurčitosti

Náhodné chyby přímých měření

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

p(x) = P (X = x), x R,

Value at Risk. Karolína Maňáková

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Vlastnosti a modelování aditivního

Klasifikace podzemních vod diskriminační analýzou

Statistika II. Jiří Neubauer

Státnice odborné č. 20

Normální (Gaussovo) rozdělení

Simulace. Simulace dat. Parametry

Mnohorozměrná statistická data

Statistická analýza jednorozměrných dat

PRAVDĚPODOBNOST A STATISTIKA

KGG/STG Statistika pro geografy

Univerzita Pardubice 8. licenční studium chemometrie

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

3 Bodové odhady a jejich vlastnosti

Náhodná veličina a rozdělení pravděpodobnosti

Charakterizace rozdělení

Fyzikální korespondenční seminář MFF UK

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

1. Přednáška. Ing. Miroslav Šulai, MBA

Transkript:

Řešení příkladu - klasifikace testovacího subjektu pomocí Bayesova klasifikátoru: ata si vizualizujeme (Obr. ). Objem mozkových komor 9 8 7 6 5 pacienti kontroly testovací subjekt 5 6 Objem hipokampu Obr. : Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu. Nejprve vypočteme apriorní pravděpodobnosti třídy pacientů a kontrol: P(ω ) = n n P(ω H ) = n H = =,5. n 6 = 6 =,5 a ále vypočteme vícerozměrné průměry x, x H a kovarianční matice S, S H (předpokládáme, že data mají vícerozměrné normální rozdělení). Vícerozměrné průměry pro třídu pacientů a kontrol: x = x H = n x n i i= n H x n i H i= n x n i i= = ( + + ) ( + + 8) = [ ] n H x n i H i= = (5 + + ) (7 + 9 + 5) = [ 7] Výběrové kovarianční matice: S = s s výběrových kovariančních matic: s s a S H = s H H s H H s s. ílčí výpočty jednotlivých prvků Rozptyl objemu hipokampu u pacientů: x s = x n ) = x x x x T x x x x x = x T = [ ] = ( + +

ruhý způsob výpočtu: s = ((x n x ) + (x x ) + (x x ) ) = (( ) + ( ) + ( ) ) = ( + + ) = Rozptyl objemu mozkových komor u pacientů: s = ((x n x ) + (x x ) + (x x ) ) = (( ) + ( ) + (8 ) ) = ( + + ) = Kovariance objemu hipokampu a objemu mozkových komor u pacientů: s = s = (x n x )(x x ) + (x x )(x x ) + (x x )(x x ) = ( )( ) + ( )( ) + ( )(8 ) = ( + + ) = Rozptyl objemu hipokampu u kontrol: s H = ((x n H H x H ) + (x H x H ) + (x H x H ) ) = ((5 ) + ( ) + ( ) ) = ( + + ) = Rozptyl objemu mozkových komor u kontrol: s H = ((x n H H x H ) + (x H x H ) + (x H x H ) ) = ((7 7) + (9 7) + (5 7) ) = ( + + ) = Kovariance objemu hipokampu a objemu mozkových komor u kontrol: s H = s H = (x n H H x H )(x H x H ) + (x H x H )(x H x H ) + (x H x H )(x H x H ) = (5 )(7 7) + ( )(9 7) + ( )(5 7) = ( + + ) = Výběrové kovarianční matice: S = s s = s s a S H = s H H s H H s s =. Pokud bychom kovarianční matici pacientů chtěli spočítat maticově: S = x x n x x [x x x x ] + x x x [x x x x ] + x x x x [x x x x ] = [ ] + [ ] + 8 [ 8 ] = [ ] + [ ] + [ ] = + + = x Na závěr vypočteme výběrový (Pearsonův) korelační koeficient objemu hipokampu a mozkových komor u pacientů (r ) a kontrolních subjektů (r H ): r = r = r H = r H = s s s s H sh sh = =.5 = =.5

Kritérium maximální aposteriorní pravděpodobnosti. Klasifikace podle objemu mozkových komor: Nejprve si znázorníme objem mozkových komor u jednotlivých subjektů (Obr. ). 5 6 7 8 9 Objem mozkových komor pacienti kontroly testovací subjekt Obr. : Vizualizace objemu mozkových komor u jednotlivých subjektů. Spočteme aposteriorní pravděpodobnosti P(ω x ) a P(ω H x ) s využitím Bayesova vzorce, tedy P(ω x ) = p(x ω ) P(ω ) a P(ω p(x ) H x ) = p(x ω H ) P(ω H ), a zařadíme testovací subjekt do třídy s větší p(x ) aposteriorní pravděpodobností. Výpočet p(x ω ), podmíněné hustoty pravděpodobnosti výskytu obrazu x ve třídě ω, a p(x ω H ), podmíněné hustoty pravděpodobnosti výskytu obrazu x ve třídě ω H (grafické znázornění podmíněných hustot pravděpodobnosti viz. Obr. ): p(x ω ) = πs p(x ω H ) = πsh exp x x exp x x H s = π sh = π (9 ) exp =,76 (9 7) exp =, Výpočet celkové hustoty pravděpodobnosti: p(x ) = p(x ω ) P(ω ) + p(x ω H ) P(ω H ) =,76,5 +,,5 =,85 Aposteriorní pravděpodobnosti jsou pak rovny: P(ω x ) =,76,5,85 =,59 a P(ω H x ) =,,5,85 =,7 (tzn. s pravděpodobností 59,% bude subjekt zařazen do třídy pacientů a s pravděpodobností,7% do třídy kontrolních subjektů). Protože P(ω x ) > P(ω H x ), zařadíme testovací subjekt do třídy pacientů. Poznámka : Součet aposteriorních pravděpodobností je roven.

,,,8,6,, -5 5 5 Objem mozkových komor Obr. : Vizualizace hustoty pravděpodobnosti pacientů (znázorněna červeně) a kontrolních subjektů (znázorněna černě). Podmíněné hustoty pravděpodobnosti výskytu testovacího subjektu x v jednotlivých třídách jsou znázorněny modře. Je patrné, že subjekt bude zařazen do třídy pacientů.. Klasifikace podle objemu hipokampu: Nejprve si znázorníme objem hipokampu u jednotlivých subjektů (Obr. ). 5 6 Objem hipokampu pacienti kontroly testovací subjekt Obr. : Vizualizace objemu hipokampu u jednotlivých subjektů. Spočteme aposteriorní pravděpodobnosti P(ω x ) a P(ω H x ) s využitím Bayesova vzorce, tedy P(ω x ) = p(x ω ) P(ω ) a P(ω p(x ) H x ) = p(x ω H ) P(ω H ), a zařadíme testovací subjekt do třídy s větší p(x ) aposteriorní pravděpodobností. Výpočet podmíněné hustoty pravděpodobnosti výskytu obrazu x ve třídě ω : p(x ω ) = πs exp x x s = π (,5 ) exp =,5 Výpočet podmíněné hustoty pravděpodobnosti výskytu obrazu x ve třídě ω H :

p(x ω H ) = πsh exp x x H sh = π (,5 ) exp =,5 Grafické znázornění podmíněných hustot pravděpodobnosti je znázorněno na Obr. 5. Výpočet celkové hustoty pravděpodobnosti: p(x ) = p(x ω ) P(ω ) + p(x ω H ) P(ω H ) =,5,5 +,5,5 =,5 Aposteriorní pravděpodobnosti jsou pak rovny: P(ω x ) =,5,5,5 =,5 a P(ω H x ) =,5,5,5,5. Protože P(ω x ) = P(ω H x ), nelze jednoznačně určit, do které třídy máme testovací subjekt zařadit. V takovém případě často klasifikační algoritmy náhodně zvolí jednu ze skupin. =,,5,,5-6 8 Objem hipokampu Obr. 5: Vizualizace hustoty pravděpodobnosti pacientů (znázorněna červeně) a kontrolních subjektů (znázorněna černě). Podmíněné hustoty pravděpodobnosti výskytu testovacího obrazu x v jednotlivých třídách jsou znázorněny modře. Je patrné, že nelze rozhodnout, do jaké třídy máme testovací subjekt zařadit.. Klasifikace podle obou proměnných: Spočteme aposteriorní pravděpodobnosti P(ω x) a P(ω H x), přičemž P(ω x) = p(x ω ) P(ω ) p(x) a P(ω H x) = p(x ω H ) P(ω H ), p(x) a zařadíme testovací subjekt do třídy s větší aposteriorní pravděpodobností. Výpočet podmíněné hustoty pravděpodobnosti výskytu obrazu x ve třídě ω : 5

p(x ω ) = π s s r exp exp π ( (,5) ) ( (,5) ) (,5 ) + (9 ) r x x s + x x s r x x x x s s (,5)(,5 )(9 ) =,78 Výpočet podmíněné hustoty pravděpodobnosti výskytu obrazu x ve třídě ω H : = p(x ω H ) = π s H s H r H exp exp π ( (,5) ) ( (,5) ) (,5 ) + (9 7) r H x x H sh + x x H sh r H x x H x x H s H sh (,5)(,5 )(9 7) =,56 Grafické znázornění podmíněných hustot pravděpodobnosti je znázorněno na Obr. 6. = Výpočet celkové hustoty pravděpodobnosti: p(x) = p(x ω ) P(ω ) + p(x ω H ) P(ω H ) =,78,5 +,56,5 =,67 Aposteriorní pravděpodobnosti jsou pak rovny: P(ω x) =,78,5 =,58 a P(ω,67 H x) =,56,5 =,67,8. Protože P(ω x) > P(ω H x), zařadíme testovací subjekt do třídy pacientů..5 x 8 6 x 5 6 7 Obr. 6: Vizualizace hustoty pravděpodobnosti pacientů (znázorněna červenou plochou) a kontrolních subjektů (znázorněna šedou plochou). Podmíněná hustota pravděpodobnosti výskytu testovacího obrazu x v jednotlivých třídách je znázorněna modře. Je patrné, že subjekt bude zařazen do třídy pacientů. 6

Poznámka: Klasifikace pomocí věrohodnostního poměru P(ω x) P(ω H x) = : Levá strana je rovna P(ω x) =,58 =, a pravá strana rovna. Protože věrohodnostní poměr (na P(ω H x),8 levé straně) je větší než výraz na pravé straně, subjekt zařadíme do třídy pacientů. Kritérium minimální pravděpodobnosti chybného rozhodnutí Kritérium je ve tvaru: p(x ω ) = P(ω H ) p(x ω H ) P(ω ). Po dosazení konkrétních hodnot vypočítaných výše je levá strana rovna p(x ω ) =,78 =, a pravá strana rovna P(ω H ) =,5 =. Protože věrohodnostní p(x ω H ),56 P(ω ),5 poměr (na levé straně) je větší než výraz na pravé straně, subjekt zařadíme do třídy pacientů. = 6 9 P(ω ) 9 Poznámka: Kdyby byly apriorní pravděpodobnosti jiné, např. P(ω H ) byl testovací subjekt zařazen do třídy kontrolních subjektů. =, v takovém případě by Kritérium minimální střední ztráty Kritérium je ve tvaru: p(x ω ) p(x ω H ) = λ(ω ω H ) λ(ω H ω H ) P(ω H ) λ(ω H ω ) λ(ω ω ) P(ω ). Levá strana je rovna p(x ω ) p(x ω H ) =,78,56 =,. Pravá strana je při různém nastavení vah rovna: A) λ = (tzn., více penalizujeme, pokud je pacient nesprávně zařazen do třídy kontrolních subjektů, než když je kontrolní subjekt nesprávně zařazen do třídy pacientů), pak pravá strana je rovna ( ),5 =,5 a subjekt zařadíme do třídy pacientů. ( ),5 B) λ = (penalizujeme shodně nesprávné zařazení do třídy kontrolních subjektů i pacientů kritérium minimální pravděpodobnosti chybného rozhodnutí), pak pravá strana je rovna ( ),5 = a subjekt zařadíme do třídy pacientů. ( ),5 C) λ = (tzn., více penalizujeme, pokud je kontrolní subjekt nesprávně zařazen do třídy pacientů, než když je pacient nesprávně zařazen do třídy kontrolních subjektů), pak pravá strana je rovna ( ),5 = a subjekt zařadíme do třídy kontrolních subjektů. ( ),5 7

Kritérium maximální pravděpodobnosti Kritérium je ve tvaru: p(x ω ) = λ(ω ω H ). Levá strana je rovna p(x ω ) =,78 =,. Pravá strana je p(x ω H ) λ(ω H ω ) p(x ω H ),56 při různém nastavení vah rovna: A) λ = (tzn., více penalizujeme, pokud je pacient nesprávně zařazen do třídy kontrolních subjektů, než když je kontrolní subjekt nesprávně zařazen do třídy pacientů), pak pravá strana je rovna =,5 a subjekt zařadíme do třídy pacientů. B) λ = (penalizujeme shodně nesprávné zařazení do třídy kontrolních subjektů i pacientů), pak pravá strana je rovna = a subjekt zařadíme do třídy pacientů. C) λ = (tzn., více penalizujeme, pokud je kontrolní subjekt nesprávně zařazen do třídy pacientů, než když je pacient nesprávně zařazen do třídy kontrolních subjektů), pak pravá strana je rovna = a subjekt zařadíme do třídy kontrolních subjektů. 8