Implementace Bayesova kasifikátoru

Podobné dokumenty
Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

oddělení Inteligentní Datové Analýzy (IDA)

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Odhad parametrů N(µ, σ 2 )

AVDAT Mnohorozměrné metody, metody klasifikace

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

AVDAT Klasický lineární model, metoda nejmenších

Odhady - Sdružené rozdělení pravděpodobnosti

Odhad parametrů N(µ, σ 2 )

Úloha - rozpoznávání číslic

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Teorie náhodných matic aneb tak trochu jiná statistika

3 Bodové odhady a jejich vlastnosti

Kybernetika a umělá inteligence, cvičení 10/11

8 Coxův model proporcionálních rizik I

Odhady Parametrů Lineární Regrese

UČENÍ BEZ UČITELE. Václav Hlaváč

Rozdělování dat do trénovacích a testovacích množin

Apriorní rozdělení. Jan Kracík.

Náhodné vektory a matice

Základy teorie odhadu parametrů bodový odhad

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Klasifikace a rozpoznávání. Lineární klasifikátory

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Základy teorie pravděpodobnosti

Pravděpodobnost a aplikovaná statistika

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

Statistika II. Jiří Neubauer

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

Lineární klasifikátory

Bayesovské rozhodování - kritétium minimální střední ztráty

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

Klasifikace a rozpoznávání. Extrakce příznaků

Statistická teorie učení

Náhodné chyby přímých měření

Vícerozměrná rozdělení

Vytěžování znalostí z dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

MATEMATICKÁ STATISTIKA - XP01MST

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Jednofaktorová analýza rozptylu

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

4. Aplikace matematiky v ekonomii

Kapitola 1. Logistická regrese. 1.1 Model

Aplikovaná numerická matematika

Přijímací zkouška na navazující magisterské studium 2014

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

11 Analýza hlavních komponet

SRE 03 - Statistické rozpoznávání

1 Polynomiální interpolace

Nalezněte obecné řešení diferenciální rovnice (pomocí separace proměnných) a řešení Cauchyho úlohy: =, 0 = 1 = 1. ln = +,

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Náhodné (statistické) chyby přímých měření

TECHNICKÁ UNIVERZITA V LIBERCI

Vytyčení polohy bodu polární metodou

Téma 22. Ondřej Nývlt

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Jasové transformace. Karel Horák. Rozvrh přednášky:

Příklad 1 ŘEŠENÉ PŘÍKLADY Z M1A ČÁST 6

Stavový model a Kalmanův filtr

5. Lokální, vázané a globální extrémy

Bayesovské metody. Mnohorozměrná analýza dat

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

3.3. EXPONENCIÁLNÍ A LOGARITMICKÁ ROVNICE A NEROVNICE

ANALÝZA A KLASIFIKACE DAT

Z OBRAZOVÉHO ZÁZNAMU. Jan HAVLÍK. Katedra teorie obvodů, Fakulta elektrotechnická

1 Determinanty a inverzní matice

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Markovské metody pro modelování pravděpodobnosti

Extrémy funkce dvou proměnných

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Vlastnosti odhadů ukazatelů způsobilosti

PRAVDĚPODOBNOST A STATISTIKA

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

Příklady - Bodový odhad

7. Rozdělení pravděpodobnosti ve statistice

Úvodem Dříve les než stromy 3 Operace s maticemi

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

1.1 Existence a jednoznačnost řešení. Příklad 1.1: [M2-P1] diferenciální rovnice (DR) řádu n: speciálně nás budou zajímat rovnice typu

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Náhodný vektor a jeho charakteristiky

verze 1.4 Ekvivalentní podmínkou pro stacionární bod je, že totální diferenciál je nulový

AVDAT Nelineární regresní model

ANALÝZA A KLASIFIKACE DAT

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

2 Hlavní charakteristiky v analýze přežití

Průvodce studiem. do bodu B se snažíme najít nejkratší cestu. Ve firmách je snaha minimalizovat

Výběrové charakteristiky a jejich rozdělení

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7


správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Kapitola 4: Extrémy funkcí dvou proměnných 1/5

Poznámky k předmětu Aplikovaná statistika, 4. téma

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

Diferenciální rovnice 3

Transkript:

Implementace Bayesova kasifikátoru a diskriminačních funkcí v prostředí Matlab J. Havlík Katedra teorie obvodů Fakulta elektrotechnická České vysoké učení technické v Praze Technická 2, 166 27 Praha 6 email: xhavlikj@fel.cvut.cz Abstrakt Příspěvek se zabývá problematikou klasifikace prostorových pohybů palce ruky. Palec ruky je označen reflexní značkou, jejíž pohyb je sledován dvojicí videokamer ze dvou lineárně nezávislých směrů. Pohyb značky v prostoru je parametrizován a uložen jako posloupnost polohových vektorů. V příspěvku je uveden popis Bayesova klasifikátoru a klasifikátoru založeného na diskriminačních funkcích a tyto dva přístupy jsou porovnány. 1 Úvod Uvedené klasifikační algoritmy jsou částí řetězce použitého k výzkumu vzájemných souvislostí svalové a mozkové aktivity člověka. Mozková aktivita je v tomto výzkumu reprezentována elektro-encefalografickým signálem EEG). Signál EEG neobsahuje pouze části přímo související se sledovaným pohybem těla, ale obsahuje i části odrážející další životní funkce, např. artefakty očních pohybů. Aby bylo možné provádět srovnání EEG záznamu se záznamem svalové aktivity, bylo třeba zvolit jednoduchý pohyb malého svalu, který při pohybu příliš neovlivňuje své okolí. Jako sledovaný pohyb byl vybrán volný pohyb palce ruky. Svalová aktivita je reprezentována posloupností polohových vektorů značky umístěné na palci ruky. Účelem celého řetězce je nalézt typické změny mozkové aktivity odpovídající specifickým pohybům palce ruky. 2 Experiment Snímaná osoba hýbe prstem mezi 3 polohami, směr pohybu prstu je volen pokusnou osobou tak, aby všechny směry pohybu byly realizovány zhruba se stejnou četností. Pohyb prstu následuje vždy po optickém synchronizačním pulsu, perioda pulsů je6 ±1 vteřina. Snímaný pohyb je zaznamenáván dvojicí standardních DV videokamer rozlišení 720 520 pixelů, snímkovací frekvence 25 snímků za vteřinu) ze dvou lineárně nezávislých směrů. Uspořádání měřicího pracoviště je zřejmé z obrázku 1. Palec ruky je označen speciální reflexní značkou. Pohyb této značky v zaznamenaných videosekvencích je parametrizován tak, aby bylo možné v každém půlsnímku zvlášt určit polohu této značky. Z každé vteřiny záznamu je tak získána posloupnost 50 polohových vektorů reprezentujících polohu palce ruky v prostoru. Tyto vektory, označme je x, jsou dále použity jako příznakové vektory pro klasifikaci pohybů prstu.

3 Bayesův klasifikátor 3.1 Klasifikační algoritmus Řešíme klasifikaci vstupních vektorů x do R tříd, indikátory tříd označme ω 1, ω 2,...,ω R. Apriorní pravděpodobnosti Pω 1 ), Pω 2 ),...,Pω R ) jsou známy a platí pro ně R Pω r )=1. 1) r=1 Apriorní pravděpodobnosti udávají, jaká je pravděpodobnost, že vektor x připadne do třídy s indikátorem ω r. Předpokládejme, že kromě apriorních pravděpodobností Pω r ) známe ještě všechny podmíněné hustoty pravděpodobnosti px ω r ) udávající rozložení hodnot x uvnitř jednotlivých tříd. Pak platí, že vektor příznaků x patří do třídy s indikátorem ω r s pravděpodobností kde Pω r x)= px ω r )Pω r ), 2) px) R px)= px ω r )Pω r ). 3) r=1 Pravděpodobnosti Pω r x) nazýváme aposteriorními pravděpodobnostmi, vztah 2) nazýváme Bayesovým vztahem [3]. Obrázek 1: Měřicí pracoviště Vektor příznaků x zařadíme do té třídy ω, pro níž platí ω =argmaxpω r x). 4) r Vzhledem k tomu, že jmenovatel Bayesova vztahu 2) je pro všechny aposteriorní pravděpodobnosti třídy) stejný, je možné provádět klasifikaci na základě velikosti čitatele tohoto zlomku.

Jak vyplývá z definice experimentu pokusné osoby jsou žádány, aby stacionární stavy mezi pohyby prstu náhodně střídaly tak, aby relativní četnost jednotlivých tříd pohybů byla zhruba stejná), apriorní pravděpodobnosti všech tříd jsou si rovny a platí pro ně Pω r )= 1 R pro všechna r=1,...,r. 5) Z uvedeného 5) vyplývá, že i čitatel Bayesova vztahu 2) je pro účely klasifikace možné dále zjednodušit a vlastní klasifikaci provádět pouze na základě velikostí podmíněných hustot pravděpodobností ω =argmax px ω r ). 6) r 3.2 Trénování klasifikátoru Ke správné klasifikaci příznakových vektorů x do tříd ω 1, ω 2,...,ω R potřebujeme, jak vyplývá z 6), znát podmíněné hustoty pravděpodobností px ω r ). Předpokládejme, že hustoty pravděpodobností px ω r ) udávající rozložení hodnot příznakových vektorů x v jednotlivých třídách odpovídají normálnímu rozložení a je tedy možné je popsat rovnicí px ω r )= 1 exp 1 ) 2π) N Σ r 2 x µ r ) Σ 1 r x µ r ), 7) kde N je počet prvků příznakového vektoru x, µ r je střední hodnota normálního rozdělení, Σ r je jeho kovarianční matice. [4] Pro získání hustot pravděpodobností px ω r ) pak potřebujeme znát pro každou klasifikovanou třídu hodnoty parametrů µ r aσ r. Tyto parametry získáme na základě statistického rozboru příznakových vektorů x, u nichž známe, ke které klasifikační třídě patří. 3.3 Odhad parametrů normálního rozdělení Předpokládejme, že máme trénovací množinu obsahující M vzájemně statisticky nezávislých příznakových vektorů x patřících k jedné třídě s identifikátorem ω r. Pak pro danou trénovací množinu můžeme psát px 1, x 2,...,x M q)= M px m q). 8) Hustota pravděpodobnosti na levé straně rovnice 8) je pro danou trénovací množinu vektorů x závislá pouze na parametru q a nazýváme ji funkcí věrohodnosti. Úkolem trénování klasifikátoru je nalézt pro danou třídu ω r takový parametr q, který maximalizuje věrohodnost 8), tedy q =argmax q M px m q). 9) Takovýto odhad parametru q nazýváme maximálně věrohodný odhad MLE - Maximum Likelihood Estimation).

Dosazením předpokládaného tvaru hustoty pravděpodobnosti px ω) 7) do rovnice pro věrohodnost 8) získáme podmíněnou hustotu pravděpodobnosti realizace trénovací množiny px 1, x 2,...,x M µ,σ)= M 1 = exp 1 ) 2π) N Σ 2 x m µ) Σ 1 x m µ). 10) Aniž bychom změnili polohu maxima 8), můžeme celou uvedenou rovnici zlogaritmovat logaritmus je monotónně rostoucí funkce a nabývá tedy maxima tam, kde jeho argument) lnpx 1, x 2,...,x M µ,σ)= = N M 2 ln2π) M 2 ln Σ 1 2 ) x m µ) Σ 1 x m µ). 11) Maximalizaci věrohodnostní funkce provedeme nalezením extrému funkce v závislosti na parametrech µ aσ. Nalezení parametru µ Provedeme parciální derivacilnpx 1, x 2,...,x M µ,σ) podle vektoru µ lnpx 1, x 2,...,x M µ,σ) µ ) = 1 x m µ) Σ 1 x m µ) 2 µ M =Σ 1 x m µ). 12) Výraz 12) položíme roven nule a dostáváme M Σ 1 x m µ)=0 13) µ= 1 M x m. 14) Výraz 14) je maximálně věrohodným odhadem parametru µ normálního rozdělení 7).

Nalezení parametruσ U parametru Σ postupujeme obdobně jako u předchozího parametru. Nejprve vypočteme parciální derivaci věrohodnostní funkce podle tohoto parametru a položíme ji rovnou nule. lnpx 1, x 2,...,x M µ,σ) = Σ = M ln Σ 2 Σ 1 2 = M 2 Σ 1 + 1 2 Σ 1 M ) x m µ) Σ 1 x m µ) Σ x m µ)x m µ) ) Σ 1 =0 15) Poté řešením rovnice 15) vyjádříme parametr Σ, pro nějž je hodnota věrohodnostní funkce 8) maximální. = Σ= 1 M x m µ)x m µ) ) 16) Kovarianční maticeσje symetrická pozitivně definitní čtvercová matice s reálnými prvky σ ij, kde i, j=1,...,n [4]. Σ= σ1 2 σ 12... σ 1N σ 21 σ2 2... σ 2N...... σ N1 σ N2... σ 2 N 17) Prvky σ 2 i na hlavní diagonále matice jsou rozptyly i-tého prvku vektorů x, prvky σ ij mimo hlavní diagonálu jsou kovariance i-tého a j-tého prvku těchto vektorů. Pokud jsou prvky příznakových vektorů x vzájemně nekorelované, je kovarianční maticeσdiagonální. 4 Diskriminační funkce 4.1 Klasifikační algoritmus Řešíme opět klasifikaci vstupních vektorů x do R tříd, indikátory tříd označme ω 1, ω 2,...,ω R. Hledáme množinu funkcí g r x), pro které platí g r x) > g s x) 18) pro každý vektor x a pro s = 1,2,...R, s r. Funkce splňující uvedenou nerovnost nazýváme diskriminační funkce, jejich výběr obvykle není jednoznačný [3]. Vektor příznaků x zařadíme do té třídy ω, pro níž platí S ohledem na rovnici 6) můžeme zvolit např. množinu funkcí ω =argmax g r x). 19) r g r x)=px ω r ). 20)

Je zřejmé, že platí-li px ω r ) > px ω s ) 21) pro každý vektor x a pro s=1,2,...r, s r, pak za stejných podmínek platí i Diskriminační funkce pak definujeme lnpx ω r ) >lnpx ω s ). 22) a dosadíme-li z rovnice 7), dostáváme g r x)=lnpx ω r ) 23) g r x)= N 2 ln2π) 1 2 ln Σ r 1 2 x m µ r ) Σ 1 r x m µ r ). 24) Po zanedbání konstant neovlivňujících nerovnost 18) můžeme předchozí rovnici přepsat do tvaru g r x)= ln Σ r x m µ r ) Σ 1 r x m µ r ). 25) Před vlastní klasifikací je třeba diskriminační klasifikátor rozhodující na základě vztahu 19) natrénovat, tedy pro jednotlivé třídy s identifikátory ω r najít hodnoty parametrů µ r aσ r. Při trénování postupujeme stejně jako při trénování Bayesova klasifikátoru. 4.2 Vlastnosti diskriminačních funkcí Z odvození rovnice 23), zejména ze vztahů 20) a 22) je zřejmé, že použití takto definovaných diskriminačních funkcí vede k výsledkově totožnému klasifikačnímu algoritmu, jako je Bayesův klasifikátor popsaný v části 3. Výhodou diskriminačních funkcí je jejich menší výpočetní náročnost ve srovnání s Bayesovým klasifikátorem, nebot ve vztahu 25) není třeba vypočítávat hodnotu exponenciální funkce tak, jako ve vztahu 7). / Členyln Σ r ve vztahu 25) a1 2π) N Σ r ve vztahu 7) jsou nezávislé na klasifikovaném vektoru x, můžeme je vypočítat před vlastní klasifikací jako konstantu pro každou třídu zvlášt a na výpočetní náročnosti algoritmů se tedy neprojeví. 5 Implementace Oba klasifikační algoritmy byly implementovány ve výpočetním systému MATLAB. 6 Výsledky Jak již bylo uvedeno, oba klasifikační algoritmy jsou co se týče výsledků klasifikace totožné a nemá smysl je z tohoto pohledu jakkoli porovnávat. Zajímavé však může být srovnání výpočetní náročnosti klasifikátorů postavených na těchto algoritmech, kde se ukazuje, že klasifikátor založený na diskriminačních funkcích je na stejném hardwaru zhruba o 20 % rychlejší, než Bayesův klasifikátor. Rychlost obou klasifikátorů byla ověřena na sadě 94550 příznakových vektorů.

7 Závěr Bayesův klasifikátor i klasifikátor využívající diskriminačních funkcí jsou klasifikátory založené na statistické analýze dat. Oba klasifikátory poskytují dostatečně spolehlivé výsledky přesnost klasifikace byla na použitých datových souborech větší než 95 %) a jsou snadno implementovatelné v prostředí MATLAB. Jak bylo ukázáno, použití diskriminačních funkcí může být výhodnější s ohledem na menší výpočetní náročnost klasifikátoru. Poděkování Tato práce byla podporována výzkumným záměrem č. MSM 6840770012 udělen Ministerstvem školství, mládeže a tělovýchovy České republiky). Reference [1] Jan Havlík and Zdeněk Horčík. Bayes classification of thumb motion. In 5th European Symposium on Biomedical Engineering ESBME 06 [CD-ROM], 2006. [2] Jan Havlík, Jan Uhlíř, and Zdeněk Horčík. Thumb motion classification using discrimination functions in press). In Applied Electronics 2006. University of West Bohemia in Pilsen, Pilsen, 2006. [3] Zdeněk Kotek, Vladimír Mařík, Václav Hlaváč, Josef Psutka, and Zdeněk Zdráhal. Metody rozpoznávání a jejich aplikace. Academia, Praha, 1993. [4] Karel Rektorys et al. Přehled užité matematiky II. Prometheus, Praha, 2000. Jan Havlík Katedra teorie obvodů, Fakulta elektrotechnická, České vysoké učení technické v Praze Technická 2, 166 27 Praha 6, tel: 224 352 048, email: xhavlikj@fel.cvut.cz