Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Podobné dokumenty
Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

SRE 03 - Statistické rozpoznávání

Klasifikace a rozpoznávání. Lineární klasifikátory

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Klasifikace a rozpoznávání. Extrakce příznaků

oddělení Inteligentní Datové Analýzy (IDA)

SRE 03 - Skryté Markovovy modely HMM

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Implementace Bayesova kasifikátoru

Umělá inteligence II

AVDAT Náhodný vektor, mnohorozměrné rozdělení

UČENÍ BEZ UČITELE. Václav Hlaváč

AVDAT Mnohorozměrné metody, metody klasifikace

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

Kybernetika a umělá inteligence, cvičení 10/11

Vytěžování znalostí z dat

Pravděpodobnost, náhoda, kostky

Odhady - Sdružené rozdělení pravděpodobnosti

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

KYBERNETIKA A UMĚLÁ INTELIGENCE. 2. Pravděpodobnostní rozhodování a klasifikace

Bayesovské metody. Mnohorozměrná analýza dat

Statistická teorie učení

Tino Haderlein, Elmar Nöth

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Probability density estimation Parametric methods

STATISTICKÉ ODHADY PARAMETRŮ

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

Odhady Parametrů Lineární Regrese

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Maximálně věrohodné odhady v časových řadách

Úloha - rozpoznávání číslic

Akvizice dat. Dekonvoluce Registrace. zobrazení INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Základy teorie pravděpodobnosti

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Odhad parametrů N(µ, σ 2 )

Markovovy modely v Bioinformatice

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Bayesovské rozhodování - kritétium minimální střední ztráty

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Výběrové charakteristiky a jejich rozdělení

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Department of Mathematical Analysis and Applications of Mathematics Faculty of Science, Palacký University Olomouc Czech Republic

Základy teorie odhadu parametrů bodový odhad

Radka Picková Transformace náhodných veličin

Katedra kybernetiky, FEL, ČVUT v Praze.

Definice spojité náhodné veličiny zjednodušená verze

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Lesson 02. Ing. Marek Hrúz Ph.D. Univ. of West Bohemia, Faculty of Applied Sciences, Dept. of Cybernetics. Lesson 02

STATISTICKÉ ODHADY Odhady populačních charakteristik

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Pravděpodobnost, náhoda, kostky

Měření dat Filtrace dat, Kalmanův filtr

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

Bayesian Networks. The graph represents conditional independencies of the join probability distribution Π X V P(X pa(x)).

Stochastické diferenciální rovnice

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Odhad parametrů N(µ, σ 2 )

Vícerozměrná rozdělení

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

8-9. Pravděpodobnostní rozhodování a predikce. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

Teorie rozhodování (decision theory)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman

Vojtěch Franc. Biometrie ZS Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost

Bodové odhady parametrů a výstupů

Instance based learning

5. B o d o v é o d h a d y p a r a m e t r ů

Neparametrické odhady hustoty pravděpodobnosti

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Šárka Došlá. Matematicko-fyzikální fakulta Univerzita Karlova v Praze. Bimodální rozdělení. Šárka Došlá. Motivace. Základní pojmy

Pravděpodobnost a statistika

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Apriorní rozdělení. Jan Kracík.

TECHNICKÁ UNIVERZITA V LIBERCI

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

ANALÝZA A KLASIFIKACE DAT

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

Vlastnosti a modelování aditivního

Pravděpodobnostní algoritmy

Ústav matematiky a statistiky Masarykova univerzita Brno. workshopy Finanční matematika v praxi III Matematické modely a aplikace Podlesí

Rozdělování dat do trénovacích a testovacích množin

Kapitola 1. Logistická regrese. 1.1 Model

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Základy počtu pravděpodobnosti a metod matematické statistiky

KVADRATICKÁ KALIBRACE

Náhodné vektory a matice

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Uni- and multi-dimensional parametric tests for comparison of sample results

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a statistika

Transkript:

Klasifikace a rozpoznávání Bayesovská rozhodovací teorie

Extrakce příznaků 3 25 2 Granáty Jablka Četnost 15 1 5 2 3 4 5 6 7 8 Váha [dkg]

Pravděpodobnosti - diskrétní příznaky Uvažujme diskrétní příznaky váhové kategorie Nechť tabulka reflektuje skutečné pravděpodobnosti jednotlivých kategorií 1 6 12 15 12 2 2 5 4 23 5 14 6 3 1 1 nejlehčí lehčí lehký střední těžký těžší nejtěžší. -.1.1 -.2.2 -.3.3.4.4.5.5.6.6.7 [kg]

Apriorní pravděpodobnost Stav věci Hádej co mám za zády, jablko nebo granát? Klasifikační pravidlo: Vyber čeho je nejvíc Třída s největší apriorní pravděpodobností (a-priori probability) P (granát) = 5 15 P ω P (ω) = 1 P (jablko) = 1 15 1 6 12 15 12 2 2 5 4 23 5 14 6 3 1 1 nejlehčí. -.1 lehčí.1 -.2 lehký.2 -.3 střední.3.4 těžký.4.5 těžší.5.6 nejtěžší.6.7 [kg]

Společná pravděpodobnost Je to těžké. Hádej co to je? Klasifikační pravidlo: Ve sloupci váhové kategorie vyber nejčastější třídu Třída s největší společnou pravděpodobností (joint probability) pravděpodobnost chlívečku. ale také největší podmíněnou pravděpodobností (viz další slajd) P (granát, těžký) = 12 15 P (jablko, těžký) = 6 P ω,x P (ω, x) = 1 15 1 6 12 15 12 2 2 5 4 23 5 14 6 3 1 1 nejlehčí. -.1 lehčí.1 -.2 lehký.2 -.3 střední.3.4 těžký.4.5 těžší.5.6 nejtěžší.6.7 [kg]

Podmíněná pravděpodobnost Je to těžké. Z jakou pravděpodobností je to granát? Podmíněnou pravděpodobnost (conditional probability) - pravděpodobnost chlívečku dáno sloupec P (granát těžký) = 12 12+6 1 6 12 15 12 2 2 5 4 23 5 14 6 3 1 1 nejlehčí lehčí lehký střední těžký těžší nejtěžší. -.1.1 -.2.2 -.3.3.4.4.5.5.6.6.7 [kg]

Ještě nějaké další pravděpodobnosti P (granát) = 5 15 P(těžký) = 12+6 15 P (granát těžký) = 12 12+6 P (těžký granát) = 12 5 P (granát, těžký) = P (granát těžký)p (těžký) = 12 15 P (granát, těžký) = P (těžký granát)p (granát) = 12 15 1 6 12 15 12 2 2 5 4 23 5 14 6 3 1 1 nejlehčí lehčí lehký střední těžký těžší nejtěžší. -.1.1 -.2.2 -.3.3.4.4.5.5.6.6.7 [kg]

Bayesův teorém Posteriorní pravděpodobnost (posterior probability) Věrohodnost (likelihood) Apriorní pravděpodobnost (prior probability) P (ω x) = P (x ω)p (ω) P (x) Evidence Věrohodnost nás zatím moc nezajímala, ale za chvíli to bude hlavní co se budeme snažit odhadovat z trénovacích dat. Již dříve jsme viděli že (product rule): Pro evidenci platí (sum rule): P (ω, x) = P (x ω)p (ω) P (x) = P ω P (ω, x) např.: P (těžký) = P (granát, těžký) + P (jablko, těžký) = 12 15 + 6 15

Maximum a-posteriori (MAP) klasifikátor Mějme 2 třídy ω 1 a ω 2 Pro daný příznak x vyber třídu ω s větší posteriorní pravděpodobností P(ω x) Vyber ω 1 pouze pokud: P (ω 1 x) > P (ω 2 x) P (x ω 1 )P (ω 1 ) P (x) > P (x ω 2)P (ω 2 ) P (x) P (ω 1, x) > P (ω 2, x)

Maximum a-posteriori (MAP) klasifikátor Pro každé x minimalizuje pravděpodobnost chyby: P(chyby x) = P(ω 1 x) pokud vybereme ω 2 P(chyby x) = P(ω 2 x) pokud vybereme ω 1 Pro dané x vybíráme třídu ω s větším P(ω x) minimalizace chyby Musíme ovšem znát skutečná rozložení P(ω x) nebo P(x,ω) nebo P(x ω) a P(ω), které reflektují rozpoznávaná data Obecně pro N tříd Vyber třídu s největší posteiorní pravděpodobností: arg max ω P (ω x) = arg max ω p(x ω)p (ω)

Spojité příznaky P(.) bude pravděpodobnost p(.) bude hodnota funkce rozložení pravděpodobnosti P (x (a, b)) = R b a p(x)dx Bude nás zajímat funkce rozložení pravděpodobnosti příznaků podmíněné třídou p(x ω) 3.5 p(x ω 1 ) p(x ω 2 ) Plocha pod funkci musí být 1 Hodnoty mohou být ale libovolné kladné.7 [kg]

Bayesův teorém spojité příznaky P (ω x) = p(x ω)p (ω) p(x) p(x ω) p(ω, x) = p(x ω)p(ω) p(ω x) 3.5 p(x ω 1 ) p(x ω 2 ) 2.5 p(x ω 1 )P(ω 1 ) p(x ω 2 )P(ω 2 ) 1 x x x P(ω 1 x) P(ω x) 2

MAP klasifikátor spojité příznaky Opět se budeme rozhodovat podle: P (ω 1, x) > P (ω 2, x) nebo P (ω 1 x) > P (ω 2 x) 2.5 p(x ω 1 )P(ω 1 ) p(x ω 2 )P(ω 2 ) p(ω, x) 1 p(ω x) Na obrazcích vidíme, že obě pravidla vedou ke stejným rozhodnutím P(ω 1 x) x P(ω 2 x) x

MAP klasifikátor pravděpodobnost chyby Říkali jsme, že MAP klasifikátor minimalizuje pravděpodobnost chyby Plocha pod funkci společného rozložení pravděpodobnosti p(ω,x) v určitém intervalu x je pravděpodobnost výskytu vzoru třídy ω s příznakem v daném intervalu Jaká je tedy celková pravděpodobnost, že klasifikátor udělá chybu? Pravděpodobnost, že modrá třída je chybně klasifikována jako červená p(x ω 1 )P(ω 1 ) p(x ω 2 )P(ω 2 ) Jakákoli snaha posunout hranice povede jen k větší chybě p(x ω 1 )P(ω 1 ) p(x ω 2 )P(ω 2 ) 2.5 2.5 p(ω, x) p(ω, x) x x

Posteriorní pravděpodobnosti pro různé apriorní pravděpodobnosti Změna apriorních pravděpodobností tříd může vézt k různým rozhodnutím P (ω 1 ) = 1 3, P(ω 2) = 2 3 P (ω 1 ) = 1 2, P (ω 2) = 1 2 P (ω 1 ) = 99 1, P(ω 2) = 1 1 P(ω 1 x) P(ω 2 x) P(ω 1 x) P(ω 2 x) x x x P(ω 1 x) P(ω 2 x)

Vícerozměrné příznaky Místo jednorozměrného příznaku máme N rozměrný příznakový vektor x =[x 1, x 2,, x N ] např. [váha, červenost] MAP klasifikátor opět vybírá nejpravděpodobnější třídu p(ω, x) x 1 x 2

Parametrické modely Pro rozpoznávání s MAP klasifikátorem jsme doposud předpokládali, že známe skutečná rozloženi P(ω x) nebo P(x,ω) nebo P(x ω) a P(ω) Ve skutečnosti ale většinou známe jen trénovací vzory Pokusíme se tato rozložení odhadnout z dat budeme trénovat statistické modely silence unvoiced voiced

Parametrické modely Můžeme se pokusit modelovat přímo posteriorní pravděpodobnost, a tu použít přímo k rozpoznávání P(ω x) tzv. diskriminativní trénování Ale o tomto bude řeč až později Běžnější je odhadovat rozložení P(x ω) a P(ω) Tato rozložení popisují předpokládaný proces generování dat generativní modely Nejprve se musíme rozhodnout pro formu modelu, který použijeme. (např. gaussovské rozložení) silence unvoiced voiced

Gaussovské rozložení (jednorozměrné) N (x; μ, σ 2 ) = 1 σ 2π (x μ) 2 e 2σ 2.4.35.3.25 p(x).2.15.1.5 5 4 3 2 1 1 2 3 4 x

Gaussovské rozložení (dvourozměrné) 1 N (x; μ, Σ) = (2π)P Σ e 1 2 (x μ)t Σ 1 (x μ).8.7.6.5 p(x).4.3.2 2.1 1 4 3 2 1 1 2 1 x 2 x 1

Odhad parametrů modelu s maximální věrohodností ˆΘ class ML = arg max Θ Y x i class p(x i Θ) Hledáme taková nastavení parametrů rozložení pravděpodobnosti Θ, které maximalizuje věrohodnost trénovacích dat (Maximum Likelihood, ML) V následujících příkladech předpokládáme, že odhadujeme parametry nezávisle pro jednotlivé třídy. Pro zjednodušení notace tedy u rozložení neuvádíme závislost na třídě ω, pouze na jejích parametrech Θ. Modely kterými se budeme zabývat jsou: Gaussovské rozloženi Směs gaussovských rozložení (Gaussian Mixture Model, GMM) V následujících přednáškách přibudou další (např. HMM)

Gaussovské rozložení (jednorozměrné) N (x; μ, σ 2 ) = 1 σ 2π (x μ) 2 e 2σ 2 p(x).4.35.3.25.2.15 ML odhad parametrů: μ = 1 T P i x i σ 2 = 1 T Pi (x i μ) 2.1.5 5 4 3 2 1 1 2 3 4 x

Gaussovské rozložení (dvourozměrné) 1 N (x; μ, Σ) = (2π) P Σ e 1 2 (x μ)t Σ 1 (x μ).8.7.6.5 p(x).4.3.2.1 4 3 2 1 1 2 1 1 x 2 2 ML odhad of parametrů: μ = 1 T P i x i x 1 Pi (x i μ)(x i μ) T Σ = 1 T

Směs gaussovských rozložení GMM p(x Θ) = P c P cn (x; μ c, Σ c ) p(x).45.4.35.3.25.2.15 2 kde Θ = {P c, μ c, Σ c } P c P c = 1.1 1.5 4 3 2 1 1 2 2 1 x 2 x 1

Gaussian Mixture Model Evaluation: p(x Θ) = P c P cn (x; μ c, σ 2 c ) Vzoreček můžeme chápat jen jako něco co definuje tvar funkce hustoty pravděpodobnosti nebo jej můžeme vidět jako složitější generativní model,který generuje příznaky následujícím způsobem: Napřed je jedna z gaussovských komponent vybrána tak aby respektovala apriorní pravděpodobnosti P c Příznakový vektor se generuje z vybraného gaussovského rozložení. Pro vyhodnoceni modelu ale nevíme, která komponenta příznakový vektor generovala a proto musíme marginalizovat (suma přes gaussovské komponenty násobené apriorními pravděpodobnostmi)

Training GMM Viterbi training Intuitive and Approximate iterative algorithm for training GMM parameters. Using current model parameters, let Gaussians to classify data as the Gaussians were different classes (Even though the both data and all components corresponds to one class modeled by the GMM) Re-estimate parameters of Gaussian using the data associated with to them in the previous step. Repeat the previous two steps until the algorithm converge.

Training GMM EM algorithm Expectation Maximization is very general tool applicable in many cases were we deal with unobserved (hidden) data. Here, we only see the result of its application to the problem of re-estimating parameters of GMM. It guarantees to increase likelihood of training data in every iteration, however it does not guarantees to find the global optimum. The algorithm is very similar to Viterbi training presented above. Only instead of hard decisions, it uses soft posterior probabilities of Gaussians (given the old model) as a weights and weight average is used to compute new mean and variance estimates. ˆμ (new) c = ˆσ 2 c (new) = γ ci = P Pi γ cix i i γ ci Pi γ ci(x i ˆμ (new) c ) 2 P i γ ci P cn (x i ;ˆμ (old) c,ˆσ 2(old) c ) Pc P cn (x i ;ˆμ (old) c,ˆσ c 2(old) )