Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Podobné dokumenty
Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

SRE 03 - Statistické rozpoznávání

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

SRE 03 - Skryté Markovovy modely HMM

oddělení Inteligentní Datové Analýzy (IDA)

Implementace Bayesova kasifikátoru

Klasifikace a rozpoznávání. Lineární klasifikátory

Klasifikace a rozpoznávání. Extrakce příznaků

Odhady Parametrů Lineární Regrese

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Kybernetika a umělá inteligence, cvičení 10/11

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

Bayesovské metody. Mnohorozměrná analýza dat

Umělá inteligence II

AVDAT Klasický lineární model, metoda nejmenších

Odhady - Sdružené rozdělení pravděpodobnosti

Vícerozměrná rozdělení

Pravděpodobnost, náhoda, kostky

3 Bodové odhady a jejich vlastnosti

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

UČENÍ BEZ UČITELE. Václav Hlaváč

Náhodné signály. Honza Černocký, ÚPGM

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Klasifikace a rozpoznávání

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Náhodné vektory a matice

Stavový model a Kalmanův filtr

KYBERNETIKA A UMĚLÁ INTELIGENCE. 2. Pravděpodobnostní rozhodování a klasifikace

Odhad parametrů N(µ, σ 2 )

Úvod do optimalizace, metody hladké optimalizace

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

ANALÝZA A KLASIFIKACE DAT

Apriorní rozdělení. Jan Kracík.

Interpolace, ortogonální polynomy, Gaussova kvadratura

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Vytěžování znalostí z dat

Základy teorie odhadu parametrů bodový odhad

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Markov Chain Monte Carlo. Jan Kracík.

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

MATEMATICKÁ STATISTIKA - XP01MST

Úloha - rozpoznávání číslic

Lineární klasifikátory

Příklady ke čtvrtému testu - Pravděpodobnost

Aplikace 2: Hledání informativních příznaků pro rozpoznávání

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Odhad parametrů N(µ, σ 2 )

Pravděpodobnost, náhoda, kostky

Charakterizace rozdělení

KVADRATICKÁ KALIBRACE

Přednáška 13 Redukce dimenzionality

Definice spojité náhodné veličiny zjednodušená verze

Odhad - Problémy se sdruženým rozdělením pravděpodobnosti

STATISTICKÉ ODHADY PARAMETRŮ

4. Aplikace matematiky v ekonomii

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

NÁHODNÁ VELIČINA. 3. cvičení

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Tino Haderlein, Elmar Nöth

Statistika, Biostatistika pro kombinované studium. Jan Kracík

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Statistická analýza dat

Neparametrické odhady hustoty pravděpodobnosti

Téma 22. Ondřej Nývlt

Vektor náhodných veli in - práce s více prom nnými

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Náhodné chyby přímých měření

LINEÁRNÍ MODELY. Zdeňka Veselá

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Numerické metody optimalizace - úvod

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

Otázku, kterými body prochází větev implicitní funkce řeší následující věta.

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

Aktivní detekce chyb

Robustní odhady statistických parametrů

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

5. B o d o v é o d h a d y p a r a m e t r ů

Bayesovské rozhodování - kritétium minimální střední ztráty

, 1. skupina (16:15-17:45) Jméno: se. Postup je třeba odůvodnit (okomentovat) nebo uvést výpočet. Výsledek bez uvedení jakéhokoliv

Preceptron přednáška ze dne

8 Coxův model proporcionálních rizik I

Odhad stavu matematického modelu křižovatek

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Kapitola 1. Logistická regrese. 1.1 Model

Základy teorie pravděpodobnosti

TENSOR NAPĚTÍ A DEFORMACE. Obrázek 1: Volba souřadnicového systému

I. D i s k r é t n í r o z d ě l e n í

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Jednofaktorová analýza rozptylu

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

p(x) = P (X = x), x R,

Transkript:

SRE 2 - Statistické rozpoznávání vzorů Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 1/6

Plán... SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 2/6

Statistical pattern recognition the art of taking in raw data and making an action based on the category of the pattern SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 3/6

input Technicky... sensing segmentation feedback... feature extraction classification missing features context post processing costs decision SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 4/6

Příklad SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 5/6

I. Snímání Co se dá o rozpoznávaných předmětech poznat? obraz, tlak, teplota, hmostnost, zvuk, pach? jak tyto veličiny prakticky získat, jde to vůbec a kolik to bude stát? jaké vlastnosti bude mít snímač a převod veličina číslo? DC offset šum linearita kalibrace stárnutí atd. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 6/6

II. Segmentace pokud jsou vzorky izolované, OK... jenže ony často nejsou: 4 x 14 3 2 1 1 2 3 4 2 4 6 8 1 12 navíc problém kontextu, který segmentaci mění... SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 7/6

Musíme udělat alespoň nějakou segmentaci a-priori: N l ram s ram p ram Segmentace je pak součástí klasifikačního procesu: při rozpoznávání odhad pravděpodobností všech tříd pro všechny rámce, Viterbiho dekódování. při trénování forced alignment opět Viterbi, který optimálně natahuje segmenty na data. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 8/6

III. Výpočet příznaků Příznaky musí být především použitelné pro klasifikaci - průměr jablka / granátu?... nic moc. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 9/6

Váha a podíl červené složky v obrázku?... to už je lepší. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 1/6

Invariantnost příznaků translace (místo v obrázku, čas v řeči) rotace scale (velikost v obrázku, volume v řeči) occlusion (zakrytí objektu vs. maskování šumem) projective distorition (úhel pohledu, optika) rate (rychlost v řeči intra- a inter-speaker variabilita) deformace atd. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 11/6

IV. Klasifikace do klasifikátoru vstupují příznakové vektory: x = x 1. x P např. x = úkolem je rozhodnout se pro jednu ze tříd: diskriminativní linie (decision boundary). tvrdé rozhodnutí vs. poskytnutí skóre. weight %red SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 12/6

Tvar separační linie: lineární, nelineární SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 13/6

Problém neřešitelný pro lineární klasifikátor SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 14/6

Tvar separační linie: přetrénováno... SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 15/6

Generalizace: složitá separační linie vede ke 1% rozpoznání trénovacích dat. ale může klasifikátor zcela zblbnout. testování na cross-validačních (CV) datech. Problémy klasifikátoru: Co když závisí feature na kontextu? (prohloubení dopravníku jablek/granátů, koartikulace v řeči). šum ve featurech opět generalizace. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 16/6

V. Post-processing: nastavení podle kontextu (např. změna kalibrace červené po nákupu červené lampy). určení detekčního prahu. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 17/6

Správná rozhodnutí: p(apple apple), Špatná rozhodnutí: p(apple grenade), p(grenade apple). p(grenade grenade). Pokud by šlo o detekční úlohu (často o ni jde!) a třída k detekci by byla granát, pak: p(apple grenade) MISS p(grenade apple) FALSE ALARM. Nastavení detekčního prahu podle ceny (cost) špatného rozhodnutí. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 18/6

nechceme, aby se dostal granát do marmelády čas pyrotechnika je drahý a má moc práce kvantifikace costu: c(m iss), c(f A) + a-priorní pravděposobnosti tříd. více, až s námi někdo budete dělat NIST evaluace. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 19/6

The design cycle: start collect data choose features choose model prior knowledge train model evaluate classifier end Co jiného? Výpočetní náročnost (memory/disk/cpu footprint) možnost adaptace (supervised/unsupervised/block/incremental)? SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 2/6

Bayesovská teorie rozhodování (klasifikace) notace: P ( ) bude opravdová pravděpodobnost, p( ) bude hodnota funkce rozložení pravděpodobonosti (probability density function - PDF) - likelihood (sorry, český ekvivalent věrohodnost není nic moc). stav věci (state of the nature): třída ω: ω 1 =granát, ω 2 =jablko. a-priori pravděpodobnost tříd: P (ω i ), pro slušné pravděpodobosti platí: c P (ω i ) = 1 i=1 pro nás například: P (ω 1 ) =.99, P (ω 2 ) =.1. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 21/6

Hodně blbý klasifikátor o klasifikované věci nevíme nic. klasifikační pravidlo (decision rule): rozhodni ω 1 pokudp (ω 1 ) > P (ω 2 ), jinak ω 2... hm hm, hodně blbé, hlavně u sekvence, kde už jsme 99 rozhodli jablko. Naštěstí většinou něco víme: třídně podmíněná funkce hustoty rozdělení pravděpodobnosti Class-conditional probability density function p(x ω i ). SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 22/6

Jak na class-conditional probability density function? Nejprve představa s diskrétními hodnotami: chci zjistit, jak je pravděpodobné, že je to granát, když je to těžké: lehký těžký jablko 8 19 granát 1 9 společná (joint) pravděpodobnost: P (granát, těžký) = 9/1 =.9 podmíněná (conditional) pravděpodobnost: P (granát těžký) = P (granát, těžký) P (granát) =.9.1 =.9 (9%) SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 23/6

Spojité hodnoty - nutno definovat podmíněné funkce hustoty rozdělení pravděpodobnosti. 3.5 x 1 3 3 p(x ω 1 ) p(x ω 2 ) 2.5 2 1.5 1.5 1 2 3 4 5 6 7 weight Rozhodování pouze na základě těchto funkcí? Dost nebezpečné, protože neberou v úvahu priors. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 24/6

Společná funkce hustoty rozložení pravděpodobnosti (joint probability density function) se dá zapsat dvěma způsoby: p(ω j, x) = P (ω j x)p(x) = p(x ω j )P (ω j ) (všimněte si, co jsou pravděpodobnosti a co PDF s!). Pak: P (ω j x) = p(x ω j)p (ω j ) p(x) P (ω j x) je to, co chceme! - pravděpodobnost ω j, když vidíme x - posterior p(x ω j ) je podmíněná funkce hustoty rozdělení pravděpodobnosti - viz obrázek - likelihood. P (ω j ) je apriorní pravděpodobnost třídy ω j - prior. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 25/6

p(x) je suma čitatelů pro všechny třídy tak, aby P (ω j x) byla slušná pravděpodobnost: c P (ω j x) = 1 nepodíĺı se na rozhodování, ale pouze normalizační faktor - evidence. j=1 p(x) = posterior = c p(x ω j )P (ω j ) j=1 likelihood prior evidence SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 26/6

Posteriory pro různé priors: 1) P (ω 1 ) = P (ω 2 ) =.5 2) P (ω 1 ) =.99, P (ω 2 ) =.1, 1.9 P(ω 1 x) P(ω 2 x) 1.9.8.8.7.7.6.6.5.5.4.4.3.3.2.2.1 1 2 3 4 5 6 7 weight.1 P(ω 1 x) P(ω 2 x) 1 2 3 4 5 6 7 weight SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 27/6

3) P (ω 1 ) = 1/3, P (ω 2 ) = 2/3, 4) tentýž případ bez normalizace. 1.9 2.5 x 1 3 p(x ω 1 )P(ω 1 ) p(x ω 2 )P(ω 2 ).8 2.7.6 1.5.5.4 1.3.2.5.1 P(ω 1 x) P(ω 2 x) 1 2 3 4 5 6 7 weight 1 2 3 4 5 6 7 weight SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 28/6

Rozhodování Minimializace pravděpodobnosti chyby: P (ω 1 x) pokud rozhodneme ω 2 P (chyba x) = P (ω 2 x) pokud rozhodneme ω 1 P (error) = P (error, x)dx = P (error x)p(x)dx Pokud bude všude P (error x) co nejmenší, pak i integrál bude co nejmenší. Jak na to? Pak bude což je určitě ta nejmenší možná chyba. rozhodni ω 1 pokud P (ω 1 x) > P (ω 2 x), jinak ω 2 P (error x) = min[p (ω 1 x), P (ω 2 x)], Evidence není důležitá (je pro všechny třídy stejná), klidně můžeme: rozhodni ω 1 pokud p(x ω 1 )P (ω 1 ) > p(x ω 2 )P (ω 2 ), jinak ω 2 Pozor, úplně jsme zapomněli na cost!!! SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 29/6

Co ještě chybí I. - Vektory Vektory příznaků namísto skalárů - jednoduché, všude napíšeme x namísto x: Úkol 1: Co je jaká funkce? P (ω j x) = p(x ω j)p (ω j ) p(x) Úkol 2: Představte si normalizační funkci evidence: c p(x) = p(x ω j )P (ω j ) j=1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 3/6

Co ještě chybí II. - Akce a jejich costy Namísto rozhodnutí můžeme definovat nějaké akce: α 1 - do marmelády, α 2 - k pyrotechnikovi. Definujeme jejich loss (průserovost) v závislosti na třídách: λ(α i ω j ) akce / třída jablko granát do marmelády 2 (dělníci musí dělat) 5 (vybuchlá marmeládovna) k pyrotechnikovi 1 (totálně nasraný pyrotechnik) 1 (nasraný pyrotechnik) Definice podmíněného nebezpečí (conditional risk) v závislosti na datech: R(α i x) = c λ(α i ω j )P (ω j x) j=1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 31/6

1.9 25 R(α 1 x) R(α 2 x).8 2.7.6 15.5.4 1.3.2 5.1 P(ω 1 x) P(ω 2 x) 1 2 3 4 5 6 7 weight 1 2 3 4 5 6 7 weight Pro každé x vybereme takovou akci α i, která má nejmenší risk. Celkový risk je pak: R = R(α(x) x)p(x)dx Pokud uděláme výběr min R(α i x), dosáhneme minimální celkový Bayessovský risk R (minimum overall Bayes risk). SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 32/6

Jak budeme třídy modelovat? Gaussovkama! Gaussovo (normální) rozdělení pravděpodobnosti. Jednorozměrné - univariate [ p(x) = 1 σ 2π exp 1 ( ) ] 2 x µ 2 σ = N (x; µ, σ 2 ) Parametry: µ = E[x] = σ 2 = E[(x µ) 2 ] = xp(x)dx (x µ) 2 p(x)dx SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 33/6

SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 34/6

Příkládky... 2 1.8 1.6 1.4 µ=, σ=1 µ=, σ=5 µ=, σ=.2 µ=5, σ=1 µ=5, σ=5 µ=5, σ=.2 1.2 p(x) 1.8.6.4.2 5 5 1 x SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 35/6

Jsou hodnoty Gaussovky od do 1? NE!!! SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 36/6

Vícerozměrné - multivariate 1 p(x) = (2π) d 2 Σ 1 2 exp [ 1 ] 2 (x µ)t Σ 1 (x µ) = N (x; µ, Σ) vektorová střední hodnota - mean: µ = E[x] = xp(x)dx Kovarianční matice: Σ = E[(x µ)(x µ) T ] = (x µ)(x µ) T p(x)dx Pro představu - jejich prvky: µ i = E[x i ] σ ij = E[(x i µ i )(x j µ j )] SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 37/6

Příkládky....1.2.15.5.1.5.5.5.1.15.1 1.2 1 5 5 1 5 5 1 x 2 5 5 x 1 x 2 5 5 x 1.2.1.1.2.3 1 5 5 1 x 2 5 5 x 1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 38/6

Diaognální kovarianční matice - pouze srovnané Gaussovky p(x) = P N (x i ; µ i, σ i ) = i=1 P i=1 1 e [x i µ i ] 2 2σ i 2 σ i 2π.15.1.5.5.1.15.2.25.3 1.1.5.5.1.15.2.25.3 1.2.2.4.6.8.1 15 5 x 2 5 5 x 1 5 1 5 x 2 5 1 5 x 1 5 1 1 5 x 2 5 5 x 1 5 1 15 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 39/6

Diskriminační funkce mezi Gaussovkami p(x) nepřispívá ke klasifikacei P (ω j x) = p(x ω j)p (ω j ) p(x) pracujeme v logaritmu - je jedno s jakým základem, voĺıme přirozený ln diskriminační funkce jsou dány: g j (x) = ln p(x ω j ) + ln P (ω j ) srovnáním pro dvě třídy dostaneme diskriminační linii. Pro Gaussovky se dá počítat analyticky. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 4/6

Case 1: Σ i = σ 2 I SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 41/6

Case 1a: Σ i = σ 2 I včetně biasu P (ω j ) SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 42/6

Case 2: Σ i = Σ... doplnit... SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 43/6

Case 2: Σ i = cokoliv SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 44/6

Maximum-LIkelihood odhad OK, víme, jak udělat klasifikátor, ale kde získat jeho parametry? předpokládáme, že máme datové sety D 1,..., D C k jednotlivým třídám. D j representují p(x ω j ) i.i.d. independent, identically distributed. třídy jsou dány svými parametry Θ j (např. µ j, Σ j nebo směs Gaussovek). my máme z D j určit parametry Θ j (předpokládáme, že vektory z jiných tříd nejsou pro ω j relevenantní. v dalším výkladu jen D, Θ. Likelihood dat p(d Θ) = n k=1 p(x k Θ) používáme, protože jsme řekli, že vektory x k budou nezávislé. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 45/6

Hledáme takové ˆΘ, které p(d Θ) maximalizuje Ilustrace: SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 46/6

Pár definic gradientní operátor: Θ = δ δθ 1 δ δθ P log-liikelihood funkce (na základu nezáleží): l(θ) = ln p(d Θ) = n ln p(x k Θ) k=1 hledáme ˆΘ = arg max Θ l(θ) A jako vždy, když se hledá maximum, položíme derivaci rovnou nule: Θ l = n Θ ln p(x k Θ) =. k=1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 47/6

Danger 1: Pozor, neměli bychom chtít Maximum A-Posteriori (MAP) odhad ˆΘ = arg max Θ kde p(θ) je a-priori pravděpodobnost parametrů? l(θ)p(θ), ML je vlastně MAP pro konstantní (ploché) rozložení p(θ). Danger 2: Maximalizujeme sice likelihood, ale nikdo neví, zda to bude dobře diskriminovat! SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 48/6

ML-odhad parametrů Gaussovky - pouze µ p(x) = 1 (2π) d 2 Σ 1 2 exp [ 1 ] 2 (x µ)t Σ 1 (x µ) ln p(x µ) = 1 2 ln(2π)p 1 2 (x µ)t Σ 1 (x µ) Derivace - pomůcka pro symetrické matice: δ δx [xt Mx] = 2Mx. µ ln p(x µ) = 1 2 2Σ 1 (x k µ)( 1) = Σ 1 (x k µ) toto se položí rovno nule, v sumě pak: n Σ 1 (x k µ) = k=1 n (x k µ) = k=1 n ˆµ = 1 N k=1 x k SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 49/6

ML-odhad parametrů Gaussovky - pouze 1D, µ i σ 2 Minimalizace pro všechna data: [ p(x) = 1 σ 2π exp 1 2 ( ) ] 2 x µ ln p(x k Θ) = 1 1 ln 2πD 2 2D (x k µ) 2 Θ l = Θ ln p(x k Θ) = 1 D (x k µ) 1 2D + (x k µ) 2 2D 2 σ n 1D(x k µ) = k=1 n k=1 1 n 2D + k=1 (x k µ) 2 2D 2 = SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 5/6

Řešení:... tak toto už jsme někde viděli. ˆµ = 1 N ˆD = 1 N n k=1 x k n (x k µ) 2 k=1 Multi-variate - více matematiky, ale výsledky nebudou překvapující: n ˆµ = 1 N k=1 x k ˆΣ = 1 N n (x k ˆµ)(x k ˆµ) T k=1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 51/6

Ukázka ML 1 bodů z každé třídy. těžce nediagonální lehce se překrývající. 7 6 5 4 3 x 2 2 1 1 2 1 2 3 4 5 6 7 8 9 x 1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 52/6

Diagonální Gaussovky 8 7 x 2 6 5 4 3 2.14.12.1.8.6.4 1.2 1 2 1 2 3 4 5 6 7 8 9 x 1 1 5 x 2 5 5 x 1 5 1... dost humus. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 53/6

Gaussovky s plnými Σ 1 8.2 6.15 x 2 4.1 2.5 1 2 4 2 2 4 6 8 1 x 1 5 x 2 5 5 x 1 5 1... lepší. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 54/6

Přesnější klasifikace - Gaussian Mixtures p(x ω j ) = N (x; µ j, Σ j ) p(x ω j ) = kde α ji jsou váhy jednotlivých Gaussovek a M i=1 α ji = 1. M α ji N (x; µ ji, Σ ji ), i=1 Pro všechna data je celková log-likelihood: ln p(d Θ) = n ln k=1 M α ji N (x k ; µ ji, Σ ji ) i=1 s maximalizací máme vážný problém (moc parametrů, suma v logaritmu). musíme na to jít iterativně - Expectation-maximization - EM. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 55/6

Základy algoritmu Expectation-maximization Známá data jsou X, ale také existuje něco, co neznáme: Y. Kompletní data: Z = (X, Y). likelihoods jsou (v závislosti na parametrech): p(z Θ) = p(x, y Θ) = p(y x, Θ)p(x Θ) p(x, Y Θ) je celková likelihood kompletních dat, p(x Θ) je celková likelihood nekompletních dat. Musíme mít k disposici alespoň nějaké parametry Θ (i 1), snažíme se o maximalizaci kritéria: X a Θ (i 1) jsou konstanty. Θ se snažíme najít. Q(Θ, Θ (i 1) ) = E[ln p(x, Y Θ) X, Θ (i 1) ] Y je náhodná proměnná daná rozložením hustoty pravděpodobnosti f(y X, Θ (i 1) ). SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 56/6

Snažíme se získat E integrováním přes všechny možné hodnoty y: Y: E[ln p(x, Y Θ) X, Θ (i 1) ] = ln p(x, y Θ)f(y X, Θ (i 1) )dy y Y toto je E-step nalezení výrazu pro expectation likelihoodu. M-step je nalezení maxima (derivace podle parametrů Θ, položení rovno nule): Iterace, nové parametry se stanou starými. Stopping criterion: malý nebo žádný přírůstek likelihood. nebo fixní počet kroků. Θ (i) = arg max Θ Q(Θ, Θ(i 1) ). SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 57/6

Expectation-maximization a Gaussian mixtures budeme ukazovat pouze pro jednu třídu (vše bude bez indexu j). vyslání datového vektoru x k některou z M Gaussovek je považováno za skrytou informaci: y k. likelihood této informace (pokud známe předchozí parametry a vektor x k ) se dá spočítat: p(y k x k, Θ (i 1) ) = α(i 1) y k N (x k ; µ y (i 1) k, Σ y (i 1) k ) p(x k Θ (i 1) ) p(x k Θ) je ovšem likelihood vyslání vektoru celou směsicí Gaussovek, kterou už jsme viděli: M α i N (x; µ i, Σ i ), i=1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 58/6

takže: p(y k x k, Θ (i 1) ) = α(i 1) y k M i=1 α(i 1) i N (x k ; µ y (i 1) k, Σ y (i 1) k ) N (x; µ (i 1) i, Σ (i 1) i ) neboli kolik páĺı daná Gaussovka je normalizováno součtem všech Gaussovek.... pak následuje brutální matematika: odvození Q(Θ, Θ (i 1) ). derivace podle α, µ, Σ. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 59/6

Výsledky s parametry Θ (i 1) se pro každou Gaussovku spočítá occupation count : γ l (k) = α(i 1) l M i=1 α(i 1) i N (x k ; µ (i 1) l, Σ (i 1) N (x; µ (i 1) i l ), Σ (i 1) i ) a nové parametry jsou dány (omlouvám se za nepřítomnost stříšek ˆ)... α (i) l = 1 n n γ l (k) k=1 µ (i) l = n k=1 γ l(k)x k n k=1 γ l(k) Σ (i) l = n k=1 γ l(k)(x k µ (i) l )(x k µ (i) l n k=1 γ l(k) ) T Definice akumulátorů a příklad EM na datech... SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 6/6