Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Podobné dokumenty
Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

oddělení Inteligentní Datové Analýzy (IDA)

Klasifikace a rozpoznávání. Lineární klasifikátory

SRE 03 - Statistické rozpoznávání

Klasifikace a rozpoznávání. Extrakce příznaků

UČENÍ BEZ UČITELE. Václav Hlaváč

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

SRE 03 - Skryté Markovovy modely HMM

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Umělá inteligence II

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Statistická teorie učení

Vytěžování znalostí z dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

KYBERNETIKA A UMĚLÁ INTELIGENCE. 2. Pravděpodobnostní rozhodování a klasifikace

Úvodem Dříve les než stromy 3 Operace s maticemi

Kybernetika a umělá inteligence, cvičení 10/11

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

Implementace Bayesova kasifikátoru

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Lineární klasifikátory

Bodové odhady parametrů a výstupů

Bayesovské metody. Mnohorozměrná analýza dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Úloha - rozpoznávání číslic

TECHNICKÁ UNIVERZITA V LIBERCI

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

Pravděpodobnost, náhoda, kostky

STATISTICKÉ ODHADY PARAMETRŮ

Rozdělování dat do trénovacích a testovacích množin

Odhady Parametrů Lineární Regrese

Odhady - Sdružené rozdělení pravděpodobnosti

Pravděpodobnost, náhoda, kostky

Kapitola 1. Logistická regrese. 1.1 Model

Bayesovské rozhodování - kritétium minimální střední ztráty

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

EXTRÉMY FUNKCÍ VÍCE PROMĚNNÝCH

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

Akvizice dat. Dekonvoluce Registrace. zobrazení INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ

Katedra kybernetiky, FEL, ČVUT v Praze.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Markovovy modely v Bioinformatice

Teorie rozhodování (decision theory)

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Usuzování za neurčitosti

Měření dat Filtrace dat, Kalmanův filtr

Úvod do optimalizace, metody hladké optimalizace

Praha, 24. listopadu 2014

Základy teorie pravděpodobnosti

P íklad 1 (Náhodná veli ina)

Odhad parametrů N(µ, σ 2 )

Asociační i jiná. Pravidla. (Ch )

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

AVDAT Mnohorozměrné metody, metody klasifikace

Stavový model a Kalmanův filtr

Poznámky k předmětu Aplikovaná statistika, 4. téma

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Neparametrické odhady hustoty pravděpodobnosti

Počet pravděpodobnosti

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

8-9. Pravděpodobnostní rozhodování a predikce. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

Instance based learning

Pravděpodobnost a aplikovaná statistika

Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman

Tino Haderlein, Elmar Nöth

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

STATISTICKÉ ODHADY Odhady populačních charakteristik

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Základy počtu pravděpodobnosti a metod matematické statistiky

ANALÝZA A KLASIFIKACE DAT

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Poznámky k předmětu Aplikovaná statistika, 4. téma

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Bayesian Networks. The graph represents conditional independencies of the join probability distribution Π X V P(X pa(x)).

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Automatické vyhledávání informace a znalosti v elektronických textových datech

Klasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn]

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

NÁHODNÉ VELIČINY JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU NA HODNOTY NÁHODNÝCH VELIČIN?

Shlukování. Zpracováno s využitím skvělého tutoriálu autorů Eamonn Keogh, Ziv Bar-Joseph a Andrew Moore

III. Úplná pravděpodobnost. Nezávislé pokusy se dvěma výsledky. Úplná pravděpodobnost Nezávislé pokusy se dvěma výsledky Náhodná veličina

Odhad stavu matematického modelu křižovatek

ANALÝZA A KLASIFIKACE DAT

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

Markov Chain Monte Carlo. Jan Kracík.

Praha, 2. listopadu 2016

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Motivace. Náhodný pokus, náhodný n jev. Pravděpodobnostn. podobnostní charakteristiky diagnostických testů, Bayesův vzorec

Jasové transformace. Karel Horák. Rozvrh přednášky:

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Vícerozměrná rozdělení

Úvod do mobilní robotiky AIL028

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Výběrové charakteristiky a jejich rozdělení

Transkript:

Klasifikace a rozpoznávání Bayesovská rozhodovací teorie

Extrakce p íznaků Granáty Četnost Jablka Váha [dkg]

Pravděpodobnosti - diskrétní p íznaky Uvažujme diskrétní p íznaky váhové kategorie Nechť tabulka reflektuje skutečné pravděpodobnosti jednotlivých kategorií 1 6 12 15 12 2 2 50 4 23 50 14 6 3 1 100 nejlehčí 0.0-0.1 lehčí 0.1-0.2 lehký 0.2-0.3 st ední těžký těžší nejtěžší 0.3 0.4 0.4 0.5 0.5 0.6 0.6 0.7 [kg]

Apriorní pravděpodobnost Stav věci Hádej co mám za zády, jablko nebo granát? Klasifikační pravidlo: Vyber čeho je nejvíc T ída s největší apriorní pravděpodobností (a-priori probability) á =!! = = 1 6 12 15 12 2 2 50 4 23 50 14 6 3 1 100 nejlehčí 0.0-0.1 lehčí 0.1-0.2 lehký 0.2-0.3 st ední těžký těžší nejtěžší 0.3 0.4 0.4 0.5 0.5 0.6 0.6 0.7 [kg]

Společná pravděpodobnost Je to těžké. Hádej co to je? Klasifikační pravidlo: Ve sloupci váhové kategorie vyber nejčastější t ídu T ída s největší společnou pravděpodobností (joint probability) pravděpodobnost chlívečku. ale také největší podmíněnou pravděpodobností (viz další slajd) á, ěž ý =!, 1 6 12 4 23 50 nejlehčí 0.0-0.1 lehčí 0.1-0.2 lehký 0.2-0.3!, =, ž ý = 15 12 2 2 50 14 6 3 1 100 st ední těžký těžší nejtěžší 0.3 0.4 0.4 0.5 0.5 0.6 0.6 0.7 [kg]

Podmíněná pravděpodobnost Je to těžké. S jakou pravděpodobností je to granát? Podmíněnou pravděpodobnost (conditional probability) pravděpodobnost chlívečku dáno sloupec á ěž ý = + 1 6 12 15 12 2 2 50 4 23 50 14 6 3 1 100 nejlehčí 0.0-0.1 lehčí 0.1-0.2 lehký 0.2-0.3 st ední těžký těžší nejtěžší 0.3 0.4 0.4 0.5 0.5 0.6 0.6 0.7 [kg]

Ještě nějaké další pravděpodobnosti á = á = + á, ěž ý = á ěž ý = ěž ý á = + á ěž ý ěž ý = á, ěž ý = ěž ý á á = 1 6 12 15 12 2 2 50 4 23 50 14 6 3 1 100 nejlehčí 0.0-0.1 lehčí 0.1-0.2 lehký 0.2-0.3 st ední těžký těžší nejtěžší 0.3 0.4 0.4 0.5 0.5 0.6 0.6 0.7 [kg]

Bayesův teorém Posteriorní pravděpodobnost (posterior probability) Věrohodnost (likelihood) Apriorní pravděpodobnost (prior probability)!!! = Evidence Věrohodnost nás zatím moc nezajímala, ale za chvíli to bude to hlavní co se budeme snažit odhadovat z trénovacích dat. Již d íve jsme viděli že (product rule):!, =!! Pro evidenci platí (sum rule): nap.: ěž ý = =!,! á, ěž ý +, ěž ý = +

Maximum a-posteriori (MAP) klasifikátor Mějme 2 t ídy ω1 a ω2 Pro daný p íznak x vyber t ídu ω s větší posteriorní pravděpodobností P(ω x) Vyber ω1 pouze pokud:! >!,!!!! >!, >!,,

Maximum a-posteriori (MAP) klasifikátor Pro každé x minimalizuje pravděpodobnost chyby: Musíme ovšem znát P(chyby x) = P(ω1 x) pokud vybereme ω2 P(chyby x) = P(ω2 x) pokud vybereme ω1 Pro dané x vybíráme t ídu ω s větším P(ω x) minimalizace chyby P(ω x) nebo P(x,ω) nebo P(x ω) a P(ω), které reflektují skutečná rozložení pro rozpoznávaná data Obecně pro N t íd Vyber t ídu s největší posteiorní pravděpodobností: arg max!! = arg max!!!

Spojité p íznaky P(.) bude pravděpodobnost p(.) bude hodnota funkce rozložení pravděpodobnosti, = d Bude nás zajímat funkce rozložení pravděpodobnosti p íznaků podmíněné t ídou! 3.5 Plocha pod funkci musí být 1 Hodnoty mohou být ale libovolné kladné 0 0.7 [kg]

Bayesův teorém spojité p íznaky 3.5 0! x! =!, =!! 2.5 0 x!! 1 0! x

MAP klasifikátor spojité p íznaky Opět se budeme rozhodovat podle:!, > nebo!,,! >!, 2.5!, 1! Na obrazcích vidíme, že obě pravidla vedou ke stejným rozhodnutím 0 x 0 x

MAP klasifikátor pravděpodobnost chyby íkali jsme, že MAP klasifikátor minimalizuje pravděpodobnost chyby Plocha pod funkci společného rozložení pravděpodobnosti p(ω,x) v určitém intervalu x je pravděpodobnost výskytu vzoru t ídy ω s p íznakem v daném intervalu Jaká je tedy celková pravděpodobnost, že klasifikátor udělá chybu? Pravděpodobnost, že červená t ída je chybně klasifikována jako modrá Jakákoli snaha posunout hranice povede jen k větší chybě 2.5!,!, 2.5 0 0 x x

Posteriorní pravděpodobnosti pro různé apriorní pravděpodobnosti Změna apriorních pravděpodobností t íd může vézt k různým rozhodnutím! =,! x =! =,! x =! = 99,! x =

Vícerozměrné p íznaky Místo jednorozměrného p íznaku máme N rozměrný p íznakový vektor x = [x1, x2,, xn] nap. [váha, červenost] MAP klasifikátor opět vybírá nejpravděpodobnější t ídu!,

Parametrické modely Pro rozpoznávání s MAP klasifikátorem jsme doposud p edpokládali, že známe skutečná rozloženi P(ω x) nebo p(x,ω) nebo p(x ω) a P(ω) Ve skutečnosti ale většinou známe jen trénovací vzory Pokusíme se tato rozložení odhadnout z dat budeme trénovat statistické modely silence unvoiced voiced

Parametrické modely Můžeme se pokusit modelovat p ímo posteriorní pravděpodobnost, a tu použít p ímo k rozpoznávání P(ω x) tzv. diskriminativní trénování Ale o tomto bude eč až později Běžnější je odhadovat rozložení p(x ω) a P(ω) Tato rozložení popisují p edpokládaný proces generování dat generativní modely Nejprve se musíme rozhodnout pro formu modelu, který použijeme (nap. gaussovské rozložení) silence unvoiced voiced

Gaussovské rozložení (jednorozměrné) = ;, =

Gaussovské rozložení (dvourozměrné),, = ;, =

Kvadratické funkce (dvourozměrné) Positivně definitní Positivně semidefinitní Negativně definitní Indefinitní

Odhad parametrů modelu s maximální věrohodností Hledáme taková nastavení parametrů rozložení pravděpodobnosti Θ, které maximalizuje věrohodnost (Maximum Likelihood, ML) trénovacích dat x1, x2,xn V následujících p íkladech p edpokládáme, že odhadujeme parametry nezávisle pro jednotlivé t ídy. Pro zjednodušení notace tedy u rozložení neuvádíme závislost na t ídě ω, pouze na jejích parametrech Θ. Modely kterými se budeme zabývat jsou: Gaussovské rozloženi Směs gaussovských rozložení (Gaussian Mixture Model, GMM) V následujících p ednáškách p ibudou další (nap. HMM)

Gaussovské rozložení (jednorozměrné) = ;, = ML odhad parametrů: = =

Gaussovské rozložení (vícerozměrné) ;, = ML odhad of parametrů: = = i i

Směs gaussovských rozložení (Gaussian Mixture Model GMM) Θ = ;, kde Θ = {,, } =

Směs gaussovských rozložení = = ;, Vzoreček můžeme chápat jen jako něco co definuje tvar funkce hustoty pravděpodobnosti nebo jej můžeme vidět jako složitější generativní model,který generuje p íznaky následujícím způsobem: Nap ed je jedna z gaussovských komponent vybrána tak aby respektovala apriorní pravděpodobnosti Pc P íznakový vektor se generuje z vybraného gaussovského rozložení. Pro vyhodnoceni modelu ale nevíme, která komponenta p íznakový vektor generovala a proto musíme marginalizovat (suma p es gaussovské komponenty násobené jejich apriorními pravděpodobnostmi)

Trénování GMM Viterbi training Intuitivní ale nep esný iterativní algoritmus pro ML trénování GMM parametrů

Trénování GMM Viterbi training Intuitivní ale nep esný iterativní algoritmus pro ML trénování GMM parametrů Současným modelem klasifikujeme data jako kdyby by jednotlivé Gaussovky modelovaly různé t ídy a váhy byly apriorní pravděpodobnosti t íd (p esto, že všechnadata pat í do jedné t ídy, kterou se snažíme modelovat).

Trénování GMM Viterbi training Intuitivní ale nep esný iterativní algoritmus pro ML trénování GMM parametrů Současným modelem klasifikujeme data jako kdyby by jednotlivé Gaussovky modelovaly různé t ídy a váhy byly apriorní pravděpodobnosti t íd (p esto, že všechnadata pat í do jedné t ídy, kterou se snažíme modelovat). Nové parametry každé Gaussovky odhadneme na datech k ní p i azených v p edchozím kroku. Nové váhy jsou dány poměry možství dat p i azených Gausovkám.

Trénování GMM Viterbi training Intuitivní ale nep esný iterativní algoritmus pro ML trénování GMM parametrů Současným modelem klasifikujeme data jako kdyby by jednotlivé Gaussovky modelovaly různé t ídy a váhy byly apriorní pravděpodobnosti t íd (p esto, že všechnadata pat í do jedné t ídy, kterou se snažíme modelovat). Nové parametry každé Gaussovky odhadneme na datech k ní p i azených v p edchozím kroku. Nové váhy jsou dány poměry možství dat p i azených Gausovkám. P edchozí dva kroky opakujeme až do konvergence.

Training GMM EM algorithm Expectation Maximization je iterativní algoritmus pro trénování různých generativních modelů se skrytými proměnnými (latent or hidden variables), jehož kazdá iterace vede ke zvýšení věrohodnosti (likelihood) trenovacích dat. Nezaručuje ale nalezení globalního optima. Zde ukazujeme pouze výsledek aplikace EM na trénování GMM. Algoritmus je podobny p edchozímu Viterbi trénování, s tím rozdílem, že (místo tvrdých p i azení) jsou data Gaussovkám p i azena měkce pomocí vah posteriorních pravděpodobností spočítaných současným modelem. Parametry, jsou potom pocítány pomocí váhovaných (namísto prostých) průměrů. = ;, ; = c =, i = i = =