UČENÍ BEZ UČITELE. Václav Hlaváč



Podobné dokumenty
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Neparametrické odhady hustoty pravděpodobnosti

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Statistická teorie učení

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

Klasifikace a rozpoznávání. Lineární klasifikátory

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Katedra kybernetiky, FEL, ČVUT v Praze.

Trénování sítě pomocí učení s učitelem

ÚVOD DO ROZPOZNÁVÁNÍ

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Lineární klasifikátory

Markov Chain Monte Carlo. Jan Kracík.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Úvod do optimalizace, metody hladké optimalizace

oddělení Inteligentní Datové Analýzy (IDA)

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

Úvodem Dříve les než stromy 3 Operace s maticemi

VZTAH MEZI STATISTICKÝM A STRUKTURNÍM ROZPOZNÁVÁNÍM

Úloha - rozpoznávání číslic

Implementace Bayesova kasifikátoru

Měření dat Filtrace dat, Kalmanův filtr

Pravděpodobnost, náhoda, kostky

Moderní systémy pro získávání znalostí z informací a dat

Pravděpodobnost, náhoda, kostky

Bayesovská klasifikace

TECHNICKÁ UNIVERZITA V LIBERCI

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Aktivní detekce chyb

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Kybernetika a umělá inteligence, cvičení 10/11

Teorie rozhodování (decision theory)

Měření dat Filtrace dat, Kalmanův filtr

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Odhad stavu matematického modelu křižovatek

Přednáška 13 Redukce dimenzionality

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

Státnice odborné č. 20

PRAVDĚPODOBNOST A STATISTIKA

Pokročilé neparametrické metody. Klára Kubošová

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

Vytěžování znalostí z dat

Učící se klasifikátory obrazu v průmyslu

SRE 03 - Statistické rozpoznávání

Odhady Parametrů Lineární Regrese

Pravděpodobnostní (Markovské) metody plánování, MDP - obsah

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Statistická analýza dat

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Strojové učení Marta Vomlelová

Přijímací zkouška na navazující magisterské studium 2014

aneb jiný úhel pohledu na prvák

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Numerické metody optimalizace - úvod

Umělá inteligence II

Markovské metody pro modelování pravděpodobnosti

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Asociační i jiná. Pravidla. (Ch )

Bayesovské rozhodování - kritétium minimální střední ztráty

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Cvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Cvičná bakalářská zkouška, 1. varianta

Algoritmy a struktury neuropočítačů ASN P3

Klasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn]

ANALÝZA A KLASIFIKACE DAT

4. Na obrázku je rozdělovací funkce (hustota pravděpodobnosti) náhodné veličiny X. Jakou hodnotu musí mít parametr k?

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Řízení a optimalizace Stavové modely a model-prediktivní řízení

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Výběrové charakteristiky a jejich rozdělení

Základy teorie odhadu parametrů bodový odhad

Vytěžování znalostí z dat

Základy matematiky pro FEK

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

PC: Identifikace struktury zobecněného dynamického systému

Algoritmy pro spojitou optimalizaci

Simulační modely. Kdy použít simulaci?

Restaurace (obnovení) obrazu při známé degradaci

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Detekce interakčních sil v proudu vozidel

Algoritmy pro shlukování prostorových dat

Cvičení z optimalizace Markowitzův model

Řízení a optimalizace Stavové modely a model-prediktivní řízení

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Státnicová otázka 6, okruh 1

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

AVDAT Klasický lineární model, metoda nejmenších

Teorie náhodných matic aneb tak trochu jiná statistika

Schéma identifikační procedury

Aplikovaná numerická matematika

Prohledávání svazu zjemnění

Transkript:

UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY

ÚVOD Učení bez učitele se používá pro analýzu pozorování (nebo dat), když není k dispozici informace od učitele, tj. trénovací multimnožina. Pozorovaná data se mají vysvětlit pomocí matematického modelu. Statistický přístup učení statistického modelu z dat. Deterministický přístup podle jiných měr podobnosti dat, např. podle vzdálenosti. Neformálně: data patřící jedné třídě jsou si navzájem podobnější než data z různých tříd. Jiný název: shluková analýza. 2/22

MOTIVAČNÍ OBRÁZEK 3/22

SHLUKOVÁ ANALÝZA, 2 PŘÍSTUPY 1. Hierarchické další shluky se hledají na základě předchozích shluků, a to metodou shora dolů nebo zdola nahoru. 4/22 2. Rozdělující najdou shluky najednou (těm se budeme v této přednášce především věnovat). Metoda k-průměrů (angl. k-means). EM algoritmus.

STATISTICKÝ PŘÍSTUP 5/22 Pozorování se obvykle chápou jako náhodné veličiny. Výsledkem učení je statistický model dovolující přiřadit pozorování x X ke třídě (skrytému stavu) k K, a to podle modelované sdružené hustoty pravděpodobnosti p(x, k). Ze statistického modelu p(x, k) se odvozují podmíněné pravděpodobnosti tříd p(x k) a mohou se použít pro (bayesovské) rozhodování (jako v případě učení s učitelem). Další důležitou aplikací statistického učení bez učitele je komprese dat.

POUŽÍVANÉ VELIČINY 6/22 x X - pozorování. k K - skrytý stav (výsledek rozpoznávání). q : X K - rozhodovací strategie (klasifikátor). x = (x1, x2,..., xn) - posloupnost pozorování (z trénovací multimnožiny). k = (k1, k2,..., kn) - posloupnost výsledků rozpoznávání (informace učitele z trénovací multimnožiny). Θ - parametr, na němž závisí rozhodovací strategie.

KLASIFIKÁTOR S PROMĚNNÝMI PARAMETRY 7/22 Dosud jsme se soustředili na návrh klasifikátoru, jehož rozhodovací funkce q závisela na parametru Θ. x q(x, Θ) k Θ k = q(x, Θ)

UČENÍ S UČITELEM 8/22 x q(x, Θ) Θ k trénovací data x k uèení Θ = učení(x, k) Rozhodovací pravidlo se naučí na základě trénovací multimnožiny.

UČENÍ BEZ UČITELE 9/22 x q(x, Θ) Θ k uèení bez uèitele Θ = učení(x, k) Pro (samo)učení se používá místo trénovací množiny výstup z klasifikátoru.

ALGORITMUS UČENÍ BEZ UČITELE 10/22 Inicializace, tj. počáteční volba parametru Θ t=0. Cyklus Rozpoznávání k = q(x, Θt) Učení Θt+1 = učení(x, k) Důležitou otázkou je konvergence algoritmu.

PROČ JE UČENÍ BEZ UČITELE DŮLEŽITÉ? 11/22 Klasifikace dat není předem známá. Příklad: dolování v datech (angl. data mining). Klasifikace dat člověkem může být příliš drahá. Příklad: rozpoznávání řeči. Složitý skrytý markovský model posloupnost. Vyžaduje spoustu trénovacích dat. Rozsáhlé datové soubory je možné komprimovat tím, že se nahradí několika málo významnými reprezentanty. Lze použít jako metodu aproximující složitou hustotu pravděpodobnosti pomocí směsi (např. gaussovských) rozdělení.

PŘÍKLAD UČENÍ BEZ UČITELE ALGORITMUS n-průměrů 12/22 Předpokládejme statistický model p k (1) = p k (2) =... = p k ( K ) p(x k j, µ j ) jsou gaussovská rozdělení s jednotkovou kovarianční maticí. Parametry Θ = µ 1,..., µ K. Rozpoznávání podle bayesovské strategie k = argmax k p(k x) = argmin k x µ k odpovídá rozpoznávání podle nejbližšího souseda.

PŘÍKLAD UČENÍ BEZ UČITELE ALGORITMUS n-průměrů (2) 13/22 Učení maximálně věrohodný (ML) odhad parametrů Θ t+1 = argmax Θ = argmax µ 1,...,µ K = argmin µ 1,...,µ K = argmin 1 n log p xk (x i, k i ) i=1 n log i=1 ( ) 1 1 ( 2π) exp n 2 (x µ k i ) T (x µ ki ) n (x µ ki ) T (x µ ki ) i=1 µ j = 1 I j (x µ ki ) T (x µ ki ),..., argmin i I k 1 i I j x i, j = 1,... K i I k (x µ ki ) T (x µ ki )

VZTAH K ÚLOZE ODHADU HUSTOT PRAVDĚPODOBNOSTI 14/22 Již známe: Parametrické odhady maximálně věrohodný (ML) odhad. Neparametrické odhady metoda Parzenova okna (nebo metoda n-nejbližších sousedů). Alternativní metoda: modelování hustoty pomocí směsi gaussovských rozdělení.

EM algoritmus EM ALGORITMUS, NEFORMÁLNĚ 15/22 je iterativní postup z rodiny maximálních věrohodných odhadů (MLE) pro případy, kde MLE řešení neexistuje nebo je velmi složité; se typicky používá při chybějících datech nebo informaci od učitele pro vytvoření trénovací množiny; převádí rozkládá jednu složitou MLE optimalizační úlohu na několik jednodušších optimalizačních úloh tím, že zavede chybějící parametr. používá gradientní optimalizaci (nejstrmější vzestup) pro nalezení MLE optima. Proto trpí neduhem uvíznutí v lokálních extrémech.

EM, STATISTICKÝ MODEL 16/22 Předpokládáme libovolný statistický model p(x, k; Θ) = p(k; Θ) p(x k; Θ) = p(k) p(x k; Θ k ) Θ = ( (p(k), Θ k ), k = 1,..., K )

EM, OPAKOVÁNÍ DVOU KROKŮ E krok (rozpoznávání), Bayesovský odhad stavu k, tj. 17/22 α(i, k) = p(x k) = p(k) p(x; Θ k) p(k) p(x; Θ k ) Pozn. u k-means α(i, k) {0, 1}. Zde je odpovědí rozdělení pro stav k, tj. p(k x i ). M krok, (učení), maximálně věrohodný odhad z daného pozorování x a odhadnutých stavů k k Θ t+1 = argmax Θ Očekávaná věrohodnostní funkce L x,k (Θ) = n i=1 E p(k x) (L x,k (Θ)) log p(k) p(x; Θ k )

Inicializace Cyklus Rozpoznávání Učení EM ALGORITMUS Θ 0 = ( p 0 (k), Θ 0 k), k = 1,..., n. α t (i, k) = pt (k) p(x i ; Θ t k ) p t (k) p(x i ; Θ t k ) k 18/22 p t+1 (k) = n i=1 Θ t+1 k = argmax Θ k α t (i, k) n n i=1 α t (i, k) log p(x i, Θ i )

VLASTNOSTI EM ALGORITMU (1) 19/22 Maximalizuje věrohodnostní funkci L(Θ) = n log p(x i ; Θ) = n p(k) p(x i, Θ) i=1 i=1 log } k {{ } p(x i ;Θ) Obecně platí L(Θ0) L(Θ1)... L(Θt). Posloupnost L(Θt) konverguje pro t k L (L je shora omezená), které je buď lokálním minimem, sedlovým bodem nebo globálním minimem.

VLASTNOSTI EM ALGORITMU (2) 20/22 Pokud je funkce Θt+1 = f (Θt) = L (x, R(x, Θt)) spojitá, pak posloupnost Θ 0, Θ 1,..., Θ t pro t konverguje k Θ. Pro speciální statistické modely, např. model podmíněné nezávislosti a dva stavy, konverguje EM algoritmus ke globálnímu maximu. Hypotéza: platí i pro více stavů.

ML ODHAD POMOCÍ EM 21/22 EM je pro ML odhady vhodný. Věrohodnostní funkce L(Θ) = p(x; Θ). Pokud lze rozložit pravděpodobnostní model p(x; Θ) = k p(x, k; Θ), k = 1,..., K, potom lze EM algoritmus použít pro ML odhad parametrů směsi. Příklad: odhad parametrů pro odhad konečných směsí, často gaussovských. ML odhad parametrů Θ = argmax Θ L(Θ). Pro jednoduché statistické modely je analytické řešení, L(Θ) Θ = 0.

EM MINIMALIZUJE DOLNÍ MEZ L EM začíná z nějakého odhadu Θ0. 22/22 Potom se v cyklu opakuje: E-krok: odhadne dolní mez funkce L(Θ) v bodě Θ t. M-krok: nalézá novou hodnotu parametru Θ t+1, která maximalizuje odhadnutou dolní mez. Ta se lépe optimalizuje. L( Θ) new estimate lower bound Θ t+1 Θ t Θ