Přednáška kurzu MPOV Klasifikáory, srojové učení, auomaické řídění 1 P. Peyovský (email: peyovsky@feec.vubr.cz), kancelář E530, Inegrovaný objek - 1/25 -
Přednáška kurzu MPOV... 1 Pojmy... 3 Klasifikáor... 5 Příklady klasifikačních meod... 10 Lineární klasifikáor... 10 Bayesův klasifikáor... 13 Zlepšení přesnosi klasifikace - Boosing... 17 Meoda AdaBoos... 17 Markovovy modely... 20 Principal componens analysis (PCA, LDA)... 22 Lieraura, použié obrázky... 25-2/25 -
Pojmy Srojové učení Srojová klasifikace paern recogniion. Nauka o získávání a zpracování znalosí. daa Algorimus výsledek daa Klasifikační algorimus výsledek znalos Obr. 1 Srovnání přísupu ke klasickému zpracování da a při srojové klasifikaci Znalos Informace o dané problemaice. Další rozdělení: Mělká znalos vychází z pozorování skuečnosi, povrchní popis jevů. Hloubková znalos vyjadřuje vniřní zákoniosi jevů (např. Ohmův zákon). Deklaraivní znalos lze formálně zapsa jako pravidla (např. pravidla pro hraní šachu). Procedurální znalos znalos získaná opakovaným prováděním, cvičením (např. hraní šachu, řízení vozidla). Taková znalos obsahuje mnoho aspeků, pro pořeby srojového učení obížně využielné. (sraegie, ypické variany ad.) - 3/25 -
Inference Posup k dosažení výsledku odvození. Základní ypy jsou dedukce, abdukce, indukce. F T C. Dedukce - pokud známe F, T a určujeme C. Vždy jisý správný výsledek (s ohledem na správné T) (např. T: y=x^2; F:x=2; C:y=??). Abdukce proces, kdy známe C, T a hledáme F. Není zaručen správný výsledek (např. T: y=x^2; C:y=9; F:x=3 nebo x=-3?). Indukce proces, kdy známe F, C a hledáme T. Není zaručen správný výsledek (např. F:x=3; C:y=9; T: y=x^2 nebo y=x*3, ad..??) Srojové učení edy předsavuje proces hledání (inference) znalosi pomocí mechanismů indukce. - 4/25 -
Klasifikáor Je algorimus, kerý při vhodné množině znalosí je schopen úspěšně rozdělova vsupní daa s hodnoami aribuů (příznaků), do výsupních předem zvolených skupin (říd). Vhodná volba klasifikačního algorimu předsavuje nunou podmínku k úspěšné klasifikaci. Příznaky (X 1,X n ) X 1 X 2 X 3.. X n Rozhodovací pravidlo Y=d(X) Klasifikované řídy (Y 1 -Y r ) Y r Obr. 2 - Vsupy a výsupy klasifikáoru Pozn.: V případě, že poče výsupních říd klasifikáoru je roven dvěma (ano / ne), jedná se o zv. úlohy dichoomické klasifikace. Úkolem srojového učení je zvoli: Vhodné příznaky Klasifikační meodu Meodu učení, vyhodnocení chyb klasifikace Inerpreaci výsledků učení Implemenaci klasifikáoru do cílové aplikace - 5/25 -
Posup použií klasifikační meody: 1. Učení generování znalosí (modelu) s ohledem na yp klasifikáoru. 2. Ověřování verifikace znalosí na jiných daech, než byly použiy při učení a výpoče přesnosi klasifikace. 3. Klasifikace běžný provoz naučeného klasifikáoru. Určení přesnosi klasifikace Lze ji vyjádři jako procenuální poměr mezi počem správně zařazených vzorů k poču všech předložených vzorů v esovací množině. δ klas = 100 N N ok celk [%] Pozn. Pro dichoomické úlohy předsavuje chyba klasifikace 50% zv. nenaučený klasifikáor (j. klasifikáor odpovídající na předložené vzory naproso náhodně). - 6/25 -
Komplení a konzisenní model znalosí klasifikáoru Tyo pojmy předsavují popis modelu vzhledem k určié řídě: Komplení model Učením vzniklá množina znalosí pokrývá všechny poziivní případy, ale možná i někeré negaivní. Konzisenní model Učením vzniklá množina znalosí nepokrývá žádný negaivní případ, ale možná nepokrývá i někeré poziivní. X 2 Ideální separace prosoru aribuů (ideální hranice klasifikace) Naučená hranice klasifikace konzisenní vzhledem k + Naučená hranice klasifikace Komplení vzhledem k + X 1 Obr. 3 - Komplení a konzisenní model znalosí - 7/25 -
Přerénování over-fiing klasifikáoru X 2 Odchylka vzoru v rénovací množině vlivem chyby měření nebo šumu. Tyo vzory v rénovací množině chyběly, a proo se neúčasnily procesu učení. Přerénovaný klasifikáor separoval prosor aribuů ako. X 1 Obr. 4 - Problém přerénování klasifikáoru Na obrázku je parný problém přerénování klasifikáoru. Proo je lépe nerva na konzisenci případně úplnosi popisu pokud o není nuné (brá ohled na aplikaci). Příliš přesný popis vzhledem k rénovací množině má velmi časo nižší přesnos vzhledem k reálným daům. - 8/25 -
Rozdělení klasifikáorů: Dle použiých meod klasifikace: Symbolické Meody založené na rozhodovacích sromech (např. ID3). Subsymbolické nebo aké biologicky inspirované meody (např. neuronové síě, geneické algorimy). Saisické využívající regresní nebo jiné saisické meody (např. Bayesův odhad). Paměťové meody založené na ukládání insancí říd (např. IBL). Dle charakeru učení: Dávkové Zpracuje vždy celou cvičnou množinu naráz. Typické pro symbolické meody klasifikace. Inkremenální Cvičné příklady lze dodáva posupně, naučená znalos se podle nich průběžně akualizuje. Typické pro saisické meody klasifikace. Inkremenální se zapomínáním Zapomínání čásí znalosí se muže jevi jako výhodné v případě, kdy je někerý významný aribu skry nebo jsou někeré hodnoy aribuů cvičné množiny zaíženy šumem více než jiné. - 9/25 -
Příklady klasifikačních meod Lineární klasifikáor Předsavuje jednoduchou klasifikační meodu založenou na rozdělení prosoru příznaků pomocí po čásech lineárními úseky. Prosor příznaků je obecně prosor s mnoha dimenzemi proo hovoříme o separaci prosoru příznaků nadrovinami (popř. nadplochami). X 2 Y 1 Y 2 Naučená hranice klasifikace Problém vyvoření rozdělující nadroviny (nadplochy) Y 3 X 1 Obr. 5 - Příklad lineárně separabilního prosoru příznaků - 10/25 -
? X 1 g 1 X 2 g 2 Y n X n g n sign s r Obr. 6 - Schéma lineárního klasifikáoru = g X + g X +... + g 1 1 2 2 n X n Úkolem učení klasifikáoru je zvoli vhodné konsany g (případně paramery funkce sign). Pokud lze uo podmínku separace prosoru (na lineární oblasi pařící do jedné řídy) splni (při chybě klasifikace 0%), hovoříme o lineární separabiliě prosoru příznaků. - 11/25 -
Návrh lineárního klasifikáoru je možné si aké předsavi jako výběr vhodného reprezenana řídy v prosoru příznaků (zv. ealon, normál). Proces učení poom předsavuje výběr vhodného ealonu zasupujícího celou řídu. Proces klasifikace neznámého vzoru lze v omo případě převés na hledání nejmenší vzdálenosi neznámého vzoru od někerého z ealonů říd. Neznámý vzor je následně klasifikován do é řídy, od keré má nejmenší vzdálenos. Funkce pro určení míry vzdálenosi se nazývá diskriminační funkce, a má nejčasěji var eukleidovské vzdálenosi. V s X = T ( V X ) ( V X ) Kde V s předsavuje informaci o poloze s-ého ealonu v prosoru příznaků. X předsavuje informaci o poloze klasifikovaného vzoru. Úkolem je naléz minimum vzdálenosi od někerého z ealonů. min V = X T s X 2 = min( V X 2 max( V T S T s s V s X - 12/25-2 V 1 2 V T S T s S X + V s ) X T X ) = Výraz X T X má pro každý z ealonů konsanní hodnou, proo ho lze při výpoču maxima odsrani (pozn. Sejně jako násobení výsledku konsanou). Výsledná diskriminační funkce lze edy zapsa ve varu: 1 2 T T ( VS X Vs Vs Hodnoa výrazu ( 1 / 2 V s T V s ) závisí pouze na poloze daného ealonu, proo je možné ji v rámci zrychlení klasifikace vypočía dopředu a uloži společně s informacemi o poloze ealonu v prosoru příznaků. Pozn. Pro dichoomické úlohy klasifikace není nuné vyhodnocova hodnoy diskriminační funkce vždy pro oba ealony, sačí vyhodnoi rozdíl obou diskriminačních funkcí a klasifikova vzor na základě znaménka oho rozdílu. sign T T ( 1 T T V V ) X ( V V V )) ( 0 1 0 0 1 V1 2 )
Bayesův klasifikáor Paří do skupiny saisických klasifikáorů, umožňuje inkremenální i dávkové učení. Naučená znalos (model) je reprezenován pravděpodobnosním rozložením říd. Při klasifikaci je zvolena řída s nejvyšší pravděpodobnosí. Podmíněná pravděpodobnos závislá na konjunkci jevů se nahradí funkcí podmíněných pravděpodobnosí jednoduchých jevů. Proo meoda požaduje úplnou vzájemnou saisickou nezávislos aribuů. Učení Pro řídy C i, příznaky A j a jejich hodnoy V jk (zn. k-á hodnoa j-ého příznaku) se zaznamenává do abulky, kolikrá se ve cvičné množině: N i,j,k vyskyl jev, kdy současně: řída C i a hodnoa V j,k, přesněji A j = V j,k Pro klasifikaci jsou dále ukládány yo hodnoy: T i - poče případů řídy C i T j,k - poče případů, kdy A = V j j,k T - celkový poče příkladů. Klasifikace Za předpokladu, že neznámá insance má hodnoy V 1,a,V 2,b,...,V N,q, je pravděpodobnos, že insance paří do řídy C i, určena podmíněnou pravděpodobnosí P(C i V 1,a, V 2,b,..., V N,q ). Pro empirické získání éo pravděpodobnosi obvykle nejsou k dispozici pořebná rénovací daa. Proo se ao pravděpodobnos vypočíá na základě dílčích empirických pravděpodobnosí P(C i V jk ), resp. P(V jk C i ). - 13/25 -
Pro dosi vysoká čísla T, N ijk, T jk, T i : P(C i ) = T i / T (1) P(V jk ) = T jk / T (2) P(C i V jk ) = N ijk / T jk (3) P(V jk C i ) = N ijk / T i (4) Za předpokladu nezávislosi příznaků, lze dosadi za: P(C i V 1,a,V 2,b,...,V N,q ) = P(C i ) * N j=1 ( P(Ci V j,k ) / P(C i ) ), (1.1) nebo: P(C i V 1,a,V 2,b,...,V N,q ) = P(C i ) * N j=1 ( P(Vj,k C i ) / P(V j,k )), kde N je poče příznaků. - 14/25 -
Modifikovaná variana: Obecněji lze (1) a (3) nahradi heurisikami (dle Cesnik, ECAI-90): P(C i ) = (T i + 1) / (T + M), N i,j,k + M * P(C i ) P(C i V j,k ) = ----------------------, T j,k + M Vhodné pro případy, kdy v rénovací množině není zasoupena nějaká řída, hodnoa příznaku nebo řída s hodnoou příznaku. M - nuno nasavi experimenálně, doporučováno M=2. - 15/25 -
Příklad: baerie: P,W {silná (power), resp. slabá (weak)} konaky: C,D {čisé (clean), resp. znečišěné (diry)} řída: +,- (saruje, nesaruje) Trénovací množina: baerie konaky řída ==================================== P C + P D + P C - W C + P D + W C + P D - P D + W D - W C + Učením získaná abulka pravděpodobnosí (báze znalosí): N i,j,k řídy: T j,k : + - (hodnoa) ----------- ---------- ------------ baerie P 4 2 6 baerie W 3 1 4 konaky C 4 1 5 konaky D 3 2 5 ----------- ---------- ------------ T i (řídy) 7 3 10 Použií např.: Jaká je šance nasarování v případě, že baerie je slabá (W) a konaky jsou znečišěné (D) dle (1.1): P(+ W,D) = P(+) * P(+ V ba,w )/ P(+) * P(+ V kon,d )/ P(+) =... = 64.3% P( - W,D) =... = 33.3% Pozn. Z výsledků pravděpodobnosi opačných jevů je parné, že rénovací množina nesplňuje dokonale podmínku saisické nezávislosi příznaků. - 16/25 -
Zlepšení přesnosi klasifikace - Boosing Boosing meody předsavují zv. mea algorimy učení j. meody jak co nejlépe uči klasifikáory. Boosing zavádí pojem weak learner (španý žák) j. klasifikáor kerý má jen o rochu lepší úspěšnos klasifikace než klasifikáor kerý klasifikuje naproso nahodile (nenaučený klasifikáor). Boosing meody jak spoji více španých klasifikáorů jednoho zv. úspěšnějšího klasifikáoru (zv. Srong classifier). Meoda edy předsavuje vylepšené učení využívající obecně mnoha klasifikáorů učených nad sejnými vsupními day. Meoda AdaBoos Adapive Boosing, auoři: 1999 - Yoav Freund, Rober Schapire, (obdrželi v roce 2003 Gödel prize) Určena pro dichoomické úlohy klasifikace. Je definována rénovací množina: ( 1 Je definována množina španých žáků (klasifikáorů) x1, y ),...,( xm, ym ); xi X, yi Y = { 1, + 1} h : X { 1, + 1} h Η - 17/25 -
Hledám výsledný klasifikáor K(x) (zv. Srong classifier) ve varu: T K( x) = sign α h( x) = 1 Výhody: Jednoduchá meoda Lze implemenova v HW Neklade prakicky žádné požadavky na klasifikáory (jen podmínku o weak learner ) Nevýhody: Velká cilivos na šum Cilivos na over-fiing - 18/25 -
Popis algorimu meody AdaBoos: 0) Inicializace: 1) Hledám klasifikáor D ( 1 1 i) = ; i= 1,..., m m = 1,..., T h : X { 1, + 1} h Η Kerý vykazuje nejmenší chybu klasifikace vzhledem k váhám D i příkladů rénovací množiny j. h ε = = arg minε m i= 1 h Η D ( i) bool ( y h ( x )) Pozn.: Kde bool() předsavuje funkci vracející 1 nebo 0 dle vyhodnocené podmínky (plaí/neplaí). i i 2) Pokud ε < 0,5 pokračuj, jinak ukonči učení. 3) Urči váhu klasifikáoru α, dle: α = α R 1 2 1 ε ln ε 4) Přepočíej váhy rénovací množiny D Z + 1 ( i) = m = i= 1 D D α yih( xi) ( i) e Z α yih( xi) ( i) e 5) Opakuj 1, (dokud plaí podmínka 2) - 19/25 -
Markovovy modely Auor: 1865 1922 Andrej Andrejevič Markov Pojem konečný savový auoma. Meoda pro deekci a vyhodnocení změn savu sysému popsaného pomocí pravděpodobnosního modelu. Předpokládá omezené podmínky pro změnu savu konečného savového auomau. Markovův předpoklad v eorii pravděpodobnosi je označen náhodný proces jako Markovův, pokud následující sav závisí pouze na nynějším savu a nezávisí na savech dřívějších. Markovův proces je sochasický proces, kerý má Markovovu vlasnos, j. Markovovy modely (MM Markov Models) jsou modely s konečným počem savů, kde přechod mezi savy je vyjádřen pravděpodobnosí. Mimo modely s diskréním časem exisují aké modely se spojiým časem. Ergodické Všechny savy jsou mezi sebou propojené přechody. Levo-pravé v někerých případech lze použí jednodušší model, kde nelze přecháze mezi všemi savy, ale pouze mezi vedlejšími savy v jednom směru. Teno model se používá např. při rozpoznávání řeči. - 20/25 -
Skryé MM (HMM) jde o konečný savový auoma formálně zapsaný jako: λ = (N, M, A, B, π), kde: N skryé savy (vekor) M pozorovaelné savy (vekor) A pravděpodobnosi přechodu mezi skryými savy (maice) B pravděpodobnosi přechodů k pozorovaelným savům (maice) π počáeční pravděpodobnosi savů (vekor) Příklad: Model počasí Vyvořme jednoduchý model počasí. Kerýkoliv den můžeme popsa jedním ze ří savů: sav 1: dešivo sav 2: zaaženo sav 3: slunečno Přechody mezi savy lze popsa maicí přechodů s hodnoami pravděpodobnos: 0,4 0,3 0,3 A= {a j 0,2 0,6 0,2 }=[ 0,1 0,1 0,8] Souče řádků je jedna. Základní možné výpočy: Jaká je pravděpodobnos, že následujících osm dní bude následující průběh počasí: slunečno, slunečno, slunečno, dešivo, dešivo, slunečno, zaaženo, slunečno? - 21/25 -
Principal componens analysis (PCA, LDA) Paří do skupiny saisických klasifikáorů, využívá fakorovou analýzu da. Definuje pojmy: eigenspace, eigenvecor. Principem meody je volba nejdůležiějších proměnných popisující dosaečně dané řídy. Na základě hledání vhodných saických veličin. Příklad: X 2 X 1 Na obrázku vidíme závislos X 1 a X 2 pro dvě odlišné řídy. Pro daná X 1 a X 2 je víceméně jednoznačně parná řída, ale pro správné přiřazení je pořebná znalos obou proměnných. - 22/25 -
Správnou volbou ransformace souřadnicového sysému dokážeme získa informaci, zda daný prvek paří do é či oné řídy již z jedné proměnné nebo naopak dokážeme uchova v jedné proměnné maximum da. X 2 X 1 Dvě možnosi jak poooči souřadnicový sysém ak, aby: a) byl směrodaný pro klasifikaci b) byl uchován nejvěší rozpyl hodno Je řeba si uvědomi, že čás informace byla nenávraně zracena. V našem případě bychom pro pořeby rozdělení do říd ukládali pouze osu X 1, ale o neznamená, že osa X 2 nemá žádnou informační hodnou. Záleží na konkréním využií, zda uo informaci můžeme posráda. - 23/25 -
LDA zohledňuje pouze celkové rozložení da, využívá informaci o řídě, (do keré prvky náleží). Maximalizuje rozdíl mezi řídami a naopak minimalizuje rozdíl v rámci skupiny. Vhodné pro klasifikaci. PCA minimalizuje rozdíly mezi řídami a maximalizuje rozdíly v rámci skupiny. Vhodné např. pro kompresi da. - 24/25 -
Lieraura, použié obrázky [1] Jan J.: Poznámky ke kurzu Digiální zpracování a analýza obrazového signálu, FEKT 1999. [2] Jan J., Dub P.: Poznámky ke kurzu: Vyšší meody číslicového zpracování obrazu, FEKT 2001. [3] Šonka M., Hlaváč V.: Počíačové vidění, Compuer press 1992, ISBN 80-85424-67-3 [4] Hlaváč V., Sedláček M.: Zpracování signálů a obrazů, skripum ČVUT 2001. [4] Žára J., Beneš B., Felkel P.: Moderní počíačová grafika, Compuer press 2004, ISBN 80-251-0454-0 [5] Žára J. a kol.: Počíačová grafika - Principy a algorimy, Grada 1992, ISBN 80-85623-00-5 [6] Skala V. Svělo, barvy a barevné sysémy v počíačové grafice; Academia 1993; ISBN 80-200-0463-7 [7] Wiley InerScience: Encyclopedia of Imaging Science and Technology, hp://www3.inerscience.wiley.com [8] Wikipedia, The free encyclopedia, hp://en.wikipedia.org/wiki [9] Pavlíčková.: Poznámky ke kurzu srojové učení, FEKT 1998. [10] Hajda J., Čírek J.: Markovovy modely, Skryé Markovovy modely, FEKT 2005. [11] Krejčí P., Kučka P.: Diagonalizace a omezení dimenzí (PCA, LDA, HLDA), FEKT 2005. - 25/25 -