Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání obrazů číslic. Ukáže, že hlubší teorie má skutečný smysl, protože navrhnout algoritmus, který funguje lépe než jednoduchý, na který lze do jisté míry přijít selským rozumem. Zadání Úkolem je navrhnout klasifikátor jehož vstupem jsou šedotónové obrázky 3 3 a výstupem čísla,,..., 9. K dispozici je trénovací množina, která obsahuje příklady vstupních obrázků a jejich správnou klasifikaci. Navržený klasifikátor má minimalizovat pravděpodobnost chybné klasifikace. Chyba klasifikátoru bude ověřena na testovacích datech, která nejsou při návrhu klasifikátoru k dispozici. Druhým důležitým kritériem je efektivita klasifikátor, tedy rychlost klasifikace a velikost reprezentace tříd. 2 Teoretická část Značení: Každý vstupní obrázek je reprezentován sloupcovým vektorem x R n jehož složky obsahují jasové hodnoty pixelů. Dimenze vektoru x je rovna počtu pixelů ve vstupním obrázku, tj. n = 3 3 = 69. Výstup klasifikátoru (neboli třída obrázku) bude značena proměnnou y, která nabývá hodnot z konečné množiny Y = {,,..., 9}. Klasifikátor můžeme vidět jako zobrazení f: R n Y. K dispozici je trénovací množina {(x, y ),..., (x m, y m )}, která obsahuje m vzorů vstupních obrázků x i a jejich správnou klasifikací y i.

2 3 4 5 6 7 8 9 Obrázek : Obrazy číslic o rozměru 3 3 pixelů. Zvětšeno pro lepší viditelnost. Pod obrazy jejich vektorová reprezentace, to jsou x..5 nearest neighbour classifier.6 nearest neighbour classifier.4.2.5.8.6.4.5.2.5.5.2.5.5.5 Obrázek 2: Příklady klasifikace podle nejbližšího souseda. 2

2. Klasifikátor podle nejbližšího souseda Klasifikátor podle nejbližšího souseda klasifikuje vstupní obrázek x do stejné třídy f(x) jakou má nejbližší vzor z trénovací množiny, tj. f(x) = y j kde j = argmin x x i, () i {,...,m} Výhodou klasifikátoru () je jeho jednoduchost a relativně nízká chyba klasifikace. Velkou nevýhodou je paměťová náročnost (pamatuje si celou trénovací množinu) a dlouhá doba klasifikace úměrná počtu trénovacích vzorů a dimenzi obrázků. 2.2 Reprezentace tříd pomocí etalonu Klasifikátor () lze urychlit pokud každou třídu y Y reprezentujeme pouze jedním vektorem, tzv. etalonem µ y R n. Celý klasifikátor je tedy určen množinou Y etalonů {µ y R n y Y}. Vstupní obrázek x se pak klasifikuje do třídy f(x) podle toho, ke kterému etalonu je nejblíže, tj. f(x) = argmin x µ y. (2) Nejednodušší způsob, jak určit etalony, je spočítat průměrné hodnoty vstupních vzorů v jednotlivých třídách, tj. µ y = x i, y Y, (3) I y i I y kde I y = {i i {,..., m} y j = y} značí množinu indexů trénovacích vzorů patřících do třídy y. Uvedený způsob výpočtu etalonů zajišťuje, že etalony reprezentují trénovací vzory s nejmenší sumou kvadratických odchylek, t.j. že platí µ y = argmin x i µ 2, y Y. µ R n i I y Klasifikátor (2) používající etalony určené podle (3) je rychlý, ale má vysokou chybu klasifikace, protože použitá reprezentace tříd (resp. předpokládaný statistický model) nepopisuje trénovací data s dostatečnou přesností. 2.3 Učení klasifikátoru pomocí perceptronu Lineární klasifikátor reprezentuje každou třídu y Y pomocí diskriminační funkce f y (x) = x T w y + b y, která je lineární vzhledem k parametrům w y R n a b y R. 3

.5 minimum distance from etalons.5.5.5.5 Obrázek 3: Klasifikace minimální vzdálenosti od etalonů. Povšimněte si, že klasifikátor klasifikuje některé příznaky (vektory) chybně. A to přesto, že data jsou lineárně separabilní. Srovnejte se klasifikací pomocí perceptronu, viz Obrázek 4. Vstupní obrázek x je klasifikován do třídy, jejíž diskriminační funkce je maximální, tj. ) f(x) = argmax f y (x) = argmax (x T w y + b y. (4) Vidime, že každý klasifikátor (2) lze ekvivalentně vyjádřit ve tvaru (4) následujícím způsobem f(x) = argmin x µ y 2 = argmin = argmax = argmax ( x 2 2x T µ y + µ y 2 ) (2x T µ y µ y 2 ) (x T w y + b y ) z čehož vyplývá, že parametry lineárního klasifikátoru můžeme získat z etalonů w y = 2µ y a b y = µ y 2. Dále si ukážeme jiný způsob výpočtu parametrů klasifikátoru, který v mnoha praktických případech funguje lépe než metoda používající etalony. Cílem bude vybrat 4

.5.5.5 perceptron.8.6.4.2.2.4.6.5.5.8.5.5 Obrázek 4: Vlevo: Lineárně separabilní data, bezchybná klasifikace pomocí perceptronu. Srovnej s chybnou klasifikací pomocí etalonů na stejných datech, viz Obrázek 3. Vpravo: Lineárně neseparabilní data. parametry lineárního klasifikátoru (4) tak, aby trénovací chyba E trn (f) = m m [[y i f(x i )]] i= byla minimální. V definici trénovací chyby jsme použili výraz [[y i f(x i )]], který je roven, pokud platí y i f(x i ) a v opačném případě je roven. To znamená, že trénovací chyba E trn (f) je rovena poměru počtu chybně klasifikovaných vzorů z trénovací množiny ku počtu všech vzorů v trénovací množině. Budeme předpokládat, že existují takové parametry lineárního klasifikátoru při nichž je trénovací chyba nulová. V tomto případě se trénovací množina označuje jako lineárně separabilní. Poznamenejme však, že tento předpoklad nemusí být v praxi vždy splněn a pokud tato situace nastane, je nutné použít jiných (složitějších) přístupů. Máme-li k dispozici lineárně separabilní data, lze nalézt lineární klasifikátor s nulovou chybou. To znamená, že je úloha minimalizace trénovací chyby shodná s úlohou hledání takových parametrů, při nichž je každý vzor z trénovací množiny klasifikován správně, tj. platí [[y i f(x i )]] =, i {,..., m}, 5

a to nastane právě tehdy když y i = argmax ) f y (x i ) = argmax ((x i ) T w y + b y, i {,..., m}. (5) Dostali jsme tedy soustavu vztahů, z nichž chceme vyřešit neznámé parametry, {(w y, b y ) R n+ y Y}. Dále převedeme řešení (5) na ekvivalentní problém řešení soustavy lineárních nerovnic, pro nějž existují metody výpočtu. Uvažujme rovnici y i = argmax f y (x i ) pro libovolný vzor i {,..., m}. Tato rovnice je splněna právě tehdy, když je hodnota diskriminační funkce f y i(x i ) pro správné y i větší než hodnoty diskriminační funkce f y (x i ) pro všechny ostatní y Y \ y i, tj. když platí (x i ) T w y i + b y i > (x i ) T w y + b y pro všechny y Y \y i. Pokud posledně uvedené nerovnice zapíšeme pro všechny trénovací vzory, dostaneme soustavu lineárních nerovnic (x i ) T w y i + b y i > (x i ) T w y + b y, i {,..., m}, y Y \ y i. (6) Nalezneme-li řešení soustavy (6) máme současně vyřešen i původní problém (5), tj. získali jsme parametry lineárního klasifikátoru s nulovou trénovací chybou. Soustava (6) obsahuje M = m ( Y ) lineárních nerovnic jejichž řešení lze nalézt efektivně pomocí perceptronového algoritmu. Pro zjednoduseni dalsiho vykladu zapiseme soustavu (6) v jednodussim, ale zcela ekvivalentnim tvaru (z i,y ) T w >, i {,..., m}, y Y \ y i. (7) Vektor w R Y (n+) obsahuje vsechny hledane parametry {(w y, b y ) R n+ y Y} usporadane zasebou, tj. w = [w ; b ; w 2 ; b 2 ;... ; w Y ; b Y ]. Souradnice vektoru w tvori Y skupin po n + souradnicich. Necht jsou souradnice vektoru z i,y R Y (n+) rozdeleny do skupin stejnym zpusobem. Potom vektor z i,y konstruujeme tak, ze y i -ta skupina souradnic obsahuje vektor [x i ; ], y-ta skupina vektor [ x i ; ] a zbyle souradnice jsou nulove. Perceptronový algoritmus pro řešení soustavy (7) má následující tvar: Algorithm : Perceptronový algoritmus. Nastav w :=. 6

2. Mezi vstupními vektory {z,..., z M } nalezni libovolný vektor z t, který splňuje (z t ) T w. Pokud takový vektor neexistuje skonči, neb w je řešením soustavy (7). 3. Použij vektor z t k adaptaci řešení w tak, že w := w + z t. Pokračuj krokem 2. Novikoffova věta: Za předpokladu, že data v trénovací množině jsou lineárně separabilní, tj. soustava (6) respektive (7) má řešení, skončí perceptronový algoritmus v konečném počtu kroků. Důkaz zabírající jen jednu stránku lze nalézt v []. Pokud se vrátíme k původní reprezentaci dat, tj. budeme řešit soustavu (6), lze perceptronový algoritmus zapsat ve tvaru: Algorithm 2: Perceptronový algoritmus. Nastav w y := a b y = pro všechny y Y. 2. Mezi trénovacími vzory {(x, y ),..., (x m, y m )} najdi libovolný špatně klasifikovaný vzor, tj. nalezni (x t, y t ) tak, že ) y t ŷ, kde ŷ = argmax ((x t ) T w y + b y. Pokud takový vzor neexistuje skonči neb parametry {(w y, b y ) R n+ y Y} určují klasifikátor s nulovou trénovací chybou. 3. Nechť (x t, y t ) je špatně klasifikovaný vzor a ŷ je klasifikace x t pomocí aktuálního klasifikátoru. Adaptuj parametry klasifikátoru tak, že Pokračuj krokem 2. w y t := w y t + x t, b y t := b y t +, wŷ := wŷ x t, bŷ := bŷ. Reference [] Michail I. Schlesinger and Václav Hlaváč. Deset přednášek z teorie statistického a strukturního rozpoznávání. ČVUT, Prague, Czech Republic, 999. 7

Obrázek 5: Příklad automatické lokalizace textu v obrazech. Více informací na http: //cmp.felk.cvut.cz/~zimmerk/lpd/index.html 8

Obrázek 6: Příklad komerční aplikace na rozpoznávání registračních značek ve videu. Demostrační videa lze nalézt na adrese http://cmp.felk.cvut.cz/cmp/courses/ X33KUI/Videos/RP_recognition/ 9