LDA, logistická regrese

Podobné dokumenty
logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Přednáška 13 Redukce dimenzionality

Klasifikace a rozpoznávání. Lineární klasifikátory

Lineární klasifikátory

Kybernetika a umělá inteligence, cvičení 10/11

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Základy vytěžování dat

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

AVDAT Nelineární regresní model

Úloha - rozpoznávání číslic

ANALÝZA A KLASIFIKACE DAT

Úvod do optimalizace, metody hladké optimalizace

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Vytěžování znalostí z dat

Rosenblattův perceptron

1 Linearní prostory nad komplexními čísly

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

Odhady - Sdružené rozdělení pravděpodobnosti

Aplikovaná numerická matematika

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Státnice odborné č. 20

Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují

AVDAT Mnohorozměrné metody, metody klasifikace

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Dnešní látka Variačně formulované okrajové úlohy zúplnění prostoru funkcí. Lineární zobrazení.

Stavový model a Kalmanův filtr

ANALYTICKÁ GEOMETRIE LINEÁRNÍCH ÚTVARŮ V ROVINĚ

4. Aplikace matematiky v ekonomii

Fakt. Každou soustavu n lineárních ODR řádů n i lze eliminací převést ekvivalentně na jednu lineární ODR

Odhady Parametrů Lineární Regrese

Nejdřív spočítáme jeden příklad na variaci konstant pro lineární diferenciální rovnici 2. řádu s kostantními koeficienty. y + y = 4 sin t.

Interpolace, aproximace

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

UČENÍ BEZ UČITELE. Václav Hlaváč

verze 1.3 kde ρ(, ) je vzdálenost dvou bodů v R r. Redukovaným ε-ovým okolím nazveme ε-ové okolí bodu x 0 mimo tohoto bodu, tedy množinu

Aplikovaná statistika v R - cvičení 3

Umělé neuronové sítě

Výběrové charakteristiky a jejich rozdělení

Numerické metody a programování. Lekce 8

Pokročilé neparametrické metody. Klára Kubošová

ANALÝZA A KLASIFIKACE DAT

Odhad parametrů N(µ, σ 2 )

Dnešní látka: Literatura: Kapitoly 3 a 4 ze skript Karel Rektorys: Matematika 43, ČVUT, Praha, Text přednášky na webové stránce přednášejícího.

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Numerické metody 6. května FJFI ČVUT v Praze

1.1 Existence a jednoznačnost řešení. Příklad 1.1: [M2-P1] diferenciální rovnice (DR) řádu n: speciálně nás budou zajímat rovnice typu

Literatura: Kapitola 2 d) ze skript Karel Rektorys: Matematika 43, ČVUT, Praha, Text přednášky na webové stránce přednášejícího.

Odhad parametrů N(µ, σ 2 )

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

1 Polynomiální interpolace

pouze u některých typů rovnic a v tomto textu se jím nebudeme až na

Lineární algebra : Metrická geometrie

Trénování sítě pomocí učení s učitelem

Vytěžování znalostí z dat

V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti

3. ANTAGONISTICKÉ HRY

y = 2x2 + 10xy + 5. (a) = 7. y Úloha 2.: Určete rovnici tečné roviny a normály ke grafu funkce f = f(x, y) v bodě (a, f(a)). f(x, y) = x, a = (1, 1).

Co jsme udělali: Au = f, u D(A)

Učební texty k státní bakalářské zkoušce Matematika Diferenciální rovnice. študenti MFF 15. augusta 2008

Matematika pro geometrickou morfometrii

Kapitola 1. Logistická regrese. 1.1 Model

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

Parametrické programování

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

9. Úvod do teorie PDR

Kapitola 11: Lineární diferenciální rovnice 1/15

řešeny numericky 6 Obyčejné diferenciální rovnice řešeny numericky

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Statistická teorie učení

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity)

DERIVACE FUKNCÍ VÍCE PROMĚNNÝCH

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

[1] Motivace. p = {t u ; t R}, A(p) = {A(t u ); t R} = {t A( u ); t R}

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Lineární regrese. Komentované řešení pomocí MS Excel

2.1.4 Funkce, definiční obor funkce. π 4. Předpoklady: Pedagogická poznámka: Následující ukázky si studenti do sešitů nepřepisují.

Cvičení ze statistiky - 3. Filip Děchtěrenko

Matice. Je dána matice A R m,n, pak máme zobrazení A : R n R m.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

transformace je posunutí plus lineární transformace má svou matici vzhledem k homogenním souřadnicím [1]

Vytěžování znalostí z dat

Interpolace, ortogonální polynomy, Gaussova kvadratura

Lingebraické kapitolky - Analytická geometrie

Obyčejnými diferenciálními rovnicemi (ODR) budeme nazývat rovnice, ve kterých

7. Rozdělení pravděpodobnosti ve statistice

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava luk76/la1

Časové řady, typy trendových funkcí a odhady trendů

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Časové řady, typy trendových funkcí a odhady trendů

Diferenciál funkce dvou proměnných. Má-li funkce f = f(x, y) spojité parciální derivace v bodě a, pak lineární formu (funkci)

Regresní a korelační analýza

Jednoduchá exponenciální rovnice

19 Hilbertovy prostory

PRIMITIVNÍ FUNKCE. Primitivní funkce primitivní funkce. geometrický popis integrály 1 integrály 2 spojité funkce konstrukce prim.

Nepřímá úměrnost I

aneb jiný úhel pohledu na prvák

Diferenciální rovnice 3

Kreslení elipsy Andrej Podzimek 22. prosince 2005

Lineární diskriminační funkce. Perceptronový algoritmus.

Transkript:

Vytěžování Dat Přednáška 9 Lineární klasifikátor, rozšíření báze, LDA, logistická regrese Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti 13.12.2011 ČVUT (FEL) Self Organizing Map 13.12.2011 1 / 32

Klasifikátory Jaké znáte klasifikační algoritmy? ČVUT (FEL) Self Organizing Map 13.12.2011 2 / 32

Klasifikátory Jaké znáte klasifikační algoritmy? Naive Bayes Rozhodovací strom KNN ČVUT (FEL) Self Organizing Map 13.12.2011 2 / 32

Klasifikátory Jaké znáte klasifikační algoritmy? Naive Bayes Rozhodovací strom KNN Jak fungují? ČVUT (FEL) Self Organizing Map 13.12.2011 2 / 32

Klasifikátory Jaké znáte klasifikační algoritmy? Naive Bayes Rozhodovací strom KNN Jak fungují? Naive Bayes počítá pravděpodobnost přiřazení do třídy za podmínky dané pozorováním. Rozhodovací strom generuje posloupnost rozhodnutí. KNN hledá nejbližsí instance z trénovací množiny. ČVUT (FEL) Self Organizing Map 13.12.2011 2 / 32

Rozhodovací hranice Další možný pohled je z hlediska rozhodovací hranice. Rozhodovací hranice je místo, kde instance přestávají patřit do třídy A a začínají patřit do třídy B. Převzadto z http://openclassroom.stanford.edu/ MainFolder/DocumentPage.php?course= MachineLearning&doc=exercises/ex8/ex8.html ČVUT (FEL) Self Organizing Map 13.12.2011 3 / 32

Rozhodovací hranice (2) Co když mám následující data: Jak bude vypadat nejjednodušší rozhodovací hranice, která data oklasifikuje bez chyby? ČVUT (FEL) Self Organizing Map 13.12.2011 4 / 32

Rozhodovací hranice (2) Co když mám následující data: Jak bude vypadat nejjednodušší rozhodovací hranice, která data oklasifikuje bez chyby? Stačí přece přímka! ČVUT (FEL) Self Organizing Map 13.12.2011 4 / 32

Lineární klasifikátor Takovou přímku umíme celkem jednoduše najít a vyrobit :). Jak vypadá rovnice přímky? ČVUT (FEL) Self Organizing Map 13.12.2011 5 / 32

Lineární klasifikátor Takovou přímku umíme celkem jednoduše najít a vyrobit :). Jak vypadá rovnice přímky? y = j w j x j = wx ČVUT (FEL) Self Organizing Map 13.12.2011 5 / 32

Lineární klasifikátor Takovou přímku umíme celkem jednoduše najít a vyrobit :). Jak vypadá rovnice přímky? y = j w j x j = wx Jak zjistíme, do které třídy patří vzor x? ČVUT (FEL) Self Organizing Map 13.12.2011 5 / 32

Lineární klasifikátor Takovou přímku umíme celkem jednoduše najít a vyrobit :). Jak vypadá rovnice přímky? y = j w j x j = wx Jak zjistíme, do které třídy patří vzor x? Prostým dosazením! Pokud y > 0 vzor patří do jedné třídy, y < 0 vzor patří do druhé třídy. y = 0 je rozhodovací hranice, kde se nelze rozhodnout. Naštěstí se toto nestává často. ČVUT (FEL) Self Organizing Map 13.12.2011 5 / 32

Lineární klasifikátor Takovou přímku umíme celkem jednoduše najít a vyrobit :). Jak vypadá rovnice přímky? y = j w j x j = wx Jak zjistíme, do které třídy patří vzor x? Prostým dosazením! Pokud y > 0 vzor patří do jedné třídy, y < 0 vzor patří do druhé třídy. y = 0 je rozhodovací hranice, kde se nelze rozhodnout. Naštěstí se toto nestává často. Porovnání < 0 nebo > 0 můžeme nahradit například funkcí signum(y) která vrací +1 pro kladná čísla a 1 pro záporná. ČVUT (FEL) Self Organizing Map 13.12.2011 5 / 32

Lineární klasifikátor (2) Vidíte v rovnici nějaký problém? ČVUT (FEL) Self Organizing Map 13.12.2011 6 / 32

Lineární klasifikátor (2) Vidíte v rovnici nějaký problém? Zkusme dosadit do rovnice x 1 = x 2 = 0. Co vyjde? y = 0 bez ohledu na nastavení vah w 1, w 2. Rozhodovací hranice libovolného klasifikátoru tedy musí procházet nulou resp. vektorem (0, 0,..., 0). ČVUT (FEL) Self Organizing Map 13.12.2011 6 / 32

Lineární klasifikátor (2) Vidíte v rovnici nějaký problém? Zkusme dosadit do rovnice x 1 = x 2 = 0. Co vyjde? y = 0 bez ohledu na nastavení vah w 1, w 2. Rozhodovací hranice libovolného klasifikátoru tedy musí procházet nulou resp. vektorem (0, 0,..., 0). To je docela nepříjemné omezení rozhodovací hranice se vlastně pouze otáčí kolem nuly. Co s tím? ČVUT (FEL) Self Organizing Map 13.12.2011 6 / 32

Lineární klasifikátor (2) Vidíte v rovnici nějaký problém? Zkusme dosadit do rovnice x 1 = x 2 = 0. Co vyjde? y = 0 bez ohledu na nastavení vah w 1, w 2. Rozhodovací hranice libovolného klasifikátoru tedy musí procházet nulou resp. vektorem (0, 0,..., 0). To je docela nepříjemné omezení rozhodovací hranice se vlastně pouze otáčí kolem nuly. Co s tím? Můžeme přidat změnit rovnici přímky na j w jx j + Θ = 0. Θ je aditivní konstanta a označuje se jako práh. ČVUT (FEL) Self Organizing Map 13.12.2011 6 / 32

Lineární klasifikátor (3) Rovnice pro lineární klasifikátor se tedy mírně změní: y = j w j x j + Θ = wx + Θ Ale jinak vše zůstane stejné. Pokud tedy vyjde, že y > 0 vzor patří do jedné třídy, y < 0 vzor patří do druhé třídy. ČVUT (FEL) Self Organizing Map 13.12.2011 7 / 32

Práh Teď zbývá pouze najít vektor koeficientů (vah) (w 1, w 2,..., w n ) a prahu Θ. Nejprve se zamysleme zda práh Θ představuje nějakou anomálii, která potřebuje speciální zacházení. ČVUT (FEL) Self Organizing Map 13.12.2011 8 / 32

Práh Teď zbývá pouze najít vektor koeficientů (vah) (w 1, w 2,..., w n ) a prahu Θ. Nejprve se zamysleme zda práh Θ představuje nějakou anomálii, která potřebuje speciální zacházení. Tak napůl :). Nepotřebuje, pokud trochu upravíme vstupní data. Co kdyby všechny vzory měli jeden atribut (vstupní proměnnou, řekněme x 0 ) se stejnou hodnotou? Když pak budu počítat w 0 x 0, vyjde mi vždy stejná hodnota... to je přece náš práh! ČVUT (FEL) Self Organizing Map 13.12.2011 8 / 32

Práh Teď zbývá pouze najít vektor koeficientů (vah) (w 1, w 2,..., w n ) a prahu Θ. Nejprve se zamysleme zda práh Θ představuje nějakou anomálii, která potřebuje speciální zacházení. Tak napůl :). Nepotřebuje, pokud trochu upravíme vstupní data. Co kdyby všechny vzory měli jeden atribut (vstupní proměnnou, řekněme x 0 ) se stejnou hodnotou? Když pak budu počítat w 0 x 0, vyjde mi vždy stejná hodnota... to je přece náš práh! Takže přidám ke každému vzoru ještě jednu dimenzi, která bude mít konstantní hodnotu pro jednoduchost 1 (ale můžete mu přiřadit libovolnou nenulovou hodnotu). Pak už se o práh nemusím speciálně starat. ČVUT (FEL) Self Organizing Map 13.12.2011 8 / 32

Gradientní sestup krok stranou Gradientní sestup je iterativní optimalizační metoda. Jde o to, že máme funkci f (x) a hledáme její minimum. A jak minimum najít? Budu hledat takové x, kde má funkce f (x) nejnižší hodnotu. Mám nějaké x 0 a znám hodnotu f (x 0 ). A hledám v okolí x 0, nejaké x 1, kde bude hodnota f (x 1 ) nižší. A to budu opakovat stále dokola, až to dál nepůjde. ČVUT (FEL) Self Organizing Map 13.12.2011 9 / 32

Gradientní sestup krok stranou Gradientní sestup je iterativní optimalizační metoda. Jde o to, že máme funkci f (x) a hledáme její minimum. A jak minimum najít? Budu hledat takové x, kde má funkce f (x) nejnižší hodnotu. Mám nějaké x 0 a znám hodnotu f (x 0 ). A hledám v okolí x 0, nejaké x 1, kde bude hodnota f (x 1 ) nižší. A to budu opakovat stále dokola, až to dál nepůjde. Na horách se chci dostat do údolí. Podívám se, kterým směrem se kopec nejvíc snižuje a udělám krok tím směrem. A zase se podívám, kam je to nejvíc z kopce a udělám krok. A tak dále, až jednou zjistím, že to dál nejde, čili jsem v údolí. ČVUT (FEL) Self Organizing Map 13.12.2011 9 / 32

Gradientní sestup krok stranou (2) V matematice existuje možnost, jak zjistit směr největšího vzestupu hodnoty funkce - gradient. To je první parciální derivace podle všech dimenzí. Když půjdu přesně opačně, půjdu ve směru největšího poklesu. Gradient je vektor parciálních derivací podle jednotlivých proměnných: grad(f (x 1, x 2,..., x n )) = ( f x 1, f x 2,..., f x n ) ČVUT (FEL) Self Organizing Map 13.12.2011 10 / 32

Chybová funkce a gradientní sestup Stejně jako u jiných klasifikačních metod, hledáme nastavení klasifikátoru (zde vah) takové, aby klasifikoval správně co nejvíc vzorů. Mějme tedy chybovou funkci J(w, χ), která vrací počet špatně klasifikovaných vzorů x z množiny vzorů χ (například z testovací množiny) při daných vahách w. ČVUT (FEL) Self Organizing Map 13.12.2011 11 / 32

Chybová funkce a gradientní sestup Stejně jako u jiných klasifikačních metod, hledáme nastavení klasifikátoru (zde vah) takové, aby klasifikoval správně co nejvíc vzorů. Mějme tedy chybovou funkci J(w, χ), která vrací počet špatně klasifikovaných vzorů x z množiny vzorů χ (například z testovací množiny) při daných vahách w. Ale taková se nám nehodí neumím spočítat parciální derivace (a tudíž ani gradient). ČVUT (FEL) Self Organizing Map 13.12.2011 11 / 32

Chybová funkce a gradientní sestup Stejně jako u jiných klasifikačních metod, hledáme nastavení klasifikátoru (zde vah) takové, aby klasifikoval správně co nejvíc vzorů. Mějme tedy chybovou funkci J(w, χ), která vrací počet špatně klasifikovaných vzorů x z množiny vzorů χ (například z testovací množiny) při daných vahách w. Ale taková se nám nehodí neumím spočítat parciální derivace (a tudíž ani gradient). Zkusme jinou E(w) = x χ err( w(t)x), kde χerr jsou špatně klasifikované vzory z χ. To už je spojitá funkce. ČVUT (FEL) Self Organizing Map 13.12.2011 11 / 32

Chybová funkce a gradientní sestup Stejně jako u jiných klasifikačních metod, hledáme nastavení klasifikátoru (zde vah) takové, aby klasifikoval správně co nejvíc vzorů. Mějme tedy chybovou funkci J(w, χ), která vrací počet špatně klasifikovaných vzorů x z množiny vzorů χ (například z testovací množiny) při daných vahách w. Ale taková se nám nehodí neumím spočítat parciální derivace (a tudíž ani gradient). Zkusme jinou E(w) = x χ err( w(t)x), kde χerr jsou špatně klasifikované vzory z χ. To už je spojitá funkce. A chybovou funkci E mohu minimalizovat změnou vah pomocí gradientního sestupu. ČVUT (FEL) Self Organizing Map 13.12.2011 11 / 32

Chybová funkce a gradientní sestup Parciální derivace chybové funkce E podle jedné proměnné vypadá takto: E = x 1 χ err( w 1(t)x 1 ) w 1 w 1 Kde x 1 je první souřadnice z x a w 1 je první souřadnice z w. x 1 χ err( w 1(t)x 1 ) = w 1 x 1 χ err x 1 Z toho plyne závěr, že nejvíce chybu snížím, pokud váhu w 1 změním o součet hodnot prvních vstupních proměnných x 1 vzorů na kterých jsem udělal chybu. Analogicky i ostatní vstupní proměnné (včetně prahu). ČVUT (FEL) Self Organizing Map 13.12.2011 12 / 32

Učení lineárního klasifikátoru A přesně na této myšlence je založen Perceptronový algoritmus. (Proč zrovna perceptronový, necháme teď stranou). ČVUT (FEL) Self Organizing Map 13.12.2011 13 / 32

Učení lineárního klasifikátoru A přesně na této myšlence je založen Perceptronový algoritmus. (Proč zrovna perceptronový, necháme teď stranou). 1 Inicializuj váhy na náhodné hodnoty. 2 Vezmi náhodný vstupní vzor x. A spočítej hodnotu y(x) = sgn( j w jx j = wx). 3 Pokud se požadovaný výstup d(x) liší od skutečného y(x), oprav váhy (w) takto: e(x) = d(x) y(x) w i (t + 1) = w i (t) + ηe(x)x i 4 Pokud chceš, pokračuj bodem 2). η je koeficient učení, který s postupem času může klesat k nule. http://neuron.felk.cvut.cz/courseware/data/chapter/36nan028/s04.html ČVUT (FEL) Self Organizing Map 13.12.2011 13 / 32

Jednoznačnost výsledné přímky Jak poznám, že se perceptronový algoritmus zastavil? ČVUT (FEL) Self Organizing Map 13.12.2011 14 / 32

Jednoznačnost výsledné přímky Jak poznám, že se perceptronový algoritmus zastavil? Je výsledná přímka jediná možná? ČVUT (FEL) Self Organizing Map 13.12.2011 14 / 32

Jednoznačnost výsledné přímky Jak poznám, že se perceptronový algoritmus zastavil? Je výsledná přímka jediná možná? Ne, takových přímek je dokonce nekonečně mnoho. Přesto jsou některé lepší něž jiné. Kterou mám vybrat? A kterou nám vybere Perceptronový algoritmus? ČVUT (FEL) Self Organizing Map 13.12.2011 14 / 32

Lineárně separovatelné problémy Lze pomocí tohoto algoritmu klasifikovat bezchybně následující data? ČVUT (FEL) Self Organizing Map 13.12.2011 15 / 32

Lineárně separovatelné problémy Lze pomocí tohoto algoritmu klasifikovat bezchybně následující data? Ne! Třídám (datům), které lze oddělit přímkou říkáme lineárně separovatelná. ČVUT (FEL) Self Organizing Map 13.12.2011 15 / 32

Lineárně ne separovatelné problémy Lze pomocí lineárního klasifikátoru vyřešit lineárně ne-separovatelné problémy? ČVUT (FEL) Self Organizing Map 13.12.2011 16 / 32

Lineárně ne separovatelné problémy Lze pomocí lineárního klasifikátoru vyřešit lineárně ne-separovatelné problémy? Ne. K tomu potřebuji přidat další kvalitu. ČVUT (FEL) Self Organizing Map 13.12.2011 16 / 32

Lineárně ne separovatelné problémy Lze pomocí lineárního klasifikátoru vyřešit lineárně ne-separovatelné problémy? Ne. K tomu potřebuji přidat další kvalitu. 1 Jednou z možností je zkombinovat lin. klasifikátory. (O tom bude příští přednáška.) ČVUT (FEL) Self Organizing Map 13.12.2011 16 / 32

Lineárně ne separovatelné problémy Lze pomocí lineárního klasifikátoru vyřešit lineárně ne-separovatelné problémy? Ne. K tomu potřebuji přidat další kvalitu. 1 Jednou z možností je zkombinovat lin. klasifikátory. (O tom bude příští přednáška.) 2 Rozšíření báze. ČVUT (FEL) Self Organizing Map 13.12.2011 16 / 32

Rozšíření báze Když data nejsou separabilní v originálním prostoru, zkusme jestli by nebyla lineárně separovatelná ve více-dimenzionálním prostoru. ČVUT (FEL) Self Organizing Map 13.12.2011 17 / 32

Transformace Zase existuje mnoho transformací. Jedna z těch jednodušších přidává ke stávajícím dimenzím také součiny originálních dimenzí. Je charakterizovaná parametrem s maximálním stupněm součinu. ČVUT (FEL) Self Organizing Map 13.12.2011 18 / 32

Transformace Zase existuje mnoho transformací. Jedna z těch jednodušších přidává ke stávajícím dimenzím také součiny originálních dimenzí. Je charakterizovaná parametrem s maximálním stupněm součinu. Pro s = 2 z původních dimenzí (x 1, x 2 ) získám 5D prostor dimenzí (x 1, x 2, χ 1, χ 2, χ 3 ), kde χ 1 = x 2 1 χ2 = x 1 x 2 χ3 = x 2 2 ČVUT (FEL) Self Organizing Map 13.12.2011 18 / 32

Učení nelineárního klasifikátoru Když mám teď nové dimenze, jak naučím můj klasifikátor? ČVUT (FEL) Self Organizing Map 13.12.2011 19 / 32

Učení nelineárního klasifikátoru Když mám teď nové dimenze, jak naučím můj klasifikátor? Díky rozšíření báze teď mám více-dimenzionální prostor a (třeba) teď dokáži třídy lineárně separovat. Úplně stejně jako v předchozím případě. Tj použiji například perceptronový algoritmus. ČVUT (FEL) Self Organizing Map 13.12.2011 19 / 32

Učení nelineárního klasifikátoru Když mám teď nové dimenze, jak naučím můj klasifikátor? Díky rozšíření báze teď mám více-dimenzionální prostor a (třeba) teď dokáži třídy lineárně separovat. Úplně stejně jako v předchozím případě. Tj použiji například perceptronový algoritmus. Pokud se mi nepodaří získat lineární separaci, mohu zkusit zvýšit maximální stupeň součinu a zkusit separaci znovu. ČVUT (FEL) Self Organizing Map 13.12.2011 19 / 32

Rozhodovací hranice Jak pak bude vypadat projekce rozhodovací hranice zpět do originálních dimenzí? Tím se nám podařilo dosáhnout toho, že se rozhodovací hranice ohnula. A pokud budu zvyšovat parametr s, bude hranice stále poddajnější. ČVUT (FEL) Self Organizing Map 13.12.2011 20 / 32

Rozhodovací hranice (2) Můžu zvyšovat maximální stupeň součinu (parametr s) do nekonečna? Nebo někde narazím? ČVUT (FEL) Self Organizing Map 13.12.2011 21 / 32

Rozhodovací hranice (2) Můžu zvyšovat maximální stupeň součinu (parametr s) do nekonečna? Nebo někde narazím? S vyšším maximálním stupněm s vyvstávají dva problémy: 1 Jednak mám více vah, které musím nastavovat a perceptronový (nebo jakýkoliv jiný) algoritmus to nemusí zvládnout čili váhy se nastaví špatně. 2 Zvyšuji pravděpodobnost, že se klasifikátor přeučí. Tj. naučí se šum a chyby v trénovacích datech a nedokáže vlastnosti trénovacích dat zobecnit. (Podobně jako například 1-NN klasifikátor.) ČVUT (FEL) Self Organizing Map 13.12.2011 21 / 32

Klasifikace do několika tříd Co když mám více než dvě třídy? Mohu použít (ne-)lineární separaci? Případně jak? ČVUT (FEL) Self Organizing Map 13.12.2011 22 / 32

Klasifikace do několika tříd Co když mám více než dvě třídy? Mohu použít (ne-)lineární separaci? Případně jak? Budu rozhodovat o každé třídě samostatně. Čili pro problém s N třídami budu mít N klasifikátorů. Každý bude říkat Instance patří do mé třídy / Instance nepatří do mé třídy. ČVUT (FEL) Self Organizing Map 13.12.2011 22 / 32

Klasifikace do několika tříd Co když mám více než dvě třídy? Mohu použít (ne-)lineární separaci? Případně jak? Budu rozhodovat o každé třídě samostatně. Čili pro problém s N třídami budu mít N klasifikátorů. Každý bude říkat Instance patří do mé třídy / Instance nepatří do mé třídy. Při rozhodování o neznámé instanci x se zeptám všech N klasifikátorů na jejich rozhodnutí. 1 x patří právě do jedné třídy. 2 x patří do více tříd pak se musím rozhodnout například podle hodnoty xw (čím je větší, tím je x dále od rozhodovací hranice). 3 analogoicky, pokud x nepatří do žádné třídy. Hledám tedy trídu, kam x nepatří nejméně :). ČVUT (FEL) Self Organizing Map 13.12.2011 22 / 32

Problémy lineárních klasifikátorů Linearita Pokud se dostatečně pohnu i jen v jedné proměnné, můžu získat obrácený výsledek. Hodnota xw roste se vzdáleností od rozhodovací hranice a nemá žádnou interpretaci. Lineární klasifikátory špatně snášejí chybějící hodnoty. Pokud provádím rozšíření báze, může trvat učení velmi dlouho. ČVUT (FEL) Self Organizing Map 13.12.2011 23 / 32

Linear Discriminant Analysis LDA je statistický přístup k problému lineární separace. Pamatujete si PCA? (Principal Component Analisis mluvili jsme o něm u SOM) ČVUT (FEL) Self Organizing Map 13.12.2011 24 / 32

Linear Discriminant Analysis LDA je statistický přístup k problému lineární separace. Pamatujete si PCA? (Principal Component Analisis mluvili jsme o něm u SOM) LDA redukuje původní prostor na přímku (1 dimenzi) a to tak, co nejvíce oddělil vzory různých tříd. V jistém smyslu je to opak rozšíření báze. ČVUT (FEL) Self Organizing Map 13.12.2011 24 / 32

Linear Discriminant Analysis (2) Obraz vzoru v nové souřadnici pak získám jako xw, kde w jsou váhy. V principu počítám to samé jako u lineárního klasifikátoru, ale interpretace a postup jsou úplně jiné. ČVUT (FEL) Self Organizing Map 13.12.2011 25 / 32

Linear Discriminant Analysis (3) Při počítání LDA se snažím maximalizovat separaci mezi třídami. Nejprve pro každou třídu musím spočítat rozptyl v obraze (scatter). µ s1 = 1 s 1 x i s 1 x i y i = x i w µ s1 = 1 s 1 s 1 2 = y i = 1 s 1 x i s 1 µ s1 x 1 s 1 y i x i s 1 x i w ČVUT (FEL) Self Organizing Map 13.12.2011 26 / 32

Linear Discriminant Analysis (4) A nyní můžu spočítat míru separace pro projekci danou vahami w. J(w) = µ s 1 µ s2 2 s 2 2 1 + s 2 Hledáme tedy projekci, která co nejvíc seskupí vzory stejné třídy a co nejvíc zároveň oddělí vzory různých tříd. ČVUT (FEL) Self Organizing Map 13.12.2011 27 / 32

LDA pro více tříd LDA lze zobecnit tak, aby dokázalo klasifikovat do více tříd. Pak se nevytváří pouze jedna nová dimenze, ale počet tříd -1 nových dimenzí a mírně se upraví vzorečky :). ČVUT (FEL) Self Organizing Map 13.12.2011 28 / 32

Problémy LDA Stejně jako všechno, má i LDA nějaké mouchy: Počet dimenzí vytvořený LDA nemusí stačit ke správném zařazení do třídy. LDA předpokládá normální rozložení dat ve třídách. A selhává, pokud tomu tak není. (Například třídy mají komplexní tvary). Rozíly mezi třídami jsou spíše v rozptylu hodnot než v rozdílu středních hodnot. ČVUT (FEL) Self Organizing Map 13.12.2011 29 / 32

Logistická regrese Co kdybych chtěl, abych dokázal vzdálenosti od rozhodovací hranice nějak interpretovat. Ideálně ještě tak, že je to pravděpodobnost příslušnosti k dané třídě. ČVUT (FEL) Self Organizing Map 13.12.2011 30 / 32

Logistická regrese Co kdybych chtěl, abych dokázal vzdálenosti od rozhodovací hranice nějak interpretovat. Ideálně ještě tak, že je to pravděpodobnost příslušnosti k dané třídě. Existuje logistická funkce, která je definovaná takto f (z) = 1 1+e z Její hodnoty jsou omezené na interval 0... 1. A navíc kolem z = 0 (rozhodovací hranice) je její změna největší. ČVUT (FEL) Self Organizing Map 13.12.2011 30 / 32

Logistická regrese (2) Zkusíme zavést pojem sance = p 1 p ČVUT (FEL) Self Organizing Map 13.12.2011 31 / 32

Logistická regrese (2) Zkusíme zavést pojem sance = p 1 p Abychom ji dostali do rozmezí 0... 1 zkusme ji zlogaritmovat. Tím získáme funkci logit(p) = log(sance(p)) = log( p 1 p ) ČVUT (FEL) Self Organizing Map 13.12.2011 31 / 32

Logistická regrese (2) Zkusíme zavést pojem sance = p 1 p Abychom ji dostali do rozmezí 0... 1 zkusme ji zlogaritmovat. Tím získáme funkci logit(p) = log(sance(p)) = log( p 1 p ) Zkusme předpokládat, že logit(p) = β 0 + β 1 x 1 + β 2 x 2 +... + β k x k Kde β 1,..., β k jsou regresní koeficienty a β 0 je posun. ČVUT (FEL) Self Organizing Map 13.12.2011 31 / 32

Logistická regrese (2) Zkusíme zavést pojem sance = p 1 p Abychom ji dostali do rozmezí 0... 1 zkusme ji zlogaritmovat. Tím získáme funkci logit(p) = log(sance(p)) = log( p 1 p ) Zkusme předpokládat, že logit(p) = β 0 + β 1 x 1 + β 2 x 2 +... + β k x k Kde β 1,..., β k jsou regresní koeficienty a β 0 je posun. A teď zkusme opět dopočítat pravděpodobnost vzoru x. p(x) = 1 1+e β 0 +β 1 x 1 +β 2 x 2 +...+β k x k ČVUT (FEL) Self Organizing Map 13.12.2011 31 / 32

Zdroje LDA převzata z research.cs.tamu.edu/prism/lectures/ pr/pr_l10.pdf http://www.omidrouhani.com/research/ logisticregression/html/logisticregression.htm ČVUT (FEL) Self Organizing Map 13.12.2011 32 / 32