Klasifikace a rozpoznávání. Lineární klasifikátory

Podobné dokumenty
Klasifikace a rozpoznávání. Extrakce příznaků

SRE 03 - Statistické rozpoznávání

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Lineární klasifikátory

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

UČENÍ BEZ UČITELE. Václav Hlaváč

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Odhady Parametrů Lineární Regrese

Rosenblattův perceptron

Numerické metody a programování. Lekce 8

Numerické metody a programování. Lekce 7

Přednáška 13 Redukce dimenzionality

Klasifikace a rozpoznávání. Umělé neuronové sítě a Support Vector Machines

Kybernetika a umělá inteligence, cvičení 10/11

ANALÝZA A KLASIFIKACE DAT

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

AVDAT Klasický lineární model, metoda nejmenších

OPTIMALIZACE. (přehled metod)

Úvod do optimalizace, metody hladké optimalizace

Úloha - rozpoznávání číslic

LDA, logistická regrese

AVDAT Mnohorozměrné metody, metody klasifikace

oddělení Inteligentní Datové Analýzy (IDA)

Numerická stabilita algoritmů

Implementace Bayesova kasifikátoru

Hledání extrémů funkcí

Dnešní látka Opakování: normy vektorů a matic, podmíněnost matic Jacobiova iterační metoda Gaussova-Seidelova iterační metoda

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Preceptron přednáška ze dne

AVDAT Nelineární regresní model

Vytěžování znalostí z dat

Odhad parametrů N(µ, σ 2 )

stránkách přednášejícího.

Pokročilé metody učení neuronových sítí. Tomáš Řehořek

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Faster Gradient Descent Methods

Umělá inteligence II

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Úvod do lineární algebry

4. Aplikace matematiky v ekonomii

3. ANTAGONISTICKÉ HRY

Základní spádové metody

Vícerozměrná rozdělení

Bayesovské rozhodování - kritétium minimální střední ztráty

Statistická analýza dat

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

Lineární diskriminační funkce. Perceptronový algoritmus.

Umělé neuronové sítě

Regresní analýza 1. Regresní analýza

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Co je obsahem numerických metod?

Vlastní (charakteristická) čísla a vlastní (charakteristické) Pro zadanou čtvercovou matici A budeme řešit maticovou

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Numerické metody optimalizace - úvod

Řešení nelineárních rovnic

Kapitola 1. Logistická regrese. 1.1 Model

Numerické metody 6. května FJFI ČVUT v Praze

Budeme hledat řešení y(x) okrajové úlohy pro diferenciální rovnici druhého řádu v samoadjungovaném tvaru na intervalu a, b : 2 ) y i p i+ 1

Úvod do optimalizace Matematické metody pro ITS (11MAMY)

EUKLIDOVSKÉ PROSTORY

Čebyševovy aproximace

1.1 Existence a jednoznačnost řešení. Příklad 1.1: [M2-P1] diferenciální rovnice (DR) řádu n: speciálně nás budou zajímat rovnice typu

Trénování sítě pomocí učení s učitelem

ANTAGONISTICKE HRY 172

Definice : Definice :

Matematická analýza pro informatiky I.

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Interpolace, ortogonální polynomy, Gaussova kvadratura

Odhad stavu matematického modelu křižovatek

1 Duální simplexová metoda

Nelineární rovnice. Numerické metody 6. května FJFI ČVUT v Praze

8-9. Pravděpodobnostní rozhodování a predikce. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

ROVNICE NA ČASOVÝCH ŠKÁLÁCH A NÁHODNÉ PROCESY. Michal Friesl

STATISTICKÉ ODHADY PARAMETRŮ

Odhad parametrů N(µ, σ 2 )

Dnes budeme učit agenty, jak zlepšit svůj

4. Trojúhelníkový rozklad p. 1/20

ANALÝZA A KLASIFIKACE DAT

Aplikovaná numerická matematika - ANM

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Numerické řešení nelineárních rovnic

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Náhodné vektory a matice

Konvoluční model dynamických studií ledvin. seminář AS UTIA

Obyčejnými diferenciálními rovnicemi (ODR) budeme nazývat rovnice, ve kterých

MATEMATICKÁ STATISTIKA - XP01MST

Neuronové sítě AIL002. Iveta Mrázová 1 František Mráz 2. Neuronové sítě. 1 Katedra softwarového inženýrství. 2 Kabinet software a výuky informatiky

0.1 Úvod do lineární algebry

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Úlohy nejmenších čtverců

Fakt. Každou soustavu n lineárních ODR řádů n i lze eliminací převést ekvivalentně na jednu lineární ODR

Princip gradientních optimalizačních metod

Numerické řešení nelineárních rovnic

Algoritmy a struktury neuropočítačů ASN P3

Transkript:

Klasifikace a rozpoznávání Lineární klasifikátory

Opakování - Skalární součin x = x1 x 2 w = w T x = w 1 w 2 x 1 x 2 w1 w 2 = w 1 x 1 + w 2 x 2 x. w w T x w

Lineární klasifikátor y(x) = w T x + w 0 Vyber třídu C 1 pokud y(x) > 0 a jinak vyber třídu C 2 Zobecněný lineární klasifikátor y(x) = f(w T x + w 0 ) kde f se nazývá aktivační funkce

Lineární klasifikátor y < 0 y = 0 y > 0 x y(x) = w T x + w 0 w T x w = w 0 w + y(x) w x 2 w 0 w y(x) w. w w T x w x 1

Perceptron Jednoduchý lineární klasifikátor s aktivační funkcí: Samotná aktivační funkce v tomto případě nic nezmění rozhodování na základě y(x) > 0 by vedlo ke stejnému výsledku ale pro učící se algoritmus bude výhodné definovat si požadovaný výstup jako: Pro další zjednodušení předpokládejme, ze w 0 je nultý koeficient vektoru w a odpovídající vstup x 0 je vždy 1. Můžeme tedy psát pouze: y(x) = f(w T x)

Perceptron učící algoritmus Cyklicky procházej jednotlivé trénovací vzory a vždy když narazíš na špatně klasifikovaný vzor kde změň vektor w takto: y(x n ) 6=t n w τ+1 = w τ + x n t n Lze dokázat, že pokud jsou data lineárně separovatelná, tak, algoritmus vždy nalezne řešení konverguje. V opačném případě, ale nikdy nekonverguje

Perceptron Ale které řešení je to správné? Řešení, které poskytne učící algoritmus perceptronu záleží na inicializaci počátečním w Algoritmus konverguje v méně než (R/D) 2 krocích R D Nejvzdálenější bod od počátku SVM řešení

Opakování - MAP klasifikátor Mějme 2 třídy C 1 a C 2 Pro daný příznak x vyber třídu C s větší posteriorní pravděpodobností P(C x) Vyber C 1 pouze pokud: P (C 1 x) > P (C 2 x) P (x C 1 )P (C 1 ) P (x) > P (x C 2)P (C 2 ) P (x) ln P (x C 1 )P (C 1 ) > ln P (x C 2 )P (C 2 ) ln P (x C 1)P (C 1 ) P (x C 2 )P (C 2 ) > 0

Pravděpodobnostní generativní model Modelujme rozložení tříd gaussovskym rozložením: Pokud náš model omezíme tak, ze každá třída má svou střední μ i hodnotu, ale kovarianční matice Σ je společná pro obě třídy, tak můžeme psát: kde y(x) = ln P (x C 1)P (C 1 ) P (x C 2 )P (C 2 ) = wt x + w 0

Maximum likelihood odhad parametrů Hledáme parametry modelu {μ 1, μ 2, Σ, P (C 1 ), P (C 2 )} = arg max {μ 1,μ 2,Σ,P (C 1 ),P (C 2 )} Y p(x i μ ti, Σ)P (C ti ) kde t i je třída do které patří vzor x i a μ t je střední hodnota i této třídy Řešením jsou : střední hodnoty spočítané z dat jednotlivých tříd Kovarianční matice, která je váhovaným průměrem kovariančních matic spočtených z dat jednotlivých tříd i

V případě kdy ovšem naše data nerespektují předpoklad gaussovských rozložení a sdílené kovarianční matice. Klasifikátor může selhat fialová rozhodovací linie Lepší výsledky dostaneme s diskriminativně natrénovaným klasifikátorem, který bude vysvětlen později zelená rozhodovací linie

Snažíme se data promítnout do takového směru, kde Maximalizujeme vzdálenost mezi středními hodnotami tříd Minimalizujeme průměrnou varianci tříd Maximalizujeme tedy Opakování LDA Pro dvě třídy je w totožné s tím které jsme obdrželi pro náš generativní klasifikátor. Generativní klasifikátor ovšem zvolí i práh w 0

Generativní model a zobecněny lineární klasifikátor Nyní použijme zobecněný lineární klasifikátor y(x) = σ(w T x + w 0 ) kde stále platí, že w T x + w 0 = ln P (x C 1)P (C 1 ) P (x C 2 )P (C 2 ) a kde aktivační funkce je logistická sigmoida Potom lze hodnotu tohoto zobecněného linearního klasifikátoru přímo interpretovat jako posteriorní pravděpodobnost třídy C 1

Jiné generativní lineární klasifikátory Lineární klasifikátor dostaneme nejen pro gaussovské rozložení, ale pro celou třídu rozložení s exponencialní rodiny, které lze zapsat v následující formě: kde vektor λ k má každá třída svůj vlastní, zatím co parametr s je sdíleny všemi třídami

Nelineární mapování vstupního vektoru Nelze-li původní data lineárně oddělit, možná pomůže jejich nelineární transformace do potenciálně vysocerozměrného prostoru hlavní myšlenka kernel methods které budou vysvětleny příště V našem příkladu pomohlo i mapování dvourozměrných dat do dvou gaussovských funkcí

Lineární logistická regrese Uvažujme opět pravděpodobnostní model p(c 1 x) = y(x) = σ(w T x) kde opět pro zjednodušení x 0 je vžy 1 a nemusíme tedy explicitně zavádět w 0. Nyní ale budeme parametry w odhadovat přímo tak abychom maximalizovali pravděpodobnost, že všechna trénovací data budou rozpoznána správně p(t X) = Y Y y(x n ) (1 y(x n )) n C 1 n C 2 Kde t je vektor korektních identit tříd t i pro jednotlivé vstupní vektory x n. Pro zjednodušení zápisu předpokládejme, že t n = 1, pokud x n paří do třídy C 1 a t n = 0 pokud x n paří do třídy C 2.Potom muzeme psát p(t X) = Y n y t n n (1 y n ) 1 t n

Lineární logistická regrese odhad parametrů Lépe se nám bude pracovat s logaritmem naší objektivní funkce, což je chybová funkce známo jako vzájemná entropie Hledáme minimum této funkce, takže derivujeme abychom dostali gradient E(w) = NX (y n t n )x n n=1 Pokud najdeme parametry w pro které je gradient nulový, našli jsme optimum chybové funkce. To však není snadné nalézt analyticky. Budeme řešit nymericky, např pomocí gradient descent

Lineární logistická regrese odhad parametrů Rychlejší konvergenci dosáhneme pomocí Newton-Raphson optimalizace: Kolem stávajícího řešení w (old) aproximujeme chybovou funkci E pomoci Taylorova rozvoje druhého řádu, čímž obdržíme kvadratickou formu (vícerozměrné zobecnění kvadratické funkce). Jako nové řešení zvolíme to, kde má tato kvadratická forma minimum. kde H = X T R X je matice druhých derivací (Hessian matrix). w (new) = w (old) (X T RX) 1 X T (y t) R je diagonální matice s hodnotami na diagonále:

Problém s více třídami Klasifikace jeden proti všem Každý s každým

Lineární klasifikátor více tříd Nejlépe je mít jednu lineární funkci pro každou třídu k Vyber třídu s největším y k (x) Rozhodovací linie je opět lineární dána Kde k a j jsou dvě nejpravděpodobnější třídy pro dané x Pro dvě třídy řešení degraduje k tomu co už jsme viděli

Více tříd generativní model