SUPPORT VECTOR MACHINES



Podobné dokumenty
3. Ve zbylé množině hledat prvky, které ve srovnání nikdy nejsou napravo (nevedou do nich šipky). Dát do třetí

(a) = (a) = 0. x (a) > 0 a 2 ( pak funkce má v bodě a ostré lokální maximum, resp. ostré lokální minimum. Pokud je. x 2 (a) 2 y (a) f.

Umělá inteligence. Příklady využití umělé inteligence : I. konstrukce adaptivních systémů pro řízení technologických procesů

Nerovnice s absolutní hodnotou

Řešení: ( x = (1 + 2t, 2 5t, 2 + 3t, t); X = [1, 2, 2, 0] + t(2, 5, 3, 1), přímka v E 4 ; (1, 2, 2, 0), 0, 9 )

Kvadratické rovnice pro učební obory

{ } Kombinace II. Předpoklady: =. Vypiš všechny dvoučlenné kombinace sestavené z těchto pěti prvků. Urči počet kombinací pomocí vzorce.

Základy. analýzy hlavních komponent a multivariačních regresních metod pro spektrální analýzu

2.7.2 Mocninné funkce se záporným celým mocnitelem

2.8.9 Parametrické rovnice a nerovnice s absolutní hodnotou

Tvorba trendové funkce a extrapolace pro roční časové řady

M - Rovnice - lineární a s absolutní hodnotou

ALGEBRA LINEÁRNÍ, KVADRATICKÉ ROVNICE

Kvadratické rovnice pro studijní obory

STEREOMETRIE. Vzdálenost bodu od přímky. Mgr. Jakub Němec. VY_32_INOVACE_M3r0113

Praktikum II Elektřina a magnetismus

VOLBA TYPU REGULÁTORU PRO BĚŽNÉ REGULAČNÍ SMYČKY

Vztah mezi dvěma čísly, které se rovnají, se nazývá rovnost, jako například : ( 2) 3 = 8 4 = 2 ; 16 = 4 ; 1 = 1 a podobně. 2

( ) Kreslení grafů funkcí metodou dělení definičního oboru I. Předpoklady: 2401, 2208

Funkce rostoucí, funkce klesající I

Lineární algebra. Vektorové prostory

Microsoft Office. Word styly

1 Typografie. 1.1 Rozpal verzálek. Typografie je organizace písma v ploše.

Aplikované úlohy Solid Edge. SPŠSE a VOŠ Liberec. Ing. Aleš Najman [ÚLOHA 18 TVORBA PLOCH]

DUM 11 téma: Nástroje pro transformaci obrázku

2.7.1 Mocninné funkce s přirozeným mocnitelem

Číselné soustavy Ing. M. Kotlíková, Ing. A. Netrvalová Strana 1 (celkem 7) Číselné soustavy

Lineární klasifikátory

( ) ( ) ( ) 2 ( ) Rovnice s neznámou pod odmocninou II. Předpoklady: 2715

IMPORT A EXPORT MODULŮ V PROSTŘEDÍ MOODLE

Název: VY_32_INOVACE_PG3309 Booleovské objekty ve 3DS Max - sčítání a odčítání objektů

3.2.4 Podobnost trojúhelníků II

1.1.1 Kvadratické rovnice (dosazení do vzorce) I

Zvyšování kvality výuky technických oborů

Dopravní úloha. Jiří Neubauer. Katedra ekonometrie FEM UO Brno

Matematická analýza III.

Definice z = f(x,y) vázané podmínkou g(x,y) = 0 jsou z geometrického hlediska lokálními extrémy prostorové křivky k, Obr Obr. 6.2.

JAK PŘIDAT UŽIVATELE PRO ADMINISTRÁTORY

PRAKTIKUM II Elektřina a magnetismus

1.3.1 Kruhový pohyb. Předpoklady: 1105

EXPONENCIÁLNÍ A LOGARITMICKÁ FUNKCE

KONSTRUKČNÍ ÚLOHY ŘEŠENÉ UŽITÍM MNOŽIN BODŮ

Kvantové počítače algoritmy (RSA a faktorizace čísla)

Soustavy lineárních rovnic

Dualita v úlohách LP Ekonomická interpretace duální úlohy. Jiří Neubauer. Katedra ekonometrie FEM UO Brno

INŽENÝRSKÁ MATEMATIKA LOKÁLNÍ EXTRÉMY

Nyní jste jedním z oněch kouzelníků CÍL: Cílem hry je zničit soupeřovy HERNÍ KOMPONENTY:

Lokální a globální extrémy funkcí jedné reálné proměnné

DUM téma: KALK Výrobek sestavy

Matematika a její aplikace. Matematika a její aplikace

Postup práce s elektronickým podpisem

E-ZAK. metody hodnocení nabídek. verze dokumentu: QCM, s.r.o.

4.2.7 Voltampérová charakteristika rezistoru a žárovky

Kapitola I - Množiny bodů daných vlastností I.a Co je množinou všech bodů v rovině, které mají od daných dvou různých bodů stejnou vzdálenost? I.

9.2.5 Sčítání pravděpodobností I

Diagnostické programy

Poznámky k verzi. Scania Diagnos & Programmer 3, verze 2.27

4. Výčtem prvků f: {[2,0],[3,1],[4,2],[5,3]}

Rozvrhování zaměstnanců

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

MONOTÓNNOST FUNKCE. Nechť je funkce f spojitá v intervalu I a nechť v každém vnitřním bodě tohoto intervalu existuje derivace f ( x)

Pingpongový míček. Petr Školník, Michal Menkina. TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií

PNG (Portable Network Graphics)

Optimalizace řezných podmínek I. (konvenční optimalizace)

Vedoucí bakalářské práce

DS SolidWorks PDM Workgroup

Zvyšování kvality výuky technických oborů


Aritmetika s didaktikou I.

když n < 100, n N, pak r(n) = n,

Zákonitosti, vztahy a práce s daty

2.6.4 Lineární lomené funkce s absolutní hodnotou

Abstrakt. Následující text obsahuje detailní popis algoritmu Minimax, který se používá při realizaci rozhodování

IRACIONÁLNÍ ROVNICE. x /() 2 (umocnění obou stran rovnice na druhou) 2x 4 9 /(-4) (ekvivalentní úpravy) Motivace: Teorie: Řešené úlohy:

Google AdWords - návod

UŽITÍ DERIVACÍ, PRŮBĚH FUNKCE

Metodika pro učitele

Základy počítačové grafiky

Rostislav Horčík. 13. října 2006

/ /

Úpravy skříní a čelních ploch pro úchopovou lištou

Triangulace pomocí kruhových oblouků a metoda konečných prvků

Teorie grafů. Bedřich Košata

Zvyšování IT gramotnosti zaměstnanců vybraných fakult MU MS POWERPOINT 2010

Výsledky testování školy. Druhá celoplošná generální zkouška ověřování výsledků žáků na úrovni 5. a 9. ročníků základní školy. Školní rok 2012/2013

Semestrální práce NÁVRH ÚZKOPÁSMOVÉHO ZESILOVAČE. Daniel Tureček zadání číslo 18 cvičení: sudý týden 14:30

15 s. Analytická geometrie lineárních útvarů

Tvorba a využití výukových animací pro praktikum z genetiky

Asymptoty grafu funkce

Kapitola 7: Integrál. 1/14

Systém zvukové signalizace a spouštění motoru na základě stavu světla

Definice 6.1 Sled (z vrcholu u do vrcholu v) v grafu G je libovolná posloupnost

příjmy firmy - suma peněžních prostředků získaných z prodeje její produkce (příjmy = tržby)

Domácí úkol DU01_2p MAT 4AE, 4AC, 4AI

2.1. Pojem funkce a její vlastnosti. Reálná funkce f jedné reálné proměnné x je taková

PŘÍLOHA č. 2B PŘÍRUČKA IS KP14+ PRO OPTP - ŽÁDOST O ZMĚNU

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

MS WORD 2007 Styly a automatické vytvoření obsahu

INTEGROVANÉ DOPRAVNÍ SYSTÉMY

Uplatnění nových informačních technologií ve výuce a na zdravotnickém pracovišti. Marie Marková

Transkript:

SUPPORT VECTOR MACHINES (SVM Algoritmy nosných vektorů) Stručný úvod do efektivní metody lineární klasifikace Jan Žižka Ústav informatiky PEF, Mendelova universita v Brně

Lineární oddělování tříd, výhody a problémy Oddělovací nadrovina, parametry Hledání nadrovin z trénovacích příkladů Stanovení optimální nadroviny (generalizace) Hraniční pásmo, nosné (supporting) vektory Převod do vyšších dimenzí, metoda SVM Trénování parametrů SVM, XOR příklad

Algoritmy, které induktivně (z trénovacích příkladů) hledají oddělovací hranice tříd, umí nastavovat parametry pro převážně lineární funkce, například klasický lineární perceptron. Algoritmy, které umí najít nelineární oddělovací funkce, se obecně učí obtížně a hrozí jim uvíznutí v lokálním extrému, daleko od optima. Typickým příkladem jsou sítě ze sigmoidálních perceptronů.

Hledání nelineární funkce může být také neproveditelné kvůli vysoké výpočetní náročnosti dané mnoha umělými dimenzemi (váhami propojení sigmoidálních neuronů). Existují však i metody, které využívají výhody efektivních lineárních metod a zároveň jsou schopny representovat vysoce složité nelinerní funkce: jádrové algoritmy (kernel machines).

Lineární diskriminační funkce a rozhodovací nadroviny: Nechť w = [w 1, w 2,..., w l ] T je l-dimensionální váhový vektor a w 0 tzv. práh. Odpovídající rozhodovací nadrovina je pak dána vztahem: g x =w T x w 0 =0 Na jedné straně nadroviny je g(x) > 0, na opačné zase g(x) < 0 rozlišení tříd. 1

Cílem je zjistit neznámé parametry vektoru w. Pro lineárně oddělitelné třídy lze najít optimum vzhledem k chybové funkci, i když výpočetní složitost (pro vysoká l) tomu může zabránit. Obvyklý postup je iterativní minimalizace chybové funkce gradientním sestupem. Při lineární neoddělitelnosti lze hledat vhodný lineární oddělovač např. pomocí metody nejmenších čtverců (MNČ).

SVM algoritmy: jsou motivovány stejně jako příbuzné algoritmy pro hledání lineární oddělovací hranice, ale spoléhají na specifické předzpracování, representují známé i neznámé případy v novém prostoru, který má typicky mnohem více dimenzí než prostor původní; vhodné nelineární mapování φ(.) do dostatečně mnoha dimenzí umožní oddělení nadrovinou.

Lineární oddělení dvou tříd, které obsahují jednorozměrné vektory, je vždy s chybou:

Lineární oddělení těchto tříd je možné po transformaci do prostoru s více rozměry:

Nosné (supporting) vektory jsou definovány jako ty trénovací vektory, které (po případné transformaci do vyšší dimenze) mají od oddělovací nadroviny stejnou vzdálenost. Nosné vektory tedy definují optimální (nejlépe generalizující) oddělovací nadrovinu a zároveň představují nejobtížněji klasifikovatelné vzory, protože leží nejblíž u hranice. Mají nejvyšší informační hodnotu pro klasifikační úlohu.

Princip trénování SVM je velmi jednoduchý: vyhledá se momentálně nejhůře klasifikovaný vzor (ten, který je na nesprávné straně nadroviny a je od ní vzdálen nejvíce); aktualizují se parametry nadroviny tak, aby byl vzor na správné straně; vzor pak tvoří jeden z nosných vektorů. Je to odlišné od perceptronu, kde lze vybrat náhodně libovolný chybně klasifikovaný vzor.

V praxi je ale takový postup příliš výpočetně náročný, protože pro každou aktualizaci je nutné projít celou množinu vzorů, aby byl nalezen ten s nejhorší klasifikací. Volba transformační funkce φ(.) je dána buď nějakou znalostí o problematice, nebo je nutné vyzkoušet polynom určitého stupně, radiální bázovou funkci ( zvonovitá ), resp. jinou bázovou funkci. Dimenze může být libovolně vysoká (ale omezená výpočetní složitostí).

Hledá se tedy optimální oddělovací nadrovina. Nadrovina je parametricky určena vektorem w: g x =w T x w 0 =0 1 (x jsou trénovací vektory příklady). Jak maximalizovat hraniční pásmo tak, aby to bylo výpočetně únosné?

w x w 0 = 1 x = x w w x w w 0 = 1 w x w 0 w w = 1 1 w w = 1 =2/ w w 2 3 4 5 6 7 Nyní již lze vypočítat šířku pásma m:

m = x x = w = w = w w = = 2 w w w w = 2 w w Postup pro nějaké w a w 0 je tedy následující: 8 zajistí se, aby všechny trénovací příklady byly na správných stranách dělící nadroviny; v prostoru všech w a w 0 se vyhledá nejširší pásmo s příklady na správné straně.

Jak vyhledat optimální hraniční pásmo? Je nutno zvolit vhodnou prohledávací metodu. Různých metod je celá řada, a v praxi se osvědčila aplikace tzv. kvadratického programování QP (obdoba lineárního): optimalizační algoritmus; maximalizace kvadratické funkce; existují lineární omezení.

Kvadratické optimalizační kritérium: minimalizace w w, protože dle (8) platí m = 2 w w w w = 2 w w.

Pro určitá data dávají stejně dobré výsledky také jiné algoritmy, např. k-nn; a na určitých datech SVM selhává: no-free-lunch teorém. Avšak pro velmi rozsáhlá data přináší SVM velkou výhodu v tom, že nepotřebuje všechny trénovací příklady pro klasifikaci budoucích neznámých (jako např. k-nn), protože používá pouze podmnožinu: nosné vektory objevené tréninkem. Jejich počet může (i nemusí) být jen zlomkem všech použitých trénovacích dat.

Další výhodou SVM je větší robustnost. Vzhledem k tendenci najít co nejširší hraniční pásmo (z trénovacích příkladů) nemusí být menší nedokonalost v umístění nadroviny závažná. Na druhé straně však nadrovina silně závisí na výběru nosných vektorů a jejich malá změna může značně ovlivnit hraniční pásmo. Proto také zde platí obecná závislost na co nejlepší volbě trénovacích příkladů.

Příklad: SVM pro XOR problém.

Původní 2D prostor XOR problému je na levém obrázku. Souřadnice byly transformovány do prostoru, kde lze a od sebe lineárně oddělit. Z různých možných funkcí φ(.) byla použita expanze 2. řádu: 1, 2x 1, 2x 2, 2x 1 x 2, x 12, x 22. (Hodnota 2 je výhodná pro normalizaci.) Dvourozměrná projekce nového prostoru je znázorněna na pravém obrázku. Konec