Klasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn]

Podobné dokumenty
Lineární klasifikátory

Úloha - rozpoznávání číslic

5. Lokální, vázané a globální extrémy

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Statistická teorie učení

Kybernetika a umělá inteligence, cvičení 10/11

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

Státnice odborné č. 20

Pravděpodobně skoro správné. PAC učení 1

UČENÍ BEZ UČITELE. Václav Hlaváč

Geometrické vyhledávání

Kombinatorická minimalizace

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Voronoiův diagram. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Neparametrické odhady hustoty pravděpodobnosti

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Klasifikace a rozpoznávání. Lineární klasifikátory

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

NÁHODNÁ VELIČINA. 3. cvičení

AVDAT Mnohorozměrné metody, metody klasifikace

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Hledáme lokální extrémy funkce vzhledem k množině, která je popsána jednou či několika rovnicemi, vazebními podmínkami. Pokud jsou podmínky

Algoritmizace prostorových úloh

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

Detekce kartografického zobrazení z množiny

Odhad parametrů N(µ, σ 2 )

Chyby měření 210DPSM

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Příklad 1. Řešení 1a. Řešení 1b ŘEŠENÉ PŘÍKLADY Z M1B ČÁST 5

Náhodné chyby přímých měření

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

8 Střední hodnota a rozptyl

Algoritmy a struktury neuropočítačů ASN P3

Výpočet nového stavu je závislý na bezprostředně předcházejícím stavu (může jich být i více, zde se však omezíme na jeden).

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Bayesovské metody. Mnohorozměrná analýza dat

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

15. T e s t o v á n í h y p o t é z

EXTRÉMY FUNKCÍ VÍCE PROMĚNNÝCH

Usuzování za neurčitosti

10. N á h o d n ý v e k t o r

Konstrukce relace. Postupně konstruujeme na množině všech stavů Q relace i,

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

14. přednáška. Přímka

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

4.2.3 ŠÍŘE FREKVENČNÍHO PÁSMA CHOROVÉHO ELEMENTU A DISTRIBUČNÍ FUNKCE VLNOVÝCH NORMÁL

3. Optimalizace pomocí nástroje Řešitel

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

PŘÍMKA A JEJÍ VYJÁDŘENÍ V ANALYTICKÉ GEOMETRII

= = 2368

Algoritmus. Cílem kapitoly je seznámit žáky se základy algoritmu, s jeho tvorbou a způsoby zápisu.

II. Zakresli množinu bodů, ze kterých vidíme úsečku délky 3 cm v zorném úhlu větším než 30 0 a menším než 60 0.

KGG/STG Statistika pro geografy

9 Kolmost vektorových podprostorů

Hloubka dat. a její použití pro klasifikaci

Numerické metody 6. května FJFI ČVUT v Praze

cv3.tex. Vzorec pro úplnou pravděpodobnost

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2014

Hledání kořenů rovnic jedné reálné proměnné metoda půlení intervalů Michal Čihák 23. října 2012

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Derivace goniometrických. Jakub Michálek,

CVIČNÝ TEST 15. OBSAH I. Cvičný test 2. Mgr. Tomáš Kotler. II. Autorské řešení 6 III. Klíč 15 IV. Záznamový list 17

ALGORITMY A DATOVÉ STRUKTURY

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Vytěžování znalostí z dat

Funkce v ıce promˇ enn ych Extr emy Pˇredn aˇska p at a 12.bˇrezna 2018

Stavový model a Kalmanův filtr

b) Maximální velikost zrychlení automobilu, nemají-li kola prokluzovat, je a = f g. Automobil se bude rozjíždět po dobu t = v 0 fg = mfgv 0

h n i s k o v v z d á l e n o s t s p o j n ý c h č o č e k

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

7. Rozdělení pravděpodobnosti ve statistice

TEORIE PRAVDĚPODOBNOSTI. 2. cvičení

Systém rizikové analýzy při sta4ckém návrhu podzemního díla. Jan Pruška

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Matematické modelování dopravního proudu

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Výpočetní geometrie Computational Geometry

Hledání kořenů rovnic jedné reálné proměnné metoda sečen Michal Čihák 23. října 2012

Náhodné (statistické) chyby přímých měření

x 0; x = x (s kladným číslem nic nedělá)

Definice globální minimum (absolutní minimum) v bodě A D f, jestliže X D f

PRAVDĚPODOBNOST A STATISTIKA

Úvod do mobilní robotiky AIL028

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

Diskrétní náhodná veličina. November 12, 2008

Téma 22. Ondřej Nývlt

4.3.3 Základní goniometrické vzorce I

Definice Tečna paraboly je přímka, která má s parabolou jediný společný bod,

4.3.3 Goniometrické nerovnice I

Teorie rozhodování (decision theory)

Definice spojité náhodné veličiny zjednodušená verze

Markov Chain Monte Carlo. Jan Kracík.

Odhad parametrů N(µ, σ 2 )

Funkce a lineární funkce pro studijní obory

Transkript:

Klasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn] Michal Houdek, Tomáš Svoboda, Tomáš Procházka 6. června 2001 1

Obsah 1 Úvod 3 2 Definice a postup klasifikace 3 3 Příklady použití 3 3.1 Příklad použití 1-NN....................... 3 3.2 Příklad použití 3-NN....................... 3 4 Vlastnosti k-nn klasifikátoru 4 4.1 Klady k-nn klasifikátoru..................... 4 4.2 Zápory k-nn klasifikátoru.................... 5 5 Urychlení k-nn klasifikace 5 5.1 Sofistikovaný algoritmus vyhledání nejbližších k-sousedů... 5 5.2 Vyloučení vzorků, které neovlivňují klasifikaci (G. Toussaint). 6 5.2.1 Vyloučení pomocí Voroniova diagramu......... 6 5.2.2 Aproximační metody................... 7 5.3 Kondenzace (condensing) - Devijer, Kittler........... 7 5.3.1 Kondenzace trénovací množiny pro 1-NN........ 7 6 Editace trénovací množiny 8 6.1 Alogoritmus editace trénovací množiny............. 8 6.2 Asymptotická analýza...................... 9 7 Asymptotická chyba k-nn klasifikátoru 10 7.1 Maximum chyby P NN...................... 11 7.2 Chyba k-nn klasifikátoru.................... 12 8 Příklad - Porovnání Bayesovského a 1-NN klasifikátoru 12 2

1 Úvod Klasifikace podle nejbližších sousedů spadá mezi neparametrické metody klasifikace. Tyto metody jsou založeny na podstatně slabších předpokladech než metody parametrické. Nepředpokládáme znalost tvaru pravděpodobnostních charakteristik tříd. Metoda nejbližšího souseda je založena na hledání přímo aposteriorní 1 pravděpodobnosti. Je myšlenkovým rozšířením metody klasifikace podle nejbližší vzdálenosti od etalonu. Dalším význačným zástupcem neparametrických metod klasifikace je metoda Parzenových okének, která aproximuje z dat hustotu pravděpodobnosti. Touto metodou se ale nebudeme dále zabývat. 2 Definice a postup klasifikace Známe trénovací množinu {(x i, ω i )} i=1,..,k. Kde x i je vzorek, kterému je přiřazena třída ω i a K je velikost trénovací množiny. Pro neznámý prvek x hledáme x k takové, že x k x = min x i x i=1,..,k. Prvek zařadíme do stejné třídy, do jaké náleží x k. Nejčastější je klasifikace podle jednoho souseda (1-NN), ale existují i klasifikace pro obecně k sousedů. 3 Příklady použití 3.1 Příklad použití 1-NN Zjistíme vzdálenosti všech prvků trénovací množiny od neznámého prvku. Vybereme ten prvek trénovací množiny, který je nejblíže a neznámý prvek klasifikujeme do stejné třídy. V našem případě je nejblíže prvek 2. třídy neznámý prvek klasifikujeme jako prvek 2. třídy (viz obr. 1). 3.2 Příklad použití 3-NN Kolem neznámého prvku vytvoříme hyperkouli, která obsahuje právě tři nejbližší prvky trénovací množiny. Neznámý prvek klasifikujeme do té třídy, 1 mající zkušenostní povahu 3

Obrázek 1: Popis klasifikace 1-NN která je v hyperkouli zastoupena největším počtem prvků. V našem případě klasifikujeme neznámý prvek do 1. třídy (viz obr. 2). Při použití metod k-nn pro k>1 je velmi důležitá volba k. Pro dvě třídy volíme k vždy liché (kvůli jednoznačnosti rozhodování) pro více tříd mohou nastat situace, kdy nelze jednoznačně rozhodnout. Obrázek 2: Popis klasifikace 3-NN 4 Vlastnosti k-nn klasifikátoru 4.1 Klady k-nn klasifikátoru triviální návrh a implementace slouží jako dobrá referenční metoda v aplikacích často vychází P NN (ε) P neur. (ε) - chyby metod k-nn a Neuronové sítě jsou srovnatelné 4

4.2 Zápory k-nn klasifikátoru pro 1-NN platí P NN (ε) > P (ε) a to i při velké trénovací množině, P (ε) je chyba Bayesovského klasifikátoru, ale lim K P NN (ε) < 2.P (ε) - asymptotickou chybu 2 můžeme dále zmenšit použitím editace trénovací množiny (viz dále) pomalé rozhodování, ale existují i rychlé vyhledávací algoritmy (viz níže) vysoká paměťová náročnost, ale možnost kondenzace trénovací množiny (viz níže) závislý na metrice. - záleží na měřítku potřeba normalizovat žádná generalizace Vapnik - Červoněnkisova dimenze je chyba na trénovací množině je 0, tj. přestože na trénovací množině získáme nulovou chybu klasifikace, nelze vyjadřit jaká chyba nastane na testovacích datech - může být jakákoliv 5 Urychlení k-nn klasifikace 5.1 Sofistikovaný algoritmus vyhledání nejbližších k- sousedů klasický problém výpočetní geometrie (computation geometry) postupy rychlejší než O(logN), pro d 3 =2,..,k k-d stromy - data trénovací množiny setřídíme podle jedné souřadnice, nalezneme medián a podle něj rozdělíme data na dvě množiny. Vzniklé podmnožiny opět dělíme podle další souřadnice. Takto postupujeme dokud nezískáme buňky obsahující právě jeden bod. Při půlení množin střídáme cyklicky souřadnice podle kterých množiny půlíme. Při klasifikaci nových bodů postupujeme následovně: 1. Nalezneme buňku do které patří nový bod. 2 chyba při velikosti trénovací množiny jdoucí k 3 d je dimenze prostoru vzorků 5

2. Změříme vzdálenost nového bodu od bodu ležícího v dané buňce a vzdálenosti od všech hranic buňky. Pokud bod trénovací množiny leží blíže než všechny hranice, nalezli jsme nejbližšího souseda a algoritmus končí. 3. V případě, že něktreré hranice jsou blíž, než bod trénovací množiny musíme prohledat i buňky za těmito hranicemi. Obrázek 3: k-d strom 5.2 Vyloučení vzorků, které neovlivňují klasifikaci (G. Toussaint) 5.2.1 Vyloučení pomocí Voroniova diagramu Voroniův diagram vytváříme následovně. Nejprve nalezneme hrany Voronoiova diagramu. Mezi dvěma prvky množiny existuje Voronoiova hrana právě tehdy když existuje bod, který je od těchto dvou prvků stejně daleko a všechny ostatní prvky množiny leží od tohoto bodu dál. Mezi takovými dvěma prvky vedeme stěnu tak, že oba prvky jsou podle ní osově souměrné. Spojnice těchto prvků je na stěnu kolmá a stěna jí protíná v polovině délky. Spojením stěn vzniknou Voronoiovy buňky kolem každého bodu, viz Obrázek 4. Lze dokázat, že vyloučením buněk, jejichž Voronoiova buňka sousedí pouze s buňkami vzorku stejné třídy se nezmění rozhodovací nadplocha. Tím dosáhneme zrychlení klasifikace. Nevýhodou Voronoiova diagramu je jednak složitost jeho výpočtu, která je rovna O(NlogN + N d/2 ) a také fakt, že pro dimenze výrazně větší než 1 leží téměř všechny body poblíž rozhodovací nadplochy. Vyloučených bodů je tedy málo a tím se výhoda Voronoiova diagramu ztrácí. 6

Obrázek 4: Voroniův diagram 5.2.2 Aproximační metody Například lze použít místo Voroniova grafu Gabrielův graf. Jeho složitost je O(N 2 ) 5.3 Kondenzace (condensing) - Devijer, Kittler Metody kondenzace jsou iterativní a aproximační. Aproximační metody nejsou optimální, ale nezvětšují chybu klasifikátoru. Jsou jednodušší na výpočet. 5.3.1 Kondenzace trénovací množiny pro 1-NN vlož do seznamu A náhodně vybraný vzorek, ostaní vzorky z trénovací množiny vlož do seznamu B. a) klasifikuj vzorky z B metodou 1-NN s trénovací množinou A b) je-li x i klasifikován nesprávně, přesuň x i z B do A došlo-li v předchozím kroku při průchodu celým seznamem B k přesunu, zopakuj předchozí krok. Výstupem algoritmu je množina A což je kondenzovaná trénovací množina pro 1-NN. Tato metoda nedává při týchž datech vždy stejnou rozhodovací nadplochu, závisí na inicializaci. Každá z možných rozhodovacích nadploch je ale stejně vhodná a platná. Na obrázcích 5 a 6 je příklad kondenzace trénovací množiny. 7

Obrázek 5: Příklad kondenzace - počáteční dvourozměrná data. Tečkovaná čára znázorňuje rozhodovací nadplochu Bayesovského klasifikátoru. 6 Editace trénovací množiny Cílem editace je snížení chyby P NN (ε), ne zrychlení postupu klasifikace. Jedná se o vyloučení prvků z trénovací množiny, které podle hustoty baysovské pravděpodobnosti vnášejí chybu do klasifikace (samostatné prvky jedné třídy, obklopené prvky z jiné třídy). Tyto prvky jsou většinou chyby měření nebo odchylky od typických zástupců. 6.1 Alogoritmus editace trénovací množiny náhodně rozdělíme trénovací množinu S n na dvě poloviny S n1 a S n2, S n = S n1 + S n2 klasifikujeme vzorky z S n1 metodou k-nn. S n2 používáme jako tréno- 8

Obrázek 6: Příklad kondenzace - zkondenzovaná trénovací množina. Plnou čarou je znázorněna rozhodovací nadplocha NN klasifikátoru. Je patrné, že v místech, kde se rozhodovací nadplochy rozcházejí, je malá pravděpodobnost výskytu dat. vací množinu. vzorky, které nebyly správně klasifi- vyeditujeme (vyloučíme) z S n1 kovány v předchozím kroku vzniklou množinu S n 1 použijeme ke klasifikaci metodou k-nn 6.2 Asymptotická analýza P edit (ε) = P (ε) 1 P (ε) 1 P knn (ε) Je-li P knn (ε) << 1 (např. 0,05), pak je editovaný 1-NN quasi-bayesovský, tj. téměř nerozlišitelný od Bayesovského klasifikátoru. Je třeba vzít v úvahu, že platí P knn (ε) > P (ε) a proto je zlomek vždy o kousek větší než 1. 9

7 Asymptotická chyba k-nn klasifikátoru Chyba klasifikace nejbližšího souseda při K vzorcích: P NN (ε) = lim P K NN K (ε) Střední hodnota průměru asymptotické chyby: P NN (ε) = P NN (ε x)p(x)dx x K (ε x) = 1. 2. {}}{{}}{ PK NN (ε x, x k) p(x k x) dx k P NN Je-li počet vzorků velmi vysoký je pravděpodobnost, že x k sousedem s x, funkcí jejich vzdálenosti: je nejbližším K >> 1 p(x k x) = δ(x k x) Pravděpodobnost, že jak x, tak x k jsou ze stejné třídy jako ω r: P (ω r, ω r x, x k ) = P (ω r x)p (ω r x k ) Chybná klasifikace pak nutně nastává v případech pro než x a x k nejsou ze stejné třídy: PK NN(ε x, x k ) = 1 R P (ω r x)p (ω r x k ) Po zpětném dosazení do předchozích vztahů získáme: P NN (ε x) = lim P K NN K (ε x) = 1 [1 R P (ω r x)p (ω r x k)]δ(x k x)dx k = R P 2 (ω r x) Asymptotická chyba je pak vyjádřena: P NN (ε) = [1 R P 2 (ω r x)]p(x)dx 10

7.1 Maximum chyby P NN Lze dokázat (metodou Lagrangeových multiplikátorů), že P NN (ε) nabývá maxima, když P (ω s x) = 1 P (ωr x) R 1 = P (ε x) R 1 s r P (ω s x) = 1 P (ε x) s = r tj. když je pro všechny třídy stejná chyba klasifikace. Potom R ( ) 2 P 2 (ω r x) = [1 P (ε x)] 2 + (R 1) P (ε x) R 1 po úpravě pravé strany rovnice R což vede k hledanému tvaru P 2 (ω r x) = 1 2P (ε x) + P 2 (ε x) + P 2 (ε x) R 1 P NN (ε x) = 1 R P 2 (ω r x) = 2P (ε x) R P 2 (ε x) R 1 který udává chybu odhadu pro konkrétní x. Abychom získali P NN (ε) musíme integrovat přes všechna x. Zde si pomůžeme vyjádřením rozptylu, z něhož vyplyne převod jinak problematického členu P 2 (ε x). var{p (ε x)} = x [P (ε x) P (ε)]2 p(x)dx = P 2 (ε x)p(x)dx P 2 (ε) > 0 Vidíme tedy, že P 2 (ε) < P 2 (ε x)p(x)dx a můžeme tedy naší rovnici přepsat nerovnicí P NN (ε) 2P (ε) R P 2 (ε) R 1 Závěrem pak můžeme zopakovat již dříve uvedenou a nyní dokázanou vlastnost P (ε) P NN (ε) 2P (ε) Vztah mezi chybou Bayesovského klasifikátoru a asymptotickou chybou metody nejbližšího souseda přehledně znázorňuje Obrázek 7. 11

Obrázek 7: Vztah mezi chybou Bayesovského klasifikátoru a asymptotickou chybou metody nejbližšího souseda 7.2 Chyba k-nn klasifikátoru Platí, že chyba metody nejbližších sousedů klesá s počtem nejbližších sousedů a dále ji lze snížit editací trénovací množiny, jak bylo uvedeno výše. P NN (ε) P knn (ε) P 3NN (ε) P 1NN (ε) 2P (ε) P knn (ε) P (ε) + P 1NN kπ 8 Příklad - Porovnání Bayesovského a 1-NN klasifikátoru P (ω 1 x) = 0, 6 P (ω 2 x) = 0, 2 P (ω 3 x) = 0, 2 Bayesovská chyba: Asymptotická chyba: P (ε x) = 1 max ω i (P (ω i x)) = 1 0, 6 = 0, 4 P NN (ε x) = 1 ω i P 2 (ω i x) = 1 (0, 36 + 0, 04 + 0, 04) = 0, 56 12