Změkčování hranic v klasifikačních stromech

Podobné dokumenty
Lineární klasifikátory

Vytěžování znalostí z dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Kybernetika a umělá inteligence, cvičení 10/11

Moderní systémy pro získávání znalostí z informací a dat

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

You created this PDF from an application that is not licensed to print to novapdf printer (

Rozdělování dat do trénovacích a testovacích množin

DATA MINING KLASIFIKACE DMINA LS 2009/2010

Úloha - rozpoznávání číslic

Algoritmy pro spojitou optimalizaci

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Markov Chain Monte Carlo. Jan Kracík.

ANALÝZA A KLASIFIKACE DAT

Bayesovské metody. Mnohorozměrná analýza dat

Náhodné (statistické) chyby přímých měření

Otázky ke státní závěrečné zkoušce

Binární vyhledávací stromy pokročilé partie

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Optimalizace & soft omezení: algoritmy

Přednáška 13 Redukce dimenzionality

Metody analýzy modelů. Radek Pelánek

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Náhodné chyby přímých měření

Ing. Alena Šafrová Drášilová, Ph.D.

Státnice odborné č. 20

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Úvod do optimalizace, metody hladké optimalizace

GIS Geografické informační systémy

Pokročilé neparametrické metody. Klára Kubošová

Numerické metody optimalizace - úvod

Modifikace algoritmu FEKM

Vojtěch Franc. Biometrie ZS Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

OPTIMALIZACE. (přehled metod)

Připomeň: Shluková analýza

Neuronové časové řady (ANN-TS)

GIS Geografické informační systémy

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

2019/03/31 17:38 1/2 Klasifikační a regresní stromy

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Využití metod strojového učení v bioinformatice David Hoksza

OPTIMALIZACE A MULTIKRITERIÁLNÍ HODNOCENÍ FUNKČNÍ ZPŮSOBILOSTI POZEMNÍCH STAVEB D24FZS

Aplikovaná numerická matematika

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D.

Kombinatorická minimalizace

Numerické metody a programování. Lekce 8

Ing. Alena Šafrová Drášilová

Jednofaktorová analýza rozptylu

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Metody lineární optimalizace Simplexová metoda. Distribuční úlohy

Trénování sítě pomocí učení s učitelem

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

LDA, logistická regrese

prekrocena mez ukazatele kvality.


Kapitola 1. Logistická regrese. 1.1 Model

Pokročilé neparametrické metody. Klára Kubošová

Exponenciální modely hromadné obsluhy

Posouzení stability svahu

Seminář z umělé inteligence. Otakar Trunda

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013

Aplikace obrazové fúze pro hledání vad

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Pokročilé neparametrické metody. Klára Kubošová

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2014

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

ANALÝZA A KLASIFIKACE DAT

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Počítačový model plazmatu. Vojtěch Hrubý listopad 2007

Učící se klasifikátory obrazu v průmyslu

KGG/STG Statistika pro geografy

Testování modelů a jejich výsledků. tomu, co jsme se naučili?

Pravděpodobně skoro správné. PAC učení 1

Regresní analýza 1. Regresní analýza

Předzpracování dat. Lenka Vysloužilová

Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill. Optimalizace komprese XML. Závěr

6 Příkazy řízení toku

Dolování z textu. Martin Vítek

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

Analýza obrazu II. Jan Macháček Ústav skla a keramiky VŠCHT Praha

Chyby měření 210DPSM

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Strojové učení Marta Vomlelová

Algoritmy a struktury neuropočítačů ASN P3

1 Modelování systémů 2. řádu

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Pravděpodobnost, náhoda, kostky

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Klasifikace a rozpoznávání. Lineární klasifikátory

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Transkript:

Změkčování hranic v klasifikačních stromech Jakub Dvořák Seminář strojového učení a modelování 24.5.2012

Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment Výsledky Závěr

Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment Výsledky Závěr

Klasifikační stromy Jedna z metod strojového učení. Z trénovacích dat generována struktura zakořeněného stromu: Ve vnitřních uzlech rozhodovací podmínka. V listech score pro jednotlivé třídy. Nejznámější metody: CART, C4.5, C5.0. Nevýhoda Výstup nespojitý po částech konstantní. To často neodpovídá skutečnosti. Generování stromů 1. Růst stromu 2. Prořezávání

Klasifikační strom Rozhodovací podmínka Typicky ve vnitřním uzlu testuje hodnotu jednoho atributu předloženého vzoru. U kontinuálních atributů test mívá podobu x A c, kde x A označuje hodnotu atributu A, c je split-hodnota. Score v listech Pro K tříd, N vzorů v daném listu, z nichž N i je třídy i: Relativní frekvence třídy: N i /N Laplaceova korekce: (N i + 1)/(N + K) Jiné možnosti (m-smoothing).

Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment Výsledky Závěr

Změkčování hran V uzlech, kde je rozhodovací podmínka x A c. Je-li hodnota x A blízko c, potom pokračovat do obou větví. Výsledky z podstromů zkombinovat váženým průměrem. Váhy závisí na x A c. Změkčující křivka 1 1/2 a 0 b

Příklad Data and tree x2 6 4 2 0 2 4 6 negative case positive case split threshold softening boundary 6 4 2 0 2 4 6 x1

Příklad Score from soft tree x2 6 4 2 0 2 4 6 0.1 6 4 2 0 2 4 6 x1 0.8 0.7 0.6 0.5 0.4 0.3 0.2

Příklad Score from non soft tree score x2 x1

Příklad Score from soft tree score x2 x1

Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment Výsledky Závěr

Ranking Pro klasifikaci do dvou tříd (pozitivní, negativní). Seřazení množiny vzorů od nejspíše negativních k nejspíše pozitivním. Obvykle uspořádání hodnot score. Není nutné, aby score bylo dobrým odhadem pravděpodobnosti je to tedy lehčí problém.

ROC křivka ROC Receiver Operating Characteristic. Mějme klasifikátor do dvou tříd poskytující score pro každý vzor. Lze libovolně zvolit práh a vzory se score nad tímto prahem klasifikovat jako pozitivní, ostatní jako negativní. Pro množinu vzorů, u nichž známe skutečnou třídu, lze pro každou hodnotu prahu určit True positive rate = # správně klasifikovaných pozitivních vzorů # skutečně pozitivních vzorů False positive rate = # chybně klasifikovaných negativních vzorů # skutečně negativních vzorů ROC křivka graficky zachycuje vztah True positive rate a False positive rate pro různé hodnoty prahu.

AUC AUC Area Under (ROC) Curve plocha pod ROC křivkou. Jedno číslo vyjadřující kvalitu klasifikátoru poskytujícího score pro dvě třídy. Hodnota od 0 do 1, čím větší, tím lepší.

Příklad ROC křivky k příkladu jednoduchého změkčeného stromu: ROC curves True positive rate 0.0 0.2 0.4 0.6 0.8 1.0 non soft tree, AUC=0.8734 soft tree, AUC=0.9284 0.0 0.2 0.4 0.6 0.8 1.0 False positive rate

Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment Výsledky Závěr

Metody změkčování Určení parametrů a, b změkčující křivky. Parametry se mohou v různých vnitřních uzlech lišit, tedy každému vnitřnímu uzlu s podmínkou na kontinuální atribut určujeme jeho vlastní parametry. Postprocessing po dokončení konstrukce celého stromu: 1. Růst stromu 2. Prořezávání 3. Změkčování Dva typy metod: Bez použití optimalizace Pomocí optimalizace Nelder-Mead

Metody změkčování Změkčování bez optimalizace Parametry změkčující křivky se určují na základě trénovacích vzorů, které padnou před změkčením do příslušného uzlu stromu. V jednotlivých uzlech jsou určovány nezávisle. Při změkčování není brán ohled na to, jaký je vliv změkčení na výstup klasifikátoru. Změkčování pomocí optimalizace Parametry všech změkčujících křivek ve stromě se hledají v rámci jednoho optimalizačního procesu. Cílová funkce je vypočtena na základě výstupu změkčeného klasifikátoru na trénovací množině.

Změkčování bez optimalizace Nechť ve vnitřním uzlu v j je rozhodovací podmínka x Aj c j. Označme C j množinu trénovacích vzorů, které padnou do uzlu v j. Definujme: l j = min x Cj x Aj u j = max x Cj x Aj Potom pro zvolené q nastavme parametry změkčující křivky: a j = 2 q (c j l j ) b j = 2 q (u j c j ). Metodu, která takto nastaví parametry ve všech změkčovaných uzlech stromu, označujeme DR(q). Používáme q = 0, 1, 2, 3, 4.

Změkčování bez optimalizace Do kategorie změkčování bez optimalizace patří tak změkčování ("probabilistic splits") v C4.5 a C5.0. Změkčování v C4.5 Odhad standardní odchylky chyby (e + 1/2)(n e 1/2) σ = n kde n je C j, e je počet vzorů z C j, které jsou klasifikovány chybně při použití prahu 1/2. Potom hranice změkčení jsou nastaveny tak, že kdyby c j bylo posunuto na tuto hranici, potom by se počet chybně klasifikovaných vzorů z C j zvýšil o σ. Změkčování v C5.0 se liší od C4.5, ale nebylo (pokud je mi známo) publikováno vysvětlení, jak je provedeno.

Optimalizace parametrů změkčení Když s je počet změkčovaných uzlů ve stromu, potom počet parametrů změkčení je 2s. Nechť v 1,...,v s jsou všechny změkčované uzly ve stromu, potom vektor parametrů uspořádáme: a 1,...,a s, b 1,...,b s. Optimalizace probíhá v prostoru R 2s, každý parametr změkčení je získán transformací jednoho optimalizovaného parametru. Je použit škálovací vektor z = (z 1,...z 2s ), který je určen jako výsledek změkčení DR(1). Pro vektor (p 1,...,p 2s ) z prostoru parametrů optimalizace definujeme odpovídající parametry změkčení: a j = z j pj 2 } b j = z s+j ps+j 2 pro j = 1,...,s

Cílové funkce pro optimalizaci Trénovací množinu označme C. Označme r(x) score, { které klasifikátor vrací, je-li předložen vzor x. 1 když x je pozitivní Definujme r(x) = 0 když x je neagativní Nechť d(x) označuje r(x) r(x) diff 1 C x C d(x) 1 square C x C d(x)2 x C exp(4(d(x) 1)) 1 exptr C AUC AUC vypočtená na trénovací množině.

Cílové funkce pro optimalizaci y 0 1 diff square exptr 0 1 d(x)

Optimalizační metoda Iterační optimalizace: Simplexový algoritmus pro nelineární minimalizaci Nelder-Mead. Během iterací se automaticky adaptuje na lokální tvar cílové funkce. Tato metoda nepoužívá gradient, pouze funkční hodnoty cílové funkce. Metoda s touto vlastností byla zvolena proto, že AUC je po částech konstantní, takže gradient nelze použít. Ukončení iteračního procesu: dosažení počtu iterací 200s. Iniciální hodnota pro iterační optimalizaci: (1,...,1), což odpovídá změkčení pomocí DR(1).

Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment Výsledky Závěr

Experiment 4 rozdělení dat pocházející z UCI Machine Learning repository. Z každého rozdělení vygenerováno 10 trénovacích množin a testovací množina. Z každé trénovací množiny vygenerováno aspoň 10 stromů různých velikostí metodami CART a C5.0. Na stromech použity metody změkčování: DR(q), q = 0, 1, 2, 3, 4 C4.5 C5.0 pouze stromy generované C5.0 metodou optimalizace diff optimalizace square optimalizace exptr optimalizace AUC Kvalita výsledných klasifikátorů porovnávána podle AUC vypočtené na základě testovací množiny.

Datové množiny Magic Telescope Pocházejí z počítačové simulace fyzikálního procesu. Popisují pozorování částic pomocí atmosférického Cherenkovova teleskopu. Klasifikace rozlišuje pozorované záření způsobené gama paprsky (pozitivní) od záření vyvolaného částicemi v horních vrstvách atmosféry (negativní). Asi 65 % pozitivních případů. 10 numerických atributů. K dispozici je 19020 vzorů, rozděleny 10-krát nezávisle na 12680 trénovacích a 6340 testovacích.

Datové množiny Waveform Uměle generovaná data. 3 třídy stejné pravděpodobnosti. 21 numerických atributů. Používáme úlohy rozlišení jedné třídy od sjednocení ostatních. Ze tří takto vzniklých rozdělení jsou dvě ekvivalentní až na uspořádání parametrů, proto používáme pouze dvě (označujeme Waveform A, Waveform B). Vygenerováno 10 trénovacích množin velikosti 12000 a jedna testovací množina velikosti 12000.

Datové množiny MiniBooNE Particle Identification Sjednocení skutečných pozitivních případů s Monte-Carlo generovanými negativními případy. Klasifikace rozlišuje elektronová neutrina (pozitivní případy) od mionových neutrin (negativní případy). V množině je asi 28 % pozitivních případů. 50 reálných atributů. K dispozici je 129596 případů, byly rozděleny na 10 trénovacích množin velikosti 12000 a testovací množinu s 9596 případy.

Iniciální stromy Metoda CART Použit R-project a package tree. Jako míra impurity použita deviance. Trénovací množina rozdělena v poměru 2:1 na množinu pro růst a validační množinu pro prořezávání. Růst stromu pomocí dokud není v každém listu pouze jedna třída. Pomocí validační množiny získána sekvence stromů postupným prořezáváním (cost complexity pruning). V sekvenci prořezaných stromů nalezen strom s nejnižší celkovou deviancí, stromy větší než tento nejsou použity. Jako nejmenší použit strom se 3 vnitřními uzly. Dále vybrány stromy v pravidelných rozestupech, aby jich bylo celkem 10.

Iniciální stromy Metoda C5.0 Použita originální aplikace c5.0 od Rulequest Research. Prořezávání řízeno parametrem confidence level. Zvoleno 20 různých hodnot parametru, ale někdy prořezávání vedlo k identickým stromům. Pro experiment použity všechny unikátní stromy, pro každou trénovací množinu jich bylo aspoň 10, zpravidla o něco více.

Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment Výsledky Závěr

Iniciální stromy Počty splitů ve stromech počet stromů CART-trees min med max počet stromů C5.0-trees min med max Magic 100 3 27.5 75 122 13 71.5 209 Waveform A 100 3 17.5 42 136 19 103 294 Waveform B 100 3 19 45 144 25 107 290 MiniBooNE 100 3 17 46 134 19 90.5 217 Stromy z C5.0 jsou podstatně větší, než stromy z CART.

Iniciální stromy 100AUC nezměkčených stromů CART-trees C5.0-trees min med max min med max Magic 79.59 87.62 89.45 82.59 86.70 88.88 Waveform A 82.85 89.91 91.21 85.85 88.73 89.88 Waveform B 85.52 92.20 93.29 86.81 90.70 92.18 MiniBooNE 84.22 93.42 94.25 86.82 90.09 91.93 Stromy z C5.0 mají nižší AUC, než stromy z CART.

Změkčování bez optimalizace Změkčování DR(0) na datech Magic vede spíše ke zhoršení AUC. Na stromech z C5.0 na všech datových rozděleních je změkčení DR(2) a C4.5 lepší, než změkčování implementované v C5.0. Na stromech z C5.0 je zlepšení získané změkčením větší, než na stromech CART. Nejčastěji je nejlepší změkčení DR(1), velice často také DR(2). Nelze říci že by některá z metod byla nejlepší univerzálně.

Kombinace s Laplaceovou korekcí Na nezměkčených stromech použití Laplaceovy korekce v některých případech vede ke zvýšení AUC, především na stromech z C5.0. V kombinaci se změkčením se rozdíl zmenšuje. Při změkčení metodami, které samy vedou k většímu zvýšení AUC, tzn. DR(1) a DR(2), Laplaceova korekce už k žádnému dalšímu zlepšení nevede. Laplaceova korekce nezpůsobuje žádné podstatné zhoršení.

Změkčování pomocí optimalizace Optimalizace diff ve většině případů vedla ke zhoršení vůči iniciálnímu stavu. Optimalizace square asi v polovině případů vedla ke zhoršení. Optimalizace exptr a AUC většinou klasifikátor zlepšuje. Optimalizace AUC dává nejlepší výsledky. Porovnání metod na jednotlivých stromech ukazuje, že uspořádání podle kvality je velmi silné. diff < square < exptr < AUC

Porovnání nejlepších stromů Pro každou trénovací množinu vybereme podle AUC na testovací množině: nejlepší nezměkčený strom nejlepší strom změkčený pomocí optimalizace AUC zvlášť pro stromy generované CART a generované C5.0. Porovnáme AUC na testovací množině.

Porovnání nejlepších stromů AUC 0.86 0.88 0.90 0.92 0.94 0.96 0.98 1.00 Magic Waveform A Waveform B MiniBooNE CART C5.0 CART C5.0 CART C5.0 CART C5.0 Zelená barva označuje změkčené stromy.

Redukce velikosti stromu Jak použít změkčení pro redukci velikosti stromu bez ztráty kvality? Vezmeme-li v sekvenci prořezávaných stromů nejlepší nezměkčený strom, lze najít menší změkčený strom, který není horší? Porovnáváme AUC na testovací množině. U stromů generovaných C5.0 jsou v našem experimentu všechny změkčené stromy lepší, než nejlepší nezměkčený. U stromů generovaných CART je nalezený změkčený strom výrazně menší.

Redukce velikosti CART stromu (počet splitů) Magic nezměkčený 45 49 61 64 43 63 38 52 75 44 změkčený 11 17 10 14 13 10 10 8 18 10 Waveform A nezměkčený 35 28 42 42 27 25 32 28 42 28 změkčený 7 9 7 8 5 6 7 8 7 5 Waveform B nezměkčený 32 26 32 31 45 37 38 44 31 39 změkčený 6 5 7 6 7 7 6 7 8 6 MiniBooNE nezměkčený 31 33 23 27 27 34 25 29 39 46 změkčený 13 5 6 5 6 6 5 5 7 7

Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment Výsledky Závěr

Závěr Některé postupy navržené pro minimalizaci error-rate klasifikátoru nemusí být vhodné pro ranking. Použití Laplaceovy korekce společně s dostatečně účinným změkčením nepřináší další zlepšení. Laplaceova korekce při změkčení nevede ani ke zhoršení. Při optimalizaci metodou Nelder-Mead je dosaženo nejlepšího výsledku při použití AUC jako cílové funkce, ačkoliv jde o funkci nespojitou. Ačkoliv AUC stromů generovaných C5.0 byla nižší než u stromů z CART, změkčení optimalizací AUC kvalitu vyrovnalo. Změkčování může být využito pro významnou redukci velikosti stromu, aniž by se zhoršila kvalita měřená AUC.