jedna hrana pro každou možnou hodnotu tohoto atributu; listy jsou označeny předpokládanou hodnotou cílového atributu Atribut Outlook

Transkript

1 Rozhodovací stromy

2 Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak Atribut hodnota cílového atributu Hodnota atributu No Yes No Yes Rozhodovací strom pro daný cílový atribut G je kořenový strom tvořený z kořene a vnitřních uzlů označených atributem; ze kterého vede jedna hrana pro každou možnou hodnotu tohoto atributu; listy jsou označeny předpokládanou hodnotou cílového atributu G za předpokladu, že ostatní atributy nabývají hodnot na cestě od kořene do listu. Pokud se některé atributy na cestě nevyskytují, na jejich hodnotě nezáleží.

3 Základ algoritmu tvorby rozhodovacího stromu z dat je následující: 1. vyber atribut; vytvoř z něj uzel a rozděl data podle hodnoty tohoto atributu 2. pro každou hodnotu atributu vytvoř podstrom z dat s odpovídající hodnotou 3. pokud data obsahují jen jednu hodnotu cílové třídy či pokud došly atributy k dělení, vytvoř list s hodnotou nejčetnější cílové třídy. Otázkou je, jak vybírat atribut k dělení.

4 Entropie Po míře entropie rozdělení hodnot daného atributu A (tj. míře nejistoty, negativní míře informace) chceme, aby: byla nula, pokud jsou všechny hodnoty cílové třídy stejné byla největší, pokud je stejně hodnot všech cílových tříd (tj. nevíme nic) aby rozhodnutí ve dvou krocích vedlo ke stejnému výsledku jako rozhodnutí naráz, tj. E([2, 3, 4]) = E([2, 7]) E([3, 4]) Toto splňuje pouze entropie E([p 1,..., p n ]) = n i=1 p i log p i, logaritmus se bere většinou dvojkový. Pozn. nemusíme normalizovat, pak dostaneme entropii násobenou součetem všech p i.

5 Pokud chceme uvést, přes který atribut entropii počítáme, používáme dolní index, např. E Xj, resp. E G pro cílový atribut.

6 Entropie pro dvouhodnotový atribut Entropie vodorovná osa: p i, svislá: entropie.

7 ID3 algorithmus Uzel, který dáme do kořene (pod)stromu, vybíráme podle maximálního informačního zisku (information gain), definovaného pro množinu dat data a atribut X j jako: data Xj=x Gain(data, X j ) = E G (data) j E G (data Xj =x x j X j data j ) kde data Xj =x j je podmnožina data, kde atribut X j má hodnotu x j, entropie je definovaná E G (data) = data G=g g G data log 2 data G=g data = G p i log 2 p i i=1 kde p i je počet dat v data patřící do třídy g i dělený celkovým počtem dat v data.

8 Algoritmus ID3 algorithm(data, G cíl, Attributes vstup. atributy) Vytvoř kořen root Pokud mají všechna data stejné g, označ kořen g a konec, Pokud došly Attributes, označ root nejčastější hodnotou g v data a konec jinak X j = atribut z Attributes s maximálním Gain(data, X j ) označ root atributem X j pro každou hodnotu x j atributu X j, přidej větev pod root, odpovídající testu X j = x j data Xj =x j = podmnožina data, kde X j = x j Je li data Xj =x j prázdné, přidej list označený nejčastější hodnotou g v data a konec jinak přidej podstrom ID3(data Xj =x j, G, Attributes \ {X j }) vrať root

9 Chyba predikce na trénovacích datech na nových datech (při nasazení v reálu) Occamova břitva preferujeme jednodušší model (jsou li srovnatelně dobré) penalizujeme složité modely Snažím se strom zmenšit (prořezat) bez velkého zhoršení chyby.

10 Prořezávání postprunning nejdřív vytvoříme strom, pak ho prořezáváme; preprunning ukončit tvoření stromu dříve, než dojdeme na konec. I když pre prunning vypadá lákavěji (než zbytečně tvořit dál a prořezávat), častěji se používá postprunning, protože nezamítne kombinaci atributů, z nichž žádný jednotlivec není užitečný, ale jako celek užiteční jsou. Není jasné, jestli lze nalézt preprunning strategii, která by byla stejně dobrá, jako postprunning.

11 Odhad chyby reduced error prunning nechám trochu dat na prořezávání, ale bohužel učím strom na méně datech. odhadovat chybu na základě trénovacích dat použito v C4.5, motivováno statistikou. optimalizovat penalizovanou míru chyby (CART).

12 Odhad chyby z trénovacích dat Uvažujme list l, v něm je N l příkladů, v datech je Err l příkladů chybných (tj. různých od nejčetnější třídy) ˆf l = Err l N l je pozorovaná frekvence chyby, předpokládáme, že N l instancí bylo generováno Bernoulliho procesem s parametrem q l (=správná (true) pravděpodobnost chyby), vzhledem k tomu, že odhad je založen na trénovacích datech, děláme pesimistický odhad a místo výpočtu konfidenčního intervalu bereme jako odhad horní hranici tohoto intervalu.

13 V C4.5 je default hladina významnosti (confidence level) α = 0.25 hledáme z tak, aby: err ˆ l = P q l ˆf l ql (1 q l ) N l > z = α Pro α = 0.25 je z = 0.69, nižší α vede k drastičtějšímu prořezání. z použijeme pro výpočet pesimistického odhadu frekvence chyby err ˆ l ˆf l + z2 ˆf 2N l + z l N l ˆf l 2 N l + z2 4Nl 2 Nebo přibližně: 1 + z2 N l ˆfl (1 ˆf l ) err ˆ l ˆf l + zσ l ˆf l + z N l

14 Prořezávání Postprunning uvažuje dvě operace, subtree replacement vyberu podstrom a nahradím ho listem; to určitě sníží přesnost na trénovacích datech, ale může to zlepšit predikci na nezávislých testovacích datech. Postupujeme od listů ke kořeni, v každém uzlu buď podstrom nahradíme, nebo necháme. subtree raising komplexnější a je otázkou, je li třeba. Ale je použité v C4.5. Jde o vynechání jednoho uzlu, nahrazení ho jeho podstromem a překlasifikováním příkladů, které patřily do zbylých podstromů. V praxi se to zkouší jen pro nejnavštěvovanější větev.

15 Numerické atributy yes no yes yes yes no no,yes yes,yes no yes yes no U tohoto atributu připadá v úvahu 11 dělicích bodů, ale pokud neuvažujeme dělení mezi dvěma stejnými hodnotami cílového atributu, tak jen 9. Pro každý řez zvlášť můžeme zjistit informační zisk, např. pro řez v 71.5 dostaneme E([9, 5]) E([4, 2], [5, 3]) = E([9, 5]) ( 6 14 = bitů. E([4, 2]) E([5, 3])) Testů podle numerického atributu může být na cestě z kořene do listu víc narozdíl od diskrétního atributu, kde rovnou dělíme podle všech možných hodnot.

16 Penalizace mnohahodnotových atributů Dělení dle identifikačního kódu záznamu vede k nulové entropii, ale nezobecňuje. Pro výběr dělení užijeme Gain ratio= Gain(data,X j) E(X j ) tj. penalizujeme započítáním informace obsažené v samotném dělení podle atributu, bez ohledu na cílovou třídu. Např. ID kód pro N příkladů bude mít informaci obsaženou v atributu: E([1, 1,..., 1]) = ( 1 log 1 ) N = log N. N N Nebo jednoduše dovolíme jen binární dělení(cart); připouští li atribut další dělení, pokračuje do podstomů. V praxi se navíc přidávají at toc testy na vyhození ID, i když vyjde nejlepší, a na omezení přílišné závislosti na entropii atributu tím, že vyberu maxmální gain ratio jen tehdy, pokud je i information gain aspoň tak dobrý jako průměrný information gain přes všechny testované atributy. C4.5 navíc nevybere atribut, který má skoro jen jednu hodnotu vyžaduje aspoň dvě hodnoty s aspoň dvěma příklady s tím, že ta druhá dvojka se dá nastavit a měla by se zvětšit, máme li hodně dat s velkým šumem.

17 Binární řez pro kategoriální atributy Pro q hodnot 2 q 1 možných dělení, ALE pro 0 1 výstup stačí setřídit hodnoty atributu dle klesající proporce těch s cílem 1 vyzkoušet všechny řezy, tj. q 1. Pro kvantitativní výstup setřídit kategorie dle klesajícího průměru cíle a totéž.

18 Chybějící hodnoty Ignorovat celou instanci často nemůžeme, protože by nám nezbyla žádná data. Navíc, pokud chybějící atribut nenese informaci pro rozhodování, tak je tahle instance stejně dobrá jako všechny ostatní. Pokud fakt, že údaj chybí, není náhodný, pak je vhodné chybění hodnoty považovat za další možnou hodnotu atributu.např. plat neuvedou ti, kdo ho mají hodně malý či hodně velký. Pokud ale samotný fakt chybění nenese informaci (např. neměřil porouchaný teploměr), pak je lépe nakládat jinak. Možné řešení je rozdělení instance na kousky (numericky vážit podle počtu trénovacích instancí jdoucích jedotlivými větvemi), dojít k listům, a váženě zkombinovat predikce na listech. Podobně používáme váhy pro výpočet informačního zisku a informač. poměru a pro dělení instancí podle chybějícího att.

19 Různé míry pro větvení stromu entropie K k=1 ˆp m,k log ˆp m,k chyba predikce 1 N m i Rm I(y i = k(m)) = 1 ˆp m,km Gini k =k ˆp m,k ˆp m,k = K k=1 ˆp m,k(1 ˆp m,k ) Interpretace Gini: předpovídám pravděpodobnosti, pak je trénovací chyba Gini Gini je součet rozptylů jednotlivých tříd k při 0 1 kódování Příklad: Je dělení (300,100) a (100,300) lepší či horší než (200,400) a (200,0)?

20 Miry pro vyber vetveni stromu misclas. error entropie GINI

21 Různá cena chyby Raději predikuji infarkt i tomu, kdo ho nedostane, než nevarovat toho, kdo ho dostane. L kk matice ceny za chybnou klasifikaci k jakožto k pro vícekategoriální klasifikaci modifikujeme Gini = k =k L kk ˆp mk ˆp mk pro dvouhodnotovou vážíme prvky třídy k L kk krát v listu pak klasifikujeme k(m) = argmin k l L lk ˆp ml.

22 Cena za pozorování Gain 2 (S, X j ) Cost(X j ) učení robota, nakolik objekty mohou být uchopeny Schlimmer 1990, Tan 1993 nebo 2 Gain(S,X j) 1 (Cost(X j ) + 1) w Nunez 1988 medicínská diagnostika. Nunez 1991 srovnává oba přístupy na různých příkladech.

23 Složitost algoritmu Mějme N instancí o p atributech. Předpokládejme hloubku stromu O(logN), tj. že zůstává rozumně hustý. Vytvoření stromu potřebuje O(p N logn) času. (Na každé hloubce se každá instance vyskytne právě jednou, je logn hloubek, v každém uzlu zkoušíme p atributů. Složitost subtree replacement je O(N), složitost subtree raising je O(N(logN) 2 ). Celková složitost tvorby stromů je O(pNlogN) + O(N(logN) 2 ).

24 Pravidla ze stromů Ze stromu můžeme vytvořit pravidla napsáním pravidla pro každý list. Ta pravidla ale můžeme ještě zlepšit tím, že uvažujeme každý atribut v každém pravidle a zjistíme, jestli jeho vynecháním pravidlo nezlepšíme (tj. nezlepšíme chybu na validačních datech resp. pesimistický odhad chyby na trénovacích datech). To funguje celkem dobře, ale dlouho, protože pro každý atribut musíme projít všechny trénovací příklady. Algoritmy tvořící pravidla přímo bývají rychlejší. Výsledná pravidla setřídíme podle klesající úspěšnosti.

25 Stromy pro numerickou predikci Listy stromů obsahují numerické hodnoty, rovné průměru trénovacích příkladů v listu. pro výběr atributu k dělení zkoušíme všechny řezy, vybíráme maximální zlepšení střední kvadratické chyby. Tyto stromy se nazývají také regresní stromy, protože statistici nazývají regrese proces pro predikci numerických hodnot. Můžeme i kombinovat regresní přímku a rozhodovací strom tím, že v každém uzlu bude regresní přímka takový strom se nazývá model tree.

26 CART Hledá proměnnou j a bod řezu s na oblasti R 1 ( j, s) = {X X j s} a R 2 ( j, s) = {X X j > s} takové, aby minimalizovaly [ min j,s = min c1 ] (y i c 1 ) 2 + min c2 (y i c 2 ) 2 x i R 1 ( j,s) x i R 2 ( j,s) vnitřní minima jsou průměry, tj. ĉ 1 = avg(y i x i R 1 ( j, s)).

27 Prořezávání v CART Naučme strom T 0 až k listům s málo (5 ti) záznamy. Vytvoříme hierarchii podstromů T T 0 postupným sléváním listů dohromady. Listy stromu T o velikosti T indexujeme m, list m pokrývá oblast R m, definujeme: ĉ m = 1 N m Q m (T) = 1 N m x i R m y i, x i R m (y i ĉ m ) 2.

28 Definujeme kriterium k optimalizaci: C α (T) = T m=1 N m Q m (T) + α T. Vyjdeme z T 0, postupně slijeme vždy dva listy, které způsobí nejmenší nárůst m N m Q m (T), až nám zbyde jen kořen. Dá se ukázat, že tato posloupnost obsahuje T α optimální stromy pro daná α. α = 0 neprořezáváme, necháme T 0, pro α = necháme jen kořen, vhodné α zvolíme na základě krosvalidace, ˆα minimalizuje krosvalidační chybu RSS, vydáme model Tˆα.