Rozhodovací stromy Marta Žambochová

Rozhodovací stromy Marta Žambochová Obsah: 1 Úvod... Algoritmy ro vytváření rozhodovacích stromů... 3.1 Algoritmus CART... 3.1.1 lasifikační stromy... 3.1. Regresní stromy... 4. Algoritmus ID3... 4.3 Algoritmus C4.5... 5.4 AID... 5.5 CHAID... 6.6 QUEST... 6 3 Literatura... 7 1

Rozhodovací stromy Marta Žambochová 1 Úvod Velmi rozšířenou skuinou stromů, kterých se využívá v datových modelech, jsou různé tyy rozhodovacích stromů. Rozhodovací stromy jsou struktury, které rekurzivně rozdělují zkoumaná data dle určitých rozhodovacích kritérií. ořen stromu rerezentuje celý oulační soubor. Vnitřní uzly stromu rerezentují odmnožiny oulačního souboru. V listech stromu můžeme vyčíst hodnoty vysvětlované roměnné. Rozhodovací strom se vytváří rekurzivně dělením rostoru hodnot rediktorů (vysvětlující, nezávislé roměnné). Máme-li strom s jedním listem, hledáme otázku (odmínku větvení), která nejlée rozděluje rostor zkoumaných dat do odmnožin, tj. maximalizuje kritérium kvality dělení (tzv. slitting criterium). Takto nám vznikne strom s více listy. Nyní ro každý nový list hledáme otázku, která množinu rediktorů náležící tomuto listu co nejlée dělí do odmnožin. Proces dělení se zastaví, okud bude slněno kritérium ro zastavení (tzv. stoing rule). Omezení obsažená v kritériu ro zastavení mohou být nař. hloubka stromu, očet listů stromu, stueň homogennosti množin dat v listech, Dalším krokem algoritmů je rořezávání stromu (running). Je nutno určit srávnou velikost stromu (říliš malé stromy dostatečně nevystihují všechny zákonitosti v datech, říliš veliké stromy zahrnují do oisu i nahodilé vlastnosti dat). Vygenerují se odstromy stromu vzniklé budovacím algoritmem a orovnává se kvalita generalizace těchto odstromů (jak dobře vystihují data). Postu může být takový, že se rozhodovací stromy nejdříve vytváří na tzv. trénovacích datech a oté se jejich kvalita ověří na tzv. testovacích datech. Jiným zůsobem je křížová validace (cross validation), kdy k vytváření stromu a jeho odstromů oužijí všechna data. Poté se data rozdělí na několik disjunktních, řibližně stejně velkých částí a ostuně se vždy jedna část dat ze souboru vyjme. Pomocí vzniklých souborů dat se ověřuje kvalita stromu a jeho odstromů. Vybere se takový odstrom, který má nejnižší odhad skutečné chyby. Pokud existuje více odstromů se srovnatelným odhadem skutečné chyby, vybírá se ten nejmenší. Jednotlivé algoritmy vytváření rozhodovacích stromů se liší následnými charakteristikami: ravidlo dělení (slitting rule) kritérum ro zastavení (stoing rule) ty odmínek větvení o multivariantní (testuje se několik rediktorů) o univariantní (v daném kroku se testuje ouze jeden z rediktorů) zůsob větvení o binární (každý z uzlů, kromě listů, se dělí na dva následníky) o k-ární (některý z uzlů se dělí na více než dvě části) ty výsledného stromu, ois obsahu listů o klasifikační stromy (v každém listu je řiřazení třídy) o regresní stromy (v každém listu je řiřazení konstanty odhad hodnoty závislé roměnné) ty rediktorů kategoriální ordinální

Algoritmy ro vytváření rozhodovacích stromů Pro vytváření rozhodovacích stromů bylo vyvinuto velké množství algoritmů. Nejvíce oužívané jsou CART, ID3, C4.5, AID, CHAID a QUEST..1 Algoritmus CART Algoritmus orvé osali jeho autoři Breiman, Freidman, Olshen a Stone v roce 1984 ve článku Classification and Regression trees. Algoritmus je oužitelný v říadě, že máme jednu nebo více nezávislých roměnných. Tyto roměnné mohou být buď sojité nebo kategoriální (ordinální i nominální). Dále máme jednu závislou roměnnou, která také může být kategoriální (nominální i ordinální) nebo sojitá. Výsledkem algoritmu jsou binární stromy, rotože jsou zde říustné ouze otázky (odmínky dělení), na které je možno odovědět ano/ne (Je věk menší než 30 let? Je ohlaví mužské? ) V každém kroku algoritmus rochází všechna možná dělení omocí všech říustných hodnot všech nezávislých roměnných a hledá nejleší z těchto dělení. Měřítkem, které dělení je leší, je zvýšení čistoty dat. To znamená, že jedno dělení je leší než druhé, okud jeho uskutečněním obdržíme dva homogennější (vzhledem k závislé roměnné) soubory dat než uskutečněním druhého dělení. Algoritmus dělení je různý ro klasifikační stromy a ro stromy regresní..1.1 lasifikační stromy lasifikační stromy oužíváme v říadě, že je závislá roměnná kategoriální. To znamená, že se soubor ůvodních dat snažíme v závislosti na nezávislých roměnných rozdělit do skuin, řičemž, v ideálním říadě, každá skuina má řiřazení ke stejné kategorii závislé roměnné. Homogenita uzlů-otomků je měřena omocí tzv. funkce znečištění (imurity function) i(t). Maximální homogenita vzniklých dvou otomků je očítána jako maximální změna (snížení) znečištění i(t). i( t) i( tr ) E( i( td )) kde t r je rodičovský uzel, t d je uzel-otomek. Pro ravého otomka t, ravděodobnost ravého otomka P a levého otomka t l, ravděodobnost levého otomka P l ak dosazením do vzorce ro střední hodnotu dostáváme. i t) i( t ) P i( t ) P i( t ) ( r l l Algoritmus CART řeší ro každý uzel maximalizační roblém ro funkci i(t) řes všechna možná dělení uzlu, to znamená, že hledá dělení, které řináší maximální zlešení homogenity dat. Funkci i(t) je možno definovat různými zůsoby. Mezi dva nejrozšířenější atří tzv. Gini index a Twoing ravidlo. Gini index Gini index je asi nejoužívanější definice funkce znečištění. Funkce i(t) je definována následovně: i ( t) P( k t) P( l t) k l 3

kde t je uzel, k,l jsou indexy třídy závislé roměnné, k,l = 1,, ; P(k t), P(l t) jsou odmíněné ravděodobnosti. Dosazením této funkce do ředisu ro i(t) dostáváme: i( t) i( t k 1 r ) P i( t ) P P ( k t ) r l l i( t ) 1 P ( k tl ) k 1 k 1 P ( k tr ) Pl (1 P ( k tl )) P (1 k1 k1 k 1 P ( k t ) P ( k t Gini index hledá v trénovacích datech největší třídu závislé roměnné a odděluje ji od ostatních dat. Gini index dobře funguje ro znečištěná data. )) Twoing ravidlo Na rozdíl od Gini indexu Twoing ravidlo hledá dvě třídy, které dohromady obsáhnou více než 50% dat. Twoing ravidlo maximalizuje následující změnu funkce znečištění. P l P i ( t) ( ) ( ) 4 P k tl P k t k1 kde t je uzel, k,l jsou indexy třídy závislé roměnné, k,l = 1,, ; P ravděodobnost ravého otomka t a P l, ravděodobnost levého otomka t l ; P(k t), P(l t) jsou odmíněné ravděodobnosti. Vytváření stromů s omocí Twoing ravidla je omalejší než za oužití Gini indexu. Výhodou ovšem je, že vytváříme více vybalancované stromy..1. Regresní stromy Regresní stromy se oužívají v říadě, že závislá roměnná není kategoriální. aždá její hodnota může být v obecnosti různá. V tomto říadě algoritmus hledá nejleší dělení na základě minimalizace součtu roztylů v rámci jednotlivých dvou vzniklých uzlů-otomků. Algoritmus racuje na základě algoritmu minimalizace součtu čtverců.. Algoritmus ID3 Další z užívaných algoritmů je algoritmus ID3 (Iterative Dichotomizer 3). Porvé jej autor Quinlan,J.R. osal v roce 1975. Tento algoritmus oět racuje na rinciu induktivního vytváření stromu odshora dolů. Je založen na rinciu tzv. Ockhamovy břitvy (jsou-li dva modely srovnatelně dobré, ak se referuje jednodušší model a složitější je znevýhodněn). Algoritmus je oužitelný v říadech, že všechny roměnné jsou kategoriální. Je určený ředevším ro vytváření menších stromů. Algoritmus oět začíná s jediným uzlem kořenem stromu, jemuž náleží všechny datové objekty. V každém kroku je ro každý listový uzel, který dosud neobsahuje homogenní data, hledáno co nejleší dělení, omocí něhož vzniknou další listové uzly. V tomto algoritmu je ro dělení vybrán jeden z atributů (nezávislá roměnná) a dělení je rovedeno na tolik uzlů-otomků, kolik má tento atribut kategorií. Jako testový je vybírán takový atribut, jehož míra charakterizující homogenitu dat je minimální. Tato míra 4

homogenity se nazývá entroie. Entroie je definována ro každou ze vznikajících větví ředisem: c c E ( b) ( ) log ( ) c kde b je vznikající větev, c je třída závislé roměnné, n b je očet objektů ve větvi b, n cb je očet objektů třídy c ve větvi b. Pro minimalizaci se ak oužívá růměrná entroie řes všechny větve dělení daného uzlu ro daný atribut, která je definována ředisem: E ( ) E( b) nt kde n t je celkový očet objektů ve všech větvích. Pokud existuje dělení omocí nějakého atributu, které má hodnotu entroie 0, bude tento krok budování stromu oslední a roces dělení končí..3 Algoritmus C4.5 Algoritmus osal jeho autor Quinlan,J.R. v roce 1993 v materiálu C4.5: Programs for Machine Learning. Je založen na rinciu algoritmu ID3, ale má několik vylešení, která jsou zvláště otřebná ro SW imlementaci. Mezi tato vylešení atří možnost využití algoritmu ro sojité atributy, ro data s chybějícími údaji, ale i další. romě obecné entroie je zde využívána i odmíněná entroie, která je definována ředisem: x x E( x T ) log Na základě těchto dvou entroií je dále definován zisk, který se snažíme maximalizovat řes různá dělení atributů dle hodnot x. Zisk je definován následným ředisem: Zisk ( A, x) E A E( x A) kde A je vybraný atribut, E A jeho entroie, x hodnota..4 AID V roce 1963 navrhli J.N. Morgan a J.A. Sonquist jednoduchou metodu na vytváření stromů ro ředovídání kvantitativní roměnné. Tuto metodu nazvali AID (Automatic Interaction Detection). Algoritmus začíná solečným shlukem všech objektů a dále rovádí ostuně štěení. aždý kvantitativní (nebo alesoň ordinální) rediktor je testován ro dělení následujícím zůsobem. Setřídíme všech n (n je očet zkoumaných objektů) hodnot rediktoru a zkoušíme všech n-1 zůsobů, jak tento setříděný soubor rozdělit na dvě části. Pro každé dělení vyočítáme vnitroskuinový součet čtverců hodnot závislé roměnné. Z těchto n-1 štěení vybereme to nejleší (s minimálním součtem čtverců) a toto budeme brát jako dělení daného rediktoru. e kategoriálním (ne ordinálním) rediktorům řistuujeme odlišně. Z důvodu, že kategorie nelze setřídit musíme zkoumat všechny možné skuiny ro štěení na dvě části. 5

Těchto různých dělení je k-1 (kde k je očet kategorií). Dále okračujeme obdobně jako v říadě kvantitativních rediktorů výočtem a minimalizací vnitroskuinových součtů čtverců hodnot závislé roměnné. Ze všech rediktorů nakonec vybereme ro výsledné dělení ten, který má nejmenší vnitroskuinový součet čtverců. Takto se okračuje, dokud se nedostaneme k výsledku, že neexistuje žádné významné dělení..5 CHAID Metodu CHAID (Chi-squared Automatic Interaction Detektor) vyvinul v roce 1980 G.V. ass. Tato metoda je modifikací metody AID ro kategoriální závislou roměnnou. Výsledkem jsou nebinární stromy. Metoda využívá k testování - test. Z důvodu obavy o časovou náročnost v ůvodním algoritmu autor hledá ouze subotimální štěení namísto rohledávání všech možných a hledání otimálního štěení. Algoritmus štěení robíhá následovně. V rámci jednoho listového uzlu se vytvoří kontingenční tabulka (rozměrů mxk) hodnot rediktoru (m kategorií) a závislé roměnné (k kategorií). Dále se najde dvojice kategorií rediktoru, ro které má subtabulka rozměrů xk nejméně významnou hodnotu - testu. Tyto dvě kategorie se sloučí. Tímto nám vzniká nová kontingenční tabulka o rozměrech (m-1)xk. Proces slučování oakujeme až do doby, kdy klesne významnost - testu od ředem zadanou hodnotu. Tímto je ukončen roces štěení jednoho rodičovského uzlu na několik uzlů-otomků. Dále se okračuje obdobně ro každý listový uzel až do doby nevýznamného výsledku - testu..6 QUEST Tato metoda je osána ve článku z roku 1997 autorů W.Y. Loh and Y.S. Shih: Slit selection methods for classification trees. Algoritmus je oužitelný ouze ro nominální závislou roměnnou. Obdobně, jako v říadu CART, jsou vytvářeny ouze binární stromy. Na rozdíl od metody CART, která výběr roměnné ro štěení uzlu a výběr dělícího bodu rovádí v růběhu budování stromu současně, rovádí metoda QUEST toto odděleně. Metoda QUEST (for Quick, Uiased, Efficient, Statistical Tree) odstraňuje některé nevýhody algoritmů oužívajících vyčerávající hledání (nař. CART), jako je náročnost zracování, snížení obecnosti výsledku, Tato metoda je vylešením algoritmu FACT, který osali autoři W.-Z. Loh a N. Vanichsetakul v roce 1988. V rvním kroku algoritmus řevede všechny kategoriální nezávislé roměnné na ordinální omocí CRIMCOORD transformace. Dále v každém listovém uzlu, je ro každou roměnnou rováděn ANOVA F-test. Pokud největší ze vzniklých F-statistik je větší než ředem daná hodnota F 0, ak říslušná roměnná je vybrána ro dělení uzlu. Pokud tomu tak není, je ro všechny roměnné roveden Levenův F-test. Pokud je největší Levenova F-statistika větší než F 0, ak je říslušná roměnná vybrána ro dělení uzlu. Pokud tomu tak není (není žádní ANOVA F- statistika ani Levenova F-statistika větší než hodnota F 0, je ro dělení vybrána roměnná s největší ANOVA F-statistikou. Pro dělení uzlu je tedy vybrána ta nezávislá roměnná, která je se závislou roměnnou nejvíce asociována. 6

Pro hledání dělícího bodu ro vybranou nezávislou roměnnou je využívána metoda vadratické diskriminační analýzy (QDA), na rozdíl od algoritmu FACT, kde je využívána metoda Lineární diskriminační analýzy (LDA). Tento ostu je rekurzivně oakován až do zastavení (na základě kritéria ro zastavení). 3 Literatura 1. Antoch J., lasifikace a regresní stromy. Sborník ROBUST 88. Bentley, J. L.: Multidimensional Binary Search Trees Used for Associative Searching. Comm. ACM, vol. 18,. 509-517, 1975 3. Berikov, V., Litvinenko, A.: Methods for statistical data analysis with decision trees, htt://www.math.nsc.ru/ap/datamine/eng/decisiontree.htm 4. Loh, W.-Y. and Shih, Y.-S., Slit selection methods for classification trees, Statistica Sinica, vol. 7, 815-840., 1997 5. Savický, P., laschka, J., a Antoch J.: Otimální klasifikační stromy. Sborník ROBUST 000 6. SPSS-white aer- AnswerTree Algorithm Summary 7. Timofeev R.: Classification and Regression Trees (CART) Theory and Alications, CASE - Center of Alied Statistics and Economics, Humboldt University, Berlin, 004 8. Wilkinson, L.: Tree Structured Data Analysis: AID, CHAID and CART - Sun Valley, ID, Sawtooth/SYSTAT Joint Software onference,199 9. Žambochová M.:Použití stromů ve statistice 10. Žambochová, M.: Rozhodovací stromy a mrkd-stromy v analýze dat, Sborník 7