Pokročilé neparametrické metody. Klára Kubošová

Klára Kubošová

Další typy stromů CHAID, PRIM, MARS

CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení se používá χ2 test. Větvení se zastaví pokud neexistuje statisticky signifikantní rozdělení. Pro každý prediktor a závisle proměnnou se vytvoří kontingenční tabulka, pro všechny dvojice hodnot prediktoru se spočítá χ2 test.

CHAID - Chi-squared Automatic Interaction Detector špatný dostatečný dobrý výborný A1 A2 A3 A4 A5 A6 špatný dostatečný dobrý výborný A1+A2 A3 A4+A5+A6 A1+A2 A3 A4+A5+A6

CHAID - algoritmus Vytvoří se kontingenční tabulka pro závisle proměnnou a každý prediktor Pokud je počet kategorií prediktoru > 2, najde se nejlepší kombinace proměnných Utvoří se dvojice z kategorií prediktoru Dvojice, které nejsou statisticky významné se postupně seskupují jen do dvou výsledných skupin. pomocí χ2 testu se spočítá významnost p pro každý z možných způsobu shlukování hodnot shlukování s nejnižší hodnotu p se zvolí za "nejlepší shlukování hodnot prediktoru zjistíme, jestli toto nejlepší statisticky významné shlukování přispěje k odlišení různých kategorií Následně se vybere takový prediktor a jeho kategorizace, který je pro dané větvení nejlepší. po jednom větvení může vzniknou více uzlů, jejich interpretace je však obtížnější než u binárních stromů a po prvním dělení už většinou nezbývá dostatek vzorků na vytvoření dalších pater stromu.

MARS - Multivariate Adaptive Regression Splines Friedman (1991) zobecnění postupné (stepwise) lineární regrese technika pro regresní problémy, místo pravoúhelníku je zde využito lineárních splinů. Vzniká sada jednoduchých dělení s jedním větvením daným dvěma polopřímkami - na rozdíl od CART, se zde používá lineární aproximace a nikoli konstanta

MARS spliny - po částech lineárních funkce (x - t) + a (t - x) +, kde + je kladná část (x - t), pokud x > t (t - x), pokud x < t (x - t) + = (t - x) + = 0, jinak 0, jinak se svým středem (uzel) v každé hodnotě x ij, pro každý prediktor X j. Zrcadlový pár Příklad funkce (x 0.5) + a (0.5 - x) + (Hastie et. al, 2009)

MARS Vyvoří se páry pro všechny hodnoty všech preiktorů Množina C reprezentuje množinu kandidátských funkcí lineárních splinů model je tvořen prvky z množiny C nebo jejich kombinací C = {( X ) ( ) } j t, t X + j + t { x x, K x } j = 1,2, K, p 1 j, 2 j Nj Pokud jsou hodnoty prediktoru rozdílné, existuje 2Np základních funkcí h(x) = (X j t) +

MARS Model: f M ( X ) = β + 0 βmhm ( X ) m= 1 Koeficienty β pro dané h m jsou odhadovány stejně jako u lineární regrese metodou nejmenších čtverců Všechny funkce z C jsou kandidátské funkce Algoritmus začíná s konstantní funkcí h m (X) =1, vzniká sada splinů ( zrcadlových párů po částech lineárních funkcí) se svým středem v každé hodnotě x ij, pro každý prediktor X j. Projdou se všechny páry, do modelu je vybráno takové dělení, které snižuje reziduální chybu

MARS - algoritmus (Hastie et. al, 2009)

h(x 1,X 2 ) = (X 1 -x 51 ) + *(x 72 X 2 ) + (Hastie et. al, 2009) MARS - interakce

Optimální počet členů v rovnici Příliš velký model může být přetrénovaný Procedura zpětného odstraňování odstraníme členy, které způsobují nejmenší zvýšení chyby (reziduálního součtu čtverců) K určení optimální velikosti se používá krosvalidace (generalized crossvalidation) GCV ( λ) = = N ( y fˆ ( x )) i 1 i i ( 1 M ( λ) N ) 2 2 M(λ) je počet parametrů v modelu, c=3 (c=2 pokud je porušena aditivita), r je počet lineárně nezávislých základních funkcí v modelu a K počet vybraných uzlů (forward selection) ( λ) = r ck M + Vybíráme model, který minimalizuje GCV(λ)

MARS Výhoda oproti CART -modelovaná plocha je spojitá a zahrnuje i případnou aditivitu proměnných Zahrnuje interakci proměnných Metoda vhodná pro velký počet prediktorů Nevýhodou je méně názorná interpretace chybí stromová struktura Dopředný výběr proměnných je hierarchický Každý vstup se může v modelu objevit pouze jednou PolyMARS (Stone et al., 1997) pro klasifikaci

PRIM - Patient Rule Induction Method PRIM (Friedman & Fisher, 1999) - metoda primárně určena pro regresi. rozděluje prostor na pravoúhelníky- vyhledávají se takové, ve kterých je odpovídající průměr hodnot závisle proměnné nejvyšší. Pravoúhelník se postupně zmenšuje- na začátku algoritmus vybere nejvýhodnější osu podle pozorování, mající nejvyšší nebo nejnižší hodnoty prediktoru X j. Vybere se takové zmenšení, které má nejvyšší průměr hodnot závisle proměnné Y ve zbývajícím pravoúhelníku. To se opakuje do předem definované hodnoty minimálního počtu pozorování (např. 10) v pravoúhelníku.

PRIM - algoritmus (Hastie et. al, 2009)

PRIM - algoritmus 200 bodů, rovnoměrně rozdělených do jednotkového čtverce Závisle proměnná Y má hodnotu 1 (červená barva) pokud je 0.5 <X 1 <0.8 a 0.4 <X 2 <0.6 Závisle proměnná Y má hodnotu 0, modrá barva Proporce bodů o které se okno posune α=0.1

PRIM - algoritmus 1. okno obsahuje celý datový soubor (trénovací) 2. Okno se zmenšuje podél jedné hrany o malé množství pozorování (často α=0.1 nebo α=0.05) tak aby výsledný průměr ve zmenšeném okně byl co největší, pozorování které jsou odstraněna z okna mají nejvyšší (nejnižší) hodnoty prediktoru X j Krok 1 a 2 se opakuje dokud okno neobsahuje předem stanovené minimum pozorování (např. 10) 3. dochází k reverznímu procesu-okno je zpětně rozšiřováno do všech směrů, ale jen pokud se zvýší průměr v okně Z kroku 1-3 se získá sekvence oken o různém počtu pozorování 4. použije se krosvalidace k vybrání optimálního okna B 1 5. Odstraní se vzorky z okna B 1 Krok 2-5 se opakuje, dokud není dosaženo konečného počtu oken B 1,B 2,.. B K Okna jsou dána rozhodovacími pravidly Stejně jako v CART lze použít kategoriální prediktor

PRIM Oproti CART je výhodou, že se probere větší škála pravidel a můžeme najít optimální řešení Nevýhoda- není k dispozici stromová struktura, pouze pravidla