Pokročilé neparametrické metody. Klára Kubošová

Podobné dokumenty
Pokročilé neparametrické metody. Klára Kubošová

odpovídá jedna a jen jedna hodnota jiných

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Rozhodovací stromy a lesy

Úvodem Dříve les než stromy 3 Operace s maticemi

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Cvičení 12: Binární logistická regrese

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

4EK211 Základy ekonometrie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Statistika (KMI/PSTAT)

AVDAT Výběr regresorů v mnohorozměrné regresi

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Lineární a logistická regrese

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB

Připomeň: Shluková analýza

Tabulka 1 Rizikové online zážitky v závislosti na místě přístupu k internetu N M SD Min Max. Přístup ve vlastním pokoji ,61 1,61 0,00 5,00

Kalibrace a limity její přesnosti

Inovace bakalářského studijního oboru Aplikovaná chemie

LINEÁRNÍ MODELY. Zdeňka Veselá

Jana Vránová, 3. lékařská fakulta UK

KGG/STG Statistika pro geografy

Regresní a korelační analýza

Regresní analýza. Eva Jarošová

Aplikovaná statistika v R - cvičení 3

Přednáška 4: Rozhodovací stromy a jejich regresní varianty

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Diagnostika regrese pomocí grafu 7krát jinak

Pokročilé neparametrické metody. Klára Kubošová

AVDAT Nelineární regresní model

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU


Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Prostorová variabilita

Regresní a korelační analýza

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Regresní a korelační analýza

Regresní a korelační analýza

Kontingenční tabulky, korelační koeficienty

Statistická analýza jednorozměrných dat

Regresní analýza 1. Regresní analýza

5EN306 Aplikované kvantitativní metody I

PRAVDĚPODOBNOST A STATISTIKA

AVDAT Klasický lineární model, metoda nejmenších

STATISTICA Data Miner

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Přednáška 13 Redukce dimenzionality

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Tomáš Karel LS 2012/2013

2019/03/31 17:38 1/2 Klasifikační a regresní stromy

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

IBM SPSS Decision Trees

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Kontingenční tabulky, korelační koeficienty

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Statistická analýza dat

7. Analýza rozptylu.

Jana Vránová, 3. lékařská fakulta, UK Praha

vzorek vzorek

PRAVDĚPODOBNOST A STATISTIKA

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Aleh Masaila. Regresní stromy

PRAVDĚPODOBNOST A STATISTIKA

Měření závislosti statistických dat

TGH09 - Barvení grafů

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Apriorní rozdělení. Jan Kracík.

Aproximace a vyhlazování křivek

Popis metod CLIDATA-GIS. Martin Stříž

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Korelační a regresní analýza

MODEL TVÁŘECÍHO PROCESU

Lineární regrese. Komentované řešení pomocí MS Excel

Fakt. Každou soustavu n lineárních ODR řádů n i lze eliminací převést ekvivalentně na jednu lineární ODR

4EK211 Základy ekonometrie

Automatizované metody výběru podmnožiny vysvětlujících proměnných v regresním modelu a problémy s nimi spojené

6. Lineární regresní modely

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

9.5. Soustavy diferenciálních rovnic

5.1 Rozhodovací stromy

Mezi jednotlivými rozhraními resp. na nosníkových prvcích lze definovat kontakty

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Statistická analýza jednorozměrných dat

1 Úvod do celočíselné lineární optimalizace

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Transkript:

Klára Kubošová

Další typy stromů CHAID, PRIM, MARS

CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení se používá χ2 test. Větvení se zastaví pokud neexistuje statisticky signifikantní rozdělení. Pro každý prediktor a závisle proměnnou se vytvoří kontingenční tabulka, pro všechny dvojice hodnot prediktoru se spočítá χ2 test.

CHAID - Chi-squared Automatic Interaction Detector špatný dostatečný dobrý výborný A1 A2 A3 A4 A5 A6 špatný dostatečný dobrý výborný A1+A2 A3 A4+A5+A6 A1+A2 A3 A4+A5+A6

CHAID - algoritmus Vytvoří se kontingenční tabulka pro závisle proměnnou a každý prediktor Pokud je počet kategorií prediktoru > 2, najde se nejlepší kombinace proměnných Utvoří se dvojice z kategorií prediktoru Dvojice, které nejsou statisticky významné se postupně seskupují jen do dvou výsledných skupin. pomocí χ2 testu se spočítá významnost p pro každý z možných způsobu shlukování hodnot shlukování s nejnižší hodnotu p se zvolí za "nejlepší shlukování hodnot prediktoru zjistíme, jestli toto nejlepší statisticky významné shlukování přispěje k odlišení různých kategorií Následně se vybere takový prediktor a jeho kategorizace, který je pro dané větvení nejlepší. po jednom větvení může vzniknou více uzlů, jejich interpretace je však obtížnější než u binárních stromů a po prvním dělení už většinou nezbývá dostatek vzorků na vytvoření dalších pater stromu.

MARS - Multivariate Adaptive Regression Splines Friedman (1991) zobecnění postupné (stepwise) lineární regrese technika pro regresní problémy, místo pravoúhelníku je zde využito lineárních splinů. Vzniká sada jednoduchých dělení s jedním větvením daným dvěma polopřímkami - na rozdíl od CART, se zde používá lineární aproximace a nikoli konstanta

MARS spliny - po částech lineárních funkce (x - t) + a (t - x) +, kde + je kladná část (x - t), pokud x > t (t - x), pokud x < t (x - t) + = (t - x) + = 0, jinak 0, jinak se svým středem (uzel) v každé hodnotě x ij, pro každý prediktor X j. Zrcadlový pár Příklad funkce (x 0.5) + a (0.5 - x) + (Hastie et. al, 2009)

MARS Vyvoří se páry pro všechny hodnoty všech preiktorů Množina C reprezentuje množinu kandidátských funkcí lineárních splinů model je tvořen prvky z množiny C nebo jejich kombinací C = {( X ) ( ) } j t, t X + j + t { x x, K x } j = 1,2, K, p 1 j, 2 j Nj Pokud jsou hodnoty prediktoru rozdílné, existuje 2Np základních funkcí h(x) = (X j t) +

MARS Model: f M ( X ) = β + 0 βmhm ( X ) m= 1 Koeficienty β pro dané h m jsou odhadovány stejně jako u lineární regrese metodou nejmenších čtverců Všechny funkce z C jsou kandidátské funkce Algoritmus začíná s konstantní funkcí h m (X) =1, vzniká sada splinů ( zrcadlových párů po částech lineárních funkcí) se svým středem v každé hodnotě x ij, pro každý prediktor X j. Projdou se všechny páry, do modelu je vybráno takové dělení, které snižuje reziduální chybu

MARS - algoritmus (Hastie et. al, 2009)

h(x 1,X 2 ) = (X 1 -x 51 ) + *(x 72 X 2 ) + (Hastie et. al, 2009) MARS - interakce

Optimální počet členů v rovnici Příliš velký model může být přetrénovaný Procedura zpětného odstraňování odstraníme členy, které způsobují nejmenší zvýšení chyby (reziduálního součtu čtverců) K určení optimální velikosti se používá krosvalidace (generalized crossvalidation) GCV ( λ) = = N ( y fˆ ( x )) i 1 i i ( 1 M ( λ) N ) 2 2 M(λ) je počet parametrů v modelu, c=3 (c=2 pokud je porušena aditivita), r je počet lineárně nezávislých základních funkcí v modelu a K počet vybraných uzlů (forward selection) ( λ) = r ck M + Vybíráme model, který minimalizuje GCV(λ)

MARS Výhoda oproti CART -modelovaná plocha je spojitá a zahrnuje i případnou aditivitu proměnných Zahrnuje interakci proměnných Metoda vhodná pro velký počet prediktorů Nevýhodou je méně názorná interpretace chybí stromová struktura Dopředný výběr proměnných je hierarchický Každý vstup se může v modelu objevit pouze jednou PolyMARS (Stone et al., 1997) pro klasifikaci

PRIM - Patient Rule Induction Method PRIM (Friedman & Fisher, 1999) - metoda primárně určena pro regresi. rozděluje prostor na pravoúhelníky- vyhledávají se takové, ve kterých je odpovídající průměr hodnot závisle proměnné nejvyšší. Pravoúhelník se postupně zmenšuje- na začátku algoritmus vybere nejvýhodnější osu podle pozorování, mající nejvyšší nebo nejnižší hodnoty prediktoru X j. Vybere se takové zmenšení, které má nejvyšší průměr hodnot závisle proměnné Y ve zbývajícím pravoúhelníku. To se opakuje do předem definované hodnoty minimálního počtu pozorování (např. 10) v pravoúhelníku.

PRIM - algoritmus (Hastie et. al, 2009)

PRIM - algoritmus 200 bodů, rovnoměrně rozdělených do jednotkového čtverce Závisle proměnná Y má hodnotu 1 (červená barva) pokud je 0.5 <X 1 <0.8 a 0.4 <X 2 <0.6 Závisle proměnná Y má hodnotu 0, modrá barva Proporce bodů o které se okno posune α=0.1

PRIM - algoritmus 1. okno obsahuje celý datový soubor (trénovací) 2. Okno se zmenšuje podél jedné hrany o malé množství pozorování (často α=0.1 nebo α=0.05) tak aby výsledný průměr ve zmenšeném okně byl co největší, pozorování které jsou odstraněna z okna mají nejvyšší (nejnižší) hodnoty prediktoru X j Krok 1 a 2 se opakuje dokud okno neobsahuje předem stanovené minimum pozorování (např. 10) 3. dochází k reverznímu procesu-okno je zpětně rozšiřováno do všech směrů, ale jen pokud se zvýší průměr v okně Z kroku 1-3 se získá sekvence oken o různém počtu pozorování 4. použije se krosvalidace k vybrání optimálního okna B 1 5. Odstraní se vzorky z okna B 1 Krok 2-5 se opakuje, dokud není dosaženo konečného počtu oken B 1,B 2,.. B K Okna jsou dána rozhodovacími pravidly Stejně jako v CART lze použít kategoriální prediktor

PRIM Oproti CART je výhodou, že se probere větší škála pravidel a můžeme najít optimální řešení Nevýhoda- není k dispozici stromová struktura, pouze pravidla