Pokročilé neparametrické metody. Klára Kubošová

Podobné dokumenty
Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová

KLASIFIKAČNÍ A REGRESNÍ LESY

Připomeň: Shluková analýza

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Strojové učení Marta Vomlelová

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

ANALÝZA A KLASIFIKACE DAT

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Strojové učení Marta Vomlelová

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Rozhodovací stromy a lesy

Úvodem Dříve les než stromy 3 Operace s maticemi

Regresní a korelační analýza

Aplikovaná statistika v R - cvičení 3

Regresní a korelační analýza

Statistická analýza dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Změkčování hranic v klasifikačních stromech

Vytěžování znalostí z dat

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Dálkový průzkum Země. Klasifikace obrazu

Neparametrické metody

Plánování experimentu

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Marta Vomlelová

Vytěžování znalostí z dat

Úvod do problematiky měření

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Moderní systémy pro získávání znalostí z informací a dat

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Kalibrace a limity její přesnosti

Obsah přednášky. 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacking 5. Boosting 6. Shrnutí

Inovace bakalářského studijního oboru Aplikovaná chemie

AVDAT Klasický lineární model, metoda nejmenších

Klasická a robustní ortogonální regrese mezi složkami kompozice

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Lineární regrese. Komentované řešení pomocí MS Excel

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

ANALÝZA A KLASIFIKACE DAT

Kybernetika a umělá inteligence, cvičení 10/11

INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2

Stavový model a Kalmanův filtr

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty

Tomáš Karel LS 2012/2013

Normální (Gaussovo) rozdělení

Regresní a korelační analýza

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

4ST201 STATISTIKA CVIČENÍ Č. 10

KORELACE. Komentované řešení pomocí programu Statistica

2019/03/31 17:38 1/2 Klasifikační a regresní stromy

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Regresní a korelační analýza

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Jana Vránová, 3. lékařská fakulta, UK Praha

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Univerzita Pardubice 8. licenční studium chemometrie

Pokročilé neparametrické metody

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Normální (Gaussovo) rozdělení

DATA MINING KLASIFIKACE DMINA LS 2009/2010

Číselné charakteristiky a jejich výpočet

Korelační a regresní analýza

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Genetické programování

KGG/STG Statistika pro geografy

IBM SPSS Decision Trees

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Cvičná bakalářská zkouška, 1. varianta

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

AVDAT Mnohorozměrné metody, metody klasifikace

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

4EK211 Základy ekonometrie

Kombinování klasifikátorů Ensamble based systems

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Aleh Masaila. Regresní stromy

Regresní a korelační analýza

Pravděpodobnost, náhoda, kostky

Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD

Transkript:

Pokročilé neparametrické metody Klára Kubošová

Klasifikační a regresní lesy Pokročilé neparametrické metody

Klasifikační a regresní lesy Klasifikační les Klasifikační les je klasifikační model vytvořený kombinací určitého počtu klasifikačních stromů. Každý strom přiřazuje hodnotě vektoru prediktorů nějakou třídu. Výsledná klasifikace je dána hlasováním nebo jako průměr pravděpodobnosti (zastoupení kategorie v terminálním uzlu) Regresní les Je tvořen několika regresními stromy. Výsledná regresní funkce je definována jako vážený průměr regresních funkcí několika stromů.

Metody vytváření lesů Bagging bootstrap aggregating Boosting Random forests Do lesa není vidět!

Bagging bootstrap aggregating Leo Breiman (1996) Technika pro zvýšení stability a přesnosti u klasifikačních a regresních metod nejčastěji používaná pro rozhodovací stromy, ale použitelná i pro ostatní modely Z trénovacího souboru L (o velikosti n) se náhodným výběrem s vracením vytvoří k souborů L 1,,L k, o velikosti n ' n (vytvoříme k bootstrapových výběrů) Každý z výběrů se použije na tvorbu klasifikačního (regresního) stromu Výsledný klasifikační les je dán většinovým hlasováním se stejnými váhami nebo jako průměr pravděpodobnosti, u regresních lesů pak aritmetickým průměrem dílčích regresních funkcí.

Moudrost davu (Wisdom of Crowds) James Surowiecki, 2004 skupinový úsudek je daleko inteligentnější a přesnější než úsudek jednotlivce, v případech, kdy jde o hodnocení faktů každý příslušník davu musí činit svůj úsudek na základě vlastních, nezávislých informací Výsledek je dán hlasováním Stromy nejsou nezávislé Pokud je klasifikátor dobrý pomocí baggingu bude ještě lepší, pokud je klasifikátor špatný, použití baggingu může přinést horší výsledky

Moudrost davu (Wisdom of Crowds) (Hastie et. al, 2009) -hlasování akademiků k udělování cen -pouze 30% voličů mělo nějakou znalost - 50 členů volilo v 10 kategoriích, každá se 4 nominacemi -Pouze 15 voličů mělo nějakou znalost, která je reprezentována pravděpodobností jejich výběru vybrat správného kandidáta (p = 0.25 znamená, že neměli znalost). - pro každou kategorii bylo náhodně vybráno 15 expertů z 50 -Proběhlo 50 simulací

Boosting (to boost = zesilovat) algoritmus AdaBoost (adaptive boosting) Mějme klasifikační strom T vytvořený na základě trénovacích dat, kdy každému případu z trénovací množiny je přiřazena určitá váha. Konstruujeme posloupnost rozdílných stromů T 1,, T K tak, že podle předchozích výsledků postupně upravujeme váhy případů. V 1. kroku je zadán vektor vah (např. rovnoměrné váhy.) V dalších krocích: pro konstrukci T i se váhy případů, které byly špatně klasifikovány stromem T i-1 zvýší, váhy správně klasifikovaných případů se sníží pozornost je soustředěna na případy, které jsou špatně klasifikovány je-li v datech obsaženo malé množství informace, vede boosting k tomu, že se učíme opakovat chyby v datech

Random Forests pro regresi a klasifikaci looking inside the black box is necessary Leo Breiman?

Použití RF měření významnosti proměnných efekt proměnných na predikci Shlukování detekce odlehlých hodnot Klasifikace predikce

Random forests Trénovací soubory pro jednotlivé stromy (jako v baggingu) jsou bootstrapové výběry z datového souboru L Při volbě větvení se z m prediktorů, které jsou k dispozici, nejprve vybere některých m 0, pak se již nejlepší větvení hledá klasicky, ale jen mezi těmi větveními, která jsou založena na vybraných m 0 veličinách Pěstují se velké stromy, které se neprořezávají na kvalitě jednotlivého stromu příliš nezáleží; cílem není minimalizovat chybu jednoho stromu, ale celého lesa

Random Forests I. random Forests je model vytvořený kombinací určitého počtu klasifikačních (či regresních) stromů. f(x,t,θ k ), k = 1,2,...,K u regrese je predikcí nevážený průměr celého lesa, u klasifikace pak větší počet hlasů

Random forests II. data- trénovací x testovací Trénovací soubory pro jednotlivé stromy jsou bootstrapové výběry z datového souboru 1 3 Testovací soubory out of bag výběr 12 5 7 Při volbě větvení se z m prediktorů, které jsou k dispozici nejprve vybere některých m 0, pak se již nejlepší větvení hledá klasicky, ale jen mezi těmi větveními, která jsou založena na vybraných m 0 veličinách Pěstují se velké stromy, které se neprořezávají Přesnost (Accuracy ) odhad chyby predikce oob výběr

Random forest Importance I. Metoda přínosná u problémů s velkým množstvím prediktorů, které mnohdy obsahují málo informací o závisle proměnné Náhodné lesy vracejí několik měření významnosti (importance) proměnné nejčastější měření importance: měření založené na poklesu klasifikační přesnosti, když hodnoty proměnné v uzlu stromu jsou permutovány náhodně Procedura se dá popsat následovně: vytvoříme bootstrapové výběry z M -prediktorů vybereme m 0 po vytvoření jednotlivých stromů, jsou hodnoty m-té proměnné z OOB (pozorování, která zůstala mimo výběr) vzorku náhodně permutovány

Random forest Importance II. u každého vzorku z OOB výběru je pomocí příslušného klasifikačního stromu zjištěn výsledek klasifikace, opakováno pro M = 1,..., m na konci jsou srovnány klasifikace vzorků u m-té proměnné takto zatížené šumem se správnou klasifikací těchto vzorků odečteme misclasification ratei od celkové chyby lesa, čímž jsou zjištěny hodnoty misclassification rate, které určují významnost jednotlivých prediktorů

Příklad - genetika RF byl použit na microarray datový soubor, celkem 81 pacientů (s leukémií) bylo rozděleno do tří tříd. Prediktory - 4682 genů bez jakéhokoli předešlého výběru. Chybovost výsledného lesa byla nízká (1.2%). Cílem nebyla pouze predikce nových pacientů do těchto tří skupin, ale rovněž zjištění, které geny byly pro rozdělení nejvýznamnější

Efekt proměnných na predikci Pro případy z oob výběru známe třídu do které byl vzorek zařazen můžeme zjistit proporci jednotlivých tříd u všech vzorků (cpv proportions of the vote for each class) pro každou třídu a každou proměnnou m: cpv cpvrand

Shlukování neprořezané stromy konečný počet uzlů obsahuje pouze malý počet vzorků všechny vzorky z trénovacího souboru necháme zařadit stromem- jestliže vzorky leží v jednom uzlu, zvýší se těsnost (proximity) mezi nimi na jedna; prox(n,k) po proběhnutí procedury podělíme matici proximities celkovým počtem stromů získáme matici M prox 1- M prox lze spočítat scaling coordinates

Detekce odlehlých hodnot vzorky, které mají nejmenší proximities ke všem ostatním vzorkům definován pouze pro třídu, do které patří pro vzorek n, spočítáme sumu čtverců prox(n,k) pro všechny k ve stejné třídě jako vzorek n Vezmeme převrácenou hodnotu sumy- bude větší jestliže prox(n,k) pro n k dalším vzorkům k ve stejné třídě bude obecně malá - out(n) Pro všechny vzorky v dané třídě spočítáme medián z out(n) a průměrnou odchylku od mediánu out(n) < 0 jsou převedeny na nulu out(n) > 10 je považováno za odlehlou hodnotu

Příklad I: Kriminalistika Studie různých typů klasifikací skla byla motivována vyšetřováním trestných činů. Sklo z místa činu může být použito jako důkaz...jestliže je správně identifikováno! Datový soubor obsahuje 214 vzorků šesti druhů různého skla a devět prediktorů různé chemické parametry skla. typy skla: (class) -- A okenní sklo (z domu)1 -- B okenní sklo (z domu)2 -- C okenní sklo (z auta)1 -- D okenní sklo (z auta)2 -- E obalové sklo -- F sklo z nádobí -- G reflektorové sklo Prediktory: index lomu (RI), Na, Mg, Al, Si, K, Ca, Ba, Fe

Příklad I: Výsledek klasifikace R-project, knihovna randomforest randomforest(formula = class ~., data = glass, importance = TRUE,proximity = TRUE) Type of random forest: classification Number of trees: 500 No. of variables tried at each split: 3 OOB estimate of error rate: 21.03% Confusion matrix: A B C E F G class.error A 60 8 2 0 0 0 0.1428571 B 10 60 1 3 1 1 0.2105263 C 6 4 7 0 0 0 0.5882353 E 0 2 0 10 0 1 0.2307692 F 0 2 0 0 7 0 0.2222222 G 1 3 0 0 0 25 0.1379310 Pokročilé neparametrické metody

Příklad I: Významnost proměnných Pokročilé neparametrické metody

Příklad I: Parametry, které je potřeba testovat ntree počet stromů v lese mtry počet (náhodně) vybraných prediktorů nnode počet vzorků v terminálním uzlu % vzorků pro testování (OOB výběr) Výsledky testovací chyby pro různé mtry mtry = 1 OOB error = 23.36% mtry = 2 OOB error = 25.56% mtry = 3 OOB error = 21.3% mtry = 4 OOB error = 22.9% mtry = 5 OOB error = 23.36% mtry = 6 OOB error = 26.17% mtry = 7 OOB error = 23.36% mtry = 8 OOB error = 23.36%

Příklad I: počet stromů v lese 1.0 0.8 Error Rate 0.6 0.4 0.2 0.0 0 100 200 300 400 500 Number of Trees

Příklad I: Efekt proměnných na predikci Parallel Coordinates 1.0 Standardized Values 0.8 0.6 0.4 0.2 0.0 MG K NA BA CA AL RI SI FE A/Med B/Med C/Med E/Med F/Med G/Med Prediktory jsou seřazeny podle významnosti

Pravděpodobnostní mapa překryv tříd skla A B C E F G A B C E G

Příklad I: Shlukování - nemetrické mnohorozměrné škálování probíhá na matici těsnosti (proximities) - matici těsnosti je možné použít pro všechny typy ordinačních a shlukových analýz, neboť má všech vlastnosti matice vzdáleností

Detekce odlehlých hodnot Měření odlehlosti pozorování Outlyingness 40.0000 30.0000 A B C E F G 20.0000 10.0000 0.0000 93 104 137 102 105 184 128 125 142 183 9 185 106 130 109 22 57 158 162 129 107 145 11 96 13 100 110 163 202 6 152 98 36 103 127 164 188 3 ID pozorování Pokročilé neparametrické metody

Příklad II: Biomedicína Soubor dat se skládá se z šesti proměnných. Prediktory jsou výsledky krevních testů, které mají vztah k fungování jater a poslední proměnnou je spotřeba alkoholu na den. Celkem 345 pacientů, bylo zařazeno do dvou tříd podle závažnosti poruchy funkce jater. Procento správně klasifikovaných vzorků z RF bylo 28%

Příklad II: Významnost proměnných Proměnné 1-5 krevní testy; 6 spotřeba alkoholu na den? Alkohol nemá vliv?

Příklad II: metrické mnohorozměrné škálování matice těsnosti Třídu 2 je možné rozdělit na další dvě kategorie

Příklad II: Významnost proměnných na predikci II Spotřeba alkoholu na den již významný prediktor!

Literatura Breiman L. (1996) Bagging predictors. Machine Learning 24, pp.123-140. Breiman L. (2001) Random forests. Machine Learning 45, pp. 5-32. Breiman L. (July 2002), LOOKING INSIDE THE BLACK BOX, Wald II Using Random Forest to Learn Imbalanced Data, Chao Chen, Andy Liaw & Leo Breiman, July 2004 The Elements of. Statistical Learning: Data Mining, Inference, and Prediction. Second Edition. February 2009. T.Hastie, R.Tibshirani, J. Friedman