Vytěžování znalostí z dat

Podobné dokumenty
Přednáška 10: Kombinování modelů

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Vytěžování znalostí z dat

Kombinování klasifikátorů Ensamble based systems

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Vytěžování znalostí z dat

Kybernetika a umělá inteligence, cvičení 10/11

Statistická analýza dat

Základy vytěžování dat

Vytěžování znalostí z dat

Miroslav Čepek

Vytěžování znalostí z dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Vytěžování znalostí z dat

Obsah přednášky. 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacking 5. Boosting 6. Shrnutí

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Přednáška 13 Redukce dimenzionality

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Vytěžování znalostí z dat

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Strojové učení Marta Vomlelová

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

O kurzu MSTU Témata probíraná v MSTU

Pokročilé neparametrické metody. Klára Kubošová

Statistická teorie učení

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Měření dat Filtrace dat, Kalmanův filtr

Pravděpodobně skoro správné. PAC učení 1

AVDAT Nelineární regresní model

Téma 9: Vícenásobná regrese

Vytěžování znalostí z dat

Odhady Parametrů Lineární Regrese

LDA, logistická regrese

Regresní a korelační analýza

Pokročilé neparametrické metody. Klára Kubošová

Měření dat Filtrace dat, Kalmanův filtr

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Regresní a korelační analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Úloha - rozpoznávání číslic

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Instance based learning

Regresní a korelační analýza

Klasifikace a rozpoznávání. Lineární klasifikátory

KLASIFIKAČNÍ A REGRESNÍ LESY

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Pokročilé neparametrické metody. Klára Kubošová

PRAVDĚPODOBNOST A STATISTIKA

oddělení Inteligentní Datové Analýzy (IDA)

Stavový model a Kalmanův filtr

NG C Implementace plně rekurentní

AVDAT Mnohorozměrné metody, metody klasifikace

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Vytěžování znalostí z dat

Testování modelů a jejich výsledků. tomu, co jsme se naučili?

Strojové učení Marta Vomlelová

Bodové a intervalové odhady parametrů v regresním modelu

StatSoft Úvod do neuronových sítí

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

AVDAT Klasický lineární model, metoda nejmenších

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Odhad parametrů N(µ, σ 2 )

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Design Experimentu a Statistika - AGA46E

Diagnostika regrese pomocí grafu 7krát jinak

Návrh a vyhodnocení experimentu

Testování hypotéz o parametrech regresního modelu

Regresní a korelační analýza

Aplikovaná numerická matematika

Testování hypotéz o parametrech regresního modelu

FIT ČVUT MI-LOM Lineární optimalizace a metody. Dualita. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Lineární diskriminační funkce. Perceptronový algoritmus.

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Regresní a korelační analýza

odpovídá jedna a jen jedna hodnota jiných

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Tomáš Karel LS 2012/2013

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

ANALÝZA A KLASIFIKACE DAT

UČENÍ BEZ UČITELE. Václav Hlaváč

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

KGG/STG Statistika pro geografy

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Transkript:

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 1/31 Vytěžování znalostí z dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 11: Kombinování modelů BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 2/31 Princip kombinování modelů Princip kombinování modelů Skupina modelů(např. rozhodovacích stromů) se naučí na stejný (podobný) úkol. Výstupy naučených modelů se kombinují. Vstupní proměnné Model 1 Model 2 Model 3 Model N Výstupní proměnná Kombinace Výstupní proměnná Skupinový (ensemble) výstup

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 3/31 Princip kombinování modelů Různorodost ensemble modelů Co se stane, když budou všechny modely totožné? =>Degradace na jeden model. Jak zajistíme, aby byly modely různorodé? Různé množiny trénovacích dat (počáteční podmínky) Různé metody konstrukce modelů Jak se dá měřit různorodost modelů? Odchylky výstupů na jednotlivých testovacích datech. Strukturální odlišnosti

Princip kombinování modelů Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 4/31 Funguje to vůbec? Chceme zjistit, za jakých předpokladů se vyplatí modely kombinovat. Zajímá nás proč ensembling funguje. Potřebujeme k tomu analyzovat, čím je chyba modelů způsobena

Dekompozice bias/variance Dekompozicebias/variance Chybu modelu můžeme rozložit na 3 složky: E{E y x {(y-ŷ(x))^2}}=noise(x)+bias 2 (x)+variance(x) Šum(x)= E y x {(y-h B (x)) 2 } Kvantifikuje odchylku výstupu y od optimálního modelu h B (x) = E y x {y}. Bias 2 (x)= (h B (x)-e LS {ŷ(x)}) 2 : Chyba průměrného modelu vzhledem k optimálnímu. Variance(x)= E LS {(ŷ(x)-e LS {ŷ(x)) 2 } : Jak moc se predikceŷ(x)liší pro různé učící množiny LS. Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 5/31

Dekompozice bias/variance Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 6/31 Příklad (1) Najděte algoritmus produkující co nejlepší modely pro následující data: y x

Dekompozice bias/variance Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 7/31 Příklad (2) Optimální model: Vstup x, náhodná proměnná rovnoměrně rozložená v intervalu [0,1] y=h(x)+ε, kde ε N(0,1) je Bayesovský model y a šum y h(x)=e y x {y} x

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 8/31 Dekompozice bias/variance Příklad algoritmus lineární regrese Modely mají malý rozptyl (variance), ale velké zaujetí (bias) nedoučení E LS {ŷ(x)}

Dekompozice bias/variance Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 9/31 Příklad algoritmus RBFN s počtem neuronů = mohutnost LS Nízké zaujetí (bias), velký rozptyl (variance) modelů přeučení E LS {ŷ(x)}

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 10/31 Dekompozice bias/variance Zpět ke kombinování modelů Co se stane, když naučím 2 jednoduché modely na různých podmnožinách LS? y y=f1(x) y=f2(x) y= f1(x)+f2(x) 2 x

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 11/31 Dekompozice bias/variance Ensembling snižujevarianci Trénovací data pro model 1 ensemble model Trénovací data pro model 2

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 12/31 Dekompozice bias/variance Ensemblingsnižujebias model 2 model 1 ensemble model

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 13/31 Dekompozice bias/variance Tedy:

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 14/31 Dekompozice bias/variance Podobně pro klasifikaci? model 1 model 2 model 3 ensemble model třída 1 třída 1 a třída 2 b třída 2 hranice tříd Obrázky z TCD AI Course, 2005 Snižuje se bias nebo variance?

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 15/31 Dekompozice bias/variance Jaké modely kombinovat? Co se stane, když zkombinují optimálně naučené modely? model 3 model 2 model 1 ensemble model Výhodně se dají kombinovat jednoduché modely (tzv. weaklearners). redukujeme bias Modely musí být různorodé! Musejí vykazovat různé chyby na jednotlivých trénovacích vzorech. redukujeme varianci

Populární ensemble metody Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 16/31 Populární ensemble metody Bagging (Bootstrap Aggregating) omodely naučím nezávisle a jednoduše zkombinuji jejich výstup Boosting omodely se učí sekvenčně, trénovací data jsou závislá na chybách předchozích modelů Stacking omodely se učí nezávisle, kombinují naučením speciálního modelu

Bagging Bagging Myšlenka:průměrný modele LS {ŷ(x)} má stejný biasjako původní metoda, ale nulovou varianci Bagging(Bootstrap AGGregatING): o K vypočteníe LS {ŷ(x)}, potřebujeme nekonečně mnoho skupin LS(velikosti N) o Máme však jen jednu skupinuls, musíme si sami nějak pomoc Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 17/31

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 18/31 Bagging Bootstrapping: trocha historie Rudolf Raspe, Baron Munchausen s Narrative of his Marvellous Travels and Campaings in Russia, 1785 He hauls himself and his horse out of the mud by lifting himself by his own hair. This term was also used to refer to doing something on your own, without the use of external help since 1860s Since 1950s it refers to the procedure of getting a computer to start (to boot, to reboot)

Bagging Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 19/31 X=(3.12, 0, 1.57, 19.67, 0.22, 2.20) Mean=4.46 Co je Bootstrap? X1=(1.57,0.22,19.67, 0,0,2.2,3.12) Mean=4.13 X2=(0, 2.20, 2.20, 2.20, 19.67, 1.57) Mean=4.64 X3=(0.22, 3.12,1.57, 3.12, 2.20, 0.22) Mean=1.74 statistika: odhad intervalu spolehlivosti

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 20/31 Bagging Příkladbootstrap (Opitz, 1999) Trénovací vzory 1 2 3 4 5 6 7 8 vzorek 1 2 7 8 3 7 6 3 1 vzorek 2 7 8 5 6 4 2 7 1 vzorek M 4 5 1 4 6 4 3 8

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 21/31 Bagging Bagging LS LS 1 LS 2 LS T x ŷ 1 (x) ŷ 2 (x) ŷ T (x) Pro regresi: ŷ(x) = 1/k * (ŷ 1 (x)+ŷ 2 (x)+ +ŷ T (x)) Pro klasifikaci: ŷ(x) = majoritní třída z {ŷ 1 (x),,ŷ T (x)}

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 22/31 Bagging Bagging(Bootstrapagregating) Výběrem s opakovánímutvořte M trénovacích souborů o nvzorech (místo jednoho původního souboru o n vzorech). Postavte model pro každý trénovací soubor. Zkombinujte modely. Bootstrap samples! výběr s opakováním vzorek 1 trénovací algoritmus Model 1 průměrování nebo hlasování Trénovací data vzorek 2 trénovací algoritmus Model 2 Ensemble model výstup... vzorek M trénovací algoritmus Model M vynálezce: Breiman (1996)

Bagging Náhodné (rozhodovací) lesy randomforests K bagginguse ještě přidá to, že náhodně vybíráme podmnožinu vstupních atributů Tedy: Postav rozhodovací strom z bootstrap vzorku Najdi best split mezi náhodnou podmnožinoukatributů, ne mezi všemi jako normálně (= bagging, když k je rovno počtu attributů) Odhadnete vliv k? Menší k redukuje varianci a zvyšuje bias Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 23/31

Boosting Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 24/31 Boosting Iterativní procedura adaptivně měnící rozložení učicích dat zvýrazňujíce špatně klasifikované vzory Používá se zejména ke kombinaci slabých modelů (weak learners), které mají velké zaujetí Výrazně redukuje bias náchylnost k přeučení

Boosting Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 25/31 LS Boosting (2) LS 1 LS 2 LS T x ŷ 1 (x) ŷ 2 (x) ŷ T (x) Pro regresi: ŷ(x) = β 1 *ŷ 1 (x)+ β 2 *ŷ 2 (x)+ + β T *ŷ T (x)) Pro klasifikaci: ŷ(x) = majorita tříd z {ŷ 1 (x),,ŷ T (x)} s použitím vah {β 1,β 2,,β T }

Boosting Algoritmus AdaBoost Při inicializaci jsou váhy vzorů stejné, puntíky mají stejnou velikost. Vzory se mají klasifikovat do modré a červené třídy. Po 1. iteraci AdaBoostu rostou váhy špatně klasifikovaných vzorů na pomezí tříd 3. iterace Po naučení 20 klasifikátorů jsou váhy vzorů mimo hranici tříd téměř nulové (nejsou vybírány do trénovací množiny) fromelder, John. From Trees to Forests and Rule Sets -A Unified Overview of Ensemble Methods. 2007. Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 26/31

Stacking Stacking Používá meta model pro kombinaci výstupů ensemble modelů (oproti jednoduchému průměrování,nebohlasování) o Výstupy ensemble modelů jsou použity jako trénovací data pro meta model Ensemblemodelyjsouvětšinounaučenyrůznými algoritmy Teoretická analýza stackingu je obtížná, jedná se o blackmagic Slide from Ensembles of Classifiers by Evgueni Smirnov Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 27/31

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 28/31 Argumenty proti kombinování modelů? Argumenty proti kombinování modelů? Okamova břitva v jednoduchosti je síla o Je lepší mít jednoduchý optimální model, než kombinaci mnoha modelů o ale jak najít optimálnímodel? o Domingos, P. Occam s two razors: the sharp and the blunt. KDD 1998. Kombinováním modelů se často kamufluje nedokonalost metod produkujících nedoučené nebo přeučené modely Kombinováním dostanu model s horšími výsledky na testovacích datech, než mají kombinované modely

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 29/31 Argumenty proti kombinování modelů? Argumenty pro kombinování Většinou zlepším výsledky na testovacích datech Algoritmy jsou implicitně nastaveny, je třeba experimentovat s jejich konfigurací, aby produkované modely byly optimální konkrétních datech Dostanu povědomí o jistotě modelu když se pro jeden vstupní vektor jednotlivé modely hodně liší, zřejmě jsme mimo oblast trénovacích dat Netflix prize

Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 30/31 Příklady použití ensemble metod Otázky Jakou novou informaci získáme použitím skupiny modelů oproti použití pouze jednoho modelu? Může ensemble zpřesnit předpověď, pro jaké modely? Jaké jsou nevýhody ensemble předpovědi?

Další vylepšení Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 31/31 Další vylepšení Hierarchické kombinování modelů Meta-learning templates Šlechtění topologie ensemblu na konkrétních datech více v MI-MVI