Miroslav Čepek 16.12.2014

Podobné dokumenty
Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

VYUŽITÍ NEURONOVÝCH SÍTÍ PROSTŘEDÍ MATLAB K PREDIKCI HODNOT NÁKLADŮ PRO ELEKTRICKÉ OBLOUKOVÉ PECE

Marta Vomlelová

Státnice odborné č. 19

Slovní úlohy vedoucí na lineární rovnice I

ŘÁD UPRAVUJÍCÍ POSTUP DO DALŠÍHO ROČNÍKU

Žáci mají k dispozici pracovní list. Formou kolektivní diskuze a výkladu si osvojí grafickou minimalizaci zápisu logické funkce

pracovní list studenta

NÁHRADA ŠKODY Rozdíly mezi odpov dnostmi TYPY ODPOV DNOSTI zam stnavatele 1) Obecná 2) OZŠ vzniklou p i odvracení škody 3) OZŠ na odložených v cech

a m1 a m2 a mn zobrazení. Operaci násobení u matic budeme definovat jiným způsobem.

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE

Masarykova univerzita Právnická fakulta

4 DVOJMATICOVÉ HRY. Strategie Stiskni páku Sed u koryta. Stiskni páku (8, 2) (5, 3) Sed u koryta (10, 2) (0, 0)

Závěr: Je potřeba vytvořit simulaci a propočítat, zda krácení dle rozpočtu a člověkohodin bude spravedlivé.

7. Domy a byty Charakteristika domovního fondu

Kreativní malování. s dětmi. Dana Cejpková

MECHANICKÁ PRÁCE A ENERGIE

Orientační průvodce mateřstvím a rodičovstvím v zadávacích dokumentacích poskytovatele

Jak se ČNB stará o českou korunu

5. cvičení 4ST201_řešení

Velikost pracovní síly

Neuronová síť. x 2 x 3. σ j. x 4. x 5. Menu: QCExpert Prediktivní metody

Základy vytěžování dat

Distribuované algoritmy

Rozhodněte se, co budete dál dělat

Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/

6. Matice. Algebraické vlastnosti

Možnosti využití archivu historických povodní v operativní hydrologii na p íkladu povodí Otavy

Rychnov nad Kněžnou. Trutnov VÝVOJ BYTOVÉ VÝSTAVBY V KRÁLOVÉHRADECKÉM KRAJI V LETECH 1998 AŽ

3.3 Narození, zemřelí, sňatky, rozvody

Metoda Lokální multiplikátor LM3. Lokální multiplikátor obecně. Ing. Stanislav Kutáček. červen 2010

Stále ještě váháte s přihlášením? Když už jsme řádně přihlášeni? Jak bude turnaj koncipován?

Zodpovědné podniky Dotazník pro zvýšení informovanosti

Matematický model kamery v afinním prostoru

A. PODÍL JEDNOTLIVÝCH DRUHŮ DOPRAVY NA DĚLBĚ PŘEPRAVNÍ PRÁCE A VLIV DÉLKY VYKONANÉ CESTY NA POUŽITÍ DOPRAVNÍHO PROSTŘEDKU

ASYNCHRONNÍ STROJ. Trojfázové asynchronní stroje. n s = 60.f. Ing. M. Bešta

Preference v u ívání prost edk elektronické komunikace áky a studenty

1. DÁLNIČNÍ A SILNIČNÍ SÍŤ V OKRESECH ČR

PARLAMENT ČESKÉ REPUBLIKY Poslanecká sněmovna 2005 IV. volební období

MATEMATIKA A BYZNYS. Finanční řízení firmy. Příjmení: Rajská Jméno: Ivana

Názory na bankovní úvěry

Vyhodnocení dotazníkového průzkumu v obci Kokory

Zastupitelstvo města Přerova

Přechod na nový způsob měření psů pro účely určení výšky překážek

JAK VÍTĚZIT NAD RIZIKY. Aktivní management rizik nástroj řízení úspěšných firem

Seriál: Management projektů 7. rámcového programu

PROJEKT JE FINANCOVÁN Z PROSTŘEDKŮ EVROPSKÉHO SOCIÁLNÍHO FONDU, STÁTNÍHO ROZPOČTU ČR A ROZPOČTU HLAVNÍHO MĚSTA PRAHY. Hlavní město Praha

Staroegyptská matematika. Hieratické matematické texty

STANOVISKO č. STAN/1/2006 ze dne

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Reálná čísla

1.4.1 Výroky. Předpoklady: Výrok je sdělení, u něhož má smysl otázka, zda je či není pravdivé

1 METODICKÉ POKYNY AD HOC MODUL 2007: Pracovní úrazy a zdravotní problémy související se zaměstnáním

PŘIJÍMACÍ ŘÍZENÍ. Strana

PODMÍNKY ELEKTRONICKÉ AUKCE SPOLEČNOSTI RWE GAS STORAGE, s.r.o. NA NOVOU SKLADOVACÍ KAPACITU

Příprava na 1. čtvrtletní písemku pro třídu 1EB

Investice a akvizice

Makroekonomie I. Přednáška 2. Ekonomický růst. Osnova přednášky: Shrnutí výpočtu výdajové metody HDP. Presentace výpočtu přidané hodnoty na příkladě

4.5.1 Magnety, magnetické pole

Miroslav Kunt. Srovnávací přehled terminologie archivních standardů ISAD(G), ISAAR(CPF) a české archivní legislativy

Stanovy horolezeckého oddílu "ROT SPORT"

Typy umělých neuronových sítí

STANDARD 3. JEDNÁNÍ SE ZÁJEMCEM (ŽADATELEM) O SOCIÁLNÍ SLUŽBU

Před samotnou tvorbou ještě pár rad.

Metody hodnocení rizik

PRAKTIKUM... Oddělení fyzikálních praktik při Kabinetu výuky obecné fyziky MFF UK. Odevzdal dne: Seznam použité literatury 0 1. Celkem max.

VYSOKÁ ŠKOLA FINANČNÍ A SPRÁVNÍ, o.p.s. Fakulta ekonomických studií katedra řízení podniku. Předmět: ŘÍZENÍ LIDSKÝCH ZDROJŮ (B-RLZ)

SKLÁDANÉ OPĚRNÉ STĚNY

Osvětlovací modely v počítačové grafice

ZADÁVACÍ DOKUMENTACE

Modul Řízení objednávek.

Názory obyvatel na přijatelnost půjček leden 2016

10 KROKŮ K VYŠŠÍMU VÝKONU PRACOVNÍKŮ. Jak snadno a účinně předcházet nedostatkům v práci. Jan Urban

VYBRANÉ ASPEKTY PÉČE O SENIORY

Nehodovost v kraji v roce 2012

Výsledky zpracujte do tabulek a grafů; v pracovní oblasti si zvolte bod a v tomto bodě vypočítejte diferenciální odpor.

ÚČEL zmírnit rázy a otřesy karosérie od nerovnosti vozovky, zmenšit namáhání rámu (zejména krutem), udržet všechna kola ve stálém styku s vozovkou.

3 nadbytek. 4 bez starostí

Poměry a úměrnosti I

Krajská hospodářská komora Střední Čechy. Pravidla soutěže. Poznáváme firmy ve středních Čechách. 1. Pořadatel soutěže. 2. Termín konání soutěže

Obsah. Trocha právničiny

3. NEZAMĚSTNANOST A VOLNÁ PRACOVNÍ MÍSTA

ČTVRT MILIÓNU NEAKTIVNÍCH DŮCHODCŮ CHTĚLO PRACOVAT

INSTITUT REGIONÁLNÍCH INFORMACÍ

využívá svých schopností

ZNAK ČERVENÉHO KŘÍŽE, JEHO OCHRANA A UŽÍVÁNÍ

Data v počítači EIS MIS TPS. Informační systémy 2. Spojení: jan.skrbek@tul.cz tel.: Konzultace: úterý

Metodika kontroly naplněnosti pracovních míst

Výroba Hofmanových bočních louček pomocí hoblovky. Napsal uživatel Milan Čáp Čtvrtek, 30 Duben :47

Sbírka zákonů ČR Předpis č. 27/2016 Sb.

SBÍRKA ZÁKONŮ. Ročník 2016 ČESKÁ REPUBLIKA. Částka 10 Rozeslána dne 28. ledna 2016 Cena Kč 210, O B S A H :

Zapamatujte si: Žijeme ve vibračním Vesmíru, kde vládne Zákon Přitažlivosti.

Specifikace pravidel hodnocení pro vzdělávací obor: český jazyk a literatura

Tabulka přípravy učební jednotky s cíli v oblasti průřezových témat a čtenářství

POPIS REALIZACE POSKYTOVÁNÍ SOCIÁLNÍCH SLUŽEB Sociální rehabilitace Třinec

Algoritmizace a programování

DIDAKTIKA PRAKTICKÉHO VYUČOVÁNÍ I.

Ukázka knihy z internetového knihkupectví

Provoz a poruchy topných kabelů

NADANÝ ŽÁK A JEHO MOŽNOSTI ROZVOJE VE VOLNÉM ČASE

Tab. 1 Podíl emisí TZL a SO₂ v krajích z celkového objemu ČR v letech 2003 až 2009 (v %)

Transkript:

Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti 16.12.2014 ČVUT (FEL) Složené klasifikátory 16.12.2014 1 / 36

Ensembles (Kombinování modelů) Aneb víc hlav, víc ví! Co když jsme se dostali na hranice možností jednoho modelu? Co když už další učení nebo složitější model vede jen k přeučení? Co s tím? ČVUT (FEL) Složené klasifikátory 16.12.2014 2 / 36

Motivace z praxe Soutěž Netflix prize (predikce, které filmy by se zákazníkovi mohly také líbit, když viděl a nějak ohodnotil jinou skupinu filmů?) Respektive cílem je předpovědět hodnocení filmu konkrétním zákazníkem, když víme, jak hodnotil jiné filmy v minulosti. Cenu $1,000,000 získá nejlepší, kdo současně dokáže na testovací množině zlepšit stávající přesnost alespoň o 5%. ČVUT (FEL) Složené klasifikátory 16.12.2014 3 / 36

Motivace z praxe (2) A všechny TOP týmy používají kombinace modelů. ČVUT (FEL) Složené klasifikátory 16.12.2014 4 / 36

Motivace pro kombinaci modelů Cesta k vyšší přesnosti než u nejlepšího z dílčích modelů. Každý model dělá chyby pro trochu jiná data. A trochu jiné chyby. Když se zkombinují dohromady, možná své chyby eliminují. Řízený experiment dvě třídy s pc1 = p c2, modely mají pevný chybový poměr p single, každý dílčí klasifikátor chybuje nezávisle na ostatních, výsledná klasifikace dána majoritním neváženým hlasováním, jak to dopadne (přesnost jako funkce počtu modelů)? ČVUT (FEL) Složené klasifikátory 16.12.2014 5 / 36

Motivace pro kombinaci modelů (2) ČVUT (FEL) Složené klasifikátory 16.12.2014 6 / 36

Motivace pro kombinaci modelů (3) Analogie z idealizované zkoušky každý student se naučí látku (každý s jinými chybami), společně rozhodují o odpovědích na otázky, v ideálním případě by měli u každé otázky odpovědět správně :). Kombinací různých modelů dokážeme aproximovat rozhodovací hranici, kterou by samostatné modely proložit nedokázaly. ČVUT (FEL) Složené klasifikátory 16.12.2014 7 / 36

Chyby modelů Vraťme se ještě k chybám modelů z minulé přednášky. Když vytvořím různé modely, nebudou dělat identické chyby. Například použiji jiné počáteční parametry, nebo vezmu jinou podmnožinu trénovací množiny. U kombinací modelů Nebudu usilovat o maximální přesnost dílčích = slabých modelů, Budu spoléhat na filtrování chyb při společném rozhodování. ČVUT (FEL) Složené klasifikátory 16.12.2014 8 / 36

Variance modelů (rozptyl chyby modelů) Nicméně chyby všech takto vytvořených modelů by měly být z normálního rozdělení se stejnou střední hodnotou a rozptylem. Čili rozptyl modelů udává jak moc se liší chyba jednotlivých modelů od střední chyby. ČVUT (FEL) Složené klasifikátory 16.12.2014 9 / 36

Bias modelů (Zaujetí modelů) Bias (zaujetí) vyjadřuje systematickou chybu způsobenou (například) špatně zvolenou trénovací množinou. ČVUT (FEL) Složené klasifikátory 16.12.2014 10 / 36

Nedoučení modelu (underfitting) Model (například lineární regrese) je příliš jednoduchý, aby dokázal popsat data. Modely budou mít nízkou varianci, ale vysoký bias. Co to znamená? Modely si budou podobné, ale mají (velkou) chybu už na trénovacích datech. ČVUT (FEL) Složené klasifikátory 16.12.2014 11 / 36

Přeučení modelu (overfitting, už zase) Model je příliš ohebný a naučil se i šum, tj. vztahy, které v datech ve skutečnosti nejsou. Modely budou mít nízký bias, ale vysokou varianci. Co to znamená? Jednotlivé modely budou mít nízkou chybu na trénovacích datech, ale budou hodně rozdílné a budou výrazně více chybovat na testovacích datech. ČVUT (FEL) Složené klasifikátory 16.12.2014 12 / 36

Kombinování modelů prevence přeučení Důsledek přeučení model na testovacích datech vykazuje velké chyby. Mám skupinu modelů naučených na různých podmnožinách trénovacích dat. Každý model jsem možná přeučil. Můžu něčeho dosáhnout kombinací těchto modelů? Snížili jsme rozptyl modelů. ČVUT (FEL) Složené klasifikátory 16.12.2014 13 / 36

Kombinování modelů snižování zaujetí Jednoduché modelovací metody s malou ohebností (opět naučené na různých podmnožinách dat) nedokáží dobře aproximovat rozhodovací hranici. Kombinací opět dosáhnu ohebnější hranice a tedy i menší chyby. ČVUT (FEL) Složené klasifikátory 16.12.2014 14 / 36

Skupiny modelů Síla seskupování modelů tkví v diverzitě (různorodosti) modelů. Diverzity můžu dosáhnout dvěma cestami: Použít různé modelovací techniky. Vytvořit různé podmnožiny trénovací množiny (instance, příznaky). Základní schéma použití algoritmů pro kombinaci modelů: 1 Vyber stavební jednotky ensemblu (vhodné modely). 2 Vytvoř pro každý trénovací množinu. 3 Natrénuj všechny modely v ensemblu (učení jednotlivých modelů může být závislé na učení ostatních modelů v ensemblu). 4 Spočítej výstup všech modelů v ensemblu. 5 Jejich výstup zkombinuj do výsledného výstupu. ČVUT (FEL) Složené klasifikátory 16.12.2014 15 / 36

Základní ensemblovací algoritmy Pro klasifikační a regresní úlohy se dají použít: bagging, boosting, stacking, cascade generalization. Pouze pro klasifikační úlohy se také dají použít: cascading, delegating, arbitrating. ČVUT (FEL) Složené klasifikátory 16.12.2014 16 / 36

Bagging Jednodušší metoda kombinace. Homogenní z hlediska algoritmu učení, tj. použit pouze jeden. Různorodosti dosáhne odlišností trénovacích množin, vzorkování s opakováním do původní velikosti trénovacích dat. Slabé (= dílčí) modely učí nezávisle. Výstup ensemblu se určí: pro regresi spočítám průměrnou hodnotu ze všech výstupů modelů v ensemblu. pro klasifikaci spočítám majoritu z výstupů modelů v ensemblu. ČVUT (FEL) Složené klasifikátory 16.12.2014 17 / 36

Bagging (2) ČVUT (FEL) Složené klasifikátory 16.12.2014 18 / 36

Boosting Naučím posloupnost modelů, každý další model si bude všímat té části vstupních dat, ve které předchozí modely chybovaly. To, jak moc si bude model všímat vstupních dat, se vyjadřuje vahami vstupního vzoru. Oklasifikuji trénovací data všemi doposud naučenými modely a vzory, na kterých jsem udělal chybu, přidám do trénovací množiny následujícího modelu. Z toho vyplývá, že se modely učí jeden po druhém. Výstup ensemblu se spočítá jako vážený průměr (vážená majorita). Váhy pro majoritu jsou úměrné přesnosti jednotlivých modelů. ČVUT (FEL) Složené klasifikátory 16.12.2014 19 / 36

Boosting (2) ČVUT (FEL) Složené klasifikátory 16.12.2014 20 / 36

Adaboost Nejznámější algoritmus pro Boosting se nazývá Adaboost. Základní algoritmus předpokládá klasifikaci do dvou tříd (+1 / -1). Značení n je počet vzorů v trénovací množině. h t je model (klasifikátor). 1 Nastav konstantní váhů všech vzorů v trénovací množině na D 1 (i) = 1 n a nastav t = 1. 2 Nauč klasifikátor h t. 3 Spočítej globální chybu na trénovacích datech η t = i,h t(x i ) y i D t (i) 4 Změň váhy všech vstupních vzorů, u kterých klasifikátor h t udělal chybu. D t+1 (i) = Dt(i) η t 1 η t. i, kde h t (x i ) y i. Z i 5 Pokud globální chyba η t klesla pod stanovenou hranici, skonči. Jinak pokračuj bodem 2. Prezentace věnovaná přímo algoritmu Adaboost http://www.robots.ox.ac.uk/ az/lectures/cv/adaboost_matas.pdf ČVUT (FEL) Složené klasifikátory 16.12.2014 21 / 36

Stacking Nezávisle naučím skupinu modelů, použiji odlišné algoritmy učení různé implicitní předpoklady, různé hypotézy, různé chyby. Pro určení finálního výstupu použiji místo majority další model říkáme mu meta-model, často jde o logistickou regresi, výstupy jednotlivých modelů slouží jako vstupy meta-modelu, ve srovnání s majoritou větší možnosti pro kombinaci výstupů. ČVUT (FEL) Složené klasifikátory 16.12.2014 22 / 36

Stacking (2) ČVUT (FEL) Složené klasifikátory 16.12.2014 23 / 36

Cascade generalization Modely v ensemblu tvořím postupně a závisle ke vstupním proměnným doplním výstupy předchozích modelů, dochází ke změně v algoritmu učení. Vstupem i-tého modelu jsou proměnné (x 1, x 2,..., x n, y 1,..., y i 1 ) kde x 1,..., x n jsou příznaky ze vstupních dat, kde y1,..., y i 1 jsou výstupy předchozích modelů. Modely se učí jeden po druhém a výstupem ensemblu je výstup posledního modelu. ČVUT (FEL) Složené klasifikátory 16.12.2014 24 / 36

Cascade generalization (2) ČVUT (FEL) Složené klasifikátory 16.12.2014 25 / 36

Cascading Podobně jako u Boostingu se další modely specializují na vzory, které předchozí modely klasifikovaly špatně které indikovaly nízkou pravděpodobnost přiřazení vzoru do dané třídy. Při počítání výstupu ensemblu se použije výstup modelu, který udává dostatečně vysokou ppst výstupní třídy. ČVUT (FEL) Složené klasifikátory 16.12.2014 26 / 36

Cascading (2) ČVUT (FEL) Složené klasifikátory 16.12.2014 27 / 36

Delegating Trénovací množina prvního modelu je celá trénovací množina. Do trénovací množiny dalšího klasifikátoru přiřadím vstupní vzory, které byly klasifikovány špatně nebo ppst jejich zařaení do správné třídy je menší než určený práh. Výstup ensemblu je výstup modelu, který indikuje dostatečně vysokou ppst přiřazení do dané třídy. ČVUT (FEL) Složené klasifikátory 16.12.2014 28 / 36

Delegating (2) ČVUT (FEL) Složené klasifikátory 16.12.2014 29 / 36

Arbitrating Trochu zvláštní metoda, kde jsou dva typy modelů standardní modely, predikující cílovou proměnnou, rozhodčí modely, které predikují úspěšnost standardních modelů. Každý stadardní model má svůj rozhočí model. Každá dvojice stardní+rozhodčí model je učena nezávisle. Výstupem ensemblu je model, jehož rozhodčí predikuje nejvyšší míru úspěchu. ČVUT (FEL) Složené klasifikátory 16.12.2014 30 / 36

Arbitrating (2) ČVUT (FEL) Složené klasifikátory 16.12.2014 31 / 36

Výběr relevatních příznaků Poslední téma tohoto kurzu opravdu všechny vstupní proměnné potřebuji ke klasifikaci? Při klasifikaci zdravých a nemocných lidí asi bude hrát větší roli jejich teplota a tlak, než barva vlasů. Techniky, které vybírají vhodné vstupní proměnné, se označují jako feature selection (případně feature ranking) metody. A dělí se do dvou hlavních kategorií: feature selection tyto metody dodají seznam vstupních proměnných (atributů), které považují za důležité, feature ranking tyto metody přiřadí každému atributu skóre, který indikuje vliv atributu na výstupní třídu. ČVUT (FEL) Složené klasifikátory 16.12.2014 32 / 36

Feature selection Typicky hledají podmnožinu atributů, na které model ještě funguje dobře. Dělí se do 3 hlavních kategorií: Wrappers vyberou skupinu atributů, nad ní naučí nějaký model, spočítají jeho přesnost a podle přesnosti upraví skupinu atributů, atd... Filters fungují dost podobně, jen místo modelů se vyhodnocují tzv. filtry. Filtry se v této souvislosti rozumí například korelace mezi vybranou skupinou vstupů a výstupem nebo vzájemná informace,... Embedded techniques tento způsob je zabudován do učícího algoritmu modelu a podle toho, které proměnné model využívá, se sestavuje seznam důležitých atributů. ČVUT (FEL) Složené klasifikátory 16.12.2014 33 / 36

Feature selection (2) Při hledání vhodné kombinace se často uplatňuje hladový přístup. Nejprve hledám množinu s jedním atributem, která má nejvyšší skóre (například nejvyšší přesnost modelu). K této jednoprvkové množině zkouším přidávat další atribut a hledám, který přinese největší zlepšení modelu. Pak hledám třetí, a tak dále, dokud se model nepřestane zlepšovat. ČVUT (FEL) Složené klasifikátory 16.12.2014 34 / 36

Feature ranking Přiřazuje každé vstupní proměnné skóre, které určuje její významnost. Často se používají stejné metody, které se na předchozím slajdu označovaly jako filters: vzájemná informace mezi jednotlivými atributy a výstupem, korelace, informační entropie, přesnost perceptronu s jedním vstupem. Je pak na člověku, jak těchto informací využije. ČVUT (FEL) Složené klasifikátory 16.12.2014 35 / 36

Shrnutí Kombinovování modelů je dnes standardním postupem diverzita slabých modelů spojená s jejich přesností vede k úspěchu, za přesnost platíme časem a někdy i srozumitelností. Jako každá jiná metoda podléhá no free lunch teorému zlepšení přesnosti nedosáhneme automaticky a mechanicky. Literatura mj. Dietterich: Ensemble Methods in Machine Learning, Multiple classifier systems, Springer, 2000. ČVUT (FEL) Složené klasifikátory 16.12.2014 36 / 36