Strojové učení Marta Vomlelová



Podobné dokumenty
Strojové učení Marta Vomlelová

Marta Vomlelová

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Asociační i jiná. Pravidla. (Ch )

Lineární diskriminační funkce. Perceptronový algoritmus.

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Pokročilé neparametrické metody. Klára Kubošová

Václav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV

Umělá inteligence a rozpoznávání

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Přednáška 13 Redukce dimenzionality

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Neuronové sítě (11. přednáška)

Klasifikační metody pro genetická data: regularizace a robustnost

Moderní systémy pro získávání znalostí z informací a dat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Support Vector Machines (jemný úvod)

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ANALÝZA A KLASIFIKACE DAT

Kybernetika a umělá inteligence, cvičení 10/11

1. Data mining. Strojové učení. Základní úlohy.

Trénování sítě pomocí učení s učitelem

UČENÍ BEZ UČITELE. Václav Hlaváč

StatSoft Úvod do neuronových sítí

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Využití metod strojového učení v bioinformatice David Hoksza

Instance based learning

Dnes budeme učit agenty, jak zlepšit svůj

Statistická analýza dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Zobecněná analýza rozptylu, více faktorů a proměnných

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Lineární klasifikátory

Miroslav Čepek

Pokročilé neparametrické metody. Klára Kubošová

Vytěžování znalostí z dat

Obsah přednášky. 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacking 5. Boosting 6. Shrnutí

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Základy vytěžování dat

Strojové učení se zaměřením na vliv vstupních dat

prekrocena mez ukazatele kvality.

NÁVRH A REALIZACE TRADING STRATEGIÍ NA BÁZI STROJOVÉHO UČENÍ S POMOCÍ MATLABU

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

Regresní a korelační analýza

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Pokročilé neparametrické metody. Klára Kubošová

DATA MINING KLASIFIKACE DMINA LS 2009/2010

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5EN306 Aplikované kvantitativní metody I

Automatické vyhledávání informace a znalosti v elektronických textových datech

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Neuronové časové řady (ANN-TS)

Vytěžování znalostí z dat

Rozdělování dat do trénovacích a testovacích množin

Dolování z textu. Martin Vítek

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání a vizualizace znalostí

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

Předzpracování dat. Lenka Vysloužilová

Smart Grid Data Mining

NAIL072 ROZPOZNÁVÁNÍ VZORŮ

Klasifikace a rozpoznávání. Lineární klasifikátory

Dobývání a vizualizace znalostí

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Dobývání a vizualizace znalostí

Katedra kybernetiky, FEL, ČVUT v Praze.

O kurzu MSTU Témata probíraná v MSTU

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

6. Lineární regresní modely

Vytěžování znalostí z dat

Partial Least Squares regrese (PLS-R)

Získávání znalostí z dat

KLASIFIKAČNÍ A REGRESNÍ LESY

4EK211 Základy ekonometrie

Vojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU

Pravděpodobně skoro správné. PAC učení 1

Učící se klasifikátory obrazu v průmyslu

Testování modelů a jejich výsledků. tomu, co jsme se naučili?

Informační systémy 2006/2007

Využití strojového učení k identifikaci protein-ligand aktivních míst

Genetické programování

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Regresní a korelační analýza

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

1 Úvod do celočíselné lineární optimalizace

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody

Dobývání dat a strojové učení

Transkript:

Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303

Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer Series in Statistics. Springer, (2003 a další, web). 2.I.H.Witten and E.Frank. Data Mining - Practical machine learning tools and techniques with Java implementation. Accademic Press Pub., USA, 1999.

Doplňující literatura P. Berka.Dobývání znalostí z databází. Academia, 2003. T. Mitchell. Machine Learning. McGraw Hill, New York, 1997. S. Russel and P. Norwig. Artificial Intelligence: A Modern Approach. Prentice Hall, 2003.

Příklady statistického učení Vytořit z dat model, který dokáže: Určit polohu robota z minulé pozice a senzorů. U pacienta hospitalizovaného s infarktem predikovat riziko dalšího infarktu. Predikci lze založit na demografických, stravovacích a klinických datech o pacientovi. Rozpoznání spamu od e-mailu. Predikovat cenu akcií za 6 měsíců z aktuální výkonnosti společnosti a ekonomických dat.

Typický scénář zadání Máme danou cílovou veličinu kvantivativní Y cena akcií, nebo kategoriální G infarkt ano/ne. Chceme její hodnotu predikovat na základě příznaků (features) X klinická měření, stravování. Máme množinu trénovacích dat, u kterých známe i příznaky, i hodnotu cílové veličiny. f, ĝ Na základě těchto dat tvoříme model. Dobrý model predikuje cíl s malou chybou.

Učení s učitelem / bez učitele Předchozí slajd se týká učení s učitelem (supervized learning). Při učení bez učitele nemáme žádnou cílovou veličinu, úkolem je popsat data např. klastrováním či určením závislostí. (unsupervised learning)

Příklad: Klasifikace e-mailu. Data obsahují 4601 příkladů, snažíme se rozlišit spam a žádaný e-mail. Známe cílovou třídu spam/email a frekvence 57 nejčastějších slov či znaků. Příklad modelu: V tomto příkladu je nestejná cena chyby.

Příklad: rakovina prostaty Cílem je predikovat logaritmus prostate specific antigen (lpsa) z množiny příznaků. Predikujeme spojitou veličinu. Bodový graf, XY graf (scatter plot)

Obsah Chapter 2: Úvod do učení s učitelem Chapter 3. a 4. Lineární metody pro regresi a klasifikaci Chapter 5. Splajny Chapter 6. Jádrové (kernal) metody a lokální regrese Chapter 7. Ohodnocení a volba modelů Chapter 8. Kombinace modelů, EM algoritmus,.. Chapter 9: Rozhodovací stromy Chapter 10: Boosting Chapter 11: Neuronové sítě Chapter 12: Support vector machines Chapter 13: Nejbližší sousedé Chapter 14: Učení bez učitele

Typické otázky u zkoušky Vysvětlete pojem: přeučení, prokletí dimenzionality, bayesovsky optimální predikce, maximálně věrohodný odhad, optimální separující nadrovina,... Napište algoritmus: AdaBoost, Rozhodovací stromy včetně prořezávání, EM, SVM,... Dolňující otázky pro ujasnění, nakolik pojmům/algoritmům rozumíte na jedničku či pokud jste někde hodně nevěděli. Mnohé ze slajdů se nezkouší, z přednášky možná vytušíte co ;-)

Přehled základních pojmů vstupní veličiny (=features), cílová veličina numerické, kategoriální, uspořádané veličiny regrese (=predikce numerické veličiny) klasifikace (=predikce kategoriální veličiny) binární veličiny kódujeme 0/1 nebo -1/1 uspořádané často pomocí dummy variables (pomocné proměnné) vstupní veličiny značíme X, výstup Y resp. G. X je matice Nxp, predikce značíme střechou.

Lineární regrese p p p p

Lin. regrese 2 p

Lin. regrese - výsledek Není-li invertibilní, ubereme závislé sloupce, nebo se pokusíme překódovat nebo přefiltrovat data tak, aby invertibilní byla.

Maskování U lineární regrese pro víc tříd může dojít k maskování: modrá třída není nikdy predikovaná.

Lin. regrese vs. nejbližší sousedé Lineární regrese je hladká, stabilní výrazně závisí na předpokladu linearity hranice má malý rozptyl, potenciálně velké vychýlení (bias). k-nn se přizpůsobí libovolné (spojité..) hranici predikce záleží na pozici a hodnotách pár okolních bodů, proto je nestabilní velký rozptyl, malé vychýlení (bias).

Přeučení (overfitting) Přeučením se nazývá přílišná závislost modelu na trénovacích datech, která zvyšuje chybu na testovacích datech. Tj. růst oranžové křivky při klesající modré vpravo v grafu.

Optimální bayeskovská hranice Pokud víme, jakým procesem jsou data generována, můžeme v každém bodě predikovat nejčastější hodnotu (při stejné ceně chyby). Tento postup vytvoří optimální bayesovskou hranici (kde jsou obě hodnoty stejně časté).

Prokletí dimenzionality Nejbližší sousedé jsou při velké dimenzi hodně daleko.

Proč vadí vzdálený nejbližší soused

Druhý příklad

Weka nástroj pro Data mining, umožňuje učit mnoho modelů. http://www.cs.waikato.ac.nz/ml/weka/