Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303
Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer Series in Statistics. Springer, (2003 a další, web). 2.I.H.Witten and E.Frank. Data Mining - Practical machine learning tools and techniques with Java implementation. Accademic Press Pub., USA, 1999.
Doplňující literatura P. Berka.Dobývání znalostí z databází. Academia, 2003. T. Mitchell. Machine Learning. McGraw Hill, New York, 1997. S. Russel and P. Norwig. Artificial Intelligence: A Modern Approach. Prentice Hall, 2003.
Příklady statistického učení Vytořit z dat model, který dokáže: Určit polohu robota z minulé pozice a senzorů. U pacienta hospitalizovaného s infarktem predikovat riziko dalšího infarktu. Predikci lze založit na demografických, stravovacích a klinických datech o pacientovi. Rozpoznání spamu od e-mailu. Predikovat cenu akcií za 6 měsíců z aktuální výkonnosti společnosti a ekonomických dat.
Typický scénář zadání Máme danou cílovou veličinu kvantivativní Y cena akcií, nebo kategoriální G infarkt ano/ne. Chceme její hodnotu predikovat na základě příznaků (features) X klinická měření, stravování. Máme množinu trénovacích dat, u kterých známe i příznaky, i hodnotu cílové veličiny. f, ĝ Na základě těchto dat tvoříme model. Dobrý model predikuje cíl s malou chybou.
Učení s učitelem / bez učitele Předchozí slajd se týká učení s učitelem (supervized learning). Při učení bez učitele nemáme žádnou cílovou veličinu, úkolem je popsat data např. klastrováním či určením závislostí. (unsupervised learning)
Příklad: Klasifikace e-mailu. Data obsahují 4601 příkladů, snažíme se rozlišit spam a žádaný e-mail. Známe cílovou třídu spam/email a frekvence 57 nejčastějších slov či znaků. Příklad modelu: V tomto příkladu je nestejná cena chyby.
Příklad: rakovina prostaty Cílem je predikovat logaritmus prostate specific antigen (lpsa) z množiny příznaků. Predikujeme spojitou veličinu. Bodový graf, XY graf (scatter plot)
Obsah Chapter 2: Úvod do učení s učitelem Chapter 3. a 4. Lineární metody pro regresi a klasifikaci Chapter 5. Splajny Chapter 6. Jádrové (kernal) metody a lokální regrese Chapter 7. Ohodnocení a volba modelů Chapter 8. Kombinace modelů, EM algoritmus,.. Chapter 9: Rozhodovací stromy Chapter 10: Boosting Chapter 11: Neuronové sítě Chapter 12: Support vector machines Chapter 13: Nejbližší sousedé Chapter 14: Učení bez učitele
Typické otázky u zkoušky Vysvětlete pojem: přeučení, prokletí dimenzionality, bayesovsky optimální predikce, maximálně věrohodný odhad, optimální separující nadrovina,... Napište algoritmus: AdaBoost, Rozhodovací stromy včetně prořezávání, EM, SVM,... Dolňující otázky pro ujasnění, nakolik pojmům/algoritmům rozumíte na jedničku či pokud jste někde hodně nevěděli. Mnohé ze slajdů se nezkouší, z přednášky možná vytušíte co ;-)
Přehled základních pojmů vstupní veličiny (=features), cílová veličina numerické, kategoriální, uspořádané veličiny regrese (=predikce numerické veličiny) klasifikace (=predikce kategoriální veličiny) binární veličiny kódujeme 0/1 nebo -1/1 uspořádané často pomocí dummy variables (pomocné proměnné) vstupní veličiny značíme X, výstup Y resp. G. X je matice Nxp, predikce značíme střechou.
Lineární regrese p p p p
Lin. regrese 2 p
Lin. regrese - výsledek Není-li invertibilní, ubereme závislé sloupce, nebo se pokusíme překódovat nebo přefiltrovat data tak, aby invertibilní byla.
Maskování U lineární regrese pro víc tříd může dojít k maskování: modrá třída není nikdy predikovaná.
Lin. regrese vs. nejbližší sousedé Lineární regrese je hladká, stabilní výrazně závisí na předpokladu linearity hranice má malý rozptyl, potenciálně velké vychýlení (bias). k-nn se přizpůsobí libovolné (spojité..) hranici predikce záleží na pozici a hodnotách pár okolních bodů, proto je nestabilní velký rozptyl, malé vychýlení (bias).
Přeučení (overfitting) Přeučením se nazývá přílišná závislost modelu na trénovacích datech, která zvyšuje chybu na testovacích datech. Tj. růst oranžové křivky při klesající modré vpravo v grafu.
Optimální bayeskovská hranice Pokud víme, jakým procesem jsou data generována, můžeme v každém bodě predikovat nejčastější hodnotu (při stejné ceně chyby). Tento postup vytvoří optimální bayesovskou hranici (kde jsou obě hodnoty stejně časté).
Prokletí dimenzionality Nejbližší sousedé jsou při velké dimenzi hodně daleko.
Proč vadí vzdálený nejbližší soused
Druhý příklad
Weka nástroj pro Data mining, umožňuje učit mnoho modelů. http://www.cs.waikato.ac.nz/ml/weka/