Strojové učení Marta Vomlelová

HTML
DOWNLOAD

Rozměr: px

Začít zobrazení ze stránky:

Download "Strojové učení Marta Vomlelová"

Antonín Pokorný
před 8 lety
Počet zobrazení:

1 Strojové učení Marta Vomlelová KTIML, S303

Literatura T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer Series in Statistics.

2 Literatura T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer Series in Statistics. Springer, (2003 a další, web) nebo Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani: An Introduction to Statistical Learning with Applications in R (2013) Some of the figures in this presentation are taken from "An Introduction to Statistical Learning, with applications in R" (Springer, 2013) with permission from the authors: G. James, D. Witten, T. Hastie and R. Tibshirani

3 Doplňková literatura I.H.Witten and E.Frank. Data Mining - Practical machine learning tools and techniques with Java implementation. Accademic Press Pub., USA, P. Berka.Dobývání znalostí z databází. Academia, T. Mitchell. Machine Learning. McGraw Hill, New York, S. Russel and P. Norwig. Artificial Intelligence: A Modern Approach. Prentice Hall, 2003.

4 Příklad statistického učení Vytořit z dat model, který dokáže predikovat prodej produktu v závislosti na nákladech na reklamu v TV, radiu a novinách. Modelovat příjem v závislosti na počtu let vzdělání.

5 Typický scénář zadání Máme danou cílovou veličinu kvantivativní Y cena akcií, nebo kategoriální G infarkt ano/ne. Chceme její hodnotu predikovat na základě vstupních veličin = příznaků (features) X klinická měření, stravování. Máme množinu trénovacích dat, u kterých známe i příznaky, i hodnotu cílové veličiny. Na základě těchto dat tvoříme model f. Dobrý model predikuje cíl s malou chybou.

6 Užití modelu 1: Predikce stačí černá skříňka, nepotřebujeme rozumět f. Zajímá nás přesnost (accuracy) odhadu Y. Dva typy chyby: reducibilní chyba lze zlepšit ireducibilní chyba ϵ vliv neměřených veličin, náhody, nelze zlepšit zlepšením odhadu f (detaily konkrétního exempláře, aktuální nálada pacienta) Očekávaná hodnota E, rozptyl Var.

7 Užití modelu 2: Porozumění Chceme vědět např.: Které vstupní proměnné mají vliv na výstupní? Jaké jsou vztahy vstupů a výstupu? Lze vztah reprezentovat lineárně? Např.: která média přispívají k zvýšení obchodu? Které nejvíc?

8 Jak odhadujeme f? parametrické metody spočteme koeficienty=parametry modelu pro nový příklad predikujeme na základě modelu (pevné X,Y trénovacích dat, mění se β) např. lineární regrese pevné β, na základě nových X predikujeme Y. neparametrické metody variabilnější model velmi dobře se můžeme přizpůsobit datům

9 Přesnost x srozumitelnost modelu Složitý model je často přesnější* ale méně srozumitelný. *Pokud nedojde k přeučení.

10 Učení s učitelem / bez učitele Předchozí slajd se týká učení s učitelem (supervized learning). Při učení bez učitele nemáme žádnou cílovou veličinu, úkolem je popsat data např. klastrováním či určením závislostí. (unsupervised learning)

11 Ohodnocení správnosti modelu Accuracy správnost, precision přesnost, pokusím se český výraz nezaměňovat, ale často se to děje. Střední kvadratická chyba MSE na nová, dosud nepozorovaná data. Tj. data rozdělíme na trénovací a testovací.

12 Přeučení Přílišné přizpůsobení trénovacím datům může zvýšit chybu na nových, nepozorovaných, testovacích datech. FIGURE 2.9. Left: Data simulated from f, shown in black. Three estimates of f are shown: the linear regression line (orange curve), and two smoothing spline fits (blue and green curves). Right: Training MSE (grey curve), test MSE (red curve), and minimum possible test MSE over all methods (dashed line). Squares represent the training and test MSEs for the three fits shown in the left-hand panel.

13 Bias Variance Trade-Off (vychýlení a rozptyl) očekávaná chyba na testovacích datech= rozptyl odhadu+vychýlení2+ireducibilní chyba. FIGURE Squared bias (blue curve), variance (orange curve), Var() (dashed line), and test MSE (red curve) for the three data sets in Figures The vertical dotted line indicates the flexibility level corresponding to the smallest test MSE.

14 Klasifikace cílová proměnná je diskrétní, málo hodnotová, nejčastěji dvouhodnotová často se značí G (group). Trochu jiné modely, hlavně už jiná míra chyby: tj. na testovacích datech:

Příklad: Klasifikace e-mailu. Data obsahují 4601 příkladů, snažíme se rozlišit spam a žádaný e-mail.

15 Příklad: Klasifikace u. Data obsahují 4601 příkladů, snažíme se rozlišit spam a žádaný . Známe cílovou třídu spam/ a frekvence 57 nejčastějších slov či znaků. Příklad modelu: V tomto příkladu je nestejná cena chyby.

16 Bayesovský klasifikátor každému pozorování přiřazuje nejpravděpodobnější třídu. nelze dosáhnout nižší chyby než bayesovský klasifikátor založený na znalosti pravdivé pravděpodobnosti cílových tříd, tzv. bayes rate FIGURE A simulated data set consisting of 100 observations in each of two groups, indicated in blue and in orange. The purple dashed line represents the Bayes decision boundary. The orange background grid indicates the region in which a test observation will be assigned to the orange class, and the blue background grid indicates the region in which a test observation will be assigned to the blue class. bayes. rozhodovací hranice dělící čára kde jsou obě cílové kategorie stejně pravděpodobné

17 K nejbližších sousedů Pro X=x0 predikujeme j s maximální pravděpod. N0 je K nejbližších sousedů x0. K=3

19 Různá K

20 Opět učící křivka

21 Přibližný obsah přednášky Chapter 2: Úvod do učení s učitelem Chapter 3. a 4. Lineární metody pro regresi a klasifikaci Chapter 5. Splajny Chapter 6. Jádrové (kernal) metody a lokální regrese Chapter 7. Ohodnocení a volba modelů Chapter 8. Kombinace modelů, EM algoritmus,.. Chapter 9: Rozhodovací stromy Chapter 10: Boosting Chapter 11: Neuronové sítě Chapter 12: Support vector machines Chapter 13: Nejbližší sousedé Chapter 14: Učení bez učitele

22 Typické otázky u zkoušky Vysvětlete pojem: přeučení, prokletí dimenzionality, bayesovsky optimální predikce, maximálně věrohodný odhad, optimální separující nadrovina,... Napište algoritmus: AdaBoost, Rozhodovací stromy včetně prořezávání, EM, SVM,... Dolňující otázky pro ujasnění, nakolik pojmům/algoritmům rozumíte na jedničku či pokud jste někde hodně nevěděli.

23 Prokletí dimenzionality Nejbližší sousedé jsou při velké dimenzi hodně daleko.

24 Proč vadí vzdálený nejbližší soused

25 Druhý příklad

26 Weka nástroj pro Data mining, umožňuje učit mnoho modelů.

Podobné dokumenty

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer