Dobývání dat a strojové učení
Dobývání znalostí z databází (Knowledge discovery in databases) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data. (Fayyad a kol., 1996) Analysis of observational data sets to find unsuspected relationships and summarize data in novel ways that are both understandable and useful to the data owner. (Hand, Manilla, Smyth, 2001)
Dobývání znalostí z databází metodika CRISP-DM Porozumění problematice Porozumění datům Příprava dat Využití výsledků DATA Modelování Vyhodnocení výsledků dobývání dat (data mining)
Strojové učení (Machine Learning) The field of machine learning is concerned with the question of how to construct computer programs that automatically improve with experience. (Mitchell, 1997) Things learn when they change their behavior in a way that makes them perform better in a future. (Witten, Frank, 1999)
Strojové učení a dobývání dat učení se dovednostem analytické učení se konceptům empirické učení se konceptům statistické metody analýzy dat databázové techniky
Metody učení učení zapamatováním (rote learning neboli biflování) učení se z instrukcí (learning from instruction, learning by being told) učení se z analogie (learning by analogy, instancebased learning, lazy learning) učení na základě vysvětlení (explanation-based learning) učení se z příkladů (learning from examples) učení se z pozorování a objevováním (learning from observation and discovery)
Informace o správnosti učení příklady zařazené do tříd (učení s učitelem - supervised learning) odměny za správné chování a tresty za chování nesprávné (reinforcement learning) nepřímé náznaky odvozené s chování učitele (apprenticeship learning) žádné (učení bez učitele - unsupervised learning)
Další členění reprezentace příkladů atributy: kategoriální (binární, nominální, ordinální) a numerické barva_vlasu(cerna) & vyska(180) & vousy(ano) & vzdelani(vs) relace otec(jan_lucembursky, karel_iv) režim učení dávkový inkrementální
Úloha empirického učení z dat Analyzovaná data (1/3) DD TR xx xx : : xx 11 11 2 12 1 n 1 n 1 xx xx : : xx 1 21 2 2 22 2 n 2 n 2...... x x...... x x : :...... x x 1 m 1 m 2 m 2 m n m n m y y y : 1 2 n Klasifikační úloha: hledáme znalosti (reprezentované rozhodovací funkcí f) f: x y, která pro hodnoty vstupních atributů x nějakého objektu odvodí hodnotu cílového atributu ŷ = f (x).
Úloha empirického učení z dat (2/3) V průběhu klasifikace jednoho objektu se můžeme dopustit chyby Q f (o i, ŷ i ): 2 Q ( o i, y ) = (y - y ) Q (, y ) = f i i i f o i i 1 pro y y 0 pro y = y Pro celou trénovací množinu D TR pak můžeme vyčíslit souhrnnou chybu Err(f,D TR ), např. jako Err(f,D = 1 TR ) Q f ( o i, y i ) n n i=1 i i i i
Úloha empirického učení z dat (3/3) Cílem učení je nalézt takové znalosti f*, které by minimalizovaly tuto chybu Err(f *,D TR ) min f Err(f,D TR )
Ilustrační příklad údaje o osobách - klientech banky, kterým banka půjčuje na základě informací o jejich příjmech a výši konta
Empirické učení se konceptům objekty, patřící do téže třídy mají podobné charakteristiky (učení na základě podobnosti) z konečného počtu příkladů odvozujeme obecné znalosti (induktivnost)
Metody strojového učení tvorba rozhodovacích stromů tvorba rozhodovacích pravidel tvorba asociačních pravidel neuronové sítě genetické algoritmy bayesovské sítě učení založené na analogii
prohledávání Strojové učení jako hledáme strukturu i parametry modelu aproximace hledáme parametry modelu
Uspořádání modelů MGM -Nejobecnější model (jeden shluk pro všechno) M1 obecnější než M2 M2 je speciálnější než M1 B( n) n B( n) n 1 1 k 1 2 2 n k 3 5 1 B( k), 4 15 52 10 115975 MSM - Nejspeciálnější model(y) (co příklad to shluk) 5 B(0) 1
Způsoby prohledávání Směr shora dolů zdola nahoru Strategie slepé heuristické náhodné Šíře jednoduché paralelní
Aproximace na základě konečného počtu bodů [x i,y i ] se snažíme určit parametry předpokládané rozhodovací funkce y=f(x) Metoda nejmenších čtverců: hledání minima souhrnné chyby min i (y i - f(x i )) 2 se převádí na řešení rovnice d dq i y f ( i x i ) 2 0
Aproximace (2/2) Analytické řešení (známe typ funkce) řešení soustavy rovnic pro parametry funkce regrese Numerické řešení (neznáme typ funkce) gradientní metody Err(q) = Err q 0, Err q 1,..., Err q Q Modifikace znalostí q = [q 0, q 1,..., q Q ] pak probíhá jako q j q j + q j kde Δq j - η Err q j
Rozhodovací stromy (prohledávání) směr shora dolů (TDIDT) jednoduché heuristické ID3, C4.5 (Quinlan), CART (Breiman a kol.) paralelní heuristické Option trees (Buntine), Random forrest (Breiman) náhodné paralelní použití genetického programování směr zdola nahoru jen jako doplněk v rámci prořezávání
Rozhodovací pravidla (pokrývání množin jako prohledávání) směr shora dolů paralelní heuristické IF Příjem(nízký) THEN IF Příjem(nízký) AND Konto(nízké) THEN CN2 (Clark, Niblett), CN4 (Bruha) směr zdola nahoru jednoduché heuristické Find-S (Mitchell) paralelní heuristické AQ (Michalski) náhodné paralelní GA-CN4 (Králík, Bruha)
Asociační pravidla (generování jako prohledávání shora dolů) do šířky Apriori (Agrawal), LISp-Miner (Rauch) kombinace... 4a 4n 5a 5n 1n 2n 1n 2s 1n 2v 1n 3m 1n 3z... do hloubky kombinace 1n 1n 2n 1n 2n 3m 1n 2n 3m 4a 1n 2n 3m 4a 5a 1n 2n 3m 4a 5n 1n 2n 3m 4n 1n 2n 3m 4n 5a 1n 2n 3m 4n 5n 1n 2n 3m 5a 1n 2n 3m 5n heuristicky KAD (Ivánek, Stejskal) kombinace 5a 1n 3m 3z 4a 4n 1v 1n 4a 4n 5a 1v 5a 2v
Vícevrstvý perceptron (aproximace) Backpropagation algoritmus 1. inicializuj váhy sítě malými náhodnými čísly 2. dokud není splněno kritérium pro zastavení 2.1 pro každý příklad [x, y] z trénovacích dat 2.1.1. spočítej výstup out u pro každý neuron u 2.1.2 pro každý neuron v ve výstupní vrstvě spočítej chybu error v = out v (1 - out v ) (y v - out v ) 2.1.3 pro každý neuron s ve skryté vrstvě spočítej chybu error s = out s (1 - out s ) v výstup (w s,v error v ) 2.1.4 pro každou vazbu vedoucí z neuronu j do neuronu k modifikuj váhu vazby w j,k = w j,k + w j,k, kde w j,k = error k x j,k
Genetické algoritmy (paralelní náhodné prohledávání) Genetický algoritmus 1. náhodně vytvoř populaci P(0) velikosti N a urči hodnoty funkce fit 2. dokud není splněna podmínka pro zastavení 2.1. vyber z P(t) jedince kteří se přímo přenesou do P(t+1) 2.2.1. vyber z P(t) dvojice jedinců určených k reprodukci 2.2.2. aplikuj na každou dvojici křížení a zařaď potomky do P(t+1) 2.3.1. vyber z P(t) jedince určené k mutaci 2.3.2. aplikuj na každého jedince mutaci a zařaď do P(t+1) 2.4. spočítej pro každého jedince v P(t+1) hodnotu funkce fit 2.5. přiřaď t:= t + 1 3. vrať jedince s nejvyšší hodnotu fit
Bayesovské metody Naivní bayesovský klasifikátor (aproximace) P( H E1,..., E K ) k K 1 P( E k H ) P( E) P( H ) Bayesovská síť (prohledávání, aproximace) P( u n 1,..., un) P( ui rodiče( ui)) ii 1
Učení založené na instancích volba instancí pro uložení do databáze žádné prohledávání IB1 (Aha) jednoduché heuristické shora dolů IB2, IB3 (Aha) shlukování (a hledání centroidů) jednoduché heuristické prohledávání shora dolů (divisivní) zdola nahoru (aglomerativní) aproximace K-NN
10 nej. algoritmy C4.5 rozhodovací stromy K-Means shlukování SVM neuronové sítě Apriori asociační pravidla EM pravděpodobnostní PageRank web AdaBoost kombinování modelů knn instance Naive Bayes pravděpodobnostní CART rozhodovací stromy
neexistuje nejlepší algoritmus, který bude dosahovat nejvyšší správnosti klasifikace pro libovolnou úlohu (no free lunch) Závěr potřebujeme další informace porozumění úloze porozumění datům Porozumění problematice Využití výsledků DATA Porozumění datům Příprava dat Modelování Vyhodnocení výsledků
Učení a adaptace
Adaptivní inteligentní systémy schopnost přizpůsobit se změnám prostředí, schopnost přizpůsobit se novým podmínkám využívání, schopnost přizpůsobit se nové aplikaci. [IST-2000-29270 Projekt EUNITE]
Dávkové učení data Dávkové učení model
Inkrementální učení starý model nový příklad Inkrementální učení nový model
Integrování znalostí na úrovni usuzování učení 1 Bagging Boosting data učení 2... učení n kombinace Stacking (Bauer, Kohavi, 1999), (Diettrich, 2000)
Integrování znalostí na úrovni reprezentace (1/2) starý model 1...... starý model z Integrace znalostí nový model
Integrace/Revize znalostí starý model nová data Integrace/ Revize znalostí nový model Integrace znalostí starý model je doplněn (dávkově inkrementální postup) Revize znalostí starý model je změněn
Učení a zapomínání učení zapomínání u + u u POS POT NEG z + z z z + u + s učitelem FLORA (Widmer, Kubát, 1996) STAGGER (Schlimmer, Granger, 1986) bez učitele COBWEB (Fisher, 1987)
Koncepty závislé na kontextu Kontext situace, ve které získáváme data relevantní atributy, které nejsou v současnosti dostupné atributy, které samy o sobě nepřispívají ke klasifikaci ale které zlepšují výsledky klasifikace v kombinaci s jinými atributy (Matwin, Kubát, 1996)