Dobývání dat a strojové učení

Podobné dokumenty
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Strojové uení. typy učení: Metody učení: učení se znalostem (knowledge acquisition) učení se dovednostem (skill refinement).

Dobývání znalostí z databází

znalostí z databází- mnohostranná interpretace dat

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Získávání dat z databází 1 DMINA 2010

Rozhodovací pravidla

Metody založené na analogii

Dobývání a vizualizace znalostí

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání a vizualizace znalostí

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

8. Strojové učení. Strojové učení. 16. prosince Václav Matoušek. 8-1 Úvod do znalostního inženýrství, ZS 2014/15

5.5 Evoluční algoritmy

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Vytěžování znalostí z dat

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Strojové učení Marta Vomlelová

UČENÍ BEZ UČITELE. Václav Hlaváč

8. Strojové učení Strojové učení

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Adaptivní inteligentní systémy

Adaptivní inteligentní systémy

Pokročilé neparametrické metody. Klára Kubošová

Moderní systémy pro získávání znalostí z informací a dat

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Genetické programování

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Dobývání a vizualizace znalostí

1. Data mining. Strojové učení. Základní úlohy.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Trénování sítě pomocí učení s učitelem

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Využití metod strojového učení v bioinformatice David Hoksza

Lineární diskriminační funkce. Perceptronový algoritmus.

Umělé neuronové sítě

Bayesovská klasifikace

Algoritmy a struktury neuropočítačů ASN - P11

MATEMATICKÁ TEORIE ROZHODOVÁNÍ

Neuronové sítě (11. přednáška)

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Úloha - rozpoznávání číslic

O kurzu MSTU Témata probíraná v MSTU

MATEMATICKÁ TEORIE ROZHODOVÁNÍ

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015

Lineární klasifikátory

Úvod do optimalizace, metody hladké optimalizace

3. Vícevrstvé dopředné sítě

8. Systémy pro dobývání znalostí z databází

Předzpracování dat. Lenka Vysloužilová

Umělá inteligence a rozpoznávání

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

LISp-Miner: systém pro získávání znalostí z dat 1

Emergence chování robotických agentů: neuroevoluce

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Připomeň: Shluková analýza

Základy umělé inteligence

Dolování z textu. Martin Vítek

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Kombinování klasifikátorů Ensamble based systems

VYUŽITÍ DATA MININGOVÝCH METOD PŘI ZPRACOVÁNÍ DAT Z DEMOGRAFICKÝCH ŠETŘENÍ

Popis zobrazení pomocí fuzzy logiky

Pokročilé neparametrické metody. Klára Kubošová

Vytěžování znalostí z dat

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Úvodem Dříve les než stromy 3 Operace s maticemi

Katedra kybernetiky, FEL, ČVUT v Praze.

1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017

Učící se klasifikátory obrazu v průmyslu

Asociační i jiná. Pravidla. (Ch )

Státnice odborné č. 20

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

2. RBF neuronové sítě

UNIVERZITA PARDUBICE KLASIFIKAČNÍ ÚLOHY PRO DATA MINING. Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky.

5.8 Induktivní logické programování

Analytické procedury v systému LISp-Miner

Václav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV

Segmentace bankovních zákazníků algoritmem k- means

Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, + TXT, XLS, CSV, C45, ARF, + CSV, XLS, ARF, + BMP, PNG, +

5.1 Rozhodovací stromy

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Vytěžování znalostí z dat

Projekt LISp-Miner. M. Šimůnek

3.1 Úvod do problematiky

Katedra kybernetiky, FEL, ČVUT v Praze.

Strojové učení Marta Vomlelová

Úvod do expertních systémů

ANALÝZA A KLASIFIKACE DAT

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku

NG C Implementace plně rekurentní

Využití strojového učení k identifikaci protein-ligand aktivních míst

8 Strojové uení a adaptace

Úvod do dobývání. znalostí z databází

8-9. Pravděpodobnostní rozhodování a predikce. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

Vojtěch Franc. Biometrie ZS Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost

Transkript:

Dobývání dat a strojové učení

Dobývání znalostí z databází (Knowledge discovery in databases) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data. (Fayyad a kol., 1996) Analysis of observational data sets to find unsuspected relationships and summarize data in novel ways that are both understandable and useful to the data owner. (Hand, Manilla, Smyth, 2001)

Dobývání znalostí z databází metodika CRISP-DM Porozumění problematice Porozumění datům Příprava dat Využití výsledků DATA Modelování Vyhodnocení výsledků dobývání dat (data mining)

Strojové učení (Machine Learning) The field of machine learning is concerned with the question of how to construct computer programs that automatically improve with experience. (Mitchell, 1997) Things learn when they change their behavior in a way that makes them perform better in a future. (Witten, Frank, 1999)

Strojové učení a dobývání dat učení se dovednostem analytické učení se konceptům empirické učení se konceptům statistické metody analýzy dat databázové techniky

Metody učení učení zapamatováním (rote learning neboli biflování) učení se z instrukcí (learning from instruction, learning by being told) učení se z analogie (learning by analogy, instancebased learning, lazy learning) učení na základě vysvětlení (explanation-based learning) učení se z příkladů (learning from examples) učení se z pozorování a objevováním (learning from observation and discovery)

Informace o správnosti učení příklady zařazené do tříd (učení s učitelem - supervised learning) odměny za správné chování a tresty za chování nesprávné (reinforcement learning) nepřímé náznaky odvozené s chování učitele (apprenticeship learning) žádné (učení bez učitele - unsupervised learning)

Další členění reprezentace příkladů atributy: kategoriální (binární, nominální, ordinální) a numerické barva_vlasu(cerna) & vyska(180) & vousy(ano) & vzdelani(vs) relace otec(jan_lucembursky, karel_iv) režim učení dávkový inkrementální

Úloha empirického učení z dat Analyzovaná data (1/3) DD TR xx xx : : xx 11 11 2 12 1 n 1 n 1 xx xx : : xx 1 21 2 2 22 2 n 2 n 2...... x x...... x x : :...... x x 1 m 1 m 2 m 2 m n m n m y y y : 1 2 n Klasifikační úloha: hledáme znalosti (reprezentované rozhodovací funkcí f) f: x y, která pro hodnoty vstupních atributů x nějakého objektu odvodí hodnotu cílového atributu ŷ = f (x).

Úloha empirického učení z dat (2/3) V průběhu klasifikace jednoho objektu se můžeme dopustit chyby Q f (o i, ŷ i ): 2 Q ( o i, y ) = (y - y ) Q (, y ) = f i i i f o i i 1 pro y y 0 pro y = y Pro celou trénovací množinu D TR pak můžeme vyčíslit souhrnnou chybu Err(f,D TR ), např. jako Err(f,D = 1 TR ) Q f ( o i, y i ) n n i=1 i i i i

Úloha empirického učení z dat (3/3) Cílem učení je nalézt takové znalosti f*, které by minimalizovaly tuto chybu Err(f *,D TR ) min f Err(f,D TR )

Ilustrační příklad údaje o osobách - klientech banky, kterým banka půjčuje na základě informací o jejich příjmech a výši konta

Empirické učení se konceptům objekty, patřící do téže třídy mají podobné charakteristiky (učení na základě podobnosti) z konečného počtu příkladů odvozujeme obecné znalosti (induktivnost)

Metody strojového učení tvorba rozhodovacích stromů tvorba rozhodovacích pravidel tvorba asociačních pravidel neuronové sítě genetické algoritmy bayesovské sítě učení založené na analogii

prohledávání Strojové učení jako hledáme strukturu i parametry modelu aproximace hledáme parametry modelu

Uspořádání modelů MGM -Nejobecnější model (jeden shluk pro všechno) M1 obecnější než M2 M2 je speciálnější než M1 B( n) n B( n) n 1 1 k 1 2 2 n k 3 5 1 B( k), 4 15 52 10 115975 MSM - Nejspeciálnější model(y) (co příklad to shluk) 5 B(0) 1

Způsoby prohledávání Směr shora dolů zdola nahoru Strategie slepé heuristické náhodné Šíře jednoduché paralelní

Aproximace na základě konečného počtu bodů [x i,y i ] se snažíme určit parametry předpokládané rozhodovací funkce y=f(x) Metoda nejmenších čtverců: hledání minima souhrnné chyby min i (y i - f(x i )) 2 se převádí na řešení rovnice d dq i y f ( i x i ) 2 0

Aproximace (2/2) Analytické řešení (známe typ funkce) řešení soustavy rovnic pro parametry funkce regrese Numerické řešení (neznáme typ funkce) gradientní metody Err(q) = Err q 0, Err q 1,..., Err q Q Modifikace znalostí q = [q 0, q 1,..., q Q ] pak probíhá jako q j q j + q j kde Δq j - η Err q j

Rozhodovací stromy (prohledávání) směr shora dolů (TDIDT) jednoduché heuristické ID3, C4.5 (Quinlan), CART (Breiman a kol.) paralelní heuristické Option trees (Buntine), Random forrest (Breiman) náhodné paralelní použití genetického programování směr zdola nahoru jen jako doplněk v rámci prořezávání

Rozhodovací pravidla (pokrývání množin jako prohledávání) směr shora dolů paralelní heuristické IF Příjem(nízký) THEN IF Příjem(nízký) AND Konto(nízké) THEN CN2 (Clark, Niblett), CN4 (Bruha) směr zdola nahoru jednoduché heuristické Find-S (Mitchell) paralelní heuristické AQ (Michalski) náhodné paralelní GA-CN4 (Králík, Bruha)

Asociační pravidla (generování jako prohledávání shora dolů) do šířky Apriori (Agrawal), LISp-Miner (Rauch) kombinace... 4a 4n 5a 5n 1n 2n 1n 2s 1n 2v 1n 3m 1n 3z... do hloubky kombinace 1n 1n 2n 1n 2n 3m 1n 2n 3m 4a 1n 2n 3m 4a 5a 1n 2n 3m 4a 5n 1n 2n 3m 4n 1n 2n 3m 4n 5a 1n 2n 3m 4n 5n 1n 2n 3m 5a 1n 2n 3m 5n heuristicky KAD (Ivánek, Stejskal) kombinace 5a 1n 3m 3z 4a 4n 1v 1n 4a 4n 5a 1v 5a 2v

Vícevrstvý perceptron (aproximace) Backpropagation algoritmus 1. inicializuj váhy sítě malými náhodnými čísly 2. dokud není splněno kritérium pro zastavení 2.1 pro každý příklad [x, y] z trénovacích dat 2.1.1. spočítej výstup out u pro každý neuron u 2.1.2 pro každý neuron v ve výstupní vrstvě spočítej chybu error v = out v (1 - out v ) (y v - out v ) 2.1.3 pro každý neuron s ve skryté vrstvě spočítej chybu error s = out s (1 - out s ) v výstup (w s,v error v ) 2.1.4 pro každou vazbu vedoucí z neuronu j do neuronu k modifikuj váhu vazby w j,k = w j,k + w j,k, kde w j,k = error k x j,k

Genetické algoritmy (paralelní náhodné prohledávání) Genetický algoritmus 1. náhodně vytvoř populaci P(0) velikosti N a urči hodnoty funkce fit 2. dokud není splněna podmínka pro zastavení 2.1. vyber z P(t) jedince kteří se přímo přenesou do P(t+1) 2.2.1. vyber z P(t) dvojice jedinců určených k reprodukci 2.2.2. aplikuj na každou dvojici křížení a zařaď potomky do P(t+1) 2.3.1. vyber z P(t) jedince určené k mutaci 2.3.2. aplikuj na každého jedince mutaci a zařaď do P(t+1) 2.4. spočítej pro každého jedince v P(t+1) hodnotu funkce fit 2.5. přiřaď t:= t + 1 3. vrať jedince s nejvyšší hodnotu fit

Bayesovské metody Naivní bayesovský klasifikátor (aproximace) P( H E1,..., E K ) k K 1 P( E k H ) P( E) P( H ) Bayesovská síť (prohledávání, aproximace) P( u n 1,..., un) P( ui rodiče( ui)) ii 1

Učení založené na instancích volba instancí pro uložení do databáze žádné prohledávání IB1 (Aha) jednoduché heuristické shora dolů IB2, IB3 (Aha) shlukování (a hledání centroidů) jednoduché heuristické prohledávání shora dolů (divisivní) zdola nahoru (aglomerativní) aproximace K-NN

10 nej. algoritmy C4.5 rozhodovací stromy K-Means shlukování SVM neuronové sítě Apriori asociační pravidla EM pravděpodobnostní PageRank web AdaBoost kombinování modelů knn instance Naive Bayes pravděpodobnostní CART rozhodovací stromy

neexistuje nejlepší algoritmus, který bude dosahovat nejvyšší správnosti klasifikace pro libovolnou úlohu (no free lunch) Závěr potřebujeme další informace porozumění úloze porozumění datům Porozumění problematice Využití výsledků DATA Porozumění datům Příprava dat Modelování Vyhodnocení výsledků

Učení a adaptace

Adaptivní inteligentní systémy schopnost přizpůsobit se změnám prostředí, schopnost přizpůsobit se novým podmínkám využívání, schopnost přizpůsobit se nové aplikaci. [IST-2000-29270 Projekt EUNITE]

Dávkové učení data Dávkové učení model

Inkrementální učení starý model nový příklad Inkrementální učení nový model

Integrování znalostí na úrovni usuzování učení 1 Bagging Boosting data učení 2... učení n kombinace Stacking (Bauer, Kohavi, 1999), (Diettrich, 2000)

Integrování znalostí na úrovni reprezentace (1/2) starý model 1...... starý model z Integrace znalostí nový model

Integrace/Revize znalostí starý model nová data Integrace/ Revize znalostí nový model Integrace znalostí starý model je doplněn (dávkově inkrementální postup) Revize znalostí starý model je změněn

Učení a zapomínání učení zapomínání u + u u POS POT NEG z + z z z + u + s učitelem FLORA (Widmer, Kubát, 1996) STAGGER (Schlimmer, Granger, 1986) bez učitele COBWEB (Fisher, 1987)

Koncepty závislé na kontextu Kontext situace, ve které získáváme data relevantní atributy, které nejsou v současnosti dostupné atributy, které samy o sobě nepřispívají ke klasifikaci ale které zlepšují výsledky klasifikace v kombinaci s jinými atributy (Matwin, Kubát, 1996)