Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
|
|
- Lenka Marková
- před 9 lety
- Počet zobrazení:
Transkript
1 Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
2 Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
3 Rozhodovací stromy (decision trees - motivace) I. Mrázová: Dobývání znalostí 3
4 Rozhodovací stromy (decision trees - motivace) I. Mrázová: Dobývání znalostí 4
5 Rozhodovací stromy (decision trees) Řešení klasifikačních úloh Vytvářený strom modeluje proces klasifikace Efektivní vytváření stromů Dělení příznakového prostoru do pravoúhlých oblastí Klasifikace vzorů podle oblasti, ve které se nacházejí I. Mrázová: Dobývání znalostí 5
6 Rozhodovací stromy (2) Definice: r r r Mějme databázi D { t1, K, t } n, kde t ( ) i ti, K 1, tin. Dále mějme atributy {A 1, A 2,, A n } a množinu tříd C { C 1,, C m }. Rozhodovací strom pro D je strom, kde: Každý vnitřní uzel je ohodnocen atributem A i Každá hrana je ohodnocena predikátem (použitelným na atribut rodičovského uzlu) Každý list je ohodnocen třídou C j I. Mrázová: Dobývání znalostí 6
7 Rozhodovací stromy (3) Řešení klasifikačních úloh pomocí rozhodovacích stromů vyžaduje dva kroky: Indukce rozhodovacího stromu Podle trénovacích dat t r i D použij rozhodovací strom a urči třídu Výhody: Jednoduché Efektivní Extrakce jednoduchých pravidel Použitelné i pro velké databáze I. Mrázová: Dobývání znalostí 7
8 Rozhodovací stromy (4) Nevýhody: Obtížnější zpracování spojitých dat (kategorizace atributů ~ rozdělení příznakového prostoru do pravoúhlých oblastí) nelze použít vždy Příklad: Půjčka Obtížné zpracování při chybějících údajích Přeučení ( over-fitting ) PROŘEZÁVÁNÍ Vzájemná korelace mezi atributy se nebere v úvahu O BN O S ZAMÍTNOUT POVOLIT PŘÍJEM I. Mrázová: Dobývání znalostí 8
9 Rozhodovací stromy (5) Atributy pro dělení: Ohodnocení uzlů vytvářeného stromu Dělicí predikáty: Ohodnocení hran vytvářeného stromu Ukončovací kritérium: Např. příslušnost všech vzorů z redukované množiny ke stejné třídě I. Mrázová: Dobývání znalostí 9
10 Rozhodovací stromy (6) Indukce rozhodovacího stromu algoritmus: VSTUP: D // trénovací data VÝSTUP: T // rozhodovací strom Vytvoření rozhodovacího stromu: // základní algoritmus T {}; urči nejlepší kritérium pro dělení; T vytvoř kořen a ohodnoť ho atributem pro dělení; T přidej hranu pro každý dělicí predikát a ohodnoť ji; I. Mrázová: Dobývání znalostí 10
11 Rozhodovací stromy (7) Indukce rozhodovacího stromu algoritmus: // pokračování FOR každou hranu DO D databáze vytvořená použitím dělicího predikátu na D; IF ukončovací kritérium splněno pro danou cestu THEN T vytvoř list a ohodnoť ho příslušnou třídou; ELSE T vytvoření rozhodovacího stromu ( D ); T připoj T k hraně I. Mrázová: Dobývání znalostí 11
12 Rozhodovací stromy (8) Algoritmus TDIDT: (~ Top Down Induction of Decision Trees) Indukce stromů metodou shora dolů (rozděl a panuj) Algoritmus TDIDT: 1. Zvol jeden atribut jako kořen dílčího stromu 2. Rozděl data v tomto uzlu na podmnožiny podle hodnot zvoleného atributu a přidej uzel pro každou podmnožinu 3. existuje-li uzel, pro který nepatří všechna data do téže třídy, opakuj pro tento uzel postup od bodu 1; jinak skonči I. Mrázová: Dobývání znalostí 12
13 Rozhodovací stromy (9) Výběr vhodného atributu pro větvení stromu: Cíl: vybrat atribut, který od sebe nejlépe odliší příklady z různých tříd Entropie ~ míra neuspořádanosti systému H p t pravděpodobnost výskytu třídy t (~ relativní četnost třídy t počítaná na určité množině příkladů) t počet tříd ( Pozn.: log b x log a x/ log a b) T ( p ) t log 2 p t t 1 I. Mrázová: Dobývání znalostí 13
14 Rozhodovací stromy (10) Výpočet entropie pro jeden atribut: Pro každou hodnotu v, které může nabýt uvažovaný atribut A, spočítej entropii H ( A ( v ) ) na skupině příkladů, které jsou pokryty kategorií A ( v ) H ( A() v ) T t 1 nt n ( A( v) ) ( A() v ) log 2 ( A( v) ) ( A() v ) Spočítej střední entropii H ( A ) jako vážený součet entropií H ( A ( v ) ) H ( A) v Val ( A) n ( A( v) ) n nt n H ( A() v ) I. Mrázová: Dobývání znalostí 14
15 Rozhodovací stromy (11) Použití rozhodovacího stromu pro klasifikaci nových případů: V nelistových uzlech stromu jsou uvedeny atributy použité při větvení Hrany stromu odpovídají hodnotám těchto atributů V listech stromu je informace o přiřazení ke třídě Od kořene stromu se postupně zjišťují hodnoty příslušných atributů I. Mrázová: Dobývání znalostí 15
16 Rozhodovací stromy (12) Převod stromu na pravidla: Každé cestě stromem od kořene k listu odpovídá jedno pravidlo nelistové uzly (atributy) se (spolu s hodnotou pro příslušnou hranu) objeví v předpokladech pravidla Listový uzel (cíl) bude v závěru pravidla I. Mrázová: Dobývání znalostí 16
17 Rozhodovací stromy Příklad: Žádost o úvěr (1) I. Mrázová: Dobývání znalostí 17
18 Rozhodovací stromy Příklad: Žádost o úvěr (2) Čtyřpolní tabulka pro příjem a úvěr: Volba atributu pro větvení podle nejnižší entropie: PŘÍJEM: H 5 12 ( PRIJEM) H( PRIJEM( VYSOKY) ) + H( PRIJEM( NIZKY) ) I. Mrázová: Dobývání znalostí 18
19 Rozhodovací stromy Příklad: Žádost o úvěr (3) Volba atributu pro větvení podle nejnižší entropie: PŘÍJEM (pokračování): H ( PRIJEM ( VYSOKY )) H ( PRIJEM ( NIZKY )) p 5 5 p log log + log log p p p log p log log 2 log p p I. Mrázová: Dobývání znalostí 19
20 Rozhodovací stromy Příklad: Žádost o úvěr (4) Volba atributu pro větvení podle nejnižší entropie: KONTO: H ( KONTO ) H ( KONTO ( VYSOKE )) H H 0 ( KONTO ( STREDNI )) ( KONTO ( NIZKE )) I. Mrázová: Dobývání znalostí
21 Rozhodovací stromy Příklad: Žádost o úvěr (5) Volba atributu pro větvení podle nejnižší entropie: POHLAVÍ: H 6 12 ( POHLAVI ) H ( POHLAVI ( MUZ )) H ( POHLAVI ( ZENA) ) I. Mrázová: Dobývání znalostí 21
22 Rozhodovací stromy Příklad: Žádost o úvěr (6) Volba atributu pro větvení podle nejnižší entropie: NEZAMĚSTNANÝ: H 6 12 ( NEZAMESTNANY ) H ( NEZAMESTNANY( ANO) ) H 1 ( NEZAMESTNANY( NE) ) I. Mrázová: Dobývání znalostí 22
23 Rozhodovací stromy Příklad: Žádost o úvěr (7) Volba atributu pro větvení podle nejnižší entropie: První větvení pro atribut PRIJEM: 2 třídy PRIJEM ( VYSOKY ): UVER ( ANO ) pro všechny vzory PRIJEM ( NIZKY ): 7 klientů + větvení KONTO: H 2 7 ( KONTO) H ( KONTO ( VYSOKE) ) + H ( KONTO ( STREDNI )) ( KONTO ( NIZKE) ) POHLAVÍ: H ( POHLAVI ) H NEZAMĚSTNANÝ: H ( NEZAMESTNANY ) I. Mrázová: Dobývání znalostí 23 +
24 Rozhodovací stromy Příklad: Žádost o úvěr (8) Volba atributu pro větvení podle nejnižší entropie: Druhé větvení podle atributu KONTO: 3 třídy KONTO ( VYSOKE ): UVER ( ANO ) pro všechny vzory KONTO ( NIZKE ): UVER (NE ) pro všechny vzory KONTO ( STREDNI ): 3 klienti + větvení POHLAVÍ: H 2 3 ( POHLAVI ) H ( POHLAVI ( MUZ )) + H ( POHLAVI ( ZENA) ) NEZAMĚSTNANÝ: H ( NEZAMESTNANY ) Třetí větvení podle atributu NEZAMESTNANY I. Mrázová: Dobývání znalostí 24
25 Rozhodovací stromy Příklad: Žádost o úvěr (9) Indukovaný rozhodovací strom: I. Mrázová: Dobývání znalostí 25
26 Rozhodovací stromy Příklad: Žádost o úvěr (10) Převod indukovaného stromu na pravidla: IF PRIJEM ( VYSOKY ) THEN UVER ( ANO ) IF PRIJEM ( NIZKY ) KONTO ( VYSOKE ) THEN UVER (ANO ) IF PRIJEM ( NIZKY ) KONTO ( NIZKE ) THEN UVER (NE ) IF PRIJEM ( NIZKY ) KONTO ( STREDNI ) NEZAMESTNANY ( ANO ) THEN UVER (NE ) IF PRIJEM ( NIZKY ) KONTO ( STREDNI ) NEZAMESTNANY ( NE ) THEN UVER (ANO ) I. Mrázová: Dobývání znalostí 26
27 Rozhodovací stromy (13) Faktory důležité při indukci rozhodovacího stromu: Volba atributů pro dělení Vliv na efektivitu vytvářeného stromu informovaný vstup experta pro danou oblast Uspořádání atributů pro dělení Omezit zbytečná porovnávání Dělení Počet potřebných dělení Obtížnější pro spojité hodnoty anebo velký počet hodnot I. Mrázová: Dobývání znalostí 27
28 Rozhodovací stromy (14) Faktory důležité při indukci rozhodovacího stromu: Tvar vytvořeného stromu Vhodnější jsou vyvážené stromy s co nejmenším počtem úrovní x složitější porovnávání Některé algoritmy vytvářejí jen binární stromy (často hlubší) Ukončovací kritéria Správná klasifikace trénovacích dat Předčasné ukončení zabraňuje vytváření velkých stromů a přeučení přesnost x efektivita Occam s razor (William of Occam 1320) preference nejjednodušší hypotézy pro D I. Mrázová: Dobývání znalostí 28
29 Rozhodovací stromy (15) Faktory důležité při indukci rozhodovacího stromu: Trénovací data a jejich množství Málo vytvořený strom nemusí být dostatečně spolehlivý pro obecnější data Příliš mnoho nebezpečí přeučení Prořezávání Vyšší přesnost a efektivita pro testovaná data Odstranit redundantní porovnávání, případně celé podstromy, resp. nepodstatné atributy Přeučení odstranění celých podstromů na nižších úrovních I. Mrázová: Dobývání znalostí 29
30 Rozhodovací stromy (16) Faktory důležité při indukci rozhodovacího stromu: Prořezávání (pokračování) Lze provést již během indukce stromu omezí vytváření příliš velkých stromů Jiný přístup prořezávání již vytvořených stromů Časová a prostorová složitost Závisí na množství trénovacich dat q, počtu atributů h a tvaru indukovaného stromu hloubka, větvení Časová složitost pro indukci stromu: O ( h q log q ) Časová složitost klasifikace n vzorů stromem hloubky O ( log q ) : O ( n log q ) I. Mrázová: Dobývání znalostí 30
31 Rozhodovací stromy (17) ID3 Algoritmus (Ross Quinlan, 1986): Učení funkcí s Boolovskými hodnotami Greedy metoda Vytváří strom zeshora dolů V každém uzlu zvolí atribut, který nejlépe klasifikuje lokální trénovací data nejlepší atribut má nejvyšší informační zisk Proces pokračuje, dokud nejsou všechna trénovací data správně zařazena, anebo dokud nebyly použity všechny atributy I. Mrázová: Dobývání znalostí 31
32 Rozhodovací stromy (18) ID3 Algoritmus (pokračování): EXAMPLES ~ trénovací data (vzory) TARGET_ATTRIBUTE ~ atribut, jehož hodnotu má strom predikovat (třída) ATTRIBUTES ~ seznam atributů, kterémávytvářený strom testovat Vrací rozhodovací strom, který správně klasifikuje daná trénovací data (EXAMPLES) Entropie ~ míra neuspořádanosti (~ překvapení ) v trénovací množině Informační zisk ~očekávaná redukce entropie po rozdělení dat podle uvažovaného atributu Preference menších stromů x přeučení I. Mrázová: Dobývání znalostí 32
33 Rozhodovací stromy (19) ID3 Algoritmus (pokračování): ID3(EXAMPLES, TARGET_ATTRIBUTE, ATTRIBUTES) Vytvoř kořen ROOT stromu IF všechny EXAMPLES pozitivní, RETURN strom ROOT, který má jediný uzel ohodnocený + IF všechny EXAMPLES negativní, RETURN strom ROOT, který má jediný uzel ohodnocený - IF ATTRIBUTES {}, RETURN strom ROOT, který má jediný uzel ohodnocený nejčastější hodnotou TARGET_ATTRIBUTE v EXAMPLES I. Mrázová: Dobývání znalostí 33
34 Rozhodovací stromy (20) // ID3(EXAMPLES, TARGET_ATTRIBUTE, ATTRIBUTES) // pokračování ELSE BEGIN A < atribut z ATTRIBUTES, který nejlépe klasifikuje EXAMPLES Atribut pro dělení v ROOT < A Pro všechny možné hodnoty v i atributu A Připoj k ROOT novou hranu, která odpovídá testu A v i Nechť EXAMPLESv i je podmnožina EXAMPLES s hodnotou v i pro A I. Mrázová: Dobývání znalostí 34
35 Rozhodovací stromy (21) // ID3(EXAMPLES, TARGET_ATTRIBUTE, ATTRIBUTES) // pokračování END IF EXAMPLESv i {} Připoj k hraně list ohodnocený nejčastější hodnotou TARGET_ATTRIBUTE v EXAMPLES ELSE připoj k hraně podstrom ID3(EXAMPLESv i, TARGET_ATTRIBUTE, ATTRIBUTES - {A}) RETURN ROOT I. Mrázová: Dobývání znalostí 35
36 Rozhodovací stromy (22) ID3 Algoritmus (pokračování): Kritérium pro dělení: informační zisk výpočet pomocí entropie: c tříd p i pravděpodobnost třídy i ( ~ počet vzorů z i / počet všech vzorů v trénovací množině EXAMPLES ) ENTROPY ( EXAMPLES) c i 1 I. Mrázová: Dobývání znalostí 36 p i log 2 p i
37 Rozhodovací stromy (23) ID3 Algoritmus (pokračování): Kritérium pro dělení: informační zisk Informační zisk - GAIN: A uvažovaný atribut GAIN VALUES(A) množina všech možných hodnot pro atribut A ( EXAMPLES, A) ENTROPY ( EXAMPLES) v VALUES ( A) EXAMPLES EXAMPLES v ENTROPY ( EXAMPLES ) I. Mrázová: Dobývání znalostí 37 v
38 Rozhodovací stromy (24) Algoritmus C4.5 (Ross Quinlan ): Modifikace algoritmu ID3 Chybějící data Při konstrukci stromu se ignorují při výpočtu kritéria pro dělení se uvažují pouze známé hodnoty daného atributu Při klasifikaci se chybějící hodnota atributu odhadne podle hodnot známých pro ostatní vzory Spojitá data Kategorizace dat podle hodnot atributu na vzorech z trénovací množiny I. Mrázová: Dobývání znalostí 38
39 Rozhodovací stromy (25) Algoritmus C4.5 (pokračování): Prořezávání (pruning) Validace: rozdělení trénovacích dat na trénovací množinu (2/3) a validační množinu (1/3) Náhrada podstromu (reduced error pruning) listem ohodnoceným nejčastější třídou na příslušných trénovacích vzorech Nový strom nesmí být na validační množině horší než původní! V opačném případě se náhrada podstromu neprovede I. Mrázová: Dobývání znalostí 39
40 Rozhodovací stromy (25) Algoritmus C4.5 (pokračování): Prořezávání (pruning) Roubování (subtree raising) Náhrada podstromu jeho nejčastěji užívaným podstromem ten je tak přenesen na vyšší úroveň Test na přesnost klasifikace Pravidla a jejich zjednodušení (rule post-pruning) Inference rozhodovacího stromu z trénovací množiny povoleno přeučení Konverze vytvořeného stromu do ekvivalentní sady pravidel Pro každou cestu od kořene k listu je vytvořeno jedno pravidlo I. Mrázová: Dobývání znalostí 40
41 Rozhodovací stromy (26) Algoritmus C4.5 (pokračování): Pravidla a jejich zjednodušení (rule post-pruning) Prořezání (~ generalizace) pravidel odstraněním všech možných předpokladů, pokud to nepovede ke zhoršení odhadované správnosti klasifikace Uspořádání prořezaných pravidel podle jejich očekávané přesnosti V tomto pořadí se pravidla použijí při následné klasifikaci vzorů snazší a radikálnější prořezávání než v případě celých rozhodovacích stromů transparentní, srozumitelná pravidla I. Mrázová: Dobývání znalostí 41
42 Rozhodovací stromy (27) Algoritmus C4.5 (pokračování): Odhad správnosti pravidel, resp. stromů Standardní přístup: Použít validační množinu C4.5: Výpočet správnosti na trénovacích datech ~ Podíl správně klasifikovaných vzorů pokrytých pravidlem a všech příkladů pokrytých pravidlem Výpočet směrodatné odchylky správnosti ~ Předpokládá se binomické rozdělení, kdy zjišťujeme pravděpodobnost, že na daném počtu vzorů dosáhneme daný počet správných rozhodnutí I. Mrázová: Dobývání znalostí 42
43 Rozhodovací stromy (28) Algoritmus C4.5 (pokračování): Odhad správnosti pravidel, resp. stromů Jako hledaná charakteristika pravidla se vezme dolní odhad správnosti pro zvolený interval spolehlivosti Příklad: Pro interval spolehlivosti 95% bude dolní odhad správnosti pro nová data: SPRÁVNOST_NA_TRÉNOVACÍCH_DATECH 1.96 x SMĚRODATNÁ_ODCHYLKA I. Mrázová: Dobývání znalostí 43
44 Rozhodovací stromy (29) Algoritmus C4.5 (pokračování): Kritérium pro dělení: poměrný informační zisk GAIN _ RATIO v VALUES ( EXAMPLES, A) ( A) GAIN ( EXAMPLES, A) EXAMPLES EXAMPLES Pro dělení se použije atribut s nejvyšším poměrným informačním ziskem v log 2 EXAMPLES EXAMPLES I. Mrázová: Dobývání znalostí 44 v
45 Rozhodovací stromy (30) Algoritmus C5.0: Komerční verze C4.5 pro velké databáze Podobná indukce rozhodovacího stromu Efektivnější generování pravidel (zatím nezveřejněno) Vyšší dosahovaná spolehlivost: Boosting (~ kombinace několika klasifikátorů) Z trénovacích dat vytvoříněkolik trénovacích množin Každému trénovacímu vzoru je přiřazena váha odpovídající jeho významu při klasifikaci Pro každou kombinaci vah je vytvořen jiný klasifikátor Při následné klasifikaci vzorů má každý klasifikátor jeden hlas, vítězí většina I. Mrázová: Dobývání znalostí 45
46 Rozhodovací stromy (31) Klasifikační a regresní stromy algoritmus CART: ~ Classification And Regression Trees Generuje binární rozhodovací stromy Výběr nejlepšího atributu pro dělení entropie, Gini-index Při dělení se vytvoří jen dvě hrany Dělení probíhá podle nejlepšího bodu v daném uzlu t Procházejí se všechny možné hodnoty s atributu pro dělení L, R levý, resp. pravý podstrom P L, P R pravděpodobnost zpracování příslušným podstromem P L POCET _ VZORU _ V _ PODSTROMU _ L POCET _ VZORU _ V _ CELE _ TRENOVACI _ MNOZINE I. Mrázová: Dobývání znalostí 46
47 Rozhodovací stromy (32) Klasifikační a regresní stromy (pokračování): Procházejí se všechny možné hodnoty s atributu pro dělení V případě rovnosti se použije pravý podstrom P(C j t L ), P(C j t R ) pravděpodobnost, že vzor je v třídě C j a v levém, resp. pravém podstromu P ( C t ) j Volba kritéria pro dělení: Φ POCET_ VZORU_ TRIDY_ j _ V _ PODSTROMU POCET_ VZORU_ V _ UVAZOVANEM_ UZLU c ( s t ) 2 P ( ) ( ) L PR P C j tl P C j tr j 1 I. Mrázová: Dobývání znalostí 47
48 Rozhodovací stromy (33) Klasifikační a regresní stromy (pokračování): Vlastnosti CART: Uspořádání atributů podle jejich významu při klasifikaci Chybějící údaje ignoruje nezapočítávají se při vyhodnocování kritéria pro dělení Ukončovací kritérium: Žádné další dělení by nezvýšilo přesnost klasifikace Vysoká přesnost na trénovací množině nemusí odpovídat přesnosti na testovaných datech I. Mrázová: Dobývání znalostí 48
49 Rozhodovací stromy (34) Algoritmus CHAID: ~ Chi-square Automatic Interaction Detection Kritérium pro větvení: χ 2 Algoritmus automaticky seskupuje hodnoty kategoriálních atributů Hodnoty atributu se postupně seskupují z původního počtu až do dvou skupin Následně se vybere atribut a jeho kategorizace, která je v daném kroku pro větvení nejlepší při větvení se nevytváří tolik větví, kolik má atribut hodnot I. Mrázová: Dobývání znalostí 49
50 Rozhodovací stromy (35) Algoritmus CHAID - seskupování hodnot atributu: 1. Opakuj, dokud nevzniknou pouze dvě skupiny hodnot atributu 1. Zvol dvojici kategorií atributu, které jsou si nejpodobnější z hlediska χ 2 a které mohou být spojeny 2. Považuj novou kategorizaci atributu za možné shlukování v daném kroku 2. Pro každý z možných způsobů shlukování hodnot spočítej pomocí χ 2 testu pravděpodobnost p 3. Shlukování s nejnižší pravděpodobností p zvol za nejlepší shlukování hodnot atributu 4. Zjisti, zda toto nejlepší shlukování statisticky významně přispěje k odlišení příkladů z různých tříd I. Mrázová: Dobývání znalostí 50
51 Rozhodovací stromy (36) Algoritmus SPRINT: ~ Scalable PaRallelizable INduction of decision Trees Použití pro velké databáze Nepotřebuje uchovávat jednotlivé vzory v paměti Kritérium pro dělení: Gini-index D databáze ( rozdělená na D 1 a D 2 ) p j frekvence třídy C j v D GINI ( D ) 1 c j 1 p I. Mrázová: Dobývání znalostí 51 2 j
52 Rozhodovací stromy (37) Algoritmus SPRINT (pokračování): Kritérium pro dělení: Gini-index n, n 1, n 2 počet prvků D, D 1, D 2 n GINI SPLIT 1 + n ( ) 1 ( ( )) 2 D GINI D ( GINI ( D )) Spojitá data dělení uprostřed mezi dvěma po sobě jdoucími hodnotami Volba atributu pro dělení: metodou Rainforest n n 2 I. Mrázová: Dobývání znalostí 52
53 Rozhodovací stromy (38) Algoritmus SPRINT - metoda Rainforest: Agregovaná metadata (vytvořená z atributů) se uchovávají v tabulce AVC ~ Attribute Value Class label group AVC-tabulka se vytvoří pro každý uzel rozhodovacího stromu Sumarizuje informaci potřebnou k určení atributů pro dělení Velikost tabulky závisí na počtu tříd, hodnot atributů a případných atributech pro dělení Redukce dimenze pro velké trénovací množiny I. Mrázová: Dobývání znalostí 53
54 Rozhodovací stromy (39) Algoritmus SPRINT (pokračování): Indukce rozhodovacího stromu: Projdou se trénovací data Vytvoří se AVC-tabulka Určí se nejlepší atribut pro dělení Rozdělení trénovacích dat Konstrukce AVC-tabulky pro následující uzel I. Mrázová: Dobývání znalostí 54
5.1 Rozhodovací stromy
5.1 Rozhodovací stromy 5.1.1 Základní algoritmus Způsob reprezentování znalostí v podobě rozhodovacích stromů je dobře znám z řady oblastí. Vzpomeňme jen nejrůznějších klíčů k určování různých živočichů
DATA MINING KLASIFIKACE DMINA LS 2009/2010
DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
Pokročilé neparametrické metody. Klára Kubošová
Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení
Rozhodovací pravidla
Rozhodovací pravidla Úloha klasifikace příkladů do tříd. pravidlo Ant C, kde Ant je konjunkce hodnot atributů a C je cílový atribut A. Algoritmus pokrývání množin metoda separate and conquer (odděl a panuj)
Rozhodovací stromy. Úloha klasifikace objektů do tříd. Top down induction of decision trees (TDIDT) - metoda divide and conquer (rozděl a panuj)
Rozhodovací stromy Úloha klasifikace objektů do tříd. Top dow iductio of decisio trees (TDIDT) - metoda divide ad coquer (rozděl a pauj) metoda specializace v prostoru hypotéz stromů (postup shora dolů,
Obsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
Projekt LISp-Miner. M. Šimůnek
Projekt LISp-Miner http://lispminer.vse.cz M. Šimůnek Obsah Systém LISp-Miner Vývoj systému v dlouhém období ETree-Miner Project LISp-Miner 2 Systém LISp-Miner Metoda GUHA (od roku 1966) předchozí implementace
Připomeň: Shluková analýza
Připomeň: Shluková analýza Data Návrh kategorií X Y= 1, 2,..., K resp. i jejich počet K = co je s čím blízké + jak moc Neposkytne pravidlo pro zařazování Připomeň: Klasifikace Data (X,Y) X... prediktory
Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
Rozhodovací stromy a jejich konstrukce z dat
Rozhodovací stromy a jejich konstrukce z dat Příklad počítačová hra. Můžeme počítač naučit rozlišovat přátelské a nepřátelské roboty? Učení s učitelem: u některých už víme, jakou mají povahu (klasifikace)
Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy
Stromy úvod Stromy Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy Neorientovaný strom Orientovaný strom Kořenový orientovaný
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
Změkčování hranic v klasifikačních stromech
Změkčování hranic v klasifikačních stromech Jakub Dvořák Seminář strojového učení a modelování 24.5.2012 Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
Předzpracování dat. Lenka Vysloužilová
Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání
Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
Rozhodovací stromy a jejich konstrukce z dat
Příklad počítačová hra. Můžeme počítač naučit rozlišovat přátelské a přátelské roboty? Rozhodovací stromy a jejich konstruk z dat Učení s učitelem: u některých už víme, jakou mají povahu (klasifika) Neparametrická
IB108 Sada 1, Příklad 1 Vypracovali: Tomáš Krajča (255676), Martin Milata (256615)
IB108 Sada 1, Příklad 1 ( ) Složitost třídícího algoritmu 1/-Sort je v O n log O (n.71 ). Necht n = j i (velikost pole, které je vstupním parametrem funkce 1/-Sort). Lehce spočítáme, že velikost pole předávaná
Bayesovská klasifikace
Bayesovská klasifikace založeno na Bayesově větě P(H E) = P(E H) P(H) P(E) použití pro klasifikaci: hypotéza s maximální aposteriorní pravděpodobností H MAP = H J právě když P(H J E) = max i P(E H i) P(H
Katedra kybernetiky, FEL, ČVUT v Praze.
Symbolické metody učení z příkladů Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz pplán přednášky Zaměření 1: učení z příkladů motivace, formulace problému, prediktivní a deskriptivní
Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner
Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování
Pokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační
Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu
Úloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
jedna hrana pro každou možnou hodnotu tohoto atributu; listy jsou označeny předpokládanou hodnotou cílového atributu Atribut Outlook
Rozhodovací stromy Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak Atribut hodnota cílového atributu Hodnota atributu No Yes No Yes Rozhodovací strom pro daný cílový atribut G je
Rozhodovací stromy a lesy
Rozhodovací stromy a lesy Klára Komprdová Leden 2012 Příprava a vydání této publikace byly podporovány projektem ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia Matematické biologie a státním
Statistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 6 1/25 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Jiří Vitinger. Rozhodovací stromy a extrakce znalostí
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Jiří Vitinger Rozhodovací stromy a extrakce znalostí Katedra softwarového inženýrství Vedoucí diplomové práce: RNDr. Iveta Mrázová,
Optimalizace & soft omezení: algoritmy
Optimalizace & soft omezení: algoritmy Soft propagace Klasická propagace: eliminace nekonzistentních hodnot z domén proměnných Soft propagace: propagace preferencí (cen) nad k-ticemi hodnot proměnných
Stromy, haldy, prioritní fronty
Stromy, haldy, prioritní fronty prof. Ing. Pavel Tvrdík CSc. Katedra počítačů FEL České vysoké učení technické DSA, ZS 2008/9, Přednáška 6 http://service.felk.cvut.cz/courses/x36dsa/ prof. Pavel Tvrdík
Binární vyhledávací stromy pokročilé partie
Binární vyhledávací stromy pokročilé partie KMI/ALS lekce Jan Konečný 30.9.204 Literatura Cormen Thomas H., Introduction to Algorithms, 2nd edition MIT Press, 200. ISBN 0-262-5396-8 6, 3, A Knuth Donald
Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL)
Rekurzivní algoritmy
Rekurzivní algoritmy prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy (BI-EFA) ZS
Usuzování za neurčitosti
Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích
Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 21. září 2018 Jiří Dvorský (VŠB TUO) Vyhledávání 242 / 433 Osnova přednášky
Základní datové struktury III: Stromy, haldy
Základní datové struktury III: Stromy, haldy prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní
Trénování sítě pomocí učení s učitelem
Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup
Učení z klasifikovaných dat
Učení z klasifikovaných dat Příklad počítačová hra. Můžeme počítač naučit rozlišovat přátelské a nepřátelské roboty? Učení s učitelem: u některých objektů už víme, jakou mají povahu (klasifikace) Neparametrická
IBM SPSS Decision Trees
IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích
Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace
Hry a UI historie. von Neumann, 1944 algoritmy perfektní hry Zuse, Wiener, Shannon, přibližné vyhodnocování
Hry a UI historie Hry vs. Prohledávání stavového prostoru Hry a UI historie Babbage, 1846 počítač porovnává přínos různých herních tahů von Neumann, 1944 algoritmy perfektní hry Zuse, Wiener, Shannon,
Select sort: krok 1: krok 2: krok 3: atd. celkem porovnání. výběr nejmenšího klíče z n prvků vyžaduje 1 porovnání
Select sort: krok 1: výběr klíče z n prvků vyžaduje 1 porovnání krok 2: výběr klíče z 1 prvků vyžaduje 2 porovnání krok 3: výběr klíče z 2 prvků vyžaduje 3 porovnání atd. celkem porovnání Zlepšení = použít
Metody založené na analogii
Metody založené na analogii V neznámé situaci lze použít to řešení, které se osvědčilo v situaci podobné případové usuzování (Case-Based Reasoning CBR) pravidlo nejbližšího souseda (nearest neighbour rule)
NPRG030 Programování I, 2018/19 1 / :03:07
NPRG030 Programování I, 2018/19 1 / 20 3. 12. 2018 09:03:07 Vnitřní třídění Zadání: Uspořádejte pole délky N podle hodnot prvků Měřítko efektivity: * počet porovnání * počet přesunů NPRG030 Programování
Základy vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
Testování modelů a jejich výsledků. tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace
Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? 2 Osnova Úvod různé klasifikační modely a jejich kvalita Hodnotící míry (kriteria kvality) pro zvolený model. Postup vyhodnocování
Moderní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT RNDr. Eva Janoušová INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ HODNOCENÍ ÚSPĚŠNOSTI KLASIFIKACE A SROVNÁNÍ KLASIFIKÁTORŮ ÚVOD Vstupní data Subjekt Objem hipokampu Objem komor Skutečnost
Strojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
Kontingenční tabulky v MS Excel 2010
Kontingenční tabulky v MS Excel 2010 Autor: RNDr. Milan Myšák e-mail: milan.mysak@konero.cz Obsah 1 Vytvoření KT... 3 1.1 Data pro KT... 3 1.2 Tvorba KT... 3 2 Tvorba KT z dalších zdrojů dat... 5 2.1 Data
Kybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
Pravděpodobně skoro správné. PAC učení 1
Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného
odlehlých hodnot pomocí algoritmu k-means
Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování
NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze
NP-ÚPLNÉ PROBLÉMY Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze BI-GRA, LS 2010/2011, Lekce 13 Evropský sociální fond Praha & EU: Investujeme do
Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi
Evoluční algoritmy Použítí evoluční principů, založených na metodách optimalizace funkcí a umělé inteligenci, pro hledání řešení nějaké úlohy. Populace množina jedinců, potenciálních řešení Fitness function
8. Strojové učení. Strojové učení. 16. prosince 2014. Václav Matoušek. 8-1 Úvod do znalostního inženýrství, ZS 2014/15
Strojové učení 16. prosince 2014 8-1 Klasifikace metod strojového učení podle vynaloženého úsilí na získání nových znalostí Učení zapamatováním (rote learning, biflování) Pouhé zaznamenání dat nebo znalostí.
přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat
Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního
Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/
Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117 O čem se bude mluvit? Čtyřpolní tabulky Osnova prezentace Čtyřpolní tabulky 1. přístupy
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny
autoři: Rudolf Bayer, Ed McCreight všechny vnější uzly (listy) mají stejnou hloubku ADS (abstraktní datové struktury)
definice ( tree) autoři: Rudolf Bayer, Ed McCreight vyvážený strom řádu m ( ) každý uzel nejméně a nejvýše m potomků s výjimkou kořene každý vnitřní uzel obsahuje o méně klíčů než je počet potomků (ukazatelů)
Ochutnávka strojového učení
Ochutnávka strojového učení Úvod do problematiky Barbora Hladká http://ufal.mff.cuni.cz/bvh Univerzita Karlova Matematiko-fyzikální fakulta Ústav formální a aplikované lingvistiky TechMeetUp Ostrava 21/3/18
DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů
AGENDA Definice kvality DRG systému Statistické metody hodnocení kvality DRG klasifikace Identifikace nenáhodného rozložení případů Využití regresní analýzy nákladů při hledání důvodů v rozdílných nákladech
TOKY V SÍTÍCH II. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze
TOKY V SÍTÍCH II Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze BI-GRA, LS 010/011, Lekce 10 Evropský sociální fond Praha & EU: Investujeme do vaší
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION
oddělení Inteligentní Datové Analýzy (IDA)
Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 1 / 25 Odhad rozdělení Úloha: Vstup: data D = {
Adresní vyhledávání (přímý přístup, zřetězené a otevřené rozptylování, rozptylovací funkce)
13. Metody vyhledávání. Adresní vyhledávání (přímý přístup, zřetězené a otevřené rozptylování, rozptylovací funkce). Asociativní vyhledávání (sekvenční, binárním půlením, interpolační, binární vyhledávací
Časová a prostorová složitost algoritmů
.. Časová a prostorová složitost algoritmů Programovací techniky doc. Ing. Jiří Rybička, Dr. ústav informatiky PEF MENDELU v Brně rybicka@mendelu.cz Hodnocení algoritmů Programovací techniky Časová a prostorová
Analytické procedury v systému LISp-Miner
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální
Dolování asociačních pravidel
Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních
PROHLEDÁVÁNÍ GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze
PROHLEDÁVÁNÍ GRAFŮ Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze BI-GRA, LS 2010/2011, Lekce 4 Evropský sociální fond Praha & EU: Investujeme do
Implementace LL(1) překladů
Překladače, přednáška č. 6 Ústav informatiky, FPF SU Opava sarka.vavreckova@fpf.slu.cz Poslední aktualizace: 30. října 2007 Postup Programujeme syntaktickou analýzu: 1 Navrhneme vhodnou LL(1) gramatiku
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
Automatické vyhledávání informace a znalosti v elektronických textových datech
Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická
Asociační i jiná. Pravidla. (Ch )
Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo
Dynamické programování
Dynamické programování prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy (BI-EFA)
Přednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
Chybějící atributy a postupy pro jejich náhradu
Chybějící atributy a postupy pro jejich náhradu Jedná se o součást čištění dat Čistota dat je velmi důležitá, neboť kvalita dat zásadně ovlivňuje kvalitu výsledků, které DM vyprodukuje, neboť platí Garbage
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Miroslav Jahoda Rozhodovací stromy
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Miroslav Jahoda Rozhodovací stromy Katedra teoretické informatiky a matematické logiky Vedoucí diplomové práce: Doc. RNDr. Iveta
Datové struktury 2: Rozptylovací tabulky
Datové struktury 2: Rozptylovací tabulky prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy
Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 12. září 2016 Jiří Dvorský (VŠB TUO) Vyhledávání 201 / 344 Osnova přednášky
Operátory ROLLUP a CUBE
Operátory ROLLUP a CUBE Dotazovací jazyky, 2009 Marek Polák Martin Chytil Osnova přednášky o Analýza dat o Agregační funkce o GROUP BY a jeho problémy o Speciální hodnotový typ ALL o Operátor CUBE o Operátor
Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016
Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 206 Zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
Algoritmy výpočetní geometrie
Algoritmy výpočetní geometrie prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy (BI-EFA)
Rekonstrukce diskrétního rozdělení psti metodou maximální entropie
Rekonstrukce diskrétního rozdělení psti metodou maximální entropie Příklad Lze nalézt četnosti nepozorovaných stavů tak, abychom si vymýšleli co nejméně? Nechť n i, i = 1, 2,..., N jsou známé (absolutní)
UČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
TGH07 - Chytré stromové datové struktury
TGH07 - Chytré stromové datové struktury Jan Březina Technical University of Liberec 1. dubna 2014 Prioritní fronta Datová struktura s operacemi: Odeber Minum (AccessMin, DeleteMin) - vrat prvek s minimálním
Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů
Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci
12. Globální metody MI-PAA
Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 MI-PAA EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI
State Space Search Step Run Editace úloh Task1 Task2 Init Clear Node Goal Add Shift Remove Add Node Goal Node Shift Remove, Add Node
State Space Search Po spuštění appletu se na pracovní ploše zobrazí stavový prostor první předpřipravené úlohy: - Zeleným kroužkem je označen počáteční stav úlohy, který nemůže být změněn. - Červeným kroužkem
Lineární klasifikátory
Lineární klasifikátory Lineární klasifikátory obsah: perceptronový algoritmus základní verze varianta perceptronového algoritmu přihrádkový algoritmus podpůrné vektorové stroje Lineární klasifikátor navrhnout
Stromy. Karel Richta a kol. Katedra počítačů Fakulta elektrotechnická České vysoké učení technické v Praze Karel Richta a kol.
Stromy Karel Richta a kol. Katedra počítačů Fakulta elektrotechnická České vysoké učení technické v Praze Karel Richta a kol., 2018, B6B36DSA 01/2018, Lekce 9 https://cw.fel.cvut.cz/wiki/courses/b6b36dsa/start
Markov Chain Monte Carlo. Jan Kracík.
Markov Chain Monte Carlo Jan Kracík jan.kracik@vsb.cz Princip Monte Carlo integrace Cílem je (přibližný) výpočet integrálu I(g) = E f [g(x)] = g(x)f (x)dx. (1) Umíme-li generovat nezávislé vzorky x (1),
Sítě SFN Systém pro analýzu a vizualizaci pokrytí a rušení vysílacích sítí
Sítě SFN Systém pro analýzu a vizualizaci pokrytí a rušení vysílacích sítí Sítě SFN ver. 7 je výpočetní systém pro analýzu pokrytí a rušení vysílacích sítí pro služby FM, TV, DVB- T a T-DAB a analýzu a
8. Strojové učení Strojové učení
Strojové učení 5. prosince 2017 8-1 Strojové učení je podoblastí umělé inteligence, zabývající se algoritmy a technikami, které umožňují počítačovému systému 'učit se'. Učením v daném kontextu rozumíme