DATA MINING KLASIFIKACE DMINA LS 2009/2010
|
|
- Vladislav Šmíd
- před 8 lety
- Počet zobrazení:
Transkript
1 DATA MINING KLASIFIKACE DMINA LS 2009/2010
2 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy
3 Klasifikace (ohodnocení) zařazuje data do předdefinovaných skupin tříd učení s učitelem algoritmus se učí charakteristiku tříd na trénovací množině na datech, pro které známe jejich příslušnost ke skupinám
4 Příklady rozpoznávání vzorů diagnostikování rozhodování o udělení úvěrů detekovaní chyb v aplikacích klasifikace finančních a obchodních trendů
5 x 2 : výkon Příklad Třída "rodinné auto" cíl - predikování: Je auto x rodinným autem? naučit se rozlišovat vzor "rodinné auto" jaké vlastnosti má mít? trénovací množina: pozitivní a gativní příklady atributy x 1 : cena x 2 : výkon y = 1 pokud x je pozitivní příklad 0 pokud x je gativní příklad x 1 : cena
6 Definice množina dat D = {d 1,..., d n } množina tříd C = {C 1,..., C m } klasifikační problém definovat zobrazení f: D C, kde pro každé d i je definovaná právě jediná třída. Třída C j obsahuje právě ty prvky, které se pomocí funkce f zobrazí do této třídy, tj. C j = {d i f(d i ) = C j, pro všechna d i D}
7 Fáze klasifikace vytvoření modelu na základě trénovací množiny aplikace modelu na klasifikování dat, které byly v trénovací množině learning data model testing data
8 x 2 : výkon Příklad - pokračování třída T: (c 1 cena c 2 ) AND (v 1 výkon v 2 ) v 2 T v 1 c 1 c 2 x 1 : cena
9 x 2 : výkon Příklad - pokračování třída T: (c 1 cena c 2 ) AND (v 1 výkon v 2 ) jobecnější hypotéza v 2 T jkonkrétnější hypotéza v 1 c 1 c 2 x 1 : cena prostor verzí
10 Modely a reprezentace znalostí rozhodovací stromy algoritmy na tvorbu rozhodovacích stromů (např. ID3, C4.5) klasifikační pravidla slučno rozhodovací stromy klasifikační pravidla jednoduchý algoritmus 1R např. if (x = 1) and (y = 0) then class = a počasí zataženo deštivo vlhkost větrno vysoká normální
11 Modely a reprezentace znalostí parametry modelů modely + parametry (statistické modely, uronové sítě) výška pohlaví malý střední vzrůst vysoký reprezentace založená na instancích učení založené na vzdálenostech (k-arest ighbour)
12 Vyhodnocování modelů výkon trénování na trénovací množině vyhodnocování pomocí dat z testovací množiny
13 x 2 : výkon motoru Klasifikace příklad (pokračování) h(x) = 1 pokud x je pozitivní příklad 0 pokud je x gativní příklad falešně pozitivní e 2 C falešně gativní Chyba h e 1 E ( h T ) 1 N t N 1 ( h( x t ) r t ) p 1 p 2 x 1 : cena
14 Výsledky pro problém s 2 třídami Skutečná třída Ano Ne Predikovaná třída true positive (TP) false positive (FP) false gative (FN) true gative (TN)
15 Výsledky pro problém s 2 třídami true positive rate tp TP TP FN false positive rate fp FP FP TN celková úspěšnost accuracy = TP TP TN TN FP FN sensitivity = tp specificity = 1 - fp FP TN TN
16 x 2 : výkon motoru Složitost modelů angl. model complexity e 2 C Používání jednodušších modelů jednodušší použití (menší výpočetní složitost) jednodušší trénování (menší prostorová složitost) snáze pochopitelné (lepší interpretace) lepší schopnost geralizace (Occamova břitva) e 1 p 1 p 2 x 1 : cena C: (p 1 cena p 2 ) AND (e 1 výkon motoru e 2 )
17 Occamova břitva Occam's razor Anglický františkánský mnich William Occam (Ockham) vysvětlení libovolného fenoménu by mělo používat co jméně předpokladů eliminovat ("oholit") ty, které mění predikce proměnných v hypotéze bo teorii vysvětlující nějaký fenomén Pokud jsou všechny věci stejné, jednodušší řešení je lepší." = pokud existuje několik konkurujících si teorií rovnocenných v ostatních ohledech, princip doporučuje volit teorii, která zavádí méně předpokladů výsledkem jsou méně hypotetické (jednodušší) entity
18 Inference jednoduchých pravidel 1R 1R (1 rule) - jednoduchá klasifikace instancí rozhodnutí na základě jednoho atributu postup: pro všechny atributy vytvoření množiny pravidel tak, že každé pravidlo zodpovídá jedné hodnotě atributu přiřazení té třídy, která se pro du hodnotu atributu jčastěji vyskytuje vypočítaní error rate (1-accurracy) výběr stromu s jmenším error rate
19 Příklad: Rozhodnutí, zda jít hrát golf? Počasí Teplota Vlhkost Větrno Hrát? slučno horko vysoká slučno horko vysoká zataženo horko vysoká deštivo akorát vysoká deštivo chladno normální deštivo chladno normální zataženo chladno normální slučno akorát vysoká slučno chladno normální deštivo akorát normální slučno akorát normální zataženo akorát vysoká zataženo horko normální deštivo akorát vysoká
20 1R: příklad Počasí Teplota Vlhkost Větrno Hrajeme? slučno horko vysoká slučno horko vysoká zataženo horko vysoká deštivo akorát vysoká deštivo chladno normální Atribut Pravidlo Chyba Celková chyba počasí slučno 2/5 4/14 zataženo 0/4 deštivo 2/5 teplota horko 2/4 5/14 akorát 2/6 chladno 1/4 vlhkost vysoká 3/7 4/14 normální 1/7 větrno 2/8 5/14 3/6
21 Chybějící hodnoty Záznamy s chybějícími hodnotami doplnit jako další hodnotu např. pro atribut počasí - hodnoty: slučno, zataženo, deštivo, uvedeno vypočítat dle jistých pravidel vychat záznam
22 Numerické hodnoty diskretizace např. teplota s číselnými hodnotami a n a a a n n a a a n a a n a n a a a n n a a a n a a n vyhnout se přeučení aspoň 3 z 1 třídy v intervalu pokud následuje stejná hodnota, také přidat do intervalu
23 Vlastnosti výsledky studie z roku 1993 v porovnání se sofistikovanými přístupy mělo 1R poměrně dobré výsledky (srozumitelnější) diskretizace - aspoň 6 z 1 třídy
24 Rozhodovací stromy rozděl a panuj postup vyber atribut a umísti ho do kořenu vytvoř větve pro různé hodnoty atributů množina instancí se rozdělí na podmnožiny rekurzivně aplikuj postup pro každou větev
25 Rozhodovací stromy příklad s počasím slučno počasí zataženo deštivo vlhkost větrno vysoká normální vnitřní uzly listy větve atributy klasifikace hodnoty atributů, podmínky
26 Definice Je dána množina dat D = {d 1,..., d n }, kde d i = <d i1,..., d im > jsou hodnoty atributů {A 1,..., A m } jednotlivých instancí Rozhodovací strom pro množinu tříd C = {C 1,..., C m } je strom asociovaný s D mající následující vlastnosti: každý vnitřní uzel je označený atributem A k každá hrana je označená predikátem aplikovatelným na atribut asociovaný s rodičem každý list je označený třídou C j počasí slučno zataženo deštivo vlhkost větrno vysoká normální
27 Vlastnosti algoritmů pro tvorbu rozhodovacích stromů výběr atributů a pořadí jejich výběru abychom vytvářeli co jjednodušší stromy rozdělení pro vybraný atribut rozhodnout, jak rozdělit hodnoty (např. numerické hodnoty) stromová struktura tvorba vyvážených stromů, binárních stromů kritéria na zastavení jestliže dokonale modeluje trénovací data, může dojít k přeučení
28 Vlastnosti algoritmů pro tvorbu rozhodovacích stromů trénovací data příliš malá: strom musí byť správně určen příliš velká: strom může být přeurčený ořezávaní (angl. prunning) modifikace již zkonstruovaného stromu odstranění nadbytečných porovnávaní, odstranění podstromu pro dosažení lepších výsledků
29 Výběr atributů rozvětvení Algoritmus ID3 Snaha vytvářet co jjednodušší stromy měření vhodnosti výběru: informace množství informace informační zisk GINI index
30 Množství informace Příklad: Hra "Na co myslím?" otázka dítěte: "Je to míč?"; "Je to auto?", "Je to pes?" všechny možnosti rozdělí na 1 možnost a zbytek = vše 1 2 množiny s naprosto odlišnou kardinalitou otázka dospělého:"je to živé?" všechny možnosti rozdělí na 2 přibližně stejně velké množiny množstvo informace potřebné pro určení třídy pro daný atribut měřeno v bitech na rozdíl od klasické informatiky vyjadřujeme množství informace ve zlomcích bitů (obyčejně < 1)
31 Množství informace Vlastnosti míry: 1. pokud je počet bo počet je 0, hodnota je 0 2. pokud počet a je stejný, hodnota dosahuje maxima 3. míra má vlastnost vícestupňovosti rozdělení v stromu na 3 části je ekvivalentní rozdělení na 2 části a dále rozdělení jedné části na 2 x x 3 >3 3 >3 10 >10 x 10 >10
32 Množství informace entropie měří množství jistoty (překvapení, náhodnosti) v množině dat H ( p 1 1, H ( p, p p 2 2,...,,..., p p n n ) ) n i 1 n p i p log( 1 / i log p p i i ) 1 0,9 0,8 0,7 0,6 0,5 i 1 0,4 logaritmus se základem 2 0,3 0,2 0,1 0 0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95 H(p, 1-p)
33 Množství informace slučno počasí zataženo deštivo pro každou větev možného rozdělení info() v hranaté závorce: počty *, ] slučno: info([2,3]) H(2/5, 3/5) = 0.4 x log x log 0.6 zamračeno: = info([4,0]) H(4/4,0/4) = 1 x log 1 0 = 0 deštivo: info([3,2]) H(3/5,2/5) = H ( p n n n i, p,..., p ) p log p p p log 1 2 n i i i i i 1 i 1 ln ln p 2 ln 1 2 i 1 p i
34 Průměrné množství informace průměrné množství informace pro uzel (atribut) množství informace pro jednotlivé větve vážené počtem instancí info(a) S p( D i )info ( D i ) i 1 pro rozdělení podle atributu a rozdělujícího D na {D 1,..., D S } Příklad: pokračování info(počasí) = (5/14) x (4/14) x 0 + (5/14) x = 0.693
35 Informační zisk information gain zisk rozdělení představuje rozdíl mezi tím, kolik je třeba znát informací před a kolik po rozdělení Určuje se pro rozdělení podle atributu a rozdělujícího D na {D 1,..., D S } gain(a) info ( D ) S p( D i )info ( D i ) i 1 Spočítá se pro všechny atributy a vybere se atribut s jvyšším ziskem
36 Příklad pokračování gain(počasí) = info([9,5]) info([2,3],[4,0],[3,2]) = info([9,5]) = ( 9/14) x log(9/14) 5/14 x log(5/14) = info([2,3],[4,0],[3,2]) = gain(teplota) = info([9,5]) info([3,1],[4,2],[2,2]) = = gain(vlhkost) = gain(větrno) = jako kořen stromu je vybrán atribut počasí chladno teplota akorát horko
37 Příklad pokračování určit další dělící atribut počasí slučno teplota zataženo deštivo chladno horko gain(teplota)=info([2,3])- info([1,0],[1,1],[0,2]) info([2,3]) = (2/5) x log(2/5) (3/5) x log(3/5)= akorát H(1/1,0/1) = 1xlog1 0xlog0 = 0 H(1/2,1/2) = 0.5 x log x log0.5 = 1 H(0/2,2/2) = 0xlog0 1xlog1 = 0 info([1,0],[1,1],[0,2])=(1/5)x0 + (2/5)x1 + (2/5)x0 =0.4 gain(teplota) = 0.571
38 Příklad pokračování určit další dělící atribut počasí počasí slučno vlhkost deštivo zataženo slučno větrno deštivo zataženo vysoká normální gain(vlhkost)=info([2,3]) - info([0,3],[2,0]) info([2,3]) = H(2/2,0/2) = 0 ; H(0/3,3/3) = 0 info([0,3],[2,0]) = 0 gain(vlhkost) = gain(větrno)=info([2,3]) info([1,2],[1,1]) info([2,3]) = H(1/3,2/3) = H(1/2,1/2) = 1 info([2,2],[1,1]) = gain(větrno) = 0.020
39 Kočné řešení jvyšší informační zisk ve větvi "slučno" má vlhkost slučno vlhkost počasí zataženo deštivo větrno pro větev "deštivo" má jvyšší informační zisk atribut větrno vysoká normální atribut teplota ní ve stromu zahrnut
40 ID3: vlastnosti umí pracovat s chybějícími hodnotami umí pracovat se spojitými atributy provádí prořezávání stromu (přeučení) preferuje rozdělení na přibližně stejně velké množiny
41 Algoritmus C4.5 řeší chybějící hodnoty atributů spojité hodnoty atributů prořezávání rozdělování
42 Chybějící hodnoty při tvorbě stromu: instance se ignorují hodnota "chybí" při klasifikaci: podle jiných atributů vezmou se větve pro všechny hodnoty atributu, jehož hodnota chybí (vyvážení výsledků) pokud je to jednoznačné, vezme se většina, bo se klasifikuje
43 Spojité hodnoty rozdělení na intervaly na základě hodnot v trénovací množině např. pomocí maximalizování informace
44 Prořezávání angl. prunning jednodušší stromy mají často lepší výsledky jako složitější pre-prunning v průběhu tvorby stromu rozhodování, kdy skončit s vytvářením stromu post-prunning prořezávání už vytvořeného stromu (častější) strategie nahrazení podstromu (angl. subtree replacement) zdvižení podstromu (angl. subtree raising)
45 Nahrazení stromu strom je nahrazený listem, pokud toto nahrazení způsobí malou změnu error rate A B C D E
46 Nahrazení stromu strom je nahrazený listem, pokud toto nahrazení způsobí malou změnu error rate A B C E
47 Nahrazení stromu strom je nahrazený listem, pokud toto nahrazení způsobí malou změnu error rate A C E
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.
VíceRozhodovací stromy a jejich konstrukce z dat
Příklad počítačová hra. Můžeme počítač naučit rozlišovat přátelské a přátelské roboty? Rozhodovací stromy a jejich konstruk z dat Učení s učitelem: u některých už víme, jakou mají povahu (klasifika) Neparametrická
VíceVytěžování znalostí z dat
Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální
VíceANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT RNDr. Eva Janoušová INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ HODNOCENÍ ÚSPĚŠNOSTI KLASIFIKACE A SROVNÁNÍ KLASIFIKÁTORŮ ÚVOD Vstupní data Subjekt Objem hipokampu Objem komor Skutečnost
Vícejedna hrana pro každou možnou hodnotu tohoto atributu; listy jsou označeny předpokládanou hodnotou cílového atributu Atribut Outlook
Rozhodovací stromy Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak Atribut hodnota cílového atributu Hodnota atributu No Yes No Yes Rozhodovací strom pro daný cílový atribut G je
VícePravděpodobně skoro správné. PAC učení 1
Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného
VíceKatedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
VíceRozhodovací stromy a jejich konstrukce z dat
Rozhodovací stromy a jejich konstrukce z dat Příklad počítačová hra. Můžeme počítač naučit rozlišovat přátelské a nepřátelské roboty? Učení s učitelem: u některých už víme, jakou mají povahu (klasifikace)
VíceTestování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? 2 Osnova Úvod různé klasifikační modely a jejich kvalita Hodnotící míry (kriteria kvality) pro zvolený model. Postup vyhodnocování
VíceInformační systémy pro podporu rozhodování
Informační systémy pro podporu rozhodování 2 Jan Žižka, Naděžda Chalupová Ústav informatiky PEF Mendelova universita v Brně Strojové učení, umělá inteligence, dolování z dat Strojové učení je moderní,
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VíceZměkčování hranic v klasifikačních stromech
Změkčování hranic v klasifikačních stromech Jakub Dvořák Seminář strojového učení a modelování 24.5.2012 Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment
Vícepřetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat
Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
VíceStromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy
Stromy úvod Stromy Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy Neorientovaný strom Orientovaný strom Kořenový orientovaný
VíceUniverzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Jiří Vitinger. Rozhodovací stromy a extrakce znalostí
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Jiří Vitinger Rozhodovací stromy a extrakce znalostí Katedra softwarového inženýrství Vedoucí diplomové práce: RNDr. Iveta Mrázová,
VíceIng. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
VíceTestování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace
VíceModerní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
VíceVelmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF)
Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF) Systém WEKA, implementovaný v jazyce Java, lze získat nejlépe z následující URL: . Dále
VíceKybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
VíceTestování modelů a jejich výsledků. tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 6 Jak analyzovat kategoriální a binární
VíceStatistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
VíceZákladní datové struktury III: Stromy, haldy
Základní datové struktury III: Stromy, haldy prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní
VíceStrojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
VícePředzpracování dat. Lenka Vysloužilová
Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání
VíceAutomatické vyhledávání informace a znalosti v elektronických textových datech
Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická
VíceStromy, haldy, prioritní fronty
Stromy, haldy, prioritní fronty prof. Ing. Pavel Tvrdík CSc. Katedra počítačů FEL České vysoké učení technické DSA, ZS 2008/9, Přednáška 6 http://service.felk.cvut.cz/courses/x36dsa/ prof. Pavel Tvrdík
VícePřipomeň: Shluková analýza
Připomeň: Shluková analýza Data Návrh kategorií X Y= 1, 2,..., K resp. i jejich počet K = co je s čím blízké + jak moc Neposkytne pravidlo pro zařazování Připomeň: Klasifikace Data (X,Y) X... prediktory
VíceAlgoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.
VíceVýpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1
Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení PAC učení 1 Cíl induktivního strojového učení Na základě omezeného vzorku příkladů E + a E -, charakterizovat (popsat) zamýšlenou
VíceUČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
VíceVojtěch Franc. Biometrie ZS Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost
Rozpoznávání tváří I Vojtěch Franc Centrum strojového vnímání, ČVUT FEL Praha Biometrie ZS 2013 Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost Úlohy rozpoznávání tváří: Detekce Cíl: lokalizovat
VíceUčící se klasifikátory obrazu v průmyslu
Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:
VíceRozhodovací stromy a lesy
Rozhodovací stromy a lesy Klára Komprdová Leden 2012 Příprava a vydání této publikace byly podporovány projektem ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia Matematické biologie a státním
VíceOchutnávka strojového učení
Ochutnávka strojového učení Úvod do problematiky Barbora Hladká http://ufal.mff.cuni.cz/bvh Univerzita Karlova Matematiko-fyzikální fakulta Ústav formální a aplikované lingvistiky TechMeetUp Ostrava 21/3/18
VíceTrénování sítě pomocí učení s učitelem
Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 6 1/25 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceReprezentace aritmetického výrazu - binární strom reprezentující aritmetický výraz
Reprezentace aritmetického výrazu - binární strom reprezentující aritmetický výraz (2 + 5) * (13-4) * + - 2 5 13 4 - listy stromu obsahují operandy (čísla) - vnitřní uzly obsahují operátory (znaménka)
VíceUčení z klasifikovaných dat
Učení z klasifikovaných dat Příklad počítačová hra. Můžeme počítač naučit rozlišovat přátelské a nepřátelské roboty? Učení s učitelem: u některých objektů už víme, jakou mají povahu (klasifikace) Neparametrická
VíceHodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/
Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117 O čem se bude mluvit? Čtyřpolní tabulky Osnova prezentace Čtyřpolní tabulky 1. přístupy
VíceNP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze
NP-ÚPLNÉ PROBLÉMY Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze BI-GRA, LS 2010/2011, Lekce 13 Evropský sociální fond Praha & EU: Investujeme do
VíceProjekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
VíceUsuzování za neurčitosti
Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích
VíceIBM SPSS Decision Trees
IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích
Více2 Strukturované datové typy 2 2.1 Pole... 2 2.2 Záznam... 3 2.3 Množina... 4
Obsah Obsah 1 Jednoduché datové typy 1 2 Strukturované datové typy 2 2.1 Pole.................................. 2 2.2 Záznam................................ 3 2.3 Množina................................
VíceAnalytické procedury v systému LISp-Miner
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální
VíceMiroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL)
VíceRozhodovací pravidla
Rozhodovací pravidla Úloha klasifikace příkladů do tříd. pravidlo Ant C, kde Ant je konjunkce hodnot atributů a C je cílový atribut A. Algoritmus pokrývání množin metoda separate and conquer (odděl a panuj)
VíceRozhodovací stromy. Úloha klasifikace objektů do tříd. Top down induction of decision trees (TDIDT) - metoda divide and conquer (rozděl a panuj)
Rozhodovací stromy Úloha klasifikace objektů do tříd. Top dow iductio of decisio trees (TDIDT) - metoda divide ad coquer (rozděl a pauj) metoda specializace v prostoru hypotéz stromů (postup shora dolů,
VíceZískávání znalostí z dat
Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace
Více5.1 Rozhodovací stromy
5.1 Rozhodovací stromy 5.1.1 Základní algoritmus Způsob reprezentování znalostí v podobě rozhodovacích stromů je dobře znám z řady oblastí. Vzpomeňme jen nejrůznějších klíčů k určování různých živočichů
VíceVytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 9 1/16 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
VíceÚloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
VíceObsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
VíceDolování asociačních pravidel
Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních
VíceLineární klasifikátory
Lineární klasifikátory Lineární klasifikátory obsah: perceptronový algoritmus základní verze varianta perceptronového algoritmu přihrádkový algoritmus podpůrné vektorové stroje Lineární klasifikátor navrhnout
VíceMartin Milata, <256615@mail.muni.cz> 27.11.2007. Pokud je alespoň jeden rozměr čokolády sudý (s výjimkou tabulky velikosti 1x2, která už je od
IB000 Lámání čokolády Martin Milata, 27.11.2007 1 Čokoláda s alespoň jedním sudým rozměrem Pokud je alespoň jeden rozměr čokolády sudý (s výjimkou tabulky velikosti 1x2, která už
VíceIB111 Úvod do programování skrze Python
Vyhledávání, řazení, složitost IB111 Úvod do programování skrze Python 2012 Otrávené studny 8 studen, jedna z nich je otrávená laboratorní rozbor dokáže rozpoznat přítomnost jedu ve vodě je drahý (je časově
VíceVýpočetní teorie učení. PAC učení. VC dimenze.
Výpočetní teorie učení. PAC učení. VC dimenze. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics COLT 2 Koncept...........................................................................................................
VíceKatedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017
Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017 Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka
VíceAlgoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu
VíceGrafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.
Grafy doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 13. března 2017 Jiří Dvorský (VŠB TUO) Grafy 104 / 309 Osnova přednášky Grafy
VíceRekurzivní algoritmy
Rekurzivní algoritmy prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy (BI-EFA) ZS
VíceALGORITMY A DATOVÉ STRUKTURY
Název tématického celku: Cíl: ALGORITMY A DATOVÉ STRUKTURY Metodický list č. 1 Časová složitost algoritmů Základním cílem tohoto tematického celku je vysvětlení potřebných pojmů a definic nutných k popisu
VíceZáklady vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Více1. Data mining. Strojové učení. Základní úlohy.
1... Základní úlohy. Učení s učitelem a bez učitele. Petr Pošík Katedra kybernetiky ČVUT FEL P. Pošík c 2010 Aplikace umělé inteligence 1 / 36 Obsah P. Pošík c 2010 Aplikace umělé inteligence 2 / 36 Co
Více1. Převeďte dané číslo do dvojkové, osmičkové a šestnáctkové soustavy: a) 759 10 b) 2578 10
Úlohy- 2.cvičení 1. Převeďte dané číslo do dvojkové, osmičkové a šestnáctkové soustavy: a) 759 10 b) 2578 10 2. Převeďte dané desetinné číslo do dvojkové soustavy (DEC -> BIN): a) 0,8125 10 b) 0,35 10
VíceVyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 21. září 2018 Jiří Dvorský (VŠB TUO) Vyhledávání 242 / 433 Osnova přednášky
VíceUnární je také spojka negace. pro je operace binární - příkladem může být funkce se signaturou. Binární je velká většina logických spojek
Otázka 06 - Y01MLO Zadání Predikátová logika, formule predikátové logiky, sentence, interpretace jazyka predikátové logiky, splnitelné sentence, tautologie, kontradikce, tautologicky ekvivalentní formule.
VíceStátnice odborné č. 20
Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin
VíceKatedra kybernetiky, FEL, ČVUT v Praze.
Symbolické metody učení z příkladů Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz pplán přednášky Zaměření 1: učení z příkladů motivace, formulace problému, prediktivní a deskriptivní
Více6. Tahy / Kostry / Nejkratší cesty
6. Tahy / Kostry / Nejkratší cesty BI-EP2 Efektivní programování 2 LS 2017/2018 Ing. Martin Kačer, Ph.D. 2011-18 Martin Kačer Katedra teoretické informatiky Fakulta informačních technologií České vysoké
VíceSémantika výrokové logiky. Alena Gollová Výroková logika 1/23
Výroková logika Alena Gollová Výroková logika 1/23 Obsah 1 Formule výrokové logiky 2 Alena Gollová Výroková logika 2/23 Formule výrokové logiky Výrok je oznamovací věta, o jejíž pravdivosti lze rozhodnout.
VíceCredit scoring. Libor Vajbar Analytik řízení rizik. 18. dubna 2013. Brno
Credit scoring Libor Vajbar Analytik řízení rizik 18. dubna 2013 Brno 1 PROFIL SPOLEČNOSTI Home Credit a.s. přední poskytovatel spotřebitelského financování Úvěrové produkty nákup na splátky u obchodních
VíceÚvod do teorie her
Úvod do teorie her. Formy her a rovnovážné řešení Tomáš Kroupa http://staff.utia.cas.cz/kroupa/ 208 ÚTIA AV ČR Program. Definujeme 2 základní formy pro studium různých her: rozvinutou, strategickou. 2.
VícePravidlové znalostní systémy
Pravidlové znalostní systémy 31. října 2017 2-1 Tvary pravidel Pravidla (rules) mohou mít například takovéto tvary: IF předpoklad THEN závěr IF situace THEN akce IF podmínka THEN závěr AND akce IF podmínka
VíceVyhodnocování dotazů slajdy k přednášce NDBI001. Jaroslav Pokorný MFF UK, Praha
Vyhodnocování dotazů slajdy k přednášce NDBI001 Jaroslav Pokorný MFF UK, Praha pokorny@ksi.mff.cuni.cz Časová a prostorová složitost Jako dlouho trvá dotaz? CPU (cena je malá; snižuje se; těžko odhadnutelná)
Více5 Rekurze a zásobník. Rekurzivní volání metody
5 Rekurze a zásobník Při volání metody z metody main() se do zásobníku uloží aktivační záznam obsahující - parametry - návratovou adresu, tedy adresu, kde bude program pokračovat v metodě main () po skončení
VíceVyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 12. září 2016 Jiří Dvorský (VŠB TUO) Vyhledávání 201 / 344 Osnova přednášky
Více3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA
Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 MI-PAA EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI
VíceVojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU 29.4.2015
Příklady použití metod strojového učení v rozpoznávání tváří Vojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU 29.4.2015 Stavební bloky systému
Více2019/03/31 17:38 1/2 Klasifikační a regresní stromy
2019/03/31 17:38 1/2 Klasifikační a regresní stromy Table of Contents Klasifikační a regresní stromy... 1 rpart (library rpart)... 1 draw.tree (library maptree)... 3 plotcp a rsq.rpart (library rpart)...
VíceAVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny
VíceDobSort. Úvod do programování. DobSort Implementace 1/3. DobSort Implementace 2/3. DobSort - Příklad. DobSort Implementace 3/3
DobSort Úvod do programování Michal Krátký 1,Jiří Dvorský 1 1 Katedra informatiky VŠB Technická univerzita Ostrava Úvod do programování, 2004/2005 V roce 1980 navrhl Dobosiewicz variantu (tzv. DobSort),
VíceZadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016
Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 206 Zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
VíceGenetické programování
Genetické programování Vyvinuto v USA v 90. letech J. Kozou Typické problémy: Predikce, klasifikace, aproximace, tvorba programů Vlastnosti Soupeří s neuronovými sítěmi apod. Potřebuje značně velké populace
VíceZLOMKY. Standardy: M-9-1-01 CELÁ A RACIONÁLNÍ ČÍSLA. Záporná celá čísla Racionální čísla Absolutní hodnota Početní operace s racionálními čísly
a algoritmů matematického aparátu Vyjádří a zapíše část celku. Znázorňuje zlomky na číselné ose, převádí zlomky na des. čísla a naopak. Zapisuje nepravé zlomky ve tvaru smíšeného čísla. ZLOMKY Pojem zlomku,
Více4.2 Syntaxe predikátové logiky
36 [070507-1501 ] 4.2 Syntaxe predikátové logiky V tomto oddíle zavedeme syntaxi predikátové logiky, tj. uvedeme pravidla, podle nichž se tvoří syntakticky správné formule predikátové logiky. Význam a
VíceVYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION
VíceModely Herbrandovské interpretace
Modely Herbrandovské interpretace Petr Štěpánek S využitím materialu Krysztofa R. Apta 2006 Logické programování 8 1 Uvedli jsme termové interpretace a termové modely pro logické programy a také nejmenší
VíceStředoškolská technika SCI-Lab
Středoškolská technika 2016 Setkání a prezentace prací středoškolských studentů na ČVUT SCI-Lab Kamil Mudruňka Gymnázium Dašická 1083 Dašická 1083, Pardubice O projektu SCI-Lab je program napsaný v jazyce
VíceVytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
VíceJana Vránová, 3. lékařská fakulta, UK Praha
Jana Vránová, 3. lékařská fakulta, UK Praha Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně
VíceZáklady algoritmizace c2005, 2007 Michal Krátký, Jiří Dvorský1/39
Základy algoritmizace Michal Krátký 1, Jiří Dvorský 1 1 Katedra informatiky VŠB Technická univerzita Ostrava Základy algoritmizace, 2006/2007 Základy algoritmizace c2005, 2007 Michal Krátký, Jiří Dvorský1/39
Více