5.7 Metody založené na analogii

Rozměr: px
Začít zobrazení ze stránky:

Download "5.7 Metody založené na analogii"

Transkript

1 5.7 Metody založené na analogii Případové usuzování (Case-Based Reasoning, CBR), pravidlo nejbližšího souseda (nearest neighbour rule), učení založené na instancích (Instance-Based Learning, IBL), líné učení (lazy learning), pamětové učení (Memory-Based Learning), shlukování (clustering) to všechno jsou metody založené principu analogie: v neznámé situaci použij to řešení, které se osvědčilo v situaci podobné. Znalosti jsou tentokrát reprezentovány v podobě databáze již vyřešených problémů. Ve fázi učení se tedy neprovádí generalizace z příkladů (proto název líné učení). Při usuzování se pak v této databázi hledá nejpodobnější případ, dříve použité řešení někdy musí být adaptováno na novou situaci. Metody založené na analogii lze použít pro deskriptivní úlohy (segmentaci a shlukování) i pro úlohy klasifikační. Podobně jako na jiných místech knihy i zde bude větší důraz kladen na klasifikaci Podobnost mezi příklady Klíčovým pojmem je koncept podobnosti, resp. vzdálenosti, Jak podobnost tak vzdálenost se vyjadřuje pomocí metriky. Metrika je definována jako funkce d: X X R taková, že 1. x 1,x 2 X; d(x 1,x 2 ) 0 2. d(x 1,x 2 ) = 0 x 1 = x 2 3. d(x 1, x 2 ) = d(x 2,x 1 ) 4. x 1,x 2,x 3 X; d(x 1,x 2 ) + d(x 2,x 3 ) d(x 1,x 3 ) Nejpoužívanější metriky již známe z kapitoly o statistických metodách. Jsou to eukleidovská vzdálenost m d E (x 1,x 2 ) = δ E (x 1j,x 2j ), kde δ E (x 1j,x 2j ) = (x 1j - x 2j ) 2 j=1 a Hammingova vzdálenost (v komunitě strojového učení nazývaná Manhattan, nebo city-block) 1 m d H (x 1,x 2 ) = δ H (x 1j,x 2j ), kde δ H (x 1j,x 2j ) = x 1j - x 2j j=1 K nim se (pro kategoriální atributy) řadí ještě metrika překrytí ( overlap ), počítající počet rozdílů v hodnotách stejných atributů m d O (x 1,x 2 ) = δ O (x 1j,x 2j ), kde δ O (x 1j,x 2j ) = j=1 0 pro x 1j = x 1 pro x 1j x 2j 2j 1 V případě, že hodnoty atributů jsou pouze 0 a 1, počítá Hammingova vzdálenost (stejně jako metrika překrytí) počet neshod v hodnotách vzájemně si odpovídajících atributů dvou příkladů. Takto je tato metrika používána například v teorii informace pro měření vzdálenosti dvou kódových slov reprezentovaných bitovými řetězci. 1

2 Podobnost pak můžeme spočítat jako 1/d(x 1,x 2 ) nebo jako 1 - d(x 1,x 2 ). První varianta se používá pro d(x 1,x 2 ) R (nenormalizovaná vzdálenost), druhá varianta se používá pro d(x 1,x 2 ) [0,1] (vzdálenost je normalizována např. tak, že je vydělena vzdáleností mezi dvěma krajními hodnotami definičního oboru). Uvedené metriky trpí některými nedostatky. Liu [Liu, 1996] uvádí tyto dva problémy: 1. na určení podobnosti dvou příkladů se všechny atributy podílejí stejně; to může vést k přeučení systému, 2. měření podobnosti mezi dvěma hodnotami kategoriálního atributu jako shoda/neshoda hodnot (případ metriky překrytí) nedokáže často zachytit složitost a jemné nuance problému. Řešení prvního problému spočívá ve vážení jednotlivých atributů. Při porovnávání hodnot téhož atributu se tedy pracuje s hodnotou δ (x 1i,x 2i ) = w i δ(x 1i,x 2i ). Váhy atributů lze získat od experta, na základě analýzy celých trénovacích dat (např. na základě podmíněné pravděpodobnosti nebo entropie; obě možnosti vyjadřují, jak dobře se atribut hodí pro klasifikaci), nebo inkrementálně na základě výsledku klasifikace pro jeden přiklad (váhy správně fungujících atributů se posilují, váhy špatně fungujících atributů se oslabí podobně jako u neuronových sítí). Podrobněji o této problematice viz [Wettschereck, Aha, 1995]. V extremním případě (w i = 0) lze pomocí vážení provádět selekci atributů. Pro řešení druhého problému se nabízejí složitější metriky. Populární je zejména tzv. Value Difference Metric (VDM) [Stanfill, Waltz, 1986]. Tato metrika bere do úvahy celkovou podobnost příkladů patřících do různých tříd v celé trénovací množině. Nechť počty výskytu jednotlivých hodnot v 1, v 2, v R atributu A pro příklady patřící do tříd C(v 1 ),., C(v S ) ukazuje kontingenční tabulka Tab. 1. C(v 1 ) C(v 2 ). C(v S ) A(v 1 ) a 11 a 12. a 1S r 1 A(v 2 ) a 21 a 22. a 2S r 2 : : : : : : : : : : A(v R ) a R1 a R2. a RS r R s 1 s 2. s S n Tab. 1 Kontingenční tabulka Tedy a kl je četnost (frekvence) kombinace A(v k ) C(v l ), S r k = akl, l=1 R s l = akl, a R S n = akl. k=1 k=1 l=1 2

3 Je-li x 1j = v a a x 2j = v b, potom vzdálenost mezi těmito dvěma hodnotami je 2 S δ( x 1j, x 2j ) = l=1 a al r a a bl r b. Vzdálenost mezi dvěma příklady x 1 a x 2 přitom zůstává m d(x 1,x 2 ) = δ(x 1j,x 2j ). j=1 Modifikace této metriky, Modified Value Difference Metric (MVDM) bere do úvahy i váhy příkladů x 1 a x 2 [Cost, Salzberg, 1993]: m d(x 1,x 2 ) = w x1 w x2 δ(x 1j,x 2j ). j=1 Je-li x 1 nový příklad, který se má klasifikovat a x 2 příklad v databázi, bude w x1 = 1 w x2 = počet použití příkladu x 2 pro klasifikaci počet správných použití příkladu x 2. Váha příkladu x 2 tedy bere do úvahy úspěšnost použití tohoto příkladu při klasifikaci. Jinou možností jak měřit vzdálenost mezi hodnotami kategoriálního atributu je využít hierarchického uspořádání hodnot atributu (pokud takováto hierarchie existuje). Vzdálenost mezi dvěma hodnotami bude v tomto případě dána podílem maxima z hloubky obou hodnot-uzlů v minimálním společném podstromu a hloubky celé hierarchie. Tedy např. pro hierarchii hodnot atributu bydlení uvedenou na Obr. 1 bude δ(vlastní_dům,vlastní_byt)= max(1,1)/2 = 0.5 (kořen minimálního společného podstromu je uzel vlastní) δ(vlastní_byt,družstevní) = max(2,1)/2 = 1 (kořen minimálního společného podstromu je uzel any). any vlastní družstevní nájemní vlastní dům vlastní byt Nájemní byt státní Nájemní byt s majitelem Obr. 1 Hierarchie hodnot atributu bydlení 2 Připomeňme si, že a al /r a je odhad podmíněné pravděpodobnosti P(C(v l ) A(v a )). 3

4 5.7.2 Podobnost mezi časovými řadami a sekvencemi Zajímavým dílčím problémem je otázka, jak měřit podobnost mezi časovými řadami nebo sekvencemi [Gunopulos, Das, 2000]. U dat typu spotřeba elektrické energie, pohyb cen akcií, transakce na účtu klienta, či výskyt poruch v telekomunikační síti, lze využít toho, že nepracujeme s hodnotami různých atributů, ale s jediným atributem, jehož hodnoty sledujeme v průběhu určitého časového období. Nejjednodušší způsob, jak měřit podobnost mezi dvěma časovými řadami téže délky je standardním způsobem použít eukleidovskou metriku. Tento způsob je ovšem velmi citlivý na drobné posuvy v časové ose 3. Proto se pro časové řady používá metoda dynamic time warping provádějící dynamickou deformaci časové osy [Berndt, Clifford, 1996] 4. Místo abychom porovnávali sobě odpovídající vzorky dvou řad, hledáme vzorky, které si jsou nejblíže. Pro uvažované dvě řady hledáme tzv. deformační cestu (warping path) X = x 1, x 2,, x i,, x lx Y = y 1, y 2,, y j,, y ly W = w 1,w 2,, w k,, w K, max(l x,l y ) K < l x + l y + 1 která specifikuje, které vzorky obou řad budeme porovnávat. Nějaká hodnota w k v této cestě je definována jako w k = (i,j) k, tedy jako volba hodnot x i a y j. Přitom musí platit [Keogh, Pazzani, 1999]: hraniční podmínky w 1 = (1,1) a w K = (l x, l y ), spojitost: je-li w k = (i k,j k ), potom w k-1 = (i k-1,j k-1 ), kde i k -i k-1 1 a j k -j k-1 1, monotonicita: je-li w k = (i k,j k ), potom w k-1 = (i k-1,j k-1 ), kde i k -i k-1 0 a j k -j k-1 0. Cílem je nalézt 5 takovou deformační cestu, která bude minimalizovat vzdálenost mezi uvažovanými řadami X a Y počítanou jako k δ E (x ik,y jk ) resp. k δ H (x ik,y jk ). Obr. 3 ukazuje příklad cesty (1,1) (2,2) (2,3) (3,3) (4,4), která přiřadí třetí hodnotu řady Y ke druhé hodnotě řady X. 5 4 Y X Obr. 3 Příklad deformační cesty 3 Připomeňme, že klasické použití této metriky předpokládá, že každý příklad je popsán hodnotami m různých atributů, zde máme jeden atribut, s hodnotami získanými v m časových okamžicích; tyto hodnoty tedy nejsou vzájemně nezávislé. 4 Tato metoda byla původně navržena pro rozpoznávání řeči [Sakoe, Chiba, 1978]. 5 Tato úloha se řeší metodami dynamického programování. 4

5 Jinou možností 6 je transformovat časovou řadu na sekvenci elementárních úseků (např. vzrůst, pokles, beze změny, nebo hrot, sedlo) a pak použít některou z metod pro porovnávání sekvencí. Tyto sekvence mohou mít v zásadě dvojí podobu: sekvence dvojic (elementární úsek, časový okamžik) sekvence elementárních úseků. Vdálenost mezi dvěma sekvencemi můžeme například měřit na základě náročnosti transformace jedné sekvence na druhou. Pro první typ sekvencí definují Mannila a Rokainen ([Manilla, Rokainen, 1997]) tyto transformační operace: operace Ins(e,t) vloží událost e do časového okamžiku t operace Del(e,t) zruší událost e z časového okamžiku t operace Move(e,t,t ) přesune událost e z časového okamžiku t do časového okamžiku t. Každá z uvedených operací op(e,t) je spojena s určitými náklady c(op(e,t)). Vzdálenost mezi dvěma sekvencemi událostí je tedy dána cenou za transformaci jedné sekvence na sekvenci druhou. Tak například ([Manilla, Rokainen, 1997]) vzdálenost mezi sekvencemi je c(x Y) = X = (D,8) (D,12) (A,15) (B,17) (A,20) Y = (D,4) (D,8) (C,15) (B,17) (A,18) (C,20) c(move(d,8,4)) + c(move(d,12,8)) + c(ins(c,15)) + c(del(a,15)) + c(move(a,20,18)) + c(ins(c,20)). V případě, že sekvence je tvořena pouze elementárními úseky, (a lze ji tedy chápat jako posloupnost symbolů) se aspekt času zcela stírá. Operace používané pro transformaci jedné sekvence (řetězce) na druhou jsou pak odstranění symbolu, náhrada symbolu a vložení symbolu. Pokud jsou ceny transformačních operací jednotkové, je vzdálenost mezi sekvencemi dána počtem provedených operací (tzv. Levensteinova vzdálenost) 7. Kdybychom ve výše uvedeném příkladu sekvencí X a Y ignorovali čas, pak transformace X na Y je tvořena kroky nahraď(a,c)vlož(c) a tedy Levensteinova vzdálenost je rovna 2. Podobnost mezi sekvencemi lze rovněž definovat jako délku největšího společného úseku (longest common subsequence LCS) [Gunopulos, Das, 2000]. Přitom se připouští, že v tomto úseku se mohou vyskytovat jiné události. Pro výše uvedené sekvence X a Y (opět bez uvažování časových okamžiků) je LCS(X, Y) = D D B A A tedy podobnost mezi X a Y je 4 (pokud uvažujeme absolutní délku LCS(X, Y) ), případně 4/5 LCS(X, Y) (pokud uvažujeme relativní délku min(l x,l y ) ). 6 Existují samozřejmě další metody pro analýzu resp. transformaci časových řad, vyhlazování časové řady pomocí klouzavého průměru, autoregresní modely nebo Fourierova transformace. 7 Tento způsob se používá například pro porovnávání dvou řetězců DNA. 5

6 5.7.3 Učení založené na instancích Jedním z pionýrů v oblasti učení založeném na instancích (IBL) je David Aha. Vyjděme tedy z jeho popisu tohoto typu učení [Aha a kol., 1991]. Předpokladem použití metod učení založených na instancích je existence: funkce pro měření podobnosti dvou instancí, funkce pro volbu instancí pro uložení do databáze, funkce pro klasifikování nových příkladů. Funkcemi pro měření podobnosti resp. vzdálenosti (metrikami) jsme se podrobněji zabývali v předcházejícím odstavci. Nejpoužívanější funkci pro klasifikování nových případů, pravidlo k- nejbližších sousedů (k-nearest neighbour rule) popisuje odstavec následující. Zde se tedy zaměříme na způsob volby instancí které si systém zapamatuje, tedy uloží do databáze. Aha uvádí následující možnosti postupně implementované v systémech IBx: IB1 systém ukládá každý příklad z trénovacích dat; tato nejjednodušší varianta pracuje dobře i pro příklady zatížené šumem, IB2 systém se nejprve pokusí nový příklad klasifikovat. Pouze chybně zařazené příklady jsou uloženy do databáze. U této varianty dochází k významné redukci počtu ukládaných příkladů, dochází ale k problémům v případě šumu, IB3 systém používá složitější kritérium pro volbu příkladů pro uložení založené na souhrnné správnosti klasifikace. Pro každý příklad v databázi se sleduje, kolikrát se podílel na správné klasifikaci a kolikrát na nesprávné. Systém pak testuje, které příklady jsou dobré klasifikátory (ty ponechá) a které jsou špatné (ty odstraní). Tento postup umožňuje zachovat nízké nároky na paměť systému IB2 při růstu spolehlivosti klasifikace pro zašuměná data. S otázkou ukládání příkladů do databáze úzce souvisí otázka vyhledávání. Sekvenční procházení všech uložených příkladů je (pro rozsáhlá data) časově značně náročné. Jsou-li však k dispozici efektivní indexovací techniky, lze redukovat dobu potřebnou na hledání v této databázi. Příkladem takovéto techniky je použití stromů. V případě k-d stromů jsou nelistové uzly tvořeny atributy, v listech jsou pak seznamy podobných příkladů ([Friedman a kol., 1977]). Tyto stromy se tedy používají pro uchovávání příkladů pro algoritmus k-nejbližších sousedů. K-d stromy byly původně navrženy jako binární stromy pro indexování příkladů popsaných pouze numerickými atributy 8, později byl algortimus pro vytváření k-d stromů rozšířen i pro práci s kategoriálními atributy. V případě algoritmu IGTree (IG zde znamená informační zisk [Daelemans a kol., 1996]) se vytváří strom v jehož listech jsou informace o třídě; lze tedy tento strom použít přímo pro klasifikaci. Na rozdíl od algoritmů pro indukci rozhodovacích stromů se ale neprovádí žádná generalizace. Druhým rozdílem je to, že pořadí atributů pro větvení se pevně stanoví před začátkem tvorby stromu. Atributy jsou uspořádány sestupně podle informačního zisku 9 pro celá trénovací data. V tomto pořadí se pak vybírají pro větveni; maximální hloubka stromu je tedy dána počtem atributů a pro uzly ve stejné 8 Při větvení se tedy provádí binarizace. 9 Tedy podle kritéria, které navrhl Quinlan pro volbu atributu v případě indukce rozhodovacích stromů (viz příslušná kapitola). 6

7 hloubce se pro větvení použije tentýž atribut. Ke každému uzlu je navíc přířazena majoritní (default) třída. Při tvorbě stromu se rovněž provádí komprese dat. Příklady nejsou uloženy v plné podobě: ukládají se pouze hodnoty těch atributů, které umožní klasifikovat příklady v daném uzlu. Odlišnosti mezi k-d stromy, IGTree a rozhodovacími stromy ilustruje jednoduchý příklad převzatý z [Daelemans a kol., 1996] (Obr. 4). Quinlanův algoritmus C4.5 zde zastupuje algoritmy TDIDT. Pro uvedená data je informační zisk (pro celá data) atributu počet_otvorů rovný 1.1, informační zisk atributu tvar rovný 0.9 a informační zisk atributu velikost rovný Obr. 4 Rozdíl mezi rozhodovacím stromem (C4.5), k-d stromem a IGTree 7

8 5.7.4 Nejbližší soused Nejblíže ke statistickému pojetí má metoda nejbližšího souseda, resp. K-nejbližších sousedů (Knearest neighbour rule). K dříve uvedeným základním principům využití analogie ve fázi učení se neprovádí generalizace klasifikace se provádí na základě podobnosti se zde řadí ještě třetí princip příklady jsou chápány jako body v n-rozměrném prostoru atributů. Základní podobu algoritmu uvádí Obr. 5 ([Mitchell, 1997]). Ve fázi učení si systém zapamatuje všechny příklady [x k, y k ] z trénovací množiny. Ve fázi klasifikace se pro nový příklad x nalezne (za použití zvolené metriky) K nejbližších příkladů, které pak hlasují o zařazení příkladu x do třídy. Algoritmus k-nn Učení 1. Pro každý příklad [x i, y i ] zařaď [x i, y i ] do báze příkladů Klasifikace 1. Pro nový příklad x 1.1. Najdi x 1, x 2, x K K nejbližších příkladů z báze příkladů 1.2. Přiřaď K K j k i k, i k=1 k=1 y = y j δ(y, y ) = max δ(y, y ) kde δ(y i,y k ) = 1 pro y i =y k, jinak δ(y i,y k ) = 0 Obr. 5 Algoritmus K-nejbližších sousedů Uvedený algoritmus předpokládá, že cílový atribut je kategoriální, jinými slovy, klasifikujeme příklady do konečného počtu tříd. V případě, že cílový atribut je numerický, počítáme místo nejčastější hodnoty cílového atributu hodnotu průměrnou: ŷ = 1 K K y k. k=1 V obou případech (diskretní třídy i třídy spojité) má každý z K příkladů rovný hlas. To je sice demokratické, ale někdy neefektivní. Proto se používá vážené hlasování (resp. vážený průměr). Jeden příklad vážení příkladů jsme již uvedli v předcházející podkapitole u MVDM, jinou možností je volit váhu příkladu x i v bázi jako kde d(x x,x i ) je vzdálenost obou příkladů. w i = 1 d(x,x i ) 2 8

9 Pokud budeme uvedeným algoritmem na základě trénovacích dat z našeho příkladu o úvěrech klasifikovat nového klienta s charakteristikami Přijem = Konto = Pak při použití eukleidovské vzdálenosti a pro parametr K=1 bude závěr klasifikace úvěr(ano), protože posuzovaný klient má nejblíže ke klientovi k5 (Tab. 2). klient příjem konto úvěr vzdálenost příkladu k ne k ne k ano k ne k ano k ano k ne k ano k ano k ano k ano k ano Tab. 2 Klasifikace nového příkladu podle jednoho nejbližšího souseda V případě velkého množství příkladů, což je situace typická při dobývání znalostí z databází, ale nelze uvažovat o uložení všech příkladů. Neobejdeme se tedy ve fázi učení bez generalizace. Jednotlivé třídy pak budou reprezentovány centroidy, tak, jak to bylo zmíněno v kapitole o statistických metodách. V nejjednodušším případě budou hodnoty atributů pro centroid reprezentující určitou třídu dán průměrnými hodnotami atributů pro příklady této třídy. Tímto způsobem získáme pro naše data dva centroidy: C(ano): příjem = 14250, konto = C(ne): příjem = 5000, konto = Pro eukleidovskou vzdálenost se při klasifikaci trénovacích dat podle těchto centroidů dopustíme tří chyb (v Tab. 3 vyznačeno tučně). klient příjem konto úvěr vzdálenost od C(ano) vzdálenost od C(ne) výsledek klasifikace k ne ne k ne ne k ano ne k ne ne k ano ne k ano ano k ne ano k ano ano k ano ano k ano ano k ano ano k ano ano Tab. 3 Klasifikace trénovacích dat podle centroidů průměrů 9

10 To ale neznamená, že neexistují centroidy použitelné pro bezchybnou klasifikaci našich dat. Vzhledem k tomu, že data jsou lineárně separabilní (viz kapitola o neuronových sítích), mohou jako centroidy posloužit každé dva body v prostou atributů, které budou osově souměrné podle rozdělující přímky 10. Tedy například C(ano): příjem = 15000, konto = C(ne): příjem = 5000, konto = Polohu těchto centroidů v prostoru atributů ilustruje Obr. 6. Výsledky klasifikace pomocí těchto centroidů pak ukazuje Tab. 4. Obr. 6 Poloha centroidů klient příjem konto úvěr vzdálenost od C(ano) vzdálenost od C(ne) výsledek klasifikace k ne ne k ne ne k ano ano k ne ne k ano ano k ano ano k ne ne k ano ano k ano ano k ano ano k ano ano k ano ano Tab. 4 Klasifikace trénovacích dat podle centroidů osově souměrných bodů 10 Reprezentace dvou lineárně separabilních tříd pomocí jedné lineární diskriminační funkce je tedy ekvivalentní reprezentaci pomocí dvou centroidů symetrických podle této funkce. V případě tříd, které nejsou lineárně separabilní je třeba jednu třídu reprezentovat více centroidy (viz kapitola o statistice). 10

11 5.7.5 Případové usuzování To, čím se případové usuzování (Case-Based Reasoning, CBR) odlišuje od metody nejbližšího souseda a učení na základě instancí je skutečnost, že jednotlivé příklady již nelze chápat jako body v prostoru atributů. Popis případů má charakter složitých struktur, často rámců, tak jak to ukazuje příklad na Obr. 7 (převzato z [Watson, Marir, 1994]). Takto složitá reprezentace vyžaduje složitější metody ukládání (indexování) i měření podobnosti. Základní schéma případového usuzování lze charakterizovat jako 4R [Aamodt, Plaza, 1994]: retrieve najdi nejpodobnější případy, reuse použij tyto případy pro řešení aktuálního problému, revise v případě nutnosti reviduj navržené řešení, retain uchovej nové řešení jako součást nového případu. BEGIN CASE CASE11 TITLE Zásobník inkoustu je poškozen, způsobuje černé skvrny. DESCRIPTION Malé kulaté černé skvrny se objevují na přední nebo zadní straně papíru. Občas se objeví velké nesouvislé skvrny. QUESTIONS Máte problémy s kvalitou tisku? ANSWER: ano SCORING: (-) Jaká je kvalita tisku? ANSWER: černé skvrny SCORING: (default) Pomohlo vyčištění tiskárny? ANSWER: ne SCORING: (default) ACTIONS Zkontrolujte zásobník a vyměnte ho, je-li v něm málo náplně nebo je-li poškozen BROWSE TEXT CREATION 29/7/91 14:19:22 LAST_UPDATE 29/7/91 14:19:22 LAST_USED 29/7/91 14:19:22 STATUS ACTIVE END CASE Obr. 7 Reprezentace případu v systému CBR-Express 11

12 Případové usuzování (Case-Based Reasoning) se objevuje jako alternativa k usuzování založenému na pravidlech (Rule-Based Reasoning) počátkem 80. let. Systémy případového usuzování jsou založeny na představě, že expert se v neznámé situaci rozhoduje na základě podobnosti s již dříve řešenými (a vyřešenými) případy a nikoliv na základě soustavy pravidel. Tento postup odpovídá např. anglosaskému pojetí práva založenému na precedentech 11. CBR systémy soutěží o přízeň uživatelů s expertními a znalostními systémy. Vzhledem k tomu, že znalosti jsou tentokráte reprezentovány jako soubor typických příkladů, je vytvoření CBR aplikace podstatně rychlejší než tvorba klasického znalostního systému. Problém získávání znalostí se zde transformuje na problém získávání případů. Klíčovou otázkou je zde volba vhodných příkladů, které dostatečně dobře pokrývají zvolenou oblast expertízy. To se dosti obtížně určuje jednorázově; tvorba (plnění) systému je opět iterativní proces. Některé systémy proto mají schopnost doučovat se. Jestliže konzultovaná situace neodpovídá žádnému případu z databáze, vyžádá se závěr od experta a vyřešený případ se zařadí do databáze jako nová znalost. CBR systémy mohou být budovány na základě dat (data driven) nebo na základě zkušeností experta (experience driven). V prvním případě pozorujeme zřejmou vazbu na dobývání znalostí (výše uvedené metody IBL). Ovšem i ve druhém případě, kdy se ve velké míře využívají znalosti experta, lze těžit z metod dobývání znalostí. Někteří autoři uvádějí, že propojení metod dobývání znalostí a případového usuzování v sekvenci databáze dobývání znalostí případové usuzování uživatel umožní překlenout propast mezi databázemi obsahujícími množství málo srozumitelných dat a koncovým uživatelem. Případové usuzování v tomto pojetí umožní v databázi zkušeností nalézt data relevantní pro danou rozhodovací situaci, metody dobývání znalostí pak přispívají k naplňování této databáze ([Aamodt a kol., 1998]) Systémy IBL Algoritmus K-NN můžeme nalézt mimo jiné v systémech Clementine a Weka. Systém TiMBL z University v Tilburgu implementuje řadu zde popisovaných IBL technik. Používá např. vážení atributů na základě informačního zisku a MVDM metriku pro porovnávání dvou kategoriálních hodnot. Systém uchovává reprezentaci trénovacích dat v paměti a klasifikuje nové příklady na základě extrapolace z nejpodobnějších případů. Proces klasifikace je optimalizován s využitím indexování pomocí IGTree. Systém lze nalézt na Jiným příkladem je PEBLS, systém pro práci s kategoriálními atributy založený na pravidle nejbližšího souseda s využitím metriky MVDM [Cost, Salzberg, 1993]. Systém je volně dostupný na ftp://condor.cs.jhu.edu/pub/pebls. K aplikacím tohoto systému patří predikce struktury proteinů a identifikace vybraných sekvencí v DNA. 11 Aplikace v právnické oblasti ostatně patří mezi nejrozšířenější příklady použití systémů CBR. 12

13 Literatura: [Aamodt, Plaza, 1994] Aamodt,A. Plaza,E.: Case-based reasoning: foundational issues, methodological variations and system approaches. AI Communications, 7(1), 1994, [Aamodt a kol., 1998] Aamodt,A. Sandtorv,H.A. Winnem,O.M.: Combining case based reasoning and data mining a way of revealing and reusing RAMS experience. In: Proc. Safety and Reliability ESREL 98, 1998, [Aha a kol., 1991] Aha,D.W. - Kibler,D., - Albert, M. K.: Instance-based learning algorithms. Machine Learning, 6, 1991, [Berndt, Clifford, 1996] Berndt,D. Clifford,J.: Finding Patterns in Time Series: A Dynamic Programming Approach. In: Fayyad et al. Advances in Knowledge Discovery and Data Mining. AAAI Press/MIT Press, 1996, [Cost, Salzberg, 1993] Cost,S. - Salzberg,S.: A weighted nearest neighbor algorithm for learning with symbolic features, Machine Learning, 10:1, (1993), [Daelemans a kol., 1996] Daelemans,W. - van den Bosch,A. Weijters,T.: IGTree: Using trees for compression and classification in lazy learning algorithms. In: D. Aha (ed.) Artificial Intelligence Review, special issue on Lazy Learning, [Friedman a kol., 1977] Friedman,J. Bentley,J. Finkel,A.R.: An algorithm for finding best matches in logaritmic expected time. ACM Transactions on Mathematical Software, 3(3), [Gunopulos, Das, 2000] Gunopulos,D. - Das,G.: Time Series Similarity Measures. KDD2000 tutorial, [Keogh, Pazzani, 1999] Keogh,E. - Pazzani,M.: Scaling up Dynamic Time Warping to Massive Datasets. In: (Zytkow, Rauch, eds.) Proc. European Konf. On Priniples and Practice of KDD PKDD 99, Springer, 1999, [Kolodner, 1993] Kolodner, J.: Case-Based Reasoning. Morgan Kaufman, [Liu, 1996] Liu,W.Z.: An integrated approach for different attribute types in nearest neighbour classification. The Knowledge Engineering Review, Vol. 11:3, 1996, [Manilla, Rokainen, 1997] Manilla,H. - Rokainen,P.: Similarity of Event Sequences. In: Proc. 4 th Workshop on Temporal Representation and Reasoning TIME 97, [Mitchell, 1997] Mitchell,T.: Machine Learning. McGraw-Hill ISBN [Sakoe, Chiba, 1990] Sakoe,H. - Chiba,S.: Dynamic Programming Algorithm Optimization For Spoken Word Recognition IEEE Trans. Acoustics, Speech and Signal Proc., Vol. ASSP-26, 1978, [Stanfill, Waltz, 1986] Stanfill,C. Waltz,D.: Towards memory-based reasoning. Communications of the ACM 29 (12), 1986, [Watson, Marir, 1994] Watson,I. Marir,F.: Case-based reasoning: An review. The Knowledge Engineering Review, Vol. 9:4, 1994, [Wettschereck, Aha, 1995] Wettschereck,D. - Aha,D.: Weighting features. In Proc. 1 st Int. Conf. on Case-Based Reasoning, Springer,

Metody založené na analogii

Metody založené na analogii Metody založené na analogii V neznámé situaci lze použít to řešení, které se osvědčilo v situaci podobné případové usuzování (Case-Based Reasoning CBR) pravidlo nejbližšího souseda (nearest neighbour rule)

Více

Instance based learning

Instance based learning Učení založené na instancích Instance based learning Charakteristika IBL (nejbližších sousedů) Tyto metody nepředpokládají určitý model nejsou strukturované a typicky nejsou příliš užitečné pro porozumění

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.

Více

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011 Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz III. PŘÍZNAKOVÁ KLASIFIKACE - ÚVOD PŘÍZNAKOVÝ POPIS Příznakový obraz x zpracovávaných

Více

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.

Více

5.1 Rozhodovací stromy

5.1 Rozhodovací stromy 5.1 Rozhodovací stromy 5.1.1 Základní algoritmus Způsob reprezentování znalostí v podobě rozhodovacích stromů je dobře znám z řady oblastí. Vzpomeňme jen nejrůznějších klíčů k určování různých živočichů

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Statistická teorie učení

Statistická teorie učení Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Lineární klasifikátory

Lineární klasifikátory Lineární klasifikátory Lineární klasifikátory obsah: perceptronový algoritmus základní verze varianta perceptronového algoritmu přihrádkový algoritmus podpůrné vektorové stroje Lineární klasifikátor navrhnout

Více

Datové struktury 2: Rozptylovací tabulky

Datové struktury 2: Rozptylovací tabulky Datové struktury 2: Rozptylovací tabulky prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy

Více

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3,

Více

Získávání dat z databází 1 DMINA 2010

Získávání dat z databází 1 DMINA 2010 Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Metody odvozování. matematická východiska: logika, Prolog

Metody odvozování. matematická východiska: logika, Prolog Metody odvozování matematická východiska: logika, Prolog psychologická východiska: rámce biologická východiska: konekcionismus, neuronové sítě statistická východiska: kauzální (bayesovské) sítě ekonomická

Více

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny

Více

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z

Více

Matematika pro informatiky

Matematika pro informatiky (FIT ČVUT v Praze) Konvexní analýza 13.týden 1 / 1 Matematika pro informatiky Jaroslav Milota Fakulta informačních technologíı České vysoké učení technické v Praze Letní semestr 2010/11 Extrémy funkce

Více

Učící se klasifikátory obrazu v průmyslu

Učící se klasifikátory obrazu v průmyslu Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.

Více

Support Vector Machines (jemný úvod)

Support Vector Machines (jemný úvod) Support Vector Machines (jemný úvod) Osnova Support Vector Classifier (SVC) Support Vector Machine (SVM) jádrový trik (kernel trick) klasifikace s měkkou hranicí (soft-margin classification) hledání optimálních

Více

Automatické vyhledávání informace a znalosti v elektronických textových datech

Automatické vyhledávání informace a znalosti v elektronických textových datech Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická

Více

Získávání znalostí z dat

Získávání znalostí z dat Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace

Více

Využití metod strojového učení v bioinformatice David Hoksza

Využití metod strojového učení v bioinformatice David Hoksza Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace

Více

DATA MINING KLASIFIKACE DMINA LS 2009/2010

DATA MINING KLASIFIKACE DMINA LS 2009/2010 DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných

Více

Metody analýzy dat I. Míry a metriky - pokračování

Metody analýzy dat I. Míry a metriky - pokračování Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:

Více

5.5 Evoluční algoritmy

5.5 Evoluční algoritmy 5.5 Evoluční algoritmy Jinou skupinou metod strojového učení, které vycházejí z biologických principů, jsou evoluční algoritmy. Zdrojem inspirace se tentokrát stal mechanismus evoluce, chápaný jako Darwinův

Více

Rozhodovací pravidla

Rozhodovací pravidla Rozhodovací pravidla Úloha klasifikace příkladů do tříd. pravidlo Ant C, kde Ant je konjunkce hodnot atributů a C je cílový atribut A. Algoritmus pokrývání množin metoda separate and conquer (odděl a panuj)

Více

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o

Více

Pravděpodobně skoro správné. PAC učení 1

Pravděpodobně skoro správné. PAC učení 1 Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného

Více

Umělá inteligence a rozpoznávání

Umělá inteligence a rozpoznávání Václav Matoušek KIV e-mail: matousek@kiv.zcu.cz 0-1 Sylabus předmětu: Datum Náplň přednášky 11. 2. Úvod, historie a vývoj UI, základní problémové oblasti a typy úloh, aplikace UI, příklady inteligentních

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

Úvod do optimalizace, metody hladké optimalizace

Úvod do optimalizace, metody hladké optimalizace Evropský sociální fond Investujeme do vaší budoucnosti Úvod do optimalizace, metody hladké optimalizace Matematika pro informatiky, FIT ČVUT Martin Holeňa, 13. týden LS 2010/2011 O čem to bude? Příklady

Více

8. Strojové učení. Strojové učení. 16. prosince 2014. Václav Matoušek. 8-1 Úvod do znalostního inženýrství, ZS 2014/15

8. Strojové učení. Strojové učení. 16. prosince 2014. Václav Matoušek. 8-1 Úvod do znalostního inženýrství, ZS 2014/15 Strojové učení 16. prosince 2014 8-1 Klasifikace metod strojového učení podle vynaloženého úsilí na získání nových znalostí Učení zapamatováním (rote learning, biflování) Pouhé zaznamenání dat nebo znalostí.

Více

Úloha ve stavovém prostoru SP je <s 0, C>, kde s 0 je počáteční stav C je množina požadovaných cílových stavů

Úloha ve stavovém prostoru SP je <s 0, C>, kde s 0 je počáteční stav C je množina požadovaných cílových stavů Stavový prostor a jeho prohledávání SP = formalismus k obecnějšímu uchopení a vymezení problému, který spočívá v nalezení posloupnosti akcí vedoucích od počátečního stavu úlohy (zadání) k požadovanému

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení

Více

Pokročilé operace s obrazem

Pokročilé operace s obrazem Získávání a analýza obrazové informace Pokročilé operace s obrazem Biofyzikální ústav Lékařské fakulty Masarykovy univerzity Brno prezentace je součástí projektu FRVŠ č.2487/2011 (BFÚ LF MU) Získávání

Více

Klasifikace předmětů a jevů

Klasifikace předmětů a jevů Klasifikace předmětů a jevů 1. Úvod Rozpoznávání neboli klasifikace je základní znak lidské činnosti. Rozpoznávání (klasifikace) předmětů a jevů spočívá v jejich zařazování do jednotlivých tříd. Třídou

Více

Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů

Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů Kapitola 1 Signály a systémy 1.1 Klasifikace signálů Signál představuje fyzikální vyjádření informace, obvykle ve formě okamžitých hodnot určité fyzikální veličiny, která je funkcí jedné nebo více nezávisle

Více

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý Odečítání pozadí a sledování lidí z nehybné kamery Ondřej Šerý Plán Motivace a popis úlohy Rozdělení úlohy na tři části Detekce pohybu Detekce objektů Sledování objektů Rozbor každé z částí a nástin několika

Více

Dobývání dat a strojové učení

Dobývání dat a strojové učení Dobývání dat a strojové učení Dobývání znalostí z databází (Knowledge discovery in databases) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns

Více

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování

Více

Chybějící atributy a postupy pro jejich náhradu

Chybějící atributy a postupy pro jejich náhradu Chybějící atributy a postupy pro jejich náhradu Jedná se o součást čištění dat Čistota dat je velmi důležitá, neboť kvalita dat zásadně ovlivňuje kvalitu výsledků, které DM vyprodukuje, neboť platí Garbage

Více

Globální matice konstrukce

Globální matice konstrukce Globální matice konstrukce Z matic tuhosti a hmotnosti jednotlivých prvků lze sestavit globální matici tuhosti a globální matici hmotnosti konstrukce, které se využijí v řešení základní rovnice MKP: [m]{

Více

MBI - technologická realizace modelu

MBI - technologická realizace modelu MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,

Více

Binární soubory (datové, typované)

Binární soubory (datové, typované) Binární soubory (datové, typované) - na rozdíl od textových souborů data uložena binárně (ve vnitřním tvaru jako v proměnných programu) není čitelné pro člověka - všechny záznamy téhož typu (může být i

Více

Neuronové časové řady (ANN-TS)

Neuronové časové řady (ANN-TS) Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci

Více

UČENÍ BEZ UČITELE. Václav Hlaváč

UČENÍ BEZ UČITELE. Václav Hlaváč UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení

Více

Algoritmy a struktury neuropočítačů ASN - P11

Algoritmy a struktury neuropočítačů ASN - P11 Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova

Více

GIS Geografické informační systémy

GIS Geografické informační systémy GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Převody geometrií Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu

Více

Binární vyhledávací stromy pokročilé partie

Binární vyhledávací stromy pokročilé partie Binární vyhledávací stromy pokročilé partie KMI/ALS lekce Jan Konečný 30.9.204 Literatura Cormen Thomas H., Introduction to Algorithms, 2nd edition MIT Press, 200. ISBN 0-262-5396-8 6, 3, A Knuth Donald

Více

1. Data mining. Strojové učení. Základní úlohy.

1. Data mining. Strojové učení. Základní úlohy. 1... Základní úlohy. Učení s učitelem a bez učitele. Petr Pošík Katedra kybernetiky ČVUT FEL P. Pošík c 2010 Aplikace umělé inteligence 1 / 36 Obsah P. Pošík c 2010 Aplikace umělé inteligence 2 / 36 Co

Více

Lineární diskriminační funkce. Perceptronový algoritmus.

Lineární diskriminační funkce. Perceptronový algoritmus. Lineární. Perceptronový algoritmus. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics P. Pošík c 2012 Artificial Intelligence 1 / 12 Binární klasifikace

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le Whale detection Brainstorming session Jiří Dutkevič Lenka Kovářová Milan Le Signal processing, Sampling theorem Spojitý signál může být nahrazen diskrétní posloupností vzorků, aniž by došlo ke ztrátě informace,

Více

Projekt LISp-Miner. M. Šimůnek

Projekt LISp-Miner.   M. Šimůnek Projekt LISp-Miner http://lispminer.vse.cz M. Šimůnek Obsah Systém LISp-Miner Vývoj systému v dlouhém období ETree-Miner Project LISp-Miner 2 Systém LISp-Miner Metoda GUHA (od roku 1966) předchozí implementace

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich

Více

GIS Geografické informační systémy

GIS Geografické informační systémy GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Převody geometrií Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu

Více

Dijkstrův algoritmus

Dijkstrův algoritmus Dijkstrův algoritmus Hledání nejkratší cesty v nezáporně hranově ohodnoceném grafu Necht je dán orientovaný graf G = (V, H) a funkce, která každé hraně h = (u, v) H přiřadí nezáporné reálné číslo označované

Více

Unstructured data pre-processing using Snowball language

Unstructured data pre-processing using Snowball language Unstructured data pre-processing using Snowball language Předzpracování nestrukturovaných dat pomocí jazyka Snowball Bc. Pavel Řezníček, doc. Ing. František Dařena, PhD., Ústav informatiky, Provozně ekonomická

Více

U Úvod do modelování a simulace systémů

U Úvod do modelování a simulace systémů U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení

Více

Státnice odborné č. 20

Státnice odborné č. 20 Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin

Více

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního

Více

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. 1/25 KOMPRESE OBRAZŮ Václav Hlaváč, Jan Kybic Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac KOMPRESE OBRAZŮ, ÚVOD

Více

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen 11. Klasifikace V této kapitole se seznámíme s účelem, principy a jednotlivými metodami klasifikace dat, jež tvoří samostatnou rozsáhlou oblast analýzy dat. Klasifikace umožňuje určit, do které skupiny

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

Stromy, haldy, prioritní fronty

Stromy, haldy, prioritní fronty Stromy, haldy, prioritní fronty prof. Ing. Pavel Tvrdík CSc. Katedra počítačů FEL České vysoké učení technické DSA, ZS 2008/9, Přednáška 6 http://service.felk.cvut.cz/courses/x36dsa/ prof. Pavel Tvrdík

Více

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21. Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 21. září 2018 Jiří Dvorský (VŠB TUO) Vyhledávání 242 / 433 Osnova přednášky

Více

Všechno, co jste kdy chtěli vědět o maticích, ale báli jste se zeptat

Všechno, co jste kdy chtěli vědět o maticích, ale báli jste se zeptat Všechno, co jste kdy chtěli vědět o maticích, ale báli jste se zeptat Čtvercová matice n n, např. může reprezentovat: A = A A 2 A 3 A 2 A 22 A 23 A 3 A 32 A 33 matici koeficientů soustavy n lineárních

Více

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi Evoluční algoritmy Použítí evoluční principů, založených na metodách optimalizace funkcí a umělé inteligenci, pro hledání řešení nějaké úlohy. Populace množina jedinců, potenciálních řešení Fitness function

Více

Strojové uení. typy učení: Metody učení: učení se znalostem (knowledge acquisition) učení se dovednostem (skill refinement).

Strojové uení. typy učení: Metody učení: učení se znalostem (knowledge acquisition) učení se dovednostem (skill refinement). Strojové uení typy učení: učení se znalostem (knowledge acquisition) učení se dovednostem (skill refinement). volba reprezentace u ení u ení znalosti rozhodování objekt popis rozhodování rozhodnutí objektu

Více

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace

Více

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti: Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti: Postup: I) zvolení metriky pro výpočet vzdáleností dvou bodů II) zvolení metriky pro určení vzdálenosti mezi dvěma množinami

Více

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 23 Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 2 / 23 biologové často potřebují najít často se opakující sekvence DNA tyto sekvence bývají relativně krátké,

Více

1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017

1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017 Znalostní systémy úvodní úvahy a předpoklady 26. září 2017 1-1 Znalostní systém Definice ZS (Feigenbaum): Znalostní (původně expertní) systémy jsou počítačové programy simulující rozhodovací činnost experta

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání a vizualizace znalostí. Olga Štěpánková et al. Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu Dobývání znalostí - popis a metodika procesu CRISP a objasnění základních pojmů Nástroje pro modelování klasifikovaných dat a jejich

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Analytické procedury v systému LISp-Miner

Analytické procedury v systému LISp-Miner Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

Klasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn]

Klasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn] Klasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn] Michal Houdek, Tomáš Svoboda, Tomáš Procházka 6. června 2001 1 Obsah 1 Úvod 3 2 Definice a postup klasifikace 3 3 Příklady

Více

FOURIEROVA ANAL YZA 2D TER ENN ICH DAT Karel Segeth

FOURIEROVA ANAL YZA 2D TER ENN ICH DAT Karel Segeth FOURIEROVA ANALÝZA 2D TERÉNNÍCH DAT Karel Segeth Motto: The faster the computer, the more important the speed of algorithms. přírodní jev fyzikální model matematický model numerický model řešení numerického

Více

Jasové transformace. Karel Horák. Rozvrh přednášky:

Jasové transformace. Karel Horák. Rozvrh přednášky: 1 / 23 Jasové transformace Karel Horák Rozvrh přednášky: 1. Úvod. 2. Histogram obrazu. 3. Globální jasová transformace. 4. Lokální jasová transformace. 5. Bodová jasová transformace. 2 / 23 Jasové transformace

Více

Časová a prostorová složitost algoritmů

Časová a prostorová složitost algoritmů .. Časová a prostorová složitost algoritmů Programovací techniky doc. Ing. Jiří Rybička, Dr. ústav informatiky PEF MENDELU v Brně rybicka@mendelu.cz Hodnocení algoritmů Programovací techniky Časová a prostorová

Více

Ing. Alena Šafrová Drášilová, Ph.D.

Ing. Alena Šafrová Drášilová, Ph.D. Rozhodování Ing. Alena Šafrová Drášilová, Ph.D. Rozhodování??? video Obsah typy rozhodování principy rozhodování rozhodovací fáze základní pojmy hodnotícího procesu rozhodovací podmínky rozhodování v podmínkách

Více