5.7 Metody založené na analogii
|
|
- Ludmila Lišková
- před 8 lety
- Počet zobrazení:
Transkript
1 5.7 Metody založené na analogii Případové usuzování (Case-Based Reasoning, CBR), pravidlo nejbližšího souseda (nearest neighbour rule), učení založené na instancích (Instance-Based Learning, IBL), líné učení (lazy learning), pamětové učení (Memory-Based Learning), shlukování (clustering) to všechno jsou metody založené principu analogie: v neznámé situaci použij to řešení, které se osvědčilo v situaci podobné. Znalosti jsou tentokrát reprezentovány v podobě databáze již vyřešených problémů. Ve fázi učení se tedy neprovádí generalizace z příkladů (proto název líné učení). Při usuzování se pak v této databázi hledá nejpodobnější případ, dříve použité řešení někdy musí být adaptováno na novou situaci. Metody založené na analogii lze použít pro deskriptivní úlohy (segmentaci a shlukování) i pro úlohy klasifikační. Podobně jako na jiných místech knihy i zde bude větší důraz kladen na klasifikaci Podobnost mezi příklady Klíčovým pojmem je koncept podobnosti, resp. vzdálenosti, Jak podobnost tak vzdálenost se vyjadřuje pomocí metriky. Metrika je definována jako funkce d: X X R taková, že 1. x 1,x 2 X; d(x 1,x 2 ) 0 2. d(x 1,x 2 ) = 0 x 1 = x 2 3. d(x 1, x 2 ) = d(x 2,x 1 ) 4. x 1,x 2,x 3 X; d(x 1,x 2 ) + d(x 2,x 3 ) d(x 1,x 3 ) Nejpoužívanější metriky již známe z kapitoly o statistických metodách. Jsou to eukleidovská vzdálenost m d E (x 1,x 2 ) = δ E (x 1j,x 2j ), kde δ E (x 1j,x 2j ) = (x 1j - x 2j ) 2 j=1 a Hammingova vzdálenost (v komunitě strojového učení nazývaná Manhattan, nebo city-block) 1 m d H (x 1,x 2 ) = δ H (x 1j,x 2j ), kde δ H (x 1j,x 2j ) = x 1j - x 2j j=1 K nim se (pro kategoriální atributy) řadí ještě metrika překrytí ( overlap ), počítající počet rozdílů v hodnotách stejných atributů m d O (x 1,x 2 ) = δ O (x 1j,x 2j ), kde δ O (x 1j,x 2j ) = j=1 0 pro x 1j = x 1 pro x 1j x 2j 2j 1 V případě, že hodnoty atributů jsou pouze 0 a 1, počítá Hammingova vzdálenost (stejně jako metrika překrytí) počet neshod v hodnotách vzájemně si odpovídajících atributů dvou příkladů. Takto je tato metrika používána například v teorii informace pro měření vzdálenosti dvou kódových slov reprezentovaných bitovými řetězci. 1
2 Podobnost pak můžeme spočítat jako 1/d(x 1,x 2 ) nebo jako 1 - d(x 1,x 2 ). První varianta se používá pro d(x 1,x 2 ) R (nenormalizovaná vzdálenost), druhá varianta se používá pro d(x 1,x 2 ) [0,1] (vzdálenost je normalizována např. tak, že je vydělena vzdáleností mezi dvěma krajními hodnotami definičního oboru). Uvedené metriky trpí některými nedostatky. Liu [Liu, 1996] uvádí tyto dva problémy: 1. na určení podobnosti dvou příkladů se všechny atributy podílejí stejně; to může vést k přeučení systému, 2. měření podobnosti mezi dvěma hodnotami kategoriálního atributu jako shoda/neshoda hodnot (případ metriky překrytí) nedokáže často zachytit složitost a jemné nuance problému. Řešení prvního problému spočívá ve vážení jednotlivých atributů. Při porovnávání hodnot téhož atributu se tedy pracuje s hodnotou δ (x 1i,x 2i ) = w i δ(x 1i,x 2i ). Váhy atributů lze získat od experta, na základě analýzy celých trénovacích dat (např. na základě podmíněné pravděpodobnosti nebo entropie; obě možnosti vyjadřují, jak dobře se atribut hodí pro klasifikaci), nebo inkrementálně na základě výsledku klasifikace pro jeden přiklad (váhy správně fungujících atributů se posilují, váhy špatně fungujících atributů se oslabí podobně jako u neuronových sítí). Podrobněji o této problematice viz [Wettschereck, Aha, 1995]. V extremním případě (w i = 0) lze pomocí vážení provádět selekci atributů. Pro řešení druhého problému se nabízejí složitější metriky. Populární je zejména tzv. Value Difference Metric (VDM) [Stanfill, Waltz, 1986]. Tato metrika bere do úvahy celkovou podobnost příkladů patřících do různých tříd v celé trénovací množině. Nechť počty výskytu jednotlivých hodnot v 1, v 2, v R atributu A pro příklady patřící do tříd C(v 1 ),., C(v S ) ukazuje kontingenční tabulka Tab. 1. C(v 1 ) C(v 2 ). C(v S ) A(v 1 ) a 11 a 12. a 1S r 1 A(v 2 ) a 21 a 22. a 2S r 2 : : : : : : : : : : A(v R ) a R1 a R2. a RS r R s 1 s 2. s S n Tab. 1 Kontingenční tabulka Tedy a kl je četnost (frekvence) kombinace A(v k ) C(v l ), S r k = akl, l=1 R s l = akl, a R S n = akl. k=1 k=1 l=1 2
3 Je-li x 1j = v a a x 2j = v b, potom vzdálenost mezi těmito dvěma hodnotami je 2 S δ( x 1j, x 2j ) = l=1 a al r a a bl r b. Vzdálenost mezi dvěma příklady x 1 a x 2 přitom zůstává m d(x 1,x 2 ) = δ(x 1j,x 2j ). j=1 Modifikace této metriky, Modified Value Difference Metric (MVDM) bere do úvahy i váhy příkladů x 1 a x 2 [Cost, Salzberg, 1993]: m d(x 1,x 2 ) = w x1 w x2 δ(x 1j,x 2j ). j=1 Je-li x 1 nový příklad, který se má klasifikovat a x 2 příklad v databázi, bude w x1 = 1 w x2 = počet použití příkladu x 2 pro klasifikaci počet správných použití příkladu x 2. Váha příkladu x 2 tedy bere do úvahy úspěšnost použití tohoto příkladu při klasifikaci. Jinou možností jak měřit vzdálenost mezi hodnotami kategoriálního atributu je využít hierarchického uspořádání hodnot atributu (pokud takováto hierarchie existuje). Vzdálenost mezi dvěma hodnotami bude v tomto případě dána podílem maxima z hloubky obou hodnot-uzlů v minimálním společném podstromu a hloubky celé hierarchie. Tedy např. pro hierarchii hodnot atributu bydlení uvedenou na Obr. 1 bude δ(vlastní_dům,vlastní_byt)= max(1,1)/2 = 0.5 (kořen minimálního společného podstromu je uzel vlastní) δ(vlastní_byt,družstevní) = max(2,1)/2 = 1 (kořen minimálního společného podstromu je uzel any). any vlastní družstevní nájemní vlastní dům vlastní byt Nájemní byt státní Nájemní byt s majitelem Obr. 1 Hierarchie hodnot atributu bydlení 2 Připomeňme si, že a al /r a je odhad podmíněné pravděpodobnosti P(C(v l ) A(v a )). 3
4 5.7.2 Podobnost mezi časovými řadami a sekvencemi Zajímavým dílčím problémem je otázka, jak měřit podobnost mezi časovými řadami nebo sekvencemi [Gunopulos, Das, 2000]. U dat typu spotřeba elektrické energie, pohyb cen akcií, transakce na účtu klienta, či výskyt poruch v telekomunikační síti, lze využít toho, že nepracujeme s hodnotami různých atributů, ale s jediným atributem, jehož hodnoty sledujeme v průběhu určitého časového období. Nejjednodušší způsob, jak měřit podobnost mezi dvěma časovými řadami téže délky je standardním způsobem použít eukleidovskou metriku. Tento způsob je ovšem velmi citlivý na drobné posuvy v časové ose 3. Proto se pro časové řady používá metoda dynamic time warping provádějící dynamickou deformaci časové osy [Berndt, Clifford, 1996] 4. Místo abychom porovnávali sobě odpovídající vzorky dvou řad, hledáme vzorky, které si jsou nejblíže. Pro uvažované dvě řady hledáme tzv. deformační cestu (warping path) X = x 1, x 2,, x i,, x lx Y = y 1, y 2,, y j,, y ly W = w 1,w 2,, w k,, w K, max(l x,l y ) K < l x + l y + 1 která specifikuje, které vzorky obou řad budeme porovnávat. Nějaká hodnota w k v této cestě je definována jako w k = (i,j) k, tedy jako volba hodnot x i a y j. Přitom musí platit [Keogh, Pazzani, 1999]: hraniční podmínky w 1 = (1,1) a w K = (l x, l y ), spojitost: je-li w k = (i k,j k ), potom w k-1 = (i k-1,j k-1 ), kde i k -i k-1 1 a j k -j k-1 1, monotonicita: je-li w k = (i k,j k ), potom w k-1 = (i k-1,j k-1 ), kde i k -i k-1 0 a j k -j k-1 0. Cílem je nalézt 5 takovou deformační cestu, která bude minimalizovat vzdálenost mezi uvažovanými řadami X a Y počítanou jako k δ E (x ik,y jk ) resp. k δ H (x ik,y jk ). Obr. 3 ukazuje příklad cesty (1,1) (2,2) (2,3) (3,3) (4,4), která přiřadí třetí hodnotu řady Y ke druhé hodnotě řady X. 5 4 Y X Obr. 3 Příklad deformační cesty 3 Připomeňme, že klasické použití této metriky předpokládá, že každý příklad je popsán hodnotami m různých atributů, zde máme jeden atribut, s hodnotami získanými v m časových okamžicích; tyto hodnoty tedy nejsou vzájemně nezávislé. 4 Tato metoda byla původně navržena pro rozpoznávání řeči [Sakoe, Chiba, 1978]. 5 Tato úloha se řeší metodami dynamického programování. 4
5 Jinou možností 6 je transformovat časovou řadu na sekvenci elementárních úseků (např. vzrůst, pokles, beze změny, nebo hrot, sedlo) a pak použít některou z metod pro porovnávání sekvencí. Tyto sekvence mohou mít v zásadě dvojí podobu: sekvence dvojic (elementární úsek, časový okamžik) sekvence elementárních úseků. Vdálenost mezi dvěma sekvencemi můžeme například měřit na základě náročnosti transformace jedné sekvence na druhou. Pro první typ sekvencí definují Mannila a Rokainen ([Manilla, Rokainen, 1997]) tyto transformační operace: operace Ins(e,t) vloží událost e do časového okamžiku t operace Del(e,t) zruší událost e z časového okamžiku t operace Move(e,t,t ) přesune událost e z časového okamžiku t do časového okamžiku t. Každá z uvedených operací op(e,t) je spojena s určitými náklady c(op(e,t)). Vzdálenost mezi dvěma sekvencemi událostí je tedy dána cenou za transformaci jedné sekvence na sekvenci druhou. Tak například ([Manilla, Rokainen, 1997]) vzdálenost mezi sekvencemi je c(x Y) = X = (D,8) (D,12) (A,15) (B,17) (A,20) Y = (D,4) (D,8) (C,15) (B,17) (A,18) (C,20) c(move(d,8,4)) + c(move(d,12,8)) + c(ins(c,15)) + c(del(a,15)) + c(move(a,20,18)) + c(ins(c,20)). V případě, že sekvence je tvořena pouze elementárními úseky, (a lze ji tedy chápat jako posloupnost symbolů) se aspekt času zcela stírá. Operace používané pro transformaci jedné sekvence (řetězce) na druhou jsou pak odstranění symbolu, náhrada symbolu a vložení symbolu. Pokud jsou ceny transformačních operací jednotkové, je vzdálenost mezi sekvencemi dána počtem provedených operací (tzv. Levensteinova vzdálenost) 7. Kdybychom ve výše uvedeném příkladu sekvencí X a Y ignorovali čas, pak transformace X na Y je tvořena kroky nahraď(a,c)vlož(c) a tedy Levensteinova vzdálenost je rovna 2. Podobnost mezi sekvencemi lze rovněž definovat jako délku největšího společného úseku (longest common subsequence LCS) [Gunopulos, Das, 2000]. Přitom se připouští, že v tomto úseku se mohou vyskytovat jiné události. Pro výše uvedené sekvence X a Y (opět bez uvažování časových okamžiků) je LCS(X, Y) = D D B A A tedy podobnost mezi X a Y je 4 (pokud uvažujeme absolutní délku LCS(X, Y) ), případně 4/5 LCS(X, Y) (pokud uvažujeme relativní délku min(l x,l y ) ). 6 Existují samozřejmě další metody pro analýzu resp. transformaci časových řad, vyhlazování časové řady pomocí klouzavého průměru, autoregresní modely nebo Fourierova transformace. 7 Tento způsob se používá například pro porovnávání dvou řetězců DNA. 5
6 5.7.3 Učení založené na instancích Jedním z pionýrů v oblasti učení založeném na instancích (IBL) je David Aha. Vyjděme tedy z jeho popisu tohoto typu učení [Aha a kol., 1991]. Předpokladem použití metod učení založených na instancích je existence: funkce pro měření podobnosti dvou instancí, funkce pro volbu instancí pro uložení do databáze, funkce pro klasifikování nových příkladů. Funkcemi pro měření podobnosti resp. vzdálenosti (metrikami) jsme se podrobněji zabývali v předcházejícím odstavci. Nejpoužívanější funkci pro klasifikování nových případů, pravidlo k- nejbližších sousedů (k-nearest neighbour rule) popisuje odstavec následující. Zde se tedy zaměříme na způsob volby instancí které si systém zapamatuje, tedy uloží do databáze. Aha uvádí následující možnosti postupně implementované v systémech IBx: IB1 systém ukládá každý příklad z trénovacích dat; tato nejjednodušší varianta pracuje dobře i pro příklady zatížené šumem, IB2 systém se nejprve pokusí nový příklad klasifikovat. Pouze chybně zařazené příklady jsou uloženy do databáze. U této varianty dochází k významné redukci počtu ukládaných příkladů, dochází ale k problémům v případě šumu, IB3 systém používá složitější kritérium pro volbu příkladů pro uložení založené na souhrnné správnosti klasifikace. Pro každý příklad v databázi se sleduje, kolikrát se podílel na správné klasifikaci a kolikrát na nesprávné. Systém pak testuje, které příklady jsou dobré klasifikátory (ty ponechá) a které jsou špatné (ty odstraní). Tento postup umožňuje zachovat nízké nároky na paměť systému IB2 při růstu spolehlivosti klasifikace pro zašuměná data. S otázkou ukládání příkladů do databáze úzce souvisí otázka vyhledávání. Sekvenční procházení všech uložených příkladů je (pro rozsáhlá data) časově značně náročné. Jsou-li však k dispozici efektivní indexovací techniky, lze redukovat dobu potřebnou na hledání v této databázi. Příkladem takovéto techniky je použití stromů. V případě k-d stromů jsou nelistové uzly tvořeny atributy, v listech jsou pak seznamy podobných příkladů ([Friedman a kol., 1977]). Tyto stromy se tedy používají pro uchovávání příkladů pro algoritmus k-nejbližších sousedů. K-d stromy byly původně navrženy jako binární stromy pro indexování příkladů popsaných pouze numerickými atributy 8, později byl algortimus pro vytváření k-d stromů rozšířen i pro práci s kategoriálními atributy. V případě algoritmu IGTree (IG zde znamená informační zisk [Daelemans a kol., 1996]) se vytváří strom v jehož listech jsou informace o třídě; lze tedy tento strom použít přímo pro klasifikaci. Na rozdíl od algoritmů pro indukci rozhodovacích stromů se ale neprovádí žádná generalizace. Druhým rozdílem je to, že pořadí atributů pro větvení se pevně stanoví před začátkem tvorby stromu. Atributy jsou uspořádány sestupně podle informačního zisku 9 pro celá trénovací data. V tomto pořadí se pak vybírají pro větveni; maximální hloubka stromu je tedy dána počtem atributů a pro uzly ve stejné 8 Při větvení se tedy provádí binarizace. 9 Tedy podle kritéria, které navrhl Quinlan pro volbu atributu v případě indukce rozhodovacích stromů (viz příslušná kapitola). 6
7 hloubce se pro větvení použije tentýž atribut. Ke každému uzlu je navíc přířazena majoritní (default) třída. Při tvorbě stromu se rovněž provádí komprese dat. Příklady nejsou uloženy v plné podobě: ukládají se pouze hodnoty těch atributů, které umožní klasifikovat příklady v daném uzlu. Odlišnosti mezi k-d stromy, IGTree a rozhodovacími stromy ilustruje jednoduchý příklad převzatý z [Daelemans a kol., 1996] (Obr. 4). Quinlanův algoritmus C4.5 zde zastupuje algoritmy TDIDT. Pro uvedená data je informační zisk (pro celá data) atributu počet_otvorů rovný 1.1, informační zisk atributu tvar rovný 0.9 a informační zisk atributu velikost rovný Obr. 4 Rozdíl mezi rozhodovacím stromem (C4.5), k-d stromem a IGTree 7
8 5.7.4 Nejbližší soused Nejblíže ke statistickému pojetí má metoda nejbližšího souseda, resp. K-nejbližších sousedů (Knearest neighbour rule). K dříve uvedeným základním principům využití analogie ve fázi učení se neprovádí generalizace klasifikace se provádí na základě podobnosti se zde řadí ještě třetí princip příklady jsou chápány jako body v n-rozměrném prostoru atributů. Základní podobu algoritmu uvádí Obr. 5 ([Mitchell, 1997]). Ve fázi učení si systém zapamatuje všechny příklady [x k, y k ] z trénovací množiny. Ve fázi klasifikace se pro nový příklad x nalezne (za použití zvolené metriky) K nejbližších příkladů, které pak hlasují o zařazení příkladu x do třídy. Algoritmus k-nn Učení 1. Pro každý příklad [x i, y i ] zařaď [x i, y i ] do báze příkladů Klasifikace 1. Pro nový příklad x 1.1. Najdi x 1, x 2, x K K nejbližších příkladů z báze příkladů 1.2. Přiřaď K K j k i k, i k=1 k=1 y = y j δ(y, y ) = max δ(y, y ) kde δ(y i,y k ) = 1 pro y i =y k, jinak δ(y i,y k ) = 0 Obr. 5 Algoritmus K-nejbližších sousedů Uvedený algoritmus předpokládá, že cílový atribut je kategoriální, jinými slovy, klasifikujeme příklady do konečného počtu tříd. V případě, že cílový atribut je numerický, počítáme místo nejčastější hodnoty cílového atributu hodnotu průměrnou: ŷ = 1 K K y k. k=1 V obou případech (diskretní třídy i třídy spojité) má každý z K příkladů rovný hlas. To je sice demokratické, ale někdy neefektivní. Proto se používá vážené hlasování (resp. vážený průměr). Jeden příklad vážení příkladů jsme již uvedli v předcházející podkapitole u MVDM, jinou možností je volit váhu příkladu x i v bázi jako kde d(x x,x i ) je vzdálenost obou příkladů. w i = 1 d(x,x i ) 2 8
9 Pokud budeme uvedeným algoritmem na základě trénovacích dat z našeho příkladu o úvěrech klasifikovat nového klienta s charakteristikami Přijem = Konto = Pak při použití eukleidovské vzdálenosti a pro parametr K=1 bude závěr klasifikace úvěr(ano), protože posuzovaný klient má nejblíže ke klientovi k5 (Tab. 2). klient příjem konto úvěr vzdálenost příkladu k ne k ne k ano k ne k ano k ano k ne k ano k ano k ano k ano k ano Tab. 2 Klasifikace nového příkladu podle jednoho nejbližšího souseda V případě velkého množství příkladů, což je situace typická při dobývání znalostí z databází, ale nelze uvažovat o uložení všech příkladů. Neobejdeme se tedy ve fázi učení bez generalizace. Jednotlivé třídy pak budou reprezentovány centroidy, tak, jak to bylo zmíněno v kapitole o statistických metodách. V nejjednodušším případě budou hodnoty atributů pro centroid reprezentující určitou třídu dán průměrnými hodnotami atributů pro příklady této třídy. Tímto způsobem získáme pro naše data dva centroidy: C(ano): příjem = 14250, konto = C(ne): příjem = 5000, konto = Pro eukleidovskou vzdálenost se při klasifikaci trénovacích dat podle těchto centroidů dopustíme tří chyb (v Tab. 3 vyznačeno tučně). klient příjem konto úvěr vzdálenost od C(ano) vzdálenost od C(ne) výsledek klasifikace k ne ne k ne ne k ano ne k ne ne k ano ne k ano ano k ne ano k ano ano k ano ano k ano ano k ano ano k ano ano Tab. 3 Klasifikace trénovacích dat podle centroidů průměrů 9
10 To ale neznamená, že neexistují centroidy použitelné pro bezchybnou klasifikaci našich dat. Vzhledem k tomu, že data jsou lineárně separabilní (viz kapitola o neuronových sítích), mohou jako centroidy posloužit každé dva body v prostou atributů, které budou osově souměrné podle rozdělující přímky 10. Tedy například C(ano): příjem = 15000, konto = C(ne): příjem = 5000, konto = Polohu těchto centroidů v prostoru atributů ilustruje Obr. 6. Výsledky klasifikace pomocí těchto centroidů pak ukazuje Tab. 4. Obr. 6 Poloha centroidů klient příjem konto úvěr vzdálenost od C(ano) vzdálenost od C(ne) výsledek klasifikace k ne ne k ne ne k ano ano k ne ne k ano ano k ano ano k ne ne k ano ano k ano ano k ano ano k ano ano k ano ano Tab. 4 Klasifikace trénovacích dat podle centroidů osově souměrných bodů 10 Reprezentace dvou lineárně separabilních tříd pomocí jedné lineární diskriminační funkce je tedy ekvivalentní reprezentaci pomocí dvou centroidů symetrických podle této funkce. V případě tříd, které nejsou lineárně separabilní je třeba jednu třídu reprezentovat více centroidy (viz kapitola o statistice). 10
11 5.7.5 Případové usuzování To, čím se případové usuzování (Case-Based Reasoning, CBR) odlišuje od metody nejbližšího souseda a učení na základě instancí je skutečnost, že jednotlivé příklady již nelze chápat jako body v prostoru atributů. Popis případů má charakter složitých struktur, často rámců, tak jak to ukazuje příklad na Obr. 7 (převzato z [Watson, Marir, 1994]). Takto složitá reprezentace vyžaduje složitější metody ukládání (indexování) i měření podobnosti. Základní schéma případového usuzování lze charakterizovat jako 4R [Aamodt, Plaza, 1994]: retrieve najdi nejpodobnější případy, reuse použij tyto případy pro řešení aktuálního problému, revise v případě nutnosti reviduj navržené řešení, retain uchovej nové řešení jako součást nového případu. BEGIN CASE CASE11 TITLE Zásobník inkoustu je poškozen, způsobuje černé skvrny. DESCRIPTION Malé kulaté černé skvrny se objevují na přední nebo zadní straně papíru. Občas se objeví velké nesouvislé skvrny. QUESTIONS Máte problémy s kvalitou tisku? ANSWER: ano SCORING: (-) Jaká je kvalita tisku? ANSWER: černé skvrny SCORING: (default) Pomohlo vyčištění tiskárny? ANSWER: ne SCORING: (default) ACTIONS Zkontrolujte zásobník a vyměnte ho, je-li v něm málo náplně nebo je-li poškozen BROWSE TEXT CREATION 29/7/91 14:19:22 LAST_UPDATE 29/7/91 14:19:22 LAST_USED 29/7/91 14:19:22 STATUS ACTIVE END CASE Obr. 7 Reprezentace případu v systému CBR-Express 11
12 Případové usuzování (Case-Based Reasoning) se objevuje jako alternativa k usuzování založenému na pravidlech (Rule-Based Reasoning) počátkem 80. let. Systémy případového usuzování jsou založeny na představě, že expert se v neznámé situaci rozhoduje na základě podobnosti s již dříve řešenými (a vyřešenými) případy a nikoliv na základě soustavy pravidel. Tento postup odpovídá např. anglosaskému pojetí práva založenému na precedentech 11. CBR systémy soutěží o přízeň uživatelů s expertními a znalostními systémy. Vzhledem k tomu, že znalosti jsou tentokráte reprezentovány jako soubor typických příkladů, je vytvoření CBR aplikace podstatně rychlejší než tvorba klasického znalostního systému. Problém získávání znalostí se zde transformuje na problém získávání případů. Klíčovou otázkou je zde volba vhodných příkladů, které dostatečně dobře pokrývají zvolenou oblast expertízy. To se dosti obtížně určuje jednorázově; tvorba (plnění) systému je opět iterativní proces. Některé systémy proto mají schopnost doučovat se. Jestliže konzultovaná situace neodpovídá žádnému případu z databáze, vyžádá se závěr od experta a vyřešený případ se zařadí do databáze jako nová znalost. CBR systémy mohou být budovány na základě dat (data driven) nebo na základě zkušeností experta (experience driven). V prvním případě pozorujeme zřejmou vazbu na dobývání znalostí (výše uvedené metody IBL). Ovšem i ve druhém případě, kdy se ve velké míře využívají znalosti experta, lze těžit z metod dobývání znalostí. Někteří autoři uvádějí, že propojení metod dobývání znalostí a případového usuzování v sekvenci databáze dobývání znalostí případové usuzování uživatel umožní překlenout propast mezi databázemi obsahujícími množství málo srozumitelných dat a koncovým uživatelem. Případové usuzování v tomto pojetí umožní v databázi zkušeností nalézt data relevantní pro danou rozhodovací situaci, metody dobývání znalostí pak přispívají k naplňování této databáze ([Aamodt a kol., 1998]) Systémy IBL Algoritmus K-NN můžeme nalézt mimo jiné v systémech Clementine a Weka. Systém TiMBL z University v Tilburgu implementuje řadu zde popisovaných IBL technik. Používá např. vážení atributů na základě informačního zisku a MVDM metriku pro porovnávání dvou kategoriálních hodnot. Systém uchovává reprezentaci trénovacích dat v paměti a klasifikuje nové příklady na základě extrapolace z nejpodobnějších případů. Proces klasifikace je optimalizován s využitím indexování pomocí IGTree. Systém lze nalézt na Jiným příkladem je PEBLS, systém pro práci s kategoriálními atributy založený na pravidle nejbližšího souseda s využitím metriky MVDM [Cost, Salzberg, 1993]. Systém je volně dostupný na ftp://condor.cs.jhu.edu/pub/pebls. K aplikacím tohoto systému patří predikce struktury proteinů a identifikace vybraných sekvencí v DNA. 11 Aplikace v právnické oblasti ostatně patří mezi nejrozšířenější příklady použití systémů CBR. 12
13 Literatura: [Aamodt, Plaza, 1994] Aamodt,A. Plaza,E.: Case-based reasoning: foundational issues, methodological variations and system approaches. AI Communications, 7(1), 1994, [Aamodt a kol., 1998] Aamodt,A. Sandtorv,H.A. Winnem,O.M.: Combining case based reasoning and data mining a way of revealing and reusing RAMS experience. In: Proc. Safety and Reliability ESREL 98, 1998, [Aha a kol., 1991] Aha,D.W. - Kibler,D., - Albert, M. K.: Instance-based learning algorithms. Machine Learning, 6, 1991, [Berndt, Clifford, 1996] Berndt,D. Clifford,J.: Finding Patterns in Time Series: A Dynamic Programming Approach. In: Fayyad et al. Advances in Knowledge Discovery and Data Mining. AAAI Press/MIT Press, 1996, [Cost, Salzberg, 1993] Cost,S. - Salzberg,S.: A weighted nearest neighbor algorithm for learning with symbolic features, Machine Learning, 10:1, (1993), [Daelemans a kol., 1996] Daelemans,W. - van den Bosch,A. Weijters,T.: IGTree: Using trees for compression and classification in lazy learning algorithms. In: D. Aha (ed.) Artificial Intelligence Review, special issue on Lazy Learning, [Friedman a kol., 1977] Friedman,J. Bentley,J. Finkel,A.R.: An algorithm for finding best matches in logaritmic expected time. ACM Transactions on Mathematical Software, 3(3), [Gunopulos, Das, 2000] Gunopulos,D. - Das,G.: Time Series Similarity Measures. KDD2000 tutorial, [Keogh, Pazzani, 1999] Keogh,E. - Pazzani,M.: Scaling up Dynamic Time Warping to Massive Datasets. In: (Zytkow, Rauch, eds.) Proc. European Konf. On Priniples and Practice of KDD PKDD 99, Springer, 1999, [Kolodner, 1993] Kolodner, J.: Case-Based Reasoning. Morgan Kaufman, [Liu, 1996] Liu,W.Z.: An integrated approach for different attribute types in nearest neighbour classification. The Knowledge Engineering Review, Vol. 11:3, 1996, [Manilla, Rokainen, 1997] Manilla,H. - Rokainen,P.: Similarity of Event Sequences. In: Proc. 4 th Workshop on Temporal Representation and Reasoning TIME 97, [Mitchell, 1997] Mitchell,T.: Machine Learning. McGraw-Hill ISBN [Sakoe, Chiba, 1990] Sakoe,H. - Chiba,S.: Dynamic Programming Algorithm Optimization For Spoken Word Recognition IEEE Trans. Acoustics, Speech and Signal Proc., Vol. ASSP-26, 1978, [Stanfill, Waltz, 1986] Stanfill,C. Waltz,D.: Towards memory-based reasoning. Communications of the ACM 29 (12), 1986, [Watson, Marir, 1994] Watson,I. Marir,F.: Case-based reasoning: An review. The Knowledge Engineering Review, Vol. 9:4, 1994, [Wettschereck, Aha, 1995] Wettschereck,D. - Aha,D.: Weighting features. In Proc. 1 st Int. Conf. on Case-Based Reasoning, Springer,
Metody založené na analogii
Metody založené na analogii V neznámé situaci lze použít to řešení, které se osvědčilo v situaci podobné případové usuzování (Case-Based Reasoning CBR) pravidlo nejbližšího souseda (nearest neighbour rule)
VíceInstance based learning
Učení založené na instancích Instance based learning Charakteristika IBL (nejbližších sousedů) Tyto metody nepředpokládají určitý model nejsou strukturované a typicky nejsou příliš užitečné pro porozumění
VíceÚloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
VíceModerní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
VíceKybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.
VíceObsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011
Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých
VíceANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz III. PŘÍZNAKOVÁ KLASIFIKACE - ÚVOD PŘÍZNAKOVÝ POPIS Příznakový obraz x zpracovávaných
VíceAlgoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.
Více5.1 Rozhodovací stromy
5.1 Rozhodovací stromy 5.1.1 Základní algoritmus Způsob reprezentování znalostí v podobě rozhodovacích stromů je dobře znám z řady oblastí. Vzpomeňme jen nejrůznějších klíčů k určování různých živočichů
VíceStrojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
VíceStatistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
VíceKatedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
VíceDolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
VíceLineární klasifikátory
Lineární klasifikátory Lineární klasifikátory obsah: perceptronový algoritmus základní verze varianta perceptronového algoritmu přihrádkový algoritmus podpůrné vektorové stroje Lineární klasifikátor navrhnout
VíceDatové struktury 2: Rozptylovací tabulky
Datové struktury 2: Rozptylovací tabulky prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy
VíceNěkteré potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze
Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3,
VíceZískávání dat z databází 1 DMINA 2010
Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
VíceIng. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
VíceMetody odvozování. matematická východiska: logika, Prolog
Metody odvozování matematická východiska: logika, Prolog psychologická východiska: rámce biologická východiska: konekcionismus, neuronové sítě statistická východiska: kauzální (bayesovské) sítě ekonomická
VíceAVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny
VíceDOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z
VíceMatematika pro informatiky
(FIT ČVUT v Praze) Konvexní analýza 13.týden 1 / 1 Matematika pro informatiky Jaroslav Milota Fakulta informačních technologíı České vysoké učení technické v Praze Letní semestr 2010/11 Extrémy funkce
VíceUčící se klasifikátory obrazu v průmyslu
Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VíceANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.
VíceSupport Vector Machines (jemný úvod)
Support Vector Machines (jemný úvod) Osnova Support Vector Classifier (SVC) Support Vector Machine (SVM) jádrový trik (kernel trick) klasifikace s měkkou hranicí (soft-margin classification) hledání optimálních
VíceAutomatické vyhledávání informace a znalosti v elektronických textových datech
Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická
VíceZískávání znalostí z dat
Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace
VíceVyužití metod strojového učení v bioinformatice David Hoksza
Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace
VíceDATA MINING KLASIFIKACE DMINA LS 2009/2010
DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných
VíceMetody analýzy dat I. Míry a metriky - pokračování
Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:
Více5.5 Evoluční algoritmy
5.5 Evoluční algoritmy Jinou skupinou metod strojového učení, které vycházejí z biologických principů, jsou evoluční algoritmy. Zdrojem inspirace se tentokrát stal mechanismus evoluce, chápaný jako Darwinův
VíceRozhodovací pravidla
Rozhodovací pravidla Úloha klasifikace příkladů do tříd. pravidlo Ant C, kde Ant je konjunkce hodnot atributů a C je cílový atribut A. Algoritmus pokrývání množin metoda separate and conquer (odděl a panuj)
VíceMETODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ
VíceVícerozměrné statistické metody
Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o
VícePravděpodobně skoro správné. PAC učení 1
Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného
VíceUmělá inteligence a rozpoznávání
Václav Matoušek KIV e-mail: matousek@kiv.zcu.cz 0-1 Sylabus předmětu: Datum Náplň přednášky 11. 2. Úvod, historie a vývoj UI, základní problémové oblasti a typy úloh, aplikace UI, příklady inteligentních
VíceProjekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
VíceÚvod do optimalizace, metody hladké optimalizace
Evropský sociální fond Investujeme do vaší budoucnosti Úvod do optimalizace, metody hladké optimalizace Matematika pro informatiky, FIT ČVUT Martin Holeňa, 13. týden LS 2010/2011 O čem to bude? Příklady
Více8. Strojové učení. Strojové učení. 16. prosince 2014. Václav Matoušek. 8-1 Úvod do znalostního inženýrství, ZS 2014/15
Strojové učení 16. prosince 2014 8-1 Klasifikace metod strojového učení podle vynaloženého úsilí na získání nových znalostí Učení zapamatováním (rote learning, biflování) Pouhé zaznamenání dat nebo znalostí.
VíceÚloha ve stavovém prostoru SP je <s 0, C>, kde s 0 je počáteční stav C je množina požadovaných cílových stavů
Stavový prostor a jeho prohledávání SP = formalismus k obecnějšímu uchopení a vymezení problému, který spočívá v nalezení posloupnosti akcí vedoucích od počátečního stavu úlohy (zadání) k požadovanému
VícePokročilé neparametrické metody. Klára Kubošová
Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení
VícePokročilé operace s obrazem
Získávání a analýza obrazové informace Pokročilé operace s obrazem Biofyzikální ústav Lékařské fakulty Masarykovy univerzity Brno prezentace je součástí projektu FRVŠ č.2487/2011 (BFÚ LF MU) Získávání
VíceKlasifikace předmětů a jevů
Klasifikace předmětů a jevů 1. Úvod Rozpoznávání neboli klasifikace je základní znak lidské činnosti. Rozpoznávání (klasifikace) předmětů a jevů spočívá v jejich zařazování do jednotlivých tříd. Třídou
VíceKapitola 1. Signály a systémy. 1.1 Klasifikace signálů
Kapitola 1 Signály a systémy 1.1 Klasifikace signálů Signál představuje fyzikální vyjádření informace, obvykle ve formě okamžitých hodnot určité fyzikální veličiny, která je funkcí jedné nebo více nezávisle
VíceOdečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý
Odečítání pozadí a sledování lidí z nehybné kamery Ondřej Šerý Plán Motivace a popis úlohy Rozdělení úlohy na tři části Detekce pohybu Detekce objektů Sledování objektů Rozbor každé z částí a nástin několika
VíceDobývání dat a strojové učení
Dobývání dat a strojové učení Dobývání znalostí z databází (Knowledge discovery in databases) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns
VíceAnalýza dat pomocí systému Weka, Rapid miner a Enterprise miner
Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování
VíceChybějící atributy a postupy pro jejich náhradu
Chybějící atributy a postupy pro jejich náhradu Jedná se o součást čištění dat Čistota dat je velmi důležitá, neboť kvalita dat zásadně ovlivňuje kvalitu výsledků, které DM vyprodukuje, neboť platí Garbage
VíceGlobální matice konstrukce
Globální matice konstrukce Z matic tuhosti a hmotnosti jednotlivých prvků lze sestavit globální matici tuhosti a globální matici hmotnosti konstrukce, které se využijí v řešení základní rovnice MKP: [m]{
VíceMBI - technologická realizace modelu
MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,
VíceBinární soubory (datové, typované)
Binární soubory (datové, typované) - na rozdíl od textových souborů data uložena binárně (ve vnitřním tvaru jako v proměnných programu) není čitelné pro člověka - všechny záznamy téhož typu (může být i
VíceNeuronové časové řady (ANN-TS)
Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci
VíceUČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
VíceAlgoritmy a struktury neuropočítačů ASN - P11
Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova
VíceGIS Geografické informační systémy
GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Převody geometrií Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu
VíceBinární vyhledávací stromy pokročilé partie
Binární vyhledávací stromy pokročilé partie KMI/ALS lekce Jan Konečný 30.9.204 Literatura Cormen Thomas H., Introduction to Algorithms, 2nd edition MIT Press, 200. ISBN 0-262-5396-8 6, 3, A Knuth Donald
Více1. Data mining. Strojové učení. Základní úlohy.
1... Základní úlohy. Učení s učitelem a bez učitele. Petr Pošík Katedra kybernetiky ČVUT FEL P. Pošík c 2010 Aplikace umělé inteligence 1 / 36 Obsah P. Pošík c 2010 Aplikace umělé inteligence 2 / 36 Co
VíceLineární diskriminační funkce. Perceptronový algoritmus.
Lineární. Perceptronový algoritmus. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics P. Pošík c 2012 Artificial Intelligence 1 / 12 Binární klasifikace
VícePřednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
VíceWhale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le
Whale detection Brainstorming session Jiří Dutkevič Lenka Kovářová Milan Le Signal processing, Sampling theorem Spojitý signál může být nahrazen diskrétní posloupností vzorků, aniž by došlo ke ztrátě informace,
VíceProjekt LISp-Miner. M. Šimůnek
Projekt LISp-Miner http://lispminer.vse.cz M. Šimůnek Obsah Systém LISp-Miner Vývoj systému v dlouhém období ETree-Miner Project LISp-Miner 2 Systém LISp-Miner Metoda GUHA (od roku 1966) předchozí implementace
VíceDobývání a vizualizace znalostí
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich
VíceGIS Geografické informační systémy
GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Převody geometrií Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu
VíceDijkstrův algoritmus
Dijkstrův algoritmus Hledání nejkratší cesty v nezáporně hranově ohodnoceném grafu Necht je dán orientovaný graf G = (V, H) a funkce, která každé hraně h = (u, v) H přiřadí nezáporné reálné číslo označované
VíceUnstructured data pre-processing using Snowball language
Unstructured data pre-processing using Snowball language Předzpracování nestrukturovaných dat pomocí jazyka Snowball Bc. Pavel Řezníček, doc. Ing. František Dařena, PhD., Ústav informatiky, Provozně ekonomická
VíceU Úvod do modelování a simulace systémů
U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení
VíceStátnice odborné č. 20
Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin
Vícepřetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat
Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního
VíceKOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.
1/25 KOMPRESE OBRAZŮ Václav Hlaváč, Jan Kybic Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac KOMPRESE OBRAZŮ, ÚVOD
VíceNásledující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen
11. Klasifikace V této kapitole se seznámíme s účelem, principy a jednotlivými metodami klasifikace dat, jež tvoří samostatnou rozsáhlou oblast analýzy dat. Klasifikace umožňuje určit, do které skupiny
VícePopisná statistika kvantitativní veličiny
StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali
VíceStromy, haldy, prioritní fronty
Stromy, haldy, prioritní fronty prof. Ing. Pavel Tvrdík CSc. Katedra počítačů FEL České vysoké učení technické DSA, ZS 2008/9, Přednáška 6 http://service.felk.cvut.cz/courses/x36dsa/ prof. Pavel Tvrdík
VíceVyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 21. září 2018 Jiří Dvorský (VŠB TUO) Vyhledávání 242 / 433 Osnova přednášky
VíceVšechno, co jste kdy chtěli vědět o maticích, ale báli jste se zeptat
Všechno, co jste kdy chtěli vědět o maticích, ale báli jste se zeptat Čtvercová matice n n, např. může reprezentovat: A = A A 2 A 3 A 2 A 22 A 23 A 3 A 32 A 33 matici koeficientů soustavy n lineárních
VíceEvoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi
Evoluční algoritmy Použítí evoluční principů, založených na metodách optimalizace funkcí a umělé inteligenci, pro hledání řešení nějaké úlohy. Populace množina jedinců, potenciálních řešení Fitness function
VíceStrojové uení. typy učení: Metody učení: učení se znalostem (knowledge acquisition) učení se dovednostem (skill refinement).
Strojové uení typy učení: učení se znalostem (knowledge acquisition) učení se dovednostem (skill refinement). volba reprezentace u ení u ení znalosti rozhodování objekt popis rozhodování rozhodnutí objektu
VíceText Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha
Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace
VíceMetody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka
Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce
VíceAlgoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
VíceAlgoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu
VíceÚvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
VícePokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační
VíceŘešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:
Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti: Postup: I) zvolení metriky pro výpočet vzdáleností dvou bodů II) zvolení metriky pro určení vzdálenosti mezi dvěma množinami
VíceFaculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague
1 / 23 Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 2 / 23 biologové často potřebují najít často se opakující sekvence DNA tyto sekvence bývají relativně krátké,
Více1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017
Znalostní systémy úvodní úvahy a předpoklady 26. září 2017 1-1 Znalostní systém Definice ZS (Feigenbaum): Znalostní (původně expertní) systémy jsou počítačové programy simulující rozhodovací činnost experta
Více2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení
2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků
VíceDobývání a vizualizace znalostí. Olga Štěpánková et al.
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu Dobývání znalostí - popis a metodika procesu CRISP a objasnění základních pojmů Nástroje pro modelování klasifikovaných dat a jejich
VíceJana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
VíceAnalytické procedury v systému LISp-Miner
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální
Více7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
VíceKlasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn]
Klasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn] Michal Houdek, Tomáš Svoboda, Tomáš Procházka 6. června 2001 1 Obsah 1 Úvod 3 2 Definice a postup klasifikace 3 3 Příklady
VíceFOURIEROVA ANAL YZA 2D TER ENN ICH DAT Karel Segeth
FOURIEROVA ANALÝZA 2D TERÉNNÍCH DAT Karel Segeth Motto: The faster the computer, the more important the speed of algorithms. přírodní jev fyzikální model matematický model numerický model řešení numerického
VíceJasové transformace. Karel Horák. Rozvrh přednášky:
1 / 23 Jasové transformace Karel Horák Rozvrh přednášky: 1. Úvod. 2. Histogram obrazu. 3. Globální jasová transformace. 4. Lokální jasová transformace. 5. Bodová jasová transformace. 2 / 23 Jasové transformace
VíceČasová a prostorová složitost algoritmů
.. Časová a prostorová složitost algoritmů Programovací techniky doc. Ing. Jiří Rybička, Dr. ústav informatiky PEF MENDELU v Brně rybicka@mendelu.cz Hodnocení algoritmů Programovací techniky Časová a prostorová
VíceIng. Alena Šafrová Drášilová, Ph.D.
Rozhodování Ing. Alena Šafrová Drášilová, Ph.D. Rozhodování??? video Obsah typy rozhodování principy rozhodování rozhodovací fáze základní pojmy hodnotícího procesu rozhodovací podmínky rozhodování v podmínkách
Více