Katedra kybernetiky, FEL, ČVUT v Praze.
|
|
- Jiří Blažek
- před 6 lety
- Počet zobrazení:
Transkript
1 Symbolické metody učení z příkladů Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze
2 pplán přednášky Zaměření 1: učení z příkladů motivace, formulace problému, prediktivní a deskriptivní modely, Zaměření 2: symbolické metody učení stromové prediktivní modely rozhodovací stromy TDIDT algoritmus, diskretizace, prořezávání, regresní stromy namísto rozhodnutí numerická předpověď, pravidlové prediktivní modely algoritmy AQ, CN2 pravidlové deskriptivní modely asociační pravidla, algoritmus APRIORI.
3 pučení z příkladů motivace Vytváření počítačových programů, které se zdokonalují se zkušeností Typicky na základě analýzy dat, tj. indukcí z příkladů ( X, Y ) s učitelem předpověz Y regrese, klasifikace X bez učitele najdi podobné příznakové vektory shlukování Příklad 1: microarray data najdi geny s podobnou expresí shlukování Příklad 2: digitalizované znaky rozlišuj rukou psaná čísla klasifikace
4 ptypy učení Symbolické strojové učení znalost vyjádřena ve formě symbolických popisů učených konceptů, typicky algoritmy tvořící množiny pravidel zachycující vztah mezi atributy a třídou, tj. nezávislými proměnnými a proměnnou cílovou, propozicionální i relační (induktivní logické programování), konekcionistické učení znalost uchovávána ve formě sítě propojených neuronů s váženými synapsemi a prahovými hodnotami, pravděpodobnostní/statistické učení modelem je např. distribuční funkce nebo funkce pstní hustoty, statistické regresní modely (lineární, logistické), SVMs, další metody např. simulovaná evoluce a genetické algoritmy (analogie s přírodními procesy a darwinistickou teoríı přežití nejsilnějších).
5 prozhodovací stromy Aproximují diskrétní cílovou veličinu Aproximace funkcí reprezentovanou stromem Rozhodovací strom je disjunktem konjunkcí mezi omezeními hodnot atributů Instance klasifikujeme dle hodnot atributů Reprezentace vnitřní uzly testují vlastnosti atributů, větve odpovídají možným hodnotám, listy přiřazují klasifikaci, tj. konkrétní hodnotu cílové veličiny. (Obloha = Slunečno Vlhkost = Normální) (Obloha = Zataženo) (Obloha = Déšť Vítr = Slabý)
6 phrát tenis/golf? Trénovací příklady. Den Obloha Teplota Vlhkost Vítr Tenis/golf D1 Slunečno Vysoká Vysoká Slabý Ne D2 Slunečno Vysoká Vysoká Silný Ne D3 Zataženo Vysoká Vysoká Slabý Ano D4 Déšť Střední Vysoká Slabý Ano D5 Déšť Nízká Normální Slabý Ano D6 Déšť Nízká Normální Silný Ne D7 Zataženo Nízká Normální Silný Ano D8 Slunečno Střední Vysoká Slabý Ne D9 Slunečno Nízká Normální Slabý Ano D10 Déšť Střední Normální Slabý Ano D11 Slunečno Střední Normální Silný Ano D12 Zataženo Střední Vysoká Silný Ano D13 Zataženo Vysoká Normální Slabý Ano D14 Déšť Střední Vysoká Silný Ne
7 ptdidt indukce shora dolů TDIDT = Top-Down Induction of Decision Trees, konkrétní algoritmus: ID3 (Quinlan, 1986) dáno: S - trénovací množina, A - množina atributů, C - množina tříd, if s S patří do stejné třídy c C then jde o list, označ jej třídou c else jde o uzel, vyber pro něj nejlepší rozhodovací atribut a A (s hodnotami v 1, v 2,..., v n ), rozděl trénovací množinu S na S 1,..., S n podle hodnot atributu a, rekurzivně vytvářej podstromy T 1,..., T n pro S 1,..., S n (přechodem na začátek algoritmu s S = S i ), výsledný strom T je tvořen podstromy T 1,..., T n. který atribut a je nejlepší?
8 pentropie S vzorek trénovacích příkladů, p + (p ) je zastoupení pozitivních (negativních) příkladů v S zastoupení = relativní četnost pravděpodobnost, H(S) informační entropie trénovací množiny nejmenší průměrný počet bitů nutných k zakódování zprávy o třídě libovolného s S, teorie informace kód optimalní délky přiřazuje log 2 p bitů zprávě s pravděpodobností p průměrný počet bitů potřebný k zakódování + nebo náhodného prvku S H(S) = p log 2 p p + log 2 p + obecně pro c různých tříd: H(S) = c C p c log 2 p c
9 pentropie Entropie jako funkce booleovské klasifikace vyjádřené relativní četností pozitivních příkladů četnost negativních příkladů je redundantní informací (p = 1 p + ), entropie je mírou neuspořádanosti v souboru příkladů, ideální rozhodovací nástroj (klasifikátor) minimalizuje neuspořádanost, tj. entropii.
10 pinformační zisk Gain(S, a) nebo IG(S, a) heuristické kritérium očekávaná redukce entropie za předpokladu rozdělení množiny S dle atributu A, míra efektivity atributu pro klasifikaci trénovacích dat, přímé použití entropie, pouze přechod od minimalizačního k maximalizačnímu kritériu Gain(S, a) = Entropy(S) V alues(a) možné hodnoty atributu a, S v - podmnožina S, pro kterou a má hodnotu v, v V alues(a) S v S Entropy(S v) cílem je minimalizovat počet testů nutných k oddělení tříd (homogenizaci), a v důsledku generovat co nejmenší strom.
11 phrát tenis? výpočet zisku V alues(v itr) = {Slaby, Silny} S = [9+, 5 ], E(S) = S slaby = [6+, 2 ], E(S slaby ) = S silny = [3+, 3 ], E(S silny ) = 1.0 Gain(S, V itr) = E(S) 8 14 E(S slaby) 6 14 E(S silny) = = V alues(obloha) = {Slunecno, Zatazeno, Dest} S = [9+, 5 ], E(S) = S slunecno = [2+, 3 ], E(S slunecno ) = S zatazeno = [4+, 0 ], E(S zatazeno ) = 0 S dest = [3+, 2 ], E(S dest ) = Gain(S, Obloha) = E(S) 5 14 E(S slunecno) 5 14 E(S dest) = = 0.246, Gain(S, V lhkost) = 0.151, Gain(S, T eplota) =
12 pdalší heuristiky Informační zisk (Gain, IG) nezohledňuje jak široce a rovnoměrně atribut data děĺı (extrémní příklad: unikátní index), Poměrný zisk (Gain Ratio, GR) využívá doplňkovou informaci o dělení (split information) penalizuje tím atributy jako např. datum SI(S, a) = GR(S, a) = v V alues(a) S v S log 2 Gain(S, a) SI(S, a) další - Gini index, Mantarasova heuristika, heuristiky vážící cenu získání atributu (Nunez) S v S GainCost(S, A) = 2Gain(S,A) 1 (Cost(A) + 1) w w [0, 1] relativní důležitost Cost vs. Gain.
13 pspojité atributy TDIDT založen na dělení do rozumného počtu větví, spojité atributy musí být diskretizovány, kategorizace diskretizačních přístupů s učitelem vs. bez učitele (supervised, unsupervised) využíváme znalost cílové veličiny? globální vs. lokální globální proveď diskretizaci před aplikací učícího se algoritmu na všech datech, lokální diskretizuj průběžně a pouze na aktuálních instancích, výhody a nevýhody: přímý kontext vs. citlivost na šum, práce s diskrétními atributy uvažuje algoritmus uspořádané hodnoty atributů? pokud ne, lze tomu přizpůsobit proces učení převeď každý diskretizovaný atribut (k hodnot) na množinu k-1 binárních atributů, i-tá hodnota diskretizované veličiny = i-1 binárních atr. 0, zbytek 1 TDIDT s učitelem, lokální, diskrétní atributy neuspořádané.
14 pdiskretizace bez učitele stejná šíře intervalů (equal-width binning) děl na intervaly o stejné šířce, šířka=(max-min)/počet intervalů, distribuce instancí může být nerovnoměrná, stejná četnost instancí (equal-depth binning) založeno na rozložení hodnot atributu, někdy nazývána vyrovnáním histogramu uniformní (plochý) histogram, manuální, např. odvozené od histogramu.
15 pdiskretizace s učitelem často založená na entropii např. binarizace definuj (dynamicky) nový booleovský atribut a c je true iff a > c, jediná otázka volba prahové hodnoty c, zvol práh optimalizující IG heuristiku setřiď všechny instance podle a, najdi sousedící příklady lišící se klasifikací, kandidát na c střed mezi příslušnými hodnotami a, zvol nejlepší c.
16 pdiskretizace s učitelem generalizace binarizace = dělení do více intervalů R-binarizace a je použit vícekrát na stejné cestě od kořene k listu stromu. zobecněná binarizace najdi optimální dělení (IG je použit jako hodnotící fce), opakuj až do splnění ukončovací podmínky, ukončovací podmínka? princip minimální délky popisu (minimum description length MDL) nejlepší teorie je ta, která minimalizuje svoji délku současně s délkou zprávy nutnou k popsání výjimek z teorie, nejlepší generalizace je ta, která minimalizuje počet bitů nutných ke komunikaci generalizace a všech příkladů, z nichž je vytvořena. diskretizace založená na chybovosti (namísto entropie) minimalizuje počet chyb, snadno se počítá ale nelze dosáhnout sousedních intervalů se stejnou třídou (označením).
17 ppoznámky k tvorbě DT a ID3 Jak obtížné je nalézt optimální strom? uvažujme m instancí popsaných n binárními atributy optimalita strom minimalizuje počet testů = uzlů jde o NP-úplný problém pro algoritmus bez orákula hypotézový prostor roste superexponenciálně s počtem atributů, nelze prohledávat úplně, je třeba řešit heuristicky/lokálním prohledáváním, Hladové prohledávání žádné zpětné řetězení při prohledávání, TDIDT/ID3 udržuje jedinou průběžnou hypotézu, nutně konverguje pouze k lokálnímu optimu, ID3 strategie upřednostňuje menší stromy před většími jak? atributy s vysokým IG jsou bĺıže ke kořeni, induktivní zaujetí Occamova břitva Plurality should not be assumed without necessity. or KISS: Keep it simple, stupid. nejjednodušší strom pravděpodobně nebude obsahovat neužitečná omezení, tj. testy.
18 pprořezávání DT Přeučení (overfitting) DT složité stromy odrážející singularity v trénovacích datech, statistická volba atributů při stavbě stromu zajišťuje robustnost vůči šumům přesto může být omezující rozklad na zcela homogenní podmnožiny příkladů, řešení: prořezávání (pruning), prahové prořezávání jednoduše zdola nahoru definuj prahovou přesnost ac 0, if ac = 1 e/n > ac 0 then prune, (n = počet příkladů v uzlu, e = počet chyb = počet příkladů z minoritních tříd), prořezávání založené na očekávané chybě aproximuj očekávanou chybu pokud daný uzel N (pokrývající množinu příkladů S) prořízneme Laplaceův odhad chyby: E(S) =, T = počet tříd, e+t 1 n+t aproximuj záložní chybu v následnících N předpokládající, že prořezání neprovedeme BackedUpE(S) = l children(n) p le(s l ), je-li očekávaná chyba menší než záložní chyba prořež N.
19 pvhodné problémy pro DT Instance jsou reprezentovány páry atribut-hodnota (tj. data mají tvar obdélníkové tabulky) ne vždy, viz multirelační data, cílová funkce je diskrétní pro spojité cílové funkce regresní stromy, disjunktivní hypotézy jsou přijatelným výstupem, srozumitelná klasifikace DT = white box, strom rozumné velikosti je přehledný pro lidi, šum a chybějící hodnoty data mohou obsahovat chybné klasifikace a hodnoty atributů, v datech se mohou vyskytnout chybějící hodnoty atributů.
20 pregresní stromy učení se spojitou třídou CART (Breiman, Friedman) v listech hodnoty (namísto ID tříd u DT) standardní odchylka jako chybová míra míra její redukce určuje nejlepší atribut δ err = sd(s) S v v values(a) S sd(s v) CART model mapy ceny domů v Kalifornii, c Carnegie Mellon University, Course , Data Mining
21 pregresní stromy M5 (Quinlan) v listech multivariační lineární modely schopnost extrapolace, model = stromový, po částech lineární další vylepšení nečistota = standardní odchylka z regresního odhadu, lineární model sestavený v uzlu zohledňuje pouze atributy použité v daném podstromu. zjednodušení eliminuj atributy málo vylepšující model prořezávání acc = n + λ 1 n λ n n i=1 f real i f pred i λ... počet parametrů v modelu, f i... hodnota cílové veličiny ve vzorku i, extrémní případ... pouze konstanta (pak shoda s CART), porovnej přesnost lineárního modelu s přesností podstromu, je-li model lepší pak prořež, vyhlazování hodnota predikovaná v listu je přizpůsobena dle odhadů v uzlech na cestě od kořene.
22 pregresní stromy M5 model mapy ceny domů v Kalifornii, WEKA
23 prozhodovací pravidla další metoda aproximace diskrétních cílových veličin, aproximační fce ve tvaru množiny (seznamu) rozhodovacích pravidel, jestliže <podmínka> pak <třída> selektor = jednoduchý test hodnoty atributu, např. <Obloha=Slunečno>, {=,?, >,?} typicky relační operátory, podmínka (complex) = konjunkce selektorů, pravidla mají stejnou expresivitu jako stromy stromy - rozděl a panuj dělení, čistě shora dolů, pravidla - odděl a panuj pokrytí, konstrukce oběma směry.
24 paq algoritmus Michalski algoritmus pro pokrytí množiny dáno: S - trénovací množina, C - množina tříd, c C opakuj S c = P c N c (pozitivní a negativní příklady) bázepravidel(c)={} opakuj {najdi množinu pravidel pro c} R=find-one-rule(P c N c ) (najdi pravidlo pokrývající nějaké pozitivní příklady a žádný negativní příklad) bázepravidel(c)+=r P c -=pokryto(r,p c ), dokud naplatí P c ={} find-one-rule procedura je kritickým krokem, přístup zdola-nahoru generalizace.
25 paq algoritmus find-one-rule zvol náhodně pozitivní příklad (zrno) generuj všechny maximální generalizace zrna pokrývá co nejvíce pozitivních příkladů nepokrývá žádný negativní příklad vyber nejlepší generalizaci (preferenční heuristika) ID a1 a2 a3 Třída 1 x r m + 2 y r n + 3 y s n + 4 x s m - 5 z t n - 6 z r n - zrno 1: příklad 2 if (a1=y) & (a2=r) & (a3=n) then + g1: if (a1=y) then + zrno 2: příklad 1 if (a1=x) & (a2=r) & (a3=m) then + g1: if (a1=x) & (a2=r) then + g2: if (a2=r) & (a3=m) then +
26 pdeskriptivní modely slouží ke zhuštěnému popisu dat, zjednodušeně zachycují obecné závislosti, kategorizace popisných modelů na co se soustředí tvoří globální model dat? vyhledávání dominantních struktur detekce podskupin, segmentace, shlukování, asociace, vyhledávání nugetů, detekce odchylek podvodné operace, síťové útoky, závadné www stránky, jaký typ modelů využívají? pravděpodbnostní modely popis dat pomocí pravděpodobnostního rozdělení, parametrické, neparametrické, směsi rozdělení, symbolické modely data interpretují konceptuálně na základě pojmů a jejich vztahů, grafy, pravidla, taxonomie, logické vazby, charakteristika: zřetelně a lidsky srozumitelně vyjadřují znalost, kombinované modely mj. grafické pstní modely bayesovské sítě, markovské modely, s jakými vstupními daty pracují? číselná data, symbolická data, texty, atributová reprezentace, relační databáze, časová a sekvenční data.
27 ppoužití deskriptivních modelů privátní sektor banky, pojišťovny, obchodní firmy, snížení nákladů, zvýšení prodejů, průzkum trhu, odhalení podvodů, veřejný sektor veřejná správa, lékařství, zpravodajské služby, efektivita, zamezení ztrát a podvodům.
28 pasociační pravidla Association Rules (ARs) Definice jednoduchá tvrzení o spoluvýskytu událostí v datech, pravděpodobnostní charakter nemusí platit vždy, Způsob zápisu a význam if Ant then Suc, alternativní zápis: Ant Suc, antecedent (Ant) a sukcedent (Suc) definují obecné události v datech, událost jasně definovatelný jev, který buď nastává nebo nenastává, z extenzivního popisu (dat) generujeme zhuštěný a přehledný popis znalost. Příklady asociačních pravidel doporučení pro nákup knih (Amazon): {Castaneda: Učení Dona Juana} {Hesse: Stepní vlk & Ruiz: Čtyři dohody} vztah mezi rizikovými faktory a onemocněním v lékařství (Stulong): {pivo 1litr/den & destiláty=0} {not(srdeční onemocnění)}
29 pasociační pravidla pojmy Položky (items): I = {I 1, I 2,..., I m } binární atributy nebo výsledky aplikace relačních operátorů, Transakce (transactions): D = {t 1, t 2,..., t n }, t i I příklady, objekty, Množiny položek (itemsets): {I i1, I i2,..., I ik } I analogie podmínky, současná platnost více položek, Podpora množiny položek: (relativní) četnost transakcí obsahujících danou množinu položek Frekventovaná (velká) množina položek: četnost výskytů dané množiny položek je vyšší než zvolený práh, Asociační pravidlo (AR): implikace Ant Suc, kde Ant, Suc I a Ant Suc =, Podpora (support) AR, s: poměr resp. počet transakcí obsahujících Ant Suc pozn: podpora Ant Suc je stejná jako podpora Ant Suc, Spolehlivost (confidence) AR, α: poměr mezi podporou AR (Ant Suc) a podporou jeho antecedentu (Ant), vždy menší nebo rovna 1.
30 par problém vyhledávání Jsou dány: množina položek I = {I 1, I 2,..., I m }, databáze transakcí D = {t 1, t 2,..., t n } kde t i = {I i1, I i2,..., I ik }, a I ij I, minimální podpora s min, minimální spolehlivost α min. Problém vyhledávání asociačních pravidel: nalézt všechna pravidla Ant Suc s podporou s s min a spolehlivostí α α min. Realizaci lze rozdělit na 2 kroky: najdi všechny frekventované (velké) (pod)množiny položek, generuj z nich pravidla.
31 ppř.: analýza nákupního košíku Cíl: zvýšit prodej a omezit náklady, tj. najdi položky často kupované společně, Transakce t 1 t 2 t 3 t 4 t 5 Položky Chleba, Džem, Máslo Chleba, Máslo Chleba, Mléko, Máslo Pivo, Chleba Pivo, Mléko I = {Pivo, Chleba, Džem, Mléko, Máslo}, Příklad pravidla: Chleba Máslo, Ant={Chleba} {t 1, t 2, t 3, t 4 }, s ant =4/5=80%, Ant Suc={Chleba,Máslo} {t 1, t 2, t 3 }, podpora AR je s=3/5=60%, Spolehlivost AR je α = s/s ant =75%. Další pravidla a jejich parametry: Ant Suc s [%] α [%] Chleba Máslo Máslo Chleba Pivo Chleba Máslo Džem Džem Máslo Džem Mléko 0 0
32 pvyhledávání velkých množin položek krok 1 Úplné prohledávání prostoru množin položek pro m binárních položek existuje 3 m 1 množin položek, pro N atributů, každý z nich má K kategoríı existuje (1 + K) N 1 množin položek, složitost roste exponenciálně s počtem položek (atributů), Algoritmus APRIORI využívá charakteristické vlastnosti velkých množin položek: Každá podmnožina velké množiny položek je velká. my ale postupujeme zdola nahoru od podmnožin k nadmnožinám proto princip kontrapozitivity (přemístění) v logice (p q) ( q p) antimonotónní vlastnost se převádí na monotónní vlastnost, důsledek: Pokud množina položek není velká, žádná z jejích nadmnožin není velká. kandidátské množiny položek potenciálně velké o všech jejich podmnožinách je známo, že jsou velké.
33 pvyhledávání velkých množin položek ilustrace
34 papriori algoritmus [Agrawal et al., 1996] Apriori: C 1 = kandidátské množiny položek velikosti 1 v I; L 1 = velké množiny položek velikosti 1 (podpora s min ); i = 1; repeat i = i + 1; C i = Apriori-Gen(L i 1 ); Počítej podporu C i a vytvoř L i ; until žádná velká množina položek nenalezena (L i = ); L = L i, i Apriori-Gen(L i 1 ): C i = pro dvojice množin položek Comb p, Comb q L i 1 : pokud se shodují v i-2 položkách pak přidej Comb p Comb q do C i pro množiny položek Comb z C i : pokud jakákoli podmnožina Comb o délce i-1 / L i 1 pak odstraň Comb.
35 paplikace APRIORI příklad analýzy nákupního košíku Transakce t 1 t 2 t 3 t 4 t 5 Položky Chleba, Džem, Máslo Chleba, Máslo Chleba, Mléko, Máslo Pivo, Chleba Pivo, Mléko Vstupní parametry: s min =30% (α min =50% bude použito až v dalším kroku) i C i L i 1 {Pivo}, {Chleba}, {Džem} {Pivo}, {Chleba} {Mléko}, {Máslo} {Mléko}, {Máslo} 2 {Pivo, Chleba}, {Pivo, Mléko} {Chleba, Máslo} {Pivo, Máslo}, {Chleba, Mléko} {Chleba, Máslo}, {Mléko, Máslo}
36 pgenerování pravidel z velkých množin položek krok 2 Vstupy: I, D, L, α min ; Výstup: R; % pravidla splňující s min a α min AR-Gen: R = ; pro l L proveď: pro x l taková, že x a x l proveď: jestliže s(l)/s(x) α min, pak R = R {x (l-x)} Příklad analýzy nákupního košíku Vstupní parametry: L={Chleba, Máslo} (generováno pro s min =30%), α min =50% Výstup: R={Chleba Máslo: s=60%, α=75%, Máslo Chleba: s=60%, α=100%}
37 ppř.: průchod studiem Cíl: zjistit, zda skutečný průchod studiem odpovídá předpokladům a doporučením Předměty: RZN (Reprezentace znalostí), PAH (Plánování a hry), VI (Výpočetní inteligence), MAS (Multi-agentní systémy), SAD (Strojové učení a analýza dat), AU (Automatické uvažování) Transakce t 1 t 2 t 3 t 4 t 5 t 6 t 7 t 8 t 9 t 10 Položky RZN VI, SAD, AU PAH, AU PAH, VI, AU PAH, MAS VI, AU PAH, SAD PAH, VI, MAS, AU PAH PAH, VI, AU Transakce t 11 t 12 t 13 t 14 t 15 t 16 t 17 t 18 t 19 t 20 Položky AU RZN, PAH, VI, SAD, AU PAH, VI, MAS, AU VI, SAD, AU PAH, AU SAD, AU RZN, PAH, SAD PAH, VI, MAS, AU PAH PAH, VI, MAS, AU
38 papriori krok s min =20%, resp. 4 i C i L i 1 {RZN}, {PAH}, {VI} {PAH}, {VI}, {MAS} {MAS}, {SAD}, {AU} {SAD}, {AU} 2 {PAH, VI}, {PAH, MAS}, {PAH, SAD} {PAH, VI}, {PAH, MAS} {PAH, AU}, {VI, MAS}, {VI, SAD} {PAH, AU}, {VI, MAS} {VI, AU}, {MAS, SAD}, {MAS, AU} {VI, AU}, {MAS, AU} {SAD, AU} {SAD, AU} 3 {PAH, VI, MAS}, {PAH, VI, AU} {PAH, VI, MAS} {PAH, MAS, AU}, {PAH, SAD, AU} {PAH, VI, AU} {VI, MAS, AU}, {VI, SAD, AU} {PAH, MAS, AU} {MAS, SAD, AU} {VI, MAS, AU} 4 {PAH, VI, MAS, AU} {PAH, VI, MAS, AU} 5
39 par-gen krok α min =80% PAH, VI: PAH VI α=50%, VI PAH α=70% (PAH & VI současně 7krát, PAH 14 krát, VI 10 krát) PAH, MAS: PAH MAS 36%, MAS PAH 100% PAH, AU: PAH AU 57%, AU PAH 57% VI, MAS: VI MAS 40%, MAS VI 80% VI,AU: VI AU 100%, AU VI 71% MAS, AU: MAS AU 80%, AU MAS 29% SAD, AU: SAD AU 66%, AU SAD 29% PAH, VI, MAS: PAH & VI MAS 57%, PAH & MAS VI 80%, VI & MAS PAH 100% PAH, VI, AU: PAH & VI AU 100%, PAH & AU VI 88%, VI & AU PAH 70% PAH, MAS, AU: PAH & MAS AU 80%, PAH & AU MAS 50%, MAS & AU PAH 100% VI, MAS, AU: VI & MAS AU 100%, MAS & AU VI 100%, VI & AU MAS 40% PAH, VI, MAS, AU: PAH & VI & MAS AU 100%, PAH & VI & AU MAS 57%, VI & MAS & AU PAH 100%, PAH & VI MAS & AU 57%, atd.
40 papriori výhody a nevýhody Výhody efektivně využívá monotónní vlastnosti velkých množin položek, obecně stále exponenciální složitost, ale zvládnutelný výpočet při: vhodné volbě s min a α min, řídkých datech (v praxi spíše platí). snadná implementace včetně paralelizace, pro kolerovaná data s velkým počtem velkých množin položek může být dále vylepšen použití zahuštěné reprezentace. Nevýhody předpokládá residentní umístění databáze transakcí v paměti, vyžaduje až m (počet položek) průchodů databází, přístup lze urychlit použitím hashovacích stromů, počet průchodů lze také snížit sloučením dvou následných velikostí do jednoho kroku, za to zaplatíme větším počtem kandidátských množin, ale...
41 pzápis vztahu mezi Ant a Suc čtyřpolní tabulkou Čtyřpolní tabulka = 4-fold table (4FT), a, b, c, d počty transakcí splňujících podmínky. 4FT Suc Suc Ant a b r=a+b Ant c d s=c+d k=a+c l=b+d n=a+b+c+d Ne vždy je spolehlivost smysluplným kvantifikátorem u často platných sukcedentů je implikační charakter spolehlivosti zavádějící, i nezávislé množiny položek vykazují vysokou spolehlivost, příklad čtyřpolní tabulky (s=45%,α=90%, Ant a Suc nezávislé):
42 ppříklady alternativních kvantifikátorů Spolehlivost lze v kroku AR-Gen nahradit libovolnou funkcí nad hodnotami čtyřpolní tabulky: Zdvih (lift, above-average) je míra zlepšení přesnosti defaultní predikce pravé strany (spolehlivost dělená obecným podílem příkladů pokrytých sukcedentem) lift=an/rk Páka (leverage) je podíl příkladů, které jsou pravidlem (tedy Ant i Suc) pokryté dodatečně nad rámec počtu příkladů pokrytých za předpokladu nezávislosti Ant a Suc. leverage=1/n(a-rk/n) Přesvědčivost (conviction) je podobná zdvihu, ale uvažuje příklady nepokryté Suc pravidla, tím pádem musí pracovat s převráceným poměrem uvažovaných četností. conviction=rl/bn s=0.45, α=0.9, zdvih=1, páka=0, přesvědčivost= s=0.01, α=0.91, zdvih=9.09, páka=0.01, přesvědčivost= s=0.45, α=0.9, zdvih=1.8, páka=0.2, přesvědčivost=5
43 pasociační pravidla shrnutí Základní nástroj deskriptivního dolování dat obecně identifikace jakéhokoli častého spoluvýskytu událostí v datech, identifikace podskupin, odhalování skrytých závislostí, extrakce znalostí. Praktické využití nejenom analýza nákupního košíku!!! obecně jakákoli data atributového typu lékařství, průmyslová měření, časo-prostorová data,..., nutností je pouze transakční převod dat, tj. přechod na binární atributy nejčastěji dichotomizací (postupným tříděním do 2 skupin), pro numerické veličiny navíc diskretizací, v úvahu připadá i kódování (minimalizuje počet položek, ale snižuje přehlednost výstupu), př. atribut teplota ve st. Celsia diskretizace: {(-,0 nízká, (0,15 střední, (15, ) vysoká}, dichotomizace: {i 1 t=nízká, i 2 t=střední, i 3 t=vysoká},
44 pdoporučené doplňky zdroje přednášky Mařík & kol.: Umělá inteligence. díl I., kapitola Strojové učení, díl IV., kapitola 11., Strojové učení v dobývání znalostí, Berka: Dobývání znalostí z databází. kniha Academia, široký přehled, Quinlan: Induction of Decision Trees. starší článek (1986) s příkladem z přednášky, Quinlan.pdf, Agrawal, Srikant: Fast Algorithms for Mining Association Rules. asociační pravdila, APRIORI algoritmus, rakesh.agrawal-family.com/papers/vldb94apriori.pdf.
Katedra kybernetiky, FEL, ČVUT v Praze.
Symbolické metody učení z příkladů Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz pplán přednášky Zaměření 1: učení z příkladů motivace, formulace problému, prediktivní a deskriptivní
Katedra kybernetiky, FEL, ČVUT v Praze.
Strojové učení a dolování dat přehled Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz posnova přednášek Přednáška Učitel Obsah 1. J. Kléma Úvod do předmětu, učení s a bez učitele.
Asociační pravidla. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p
Asociační pravidla Informační a komunikační technologie ve zdravotnictví Definice pojmů Stavový prostor S je množina uzlů(stavů), kde cílem je najít stav splňující danou podmínku g. Formálně je problém
Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.
Dolování asociačních pravidel
Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních
Základy vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
Asociační i jiná. Pravidla. (Ch )
Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo
Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009. Filip Železný (ČVUT) Vytěžování dat 9.
Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009 Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 1 / 22 Rozhodovací pravidla Strom lze převést
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
Moderní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
Rozhodovací pravidla
Rozhodovací pravidla Úloha klasifikace příkladů do tříd. pravidlo Ant C, kde Ant je konjunkce hodnot atributů a C je cílový atribut A. Algoritmus pokrývání množin metoda separate and conquer (odděl a panuj)
Tvorba asociačních pravidel a hledání. položek
Tvorba asociačních pravidel a hledání častých skupin položek 1 Osnova Asociace Transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla Aplikace 2 Asociace Nechť I je množina položek.
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
Pokročilé neparametrické metody. Klára Kubošová
Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení
Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
Pravděpodobně skoro správné. PAC učení 1
Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného
UČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku
Asociační pravidla Asociační pravidla hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku podpora rozhodování Analýza nákupního
Obsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
Stromy, haldy, prioritní fronty
Stromy, haldy, prioritní fronty prof. Ing. Pavel Tvrdík CSc. Katedra počítačů FEL České vysoké učení technické DSA, ZS 2008/9, Přednáška 6 http://service.felk.cvut.cz/courses/x36dsa/ prof. Pavel Tvrdík
DATA MINING KLASIFIKACE DMINA LS 2009/2010
DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných
Kontingenční tabulky. (Analýza kategoriálních dat)
Kontingenční tabulky (Analýza kategoriálních dat) Agenda Standardní analýzy dat v kontingenčních tabulkách úvod, KT, míry diverzity nominálních veličin, některá rozdělení chí kvadrát testy, analýza reziduí,
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu
Přednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
Aproximativní algoritmy UIN009 Efektivní algoritmy 1
Aproximativní algoritmy. 14.4.2005 UIN009 Efektivní algoritmy 1 Jak nakládat s NP-těžkými úlohami? Speciální případy Aproximativní algoritmy Pravděpodobnostní algoritmy Exponenciální algoritmy pro data
Usuzování za neurčitosti
Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
Jasové transformace. Karel Horák. Rozvrh přednášky:
1 / 23 Jasové transformace Karel Horák Rozvrh přednášky: 1. Úvod. 2. Histogram obrazu. 3. Globální jasová transformace. 4. Lokální jasová transformace. 5. Bodová jasová transformace. 2 / 23 Jasové transformace
Markov Chain Monte Carlo. Jan Kracík.
Markov Chain Monte Carlo Jan Kracík jan.kracik@vsb.cz Princip Monte Carlo integrace Cílem je (přibližný) výpočet integrálu I(g) = E f [g(x)] = g(x)f (x)dx. (1) Umíme-li generovat nezávislé vzorky x (1),
Základní datové struktury III: Stromy, haldy
Základní datové struktury III: Stromy, haldy prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní
přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat
Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního
Úvod do dobývání. znalostí z databází
POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů
Dynamické programování
Dynamické programování prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy (BI-EFA)
Rozdělování dat do trénovacích a testovacích množin
Rozdělování dat do trénovacích a testovacích množin Marcel Jiřina Rozpoznávání je důležitou metodou při zpracování reálných úloh. Rozpoznávání je definováno dvěma kroky a to pořízením dat o reálném rozpoznávaném
12. Globální metody MI-PAA
Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 MI-PAA EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI
Datové struktury 2: Rozptylovací tabulky
Datové struktury 2: Rozptylovací tabulky prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy
NPRG030 Programování I, 2018/19 1 / :03:07
NPRG030 Programování I, 2018/19 1 / 20 3. 12. 2018 09:03:07 Vnitřní třídění Zadání: Uspořádejte pole délky N podle hodnot prvků Měřítko efektivity: * počet porovnání * počet přesunů NPRG030 Programování
1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15
Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních
Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 21. září 2018 Jiří Dvorský (VŠB TUO) Vyhledávání 242 / 433 Osnova přednášky
Projekt LISp-Miner. M. Šimůnek
Projekt LISp-Miner http://lispminer.vse.cz M. Šimůnek Obsah Systém LISp-Miner Vývoj systému v dlouhém období ETree-Miner Project LISp-Miner 2 Systém LISp-Miner Metoda GUHA (od roku 1966) předchozí implementace
Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.
Umělá inteligence II Roman Barták, KTIML roman.bartak@mff.cuni.cz http://ktiml.mff.cuni.cz/~bartak Dnešní program Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu
5.1 Rozhodovací stromy
5.1 Rozhodovací stromy 5.1.1 Základní algoritmus Způsob reprezentování znalostí v podobě rozhodovacích stromů je dobře znám z řady oblastí. Vzpomeňme jen nejrůznějších klíčů k určování různých živočichů
Výroková a predikátová logika - III
Výroková a predikátová logika - III Petr Gregor KTIML MFF UK ZS 2017/2018 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - III ZS 2017/2018 1 / 16 2-SAT 2-SAT Výrok je v k-cnf, je-li v CNF a
Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1
Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení PAC učení 1 Cíl induktivního strojového učení Na základě omezeného vzorku příkladů E + a E -, charakterizovat (popsat) zamýšlenou
Připomeň: Shluková analýza
Připomeň: Shluková analýza Data Návrh kategorií X Y= 1, 2,..., K resp. i jejich počet K = co je s čím blízké + jak moc Neposkytne pravidlo pro zařazování Připomeň: Klasifikace Data (X,Y) X... prediktory
Úvod do zpracování signálů
1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Asociační pravidla Doc. RNDr. Iveta Mrázová, CSc.
Pravidlové systémy. Klasifikační pravidla. Asociační pravidla.
Pravidlové systémy. Klasifikační pravidla. Asociační pravidla. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics Klasifikační pravidla 2 Agenda............................................................................................................
8. Strojové učení. Strojové učení. 16. prosince 2014. Václav Matoušek. 8-1 Úvod do znalostního inženýrství, ZS 2014/15
Strojové učení 16. prosince 2014 8-1 Klasifikace metod strojového učení podle vynaloženého úsilí na získání nových znalostí Učení zapamatováním (rote learning, biflování) Pouhé zaznamenání dat nebo znalostí.
Kybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB
62 REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB BEZOUŠKA VLADISLAV Abstrakt: Text se zabývá jednoduchým řešením metody nejmenších čtverců v prostředí Matlab pro obecné víceparametrové aproximační funkce. Celý postup
Algoritmy výpočetní geometrie
Algoritmy výpočetní geometrie prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy (BI-EFA)
Získávání znalostí z databází. Alois Kužela
Získávání znalostí z databází Alois Kužela Obsah související pojmy datové sklady, získávání znalostí asocianí pravidla 2/37 Úvod získávání znalostí z dat, dolování (z) dat, data mining proces netriviálního
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ
Dolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Strojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
10. Techniky formální verifikace a validace
Fakulta informačních technologií MI-NFA, zimní semestr 2011/2012 Jan Schmidt EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI 10. Techniky formální verifikace a validace 1 Simulace není
7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
Předzpracování dat. Lenka Vysloužilová
Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání
Genetické programování
Genetické programování Vyvinuto v USA v 90. letech J. Kozou Typické problémy: Predikce, klasifikace, aproximace, tvorba programů Vlastnosti Soupeří s neuronovými sítěmi apod. Potřebuje značně velké populace
Rozhodovací stromy a lesy
Rozhodovací stromy a lesy Klára Komprdová Leden 2012 Příprava a vydání této publikace byly podporovány projektem ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia Matematické biologie a státním
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 12. září 2016 Jiří Dvorský (VŠB TUO) Vyhledávání 201 / 344 Osnova přednášky
Pokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační
Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů
Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci
Rekurzivní algoritmy
Rekurzivní algoritmy prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy (BI-EFA) ZS
OSA. maximalizace minimalizace 1/22
OSA Systémová analýza metodika používaná k navrhování a racionalizaci systémů v podmínkách neurčitosti vyšší stupeň operační analýzy Operační analýza (výzkum) soubor metod umožňující řešit rozhodovací,
Trénování sítě pomocí učení s učitelem
Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup
11. Tabu prohledávání
Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 MI-PAA EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI
Informační systémy pro podporu rozhodování
Informační systémy pro rozhodování Informační systémy pro podporu rozhodování 5 Jan Žižka, Naděžda Chalupová Ústav informatiky PEF Mendelova universita v Brně Asociační pravidla Asociační pravidla (sdružovací
Vybrané přístupy řešení neurčitosti
Vybrané přístupy řešení neurčitosti Úvod do znalostního inženýrství, ZS 2015/16 8-1 Faktory jistoty Jedná se o přístup založený na ad hoc modelech Hlavním důvodem vzniku tohoto přístupu je omezení slabin
Umělá inteligence II
Umělá inteligence II 11 http://ktiml.mff.cuni.cz/~bartak Roman Barták, KTIML roman.bartak@mff.cuni.cz Dnešní program! V reálném prostředí převládá neurčitost.! Neurčitost umíme zpracovávat pravděpodobnostními
ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ
ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ 18.11.2012 Radim Tvardek, Petr Bulava, Daniel Mašek U&SLUNO a.s. I Sadová 28 I 702 00 Ostrava I Czech Republic PŘEDPOKLADY PRO ANALÝZU NÁKUPNÍHO KOŠÍKU 18.11.2012 Daniel
jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky
Pokročilé heuristiky jednoduchá heuristika asymetrické stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy pokročilá heuristika symetrické stavový prostor, který vyžaduje řízení 1 2 Paměť pouze
Radim Navrátil. Robust 24. ledna 2018
Analýza nákupního košíku - historie a současnost Radim Navrátil Ústav matematiky a statistiky Přírodovědecká fakulta MU, Brno Robust 24. ledna 2018 Radim Navrátil (ÚMS Brno) Analýza nákupního košíku Robust
Binární vyhledávací stromy pokročilé partie
Binární vyhledávací stromy pokročilé partie KMI/ALS lekce Jan Konečný 30.9.204 Literatura Cormen Thomas H., Introduction to Algorithms, 2nd edition MIT Press, 200. ISBN 0-262-5396-8 6, 3, A Knuth Donald
Algoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a báli jste se zeptat Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Získávání dat z databází 1 DMINA 2010
Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou
Popis zobrazení pomocí fuzzy logiky
Popis zobrazení pomocí fuzzy logiky diplomová práce Ján Fröhlich KM, FJFI, ČVUT 23. dubna 2009 Ján Fröhlich ( KM, FJFI, ČVUT ) Popis zobrazení pomocí fuzzy logiky 23. dubna 2009 1 / 25 Obsah 1 Úvod Základy
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
Intervalová data a výpočet některých statistik
Intervalová data a výpočet některých statistik Milan Hladík 1 Michal Černý 2 1 Katedra aplikované matematiky Matematicko-fyzikální fakulta Univerzita Karlova 2 Katedra ekonometrie Fakulta informatiky a
ČVUT FEL X36PAA - Problémy a algoritmy. 5. úloha - Seznámení se se zvolenou pokročilou iterativní metodou na problému batohu
ČVUT FEL X36PAA - Problémy a algoritmy 5. úloha - Seznámení se se zvolenou pokročilou iterativní metodou na problému batohu Jméno: Marek Handl Datum: 4. 2. 2009 Cvičení: Pondělí 9:00 Zadání Zvolte si heuristiku,
KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.
1/25 KOMPRESE OBRAZŮ Václav Hlaváč, Jan Kybic Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac KOMPRESE OBRAZŮ, ÚVOD
Rozhodovací stromy a jejich konstrukce z dat
Rozhodovací stromy a jejich konstrukce z dat Příklad počítačová hra. Můžeme počítač naučit rozlišovat přátelské a nepřátelské roboty? Učení s učitelem: u některých už víme, jakou mají povahu (klasifikace)
Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner
Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování
Neparametrické odhady hustoty pravděpodobnosti
Neparametrické odhady hustoty pravděpodobnosti Václav Hlaváč Elektrotechnická fakulta ČVUT Katedra kybernetiky Centrum strojového vnímání 121 35 Praha 2, Karlovo nám. 13 hlavac@fel.cvut.cz Statistické
1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,
KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce
Rekonstrukce diskrétního rozdělení psti metodou maximální entropie
Rekonstrukce diskrétního rozdělení psti metodou maximální entropie Příklad Lze nalézt četnosti nepozorovaných stavů tak, abychom si vymýšleli co nejméně? Nechť n i, i = 1, 2,..., N jsou známé (absolutní)
Statistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information