Časté podsekvence, epizodální pravidla. Katedra kybernetiky, FEL, ČVUT v Praze.

Podobné dokumenty
Dolování asociačních pravidel

hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku

Základy vytěžování dat

B A B A B A B A A B A B B

Christian Borgelt. Katedra kybernetiky, FEL, ČVUT v Praze.

Prohledávání do šířky = algoritmus vlny

Automaty a gramatiky(bi-aag) Motivace. 1. Základní pojmy. 2 domácí úkoly po 6 bodech 3 testy za bodů celkem 40 bodů

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Jednoznačné a nejednoznačné gramatiky

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Suffixové stromy. Osnova:

PŘEDNÁŠKA 7 Kongruence svazů

Grafy. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta.

Hranová konzistence. Arc consistency AC. Nejprve se zabýváme binárními CSP. podmínka odpovídá hraně v grafu podmínek

Zdůvodněte, proč funkce n lg(n) roste alespoň stejně rychle nebo rychleji než než funkce lg(n!). Symbolem lg značíme logaritmus o základu 2.

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

Formální jazyky a gramatiky Teorie programovacích jazyků

Naproti tomu gramatika je vlastně soupis pravidel, jak

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna Filip Železný (ČVUT) Vytěžování dat 9.

Regulární výrazy. Definice Množina regulárních výrazů nad abecedou Σ, označovaná RE(Σ), je definována induktivně takto:

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Dynamické programování

63. ročník Matematické olympiády 2013/2014

Výroková a predikátová logika - II

Katedra kybernetiky, FEL, ČVUT v Praze.

Základy algoritmizace. Pattern matching

Základy umělé inteligence

5 Orientované grafy, Toky v sítích

Autoindex nad DNA sekvencemi

PŘEDNÁŠKA 2 POSLOUPNOSTI

Vyhledávání v textu. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava

ˇ razen ı rychlejˇ s ı neˇ z kvadratick e Karel Hor ak, Petr Ryˇsav y 20. dubna 2016 Katedra poˇ c ıtaˇ c u, FEL, ˇ CVUT

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.

Stromy, haldy, prioritní fronty

Výroková a predikátová logika - II

Y36BEZ Bezpečnost přenosu a zpracování dat. Úvod. Róbert Lórencz. lorencz@fel.cvut.cz

NORMALIZACE Část 2 1

Texty k přednáškám z MMAN3: 4. Funkce a zobrazení v euklidovských prostorech

Výroková a predikátová logika - III

bin arn ı vyhled av an ı a bst Karel Hor ak, Petr Ryˇsav y 23. bˇrezna 2016 Katedra poˇ c ıtaˇ c u, FEL, ˇ CVUT

Lineární algebra : Násobení matic a inverzní matice

Pojem binární relace patří mezi nejzákladnější matematické pojmy. Binární relace

Zadání druhého zápočtového projektu Základy algoritmizace, 2005

Vzdálenost uzlů v neorientovaném grafu

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.

Úloha ve stavovém prostoru SP je <s 0, C>, kde s 0 je počáteční stav C je množina požadovaných cílových stavů

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Minimalizace KA - Úvod

Metodický koncept k efektivní podpoře klíčových odborných kompetencí s využitím cizího jazyka ATCZ62 - CLIL jako výuková strategie na vysoké škole

I. kolo kategorie Z7

Úvod do informatiky. Miroslav Kolařík

Základy matematické analýzy

Pumping lemma - podstata problému. Automaty a gramatiky(bi-aag) Pumping lemma - problem resolution. Pumping lemma - podstata problému

Upozornění : barevné odstíny zobrazené na této stránce se mohou z důvodu možného zkreslení Vašeho monitoru lišit od fyzické dodávky.

Syntetická geometrie I

Vlastnosti Derivační strom Metody Metoda shora dolů Metoda zdola nahoru Pomocné množiny. Syntaktická analýza. Metody a nástroje syntaktické analýzy

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Stromové rozklady. Definice 1. Stromový rozklad grafu G je dvojice (T, β) taková, že T je strom,

TGH05 - aplikace DFS, průchod do šířky

VLASTNOSTI GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze. BI-GRA, LS 2010/2011, Lekce 5

Vlastnosti regulárních jazyků

TGH05 - aplikace DFS, průchod do šířky

Tvorba asociačních pravidel a hledání. položek

Formální jazyky. Z. Sawa (VŠB-TUO) Úvod do teoretické informatiky 2. března / 32

Návody k domácí části I. kola kategorie A

Národní informační středisko pro podporu jakosti

Radim Navrátil. Robust 24. ledna 2018

Lineární algebra : Násobení matic a inverzní matice

Lineární algebra : Lineární prostor

Úlohy klauzurní části školního kola kategorie A

Řešení: PŘENESVĚŽ (N, A, B, C) = přenes N disků z A na B pomocí C

Základy maticového počtu Matice, determinant, definitnost

Operace na datových strukturách

Vztah jazyků Chomskeho hierarchie a jazyků TS

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Doporučené příklady k Teorii množin, LS 2018/2019

Použití dalších heuristik

Komplexní analýza. Laplaceova transformace. Martin Bohata. Katedra matematiky FEL ČVUT v Praze

Teorie množin. Čekají nás základní množinové operace kartézské součiny, relace zobrazení, operace. Teoretické základy informatiky.

63. ročník matematické olympiády Řešení úloh krajského kola kategorie B. 1. Odečtením druhé rovnice od první a třetí od druhé dostaneme dvě rovnice

Dijkstrův algoritmus

doplněk, zřetězení, Kleeneho operaci a reverzi. Ukážeme ještě další operace s jazyky, na které je

Návody k domácí části I. kola kategorie C

LIMITA A SPOJITOST FUNKCE

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

1. Toky, řezy a Fordův-Fulkersonův algoritmus

S T A T I S T I K A. Jan Melichar Josef Svoboda. U n iverzita Jan a Evangelist y P u rk yn ě v Ústí nad La b em

Kapitola 1. Úvod. 1.1 Značení. 1.2 Výroky - opakování. N... přirozená čísla (1, 2, 3,...). Q... racionální čísla ( p, kde p Z a q N) R...

Syntetická geometrie I

1. Převeďte dané číslo do dvojkové, osmičkové a šestnáctkové soustavy: a) b)

Množinu všech slov nad abecedou Σ značíme Σ * Množinu všech neprázdných slov Σ + Jazyk nad abecedou Σ je libovolná množina slov nad Σ

Standardní algoritmy vyhledávací.

Výroková a predikátová logika - VIII

PQ-stromy a rozpoznávání intervalových grafů v lineárním čase

NAIVNÍ TEORIE MNOŽIN, okruh č. 5

bfs, dfs, fronta, zásobník, prioritní fronta, halda

Cvičení 1. Úvod do teoretické informatiky(2014/2015) cvičení 1 1

Úvod do informatiky. Miroslav Kolařík

Úvod do programování 6. hodina

Matematická analýza III.

Transkript:

Časté podsekvence, epizodální pravidla Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz

pstruktura přednášky Motivace pro hledání častých podsekvencí praktické příklady, variabilita v zadání, co už vlastně umíme řešit? souvislost s množinami položek, co se změnilo? orientované sekvence, bez šumu/mezer a času, proč je to někdy složitější? neorientované sekvence a jejich kanonická forma, (plná) transakční reprezentace a s ní spojené definice, algoritmus GSP (Agrawalovo zobecnění APRIORI), další algoritmy FreeSpan, PrefixSpan, shrnutí kategorizace přístupů dle typu sekvencí a vyhledávaných vzorů, STULONG případová studie. A4M33SAD

pčasté podsekvence ilustrace 1: DNA motif discovery hledá krátké sekvenční vzory v souboru nezarovnaných DNA nebo proteinových sekvencí, hledá diskriminativní vzory (typické pro jednu třídu sekvencí, neobvyklé ve třídě druhé), tato vlastnost koreluje s biologickým (regulačním) účelem sekvence, transkripční faktor interaguje s DNA přes konkrétní motif, vyhledávání častých podsekvencí je podúlohou, událost = nukleotid, řetězec (žádný čas), nejasná orientace DNA. A4M33SAD

pčasté podsekvence ilustrace 2: pojištění událost je uzavření pojistné smlouvy jistého typu, v jednom čase může nastat několik událostí, sekvence je chronologický sled událostí, analogie: orientovaný acyklický graf, délka hrany je dána časem mezi událostmi, hledané vzory: obvyklé smluvní posloupnosti uzavřené v rozumném časovém období. Meyer: Sequence Mining in Marketing. A4M33SAD

pčasté podsekvence podobnost s častými množinami položek nejprve podobnost na úrovni reprezentace úlohy, může jít o stejný proces, ale nyní klademe jiné otázky položky: které typy pojištění si lidé objednávají najednou, sekvence: jak se lidé pojišťují v průběhu života, transakční reprezentace stále možná a platná (velmi univerzální) musíme zaznamenávat/brát v úvahu více údajů. Transakce Položky (typ pojištění) t 1 domácnost, životní t 2 auto, domácnost t 3 penzijní, životní t 4 cestovní t 5 penzijní, životní...... Zákazník Datum (čas) Položky (typ pojištění) z 1 5.10.2003 domácnost, životní z 1 8.1.2005 cestovní z 1 3.8.2010 auto, penzijní z 2 10.10.2003 auto, domácnost z 2 20.11.2006 penzijní......... A4M33SAD

pčasté podsekvence podobnost s častými množinami položek dále podobnost na úrovni řešení úlohy, APRIORI vlastnost lze zobecnit i pro sekvence: Každá podsekvence časté sekvence je častá. antimonotónní vlastnost lze podobně převést na monotónní vlastnost: Pokud sekvence není častá, žádné z jejích prodloužení není časté. modelový algoritmus typu APRIORI pro sekvenční data přímou analogíı APRIORI algoritmu pro množiny položek, založený na postupu (neformálně opakování): 1. vyhledá triviální časté sekvence (typicky délky 0 nebo 1), 2. generuje kandidátské sekvence délky o 1 větší, 3. ověří jejich podporu v transakční databázi, 4. z množiny kandidátských sekvencí vybere podmnožinu častých sekvencí, 5. dokud nachází další časté sekvence jde na krok 2. A4M33SAD

pčasté podřetězce triviální aplikace APRIORI řetězec (string) orientovaná sekvence, ekvidistantní krok, právě jedna položka na transakci, události dány abecedou symbolů, vzor je uspořádaný seznam sousedních událostí, a 1... a m je podsekvencí b 1... b n jestliže i a 1 = b i a m = b i+m. Příklad: DNA sekvence (n = 20, A = {a, g, t}) i C i L i 1 {a}, {g}, {t} {a}, {g}, {t} 2 (9 vzorů) {aa}, {ga}, {gg}, {gt}, {tg}, {tt} 3 {aaa}, {gaa}, {gga},... (12 vzorů) {gaa}, {ggg}, {gtt}, {tga}, {ttg} 4 {gggg}, {gttg}, {tgaa}, {ttga} {gggg}, {tgaa}, {ttga} 5 {ttgaa} {ttgaa} jak rychle ověřit podporu, tj. nalézt výskyty podsekvence v sekvenci? mj. algoritmy Knuth-Morris-Pratt nebo Boyer-Moore. A4M33SAD

pkanonická forma sekvencí kanonické (standardní) kódové slovo jednoznačný způsob zápisu sekvence, vychází z uspořádání abecedy symbolů, obvyklá (ale ne nutná) volba: lexikografické uspořádání abecedy symbolů a < b < c <..., lexikograficky (nej)menší kódové slovo kanonické (bac < cab), orientovaná sekvence jediný možný výklad (způsob čtení), každá (pod)sekvence kanonickým kódovým slovem, neorientovaná sekvence nutnost volit mezi dvěma způsoby čtení = kódovými slovy, rutinní aplikace lexikografického uspořádání není možná, v prostoru kanonických slov přestává platit prefixová vlastnost: prefix kanonického slova je také kanonickým slovem, sekvence kanonický zápis prefix kanonický zápis bab bab ba ab cabd cabd cab bac musíme najít jiný způsob zápisu kódových slov. A4M33SAD

pkanonická forma neorientované sekvence Zápis kanonických kódových slov s prefixovou vlastností odlišně nakládáme se sekvencemi sudé a liché délky, kódové slovo tvoříme od středu sekvence, sudá délka lichá délka sekvence a m a m 1... a 2 a 1 b 1 b 2... b m 1 b m a m a m 1... a 2 a 1 a 0 b 1 b 2... b m 1 b m kódové slovo a 1 b 1 a 2 b 2... a m 1 b m 1 a m b m a 0 a 1 b 1 a 2 b 2... a m 1 b m 1 a m b m kódové slovo b 1 a 1 b 2 a 2... b m 1 a m 1 b m a m a 0 b 1 a 1 b 2 a 2... b m 1 a m 1 b m a m kanonické je to lexikograficky menší z kódových slov v tabulce, sekvenci prodloužíme přidáním dvojice a m+1 b m+1 nebo b m+1 a m+1, jeden symbol je přidán na začátek, druhý na konec. příklad sudá délka lichá délka sekvence kódová slova sekvence kódová slova at at ta ule lue leu data atda taad rules luers leusr A4M33SAD

pkanonická forma neorientované sekvence prefixovost Důkaz prefixovosti nové reprezentace sporem 1. předpokládejme, že prefixová vlastnost neplatí, 2. pak existuje kanonické slovo w m = a 1 b 1 a 2 b 2... a m 1 b m 1 a m b m, 3. jehož prefix w m 1 = a 1 b 1 a 2 b 2... a m 1 b m 1 není kanonickým slovem, 4. důsledkem je w m < v m, kde v m = b 1 a 1 b 2 a 2... b m 1 a m 1 b m a m, 5. a v m 1 < w m 1, kde v m 1 = b 1 a 1 b 2 a 2... b m 1 a m 1, 6. avšak v m 1 < w m 1 v m < w m protože v m 1 je prefixem v m a w m 1 je prefixem w m, 7. v m < w m z kroku 6 je ve sporu s w m < v m z kroku 4. A4M33SAD

pkanonická forma neorientované sekvence efektivita dvě možná kódová slova lze tvořit a srovnávat v O(m), zavedením příznaku symetrie sekvence lze obě operace provádět v O(1) m s m = (a i = b i ) i=1 příznak symetrie udržujeme v konstantním čase operací s m+1 = s m (a m+1 = b m+1 ) prodloužení sekvence je přípustné v závislosti na hodnotě příznaku: jestliže s m = true, musí platit a m+1 b m+1, jestliže s m = false, jakýkoli vztah mezi a m+1 and b m+1 je přijatelný. počátek vytváření sudá délka: prázdná sekvence, s 0 = 1, lichá délka: všechny časté symboly abecedy, s 1 = 1, postup garantuje výhradně kanonická prodloužení sekvence. A4M33SAD

pčasté podsekvence aplikace APRIORI na neorientované sekvence uvažujme neorientované sekvence, jinak stejná formalizace jako dosud a 1... a m je podsekvencí b 1... b n jestliže: i a 1 = b i a m = b i+m, i a 1 = b i+m a m = b i. Příklad: DNA sekvence (n = 20, A = {a, g, t}) i C i L i 0 {} {} 1 {a}, {g}, {t} {a}, {g}, {t} 2 {aa}, {ag}, {at}, {gg}, {gt}, {tt} {aa}, {gg}, {gt}, {tt} 3 {aaa}, {aag}, {aat}, {gag}, {gat}, {tat}, {aga}, {agg}, {agt}, {ggg}, {gtt} {ggg}, {ggt}, {tgt}, {ata}, {atg}, {att}, {gtg}, {gtt}, {ttt} 4 {aaaa}, {aaag}, {aaat}, {gaag}, {gaat}, {taat}, {gggg} {agta}, {agtg}, {ggta}, {agtt}, {tgta}, {ggtg}, {ggtt}, {tgtg},... celkem 27 (1) vzorů A4M33SAD

pzobecněná definice podsekvence pro transakční reprezentaci Položky: I = {i 1, i 2,..., i m }, množiny položek: (x 1, x 2,..., x k ) I, k 1, x i I, sekvence: s 1,..., s n, s i = (x 1, x 2,..., x k ) I, s i, x 1 < x 2 <... < x k, uspořádaný seznam elementů, elementy jsou množiny položek, kanonická reprezentace: lexikografické uspořádání položek v každé z množin, př.: a(abc)(ac)d(cf), zjednodušení zápisu: (x i ) x i, délka sekvence l dána počtem instancí položek v sekvenci, l-sekvence obsahuje právě l instancí, př.: a(abc)(ac)d(cf) je 9-sekvencí, α je podsekvencí β, β je nadsekvencí α: α β α = a 1,..., a n, β = b 1,..., b m, 1 j 1... j n m, i = 1... n : a i b ji, př.: a(bc)df a(abc)(ac)d(cf), d(ab) a(abc)(ac)d(cf) databáze sekvencí: S = { sid 1, s 1..., sid k, s k } jde o množinu uspořádaných dvojic identifikátor sekvence a sekvence. A4M33SAD

pproblém vyhledávání podsekvencí v transakční reprezentaci Podpora α v databázi S počet sekvencí s z S pro něž platí: α s, Problém vyhledání častých podsekvencí v transakční databázi vstup: S a s min minimální podpora, výstup: úplná množina častých sekvenčních vzorů (podsekvencí s alespoň prahovou četností). Id Sekvence 10 a(abc)(ac)d(cf) 20 (ad)c(bc)(ae) 30 (ef)(ab)(df)cb 40 eg(af)cbc Id Čas Položky 10 t 1 a 10 t 2 a, b, c 10 t 3 a, c 10 t 4 d 10 t 5 c, f l sekvenční vzor (s min =2) 3 a(bc), aba, abc, (ab)c, (ab)d, (ab)f, aca, acb, acc, adc,... 4 a(bc)a, (ab)dc,... Pei, Han et al.: PrefixSpan: Mining Sequential Patterns by Prefix-Projected Growth. A4M33SAD

pgsp: Generalized Sequential Patterns [Agrawal, Srikant, 1996] aplikuje myšlenku APRIORI na sekvenční data, kĺıčová je otázka generování kandidátských sekvenčních vzorů lze jej rozdělit na dva kroky 1. spojování (join) l-sekvenci vytvoříme spojením dvou (l-1)-sekvencí, lze spojit (l-1)-sekvence shodné po vypuštění první položky z jedné a poslední z druhé, 2. prořezávání (prune) vynecháme každou l-sekvenci, která obsahuje (l-1)-podsekvenci, která není častá, C L 4 3 po spojení po prořezání (ab)c, (ab)d, (ab)(cd) (ab)(cd) a(cd), (ac)e, (ab)ce b(cd), bce Agrawal, Srikant: Mining Sequential Patterns: Generalizations and Performance. A4M33SAD

ppříklad: GSP, s min =2 Id Sekvence 10 (bd)cb(ac) 20 (bf)(ce)b(fg) 30 (ah)(bf)abf 40 (be)(ce)d 50 a(bd)bcb(ade) s( g ) = s( h ) = 1 < s min (vynechá téměř polovinu z 92 možných 2-kandidátů), (bd)cba s 10 (bd)cba s 50 (vytvořen z (bd)cb a dcba ), (musí být časté i vzory (bd)ba, (bd)ca a bcba ). A4M33SAD

pnevýhody APRIORI přístupu jde o přístup generuj (join krok) a testuj (prune krok), problémy zmiňované v souvislosti s častými množinami položek přetrvávají a zesilují 1. generuje velké množství kandidátských vzorů evidentní už pro 2-sekvence: m m + m(m 1) 2 O(m 2 ) (u množin položek to byl pouze druhý člen, tedy zhruba třetina), 2. vyžaduje velký počet průchodů databází pro každou délku vzoru jeden průchod, počet přístupů dán max. délkou vzoru max( s, s S) (obvykle >> m), (maximální délka množiny položek je m a tedy nejvýše m přístupů), 3. vyhledání dlouhých sekvenčních vzorů je problematické celkový počet možných kandidátských vzorů je exponenciální vzhledem k délce vzoru, (roste stejně rychle jako u množin položek, opět ale problém max( s, s S) >> m). omezeny odlišným přístupem v algoritmex FreeSpan a PrefixSpan. A4M33SAD

pfreespan [Han, Pei, Yin, 2000], s min = 2 využívá rekurzivního přístupu rozděl a panuj rozhoduje na základě sestupně seřazeného seznamu častých položek, f-list = (a : 4), (b : 4), (c : 4), (d : 3), (e : 3), (f : 3), (g : 1) není časté, sekvenční vzory děĺı do disjunktních skupin vzory obsahující pouze nejčastější položku, vzory obsahující druhou nejčastější položku a žádnou méně častou, atd. tvoří projekční databáze sekvencí (jednu pro každou skupinu) ze sekvencí odstraní všechny položky, které nejsou skupinou postiženy, odstraní sekvence, v nichž není položka, která ve vzoru být musí. podproblémy mají méně položek (zpočátku), obsahují méně sekvencí (ke konci). Id Sekvence a-projekce b-projekce... f-projekce 10 a(abc)(ac)d(cf) aaa a(ab)a... a(abc)(ac)d(cf) 20 (ad)c(bc)(ae) aa aba... 30 (ef)(ab)(df)cb a (ab)b... (ef)(ab)(df)cb 40 eg(af)cbc a ab... e(af)cbc Pei, Han et al.: PrefixSpan: Mining Sequential Patterns by Prefix-Projected Growth. A4M33SAD

pprefixspan [Pei, Han et al., 2001] založen na podobné myšlence, efektivnější než předchůdce FreeSpan, projekce na základě prefixového výskytu podsekvence (u FreeSpan libovolného výskytu) umožňuje účinnější rozklad databáze, β = s 1,..., s m je prefixem α = s 1,..., s n pokud: (1) m n, (2) i m 1 s i = s i, (3) s m s m, (4) položky z (s m s m) > položky z s m, př.: a, aa, a(ab) a a(abc) jsou prefixy a(abc)(ac)d(cf), př.: ab, a(bc) nejsou prefixy a(abc)(ac)d(cf), neformálně: postfix je doplňkem prefixu př.: prefix a má vzhledem k a(abc)(ac)d(cf) postfix (abc)(ac)d(cf), př.: prefix aa má vzhledem k a(abc)(ac)d(cf) postfix ( bc)(ac)d(cf), α α je projekcí α vzhledem k prefixu β α, pokud: (1) α má prefix β, (2) neexistuje α, která je nadsekvencí α (tj. α α ), podsekvencí α a má prefix β, př.: projekcí a(abc)(ac)d(cf) vzhledem k prefixu (ac)d je (ac)d(cf). A4M33SAD

pprefixspan algoritmus, příklad (s min = 2) PrefixSpan: vstup S a s min 1. i = 1, init projekční prefixové databáze S α0 = S = S, 2. opakuj pro všechny projekční prefixové databáze S αi 1 (a) najdi časté i-vzory (nadprahová podpora v α i 1 S αi 1 ), (b) pokud je množina i-vzorů neprázdná i. rozděl stavový prostor dle i-vzorů (α i ) jako prefixů vznikne množina projekčních databází S αi = (α i 1 S αi 1 ) αi, ii. i=i+1 a jdi na krok (2). Id Sekvence 10 a(abc)(ac)d(cf) 20 (ad)c(bc)(ae) 30 (ef)(ab)(df)cb 40 eg(af)cbc Prefix a b aa (ab) Projekční databáze (postfixy) resp vzory (abc)(ac)d(cf), ( d)c(bc)(ae), ( b)(df)cb, ( f)cbc 2-vzory: aa :2, ab :4, ac :4, ad :2, af :2, (ab) :2 ( c)(ac)d(cf), ( c)(ae), (df)cb, c 2-vzory: ba :2, bc :3, (bc) :2, bd :2, bf :2 ( bc)(ac)d(cf), ( e) STOP (žádné 3-vzory) ( c)(ac)d(cf), (df)cb 3-vzory: (ab)c :2, (ab)d :2, (ab)f :2 A4M33SAD

pzobecnění problému vyhledávání častých sekvencí definice podsekvence (slajd 13) stále není dostatečně obecná pro řadu praktických problémů, př.: nákupy knih ID Čas Položky C1 1 Ringworld C1 2 Foundation C1 15 Ringworld Engineers, Second Foundation C2 1 Foundation, Ringworld C2 20 Foundation and Empire C2 50 Ringworld Engineers přínos GSP je i v zavedení několika rozšíření 1. zavedení časových omezení sousední elementy sekvence nesmí být příliš vzdálené (MaxGap) nebo bĺızké (MinGap), 2. rozšířená definice transkace položky zařadí do jediné transakce pokud mají bĺızké časové značky, klouzavé okno, parameterm je jeho šířka WinSize, 3. taxonomie položek orientovaný acyklický graf definuje hierarchii pojmů vystavěnou nad položkami. A4M33SAD

pepizodální pravidla analogie asociačních pravidel, umožňují předvídat další vývoj posloupnosti na základě vzorů, př.: jediná sekvence, jediná položka na pozici, MaxGap=3 S je sekvence, α = AB a β = ABC jsou její podsekvence, α je prefixem β, epizodální pravidlo je pravděpodobnostní implikace α postfix(β, α), tj. AB C podobně jako u asociačních je vedle podpory parametrem zadání spolehlivost conf(α postfix(β, α)) = s(β,s,3) s(α,s,3) = 1 2. A4M33SAD

pčasté podsekvence shrnutí, kategorizace Rozlišujeme různé typy problémů v závislosti na typu sekvencí jedna vs více sekvencí v databázi ovlivní definici podpory, orientované vs neorientované sekvence ovlivní kanonickou reprezentaci, jediná položka vs více položek na jediné pozici v sekvenci ovlivní složitost řešení, existence omezení mj. šířka okna pro definici transakce, MinGap a MaxGap pro definici sekvence, rozšiřují praktickou použitelnost, mírně zesložiťují řešení, existence taxonomíı položek rozšiřují praktickou použitelnost, mírně zesložiťují řešení, položky nebo (označené) intervaly interval: I = (start, end, label). příště: od sekvenčních ke strukturálním vzorům (stromy/grafy). A4M33SAD

pdoporučené doplňky zdroje přednášky :: Četba Agrawal, Srikant: Mining Sequential Patterns. Agrawal, Srikant: MSPs: Generalizations and Performance. od APRIORI k jeho sekvenčním verzím AprioriAll a GSP, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.95.2818&rep=rep1&type=pdf, Pei, Han et al.: PrefixSpan: Mining Sequential Patterns by Prefix-Projected Growth. FreeSpan (idea) a PrefixSpan algoritmy, srovnání efektivity s GSP, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.12.7211, Mannila et al.: Discovery of Frequent Episodes in Event Sequences. epizodální pravidla, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.49.3594, Borgelt: Frequent Pattern Mining. neorientované sekvence, http://www.borgelt.net/teach/fpm/slides.html. A4M33SAD