Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009. Filip Železný (ČVUT) Vytěžování dat 9.



Podobné dokumenty
Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

Základy vytěžování dat

Informační systémy pro podporu rozhodování

Asociační pravidla. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p

Tvorba asociačních pravidel a hledání. položek

Metody odvozování. matematická východiska: logika, Prolog

Informatika Algoritmy

Dolování asociačních pravidel

Implementace seznamů do prostředí DELPHI pomocí lineárního seznamu

Intervalové stromy. Představme si, že máme posloupnost celých čísel p 0, p 1,... p N 1, se kterou budeme. 1. Změna jednoho čísla v posloupnosti.

Testování a spolehlivost. 6. Laboratoř Ostatní spolehlivostní modely

hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku

IB108 Sada 1, Příklad 1 Vypracovali: Tomáš Krajča (255676), Martin Milata (256615)

Basic256 - úvod do programování Příklady. ing. petr polách

OSOBNÍ ANGAŽOVANOST SOCIÁLNÍHO PRACOVNÍKA

Projekt OPVK - CZ.1.07/1.1.00/ Matematika pro všechny. Univerzita Palackého v Olomouci

ELEKTRONICKÁ PORODNÍ KNIHA POPIS APLIKACE Michal Huptych, Petr Janků, Lenka Lhotská

Problém batohu. Zdeněk Hanzálek ČVUT FEL Katedra řídicí techniky. 5. dubna 2011

DYNAMICKÉ PROGRAMOVÁNÍ A PROBLÉM BATOHU

Algoritmus Minimax. Tomáš Kühr. Projektový seminář 1

TTreeView je ten strom vlevo (vzhled se dá upravovat) a TListView je ten seznam vpravo (včetně volitelných módů zobrazení jako ikony).

Vytěžování znalostí z dat

Obchod & kvalita. Kvalita jako strategie firmy Ing. Ladislav Denk. Retail Summit Praha 4. února 2009

MQL4 COURSE. By Coders guru -5 Smyčky & Rozhodnutí Část 2


Predispozice pro výuku IKT (2015/2016)

Břetislav Fajmon, UMAT FEKT, VUT Brno. Poznámka 1.1. A) první část hodiny (cca 50 minut): představení všech tří metod při řešení jednoho příkladu.

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ , 5.1 a 5.2 8/14

Asociační i jiná. Pravidla. (Ch )

Analyzátor, minimalizátor kombinačních logických obvodů

Výpočetní modely pro rozpoznávání bezkontextových jazyků zásobníkové automaty LL(k) a LR(k) analyzátory

Hranová konzistence. Arc consistency AC. Nejprve se zabýváme binárními CSP. podmínka odpovídá hraně v grafu podmínek

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

STROMOVE ALGORITMY Prohledavani do sirky (level-order) Po vodorovnejch carach fronta

Software je ve světě IT vše, co není Hardware. Do softwaru patří aplikace, program, proces, algoritmus, ale i data (text, obrázky), operační systém

Euklidovský prostor Stručnější verze

8) Jaké jsou důvody pro použití víceprůchodového překladače Dříve hlavně kvůli úspoře paměti, dnes spíše z důvodu optimalizace

KMA/PDB. Karel Janečka. Tvorba materiálů byla podpořena z prostředků projektu FRVŠ č. F0584/2011/F1d

Algoritmizace. 1. Úvod. Algoritmus

Algoritmizace a programování

B A B A B A B A A B A B B

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Matematická logika. Rostislav Horčík. horcik

NORMALIZACE Část 2 1

Anotace. Dynamické programování, diskrétní simulace.

Kombinatorický předpis

AD4M33AU Automatické uvažování

Získávání znalostí z dat

Interpret jazyka IFJ2011

Rozhodovací pravidla

přirozený algoritmus seřadí prvky 1,3,2,8,9,7 a prvky 4,5,6 nechává Metody řazení se dělí:

Tabulka. Datová struktura, která umožňuje vkládat a později vybírat informace podle identifikačního klíče. Mohou být:

Y36BEZ Bezpečnost přenosu a zpracování dat. Úvod. Róbert Lórencz. lorencz@fel.cvut.cz

PROBLÉM ČTYŘ BAREV. Lze obarvit jakoukoliv mapu v rovině čtyřmi barvami tak, aby žádné dvě sousedící oblasti neměly stejnou barvu?

Infrastruktura UML. Modelování struktury v UML. Superstruktura UML. Notace objektů. Diagramy objektů

CZ.1.07/1.5.00/

Helios RED a Internetový obchod

Pravidlové systémy. Klasifikační pravidla. Asociační pravidla.

Obr. 1 - Seznam smluv

6. T e s t o v á n í h y p o t é z

Distribuovaná synchronizace. Paralelní a distribuované systémy. 11. Přednáška Vzájemné vyloučení. Centralizovaný algoritmus - fronta procesů

Základy umělé inteligence

20. Projekt Domácí mediotéka

Gramatická evoluce a softwarový projekt AGE

2.1 Podmínka typu case Cykly Cyklus s podmínkou na začátku Cyklus s podmínkou na konci... 5

D DE = = + [ + D[ [ D = - - XY = = + -

Strojové uení. typy učení: Metody učení: učení se znalostem (knowledge acquisition) učení se dovednostem (skill refinement).

Návod na práci s redakčním systémem webu VPŠ a SPŠ MV v Praze

Tento počítač. 1 Seznámení s programem. 2 Spuštění programu. Adresářové operace Popis programu Tento počítač, podstata adresářových operací.

Implementace LL(1) překladů

1 Zadání Zadání- Náboj 2010 Úloha1.Kvádrsdélkamihran1, a,2amápovrch54.najdětehodnotučísla a.

Pascal. Katedra aplikované kybernetiky. Ing. Miroslav Vavroušek. Verze 7

Základy číslicové techniky z, zk

Klíčové pojmy: Cyklus, řídící proměnná, inicializace, test podmínky, přerušení cyklu, vnořování cyklů.

1. Implementace funkce počet vrcholů. Předmět: Algoritmizace praktické aplikace (3ALGA)

Asociační pravidla (metoda GUHA)

Česká republika Ministerstvo práce a sociálních věcí Na Poříčním právu 1, Praha 2. vyzývá

Syntaxí řízený překlad

Jarníkův algoritmus. Obsah. Popis

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Reálná čísla

SMĚRNICE PROCESU PATHFINDER

DUM 01 téma: Obecné vlastnosti tabulkového editoru, rozsah, zápis do buňky, klávesové zkratky

Činnost: 1) Vyhodnotí se výraz E. 2) Jeho hodnota se uloží do proměnné V.

Jednoznačné a nejednoznačné gramatiky

Vyplňování souvislé oblasti

Návody k domácí části I. kola kategorie A

2D standard pro jízdní doklady ČD, a.s.

1. série. Pohádky. Téma: Datumodeslání:

Přidávání animací do programů

Algoritmizace a programování

Rámcový manuál pro práci s programem TopoL pro Windows

Paralelní LU rozklad

Teoretická Informatika

Čl. 4 Účastníci výběrového řízení

František Hudek. červen ročník

Úvod do simulace - 1

síťová verze - zaúčtování příjemek / výdejek POZOR! <ENTER> párování příjemek s fakturou umazávání plachty při nízkém kreditu

BAKALÁŘSKÁ PRÁCE. Numerické metody jednorozměrné minimalizace

12. Aproximační algoritmy

Transkript:

Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009 Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 1 / 22

Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka & bolest svalů = ano then chřipka Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 2 / 22

Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka & bolest svalů = ano then chřipka if teplota=horečka & bolest svalů = ne then nachlazení Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 2 / 22

Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka & bolest svalů = ano then chřipka if teplota=horečka & bolest svalů = ne then nachlazení if teplota=zvýšená then nachlazení Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 2 / 22

Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka & bolest svalů = ano then chřipka if teplota=horečka & bolest svalů = ne then nachlazení if teplota=zvýšená then nachlazení if teplota=normální then hypochondr Pravidla lze ale hledat i přímo z dat. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 2 / 22

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 3 / 22

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký & bydliště = Praha & pohlaví = M then splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 3 / 22

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký & bydliště = Praha & pohlaví = M then splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 3 / 22

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký & pohlaví = M then splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 3 / 22

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký & pohlaví = M then splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 3 / 22

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký then splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 3 / 22

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký then splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 3 / 22

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký then splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 3 / 22

Hledání pravidla Chceme najít nejlepší pravidlo pro třídu splácí příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí if příjem = vysoký then splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 3 / 22

Zobecňování podmínek Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 4 / 22

Zobecňování podmínek Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 4 / 22

Zobecňování podmínek Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 4 / 22

Zobecňování podmínek Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 4 / 22

Zobecňování podmínek Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 4 / 22

Alternativa: specializace podmínek Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 5 / 22

Alternativa: specializace podmínek Nemá smysl dále specializovat. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 5 / 22

Specializace bez předem zvoleného příkladu Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 6 / 22

Specializace bez předem zvoleného příkladu Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 6 / 22

Specializace bez předem zvoleného příkladu Mnohem větší prohledávací prostor, ale pravidlo může být nakonec lepší. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 6 / 22

Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 7 / 22

Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1 if příjem = vysoký then splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 7 / 22

Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1 if příjem = vysoký then splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 7 / 22

Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1 if příjem = vysoký then splácí 2 if příjem = střední then splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 7 / 22

Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1 if příjem = vysoký then splácí 2 if příjem = střední then splácí Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 7 / 22

Pokrývací strategie příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí 1 if příjem = vysoký then splácí 2 if příjem = střední then splácí Pokrývací strategie 1 Vygeneruj co nejobecnější konzistentní pravidlo a vymaž pokryté příklady. 2 Opakuj krok 1, dokud jsou některé příklady nepokryté. Tyto kroky postupně uplatni na každou třídu. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 7 / 22

Algoritmus pro tvorbu seznamu rozhodovacích pravidel AQ(D) /* by Richard Michalski */ Input: D trénovací data SeznamPravidel = for každou třídu t do P = instance třídy t z D N = ostatní instance D repeat Najdi pravidlo R pokrývající nějaké instance z P a nepokrývající žádný příklad z N (konzistentní) Přidej R do SeznamPravidel Vymaž z P všechny instance pokryté pravidlem R until P = ; end Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 8 / 22

Separace seznamem pravidel Separace v prostoru dvou reálných příznaků Zvolen jeden modrý příklad Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 9 / 22

Separace seznamem pravidel Separace v prostoru dvou reálných příznaků Zobecnění s použítím hraničních hodnot (předchozí diskretizace) Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 9 / 22

Separace seznamem pravidel Separace v prostoru dvou reálných příznaků Přidání dalšího pravidla Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 9 / 22

Separace seznamem pravidel Separace v prostoru dvou reálných příznaků Výsledek pokrývacího algoritmu Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 9 / 22

Neúplnost klasifikace podle pravidel Některé instance seznam pravidel nemusí rozhodnout! Narozdíl od rozhodovacího stromu Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 10 / 22

Neúplnost klasifikace podle pravidel Řeší se zavedením implicitního (default) pravidla if true then většinová třída které se použije, pokud podmínky žádného jiného pravidla neplatí. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 10 / 22

Konflikt pravidel Pravidlo pro modrou třídu Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 11 / 22

Konflikt pravidel Potom pravidlo pro zelenou třídu. Překrytí - konflikt! Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 11 / 22

Konflikt pravidel Jak seznamem klasifikovat novou instanci? Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 11 / 22

Konflikt pravidel Modře, protože modré pravidlo je v seznamu dřív. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 11 / 22

Konflikt pravidel Modře, protože modré pravidlo je v seznamu dřív. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 11 / 22

Konflikt pravidel Při obráceném pořadí pravidel klasifikujeme instanci zeleně. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 11 / 22

Konflikt pravidel Na pořadí pravidel záleží! Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 11 / 22

Konflikt pravidel Důsledek: implicitní pravidlo vždy na konec seznamu. if true then většinová třída Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 11 / 22

Rozhodovací pravidla a asociace Hledání nejlepších podmínek rozhodovacího pravidla je vlastně hledání častých asociací v dané třídě instancí. if příjem=vysoký & bydliště=praha } {{ } častá asociace then Asociace konjunkce současně platných podmínek splácí } {{ } v této třídě Chceme, aby platila v co nejvíce instancích dané třídy a žádné instanci ostatních tříd. Co kdybychom jako třídu chápali všechny instance v datech? Cíl se zjednoduší: chceme asociace platné v co nejvíce instancích dat. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 12 / 22

Asociace Chceme najít asociace platné v co nejvíce instancích dat. Nejlepší řešení je triviální: prázdná konjuknce podmínek, tj. true. Platí ve všech instancích, ale není ničím zajímavá! Rozšiřme tedy zadání: chceme všechny asociace platné alespoň v p% instancí. Veličina p: tzv. podpora (support) Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 13 / 22

Podpora asociace Podpora: podíl instancí, v nichž asociace platí, mezi všemi instancemi příjem bydliště pohlaví úvěr vysoký Praha M splácí vysoký Plzeň M splácí nízký Praha M nesplácí vysoký Praha Ž splácí střední Brno M splácí Asociace A = příjem = vysoký & bydliště = Praha má podporu 2/5 = 0.4. Zapisujeme podp(a) = 0.4 Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 14 / 22

Podpora asociace Všechny asociace s podporou alespoň 0.4 příjem vysoký vysoký nízký vysoký střední bydliště Praha Plzeň Praha Praha Brno Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 15 / 22

Podpora asociace Všechny asociace s podporou alespoň 0.4 příjem vysoký vysoký nízký vysoký střední bydliště Praha Plzeň Praha Praha Brno 1 true Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 15 / 22

Podpora asociace Všechny asociace s podporou alespoň 0.4 příjem vysoký vysoký nízký vysoký střední bydliště Praha Plzeň Praha Praha Brno 1 true 2 příjem = vysoký Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 15 / 22

Podpora asociace Všechny asociace s podporou alespoň 0.4 příjem vysoký vysoký nízký vysoký střední bydliště Praha Plzeň Praha Praha Brno 1 true 2 příjem = vysoký 3 bydliště = Praha Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 15 / 22

Podpora asociace Všechny asociace s podporou alespoň 0.4 příjem vysoký vysoký nízký vysoký střední bydliště Praha Plzeň Praha Praha Brno 1 true 2 příjem = vysoký 3 bydliště = Praha 4 příjem = vysoký & bydliště = Praha Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 15 / 22

Podpora asociace Všechny asociace s podporou alespoň 0.4 příjem vysoký vysoký nízký vysoký střední bydliště Praha Plzeň Praha Praha Brno 1 true 2 příjem = vysoký 3 bydliště = Praha 4 příjem = vysoký & bydliště = Praha Asociace, které mají požadovanou podporu, se nazývají časté. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 15 / 22

Analýza transakcí Hledání asociací se uplatňuje zejm. v analýze transakcí ( analýze nákupních košíků ) Příznaky: položky sortimentu. Instance: obsah nákupního košíku. Hodnoty příznaků {ano, ne}. pivo párky horčice pleny ano ne ne ano ne ano ano ne Zde místo např. pivo = ano & pleny = ano zapisujeme (a chápeme) asociaci jako množinu položek, např. {pivo, pleny} Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 16 / 22

Princip monotonicity pivo párky horčice pleny ano ne ne ano ano ne ano ano ne ano ano ne ano ano ano ne ano ano ano ano Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 17 / 22

Princip monotonicity Pozorování: pivo párky horčice pleny ano ne ne ano ano ne ano ano ne ano ano ne ano ano ano ne ano ano ano ano Není-li množina položek častá, pro p = 0.5 např. {pivo, párky, hořčice} Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 17 / 22

Princip monotonicity Pozorování: pivo párky horčice pleny ano ne ne ano ano ne ano ano ne ano ano ne ano ano ano ne ano ano ano ano Není-li množina položek častá, pro p = 0.5 např. {pivo, párky, hořčice} není časté ani jakékoliv její rozšíření, např. {pivo, párky, hořčice, pleny} Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 17 / 22

Hledání častých množin položek algoritmem APRIORI Postupujeme s vyšších pater do nižších (specializace). Prázdná množina je vždy častá. Kandidáti o patro níž: {A}, {B}, {C}, {D}. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 18 / 22

Hledání častých množin položek algoritmem APRIORI Postupujeme s vyšších pater do nižších (specializace). V databázi zjistíme, že {B} není časté, ostatní kandidáti ano. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 18 / 22

Hledání častých množin položek algoritmem APRIORI Postupujeme s vyšších pater do nižších (specializace). {AB}, {BC}, {BC} nemohou být časté (monotonicita). Zbývají kandidáti {AC}, {AD}, {CD}. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 18 / 22

Hledání častých množin položek algoritmem APRIORI Postupujeme s vyšších pater do nižších (specializace). V databázi zjistíme, že jsou všichni kandidáti častí. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 18 / 22

Hledání častých množin položek algoritmem APRIORI Postupujeme s vyšších pater do nižších (specializace). V dalším patře už pouze kandidát {ACD}. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 18 / 22

Hledání častých množin položek algoritmem APRIORI Postupujeme s vyšších pater do nižších (specializace). V databázi zjistíme, že kandidát není častý. Žádné další časté množiny nejsou. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 18 / 22

Asociační pravidlo Pravidlo ve tvaru if Ant then Suc kde Ant a Suc jsou množiny položek nazývané antecedent resp. sukcedent. Pravidlo též zapisujeme jako Ant Suc Podpora asociačního pravidla R definována jako podp(ant Suc) = podp(ant Suc) Spolehlivost (confidence) asociačního pravidla R definována jako spol(ant Suc) = podp(ant Suc) podp(ant) Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 19 / 22

Asociační pravidlo Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 20 / 22

Hledání asociačních pravidel algoritmem APRIORI Hledáme pravidla Ant Suc, která jsou častá (tj. s podporou alespoň p) a spolehlivá (tj. se spolehlivostí alespoň s). Je-li pravidlo Ant Suc časté, tak množina položek (asociace) Ant Suc je častá. Nejprve tedy najdeme všechny časté množiny položek. Pro každou častou množinu položek X a každou její neprázdnou vlastní podmnožinu M X zkusíme, zda podp(x ) podp(m) p Pokud ano, tak pravidlo M M \ X je časté a spolehlivé. Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 21 / 22

Hledání asociačních pravidel: příklad Hledáme asociační pravidla s podporou alespoň 0.1 a spolehlivostí alespoň 0.6. Právě 13% nákupních košíků obsahuje každou položku z množiny {párky, hořčice, pivo, otvírák} Množina je tedy častá. Vyberme nějakou její vlastní neprázdnou podmnožinu, např. {párky, hořčice} Pravidlo {párky, hořčice} {pivo, otvírák} má podporu 13%. Pokud navíc právě 19% nákupních košíků obsahuje párky i horčici, má pravidlo spolehlivost a je tedy časté i spolehlivé. 13 19 > 0.6 Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 22 / 22