Tvorba asociačních pravidel a hledání častých skupin položek

Podobné dokumenty
Tvorba asociačních pravidel a hledání. položek

Dolování asociačních pravidel

Základy vytěžování dat

Pravidlové systémy. Klasifikační pravidla. Asociační pravidla.

hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku

Asociační pravidla. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna Filip Železný (ČVUT) Vytěžování dat 9.

Asociační i jiná. Pravidla. (Ch )

Analytické procedury v systému LISp-Miner

Projekt LISp-Miner. M. Šimůnek

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Získávání znalostí z databází. Alois Kužela

Vzdálenost uzlů v neorientovaném grafu

Kapitola 7: Návrh relačních databází. Nástrahy relačního návrhu. Příklad. Rozklad (dekompozice)

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 4 Asociační pravidla

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Informační systémy pro podporu rozhodování

Pojem binární relace patří mezi nejzákladnější matematické pojmy. Binární relace

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Úloha ve stavovém prostoru SP je <s 0, C>, kde s 0 je počáteční stav C je množina požadovaných cílových stavů

Algoritmy na ohodnoceném grafu

Pravděpodobně skoro správné. PAC učení 1

1.3. Číselné množiny. Cíle. Průvodce studiem. Výklad

Úlohy k procvičování textu o univerzální algebře

PŘEDNÁŠKA 2 POSLOUPNOSTI

IV. Základní pojmy matematické analýzy IV.1. Rozšíření množiny reálných čísel

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

TOPOLOGIE A TEORIE KATEGORIÍ (2017/2018) 3. PREDNÁŠKA - KOMPAKTNÍ PROSTORY.

MIDTERM D. Příjmení a jméno:

Jan Pavĺık. FSI VUT v Brně

NORMALIZACE Část 2 1

Algoritmus pro hledání nejkratší cesty orientovaným grafem

Profitabilita klienta v kontextu Performance management

Stromy, haldy, prioritní fronty

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Matematická analýza 1

Základní datové struktury III: Stromy, haldy

DobSort. Úvod do programování. DobSort Implementace 1/3. DobSort Implementace 2/3. DobSort - Příklad. DobSort Implementace 3/3

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

Základní pojmy teorie množin Vektorové prostory

NPRG030 Programování I, 2018/19 1 / :03:07

Zdůvodněte, proč funkce n lg(n) roste alespoň stejně rychle nebo rychleji než než funkce lg(n!). Symbolem lg značíme logaritmus o základu 2.

Dynamické datové struktury III.

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

Obsah přednášky. Databázové systémy. Normalizace relací. Normalizace relací. Normalizace relací. Normalizace relací

2. přednáška - PRAVDĚPODOBNOST

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Markov Chain Monte Carlo. Jan Kracík.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Kapitola 1. Úvod. 1.1 Značení. 1.2 Výroky - opakování. N... přirozená čísla (1, 2, 3,...). Q... racionální čísla ( p, kde p Z a q N) R...

PŘEDNÁŠKA 7 Kongruence svazů

4. NP-úplné (NPC) a NP-těžké (NPH) problémy

Doporučené příklady k Teorii množin, LS 2018/2019

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Test prvočíselnosti. Úkol: otestovat dané číslo N, zda je prvočíslem

Turingovy stroje. Teoretická informatika Tomáš Foltýnek

Konečně,všechnyaspoňdvouprvkovémnožinyužzřejměgenerujíceléZ 5.Zjistili jsme,žealgebra(z 5,+)obsahujeprávědvěpodalgebry {0}aZ 5.

1 Báze a dimenze vektorového prostoru 1

NAIVNÍ TEORIE MNOŽIN, okruh č. 5

6. Tahy / Kostry / Nejkratší cesty

5 Informace o aspiračních úrovních kritérií

jedna hrana pro každou možnou hodnotu tohoto atributu; listy jsou označeny předpokládanou hodnotou cílového atributu Atribut Outlook

Úvod do informatiky. Miroslav Kolařík. Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008.

Množiny. množinové operace jsou mírně odlišné od

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Pravděpodobnost a její vlastnosti

Doplňování chybějících hodnot v kategoriálních datech 2.00

Náhodné jevy. Teorie pravděpodobnosti. Náhodné jevy. Operace s náhodnými jevy

Dynamické programování

2. Množiny, funkce. Poznámka: Prvky množiny mohou být opět množiny. Takovou množinu, pak nazýváme systém množin, značí se

p 2 q , tj. 2q 2 = p 2. Tedy p 2 je sudé číslo, což ale znamená, že

Vysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner

Rozhodovací pravidla

Vrcholová barevnost grafu

TOPOLOGIE A TEORIE KATEGORIÍ (2017/2018) 4. PREDNÁŠKA - SOUČIN PROSTORŮ A TICHONOVOVA VĚTA.

Lineární algebra Kapitola 1 - Základní matematické pojmy

Úloha - rozpoznávání číslic

1. Implementace funkce počet vrcholů. Předmět: Algoritmizace praktické aplikace (3ALGA)

V ypoˇ cetn ı sloˇ zitost v teorii graf u Martin Doucha

Negativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1

Hranová konzistence. Arc consistency AC. Nejprve se zabýváme binárními CSP. podmínka odpovídá hraně v grafu podmínek

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Rozhodovací stromy a jejich konstrukce z dat

Binární vyhledávací stromy pokročilé partie

Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF)

Pracovní listy - programování (algoritmy v jazyce Visual Basic) Algoritmus

Teorie množin. Čekají nás základní množinové operace kartézské součiny, relace zobrazení, operace. Teoretické základy informatiky.

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Radim Navrátil. Robust 24. ledna 2018

METRICKÉ A NORMOVANÉ PROSTORY

Implementace LL(1) překladů

Grafové algoritmy. Programovací techniky

Grafové algoritmy. Programovací techniky

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Matematika I, část I. Rovnici (1) nazýváme vektorovou rovnicí roviny ABC. Rovina ABC prochází bodem A a říkáme, že má zaměření u, v. X=A+r.u+s.

Transkript:

Tvorba asociačních pravidel a hledání častých skupin položek 1

Osnova Asociace a transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla Aplikace 2

Příklad transakcí TID Products 1 MILK, BREAD, EGGS 2 BREAD, SUGAR 3 BREAD, CEREAL 4 MILK, BREAD, SUGAR 5 MILK, CEREAL 6 BREAD, CEREAL 7 MILK, CEREAL 8 MILK, BREAD, CEREAL, EGGS 9 MILK, BREAD, CEREAL 3

Asociace Nechť Ije množina položek. Množinu Z I označujeme jako asociaci, pokud frekvence, s jakou se Z vyskytuje, je výrazně odlišná od toho, co bychom očekávali na základě frekvencí výskytů jednotlivých prvků X Ζ. Příklad: Nechť párky Pse vyskytují v nákupním košíku u 10% zákazníků a hořčice Hu 4%. Očekávali bychom tedy, ze {P, H }se bude vyskytovat u 0,4 % zákazníků. Ovšem frekvence {P, H }je ve skutečnosti 1%. Tedy {P, H }je asociace. 4

Databáze transakcí příkladu TID Položky transakce 1 A, B, E 2 B, D 3 B, C 4 A, B, D 5 A, C 6 B, C 7 A, C 8 A, B, C, E 9 A, B, C POLOŽKY: A = milk B= bread C= cereal D= sugar E= eggs TID Products 1 MILK, BREAD, EGGS 2 BREAD, SUGAR 3 BREAD, CEREAL 4 MILK, BREAD, SUGAR 5 MILK, CEREAL 6 BREAD, CEREAL 7 MILK, CEREAL 8 MILK, BREAD, CEREAL, EGGS 9 MILK, BREAD, CEREAL Jednotlivé instance = transakce položek 5

Databáze transakcí příkladů Uniformní reprezentace: položky převedeny na binární údaje TID Položky transakce 1 A, B, E 2 B, D 3 B, C 4 A, B, D 5 A, C 6 B, C 7 A, C 8 A, B, C, E 9 A, B, C TID A B C D E 1 1 1 0 0 1 2 0 1 0 1 0 3 0 1 1 0 0 4 1 1 0 1 0 5 1 0 1 0 0 6 0 1 1 0 0 7 1 0 1 0 0 8 1 1 1 0 1 9 1 1 1 0 0 6

Definice Položka (item): pár tvaru atribut=hodnotanebo jen hodnota Obvykle se z každého atributu vytvoří několik binárních údajů odpovídajících možným hodnotám, např. Produkt = A se píše jako A Množina položek I (itemset) : podmnožina všech uvažovaných položek Příklad: I = {A,B,E} (pořadí není podstatné) Transakce: (TID, množina položek) TID je identifikátor transakce(její ID) 7

Osnova Asociace a transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla Aplikace 8

Podpora a časté množiny položek Podpora(support) množiny položek I sup(i) = počettransakcí t, které svědčí pro (tj. obsahují) I Pro náš příklad: sup ({A,B,E}) = 2, sup ({B,C}) = 4 Množina častých položeki je ta množina, TID A B C D E 1 1 1 0 0 1 2 0 1 0 1 0 3 0 1 1 0 0 4 1 1 0 1 0 5 1 0 1 0 0 6 0 1 1 0 0 7 1 0 1 0 0 8 1 1 1 0 1 9 1 1 1 0 0 jejíž podpora je vyšší než předem stanovené minimum minsup: sup(i ) >= minsup Je-li všech položek n, pak možných podmnožin je 2 n. Je to problém? Můžeme najít všechny množiny častých položek tak, že postupně prohlédneme všechny podmnožiny položek? 9

Jak rostou zajímavé funkce? Funkce\N 10 50 100 300 1000 N* log N 33 282 665 2469 9966 N 2 100 2500 10 000 90 000 10 6 N 3 1000 125 000 10 6 27 *10 6 10 9 2 N 1024 10 14 10 29 10 89 10 300 N! 3,6 * 10 6 10 63 10 159 10 621 N N 10 10 10 83 10 200 10 742 Počet protonů ve známém vesmíru 10 77 Vzdálenost Big bang - dnešek? 10 22 µs =10 16 s Úlohy exp. složitosti nelze řešit hrubou silou! 10

Osnova Asociace a transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla Aplikace 11

Apriori vlastnost podmnožin Každá podmnožina množiny častých položek je také množinou častých položek! Otázka: Proč? Příklad: Předpokládejme, že{a,b} je častý pár položek. Protože každý výskyt svědčící pro {A,B} musí obsahovat i položkua, musí být i položkaa častá (obdobně pro B) Podobnýargument platí i pro větší množiny položek Takřka všechny algoritmy pro konstrukci asociačních pravidel využívají této vlastnosti množin častých položek! 12

Hledání častých položek Postup zdola nahoru: vyhledáme nejdřív všechny jednoprvkové množiny častých položek(to je lehké ) JAK? Stačí spočítat frekvence jednotlivých položek Princippro dalšíkroky: 1-prvkové množiny častých položek lze použít k vytvoření kandidátů na 2-prvkové množiny častých položek. Jen kandidáti se prověřují a z nich jsou vybrány SKUTEČNÉ 2-prvkové množiny častých položek! 2-prvkové k vytvoření 3-prvkových množin, 13

Hledání množin častých položek Pokud{A,B} je častá množina položek, pak{a} i {B} musí být rovněž častými množinami položek! Obecně: pokudx je množina častých položek s k-prvky, pak všechny její podmnožiny četnosti(k-1), tj. ty obsahující právě(k-1) položek, musí být rovněž množinami častých položek. Apriori algoritmus(agrawal & Srikant) Najdi množiny častých položek o 1 prvku a pokračuj na četnosti vždy o 1 vyšší pomocí cyklu, který tvoří následující dva kroky: Krok spoj : Kandidáty na množiny častých položek o k-prvcích lze zkonstruovat jako rozšíření množin častých prvků o (k-1)-prvcích. Krok prořež : Z množiny kandidátů se pak vyberou jen ty podmnožiny, které mají v databází transakcí dostatečnou podporu. 14

15 Příklad Předpokládejme, že máme 5 množin častých položek o 3 prvcích (A B C), (A B D), (A C D), (A C E), (B C D) Které množiny o 4 prvcích jsou vhodnými kandidáty? (A B C D ) Otázka: Je OK? Odpověď: Ano, protože všechny její 3-prvkové podmožiny jsou časté! (A C D E) Otázka: Je OK? Odpověď:Ne, protože(c D E) není množinou častých položek Hledání odpovědí usnadňuje, když položky v množinách uvádíme v lexicografickém uspořádání!

Osnova Asociace a transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla a jejich tvorba Aplikace 16

Asociační pravidla Asociačnípravidlo R: Množina_pol1 => Množina_pol2 Význam: Pokud transakce obsahujeprvky z Množina_pol1, pak také obsahuje prvky z Množina_pol2 Množina_pol1i Množina_pol2jsou disjunktní(mají prázdný průnik) a Množina_pol2 je neprázdná! 17 Příklady A,B => C A,B => C,E A => B,C A,B =>D TID A B C D E 1 1 1 0 0 1 2 0 1 0 1 0 3 0 1 1 0 0 4 1 1 0 1 0 5 1 0 1 0 0 6 0 1 1 0 0 7 1 0 1 0 0 8 1 1 1 0 1 9 1 1 1 0 0

Od množin častých položek k asociačním pravidlům Otázka: Jaká asociační pravidla lze sestrojit z množiny častých položek{a,b,e}? A => B, E A, B => E A, E => B B => A, E B, E => A E => A, B => A,B,E (prázdné pravidlo), zapisované také jako true => A,B,E 18

Pravdila klasifikační X asociační Klasifikační pravidla ( stromy) Úlohou je určit cílovou třídu (hodnota specifického atributu) Třída musí být předem známa pro všechny zpracovávané příklady Používaná míra : přesnost klasifikace na testovacímnožině dat Asociační pravidla Neomezují se na jediný cílový atribut Má smysl použít i v případě neklasifikovaných příkladů Používané míry : podpora, spolehlivost, zdvih 19

Asociační pravidlo R : I => J : jeho podpora a spolehlivost Definujeme základní míry významu pravidla R,kterými jsou podpora (support) : sup (R) = sup (I J) odpovídající podpoře množiny všech položek, které se v R vyskytují, tj. I J spolehlivost(confidence): conf (R) = sup(i J) / sup(i) vyjadřující informaci o tom, jaká část z transakcí, ve kterých se vyskytují všechny položky tvořící množinu předpokladů I pravidla R, obsahuje také položky J tvořící závěr tohoto pravidla 20

Jaká je spolehlivost pravidla A => B? Nechť A B mají dostatečnou podporu: výčet všech možných situací Conf(A=> B) je vysoká Conf(B => A) je nízká Conf(A=> B) je nízká Conf(B => A) je nízká 21 Conf(A=> B) je nízká Conf(B => A) je vysoká Conf(A=> B) je vysoká Conf(B => A) je vysoká

Nejčastěji používané míry pro Ant => Suc a je mohutnost množiny všechtransakcí s položkamiant Suc Suc Non (Suc) Ant a b r = a+b Non (Ant) c d s = c+d a+c = k l= b+d n= r+s spolehlivost(confidence) = a/r podpora(support) = a/n pokrytí(cover) = a/k Zdvih (lift, above average )= an/rk = p Poměr spolehlivosti uvažovaného pravidla a/r (tedy frekvence Sucmezi transakcemi, které splňují Ant) a spolehlivosti pravidla => Suc (frekv. Suc mezi všemi transakcemi, tj. k/n) určuje hodnotu p, která říká kolikrát se díky předpokladu Ant spolehlivost zvýší, tj. a/r = p*(k/n) 22

Příklad: Úloha: Najděte všechna pravidla s minsup = 2 a minconf= 50% pro množinu častých položek {A,B,E }. conf (I => J )= sup(i J) / sup(i) A, B => E : conf=2/4 = 50% A, E => B : conf=2/2 = 100% B, E => A : conf=2/2 = 100% E => A, B : conf=2/2 = 100% Naopak následující pravidla požadovanou podmínku nesplňují A =>B, E : conf= 2/6 =33%< 50% B => A, E : conf= 2/7 = 28% < 50% TID List of items 1 A, B, E 2 B, D 3 B, C 4 A, B, D 5 A, C 6 B, C 7 A, C 8 A, B, C, E 9 A, B, C => A,B,E :conf= 2/9 = 22% < 50% 23

Generování asociačních pravidel Proces postupující zdola nahoru (od pravidel vytvořených z množin častých položek s nejmenší mohutností směrem k množinám s více prvky) rozdělený do 2 fází: 1. Výstup := Ø, k:= 1 2. Najděte množiny častých položek dané mohutnosti k, např. algoritmem Apriori. Pokud žádná taková množina není, pak KONEC 3. Pro každou množinu I častých položek nalezněte asociační pravidla platná ve studovaných datech Pro každou neprázdnou podmnožinu J množiny I Prověřte platnost asociačního pravidla: I-J=> J aplatné pravidlo přidejte do množiny Výstup 4. k:= k+1 5. Jdi na bod 2. Apriori vlastnost přispívá k efektivitě celého procesu v bodě 2i 3!(díky tomu, že některé mohutnosti byly na datech spočítány už v předchozích krocích výpočtu) 24

Příklad na generování pravidel Množina častých položek z dat golf/tenis : Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Je toto množina častých položek? {Humidity = normal, Windy = False, Play = Yes } Podpora je 4 Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes 25 Rainy Mild High True No

Outlook Temp Humidity Windy Play Sunny Hot High False No Určete spolehlivost pro všechna pravidla ze zvolené množiny častých položek: {Humidity = Normal,Windy = False, Play =Yes} 7 potenciálních pravidel(dva typy zápisu) : If Humidity = Normal & Play = Yes then Windy = False {Humidity = Normal,Play = Yes} => {Windy = False} 4/6 Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No If Humidity = Normal and Play = Yes then Windy = False If Windy = False and Play = Yes then Humidity = Normal If Humidity = Normal then Windy = False and Play = Yes If Windy = False then Humidity = Normal and Play = Yes If Play = Yes then Humidity = Normal and Windy = False If True then Humidity = Normal and Windy = False and Play = Yes If Humidity = Normal & Windy = False then Play = Yes 4/4 26 4/6 4/6 4/7 4/8 4/9 4/14

Pravidla pro data golf/tenis Jaká jsou pravidla mající sup > 1 a conf = 100%? Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes 27 Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No Association rule Sup. Conf. 1 Humidity=Normal & Windy=False Play=Yes 4 100% 2 Temperature=Cool Humidity=Normal 4 100% 3 Outlook=Overcast Play=Yes 4 100% 4 Temperature=Cold & Play=Yes Humidity=Normal 3 100%............... 58 Outlook=Sunny & Temperature=Hot Humidity=High 2 100% Celkem: 3 pravidla sesup=4, 5 ssup=3 a 51sesup=2

Filtrování asociačních pravidel Problém:Každý rozsáhlý datovýsoubor vede ke vzniku obrovského množství různých asociačních pravidel, a to i v případě, že požadujeme rozumnou minimálníspolehlivost a podporu. Asociační pravidla, která mají vyšší hodnotu podpory aspolehlivosti, než je předem zvolená hodnota pro min_sup a min_conf, se nazývají silná (strong) pravidla Spolehlivost sama o sobě nestačí k výběru opravdu zajímavých pravidel! Proč? Nechť všechny transakce v souboru obsahují množinu položek Z, Jakou spolehlivost má libovolné pravidlo tvaru I => Z? 28

Filtrování asociačních pravidel Problém:Každý rozsáhlý datový soubor vede ke vzniku obrovského množství různých asociačních pravidel, a to i v případě, že požadujeme rozumnou minimálníspolehlivost a podporu. Asociační pravidla, která mají vyšší hodnotu podpory aspolehlivosti, než je předem zvolená hodnota pro min_sup a min_conf, se nazývají silná (strong) pravidla Spolehlivost sama o sobě nestačí k výběru opravdu zajímavých pravidel! Např.pokud všechny transakce v souboru obsahuji množinu položek Z, pak libovolné pravidlo tvaru I => Zbude mít spolehlivost100%. Pak je třeba využít i další míry profiltrování pravidel 29

podpora(support) = a/n spolehlivost (confidence) = a/r pokrytí (cover) = a/k lift(zdvih) = (a/r)/(k/n)= a*n/(r*k) Zdvih určuje stupeň, o nějž pravidlo zlepšuje přesnost defautnípredikce svého důsledku Suc na výchozích datech páka (leverage) = (a-r*k/n)/n = a*(1-1/lift)/n Hodnota udávající procento transakcí, které pravidlo pokývá navíc oproti odhadu, který bychom udělali za předpokladu, že Ant a Suc jsou nezávislé přesvědčivost (conviction)= r*l/(b*n)= (l/n)/(b/r) Podobá se zdvihu, ale soustředí se na transakce, které nejsou pokryty Suc.Proto využívá převrácený poměr četností! 30 Další míry pro pravidlo Ant => Suc Suc Non (Suc) Ant a b r = a+b Non (Ant) k= a+c c d s = c+d l= b+d n= r+s

ZDVIH asoc. pravidla: interpretace Zdvih(lift) asociačníhopravidlai => Jjedefinovántakto: Zdvih: lift(i => J)= P(J I) / P(J) Připomenutí: P(J ) = (podporaj) / (počet všech transakcí) Poměr mezi spolehlivostí pravidla I => J apředpokládanou spolehlivostí tak, jak platí na výchozích datech Interpretace: Pokudlift(I => J)> 1, pak jsouia Jpositivně korelované pokud lift(i => J)< 1,pak jsouia J negativně korelované je-li lift(i => J)= 1, pak jsou I a J nezávislé 31

Osnova Transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla Aplikace 32

33 Aplikace Analýza spotřebního koše může být využita pro Změnu způsobu prezentace zboží (např. uspořádání zboří v prostoru) Tvorbu cílené nabídky dalšího zboží (např. v internet. Knihkupectví typu Amazon) Identifikaci překvapivých jevů jako např. Mléko se obvykle kupuje současně s chlebem. Toto však neplatí o sojovémmléce. Tyto jevy mohou být významné nebo mohou vypovídat třeba o organizaci výchozího experimentu, např. Pokud dlouhodobý kuřák přestává kouřit, jeho zdravotní stav se zhoršuje. Při analýze dat o pojistných událostech mohou asoc.pravidla upozornit na jevy, které si zaslouží uvažovat o novém typu služby if(car=porsche & Gender=Male & Age < 20) then (Risk=high& Insurance = high), např. identifikace změny (WSARE What is Strange About Recent Events),

* Doporučená literatura Jan Rauch, Milan Šimůnek: Dobývání znalostí z dat, LISp- Miner a GUHA, OECONOMICA, Nakladatelství VŠE, Praha 2014