Tvorba asociačních pravidel a hledání. položek



Podobné dokumenty
Tvorba asociačních pravidel a hledání častých skupin položek

Dolování asociačních pravidel

Základy vytěžování dat

Pravidlové systémy. Klasifikační pravidla. Asociační pravidla.

Asociační pravidla. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p

hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna Filip Železný (ČVUT) Vytěžování dat 9.

Asociační i jiná. Pravidla. (Ch )

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

PŘEDNÁŠKA 2 POSLOUPNOSTI

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Získávání znalostí z databází. Alois Kužela

Kapitola 7: Návrh relačních databází. Nástrahy relačního návrhu. Příklad. Rozklad (dekompozice)

Úloha ve stavovém prostoru SP je <s 0, C>, kde s 0 je počáteční stav C je množina požadovaných cílových stavů

Pravděpodobně skoro správné. PAC učení 1

Pojem binární relace patří mezi nejzákladnější matematické pojmy. Binární relace

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 4 Asociační pravidla

TOPOLOGIE A TEORIE KATEGORIÍ (2017/2018) 3. PREDNÁŠKA - KOMPAKTNÍ PROSTORY.

Vzdálenost uzlů v neorientovaném grafu

Zdůvodněte, proč funkce n lg(n) roste alespoň stejně rychle nebo rychleji než než funkce lg(n!). Symbolem lg značíme logaritmus o základu 2.

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

MIDTERM D. Příjmení a jméno:

Informační systémy pro podporu rozhodování

Úlohy k procvičování textu o univerzální algebře

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

IV. Základní pojmy matematické analýzy IV.1. Rozšíření množiny reálných čísel

Matematická analýza 1

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Algoritmy na ohodnoceném grafu

Jan Pavĺık. FSI VUT v Brně

Algoritmus pro hledání nejkratší cesty orientovaným grafem

1.3. Číselné množiny. Cíle. Průvodce studiem. Výklad

Analytické procedury v systému LISp-Miner

Stromy, haldy, prioritní fronty

Základní datové struktury III: Stromy, haldy

DobSort. Úvod do programování. DobSort Implementace 1/3. DobSort Implementace 2/3. DobSort - Příklad. DobSort Implementace 3/3

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Pravděpodobnost a její vlastnosti

NORMALIZACE Část 2 1

TOPOLOGIE A TEORIE KATEGORIÍ (2017/2018) 4. PREDNÁŠKA - SOUČIN PROSTORŮ A TICHONOVOVA VĚTA.

Dynamické datové struktury III.

Pravděpodobnost a statistika

Obsah přednášky. Databázové systémy. Normalizace relací. Normalizace relací. Normalizace relací. Normalizace relací

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Projekt LISp-Miner. M. Šimůnek

V ypoˇ cetn ı sloˇ zitost v teorii graf u Martin Doucha

Náhodné jevy. Teorie pravděpodobnosti. Náhodné jevy. Operace s náhodnými jevy

Profitabilita klienta v kontextu Performance management

4. NP-úplné (NPC) a NP-těžké (NPH) problémy

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

PŘEDNÁŠKA 7 Kongruence svazů

Základní pojmy teorie množin Vektorové prostory

NPRG030 Programování I, 2018/19 1 / :03:07

Kapitola 1. Úvod. 1.1 Značení. 1.2 Výroky - opakování. N... přirozená čísla (1, 2, 3,...). Q... racionální čísla ( p, kde p Z a q N) R...

Turingovy stroje. Teoretická informatika Tomáš Foltýnek

10 Přednáška ze

Doporučené příklady k Teorii množin, LS 2018/2019

Test prvočíselnosti. Úkol: otestovat dané číslo N, zda je prvočíslem

METRICKÉ A NORMOVANÉ PROSTORY

Teorie množin. Čekají nás základní množinové operace kartézské součiny, relace zobrazení, operace. Teoretické základy informatiky.

Úloha - rozpoznávání číslic

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.

Negativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1

2. přednáška - PRAVDĚPODOBNOST

NAIVNÍ TEORIE MNOŽIN, okruh č. 5

6. Tahy / Kostry / Nejkratší cesty

Rozhodovací stromy a jejich konstrukce z dat

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

2. Množiny, funkce. Poznámka: Prvky množiny mohou být opět množiny. Takovou množinu, pak nazýváme systém množin, značí se

jedna hrana pro každou možnou hodnotu tohoto atributu; listy jsou označeny předpokládanou hodnotou cílového atributu Atribut Outlook

Hranová konzistence. Arc consistency AC. Nejprve se zabýváme binárními CSP. podmínka odpovídá hraně v grafu podmínek

Úvod do informatiky. Miroslav Kolařík. Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008.

Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF)

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Markov Chain Monte Carlo. Jan Kracík.

p 2 q , tj. 2q 2 = p 2. Tedy p 2 je sudé číslo, což ale znamená, že

teorie logických spojek chápaných jako pravdivostní funkce

PŘEDNÁŠKA 5 Konjuktivně disjunktivní termy, konečné distributivní svazy

0. ÚVOD - matematické symboly, značení,

Dynamické programování

Matematika I. Přednášky: Mgr. Radek Výrut, Zkouška:

Algoritmy výpočetní geometrie

Vrcholová barevnost grafu

Radim Navrátil. Robust 24. ledna 2018

Rozhodovací stromy a jejich konstrukce z dat

Konečně,všechnyaspoňdvouprvkovémnožinyužzřejměgenerujíceléZ 5.Zjistili jsme,žealgebra(z 5,+)obsahujeprávědvěpodalgebry {0}aZ 5.

Lineární algebra Kapitola 1 - Základní matematické pojmy

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

1 Báze a dimenze vektorového prostoru 1

Pravděpodobnost a statistika (BI-PST) Cvičení č. 2

ALGEBRA. Téma 4: Grupy, okruhy a pole

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Pracovní listy - programování (algoritmy v jazyce Visual Basic) Algoritmus

Binární vyhledávací stromy pokročilé partie

DATA MINING KLASIFIKACE DMINA LS 2009/2010

5 Informace o aspiračních úrovních kritérií

Projekty - Úvod do funkcionální analýzy

analytické geometrie v prostoru s počátkem 18. stol.

Transkript:

Tvorba asociačních pravidel a hledání častých skupin položek 1

Osnova Asociace Transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla Aplikace 2

Asociace Nechť I je množina položek. Množinu Z I označujeme jako asociaci, pokud frekvence, s jakou se Z vyskytuje, je výrazně odlišná od toho, co bychom očekávali na základě frekvencí výskytů jednotlivých prvků X Ζ. Příklad: Nechť párky P se vyskytují v nákupním košíku u 10% zákazníků a hořčice H u 4%. Očekávali bychom tedy, ze {P, H } se bude vyskytovat u 0,4 % zákazníků. Ovšem frekvence {P, H } je ve skutečnosti 1 %. Tedy {P, H } je asociace. 3

Příklad transakcí TID Produce 1 MILK, BREAD, EGGS 2 BREAD, SUGAR 3 BREAD, CEREAL 4 MILK, BREAD, SUGAR 5 MILK, CEREAL 6 BREAD, CEREAL 7 MILK, CEREAL 8 MILK, BREAD, CEREAL, EGGS 9 MILK, BREAD, CEREAL 4

Databáze transakcí příkladu TID Products 1 A, B, E 2 B, D 3 B, C 4 A, B, D 5 A, C 6 B, C 7 A, C 8 A, B, C, E 9 A, B, C POLOŽKY: A = milk B= bread C= cereal D= sugar E= eggs TID Produce 1 MILK, BREAD, EGGS 2 BREAD, SUGAR 3 BREAD, CEREAL 4 MILK, BREAD, SUGAR 5 MILK, CEREAL 6 BREAD, CEREAL 7 MILK, CEREAL 8 MILK, BREAD, CEREAL, EGGS 9 MILK, BREAD, CEREAL Jednotlivé instance = transakce položek 5

Databáze transakcí příkladů Uniformní reprezentace: položky převedeny na binární údaje TID Products 1 A, B, E 2 B, D 3 B, C 4 A, B, D 5 A, C 6 B, C 7 A, C 8 A, B, C, E 9 A, B, C TID A B C D E 1 1 1 0 0 1 2 0 1 0 1 0 3 0 1 1 0 0 4 1 1 0 1 0 5 1 0 1 0 0 6 0 1 1 0 0 7 1 0 1 0 0 8 1 1 1 0 1 9 1 1 1 0 0 6

Definice Položka (item): pár tvaru atribut =hodnota nebo jen hodnota Obvykle se z každého atributu vytvoří několik binárních údajů odpovídajících možným hodnotám, např. Produkt = A se píše jako A Množina položek I (itemset) : podmnožina všech uvažovaných položek Příklad: I = {A,B,E} (pořadí není podstatné) Transakce: (TID, množina položek) TID je identifikátor transakce (její ID) 7

Osnova Transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla Aplikace 8

Podpora a časté množiny položek Podpora (support) množiny položek I sup(i ) = počet transakcí t, které svědčí pro (tj. obsahují) I Pro náš příklad: sup ({A,B,E}) = 2, sup ({B,C}) = 4 Množina častých položek I je ta množina, TID A B C D E 1 1 1 0 0 1 2 0 1 0 1 0 3 0 1 1 0 0 4 1 1 0 1 0 5 1 0 1 0 0 6 0 1 1 0 0 7 1 0 1 0 0 8 1 1 1 0 1 9 1 1 1 0 0 jejíž podpora je vyšší než předem stanovené minimum minsup : sup(i ) >= minsup Můžeme najít všechny množiny častých položek tak, že postupně prohlédneme všechny podmnožiny položek? Je-li všech položek n, pak možných podmnožin je 2 n. Je to problém? 9

Jak rostou zajímavé funkce? Funkce\N 10 50 100 300 1000 N * log N 33 282 665 2469 9966 N 2 100 2500 10 000 90 000 10 6 N 3 1000 125 000 10 6 27 *10 6 10 9 2 N 1024 10 14 10 29 10 89 10 300 N! 3,6 * 10 6 10 63 10 159 10 621 N N 10 10 10 83 10 200 10 742 Počet protonů ve známém vesmíru 10 77 Vzdálenost Big bang - dnešek? 10 22 µs (tj.10-6 s) Úlohy exp. složitosti nelze řešit hrubou silou! 10

Osnova Transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla Aplikace 11

Apriori vlastnost podmnožin Každá podmnožina množiny častých položek je také množinou častých položek! Otázka: Proč? Příklad: Předpokládejme, že {A,B} je častý pár položek. Protože každý výskyt svědčící pro {A,B} musí obsahovat i položku A, musí být i položka A častá (obdobně pro B) Podobný argument platí i pro větší množiny položek Takřka všechny algoritmy pro konstrukci asociačních pravidel využívají této vlastnosti množin častých položek! 12

Hledání častých položek Postup zdola nahoru: vyhledáme nejdřív všechny jednoprvkové množiny častých položek (to je lehké ) JAK? Stačí spočítat frekvence jednotlivých položek Princip pro další kroky: 1-prvkové množiny častých položek lze použít k vytvoření kandidátů na 2-prvkové množiny častých položek, 2-prvkové k vytvoření 3-prvkových množin, 13

Hledání množin častých položek Pokud {A,B} je častá množina položek, pak {A} i {B} musí být rovněž častými množinami položek! Obecně: pokud X je množina častých položek s k-prvky, pak všechny její podmnožiny četnosti (k-1), tj. ty obsahující právě (k-1) položek, musí být rovněž množinami častých položek. Apriori algoritmus (Agrawal & Srikant) Najdi množiny častých položek o 1 prvku a pokračuj na četnosti vždy o 1 vyšší pomocí cyklu, který tvoří následující dva kroky: Krok spoj : Kandidáty na množiny častých položek o k-prvcích lze zkonstruovat jako rozšíření množin častých prvků o (k-1)-prvcích. Krok prořež : Z množiny kandidátů se pak vyberou jen ty podmnožiny, které mají v databází transakcí dostatečnou podporu. 14

15 Příklad Předpokládejme, že máme 5 množin častých položek o 3 prvcích (A B C), (A B D), (A C D), (A C E), (B C D) Které množiny o 4 prvcích jsou vhodnými kandidáty? (A B C D) Otázka: Je OK? Odpověď: Ano, protože všechny její 3-prvkové podmožiny jsou časté! (A C D E) Otázka: Je OK? Odpověď: Ne, protože (C D E) není množinou častých položek Hledání odpovědí usnadňuje, když položky v množinách uvádíme v lexicografickém uspořádání!

Osnova Transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla a jejich tvorba Aplikace 16

Asociační pravidla Asociační pravidlo R : Množina_pol1 => Množina_pol2 Množina_pol1 i Množina_pol2 jsou disjunktní (mají prázdný průnik) a Množina_pol2 je neprázdná Význam: Pokud transakce obsahuje prvky z Množina_pol1, pak také obsahuje prvky z Množina_pol2 Příklady A,B => C A,B => C,E A => B,C A,B =>D TID A B C D E 1 1 1 0 0 1 2 0 1 0 1 0 3 0 1 1 0 0 4 1 1 0 1 0 5 1 0 1 0 0 6 0 1 1 0 0 7 1 0 1 0 0 8 1 1 1 0 1 17 9 1 1 1 0 0

Pravdila klasifikační X asociační Klasifikační pravidla ( stromy) Úlohou je určit cílovou třídu (hodnota specifického atributu) Třída musí být předem známa pro všechny zpracovávané příklady Používaná míra : přesnost klasifikace na testovací množině dat Asociační pravidla Neomezují se na jediný cílový atribut Má smysl použít i v případě neklasifikovaných příkladů Používané míry : podpora, spolehlivost, zdvih 18

Od množin častých položek k asociačním pravidlům Otázka: Jaká asociační pravidla lze sestrojit z množiny častých položek {A,B,E}? A => B, E A, B => E A, E => B B => A, E B, E => A E => A, B => A,B,E (prázdné pravidlo), zapisované také jako true => A,B,E 19

Asociační pravidlo R : I => J : jeho podpora a spolehlivost Definujeme základní míry významu pravidla R, kterými jsou podpora (support) : sup (R) = sup (I J) odpovídající podpoře množiny položek, které se v R vyskytují, tj. I J spolehlivost (confidence): conf (R) = sup(i J) / sup(i) vyjadřující informaci o tom, jaká část z transakcí, ve kterých se vyskytují všechny položky tvořící množinu předpokladů I pravidla R, obsahuje také položky J tvořící závěr tohoto pravidla 20

Jaká je spolehlivost pravidla A => B? Nechť A B mají dostatečnou podporu: výčet všech možných situací Conf( A => B) je vysoká Conf( B => A) je nízká Conf( A => B) je nízká Conf( B => A) je nízká 21 Conf( A => B) je nízká Conf( B => A) je vysoká Conf( A => B) je vysoká Conf( B => A) je vysoká

Nejčastěji používané míry Ant => Suc a je mohutnost množiny všech trans- Akcí s položkami Ant Suc podpora(support) = a/n spolehlivost(confidence) = a/r pokrytí(cover) = a/k Suc Non (Suc) Ant a b r = a+b Non (Ant) c d s = c+d k = l = n= a+c b+d r+s Zdvih (lift, above average )= an/rk = p Poměr spolehlivosti uvažovaného pravidla a/r (tedy nad transakcemi, které splňují Ant ) a spolehlivosti pravidla => Suc (nad všemi transakcemi) určuje hodnotu p, která říká kolikrát se díky předpokladu Ant spolehlivost zvýší, tj. a/r = p* (k/n) 22

Příklad: Úloha: Najděte všechna pravidla s minsup = 2 a minconf= 50% pro množinu častých položek {A,B,E }. conf (I => J ) = sup(i J) / sup(i) A, B => E : conf=2/4 = 50% A, E => B : conf=2/2 = 100% B, E => A : conf=2/2 = 100% E => A, B : conf=2/2 = 100% Naopak následující pravidla požadovanou podmínku nesplňují A =>B, E : conf= 2/6 =33%< 50% B => A, E : conf= 2/7 = 28% < 50% TID List of items 1 A, B, E 2 B, D 3 B, C 4 A, B, D 5 A, C 6 B, C 7 A, C 8 A, B, C, E 9 A, B, C => A,B,E : conf= 2/9 = 22% < 50% 23

Generování asociačních pravidel Proces postupující zdola nahoru (od pravidel vytvořených z množin častých položek s nejmenší mohutností směrem k množinám s více prvky) rozdělený do 2 fází: 1. Výstup := Ø, k := 1 2. Najděte množiny častých položek dané mohutnosti k, např. algoritmem Apriori. Pokud žádná taková množina není, pak KONEC 3. Pro každou množinu I častých položek nalezněte asociační pravidla platná ve studovaných datech 24 Pro každou neprázdnou podmnožinu J množiny I Prověřte platnost asociačního pravidla: I - J => J a platné pravidlo přidejte do množiny Výstup 4. k := k +1 5. Jdi na bod 2. Apriori vlastnost přispívá k efektivitě celého procesu v bodě 2 i 3! (díky tomu, že některé mohutnosti byly na datech spočítány už v předchozích krocích výpočtu)

Příklad na generování pravidel Množina častých položek z dat golf/tenis : Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Je toto množina častých položek? {Humidity = normal, Windy = False, Play = Yes } Podpora je 4 Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes 25 Rainy Mild High True No

Outlook Temp Humidity Windy Play Sunny Hot High False No Určete spolehlivost pro všechna pravidla ze zvolené množiny častých položek: {Humidity = Normal,Windy = False, Play =Yes} 7 potenciálních pravidel (dva typy zápisu) : If Humidity = Normal & Play = Yes then Windy = False {Humidity = Normal,Play = Yes} => {Windy = False} 4/6 Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No If Humidity = Normal and Play = Yes then Windy = False If Windy = False and Play = Yes then Humidity = Normal If Humidity = Normal then Windy = False and Play = Yes If Windy = False then Humidity = Normal and Play = Yes If Play = Yes then Humidity = Normal and Windy = False If True then Humidity = Normal and Windy = False and Play = Yes If Humidity = Normal and Windy = False then Play = Yes 4/4 26 4/6 4/6 4/7 4/8 4/9 4/14

Pravidla pro data golf/tenis Jaká jsou pravidla mající sup > 1 a conf = 100%? Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes 27 Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No Association rule Sup. Conf. 1 Humidity=Normal & Windy=False Play=Yes 4 100% 2 Temperature=Cool Humidity=Normal 4 100% 3 Outlook=Overcast Play=Yes 4 100% 4 Temperature=Cold & Play=Yes Humidity=Normal 3 100%............... 58 Outlook=Sunny & Temperature=Hot Humidity=High 2 100% Celkem: 3 pravidla se sup=4, 5 s sup=3 a 51 se sup=2

Filtrování asociačních pravidel Problém: Každý rozsáhlý datový soubor vede ke vzniku obrovského množství různých asociačních pravidel, a to i v případě, že požadujeme rozumnou minimální spolehlivost a podporu. Asociační pravidla, která mají vyšší hodnotu podpory a spolehlivosti, než je předem zvolená hodnota pro min_sup a min_conf, se nazývají silná (strong) pravidla Spolehlivost sama o sobě nestačí k výběru opravdu zajímavých pravidel! Proč? Nechť všechny transakce v souboru obsahuji množinu položek Z, Jakou spolehlivost má libovolné pravidlo tvaru I => Z? 28

Filtrování asociačních pravidel Problém: Každý rozsáhlý datový soubor vede ke vzniku obrovského množství různých asociačních pravidel, a to i v případě, že požadujeme rozumnou minimální spolehlivost a podporu. Asociační pravidla, která mají vyšší hodnotu podpory a spolehlivosti, než je předem zvolená hodnota pro min_sup a min_conf, se nazývají silná (strong) pravidla Spolehlivost sama o sobě nestačí k výběru opravdu zajímavých pravidel! Např. pokud všechny transakce v souboru obsahuji množinu položek Z, pak libovolné pravidlo tvaru I => Z bude mít spolehlivost 100%. Pak je třeba využít i další míry pro filtrování pravidel 29

Další míry pro pravidlo Ant => Suc podpora(support) = a/n spolehlivost (confidence) = a/r pokrytí (cover) = a/k Suc Non (Suc) lift (zdvih) = (a/r)/(k/n)= a*n/(r*k) Zdvih určuje stupeň, o nějž pravidlo zlepšuje přesnost defautní predikce svého důsledku Suc na výchozích datech 30 Ant a b r = a+b Non (Ant) k = a+c c d s = c+d l = b+d n= r+s páka (leverage) = (a-r*k/n)/n = [a- (r/n)*(k/n) * n]/n Hodnota udávající procento transakcí, které pravidlo pokývá navíc oproti odhadu, který bychom udělali za předpokladu, že Ant a Suc jsou nezávislé přesvědčivost (conviction) = r*l/(b*n)= (l/n)/(b/r) Podobá se zdvihu, ale soustředí se na transakce, které nejsou pokryty Suc. Proto využívá převrácený poměr četností!

ZDVIH asoc. pravidla: interpretace Zdvih asociačního pravidla I => J je definován takto: Zdvih: lift(i => J )= P(J I ) / P(J ) Připomenutí: P(J ) = (podpora J ) / (počet všech transakcí) Poměr mezi spolehlivostí pravidla I => J a předpokládanou spolehlivostí tak, jak platí na výchozích datech Interpretace: Pokud lift(i => J ) > 1, pak jsou I a J positivně korelované pokud lift(i => J )< 1, pak jsou I a J negativně korelované je-li lift(i => J ) = 1, pak jsou I a J nezávislé 31

Osnova Transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla Aplikace 32

Aplikace Analýza spotřebního koše může být využita pro 33 Změnu způsobu prezentace zboží (např. uspořádání zboří v prostoru) Tvorbu cílené nabídky dalšího zboží (např. v internet. Knihkupectví typu Amazon) Identifikaci překvapivých jevů jako např. Mléko se obvykle kupuje současně s chlebem. Toto však neplatí o sojovém mléce. Tyto jevy mohou být významné nebo mohou vypovídat třeba o organizaci výchozího experimentu, např. Pokud dlouhodobý kuřák přestává kouřit, jeho zdravotní stav se zhoršuje. Při analýze dat o pojistných událostech mohou asoc.pravidla upozornit na jevy, které si zaslouží uvažovat o novém typu služby if (Car=Porsche & Gender=Male & Age < 20) then (Risk=high & Insurance = high), např. identifikace změny (WSARE What is Strange About Recent Events),