Dobývání znlostí z dtbází (MI-KDD) Přednášk číslo 4 Asociční prvidl (c) prof. RNDr. Jn Ruch, CSc. KIZI, Fkult informtiky sttistiky VŠE zimní semestr 2011/2012 Evropský sociální fond Prh & EU: Investujeme do vší budoucnosti
Asociční prvidl mtice dt booleovské tributy čtyřpolní tbulk sociční prvidlo 4ft kvntifikátory sociční prvidl nlýz nákupních košíků MI-KDD P04 J. Ruch : Asociční prvidl 2
Mtice dt booleovské tributy Mtice dt M Atributy Zákldní boolevské tributy objekt A 1 A 2 A m A 1 (3) A 2 (5,7) o 1 3 54 16 1 0 o 2 7 5 7 0 1 o n 3 7 5 1 1 Odvozené booleovské tributy: A 1 (3) A 2 (5,7), A 1 (4), A 1 (3) A 2 (5,7) MI-KDD P04 J. Ruch : Asociční prvidl 3
Zákldní booleovský tribut koeficient Množin ktegorií tributu A A( ) { 1,, k } prvdivý pro objekt o právě když A(o) A( ) neprvdivý pro objekt o právě když A(o) MI-KDD P04 J. Ruch : Asociční prvidl 4
Mtice dt booleovské tributy příkldy Mtice dt Půjčky Lon Částk Splátk Měsíců Věk Sex Plt Okres Kvlit 1 48 000 1 000 48 45 M 15000 Prh dobrá 2 60 000 5 000 12 32 M 18000 Most šptná........................... 6180 10 000 1 000 10 54 M 12000 Kolín šptná 6181 36 000 2 000 18 24 F 14000 Brod dobrá Příkldy booleovských tributů: Částk(0 25000) Okres (Prh, Kolín) Sex(M) MI-KDD P04 J. Ruch : Asociční prvidl Kvlit(dobrá) 5
Asociční prvidlo 4ft-kvntifikátor Antecedent Sukcedent 1 p 1 q literál literál literál literál MI-KDD P04 J. Ruch : Asociční prvidl 6
Literál koeficient literál A( ) positivní literál A( ) negtivní literál A( ) zákldní booleovský tribut coefficient MI-KDD P04 J. Ruch : Asociční prvidl 7
4ft kvntifikátor M,b,c,d +b+c+d 0 c b d (,b,c,d) {0,1} 0.9,50 (,b,c,d) = 1 právě když b 0.9 50 0.9,50 (,b,c,d) = 1 právě když b d c d 0.9 50 MI-KDD P04 J. Ruch : Asociční prvidl 8
4ft kvntifikátory v proceduře 4ft-Miner, příkldy p,bse b p Bse M p,bse b c p Bse c b d p,bse b d c d p Bse + p,bse (1 p) Bse b b c c d MI-KDD P04 J. Ruch : Asociční prvidl 9
Asociční prvidlo příkld Okres(Prh, Brno) Věk(31-40) 0.9,50 Půjčk(dobrá) Půjčky Půjčk(dobrá) Půjčk(dobrá) Okres(Prh, Brno) Věk(31-40) 190 10 Okres(Prh, Brno) Věk(31-40) 5 101 890 190 190 10 0.9 50 MI-KDD P04 J. Ruch : Asociční prvidl 10
Asociční prvidlo jiný příkld Okres(Brod) Věk(61-70) + 0.6,20 Půjčk(šptná) Půjčky Půjčk(šptná) Půjčk(šptná) Okres(Brod) Věk(61-70) 20 80 Okres(Brod) Věk(61-70) 707 5 374 20 20 80 (1 0.6) * 20 20 80 707 707 5374 20 0.2 (1 0.6)*0.12 20 MI-KDD P04 J. Ruch : Asociční prvidl 11
Asociční prvidl nlýz nákupních košíků klsická sociční prvidl konfidence podpor lgoritmus Apriori nákupní košík, mtice dt čtyřpolní tbulk MI-KDD P04 J. Ruch : Asociční prvidl 12
Klsická sociční prvidl Dtbse D bsket items b 1 A, B, D, G, H...... b r-1 C, G, K, L A, B, C, E, F, J b r Dtbáze D nákupních košíků I množin položek A, B, C, X, Y podmnožiny I X I, Y I Asociční prvidlo: X Y Význm: Košíky obshující položky X obshují čsto i položky Y Míry intenzity: konfidence, podpor (support) MI-KDD P04 J. Ruch : Asociční prvidl 13
Konfidence (1) Dtbse D bsket items b 1 A, B, D, G, H...... b r-1 C, G, K, L A, B, C, E, F, J b r I množin položek A, B, C, X I, Y I košík b i obshuje X : X b i M(X) = {b X b} M(X) je množin všech košíků obshujících X M(X Y) je množin všech košíků obshujících sjednocení X Y t.j. množin všech košíků obshujících jk X tk i Y je počet objektů v množině MI-KDD P04 J. Ruch : Asociční prvidl 14
Konfidence (2) Dtbse D bsket items b 1 A, B, D, G, H...... b r-1 C, G, K, L A, B, C, E, F, J b r I množin položek A, B, C, X I, Y I košík b i obshuje X : X b i M(X) = {b X b} Konfidence: conf (X Y) = M(X Y) / M(X) počet košíků obshujících jk X tk i Y počet košíků obshujících X MI-KDD P04 J. Ruch : Asociční prvidl 15
Podpor (suport) Dtbse D bsket items b 1 A, B, D, G, H...... b r-1 C, G, K, L A, B, C, E, F, J b r I množin položek A, B, C, X I, Y I košík b i obshuje X : X b i M(X) = {b X b} Podpor: sup (X Y) = M(X Y) / r počet košíků obshujících jk X tk i Y počet všech košíků MI-KDD P04 J. Ruch : Asociční prvidl 16
Klsická sociční prvidl příkld košík b 1 b 2 b 3 b 4 b 5 b 6 b 7 b 8 položky A, B, D, E, F, J A, C, D, G, H A, B, C, E, F, G E, F, G, J A, B, C, E, G A, B, E, F, G, J C, G, K, L A, B, C, E, F, J { A, B } { E, F } conf (X Y) = M(X Y) / M(X) conf (A, B E, F) = 4 / 5 = 0.8 sup (X Y) = M(X Y) / 8 sup (A, B E, F) = 4 / 8 = 0.5 MI-KDD P04 J. Ruch : Asociční prvidl 17
Algoritmus Apriori Dáno: Dtbáze trnskcí D I množin položek 0 minconf 1, 0 minsup 1 Úloh: Nlézt všechn sociční prvidl X Y tk, že: X Y =, X I, Y I conf (X Y) minconf sup(x Y ) minsup Řešení: Algoritmus A-priori, viz npř.: Aggrvl, R. et ll.: Fst Discovery of Assocition Rules. in Advnces in Knowledge Discovery nd Dt Mining. AAAI Press / The MIT Press, 1996. MI-KDD P04 J. Ruch : Asociční prvidl 18
bsket items A, B, D, E, F, J b 1 b 2 b 3 b 4 b 5 b 6 b 7 b 8 Nákupní košík mtice dt A, C, D, G, H A, B, C, E, F, G E, F, G, J A, B, C, E, G A, B, E, F, G, J C, G, K, L A, B, C, E, F, J { A, B } { E, F } 0 MI-KDD P04 J. Ruch : Asociční prvidl 19
Nákupní košík čtyřpolní tbulk (1) E F (E F) A B b (A B) c d { A, B } { E, F } conf (X Y) = M(X Y) / M(X) = / ( + b) MI-KDD P04 J. Ruch : Asociční prvidl 20
Nákupní košík čtyřpolní tbulk (2) E F (E F) A B b (A B) c d { A, B } { E, F } sup (X Y) = M(X Y) / r = / ( + b + c + d) MI-KDD P04 J. Ruch : Asociční prvidl 21
Při tvorbě těchto elektronických podkldů pro výuku byly využity výsledky těchto projektů relizovných n Vysoké škole ekonomické v Prze: Projekt GAČR 201/08/0802 - Aplikce metod znlostního inženýrství při dobývání znlostí z dtbází Projekt MŠMT ME 913 - Nové nástroje teorie pro dobývání znlostí z dtbází MI-KDD P04 J. Ruch : Asociční prvidl 22