Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Analytické procedury v systému LISp-Miner Část II. M. Šimůnek
Obsah GUHA SDxx Procedury SD4ft-Miner SDCF-Miner SDKL-Miner GUHA Procedura Ac4ft-Miner MI-KDD P08 M. Šimůnek: Analytické procedury II 3
LISp-Miner a fáze DZD ANALYZOVANÁ DATA Asociování analyzovaných dat pparams (ODBC DSN) META BÁZE LM Admin Administrace Read-Only Moduly Porozumění problematice Moduly Předzpracování dat Moduly Analýzy dat Moduly Interpretace výsledků KNOW LEDGE BÁZE Export (SEWEBAR,HTML ) MI-KDD P08 M. Šimůnek: Analytické procedury II 4
SDxx Procedury SD set-difference, set-differs-from-set porovnání dvou podmnožin z původní analyzované matice dat Př. Jsou nějaké rozdíly v množství tělesné aktivity mezi osobami s normálním a zvýšeným krevním tlakem? Př. Jsou nějaké rozdíly mezi Prahou a Čáslaví ve faktorech ovlivňující vysoký tlak? Přehled SDxx procedur SD4ft-Miner SDCF-Miner SDKL-Miner Odvozeny vždy od své základní procedury tvar hypotéz způsob verifikace MI-KDD P08 M. Šimůnek: Analytické procedury II 5
Tvar SDxx hypotézy Obecný tvar SDxx hypotézy {jednoduchá hypotéza} : FirstSet SecondSet / Podmínka Který lze rozložit na dvojici hypotéz {jednoduchá hypotéza} / FirstSet Podmínka {jednoduchá hypotéza} / SecondSet Podmínka Nebo speciální tvar (parametr VerificationMode) {jednoduchá hypotéza} / FirstSet Podmínka {jednoduchá hypotéza} / FirstSet SecondSet Podmínka Příklad pro SD4ft-Miner Antecedent Sukcedent: FirstSet SecondSet / Podmínka Age 20;30) FUIdiff 30 Quality( Bad) : Sex( M) Sex( F) / District( Prague) Které lze rozdělit na dvě Age 20;30) FUI Quality( bad) / Sex( M) District( Prague) Age 20;30) FUI Quality( bad) / Sex( F) District( Prague) MI-KDD P08 M. Šimůnek: Analytické procedury II 6
SDxx Procedury FS SS Analyzovaná matice dat Podmožina FirstSet 1 Novák 3 Králová 1 Novák 500 M 167,5 2 Král 50 M 175,4 3 Králová 1500 Ž 149 4 Nováková 500 Ž 172,1 Podmožina SecondSet 2 Král 4 Nováková 6129 Petrů 6128 Petrů 972 M 197,3 6129 Petrů 3 Ž 184 6128 Petrů FirstSet (FS) a SecondSet (SS) každá podmnožina definována pomocí 4ft-cedentu! k dispozici bohatá syntaxe možnost automatického generování velkého množství kombinací Př. Město(Praha) Město( Čáslav) FirstSet může být i prázdná (SecondSet nikoliv) porovnání: vše podmnožina Vše Pohlaví(M) Vzdělání(VŠ) FirstSet a SecondSet se mohou překrývat lze zakázat pomocí parametru SDxx úlohy SetsOverlapping MI-KDD P08 M. Šimůnek: Analytické procedury II 7
SDxx Procedury verifikace Na obě vzniklé podmnožiny se aplikuje vygenerovaná hypotéza hypotéza svým tvarem odpovídá základní proceduře (4ft, CF, KL) na obě podmnožiny se aplikuje stejná hypotéza Vzniknou dvě tabulky četností tvarem opět odpovídající základní proceduře 2 čtyřpolní tabulky pro SD4ft-Miner 2 jednorozměrné tabulky četností pro SDCF-Miner 2 dvojrozměrně tabulky četností pro SDKL-Miner Kvantifikátory také odvozeny od základní procedury nelze však použít rovnou, protože jsou dvě tabulky četností Možné způsoby zadání kvantifikátorů (Operační mód) FirstSet... kvantifikátor se použije na tabulku četností pro FirstSet SecondSet... dtto, pro SecondSet Difference of frequencies... vypočte se výsledná tabulka jako rozdíl frekvencí (absolutních relativních) Difference of quantifiers values... rozdíl měr zajímavosti MI-KDD P08 M. Šimůnek: Analytické procedury II 8
Procedura SD4ft-Miner Porovnání platnosti asociačního pravidla na dvou podmnožinách Příklad Antecedent Sukcedent: FirstSet SecondSet / Podmínka Age 20;30) FUIdiff 30 Quality( Bad) : Sex(M) Sex(F) / District(Prague) Které lze rozdělit na dvě 4ft asociační pravidla Age 20;30) FUI Quality( bad) / Sex( M) District( Prague) Age 20;30) FUI Quality( bad) / Sex( F) District( Prague) Ptáme se, jestli muži a ženami v Praze je zásadní rozdíl v platnosti vztahu (ve smyslu FUI) mezi věkem a špatnou kvalitou půjčky FUIdiff > 30... rozdíl hodnoty FUI muži mají o 0,3 vyšší míru platnosti vztahu mezi věkem 20 až 30 a špatnou kvalitou půjčky než ženy Kvantifikátory odvozeny ze 4ft-Mineru Operační mód MI-KDD P08 M. Šimůnek: Analytické procedury II 9
Procedura SDCF-Miner Porovnání rozdělení četností kategorií atributu na dvou podmnožinách Příklad Atribut: FirstSet SecondSet / Podmínka Age AvgDiff 20 : Sex( M) Sex( F) / District( Prague) Které lze rozdělit na dvě 4ft asociační pravidla Age Avg / Sex( M) District( Prague) Age Avg / Sex( F) District( Prague) Ptáme se, jestli muži a ženami v Praze je zásadní rozdíl průměrným věkem Podobně lze definovat kvantifikátory pro rozdíl ve variačním koeficientu, šikmosti rozdělení... Kvantifikátory odvozeny z CF-Mineru Operační mód MI-KDD P08 M. Šimůnek: Analytické procedury II 10
Procedura SDKL-Miner Porovnání rozdělení četností v K L tabulce pro dva atributy na dvou podmnožinách Příklad Atribut K Atribut L : FirstSet SecondSet / Podmínka Salary KendallDiff0.5 Amount: Sex( M) Sex( F) / District( Prague) Které lze rozdělit na dvě 4ft asociační pravidla Salary Kendall Amount / Sex( M) District( Prague) Salary Kendall Amount / Sex( F) District( Prague) Ptáme se, jestli muži a ženami v Praze je zásadní rozdíl v hodnotě Kendallova koeficientu (síle funkční závislosti) mezi platem a výší splátek Kvantifikátory odvozeny z KL-Mineru Operační mód MI-KDD P08 M. Šimůnek: Analytické procedury II 11
Procedura Ac4ft-Miner Nejnovější procedura systému LISp-Miner Hledá zajímavé dvojice asociačních pravidel představujících změnu nebo akci mají společnou neměnnou část a liší se pouze koeficienty vybraných literálů v proměnné části Příklad Antecedent Stable Antecedent Var Sukcedent Stable Sukcedent Var / Podmínka vše jsou 4ft-cedenty! [Payment 20;30) Payment 10;20)] FUIdiff 0.5;20 [Quality( bad) Quality( good)] / District( Prague) Které lze rozdělit na dvě 4ft asociační pravidla Payment 20;30) FUI Quality( bad) / District( Prague) Payment 10;20) FUI Quality( good) / District( Prague) Ptáme se, jestli změnou výše splátek z <20;30) na <10;20) nedojde u klientů z Prahy ke zlepšení kvality půjčky Kvantifikátory odvozeny ze 4ft-Mineru Velmi rozsáhlý stavový prostor, který nutné prověřit dlouhé časy řešení MI-KDD P08 M. Šimůnek: Analytické procedury II 12
Ac4ft-Miner verifikace Dva stavy, někdy je lze nazývat i podmnožinami stav před (StateBefore) stav po (StateAfter) Na celých datech se porovnávají platnosti dvou hypotéz obě hypotézy jsou obyčejná 4ft-asociační pravidla obě hypotézy spolu svázány výskytem stejných atributů liší se hodnotou koeficientu v alespoň jednom variabilním cedentu Vzniknou dvě čtyřpolní tabulky četností Kvantifikátory opět odvozeny podle základní procedury nelze však použít rovnou, protože jsou dvě tabulky četností Možné způsoby zadání kvantifikátorů (Operační mód) StateBefore... kvantifikátor se použije na tabulku četností pro StateBefore StateAfter... dtto, pro StateAfter Difference of frequencies... vypočte se výsledná tabulka jako rozdíl frekvencí (absolutních relativních) Difference of quantifiers values... rozdíl měr zajímavosti MI-KDD P08 M. Šimůnek: Analytické procedury II 13
Procedura ETree-Miner Explorační stromy Klasifikační úloha založená nikoliv pouze na jednom stromu, ale celém lese soubor vstupních atributů (známé hodnoty) cílová třída (odhad) možné zadat 4ft-podmínky pro zúžení stromu Při vytváření stromů je testována signifikance (významnost) atributů na každé úrovni větvení a vybráno vždy n nejlepších Nejnovější úloha systému LISp-Miner nutný důkladný rozbor možností, vhodnosti použítí téma DP MI-KDD P08 M. Šimůnek: Analytické procedury II 14
ETree-Miner detail hypotézy Dialogové okno hypotézy textová reprezentace stromu confusion matrix Přehled záznamů spolu s kvalitou klasifikace testování na trénovacích datech MI-KDD P08 M. Šimůnek: Analytické procedury II 15
Procedura KEx Procedura strojového učení Identifikace podstatných/důležitých asociačních pravidel a jejich vložení do Báze znalostí Kdy je pravidlo důležité? přináší podstatně novou informaci (výjimku do dosud získaných znalostí) skládání váhy pravidel již dříve přidaných do BZ porovnání s vahou získanou z aktuálně zpracovávaného pravidla když významně odlišná, tak je pravidlo přidáno do BZ Testování vytvořené báze znalostí trénovací testovací data cross-validace Klasifikace nových případů i dávková MI-KDD P08 M. Šimůnek: Analytické procedury II 16
Závěr Čtyři pokročilé GUHA procedury Porovnání dvou podmnožin v datech Široké možnosti spolupráce výzkum, DP, DisP... zhodnocení možností procedur http://lispminer.vse.cz MI-KDD P08 M. Šimůnek: Analytické procedury II 17
Prohlášení Při přípravě těchto elektronických podkladů pro výuku byly využity výsledky následujících projektů realizovaných na Vysoké škole ekonomické v Praze: Projekt GAČR 201/08/0802 - Aplikace metod znalostního inženýrství při dobývání znalostí z databází Projekt MŠMT ME 913 - Nové nástroje a teorie pro dobývání znalostí z databází MI-KDD P08 M. Šimůnek: Analytické procedury II 18