Analytické procedury v systému LISp-Miner

Podobné dokumenty
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2. Projekt LISp-Miner.

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner

Úvod do dobývání. znalostí z databází

Projekt LISp-Miner. M. Šimůnek

Výpočet na gridu a LM TaskPooler

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 1 - Úvod

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 4 Asociační pravidla

LISp-Miner: systém pro získávání znalostí z dat 1

Nová GUHA-procedura ETree-Miner v systému LISp-Miner

Vysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE

Základy vytěžování dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Asociační pravidla (metoda GUHA)

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

4ft-Miner pro začátečníky Získávání znalostí z databází

Příprava dat v softwaru Statistica

PRAVDĚPODOBNOST A STATISTIKA

Dolování asociačních pravidel

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch

MATEMATIKA III V PŘÍKLADECH

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

EXPERIMENTÁLNÍ GUHA PROCEDURY

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Dolování z textu. Martin Vítek

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

Segmentace bankovních zákazníků algoritmem k- means

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Tabulka 1. Výběr z datové tabulky

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Asociační i jiná. Pravidla. (Ch )

OSOBNÍ ANGAŽOVANOST SOCIÁLNÍHO PRACOVNÍKA

PRODUKTY. Tovek Tools

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Připomeň: Shluková analýza

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE. Analýza dat ze studentských dotazníků Bc.

PRAVDĚPODOBNOST A STATISTIKA

Zápočtová práce STATISTIKA I

Asociační pravidla. Úloha hledání souvislostí mezi hodnotami atributů. {párky, hořčice} {rohlíky} Ant Suc,

Získávání dat z databází 1 DMINA 2010

Simulace. Simulace dat. Parametry

Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

TECHNICKÁ UNIVERZITA V LIBERCI

KGG/STG Statistika pro geografy

Startovní úloha Samostatná práce

Vzorová prezentace do předmětu Statistika

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Manuál k programu EMSoftware

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Analýza dat na PC I.

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

IBM SPSS Decision Trees

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Neuronové časové řady (ANN-TS)

Mnohorozměrná statistická data

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů

Spokojenost se životem

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

POSTUP PRO VYTVOŘENÍ STRUKTUR PRO UKLÁDÁNÍ RDF DAT V ORACLE

Problémové domény a jejich charakteristiky

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Negativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Logika a logické programování

TECHNICKÁ UNIVERZITA V LIBERCI

STATISTICKÉ CHARAKTERISTIKY

Cvičení 12: Binární logistická regrese

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

4ST201 STATISTIKA CVIČENÍ Č. 7

Modely přidané hodnoty škol

Vytěžování znalostí z dat

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

různé typy přehledových studií integrativní typ snaha o zobecnění výsledků z množství studií

Aplikovaná numerická matematika

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Datové modelování II

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Testování a spolehlivost. 1. Laboratoř Poruchy v číslicových obvodech

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Algoritmy pro shlukování prostorových dat

LISp-Miner Martin Šulc Projekt do předmětu Vyhledávání znalostí v databázích

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Karta předmětu prezenční studium

1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017

Ontologie. Otakar Trunda

Transkript:

Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Analytické procedury v systému LISp-Miner Část II. M. Šimůnek

Obsah GUHA SDxx Procedury SD4ft-Miner SDCF-Miner SDKL-Miner GUHA Procedura Ac4ft-Miner MI-KDD P08 M. Šimůnek: Analytické procedury II 3

LISp-Miner a fáze DZD ANALYZOVANÁ DATA Asociování analyzovaných dat pparams (ODBC DSN) META BÁZE LM Admin Administrace Read-Only Moduly Porozumění problematice Moduly Předzpracování dat Moduly Analýzy dat Moduly Interpretace výsledků KNOW LEDGE BÁZE Export (SEWEBAR,HTML ) MI-KDD P08 M. Šimůnek: Analytické procedury II 4

SDxx Procedury SD set-difference, set-differs-from-set porovnání dvou podmnožin z původní analyzované matice dat Př. Jsou nějaké rozdíly v množství tělesné aktivity mezi osobami s normálním a zvýšeným krevním tlakem? Př. Jsou nějaké rozdíly mezi Prahou a Čáslaví ve faktorech ovlivňující vysoký tlak? Přehled SDxx procedur SD4ft-Miner SDCF-Miner SDKL-Miner Odvozeny vždy od své základní procedury tvar hypotéz způsob verifikace MI-KDD P08 M. Šimůnek: Analytické procedury II 5

Tvar SDxx hypotézy Obecný tvar SDxx hypotézy {jednoduchá hypotéza} : FirstSet SecondSet / Podmínka Který lze rozložit na dvojici hypotéz {jednoduchá hypotéza} / FirstSet Podmínka {jednoduchá hypotéza} / SecondSet Podmínka Nebo speciální tvar (parametr VerificationMode) {jednoduchá hypotéza} / FirstSet Podmínka {jednoduchá hypotéza} / FirstSet SecondSet Podmínka Příklad pro SD4ft-Miner Antecedent Sukcedent: FirstSet SecondSet / Podmínka Age 20;30) FUIdiff 30 Quality( Bad) : Sex( M) Sex( F) / District( Prague) Které lze rozdělit na dvě Age 20;30) FUI Quality( bad) / Sex( M) District( Prague) Age 20;30) FUI Quality( bad) / Sex( F) District( Prague) MI-KDD P08 M. Šimůnek: Analytické procedury II 6

SDxx Procedury FS SS Analyzovaná matice dat Podmožina FirstSet 1 Novák 3 Králová 1 Novák 500 M 167,5 2 Král 50 M 175,4 3 Králová 1500 Ž 149 4 Nováková 500 Ž 172,1 Podmožina SecondSet 2 Král 4 Nováková 6129 Petrů 6128 Petrů 972 M 197,3 6129 Petrů 3 Ž 184 6128 Petrů FirstSet (FS) a SecondSet (SS) každá podmnožina definována pomocí 4ft-cedentu! k dispozici bohatá syntaxe možnost automatického generování velkého množství kombinací Př. Město(Praha) Město( Čáslav) FirstSet může být i prázdná (SecondSet nikoliv) porovnání: vše podmnožina Vše Pohlaví(M) Vzdělání(VŠ) FirstSet a SecondSet se mohou překrývat lze zakázat pomocí parametru SDxx úlohy SetsOverlapping MI-KDD P08 M. Šimůnek: Analytické procedury II 7

SDxx Procedury verifikace Na obě vzniklé podmnožiny se aplikuje vygenerovaná hypotéza hypotéza svým tvarem odpovídá základní proceduře (4ft, CF, KL) na obě podmnožiny se aplikuje stejná hypotéza Vzniknou dvě tabulky četností tvarem opět odpovídající základní proceduře 2 čtyřpolní tabulky pro SD4ft-Miner 2 jednorozměrné tabulky četností pro SDCF-Miner 2 dvojrozměrně tabulky četností pro SDKL-Miner Kvantifikátory také odvozeny od základní procedury nelze však použít rovnou, protože jsou dvě tabulky četností Možné způsoby zadání kvantifikátorů (Operační mód) FirstSet... kvantifikátor se použije na tabulku četností pro FirstSet SecondSet... dtto, pro SecondSet Difference of frequencies... vypočte se výsledná tabulka jako rozdíl frekvencí (absolutních relativních) Difference of quantifiers values... rozdíl měr zajímavosti MI-KDD P08 M. Šimůnek: Analytické procedury II 8

Procedura SD4ft-Miner Porovnání platnosti asociačního pravidla na dvou podmnožinách Příklad Antecedent Sukcedent: FirstSet SecondSet / Podmínka Age 20;30) FUIdiff 30 Quality( Bad) : Sex(M) Sex(F) / District(Prague) Které lze rozdělit na dvě 4ft asociační pravidla Age 20;30) FUI Quality( bad) / Sex( M) District( Prague) Age 20;30) FUI Quality( bad) / Sex( F) District( Prague) Ptáme se, jestli muži a ženami v Praze je zásadní rozdíl v platnosti vztahu (ve smyslu FUI) mezi věkem a špatnou kvalitou půjčky FUIdiff > 30... rozdíl hodnoty FUI muži mají o 0,3 vyšší míru platnosti vztahu mezi věkem 20 až 30 a špatnou kvalitou půjčky než ženy Kvantifikátory odvozeny ze 4ft-Mineru Operační mód MI-KDD P08 M. Šimůnek: Analytické procedury II 9

Procedura SDCF-Miner Porovnání rozdělení četností kategorií atributu na dvou podmnožinách Příklad Atribut: FirstSet SecondSet / Podmínka Age AvgDiff 20 : Sex( M) Sex( F) / District( Prague) Které lze rozdělit na dvě 4ft asociační pravidla Age Avg / Sex( M) District( Prague) Age Avg / Sex( F) District( Prague) Ptáme se, jestli muži a ženami v Praze je zásadní rozdíl průměrným věkem Podobně lze definovat kvantifikátory pro rozdíl ve variačním koeficientu, šikmosti rozdělení... Kvantifikátory odvozeny z CF-Mineru Operační mód MI-KDD P08 M. Šimůnek: Analytické procedury II 10

Procedura SDKL-Miner Porovnání rozdělení četností v K L tabulce pro dva atributy na dvou podmnožinách Příklad Atribut K Atribut L : FirstSet SecondSet / Podmínka Salary KendallDiff0.5 Amount: Sex( M) Sex( F) / District( Prague) Které lze rozdělit na dvě 4ft asociační pravidla Salary Kendall Amount / Sex( M) District( Prague) Salary Kendall Amount / Sex( F) District( Prague) Ptáme se, jestli muži a ženami v Praze je zásadní rozdíl v hodnotě Kendallova koeficientu (síle funkční závislosti) mezi platem a výší splátek Kvantifikátory odvozeny z KL-Mineru Operační mód MI-KDD P08 M. Šimůnek: Analytické procedury II 11

Procedura Ac4ft-Miner Nejnovější procedura systému LISp-Miner Hledá zajímavé dvojice asociačních pravidel představujících změnu nebo akci mají společnou neměnnou část a liší se pouze koeficienty vybraných literálů v proměnné části Příklad Antecedent Stable Antecedent Var Sukcedent Stable Sukcedent Var / Podmínka vše jsou 4ft-cedenty! [Payment 20;30) Payment 10;20)] FUIdiff 0.5;20 [Quality( bad) Quality( good)] / District( Prague) Které lze rozdělit na dvě 4ft asociační pravidla Payment 20;30) FUI Quality( bad) / District( Prague) Payment 10;20) FUI Quality( good) / District( Prague) Ptáme se, jestli změnou výše splátek z <20;30) na <10;20) nedojde u klientů z Prahy ke zlepšení kvality půjčky Kvantifikátory odvozeny ze 4ft-Mineru Velmi rozsáhlý stavový prostor, který nutné prověřit dlouhé časy řešení MI-KDD P08 M. Šimůnek: Analytické procedury II 12

Ac4ft-Miner verifikace Dva stavy, někdy je lze nazývat i podmnožinami stav před (StateBefore) stav po (StateAfter) Na celých datech se porovnávají platnosti dvou hypotéz obě hypotézy jsou obyčejná 4ft-asociační pravidla obě hypotézy spolu svázány výskytem stejných atributů liší se hodnotou koeficientu v alespoň jednom variabilním cedentu Vzniknou dvě čtyřpolní tabulky četností Kvantifikátory opět odvozeny podle základní procedury nelze však použít rovnou, protože jsou dvě tabulky četností Možné způsoby zadání kvantifikátorů (Operační mód) StateBefore... kvantifikátor se použije na tabulku četností pro StateBefore StateAfter... dtto, pro StateAfter Difference of frequencies... vypočte se výsledná tabulka jako rozdíl frekvencí (absolutních relativních) Difference of quantifiers values... rozdíl měr zajímavosti MI-KDD P08 M. Šimůnek: Analytické procedury II 13

Procedura ETree-Miner Explorační stromy Klasifikační úloha založená nikoliv pouze na jednom stromu, ale celém lese soubor vstupních atributů (známé hodnoty) cílová třída (odhad) možné zadat 4ft-podmínky pro zúžení stromu Při vytváření stromů je testována signifikance (významnost) atributů na každé úrovni větvení a vybráno vždy n nejlepších Nejnovější úloha systému LISp-Miner nutný důkladný rozbor možností, vhodnosti použítí téma DP MI-KDD P08 M. Šimůnek: Analytické procedury II 14

ETree-Miner detail hypotézy Dialogové okno hypotézy textová reprezentace stromu confusion matrix Přehled záznamů spolu s kvalitou klasifikace testování na trénovacích datech MI-KDD P08 M. Šimůnek: Analytické procedury II 15

Procedura KEx Procedura strojového učení Identifikace podstatných/důležitých asociačních pravidel a jejich vložení do Báze znalostí Kdy je pravidlo důležité? přináší podstatně novou informaci (výjimku do dosud získaných znalostí) skládání váhy pravidel již dříve přidaných do BZ porovnání s vahou získanou z aktuálně zpracovávaného pravidla když významně odlišná, tak je pravidlo přidáno do BZ Testování vytvořené báze znalostí trénovací testovací data cross-validace Klasifikace nových případů i dávková MI-KDD P08 M. Šimůnek: Analytické procedury II 16

Závěr Čtyři pokročilé GUHA procedury Porovnání dvou podmnožin v datech Široké možnosti spolupráce výzkum, DP, DisP... zhodnocení možností procedur http://lispminer.vse.cz MI-KDD P08 M. Šimůnek: Analytické procedury II 17

Prohlášení Při přípravě těchto elektronických podkladů pro výuku byly využity výsledky následujících projektů realizovaných na Vysoké škole ekonomické v Praze: Projekt GAČR 201/08/0802 - Aplikace metod znalostního inženýrství při dobývání znalostí z databází Projekt MŠMT ME 913 - Nové nástroje a teorie pro dobývání znalostí z databází MI-KDD P08 M. Šimůnek: Analytické procedury II 18