Dobývání znalostí z databází MI-KDD ZS 2011 Cvičení 5 Startovní úloha Samostatná práce http://lispminer.vse.cz (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Startovní úloha Samostatná práce http://lispminer.vse.cz M. Šimůnek
Startovní úloha Každému studentovi bude přiřazena startovní úloha týkající se matice dat Entry v souboru dat STULONG Úkoly: 1. Vyřešit přiřazenou startovní úlohu pomocí procedury 4ft-Miner a podat o tom zprávu na systému SEWEBAR. 2. Postupně samostatně rozšířit řešenou startovní úlohu tak, aby se procvičilo využití různých dalších možností procedury 4ft-Miner. 3. Využít doménové znalosti tak, aby se modifikovalo zadání úlohy řešené v rámci bodu 2 a interpretace jejích výsledků. MI-KDD C05 M. Šimůnek: Startovní úloha 3
STULONG skupiny atributů Tabulka 1 - Výchozí skupiny atributů číslo Název sloupce v Entry Dílčí cedent - typ 1 Sociální STAV, VZDELANI, ZODPOV konjunkce 2 Aktivity TELAKTZA, AKTPOZAM, DOPRAVA, DOPRATRV konjunkce 3 Kouření KOURENI, DOBAKOUR, BYVKURAK konjunkce 4 Alkohol ALKOHOL, PIVOMN, VINOMN, LIHMN konjunkce 5 CKC CUKR, KAVA, CAJ konjunkce 6 Míry BMI, TRIC, SUBSC konjunkce 7 Tlaky SYST2, DIAST2, SYST1 - SYST2, DIAST1 - DIAST2 konjunkce 8 Biochemie CHLST, TRIGL, MOC konjunkce 9 Rizika RARISK, OBEZRISK, KOURRISK, HTRISK, CHOLRISK konjunkce i disjunkce 10 Problémy IM, HT, ICT, DIAB, HYPLIP disjunkce 11 Bolesti BOLHR, BOLDK, DUSNOST, disjunkce MI-KDD C05 M. Šimůnek: Startovní úloha 4
Startovní úlohy přidělení Číslo ANTECEDENT SUKCEDENT 1 Sociální Míry Rizika - disjunkce 2 Míry Problémy 3 Míry Bolesti 7 Sociální Biochemie Rizika disjunkce 8 Biochemie Problémy 9 Biochemie Bolesti 13 Aktivity Tlaky Rizika disjunkce 14 Tlaky Problémy 15 Tlaky Bolesti 19 Alkohol Míry Rizika disjunkce 20 Míry Problémy 21 Míry Bolesti MI-KDD C05 M. Šimůnek: Startovní úloha 5
Postup řešení (1) Založit metabázi pro matici dat Entry viz slides 1 až 8 v http://lispminer.vse.cz/tutorial/t2.html Vytvořit potřebné atributy ze sloupců matice dat Entry viz http://lispminer.vse.cz/tutorial/t3.html a Startovni uloha poznamky.doc Vytvořit dva dílčí antecedenty, každý z jedné skupiny atributů určených pro antecedent a jeden dílčí sukcedent ze skupiny atributů určené pro sukcedent viz http://lispminer.vse.cz/tutorial/t4.html Pro všechny vytvořené dílčí cedenty stanovit parametry takto: minimální délka = 1 maximální délka = počet atributů ve skupině booleovská operace s literály = konjunkce Pro každý atribut použít typ koeficientu dle tabulky 3 v souboru Startovni uloha poznamky.doc Téměř shodné české varianty výše zmíněných tutoriálů jsou v souborech LMDataSource.pdf a 4ft-Miner.pdf MI-KDD C05 M. Šimůnek: Startovní úloha 6
Postup řešení (2) Postupně použít jednotlivé 4ft-kvantifikátory fundovaná implikace, AA-kvantifikátor, fundovaná ekvivalence a dvojitá fundovaná implikace podle Analyticke_otazky.pptx Pro každý z výše uvedených 4ft-kvantifikátorů postupovat takto: slovně nazvat řešenou úlohu podle vzorů v Analyticke_otazky.pptx doladit parametry kvantifikátoru a případně koeficientů tak, aby vycházelo cca 20 pravidel případně vynechat kategorie, které jsou příliš frekventované (ženatý) Na SEWEBARu stručně popsat provedenou úlohu tvorbu atributů, počáteční parametry koeficientů a jejich modifikace, charakterizovat výslednou množinu pravidel, uvést 2 až 3 příklady pravidel Prohlížení výsledků procedury 4ft-Miner je popsáno v http://lispminer.vse.cz/tutorial/t5.html MI-KDD C05 M. Šimůnek: Startovní úloha 7
Prohlášení Při přípravě těchto elektronických podkladů pro výuku byly využity výsledky následujících projektů realizovaných na Vysoké škole ekonomické v Praze: Projekt GAČR 201/08/0802 - Aplikace metod znalostního inženýrství při dobývání znalostí z databází Projekt MŠMT ME 913 - Nové nástroje a teorie pro dobývání znalostí z databází MI-KDD C05 M. Šimůnek: Startovní úloha 8