Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2 Projekt LISp-Miner http://lispminer.vse.cz (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Projekt LISp-Miner http://lispminer.vse.cz M. Šimůnek
Obsah Systém LISp-Miner Vývoj systému v dlouhém období Architektura systému EverMiner Distribuovaný výpočet na gridu MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 3
Systém LISp-Miner http://lispminer.vse.cz Vývoj od roku 1996 Cíle cca 1 mil. programových řádků vývojové prostředí MSVC++ použití ve výuce použití pro výzkum v oblasti DM použití pro řešení reálných DM úloh Navazuje na metodu GUHA (vývoj od roku 1966) předchozí implementace (IBM VM/370, PC-GUHA...) Akademické prostředí mj. důraz na nízké nároky na HW/SW, jednoduchou instalaci MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 4
Systém LISp-Miner koncepce Objektový návrh Modulární a vrstvená architektura moduly + metabáze Důraz na rychlost výpočtu generování a verifikace co nejrychlejší i pro složitá zadání úloh rozsáhlé optimalizace Projektové řízení LM Modul n LM Modul 8 domovská stránka projektu (DP Ing. Z. Černý) standardizované dokumenty pro popis teorie, částí systému, doporučení pro další vývoj... LM Modul 1 META BÁZE LM Modul 2 LM Modul 7 LM Modul 6 LM Modul 3 LM Modul 4 LM Modul 5 MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 5
LISp-Miner a fáze DZD ANALYZOVANÁ DATA Asociování analyzovaných dat pparams (ODBC DSN) META BÁZE LM Admin Administrace Read-Only Moduly Porozumění problematice Moduly Předzpracování dat Moduly Analýzy dat Moduly Interpretace výsledků KNOW LEDGE BÁZE Export (SEWEBAR,HTML ) MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 6
Instalace systému Instalace volně k dispozici na http://lispminer.vse.cz/downlaod rozděleno do ZIP-souborů podle procedur stačí stáhnout a rozbalit doporučuje se rozbalovat do základního adresáře <disk>:\lisp-miner Verze modulu/systému v menu Help/About LISp-Miner na webových stránkách je číslo nejnovější verze Tutoriály http://lispminer.vse.cz/tutorial MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 7
Uživatelské rozhraní Možné ovládat jak klávesnicí, tak myší Priorita klávesnice klávesové zkratky pomocí klávesy Alt vyhledávání v abecedních seznamech postupným zadáváním písmen názvu Automatické přenačtení metabáze např. když jsou vygenerovány nové hypotézy lze i ručně pomocí Ctrl+R Nejde však o komerční aplikaci a tvorbě rozhraní nemůže být věnován čas na úkor vlastních algoritmů generování, verifikace, gridu... Specializovaná rozhraní pro potřeby konkrétních úloh obvykle zjednodušené, ne tolik odborné terminologie obvykle jako webové stránky (viz např. SEWEBAR) MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 8
Moduly a procedury LM LM LAQ Manager, LM KnowledgeSource porozumění problematice formulace LAQ doménové znalosti doporučení pro kategorizaci, prahové hodnoty vztahy mezi atributy LM DataSource, LM TimeTransf seznámení s daty a jejich předzpracování Procedury 4ft-Miner, CF-Miner, KL-Miner SDxx Procedury SD4ft-Miner, SDCF-Miner, SDKL-Miner Ac4ft-Miner Rozšiřující moduly AR2NL, 4ft-LiteralImportance, KL-Collaps, LM SwbExporter... MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 9
Přiřazení modulů k fázím DZD ANALYZOVANÁ DATA Asociování analyzovaných dat pparams (ODBC DSN) META BÁZE LM Admin ControlPanel Administrace Read-Only LM LAQ Manager LM DataSource 4ftTask 4ftResult LM KnowledgeSource LM TimeTransf 4ftGen KExResult 4ftGridGen KNOW LEDGE BÁZE KExTask LM SwbExporter Export MI-KDD P02 M. Šimůnek: Projekt LISp-Miner (SEWEBAR,HTML ) 10
Dlouhodobý vývoj systému Reálie roku 1996 IBM PC i386, 640 KB RAM dbase, FoxBase, TurboPascal 32-bitová Windows95 horkou novinkou; web a e-mail také Jak se budeme za 15 let dívat na dnešní vymoženosti? Návrh koncepce SW systému musel vycházet z tehdejší úrovně znalostí a úrovně prostředků Konzistentní a stabilní návrh základní koncepce Snaha neuzavírat dveře možným směrům budoucího vývoje Vývoj a změny terminologie Přes deset let systém udržen ve stavu dovolujícím jeho nasazení ve výuce, jako téma závěrečných prací a podpora výzkumu DZD Srozumitelnost programového kódu i po mnoha letech dodržování konvencí úprava textu, pojmenování proměnných... MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 11
LISp-Miner mezníky Implementace kvantifikátorů (1996) 4ftMiner (1998) DAO, serializace 4ftMiner s rodinami veličin (1999) Stav Délka Frekvence Lze prodloužit slepá ulička příliš složité, neuchopitelné co dál? Je další literál Lze výměna veličiny Lze zkrátit 1 0 ** ** ** ** ** ProdlouzeniCedentu 2 1 AA AA ** ** ** ProdlouzeniCedentu 3 1 AA NN AA ** ** DalsiLiteral 4 1 AA NN NN AA ** VymenaVeliciny 5 1 AA NN NN NN AA ZkraceniCedentu 6 1 AA NN NN NN NN KonecVetveVBNC 7 1 NN ** AA ** ** DalsiLiteral 8 1 NN ** NN AA ** VymenaVeliciny 9 1 NN ** NN NN AA ZkraceniCedentu 10 1 NN ** NN NN NN KonecVetveVBNC 11 2 ** ** AA ** ** DalsiLiteral 12 2 ** ** NN AA ** VymenaVeliciny 13 2 ** ** NN NN AA ZkraceniCedentu 14 2 ** ** NN NN NN KonecVetveVBNC Akce MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 12 LISp-Miner jako akademický systém (od 1999) využití dosavadních zkušeností zahrnutí více odlišných procedur orientace na výzkum a výuku (pokročilé kurzy, BP/DP/DisP) podhoubí pro další projekty EverMiner, SEWEBAR, Ferda...
Projekt EverMiner Výzkum možností automatické analýzy dat využití již existujících modulů a přidání zastřešující logické vrstvy, která bude automaticky spouštět úlohy a upravovat jejich parametry na základě výsledků předchozích běhů na výstup budou vkládány pouze skutečně nové a zajímavé (netriviální) znalosti nevyplývající ze známých skutečností Vysoké nároky na rychlost výpočtu každé jedné úlohy využití počítačového gridu ANALYZED DATA Data Preprocessing mapping to meta-attributes KNOWLEDGE- BASE Domain knowledge Initial, Induced Synthesizer New knowledge induction logic Qustion Maker formulation of the LAQ logic MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 13 Already known facts Newly induced knowledge Log History of each step and decision undertaken during automatic process FOUND PRIME PATTERNS Categorization hints, significant levels Task parameters fine-tuning LAQ Pool Initial, Induced Task Builder Task parameters setup logic 4ft KL Ac4ft Analytical procedures 4ft-Miner, KL-Miner DISTRIBUTED GRID simultaneous solving of many data-mining tasks
Počítačový grid Distribuovaný výpočet na více počítačích transparentní z pohledu uživatele Velmi dobré výsledky Snadné zvýšení výkonu zaregistrováním dalších PC do gridu MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 14
Závěr Systém LISp-Miner Skripta Šimůnek, M.: Systém LISp-Miner Historie vývoje a popis ovládání Dlouhodobý vývoj Další rozvoj možnosti pro zapojení formou DP, DisP http://lispminer.vse.cz MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 15
Prohlášení Při přípravě těchto elektronických podkladů pro výuku byly využity výsledky následujících projektů realizovaných na Vysoké škole ekonomické v Praze: Projekt GAČR 201/08/0802 - Aplikace metod znalostního inženýrství při dobývání znalostí z databází Projekt MŠMT ME 913 - Nové nástroje a teorie pro dobývání znalostí z databází MI-KDD P02 M. Šimůnek: Projekt LISp-Miner 16