Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 10 Výpočet na gridu a LM TaskPooler v systému LISp-Miner (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Výpočet na gridu a LM TaskPooler v systému LISp-Miner M. Šimůnek
Obsah Generování úloha na gridu LM TaskPooler grid bez gridu LM SwbExporter export dat z metabáze MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 3
Distribuovaný výpočet na gridu Některé úlohy opravdu velmi složité generování a verifikace až stovek milionů relevantních otázek zejména nové procedury jako Ac4ft-Miner až desítky hodin i dny Rozdělení úlohy na menší části a rozdělení na více počítačů PC-Grid na Technical University of Tampere obyčejné počítače na učebnách, u sekretářek apod., které jsou zaregistrovány u Grid-Serveru při nízkém zatížení mohou sloužit pro externě zadaný výpočet Grid-framework řeší otázky vhodného přidělení výpočtu, monitoring klientů, bezpečnost (certifikáty)... Kdy má smysl optimalizovat? MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 4
Analytický numerický výpočet Eulerovo číslo základ přirozených logaritmů e = lim n ( 1 + 1 / n) n Problém při výpočtu na číslicovém počítači Některé výpočty nelze na číslicovém počítači provést problémy v zaokrouhlování složitost délka výpočtu... Řešení Numerické metody Pozor! I ty mají své nevýhody! Výpočet Π analyticky numericky podoba algoritmu výpočtu? MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 5
Stochastický výpočet Π Velké množství pokusů náhodně vybírány body uvnitř čtverce Počítání poměru p= počet případů, kdy bod zároveň uvnitř kruhu lomeno počtem všech pokusů S kruh = Πr 2 S čtverec = (2r) 2 = 4r 2 Pro počet pokusů n platí, že p = S kruh / S čtverec = Πr 2 / 4r 2 = Π/ 4 Π = 4p MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 6
Metoda Monte-Carlo Výpočet Π Ideální úloha pro distribuovaný výpočet málo vstupních dat, která nutné distribuovat mezi klienty snadné rozdělení každý pokus je nezávislý čím více pokusů, tím lépe snadná agregace výsledků zjištění průměrné hodnoty za všechny pokusy MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 7
LISp-Miner a grid Režie gridu rozdělení úlohy na nezávislé části přenos dat agregace výsledků GUHA Procedura a algoritmus procházení variant sekvenční deep-first algoritmus (procházení do hloubky) pouze metoda PřipravDalšíVariantuCedentu když není další, tak vrací FALSE optimalizace, přeskoky není dopředu znám celkový počet variant úloha se pak obtížně rozděluje na menší části Snaha navrhnout způsob použitelný pro všechny implementované procedury, který navíc nezasahuje příliš do odladěného algoritmu 4ft-Miner, CF-Miner,..., SD4ft-Miner,..., Ac4ft-Miner MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 8
Rozdělení úlohy Základem všech procedur je 4ft-cedent a jeho bohatá syntaxe využití pro rozdělení podle zadání úlohy zafixování minimální a maximální délky cedentů, dílčích cedentů, koeficientů lze snadno zjistit počet vzniklých pod-úloh Příklad: zadání úlohy obsahující v antecedentu zadání koeficientů subset délky 1 až 3 lze rozdělit na tři pod-úlohy subset délky 1, subset délky 2, subset délky 3 zbylá část zadání úlohy zůstává stejná Pod-úlohy lze řešit každou zvlášť najednou na třech klientech gridu a výsledky následně spojit celý stavový prostor je i nadále pokryt maximálně může jeho část být procházena zbytečně dvakrát při agregaci výsledků je nutné kontrolovat duplicitní hypotézy Vzniklé pod-úlohy nejsou zcela vyvážené, ale díky optimalizaci se rozdíly snižují návrh lepšího algoritmu rozdělení na pod-úlohy? MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 9
Výsledky Distribuovaný výpočet na více počítačích transparentní z pohledu uživatele Velmi dobré výsledky Snadné zvýšení výkonu zaregistrováním dalších PC do gridu MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 10
Přínosy gridu Významné zrychlení řešení úloh Asynchronní charakter práce lze spustit libovolné množství úloh najednou metabáze navíc zůstává i nadále odemčená a je možné přidávat/editovat úlohy ANALYZED DATA Data Preprocessing mapping to meta-attributes je možné vypnout počítač a výsledky z gridu stáhnout druhý den, ve škole, po příletu do Japonska... Teprve díky výpočetní síle gridu se stává reálným i projekt EverMiner KNOWLEDGE- BASE Domain knowledge Initial, Induced Synthesizer New knowledge induction logic Qustion Maker formulation of the LAQ logic MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 11 Already known facts Newly induced knowledge Log History of each step and decision undertaken during automatic process FOUND PRIME PATTERNS Categorization hints, significant levels Task parameters fine-tuning LAQ Pool Initial, Induced Task Builder Task parameters setup logic 4ft KL Ac4ft Analytical procedures 4ft-Miner, KL-Miner DISTRIBUTED GRID simultaneous solving of many data-mining tasks
Modul LM TaskPooler (1) Dávkové zpracování (mnoha+ složitých) úloh Řešení problému se zamknutím metabáze po spuštění standardního generování hypotéz úloha zařazena do fronty a spočítání až přijde na řadu v mezidobí je však možné i nadále s metabází pracovat editovat jiné úlohy přidávat nové zařazovat další úlohy do fronty Úlohy ve frontě jsou v seznamu úloh (Control Panel, xxtask) zvýrazněny žlutě Přehled stavu všech úloh MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 12
Modul LM TaskPooler (2) Modul LM TaskPooler běží na pozadí Uživatel LM o jeho existenci nemusí vědět Je však možné si zobrazit frontu čekajících úloh a aktuální stav generování MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 13
Modul LM SwbExporter Export dat z metabáze do textových souborů Používá se pro export do prostředí SEWEBARu (formát PMML) export do textu, XML, HTML Export řízen šablonami jeden formát jedna šablona jednoduchý skriptovací jazyk volný text + aktivní tagy, kam mají být vloženy hodnoty z metabáze podmínky, cykly Modul volán buď ručně z příkazového řádku nebo z modulů xxresult pomocí tlačítka Output MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 14
Závěr Ukázka výpočtu na gridu LM TaskPooler Export na SEWEBAR Další možnosti výzkumu výpočet na gridu EverMiner http://lispminer.vse.cz MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 15
Prohlášení Při přípravě těchto elektronických podkladů pro výuku byly využity výsledky následujících projektů realizovaných na Vysoké škole ekonomické v Praze: Projekt GAČR 201/08/0802 - Aplikace metod znalostního inženýrství při dobývání znalostí z databází Projekt MŠMT ME 913 - Nové nástroje a teorie pro dobývání znalostí z databází MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 16