Výpočet na gridu a LM TaskPooler

Podobné dokumenty
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2. Projekt LISp-Miner.

Analytické procedury v systému LISp-Miner

Projekt LISp-Miner. M. Šimůnek

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 1 - Úvod

Nová GUHA-procedura ETree-Miner v systému LISp-Miner

Úvod do dobývání. znalostí z databází

DATAMINING SEWEBAR CMS

MBI - technologická realizace modelu

O Apache Derby detailněji. Hynek Mlnařík

Hromadné výpočty s využitím Excelu

Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 4 Asociační pravidla

Výpočet nejistot metodou Monte carlo

Měření teploty, tlaku a vlhkosti vzduchu s přenosem dat přes internet a zobrazování na WEB stránce

Multirobotická kooperativní inspekce

Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MS Access složitější konverze dat Ing. Kotásek Jaroslav

Vzdělávací obsah vyučovacího předmětu

Datové struktury 2: Rozptylovací tabulky

Statistica, kdo je kdo?

Modul IRZ návod k použití

ALGORITMIZACE A PROGRAMOVÁNÍ

Kontingenční tabulky v MS Excel 2010

Popis produktu IDFU. Řešení součinnosti s oprávněnými osobami verze 2. Aegis s.r.o.

Setkání uživatelů programu SSB2000, Skalský dvůr, SSB2000 bez hranic

Paralelní výpočty ve finančnictví

Vysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner

Software602 Form Designer

Moderní systémy pro získávání znalostí z informací a dat

Wolfram Alpha. v podobě html stránky, samotný výsledek je často doplněn o další informace (např. graf, jiné možné zobrazení výsledku a

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Příloha 6. Palety nástrojů

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

Příprava dat v softwaru Statistica

Aplikace pro srovna ní cen povinne ho ruc ení

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Datová věda (Data Science) akademický navazující magisterský program

Manuál k programu EMSoftware

Bonn, Rheinischen Friedrich-Wilhelms-Universität

Paralelní a distribuované výpočty (B4B36PDV)

Institut teoretické informatiky (ITI) na FI MU

Formy komunikace s knihovnami

Databáze prodejců. Tlačítka. Vytvoří kartu nového prodejce (Alt+N); Změní vybraného prodejce Uloží nového prodejce nebo změnu (Alt+U);

Přednáška. Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Unbounded Model Checking

Modul. Univerzální tabulkový export

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

IB111 Programování a algoritmizace. Programovací jazyky

TECHNICKÁ UNIVERZITA V LIBERCI

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Tvorba digitálního modelu terénu

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 9 Využití doménových znalostí

ANOTACE vytvořených/inovovaných materiálů

IBRIDGE 1.0 UŽIVATELSKÝ MANUÁL

Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MS Access generování složitějších sestav Ing. Kotásek Jaroslav

VYUŽITÍ MATLAB WEB SERVERU PRO INTERNETOVOU VÝUKU ANALÝZY DAT A ŘÍZENÍ JAKOSTI

Program pro tvorbu technických výpočtů. VIKLAN - Výpočty. Uživatelská příručka. pro seznámení se základními možnostmi programu. Ing.

Rozvoj tepla v betonových konstrukcích

Úvod do teorie grafů

TAXexpert5 modul Kartotéka II.

Vývoj informačních systémů. Přehled témat a úkolů

Stanovení nejistot při výpočtu kontaminace zasaženého území

Únosnost kompozitních konstrukcí

Elektronická podpora výuky předmětu Komprese dat

Střední odborná škola stavební Karlovy Vary Sabinovo náměstí 16, Karlovy Vary Autor: Ing. Hana Šmídová Název materiálu:

Přidělování CPU Mgr. Josef Horálek

Programovací jazyky. imperativní (procedurální) neimperativní (neprocedurální) assembler (jazyk symbolických instrukcí)

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

Speciální numerické metody 4. ročník bakalářského studia. Cvičení: Ing. Petr Lehner Přednášky: doc. Ing. Martin Krejsa, Ph.D.

Společnost MEFISTO SOFTWARE, a.s. uvádí na trh nový produkt Mefisto CAMPUS.

Seznam úloh v rámci Interního grantového systému EPI

Modul RLZ - mzdové výpočty,spojovák

1 Webový server, instalace PHP a MySQL 13

HELIOS - Zálohování BüroKomplet, s.r.o.

VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ

Národní šetření výsledků žáků v počátečním vzdělávání

Chybová hlášení METODIKA MET-01/2014. SZR-56-1/OPICT-2013 počet stran 28 přílohy 0. Nahrazuje:

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

Při bodování se mohou přidělovat body za každou dílčí úlohu (tj. a, b ), maximální bodové hodnocení je uvedeno na konci každé dílčí úlohy.

Kontextové dokumenty

APS mini.ed programová nadstavba pro základní vyhodnocení docházky. Příručka uživatele verze

Změny a opravy v systému DUNA MZDY, verze

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

Příručka SAP Business One 2007A, 8.8

Archiv elektronických dokumentů Zela

Markov Chain Monte Carlo. Jan Kracík.

RDF DSPS ROZVOJ PORTÁLU

Programové systémy MKP a jejich aplikace

31 APZ Organizace. Popis modulu

INFORMATIKA MS WORD GRAFIKA VE WORDU

Obsah Úvodem... 5 Co je to vlastně formulář... 6 Co je to šablona... 6 Jak se šablona uloží... 6 Jak souvisí formulář se šablonou...

Webové šablony pro restaurace

DATABÁZE MS ACCESS 2010

VISUAL BASIC. Přehled témat

Semináˇr Java X J2EE Semináˇr Java X p.1/23

1. Webový server, instalace PHP a MySQL 13

Allegro release 2.01 ( do )

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Transkript:

Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 10 Výpočet na gridu a LM TaskPooler v systému LISp-Miner (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Výpočet na gridu a LM TaskPooler v systému LISp-Miner M. Šimůnek

Obsah Generování úloha na gridu LM TaskPooler grid bez gridu LM SwbExporter export dat z metabáze MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 3

Distribuovaný výpočet na gridu Některé úlohy opravdu velmi složité generování a verifikace až stovek milionů relevantních otázek zejména nové procedury jako Ac4ft-Miner až desítky hodin i dny Rozdělení úlohy na menší části a rozdělení na více počítačů PC-Grid na Technical University of Tampere obyčejné počítače na učebnách, u sekretářek apod., které jsou zaregistrovány u Grid-Serveru při nízkém zatížení mohou sloužit pro externě zadaný výpočet Grid-framework řeší otázky vhodného přidělení výpočtu, monitoring klientů, bezpečnost (certifikáty)... Kdy má smysl optimalizovat? MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 4

Analytický numerický výpočet Eulerovo číslo základ přirozených logaritmů e = lim n ( 1 + 1 / n) n Problém při výpočtu na číslicovém počítači Některé výpočty nelze na číslicovém počítači provést problémy v zaokrouhlování složitost délka výpočtu... Řešení Numerické metody Pozor! I ty mají své nevýhody! Výpočet Π analyticky numericky podoba algoritmu výpočtu? MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 5

Stochastický výpočet Π Velké množství pokusů náhodně vybírány body uvnitř čtverce Počítání poměru p= počet případů, kdy bod zároveň uvnitř kruhu lomeno počtem všech pokusů S kruh = Πr 2 S čtverec = (2r) 2 = 4r 2 Pro počet pokusů n platí, že p = S kruh / S čtverec = Πr 2 / 4r 2 = Π/ 4 Π = 4p MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 6

Metoda Monte-Carlo Výpočet Π Ideální úloha pro distribuovaný výpočet málo vstupních dat, která nutné distribuovat mezi klienty snadné rozdělení každý pokus je nezávislý čím více pokusů, tím lépe snadná agregace výsledků zjištění průměrné hodnoty za všechny pokusy MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 7

LISp-Miner a grid Režie gridu rozdělení úlohy na nezávislé části přenos dat agregace výsledků GUHA Procedura a algoritmus procházení variant sekvenční deep-first algoritmus (procházení do hloubky) pouze metoda PřipravDalšíVariantuCedentu když není další, tak vrací FALSE optimalizace, přeskoky není dopředu znám celkový počet variant úloha se pak obtížně rozděluje na menší části Snaha navrhnout způsob použitelný pro všechny implementované procedury, který navíc nezasahuje příliš do odladěného algoritmu 4ft-Miner, CF-Miner,..., SD4ft-Miner,..., Ac4ft-Miner MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 8

Rozdělení úlohy Základem všech procedur je 4ft-cedent a jeho bohatá syntaxe využití pro rozdělení podle zadání úlohy zafixování minimální a maximální délky cedentů, dílčích cedentů, koeficientů lze snadno zjistit počet vzniklých pod-úloh Příklad: zadání úlohy obsahující v antecedentu zadání koeficientů subset délky 1 až 3 lze rozdělit na tři pod-úlohy subset délky 1, subset délky 2, subset délky 3 zbylá část zadání úlohy zůstává stejná Pod-úlohy lze řešit každou zvlášť najednou na třech klientech gridu a výsledky následně spojit celý stavový prostor je i nadále pokryt maximálně může jeho část být procházena zbytečně dvakrát při agregaci výsledků je nutné kontrolovat duplicitní hypotézy Vzniklé pod-úlohy nejsou zcela vyvážené, ale díky optimalizaci se rozdíly snižují návrh lepšího algoritmu rozdělení na pod-úlohy? MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 9

Výsledky Distribuovaný výpočet na více počítačích transparentní z pohledu uživatele Velmi dobré výsledky Snadné zvýšení výkonu zaregistrováním dalších PC do gridu MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 10

Přínosy gridu Významné zrychlení řešení úloh Asynchronní charakter práce lze spustit libovolné množství úloh najednou metabáze navíc zůstává i nadále odemčená a je možné přidávat/editovat úlohy ANALYZED DATA Data Preprocessing mapping to meta-attributes je možné vypnout počítač a výsledky z gridu stáhnout druhý den, ve škole, po příletu do Japonska... Teprve díky výpočetní síle gridu se stává reálným i projekt EverMiner KNOWLEDGE- BASE Domain knowledge Initial, Induced Synthesizer New knowledge induction logic Qustion Maker formulation of the LAQ logic MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 11 Already known facts Newly induced knowledge Log History of each step and decision undertaken during automatic process FOUND PRIME PATTERNS Categorization hints, significant levels Task parameters fine-tuning LAQ Pool Initial, Induced Task Builder Task parameters setup logic 4ft KL Ac4ft Analytical procedures 4ft-Miner, KL-Miner DISTRIBUTED GRID simultaneous solving of many data-mining tasks

Modul LM TaskPooler (1) Dávkové zpracování (mnoha+ složitých) úloh Řešení problému se zamknutím metabáze po spuštění standardního generování hypotéz úloha zařazena do fronty a spočítání až přijde na řadu v mezidobí je však možné i nadále s metabází pracovat editovat jiné úlohy přidávat nové zařazovat další úlohy do fronty Úlohy ve frontě jsou v seznamu úloh (Control Panel, xxtask) zvýrazněny žlutě Přehled stavu všech úloh MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 12

Modul LM TaskPooler (2) Modul LM TaskPooler běží na pozadí Uživatel LM o jeho existenci nemusí vědět Je však možné si zobrazit frontu čekajících úloh a aktuální stav generování MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 13

Modul LM SwbExporter Export dat z metabáze do textových souborů Používá se pro export do prostředí SEWEBARu (formát PMML) export do textu, XML, HTML Export řízen šablonami jeden formát jedna šablona jednoduchý skriptovací jazyk volný text + aktivní tagy, kam mají být vloženy hodnoty z metabáze podmínky, cykly Modul volán buď ručně z příkazového řádku nebo z modulů xxresult pomocí tlačítka Output MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 14

Závěr Ukázka výpočtu na gridu LM TaskPooler Export na SEWEBAR Další možnosti výzkumu výpočet na gridu EverMiner http://lispminer.vse.cz MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 15

Prohlášení Při přípravě těchto elektronických podkladů pro výuku byly využity výsledky následujících projektů realizovaných na Vysoké škole ekonomické v Praze: Projekt GAČR 201/08/0802 - Aplikace metod znalostního inženýrství při dobývání znalostí z databází Projekt MŠMT ME 913 - Nové nástroje a teorie pro dobývání znalostí z databází MI-KDD P10 M. Šimůnek: Grid a LM TaskPooler 16