Projekt LISp-Miner. M. Šimůnek

Podobné dokumenty
Analytické procedury v systému LISp-Miner

Nová GUHA-procedura ETree-Miner v systému LISp-Miner

Výpočet na gridu a LM TaskPooler

Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2. Projekt LISp-Miner.

Úvod do dobývání. znalostí z databází

Dolování asociačních pravidel

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

MBI - technologická realizace modelu

Moderní systémy pro získávání znalostí z informací a dat

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner

Rozhodovací stromy. Úloha klasifikace objektů do tříd. Top down induction of decision trees (TDIDT) - metoda divide and conquer (rozděl a panuj)

Uživatelské preference v prostředí webových obchodů. Ladislav Peška, MFF UK

Pokročilé neparametrické metody. Klára Kubošová

Asociační i jiná. Pravidla. (Ch )

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Vysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner

LISp-Miner: systém pro získávání znalostí z dat 1

Datové struktury 2: Rozptylovací tabulky

Dolování z textu. Martin Vítek

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

IBM SPSS Decision Trees

Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí

Vytěžování znalostí z dat

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

1 Úvod do celočíselné lineární optimalizace

TM1 vs Planning & Reporting

Kontingenční tabulky. (Analýza kategoriálních dat)

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Okruhy z odborných předmětů

Rekurzivní algoritmy

Přednáška 13 Redukce dimenzionality

GIS Geografické informační systémy

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Automatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz

Fakt. Každou soustavu n lineárních ODR řádů n i lze eliminací převést ekvivalentně na jednu lineární ODR

Základy vytěžování dat

xrays optimalizační nástroj

Jasové transformace. Karel Horák. Rozvrh přednášky:

Experimentální systém pro WEB IR

Pokročilé techniky tvorby sestav v Caché. ZENové Reporty

3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA

Automatizované řešení úloh s omezeními

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Multirobotická kooperativní inspekce

A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h)

7. Rozdělení pravděpodobnosti ve statistice

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch

Získávání znalostí z dat

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Vytěžování znalostí z dat

Algoritmus pro hledání nejkratší cesty orientovaným grafem

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Asociační pravidla. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Autor: Jan Hošek

Ukládání a vyhledávání XML dat

Rovinný průtokoměr. Diplomová práce Ústav mechaniky tekutin a termodynamiky, Jakub Filipský

Návrh Designu: Radek Mařík

3. úloha - problém batohu metodami branch & bound, dynamické programování, heuristika s testem

Datová věda (Data Science) akademický navazující magisterský program

Střední odborná škola a Střední odborné učiliště, Hořovice

Datové struktury Úvod

GIS Geografické informační systémy

Sítě SFN Systém pro analýzu a vizualizaci pokrytí a rušení vysílacích sítí

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Vícerozměrné statistické metody

Inovace výuky prostřednictvím šablon pro SŠ

Předzpracování dat. Lenka Vysloužilová

Základní datové struktury III: Stromy, haldy

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 1 - Úvod

DRN: Kořeny funkce numericky

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Operační výzkum. Síťová analýza. Metoda CPM.

Aplikace obrazové fúze pro hledání vad

Numerická stabilita algoritmů

Rozhraní pro práci s XML dokumenty. Roman Malo

Příklad: Test nezávislosti kategoriálních znaků

Stromy, haldy, prioritní fronty

Algoritmy a datové struktury

PROHLEDÁVÁNÍ GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

2) Napište algoritmus pro vložení položky na konec dvousměrného seznamu. 3) Napište algoritmus pro vyhledání položky v binárním stromu.

Lineární algebra : Násobení matic a inverzní matice

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

Rozhodovací pravidla

Projekt implementace OS Linux do výuky informačních technologií

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2014

4IZ440 Propojená data na webu Organizační úvod

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Metody lineární optimalizace Simplexová metoda. Distribuční úlohy

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Globální matice konstrukce

PRODUKTY. Tovek Tools

Otevřený katastr (OK)

Počítačové šachy. Otakar Trunda

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Transkript:

Projekt LISp-Miner http://lispminer.vse.cz M. Šimůnek

Obsah Systém LISp-Miner Vývoj systému v dlouhém období ETree-Miner Project LISp-Miner 2

Systém LISp-Miner Metoda GUHA (od roku 1966) předchozí implementace (IBM 370, PC-GUHA...) Akademické prostředí http://lispminer.vse.cz Cíle použití ve výuce použití pro výzkum v oblasti DM použití pro řešení reálných DM úloh využíván navazujícími projekty (SEWEBAR, EverMiner ) Modulární a vrstvená architektura Důraz na rychlost výpočtu generování a verifikace co nejrychlejší (i pro složité zadání úloh) Vývoj od roku 1996 cca 1 mil. programových řádků, vývojové prostředí MSVC++ Project LISp-Miner 3

Nová procedura ETree-Miner Exploration trees více možných variant větvícího atributu vzniká les klasifikující s lepší přesností než jeden každý individuální strom výpočetně náročné, protože generovaných a prověřovaných stromů obrovské množství Využití prostředků implementovaných v systému LISp-Miner bitové řetězce 4ft-cedent (generování pod-stromů) kontingenční tabulky confusion matrix GUHA-procedura procházení celého stavového prostoru možných stromů a výběr všech, které splňují kritéria zadání Project LISp-Miner 4

Decision Exploration Tree Decision tree rozhodovací strom s jednoduchou strukturou kořen uzly listy Top-down induction (TDIDT) např. ID3 možnost klasifikace případů Exploration tree namísto výběru jednoho nejlepšího atributu pro větvení (split) jsou postupně vybrány všechny s dostatečnou kvalitou nyní podle χ 2 testu popisuje velké množství možných variant rozhodovacích stromů zvolením vždy právě jednoho z možných větvících atributů vznikne jedna varianta rozhodovacího stromu Možnost zadání 4ft-podmínky vzniká pod-strom větev pro podmnožinu záznamů datové matice (pouze těch splňujících 4ft-podmínku) Project LISp-Miner 5

Exploration Tree (ETree) Root: Uver= ano, Forest Quality: 1.000, Root Purity: 0.667 (8 from 12) #-- L1.S1: Prijem: Significance: 1.888, Branch Frequency: 12, Branch Quality: 1.000 #-- L1.S1.B1: Prijem= nízký: Uver= ne, Node Purity: 0.571 (4 from 7) #-- L1.S1.B1.L2.S1: Konto: Significance: 2.233, Branch Frequency: 7, Branch Quality: 1.000 #-- L1.S1.B1.L2.S1.B1: Konto= nízké: Uver= ne, Node Purity: 1.000 (2 from 2) #-- L1.S1.B1.L2.S1.B2: Konto= střední: Uver= ne, Node Purity: 0.667 (2 from 3) #-- L1.S1.B1.L2.S1.B3: Konto= vysoké: Uver= ano, Node Purity: 1.000 (2 from 2) #-- L1.S1.B1.L2.S2: Nazamestnany: Significance: 0.940, Branch Frequency: 7, Branch Quality: 1.000... #-- L1.S1.B2: Prijem= vysoký: Uver= ano, Node Purity: 1.000 (5 from 5) #-- L1.S2: Konto: Significance: 1.875, Branch Frequency: 12, Branch Quality: 1.000... #-- L1.S3: Nezamestnany: Significance: 1.532, Branch Frequency: 12, Branch Quality: 0.950... Project LISp-Miner 6

Klasifikace Klasifikace objektů datové matice červeně zvýrazněné chyby Confusion matrix absolutní i relativní četnosti úspěšné a neúspěšné klasifikace Project LISp-Miner 7

Závěr Systém LISp-Miner Využití v projektu SEWEBAR Další vývoj http://lispminer.vse.cz Project LISp-Miner 8

DOPORUČOVÁNÍ ATRIBUTŮ PŘI ZÍSKÁVÁNÍ ASOCIAČNÍCH PRAVIDEL Z DAT POMOCÍ ROZHODOVACÍCH STROMŮ KIZI, VŠE v Praze Radek Škrabal 26. 4. 2012

Představení Radek Škrabal FEL ČVUT (2006 2010) FIS VŠE (2010 2012) DP: Vizualizace asociačních pravidel Vývojář webových aplikací Kontakt: radek@skrabal.me

Plán Úvod (5 min) Aplikace AR Builder Dolování asociačních pravidel (5-10 min) Integrace background knowledge Doporučování atributů (20-25 min) Motivace Definice Řešení Závěr

Úvod Aplikace AR Builder

Úvod Aplikace AR Builder Webová aplikace HTML 5, PHP 5, MooTools Dolování asociačních pravidel Interaktivní přístup, rychlá odezva Tvorba kvalitních analytických zpráv Využití existujících nástrojů (LISp-Miner, XQuery Search)

AR Builder XML konfigurace DataDescription popis dat FeatureList restrikce zadání Restrict Expert FrequencyAnalysis K x L polní tabulka četností

AR Builder - Integrace LISp-Miner LISp-Miner 4ft-Miner AR Builder SEWEBAR Connect ETree-Miner Background knowledge KL-Miner XQuery Search

AR Builder - UI

Dolování asociačních pravidel

Dolování asociačních pravidel Problémy Nesetříděné množství pravidel Chybí interaktivita Řešení Interaktivní proces dolování Doporučení vhodného atributu Označení zajímavých pravidel Integrace background knowledge

Integrace background knowledge

Integrace background knowledge

Integrace background knowledge Zatím v teoretické rovině Vyhledávání doménových znalostí (XQuery Search) Předem indexované Typy dotazů Je pravidlo obecně známé? Je pravidlo v rozporu s obecně známým?

Integrace background knowledge Typické workflow: 1. Dolování asociačních pravidel 2. Pro každé asociační pravidlo 1. Dotaz na doménové znalosti 2. Skrytí, pokud je nezajímavé 3. Označení, pokud je zajímavé 3. Zpět na krok 1, dokud není uživatel spokojen 4. Uložení do analytické zprávy

Praktická ukázka

Doporučování atributů

Motivace MIME Framework University of Antwerp, Belgium Úspěch na ACM SIGKDD 2011 Best Pattern Extension Nejlepší rozšíření zvoleného vzoru Vzor itemset (apriori)

Definice Uvažujme asociační pravidlo ve tvaru: Ant Succ Cond kde Ant, Succ a Cond jsou kombinace literálů a vztah mezi Ant a Succ je definován pomocí (zobecněného) kvantifikátoru.

Definice Nechť A je množina atributů. Nechť Ant Succ =. Rozšířené asociační pravidlo pak definujme jako: Ant ^ val(a) Succ Cond kde a A; val(a) je literál z atributu a; a není obsažen v Ant, Succ ani Cond.

Vhodnost atributu Hledáme atribut a A, který dokáže posílit vztah mezi Ant a Succ definovaný (zobecněným) kvantifikátorem. Pro vhodnost atributu definujme funkci qual: 0 <= qual(a) <= 1 Pro perspektivní rozšíření pravidla budeme uvažovat atributy qual(a) >= q min.

Uvažovaná řešení Statistické Souvislost uvažovaného atributu s cílovým Fisherův test, metriky vycházející z entropie Vytvoření modelu Využití popisných metrik Explorační stromy

ETree Miner Nová GUHA procedura Výhody 1 běh pro všechny atributy Nevýhody Citlivé nastavení zadání (exp. složitost) Jen 1 cílový atribut V současnosti jen Chi-Square kvantifikátor

ETree Miner Počet generovaných stromů: kde k je počet větvících atributů, lmax je maximální hloubka stromu a vl je počet uzlů v hloubce l.

ETree Miner Chi-Square kritérium pro test signifikance: kde a ij je počet příkladů i-té hodnoty atributu A a j-té hodnoty cílového atributu, r i je počet příkladů majících i-tou hodnotu atributu A, s j je počet příkladů majících j-tou hodnotu cílového atributu a n je počet příkladů.

Doporučení atributu z ETree

Algoritmus 1. Sestavení zadání ETree úlohy 2. Spuštění 1 běhu úlohy 3. Výběr větví dle koeficientu v Succ 4. Výběr split atributů 5. Pokud neexistuje odpovídající atribut -> konec 6. Pro každý split atribut 1. Výpočet hodnoty qual 2. Seřazení sestupně podle qual 7. Doporučení atributu s max(qual)

ETree Miner - zadání Split attributes Seznam atributů, které nejsou v Ant ani Succ Condition Celý Ant Class attribute Atribut v Succ

ETree Miner - zadání Minimal node purity, Minimal tree quality Využití KL-Miner (frekvenční analýza) Quality fr 1 = 1773 / 2049 = 0.865 fr 2 = 1827 / 2034 = 0.898 fr 3 = 1854 / 2098 = 0.884 Salary Salary (high) NP = fr 3 Salary (*) NP = avg (fr 1, fr 2, fr 3 ) + stdev (fr 1, fr 2, fr 3 ) = 0.894 TQ = median (fr 1, fr 2, fr 3 ) = 0.884

ETree Miner - zadání Maximal tree depth Experimenty s 1-2 Maximal nr. of split attributes Experimenty s 3-6 Vyžaduje další studium

Doporučení atributu 1. krok Výběr správných větví ETree Na základě koeficientu v Succ Typ One category výběr jen těch větví, které správně klasifikují tuto kategorii Typ * všechny větve (zjednodušení)

Doporučení atributu 2. krok Výběr split atributů z ETree Informace pro každý split atribut signifikance Chi-Square Výpočet qual (normalizace) qual = signifikance / max(signifikance max, 12) Seřazení sestupně podle qual

Doporučení atributu 3. krok Jaký z atributů tedy doporučit? Atribut s max(qual) Podle čeho měřit jeho vhodnost? qual > 0.75 doporučený qual > 0.40 částečně doporučený, nemusí vždy přispět k posílení vztahu mezi Ant a Succ

Fixace zadání Expert může přijít o zajímavé informace Doporučená změna koeficientu Repayment (3,4> nebo Repayment (6;7>

Praktická ukázka

Závěr

Závěr AR Builder Interaktivní přístup Dolování asociačních pravidel Analytické zprávy Integrace background knowledge Doporučení vhodného atributu Mnoho námětů na další rozšíření Implementace dalších kvantifikátorů, doporučování konkrétních kategorií atributů, apod.

Děkuji za pozornost