Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Podobné dokumenty
Pokročilé neparametrické metody. Klára Kubošová

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

PARAMETRICKÁ STUDIE VÝPOČTU KOMBINACE JEDNOKOMPONENTNÍCH ÚČINKŮ ZATÍŽENÍ

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Instance based learning

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Moderní systémy pro získávání znalostí z informací a dat

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Doplňování chybějících hodnot v kategoriálních datech 2.00

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

Měření průtoku kapaliny s využitím digitální kamery

Strojové učení Marta Vomlelová

SOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT

Moˇ znosti testov an ı Jiˇr ı Dvoˇr ak 19. ledna 2012 Jiˇ r ı Dvoˇ r ak Moˇ znosti testov an ı

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Úloha - rozpoznávání číslic

Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF)

Neuronové časové řady (ANN-TS)

Zadání soutěžních úloh

MI-PAA. úkol č.3. Řešení problému batohu dynamickým programováním, metodou větví a hranic a aproximativním algoritmem

Učící se klasifikátory obrazu v průmyslu

Pokročilé neparametrické metody. Klára Kubošová

Uživatelská příručka. 06/2018 Technické změny vyhrazeny.

Dobývání a vizualizace znalostí

V Brně dne a

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Získávání dat z databází 1 DMINA 2010

Sběr dat pro CIE. Oto Potluka. IREAS a VŠE Praha

Algoritmy a struktury neuropočítačů ASN - P11

Pravděpodobně skoro správné. PAC učení 1

Základy počtu pravděpodobnosti a metod matematické statistiky

Úvodem Dříve les než stromy 3 Operace s maticemi

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Spojení OntoUML a GLIKREM ve znalostním rozhodování

PŘIJÍMACÍ TEST z informatiky a matematiky pro navazující magisterské studium Fakulta informatiky a managementu Univerzity Hradec Králové

Dobývání a vizualizace znalostí

Procesní řízení. Hlavní zásady a praxe dodavatele Komix

Lineární regrese. Komentované řešení pomocí MS Excel

Neuronové sítě (11. přednáška)

Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, + TXT, XLS, CSV, C45, ARF, + CSV, XLS, ARF, + BMP, PNG, +

Metody založené na analogii

ANALÝZA A KLASIFIKACE DAT

Vícerozměrné statistické metody

1. VYMEZENÍ ODBORNÉ STÁŽE

Hodnoticí standard. Programátor (kód: M) Odborná způsobilost. Platnost standardu. Skupina oborů: Informatické obory (kód: 18)

Meo S-H: software pro kompletní diagnostiku intenzity a vlnoplochy

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY 6

Zpráva o výsledcích šetření za rok Ministerstvo pro místní rozvoj ČR Odbor veřejného investování

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Státnice odborné č. 20

Dobývání dat a strojové učení

Neuronové sítě v DPZ

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI

Specializace Návrhář software na základě analýzy vytváří návrh softwarových aplikací ve formě schémat a diagramů.

Informace k e-learningu

1. VYMEZENÍ ODBORNÉ STÁŽE

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Rozvoj tepla v betonových konstrukcích

PRACUJEME S TSRM. Modul Samoobsluha

CASE. Jaroslav Žáček

=PREZENTACE= stručná příručka základů. (verze 2007)

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA STAVEBNÍ, OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE

Manažerská ekonomika KM IT

Diplomová práce Prostředí pro programování pohybu manipulátorů

Statistická teorie učení

PHOTO-ON Profesionální on-line správa fotografií

Předzpracování dat. Lenka Vysloužilová

Dolování z textu. Martin Vítek

Pokročilé neparametrické metody. Klára Kubošová

Informatika a výpočetní technika 1. Ing. Ladislav Nagy Technická univerzita v Liberci FT / KOD / 2011

Získávání znalostí z dat

Bohuslav Mach, Správce úkolů. pro informační systém firmy s-cape.cz 1/6

PowerOPTI Řízení účinnosti tepelného cyklu

Použití Virtual NAT interfaces na Cisco IOS

Vzdělávací obsah vyučovacího předmětu

Gymnázium Jiřího Ortena, Kutná Hora

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

WORD. (zobecněno pro verzi 2007)

5.1 Rozhodovací stromy

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Dobývání a vizualizace znalostí

FORTANNS. 22. února 2010

Vytěžování znalostí z dat

Rozdělování dat do trénovacích a testovacích množin

Podrobná analýza k aktivitě č. 3 - implementace procesního řízení do praxe úřadu

Praktické aspekty ABC

Ing. Jiří Fejfar, Ph.D. Geo-informační systémy

Využití neuronové sítě pro identifikaci realného systému

NG C Implementace plně rekurentní

Návrh uživatelských rozhraní NOV-WEB. Jakub Bartoš, Pavel Dvořák, Jakub Motyčka, Kamil Procházka

Transkript:

Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX

Přidělená data a jejich popis Data určená pro zpracování jsou označená jako Vote. Jedná se o hlasování kongresu USA z roku 1984. K dispozici je celkem 17 atributů, z čehož je jeden hlavní - class (rozložení sil v kongresu 267 demokratů a 168 republikánů). Ostatní atributy jsou kategoriálního typu (pro / proti). Weka Na prvním snímku je vidět stav po načtení dat do systému Weka. Cílem je najít takový algoritmus, který data zanalyzuje s nejlepším vypovídajícím hodnocením. Celý soubor dat bude pro aplikaci jednotlivých algoritmů rozdělen na 2/3 dat trénovacích a 1/3 testovacích.

ZeroR Jako první algoritmus bylo aplikováno pravidlo zero rule, které hledá dominantní třídu (skupinu objektu se stejnými charakteristikami). Zde je vidět, že tento algoritmus neposkytuje dostatečně silný výsledek, neboť má chybovost přes 40%

OneR Dalším algoritmem je one rule, algoritmus určí pravidlo pro každý ukazatel a ten který má nejmenší počet chyb je stanoven jako one rule a všechny ostatní indikátory jsou s ním poměřovány. Tento algoritmus dosáhl velmi slušného výsledku s přesností přesahující 96%.

J48 Třetím algoritmem je rozhodovací strom, který lze použít především na kategoriální atributy (tedy náš případ). Pokud by uživatel chtěl použít rozhodovací strom na nominální atributy, musel by data patřičným způsobem upravit (např. pomocí intervalů, rozdělení do skupin atp.) Nejprve jsem zde uvedl obrázek stromu pro představu, kolik větví má. Na dalším obrázku je potom možné vidět velmi solidní výsledek s přesností na 97%, což představuje pouhé 4 chyby.

BayesNet Bayesovská síť využívá pravděpodobnostních vztahů mezi jevy. Tento algoritmus nabízí výsledek s téměř 92% přesností.

MultilayerPerceptron Předposledním algoritmem je neuronová síť jež zanáší jednotlivé výskyty do mnohovrstevného grafu. Toto testování nabízí zatím nejlepší výsledek s přesností na 98,6%, tedy s pouze dvěma chybami.

IB1 Jedná se o zkratku instance based learning algorithm. Tento algoritmus se snaží najít nejbližší příklad v tréninkové části dat tomu v testovací části a dle toho určit jeho třídu. Výsledkem je 12 chybných zařazení.

Shrnutí Weka Následující tabulka je seřazena podle spolehlivosti jednotlivých algoritmů. Na základě daných výsledků bych volil mezi neuronovou sítí a rozhodovacím stromem. Respektive, i když má neuronová síť lepší výsledek, vzhledem k plochosti a jednoduchosti stromu, bych dal nejspíš přednost právě tomuto algoritmu. Počet chyb Spolehlivost MultilayerPerceptron 2 98,6% J48 4 97,3% OneR 5 96,6% BayesNet 12 91,9% IB1 12 91,9% ZeroR 62 58,1%

Rapid miner Tento software má podstatně lepší grafické UI, které umožňuje lepší orientaci v práci s daty. Na druhou stranu klade větší požadavky na znalosti a dovednosti uživatele, aby daný výstup fungoval tak, jak má. Já jsem použil pro všechny níže uvedené modely následující strukturu: Vstupní data -> vyhodnocení (stejně jako u weky 66% jsou data trénovací a zbytek testovací) Ve vyhodnocení se bude měnit testovací model dle jednotlivých testů (na obrázku decision tree ).

Single rule Decision tree

BayesNet Random tree

Neural net Zde bylo potřeba upravit vstupní data na numerické, jelikož tento model neuměl pracovat s binomickými atributy

Shrnutí Rapid miner Stejně jako u předchozího SW jsem dané výstupy zaznamenal do tabulky a seřadil dle spolehlivosti předpovědi jednotlivých výskytů. Zde se nejlépe jeví použití single rule (obdoba OneR z weky) nebo random tree. Počet chyb Spolehlivost Single rule 10 93,2% Random tree 10 93,2% Decision tree 12 91,9% Neural net 13 91,2% BayesNet 22 85,1%

Enterprise miner Hlavním nedostatkem tohoto systému spatřuji v tom, že neexistuje možnost si daný software vyzkoušet bez zakoupení (ať už formou LITE verze kdy jsou uživateli zpřístupněny jen některé základní funkce; nebo třeba TRIAL verze, která bývá většinou omezena časovým oknem). S tímto omezením se vážou i moje osobní problémy s daným softwarem, kdy ke zpracování zadané úlohy je potřeba využívat školní PC, které svojí hardwarovou kapacitou nedostačují k plynulé práci s daným softwarem. Decision tree Na prvním obrázku je vidět aplikované schéma, které je výchozím pro následnou analýzu pomocí různých metod. Zde je zvolenou metodou decision tree.

Výsledkem je následující matice správných a chybných přiřazení: Vzhledem k tomu, že Enterprise miner rozděluje danou matici na všechny nastalé jevy, je pro srovnání potřeba sečíst ty správné výskyty neboli první a poslední řádek (Target: democrat, Outcome: democrat; Target: republican, Outcome: republican). Zde se dostaneme na číslo 95,37%. Tento výsledek byl dosažen na testovacích datech, které představovali 40% z celkového souboru.

Autoneural S touto funkcí bylo dosaženo přesnosti pouhých 84,96% na stejných datech se stejným rozdělením.

Neural network Zajímavé je, že u nerálních sítí bylo na testovacích datech dosaženo 100% přesnosti, ale na validační části dat (30% z celku) pouze 96,15%.

Regression Stejně je tomu tak i u regresní funkce kdy je rozdíl mezi přesností trénovacích a validačních dat ještě větší neboli 100% ku 94,61%.

Shrnutí Enterprise miner Tento software ve srovnání s předchozími dvěma je rozhodně nejsložitější na znalosti uživatele. Vše lze parametricky upravovat, a tudíž umožňuje uživateli absolutní kontrolu nad prováděnou analýzou. Taktéž nabízí poměrně širokou škálu formy výstupu (grafické i numerické). Osobně bych tento program označil za velmi dobrý pro profesionální práci ovšem absolutně nevhodný pro začátečníky, či uživatele bez velmi hlubokých znalostí veškerých použitých algoritmů (právě z důvodu rozličného množství potřebných parametrů při jejich aplikaci). A nakonec výsledná tabulka: Počet chyb Spolehlivost - trénovací data Spolehlivost - validační data Decision tree 8 / 6 95,37% 95,38% Autoneural 26 / 20 84,96% 84,61% Neural network 0 / 5 100,00% 96,15% Regression 0 / 7 100,00% 94,61% Na základě těchto výsledků bych nejspíše volil rozhodovací strom, neboť jeho spolehlivost nemá takové výkyvy jako regrese a neurální síť a přitom dosahuje velmi vysokých hodnot. Shrnutí práce Po vyzkoušení všech tří navrhovaných softwarů se při zpracování následujícího úkolu budu rozhodovat mezi Rapid minerem a Wekou. Výstupy jsou pro mě čitelné ve všech testovaných případech stejně. S Wekou je jednoduší práce, ovšem Rapid miner má přívětivější uživatelské rozhraní.