Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, + TXT, XLS, CSV, C45, ARF, + CSV, XLS, ARF, + BMP, PNG, +

Podobné dokumenty
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Získávání dat z databází 1 DMINA 2010

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Příprava dat v softwaru Statistica

Profitabilita klienta v kontextu Performance management

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Zobrazte si svazy a uspořádané množiny! Jan Outrata

MBI - technologická realizace modelu

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Předmluva 11 Typografická konvence použitá v knize Úvod do Excelu

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Analýza a prezentace dat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

6. Statistica (pokračování) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová

Dobývání znalostí z databází

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Moderní systémy pro získávání znalostí z informací a dat

Dolování z textu. Martin Vítek

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

PRODUKTY. Tovek Tools

IBM SPSS Modeler Professional

CASE nástroje. Jaroslav Žáček

MST - sběr dat pomocí mobilních terminálů on-line/off-line

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku

Analýza staročeské morfologie v Excelu

Microsoft Access tvorba databáze jednoduše

Myšlenkové mapy v Linuxu

Nastavení provozního prostředí webového prohlížeče pro aplikaci

RadioBase 3 Databázový subsystém pro správu dat vysílačů plošného pokrytí

OPERAČNÍ SYSTÉM. Informační a komunikační technologie

xrays optimalizační nástroj

Jádrem systému je modul GSFrameWork, který je poskytovatelem zejména těchto služeb:

Obsah. 1 Úvod do Visia Práce se soubory 47. Předmluva 11 Typografická konvence použitá v knize 13

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Maturitní témata Školní rok: 2015/2016

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

CASE. Jaroslav Žáček

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

Úvodem Dříve les než stromy 3 Operace s maticemi

Strojové učení Marta Vomlelová

Jak používat statistiky položkové v systému WinShop Std.

1 Webový server, instalace PHP a MySQL 13

Specifikace předmětu plnění Datová tržiště

Obsahy kurzů MS Office

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

Vytěžování znalostí z dat

PŘÍLOHA C Požadavky na Dokumentaci

Segmentace bankovních zákazníků algoritmem k- means

Ukázka knihy z internetového knihkupectví

Aplikace pro srovna ní cen povinne ho ruc ení

GIS Geografické informační systémy

Středoškolská technika SCI-Lab

Informace k e-learningu

Začínáme s Tovek Tools

1. Webový server, instalace PHP a MySQL 13

Získávání znalostí z dat

Evidence a správa kanalizace v GIS Kompas 3.2

SRSW4IT Inventarizační SW. Prezentace aplikace. Vedoucí DP: ing. Lukáš Macura Autor: Bc. Petr Mrůzek

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

CYCLOPE PRINT MANAGEMENT SOFTWARE- UŽIVATELSKÁ PŘÍRUČKA

Klinický informační systém Porodní kniha - případová studie -

IBM SPSS Decision Trees

Studie webů automobilek

2 PŘÍKLAD IMPORTU ZATÍŽENÍ Z XML

Vzdělávací obsah vyučovacího předmětu

Pro označení disku se používají písmena velké abecedy, za nimiž následuje dvojtečka.

Obsah. Začínáme programovat v Ruby on Rails 9. Úvod Vítejte v Ruby 15. O autorovi 9 Poděkování 9

KOMPONENTY APLIKACE TreeINFO. Petr Štos ECM Business Consultant

IBM SPSS Modeler. Hlavní přínosy. Intuitivní ovládání IBM

Měření teploty, tlaku a vlhkosti vzduchu s přenosem dat přes internet a zobrazování na WEB stránce

Evidence městského mobiliáře v GIS Kompas 3.2

3. Software Bakaláři Kompletní školení

WORD. (zobecněno pro verzi 2007)

Otevřená data ČSSZ: Přehledné informace dostupné všem, snadno a zdarma. Ing. Jiří Šunka Ing. Michaela Hendrychová. ISSS Hradec Králové, 5. 4.

Asociační i jiná. Pravidla. (Ch )

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Úvod do dobývání. znalostí z databází

Úvod 13. Seznámení s PowerPointem 15. K čemu slouží PowerPoint a prezentace 16 Obvyklé využití prezentací 17 Možnosti publikování prezentací.

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Analýza dat na PC I.

ŠABLONA A PRACOVNÍ PROSTŘEDÍ - PŘÍPRAVA - PŘENOS - TIPY A TRIKY

Příloha 1 Specifikace předmětu plnění

Archivace relačních databází

Dolování asociačních pravidel

OBSAH. Word. První spuštění a hlavní obrazovka Wordu 3 Základní nastavení Wordu 6 Kontrola pravopisu a mluvnice 8 Nastavení ukládání dokumentu 12

Pokročilé neparametrické metody. Klára Kubošová

PRVNÍ ELASTICKÝ INFORMAČNÍ SYSTÉM : QI

GIS Geografické informační systémy

Transkript:

4 Srovnání sad Následující kapitola shrnuje ohodnocení všech kritérií dle jednotlivých pohledů. Hodnocení vychází ze slovního popisu z předchozí kapitoly. První tři pohledy jsou pro přehlednost uspořádány do tabulky, pod kterou je uvedena legenda s vysvětlením přítomných zkratek. U hodnocení z pohledu nasazení na praktických datech je rovněž uvedena stručná charakteristika datového souboru a také celý proces získávání znalostí, který vedl k dosažení uvedených charakteristik (tj. fáze transformace dat, modelování a vyhodnocení výsledků). Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner DED, SEG, DED, SEG, DED, SEG, DED, SEG, DED, SEG, DED, SEG, Typy úloh DEK, KLA, DEK, KLA, DEK, KLA, DEK, KLA, DEK, KLA, DEK, KLA, PRD, ANZ, PRD, ANZ, PRD, ANZ, PRD, ANZ, PRD, ANZ, PRD, ANZ, EDA EDA EDA EDA EDA EDA Metody dobývání Metody spojování klasifikátorů Formát vstupních dat Přístup k vzdálené databázi RA, RS, RP, S, AP, DS, BM, MNS, BG, BO, TXT, TAB, C45, DAT, ARF, RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, BG, BO, ST, CSV, C45, DAT, ARF, RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, - 64 - RA, RS, S, AP, DS, NS, BM, MNS, RA, RS, RP, S, AP, DS, NS, BM, MNS, BO n BG, BO, n TXT, XLS, CSV, C45, ARF, TXT, TAB, CSV, ARF, TXT, XLS, ARF N A A A N A RA, RS, RP, S, AP TXT, XLS, CSV, ARF, Typy dat TAB, IS TAB, IS, TS TAB TAB, IS TAB, IS TAB, IS Typy atributů NS, ND, K NS, ND, K NS, ND, K NS, ND, K NS, ND, K NS, ND, K Škálovatelnost systému S-N V-N S-A M-N M-N M-A Parametrizace 2 1 1 2 3 3 Import modelů n PMML, n PMML, n n Opětovná použitelnost 3 1 3 1 3 2 modelu Souhrnné výstupní reporty n 1 3 3 2 1 Export dat CSV, TXT, CSV, XLS, CSV, TAB, C45, DAT, TXT, C45, CSV, ARF, TXT, XLS, TXT, C45, ARF, JPG, DAT, ARF, PNG, ARF, ARF, BMP, PNG, XLS, JPG Export modelů Ukládání projektů PNG, GIF, BMP, TXT, CSV, TAB, PMML, n PNG, PMML, 1 2 3 1 2 1 4.1 - Hodnocení kritérií dle sad jako nástrojů k řešení reálných úloh dobývání JPG, TXT, XLS, PMML

Legenda k tabulce 4.1: Typy úloh: DED deskripce dat, SEG segmentace, DEK deskripce konceptů, KLA klasifikace, PRD predikce, ANZ analýza závislostí, EDA explorační analýza dat Metody dobývání: RA regresní analýza, RS rozhodovací stromy, RP rozhodovací pravidla, S shlukování, AP asociační pravidla, DS deskriptivní statistika, NS neuronové sítě, BM bayesovské metody, MNS metoda nejbližšího souseda, GA genetické algoritmy Metody spojování klasifikátorů: BG bagging, BO boosting, ST stacking Přístup k vzdálené databázi: A ano, N ne Typy dat: TAB jedna tabulka, IS skupiny položek (itemsety), TS časové řady Typy atributů: NS numerické spojité, NK numerické diskrétní, K kategoriální Škálovatelnost systému: kombinace dvou hodnot maximálního počtu zpracovatelných záznamů (M do 10 000, S mezi 10 000 a 1 000 000, V nad 1 000 000) a přítomnosti paměťového limitu (A existuje, N žádný není) ohodnocení značí přítomnost další hodnoty kritéria Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner Elementární A A A A A A analýza dat SAM, RED, SAM, RED, SAM, RED, SAM, RED, SAM, RED, Transformace IMP, DIS, IMP, DIS, SAM, RED, IMP, DIS, IMP, DIS, IMP, DIS, dat KON, AGR, AGR, CRE, DIS, CRE, CRE, CRE, CRE, Vizualizace Způsoby testování Způsoby vyhodnocování testů H, DR, LP, KG, PO, TRD, TED, RAN, CRV, LOO CA, TPR, TNR, PPV, REC, AUC, ROC, LC, CC, COM, H, DR, H, DR, TRD, TED, RAN, CRV, CA, TPR, TNR, PPV, REC, AUC, ROC, COM, RAN, TED, CRV, CA, COM, H, KD, DR, KG, PO, TRD, TED, RAN, CRV, CA, ROC, LC, COM, H, DR H, DR TRD, TED, RAN, CRV, LOO, BTS, CA, PPV, REC, ROC, LC, COM, TRD, TED, RAN, CA, TPR, TNR, PPV, LC, COM, Tabulka 4.2 - Hodnocení kritérií dle sad jako nástrojů podporujících metodiku CRISP-DM Legenda k tabulce 4.2: Elementární analýza dat: A ano, N ne Transformace dat: SAM samplování, RED redukce počtu atributů, IMP ošetřování chybějících hodnot, DIS diskretizace, KON kontinualizace, AGR agregace hodnot z více tabulek, CRE vytváření nových atributů Vizualizace: H histogram, KD kruhový diagram, DR diagram rozptylu, LP lineární projekce, KG krabicový graf, PO paralelní osy Způsoby testování: TRD testování na celých trénovacích datech, TED testování na testovacích datech, RAN náhodné rozdělení na trénovací a testovací část, CRV křížová validace, LOO leave-one-out, BTS bootstrap - 65 -

Způsoby vyhodnocování testů: CA přesnost klasifikace, TPR sensitivita, TNR specificita, PPV přesnost, REC úplnost, AUC plocha pod ROC křivkou, ROC ROC křivka, LC křivka zvýšení, CC kalibrační křivka, COM matice záměn Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner Podporované WIN, L, WIN, L, WIN, L, platformy MAC MAC MAC WIN, L WIN, L WIN, L Grafické rozhraní 1 2 1 1 3 1 Ovladatelnost 1 2 3 1 2 1 Tutoriál 1 1 1 2 2 n Ukázková data 1 1 1 2 3 3 Uživatelská příručka n 1 1 n n 4 Nápověda 1 n 1 1 4 2 Technická podpora Metody dotazování Přizpůsobitelnost prostředí 2 3 3 1 4 3 VP, SJ SU, VP, CL VP, CL VP, CL VP, SU VP 1 n 2 1 3 2 Tabulka 4.3 - Hodnocení kritérií dle sad jako softwarových systémů Legenda k tabulce 4.3: Podporované platformy: WIN MS Windows (všechny verze), L Linux, MAC MAC OS Metody dotazování: VP vizuální programování, SJ skriptovací jazyk, SU správce úloh, CL příkazová řádka Praktické nasazení na datech K praktickému nasazení na konkrétních datech byl využit datový soubor s údaji o pacientech trpících meningoencefalitidou. Jedná se o data z jedné japonské nemocnice, která byla použita k reálné úloze dobývání v rámci projektu JSAI KDD Challenge 2001. V datech se nachází záznamy o 140 pacientech, kteří jsou charakterizováni 38 atributy 18 kategorickými, 19 numerickými a jedním třídícím (diagnóza pacienta). Dva z kategorických atributů (diagnóza pacienta a klinický průběh) obsahují hodnoty seskupené z jiných atributů. U jednoho atributu (počet buněk CSF tři dny po léčení) se vyskytují chybějící hodnoty. Zadaným úkolem dobývání bylo najít faktory ovlivňující pacientovu diagnózu. Srovnání sad však bylo prováděno s upraveným datovým souborem, který byl vytvořen při řešení této úlohy analytiky Petrem Berkou a Tomášem Kočkou z Laboratoře inteligentních systémů Praha (LISp). Autoři provedly tři následující transformace odstranění chybějících hodnot (vynecháním celého atributu), diskretizaci numerických atributů a vytvoření sedmi zcela nových atributů z atributů stávajících. Výsledkem provedené transformace byly dva nové datové soubory, jeden s diskretizovanými hodnotami, jeden s hodnotami atributů ponechanými ve spojité podobě. Existuje hned několik důvodů, proč jsem datové transformace neprovedl v jednotlivých systémech sám. Původní datový soubor odpovídající formátu.txt - 66 -

Přílohy Příloha č. 1 Úloha dobývání v systému Orange Příloha č. 2 Rozhraní Explorer systému Weka - 80 -

Příloha č. 3 Úloha dobývání v aplikaci KEEL Příloha č. 4 Procesní tok v systému KNIME - 81 -

Příloha č. 5 Úloha dobývání v sadě TANAGRA - 82 -

Příloha č. 6 Programové okno aplikace AlphaMiner - 83 -

Tabulka 1: Přehled základních vlastností testovaných systémů ENTERPRISE MINER LISP-MINER PASW MODELER RAPIDMINER DED SEG KLA PRE ANZ RA SA RS RP AP NS MA Podporované typy úloh DED SEG DEK KLA DED KLA ANZ PRE ANZ Podporované data miningové metody RP AP RA SA RS RP AP NS BM MA Možnosti parametrizace modelů DED SEG DEK KLA PRE ANZ RA SA RS RP AP NS BM MA 3 1 1 2 Možnosti kombinování modelů BG BO N BO BG BO ST Opakovatelná použitelnost modelů 2 2 2 1 TXT XLS MDB CSV Podporované forrnáty vstupních dat TXT XLS MDB CSV TXT XLS MDB CSV Podporované typy atributů XLS MDB CSV S D K S D K S D K S D K Deklarovaná schopnost práce s velkými daty V S V V Přístup ke vzdálené databázi N A A A Možnost importu modelů N N PMML TXT XLS MDB CSV Možnosti exportu dat TXT XLS MDB CSV TXT Možnosti exportu modelů XLS MDB CSV CSV PMML XML PMML XML XML Výstupní reporty 2 1 3 5 Možnosti ukládání projektů 3 1 2 1 P-I

Tabulka 2: Hodnocení testovaných systémů podle metodiky CRISP-DM Enterprise Miner LISp-Miner PASW Modeler Rapid Miner Porozumění datům A A A A CRE RED DIS SAM Příprava dat CRE RED DIS SAM RED DIS SAM AGR Práce s chybějícími hodnotami CRE RED DIS KON AGR SAM MIS MIS OPT SEC MIS MIS Data pro testování TRD TED RAN CRV TRD TED CRV TRD TED CRV CA ROC COM Vyhodnocení výsledků CA TPR PPV REC CA AUC LC COM Možnosti vizualizace TRD TED CRV LOO BTS CA PPV REC ROC COM HI KD KG HI KD HI KD HI KD P-II

Tabulka 3: Hodnocení testovaných systémů z hlediska uživatelské přívětivosti Enterprise Miner LISp-Miner PASW Modeler Rapid Miner Podporované platformy WIN LIN WIN WIN LIN WIN LIN MAC Grafické rozhraní 3 2 1 3 Ovladatelnost 3 2 1 2 Přizpůsobitelnost prostředí 4 5 2 1 Tutoriál 5 5 1 3 Uživatelská příručka 3 4 1 1 Nápověda 3 5 1 1 Technická podpora 3 4 1 5 Ukázková data 3 2 1 1 Způsob zadávání a úpravy úloh VP SU PJ SU VP SU CL VP SU PJ P-III

Systém RapidMiner Obr. P1: Parametry logistické regrese P-IV

Obr. P2: Shluková analýza tabulkové zobrazení Obr. P3: Shluková analýza grafické zobrazení P-V

Obr. P4: Struktura rozhodovacího stromu Obr. P5: Přesnost rozhodovacího stromu P-VI

Obr. P6: Schéma neuronové sítě Obr. P7: Přesnost neuronové sítě P-VII

6. Srovnání systémů V oblasti počátečního průzkumu dat je mírným favoritem systém SAS Enterprise Miner poskytující propracovanější množnosti náhledu dat a větší počet technik identifikujících chybějící a extrémní hodnoty atributů. Uživatelé systému IBM SPSS Modeler naopak disponují většími možnostmi úpravy zkoumaných dat. V rámci transformace záznamů mají k dispozici i operace typické pro databázové systémy. Při transformaci zkoumaných atributů mohou zase využít řadu specifických aktivit. Vyšší počet funkcí a operátorů a možnost kontroly uživatelem zadaných výrazů odkazují na lepší manipulaci s daty a podtrhují propracovanější úpravu dat v systému IBM SPSS Modeler. Jediným odlišujícím znakem srovnávaných systémů v oblasti podporovaných typů úloh DZD je omezená podpora hledání asociací a analýzy časových řad ze strany systému SAS EM. V malé nevýhodě je tento systém rovněž v oblasti uvažovaných základních metod DZD a algoritmů Top 10. Chybějící podpora bayesovských metod a tedy i naivního bayesovského klasifikátoru odlišuje tento systém od systému IBM SPSS Modeler, který se může pochlubit i implementací novějšího algoritmu C5.0. Rozdíly mezi srovnávanými systémy naznačují i podporované algoritmy a techniky DZD. Zatímco SAS Enterprise Miner disponuje nižším počtem uzlů obsahujících vysoce parametrizovatelné metody, u systému IBM SPSS Modeler je situace opačná. Větší počet uzlů dostupných v tomto systému je důsledkem zpřístupnění jednotlivých algoritmů často v samostatných uzlech. Oba systémy disponují rozsáhlou základnou propracovaných analytických metod a umožňují zvýšit kvalitu nalezených modelů prostřednictvím všech uvažovaných metod skupinového učení. Z hlediska hloubky metod DZD je favoritem systém SAS EM nabízející opravdu široké možnosti jejich parametrizace. Již v úvodu této kapitoly věnovaném úpravě dat byla nastíněna cesta, kterou se vydal konkurenční systém. Větší počet uzlů či výběr a uspořádání parametrů s ohledem na jejich srozumitelnost pro uživatele jsou důkazem snahy zjednodušit práci se systémem. Důkazem této snahy jsou i nabízené možnosti automatizace. Uživatelé systému IBM SPSS Modeler mohou využít řadu automatizovaných funkcí jak ve fázi úpravy dat, tak ve fázi modelování. Chybějící možnost hromadného vytvoření velkého počtu modelů pro danou úlohu aplikací různých algoritmů znevýhodňuje systém SAS Enterprise Miner. Otázkou zůstává, na kolik je tato automatizované funkce využitelná v praxi. Hlavní výhodou této operace je urychlené nalezení kvalitních modelů. Zřejmou nevýhodou takto definované funkce jsou omezené možnosti parametrizace aplikovaných metod. Jednotlivé metody mají přirozeně svá specifika a jejich hromadné spuštění spojené s využitím defaultního nastavení může uživatele připravit o možnost nezbytné parametrizace. Chybějící podporu uvedené automatizace systém kompenzuje rozšířenými možnostmi nastavení podporovaných operací, metod a technik. I zde si lze položit otázku, z jak velké části jsou široké možnosti parametrizace nabízené systémem SAS Enterprise Miner využívány v praxi. Jejich přítomnost ocení zejména zkušení uživatelé. Velké množství dostupných kombinací nastavení jednotlivých metod naopak může působit složitě na méně zkušené uživatele. Systém IBM SPSS Modeler zaostává i v oblasti interaktivních datových úprav předcházejících modelování. Interaktivita v následujících fázích DZD je srovnatelná s možnostmi konkurenčního systému. Oba systémy umožňují rozšíření své standardní funkcionality. Za výhodu systému SAS Enterprise Miner lze označit možnost vložení rozšiřujícího SAS kódu do datového toku a s tím související zjednodušení jeho testování. Srovnatelné výstupy analyzovaných systémů lze shrnout následujícím způsobem. Z hlediska množství generovaných výstupů je jasným favoritem systém SAS Enterprise Miner. Výstupy konkurenčního systému lze naopak označit za uživatelsky přívětivější. Důvodem není až tak jejich interaktivita, kterou mimochodem disponují i výstupy systému SAS EM, ale spíše jejich vizuální stránka. Menší počet vizuálně propracovanějších výstupů systému IBM SPSS Modeler působí na uživatele srozumitelněji než velký počet výstupů 62

konkurenčního systému. Podporu projektů Za srovnatelnou lze rovněž označit podporů projektů. Chybějící možnost zapouzdření několika uzlů ze strany systému SAS Enterprise Miner je kompenzována možností zobrazení navigační mapy diagramu či několikanásobného zmenšení na něm zobrazovaných uzlů. Přiblížené zhodnocení funkcionality srovnávaných systémů je shrnuto v níže uvedené tabulce. Oblast ID Kritérium IBM SPSS Modeler 14 SAS Enterprise Miner 6.1 1 Průzkum dat 4 5 2 Transformace záznamů 3 Transformace atributů SEL;SAM;FILL;BAL;AGG; MER;APP;DIS;RFM META;FILT;DER;REC;BIN; PART;FLAG;TIME;HIS RES;ANON;TRAN SAM;FILL;MER;APP META;FILT;DER;REC; BIN;PART;FLAG;TIME 4 Manipulace s daty 5 4 5 Typy úloh DES;ASO;KLA;PRE; SEG;ANO;ČAS DES;ASO;KLA;PRE; SEG;ANO;ČAS 5 F U N K C I O N A L I T A 6 Základní metody AP;RS;RP;SHLU;BM;UNS;RA AP;RS;RP;SHLU;UNS;RA 7 Algoritmy Top 10 8 Algoritmy a techniky APRI;C5.0;CART;KM; KNN;NB;SVM;BOOS CHAID;MLP;RBF;KOH; LIN;LOG;PCA;FA;GEN; QUE;CAR;STEP; EXPO;ARI;DIS;COX; RFMA;SLRM;LIST APRI;C4.5;CART;KM; KNN;SVM;BOOS CHAID;MLP;RBF;KOH; LIN;LOG;PCA;FA;GEN; RBFN;VQ;AVE; CEN;TWO;SA;AT; KA;SD;LAR;LAS 9 Kombinování modelů BOOS;BAGG;KŘÍŽ BOOS;BAGG;KŘÍŽ 10 Automatizace 5 3 11 Parametrizace 3 5 12 Interaktivita 4 5 13 Rozšiřitelnost 4 5 14 Výstupy 4 4 15 Podpora projektů 5 5 Tab. 5: Funkcionalita srovnávaných systémů Instalace srovnávaných systémů svým způsobem uvedla jejich použitelnost. Zatímco instalace systému SAS Enterprise Miner je problematická, relativně náročná a zdlouhavá, instalace konkurenčního systému je jednoduchá a rychlá. Důvodem je jednak několikanásobně větší objem instalačních souborů, jednak nutnost nastavení relativně velkého množství parametrů. Úspěšnost 5 Analýzu časových řad a hledání asociací lze řešit pouze s transakčními daty. 63

instalace systému je navíc podmíněna přítomností systémem podporované verze Java prostředí. V nevýhodě je tento systém rovněž při hodnocení grafického uživatelského rozhraní. Nedostačená velikost ikon a absence funkcí poskytujících kontrolu nad posloupností provedených akcí pouze umocňují dojem, který jsem nabyl při prvním spuštění srovnávaných systémů. Grafické uživatelské rozhraní systému IBM SPSS Modeler působí již na první pohled uživatelsky přívětivěji. V roli mírného favorita je tento systém i při customizaci GUI. Vedle možnosti změny velikosti uzlů zobrazovaných na pracovním plátně si uživatel může přizpůsobit obsah záložky s oblíbenými uzly. Ovladatelnost srovnávaných systémů lze označit za srovnatelnou. Relativně pomalé zobrazování uzlů na pracovním plátně u systému SAS Enterprise Miner je kompenzováno snadnou úpravou jejich parametrů či jednoduchým způsobem jejich spojování. Výhodou konkurenčního systému je naopak automatické napojování uzlů při jejich vkládání. V oblasti podpory omezeného přístupu je mírným favoritem systém IBM SPSS Modeler. Od své konkurence se odlišuje větší velikostí zobrazovaných ikon a podporou zvukových upozornění. Oba systémy lze ovládat s využitím klávesových zkratek či integrovat se známým odečítačem obrazovky JAWS for Windows. Z porovnání tutoriálů zkoumaných systémů vyšel jako jasný vítěz systém IBM SPSS Modeler. Jeho tutoriál lze označit za propracovaný a obsáhlý. Několik desítek názorných příkladů s velkým množstvím obrázků umožňuje uživateli seznámit se s podstatnou částí funkcionality systému. Slabinou jinak propracovaného tutoriálu konkurenčního systému je jeho rozsah. Jeden ucelený příklad uživatele jen stěží seznámí s funkcionalitou tohoto poměrně složitého systému. Podobná situace nastává i v případě poskytnutých ukázkových dat. Zatímco systém SAS Enterprise Miner nabízí svým uživatelům zhruba 10 souborů s ukázkovými daty včetně jednoho již hotového datového toku, tvůrci konkurenčního systému pro své budoucí uživatele připravili desítky datových souborů a srovnatelný počet již hotových datových toků. Systém IBM SPSS Modeler disponuje jak propracovanější uživatelskou příručkou, tak nápovědou systému. Nižší ohodnocení uživatelské příručky konkurenčního systému je dáno skutečností, že systém postrádá dokumentaci s názvem uživatelská příručka. Její funkci plnící nápověda systému a příručka pro rozšiřování standardní funkcionality systému kvalitativně odpovídají konkurenční uživatelské příručce. Hlavní výhodou nápovědy systému IBM SPSS Modeler je podpora kontextové nápovědy. Absence této užitečné funkce usnadňující práci se systémem staví konkurenční systém do nevýhody. Úroveň technické podpory poskytované ke srovnávaným systémům lze označit za vysokou a srovnatelnou. Oblast ID Kritérium IBM SPSS Modeler 14 SAS Enterprise Miner 6.1 P O U Ž I T E L N O S T 16 Instalace 5 2 17 GUI 5 3 18 Přizpůsobitelnost GUI 5 4 19 Ovladatelnost 4 4 20 Omezený přístup 5 4 21 Tutoriál 5 3 22 Ukázková data 5 3 23 Uživatelská příručka 5 4 24 Nápověda 5 4 25 Technická podpora 5 5 Tab. 6: Použitelnost srovnávaných systémů 64

Z porovnání možností importu dat vyšel jako mírný favorit systém SAS Enterprise Miner. Důvodem je podpora dodatečných datových formátů používaných v systémech Lotus a Stata. Systém IBM SPSS Modeler je v malé nevýhodě také v oblasti exportu dat. Větší počet výstupních datových formátů je totiž znevýhodněn jeho málo propracovanými možnostmi exportu vizualizací modelů. Za srovnatelné lze považovat propojení analyzovaných systémů na jiné aplikace a platformy, na kterých lze tyto systémy využívat. Chybějící podpora platformy Linux u systému IBM SPSS Modeler je kompenzována omezenou podporou platforem MS Windows Vista a 7 ze strany systému SAS EM. Oblast ID Kritérium IBM SPSS Modeler 14 SAS Enterprise Miner 6.1 O T E V Ř E N O S T 26 Import dat 27 Export dat DB;VAR;SAS;SAV;XLS;XML; EV;COL;FIX TXT;TAB;CSV;JPEG;PNG; BMP;PMML;HTML;DOC; XLS;PPT;VIZML DB;VAR;SAS;SAV;XLS;XML; DBF;WK;DTA;JMP CSV;PNG;BMP;PMML; SVG;SAS;GIF;PDF 28 Propojení na aplikace 5 5 29 Podporované platformy WIN XP,VISTA,7 Tab. 7: Otevřenost srovnávaných systémů WIN XP,VISTA,7;LINUX 65

Příloha 1: IBM SPSS Modeler výstupy algoritmu CHAID 74

Příloha 2: IBM SPSS Modeler výstupy vícevrstvého perceptronu 75

Příloha 3: IBM SPSS Modeler výstupy metody k-středů Příloha 4: IBM SPSS Modeler GUI 76

Příloha 5: SAS Enterprise Miner výstupy algoritmu CHAID 77

Příloha 6: SAS Enterprise Miner výstupy vícevrstvého perceptronu 78

Příloha 7: SAS Enterprise Miner výstupy metody k-středů Příloha 8: SAS Enterprise Miner GUI 79