4 Srovnání sad Následující kapitola shrnuje ohodnocení všech kritérií dle jednotlivých pohledů. Hodnocení vychází ze slovního popisu z předchozí kapitoly. První tři pohledy jsou pro přehlednost uspořádány do tabulky, pod kterou je uvedena legenda s vysvětlením přítomných zkratek. U hodnocení z pohledu nasazení na praktických datech je rovněž uvedena stručná charakteristika datového souboru a také celý proces získávání znalostí, který vedl k dosažení uvedených charakteristik (tj. fáze transformace dat, modelování a vyhodnocení výsledků). Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner DED, SEG, DED, SEG, DED, SEG, DED, SEG, DED, SEG, DED, SEG, Typy úloh DEK, KLA, DEK, KLA, DEK, KLA, DEK, KLA, DEK, KLA, DEK, KLA, PRD, ANZ, PRD, ANZ, PRD, ANZ, PRD, ANZ, PRD, ANZ, PRD, ANZ, EDA EDA EDA EDA EDA EDA Metody dobývání Metody spojování klasifikátorů Formát vstupních dat Přístup k vzdálené databázi RA, RS, RP, S, AP, DS, BM, MNS, BG, BO, TXT, TAB, C45, DAT, ARF, RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, BG, BO, ST, CSV, C45, DAT, ARF, RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, - 64 - RA, RS, S, AP, DS, NS, BM, MNS, RA, RS, RP, S, AP, DS, NS, BM, MNS, BO n BG, BO, n TXT, XLS, CSV, C45, ARF, TXT, TAB, CSV, ARF, TXT, XLS, ARF N A A A N A RA, RS, RP, S, AP TXT, XLS, CSV, ARF, Typy dat TAB, IS TAB, IS, TS TAB TAB, IS TAB, IS TAB, IS Typy atributů NS, ND, K NS, ND, K NS, ND, K NS, ND, K NS, ND, K NS, ND, K Škálovatelnost systému S-N V-N S-A M-N M-N M-A Parametrizace 2 1 1 2 3 3 Import modelů n PMML, n PMML, n n Opětovná použitelnost 3 1 3 1 3 2 modelu Souhrnné výstupní reporty n 1 3 3 2 1 Export dat CSV, TXT, CSV, XLS, CSV, TAB, C45, DAT, TXT, C45, CSV, ARF, TXT, XLS, TXT, C45, ARF, JPG, DAT, ARF, PNG, ARF, ARF, BMP, PNG, XLS, JPG Export modelů Ukládání projektů PNG, GIF, BMP, TXT, CSV, TAB, PMML, n PNG, PMML, 1 2 3 1 2 1 4.1 - Hodnocení kritérií dle sad jako nástrojů k řešení reálných úloh dobývání JPG, TXT, XLS, PMML
Legenda k tabulce 4.1: Typy úloh: DED deskripce dat, SEG segmentace, DEK deskripce konceptů, KLA klasifikace, PRD predikce, ANZ analýza závislostí, EDA explorační analýza dat Metody dobývání: RA regresní analýza, RS rozhodovací stromy, RP rozhodovací pravidla, S shlukování, AP asociační pravidla, DS deskriptivní statistika, NS neuronové sítě, BM bayesovské metody, MNS metoda nejbližšího souseda, GA genetické algoritmy Metody spojování klasifikátorů: BG bagging, BO boosting, ST stacking Přístup k vzdálené databázi: A ano, N ne Typy dat: TAB jedna tabulka, IS skupiny položek (itemsety), TS časové řady Typy atributů: NS numerické spojité, NK numerické diskrétní, K kategoriální Škálovatelnost systému: kombinace dvou hodnot maximálního počtu zpracovatelných záznamů (M do 10 000, S mezi 10 000 a 1 000 000, V nad 1 000 000) a přítomnosti paměťového limitu (A existuje, N žádný není) ohodnocení značí přítomnost další hodnoty kritéria Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner Elementární A A A A A A analýza dat SAM, RED, SAM, RED, SAM, RED, SAM, RED, SAM, RED, Transformace IMP, DIS, IMP, DIS, SAM, RED, IMP, DIS, IMP, DIS, IMP, DIS, dat KON, AGR, AGR, CRE, DIS, CRE, CRE, CRE, CRE, Vizualizace Způsoby testování Způsoby vyhodnocování testů H, DR, LP, KG, PO, TRD, TED, RAN, CRV, LOO CA, TPR, TNR, PPV, REC, AUC, ROC, LC, CC, COM, H, DR, H, DR, TRD, TED, RAN, CRV, CA, TPR, TNR, PPV, REC, AUC, ROC, COM, RAN, TED, CRV, CA, COM, H, KD, DR, KG, PO, TRD, TED, RAN, CRV, CA, ROC, LC, COM, H, DR H, DR TRD, TED, RAN, CRV, LOO, BTS, CA, PPV, REC, ROC, LC, COM, TRD, TED, RAN, CA, TPR, TNR, PPV, LC, COM, Tabulka 4.2 - Hodnocení kritérií dle sad jako nástrojů podporujících metodiku CRISP-DM Legenda k tabulce 4.2: Elementární analýza dat: A ano, N ne Transformace dat: SAM samplování, RED redukce počtu atributů, IMP ošetřování chybějících hodnot, DIS diskretizace, KON kontinualizace, AGR agregace hodnot z více tabulek, CRE vytváření nových atributů Vizualizace: H histogram, KD kruhový diagram, DR diagram rozptylu, LP lineární projekce, KG krabicový graf, PO paralelní osy Způsoby testování: TRD testování na celých trénovacích datech, TED testování na testovacích datech, RAN náhodné rozdělení na trénovací a testovací část, CRV křížová validace, LOO leave-one-out, BTS bootstrap - 65 -
Způsoby vyhodnocování testů: CA přesnost klasifikace, TPR sensitivita, TNR specificita, PPV přesnost, REC úplnost, AUC plocha pod ROC křivkou, ROC ROC křivka, LC křivka zvýšení, CC kalibrační křivka, COM matice záměn Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner Podporované WIN, L, WIN, L, WIN, L, platformy MAC MAC MAC WIN, L WIN, L WIN, L Grafické rozhraní 1 2 1 1 3 1 Ovladatelnost 1 2 3 1 2 1 Tutoriál 1 1 1 2 2 n Ukázková data 1 1 1 2 3 3 Uživatelská příručka n 1 1 n n 4 Nápověda 1 n 1 1 4 2 Technická podpora Metody dotazování Přizpůsobitelnost prostředí 2 3 3 1 4 3 VP, SJ SU, VP, CL VP, CL VP, CL VP, SU VP 1 n 2 1 3 2 Tabulka 4.3 - Hodnocení kritérií dle sad jako softwarových systémů Legenda k tabulce 4.3: Podporované platformy: WIN MS Windows (všechny verze), L Linux, MAC MAC OS Metody dotazování: VP vizuální programování, SJ skriptovací jazyk, SU správce úloh, CL příkazová řádka Praktické nasazení na datech K praktickému nasazení na konkrétních datech byl využit datový soubor s údaji o pacientech trpících meningoencefalitidou. Jedná se o data z jedné japonské nemocnice, která byla použita k reálné úloze dobývání v rámci projektu JSAI KDD Challenge 2001. V datech se nachází záznamy o 140 pacientech, kteří jsou charakterizováni 38 atributy 18 kategorickými, 19 numerickými a jedním třídícím (diagnóza pacienta). Dva z kategorických atributů (diagnóza pacienta a klinický průběh) obsahují hodnoty seskupené z jiných atributů. U jednoho atributu (počet buněk CSF tři dny po léčení) se vyskytují chybějící hodnoty. Zadaným úkolem dobývání bylo najít faktory ovlivňující pacientovu diagnózu. Srovnání sad však bylo prováděno s upraveným datovým souborem, který byl vytvořen při řešení této úlohy analytiky Petrem Berkou a Tomášem Kočkou z Laboratoře inteligentních systémů Praha (LISp). Autoři provedly tři následující transformace odstranění chybějících hodnot (vynecháním celého atributu), diskretizaci numerických atributů a vytvoření sedmi zcela nových atributů z atributů stávajících. Výsledkem provedené transformace byly dva nové datové soubory, jeden s diskretizovanými hodnotami, jeden s hodnotami atributů ponechanými ve spojité podobě. Existuje hned několik důvodů, proč jsem datové transformace neprovedl v jednotlivých systémech sám. Původní datový soubor odpovídající formátu.txt - 66 -
Přílohy Příloha č. 1 Úloha dobývání v systému Orange Příloha č. 2 Rozhraní Explorer systému Weka - 80 -
Příloha č. 3 Úloha dobývání v aplikaci KEEL Příloha č. 4 Procesní tok v systému KNIME - 81 -
Příloha č. 5 Úloha dobývání v sadě TANAGRA - 82 -
Příloha č. 6 Programové okno aplikace AlphaMiner - 83 -
Tabulka 1: Přehled základních vlastností testovaných systémů ENTERPRISE MINER LISP-MINER PASW MODELER RAPIDMINER DED SEG KLA PRE ANZ RA SA RS RP AP NS MA Podporované typy úloh DED SEG DEK KLA DED KLA ANZ PRE ANZ Podporované data miningové metody RP AP RA SA RS RP AP NS BM MA Možnosti parametrizace modelů DED SEG DEK KLA PRE ANZ RA SA RS RP AP NS BM MA 3 1 1 2 Možnosti kombinování modelů BG BO N BO BG BO ST Opakovatelná použitelnost modelů 2 2 2 1 TXT XLS MDB CSV Podporované forrnáty vstupních dat TXT XLS MDB CSV TXT XLS MDB CSV Podporované typy atributů XLS MDB CSV S D K S D K S D K S D K Deklarovaná schopnost práce s velkými daty V S V V Přístup ke vzdálené databázi N A A A Možnost importu modelů N N PMML TXT XLS MDB CSV Možnosti exportu dat TXT XLS MDB CSV TXT Možnosti exportu modelů XLS MDB CSV CSV PMML XML PMML XML XML Výstupní reporty 2 1 3 5 Možnosti ukládání projektů 3 1 2 1 P-I
Tabulka 2: Hodnocení testovaných systémů podle metodiky CRISP-DM Enterprise Miner LISp-Miner PASW Modeler Rapid Miner Porozumění datům A A A A CRE RED DIS SAM Příprava dat CRE RED DIS SAM RED DIS SAM AGR Práce s chybějícími hodnotami CRE RED DIS KON AGR SAM MIS MIS OPT SEC MIS MIS Data pro testování TRD TED RAN CRV TRD TED CRV TRD TED CRV CA ROC COM Vyhodnocení výsledků CA TPR PPV REC CA AUC LC COM Možnosti vizualizace TRD TED CRV LOO BTS CA PPV REC ROC COM HI KD KG HI KD HI KD HI KD P-II
Tabulka 3: Hodnocení testovaných systémů z hlediska uživatelské přívětivosti Enterprise Miner LISp-Miner PASW Modeler Rapid Miner Podporované platformy WIN LIN WIN WIN LIN WIN LIN MAC Grafické rozhraní 3 2 1 3 Ovladatelnost 3 2 1 2 Přizpůsobitelnost prostředí 4 5 2 1 Tutoriál 5 5 1 3 Uživatelská příručka 3 4 1 1 Nápověda 3 5 1 1 Technická podpora 3 4 1 5 Ukázková data 3 2 1 1 Způsob zadávání a úpravy úloh VP SU PJ SU VP SU CL VP SU PJ P-III
Systém RapidMiner Obr. P1: Parametry logistické regrese P-IV
Obr. P2: Shluková analýza tabulkové zobrazení Obr. P3: Shluková analýza grafické zobrazení P-V
Obr. P4: Struktura rozhodovacího stromu Obr. P5: Přesnost rozhodovacího stromu P-VI
Obr. P6: Schéma neuronové sítě Obr. P7: Přesnost neuronové sítě P-VII
6. Srovnání systémů V oblasti počátečního průzkumu dat je mírným favoritem systém SAS Enterprise Miner poskytující propracovanější množnosti náhledu dat a větší počet technik identifikujících chybějící a extrémní hodnoty atributů. Uživatelé systému IBM SPSS Modeler naopak disponují většími možnostmi úpravy zkoumaných dat. V rámci transformace záznamů mají k dispozici i operace typické pro databázové systémy. Při transformaci zkoumaných atributů mohou zase využít řadu specifických aktivit. Vyšší počet funkcí a operátorů a možnost kontroly uživatelem zadaných výrazů odkazují na lepší manipulaci s daty a podtrhují propracovanější úpravu dat v systému IBM SPSS Modeler. Jediným odlišujícím znakem srovnávaných systémů v oblasti podporovaných typů úloh DZD je omezená podpora hledání asociací a analýzy časových řad ze strany systému SAS EM. V malé nevýhodě je tento systém rovněž v oblasti uvažovaných základních metod DZD a algoritmů Top 10. Chybějící podpora bayesovských metod a tedy i naivního bayesovského klasifikátoru odlišuje tento systém od systému IBM SPSS Modeler, který se může pochlubit i implementací novějšího algoritmu C5.0. Rozdíly mezi srovnávanými systémy naznačují i podporované algoritmy a techniky DZD. Zatímco SAS Enterprise Miner disponuje nižším počtem uzlů obsahujících vysoce parametrizovatelné metody, u systému IBM SPSS Modeler je situace opačná. Větší počet uzlů dostupných v tomto systému je důsledkem zpřístupnění jednotlivých algoritmů často v samostatných uzlech. Oba systémy disponují rozsáhlou základnou propracovaných analytických metod a umožňují zvýšit kvalitu nalezených modelů prostřednictvím všech uvažovaných metod skupinového učení. Z hlediska hloubky metod DZD je favoritem systém SAS EM nabízející opravdu široké možnosti jejich parametrizace. Již v úvodu této kapitoly věnovaném úpravě dat byla nastíněna cesta, kterou se vydal konkurenční systém. Větší počet uzlů či výběr a uspořádání parametrů s ohledem na jejich srozumitelnost pro uživatele jsou důkazem snahy zjednodušit práci se systémem. Důkazem této snahy jsou i nabízené možnosti automatizace. Uživatelé systému IBM SPSS Modeler mohou využít řadu automatizovaných funkcí jak ve fázi úpravy dat, tak ve fázi modelování. Chybějící možnost hromadného vytvoření velkého počtu modelů pro danou úlohu aplikací různých algoritmů znevýhodňuje systém SAS Enterprise Miner. Otázkou zůstává, na kolik je tato automatizované funkce využitelná v praxi. Hlavní výhodou této operace je urychlené nalezení kvalitních modelů. Zřejmou nevýhodou takto definované funkce jsou omezené možnosti parametrizace aplikovaných metod. Jednotlivé metody mají přirozeně svá specifika a jejich hromadné spuštění spojené s využitím defaultního nastavení může uživatele připravit o možnost nezbytné parametrizace. Chybějící podporu uvedené automatizace systém kompenzuje rozšířenými možnostmi nastavení podporovaných operací, metod a technik. I zde si lze položit otázku, z jak velké části jsou široké možnosti parametrizace nabízené systémem SAS Enterprise Miner využívány v praxi. Jejich přítomnost ocení zejména zkušení uživatelé. Velké množství dostupných kombinací nastavení jednotlivých metod naopak může působit složitě na méně zkušené uživatele. Systém IBM SPSS Modeler zaostává i v oblasti interaktivních datových úprav předcházejících modelování. Interaktivita v následujících fázích DZD je srovnatelná s možnostmi konkurenčního systému. Oba systémy umožňují rozšíření své standardní funkcionality. Za výhodu systému SAS Enterprise Miner lze označit možnost vložení rozšiřujícího SAS kódu do datového toku a s tím související zjednodušení jeho testování. Srovnatelné výstupy analyzovaných systémů lze shrnout následujícím způsobem. Z hlediska množství generovaných výstupů je jasným favoritem systém SAS Enterprise Miner. Výstupy konkurenčního systému lze naopak označit za uživatelsky přívětivější. Důvodem není až tak jejich interaktivita, kterou mimochodem disponují i výstupy systému SAS EM, ale spíše jejich vizuální stránka. Menší počet vizuálně propracovanějších výstupů systému IBM SPSS Modeler působí na uživatele srozumitelněji než velký počet výstupů 62
konkurenčního systému. Podporu projektů Za srovnatelnou lze rovněž označit podporů projektů. Chybějící možnost zapouzdření několika uzlů ze strany systému SAS Enterprise Miner je kompenzována možností zobrazení navigační mapy diagramu či několikanásobného zmenšení na něm zobrazovaných uzlů. Přiblížené zhodnocení funkcionality srovnávaných systémů je shrnuto v níže uvedené tabulce. Oblast ID Kritérium IBM SPSS Modeler 14 SAS Enterprise Miner 6.1 1 Průzkum dat 4 5 2 Transformace záznamů 3 Transformace atributů SEL;SAM;FILL;BAL;AGG; MER;APP;DIS;RFM META;FILT;DER;REC;BIN; PART;FLAG;TIME;HIS RES;ANON;TRAN SAM;FILL;MER;APP META;FILT;DER;REC; BIN;PART;FLAG;TIME 4 Manipulace s daty 5 4 5 Typy úloh DES;ASO;KLA;PRE; SEG;ANO;ČAS DES;ASO;KLA;PRE; SEG;ANO;ČAS 5 F U N K C I O N A L I T A 6 Základní metody AP;RS;RP;SHLU;BM;UNS;RA AP;RS;RP;SHLU;UNS;RA 7 Algoritmy Top 10 8 Algoritmy a techniky APRI;C5.0;CART;KM; KNN;NB;SVM;BOOS CHAID;MLP;RBF;KOH; LIN;LOG;PCA;FA;GEN; QUE;CAR;STEP; EXPO;ARI;DIS;COX; RFMA;SLRM;LIST APRI;C4.5;CART;KM; KNN;SVM;BOOS CHAID;MLP;RBF;KOH; LIN;LOG;PCA;FA;GEN; RBFN;VQ;AVE; CEN;TWO;SA;AT; KA;SD;LAR;LAS 9 Kombinování modelů BOOS;BAGG;KŘÍŽ BOOS;BAGG;KŘÍŽ 10 Automatizace 5 3 11 Parametrizace 3 5 12 Interaktivita 4 5 13 Rozšiřitelnost 4 5 14 Výstupy 4 4 15 Podpora projektů 5 5 Tab. 5: Funkcionalita srovnávaných systémů Instalace srovnávaných systémů svým způsobem uvedla jejich použitelnost. Zatímco instalace systému SAS Enterprise Miner je problematická, relativně náročná a zdlouhavá, instalace konkurenčního systému je jednoduchá a rychlá. Důvodem je jednak několikanásobně větší objem instalačních souborů, jednak nutnost nastavení relativně velkého množství parametrů. Úspěšnost 5 Analýzu časových řad a hledání asociací lze řešit pouze s transakčními daty. 63
instalace systému je navíc podmíněna přítomností systémem podporované verze Java prostředí. V nevýhodě je tento systém rovněž při hodnocení grafického uživatelského rozhraní. Nedostačená velikost ikon a absence funkcí poskytujících kontrolu nad posloupností provedených akcí pouze umocňují dojem, který jsem nabyl při prvním spuštění srovnávaných systémů. Grafické uživatelské rozhraní systému IBM SPSS Modeler působí již na první pohled uživatelsky přívětivěji. V roli mírného favorita je tento systém i při customizaci GUI. Vedle možnosti změny velikosti uzlů zobrazovaných na pracovním plátně si uživatel může přizpůsobit obsah záložky s oblíbenými uzly. Ovladatelnost srovnávaných systémů lze označit za srovnatelnou. Relativně pomalé zobrazování uzlů na pracovním plátně u systému SAS Enterprise Miner je kompenzováno snadnou úpravou jejich parametrů či jednoduchým způsobem jejich spojování. Výhodou konkurenčního systému je naopak automatické napojování uzlů při jejich vkládání. V oblasti podpory omezeného přístupu je mírným favoritem systém IBM SPSS Modeler. Od své konkurence se odlišuje větší velikostí zobrazovaných ikon a podporou zvukových upozornění. Oba systémy lze ovládat s využitím klávesových zkratek či integrovat se známým odečítačem obrazovky JAWS for Windows. Z porovnání tutoriálů zkoumaných systémů vyšel jako jasný vítěz systém IBM SPSS Modeler. Jeho tutoriál lze označit za propracovaný a obsáhlý. Několik desítek názorných příkladů s velkým množstvím obrázků umožňuje uživateli seznámit se s podstatnou částí funkcionality systému. Slabinou jinak propracovaného tutoriálu konkurenčního systému je jeho rozsah. Jeden ucelený příklad uživatele jen stěží seznámí s funkcionalitou tohoto poměrně složitého systému. Podobná situace nastává i v případě poskytnutých ukázkových dat. Zatímco systém SAS Enterprise Miner nabízí svým uživatelům zhruba 10 souborů s ukázkovými daty včetně jednoho již hotového datového toku, tvůrci konkurenčního systému pro své budoucí uživatele připravili desítky datových souborů a srovnatelný počet již hotových datových toků. Systém IBM SPSS Modeler disponuje jak propracovanější uživatelskou příručkou, tak nápovědou systému. Nižší ohodnocení uživatelské příručky konkurenčního systému je dáno skutečností, že systém postrádá dokumentaci s názvem uživatelská příručka. Její funkci plnící nápověda systému a příručka pro rozšiřování standardní funkcionality systému kvalitativně odpovídají konkurenční uživatelské příručce. Hlavní výhodou nápovědy systému IBM SPSS Modeler je podpora kontextové nápovědy. Absence této užitečné funkce usnadňující práci se systémem staví konkurenční systém do nevýhody. Úroveň technické podpory poskytované ke srovnávaným systémům lze označit za vysokou a srovnatelnou. Oblast ID Kritérium IBM SPSS Modeler 14 SAS Enterprise Miner 6.1 P O U Ž I T E L N O S T 16 Instalace 5 2 17 GUI 5 3 18 Přizpůsobitelnost GUI 5 4 19 Ovladatelnost 4 4 20 Omezený přístup 5 4 21 Tutoriál 5 3 22 Ukázková data 5 3 23 Uživatelská příručka 5 4 24 Nápověda 5 4 25 Technická podpora 5 5 Tab. 6: Použitelnost srovnávaných systémů 64
Z porovnání možností importu dat vyšel jako mírný favorit systém SAS Enterprise Miner. Důvodem je podpora dodatečných datových formátů používaných v systémech Lotus a Stata. Systém IBM SPSS Modeler je v malé nevýhodě také v oblasti exportu dat. Větší počet výstupních datových formátů je totiž znevýhodněn jeho málo propracovanými možnostmi exportu vizualizací modelů. Za srovnatelné lze považovat propojení analyzovaných systémů na jiné aplikace a platformy, na kterých lze tyto systémy využívat. Chybějící podpora platformy Linux u systému IBM SPSS Modeler je kompenzována omezenou podporou platforem MS Windows Vista a 7 ze strany systému SAS EM. Oblast ID Kritérium IBM SPSS Modeler 14 SAS Enterprise Miner 6.1 O T E V Ř E N O S T 26 Import dat 27 Export dat DB;VAR;SAS;SAV;XLS;XML; EV;COL;FIX TXT;TAB;CSV;JPEG;PNG; BMP;PMML;HTML;DOC; XLS;PPT;VIZML DB;VAR;SAS;SAV;XLS;XML; DBF;WK;DTA;JMP CSV;PNG;BMP;PMML; SVG;SAS;GIF;PDF 28 Propojení na aplikace 5 5 29 Podporované platformy WIN XP,VISTA,7 Tab. 7: Otevřenost srovnávaných systémů WIN XP,VISTA,7;LINUX 65
Příloha 1: IBM SPSS Modeler výstupy algoritmu CHAID 74
Příloha 2: IBM SPSS Modeler výstupy vícevrstvého perceptronu 75
Příloha 3: IBM SPSS Modeler výstupy metody k-středů Příloha 4: IBM SPSS Modeler GUI 76
Příloha 5: SAS Enterprise Miner výstupy algoritmu CHAID 77
Příloha 6: SAS Enterprise Miner výstupy vícevrstvého perceptronu 78
Příloha 7: SAS Enterprise Miner výstupy metody k-středů Příloha 8: SAS Enterprise Miner GUI 79