Vizualizace dat pro extrakci znalostí

Transkript

1 České vysoké učení technické v Praze Fakulta elektrotechnická Katedra počítačů Diplomová práce Vizualizace dat pro extrakci znalostí Michal Škola Vedoucí práce: Ing. Pavel Kordík, Ph.D. Studijní program: Elektrotechnika a informatika, dobíhající, Magisterský Obor: Výpočetní technika

2 iv

3 v Poděkování V první řadě bych chtěl poděkovat vedoucímu mé diplomové práce Pavlu Kordíkovi za vedení a trpělivost. A dále také samozřejmě celé své rodině za morální podporu při jejím psaní.

4 vi

5 vii Prohlášení Prohlašuji, že jsem práci vypracoval samostatně a použil jsem pouze podklady uvedené v přiloženém seznamu. Nemám závažný důvod proti užití tohoto školního díla ve smyslu 60 Zákona č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon). V Praze dne

6 viii

7 Abstract Thesis deals with non-trivial knowledge extraction using visualizations by data mining. With JFreeChart library implements charts to FAKE GAME and allows export them to the vector graphics. Describe knowledges, which could we extract from plots. Abstrakt Diplomová práce zabývající se vizualizacemi dat pro extrakci znalostí při vytěžování dat. Pomocí knihovny JFreeChart implementuje sadu grafů a vizualizačních technik do projektu FAKE GAME a umožňuje jejich export do vektorové grafiky SVG. U jednotlivých grafů popisuje znalosti, které lze z nich získat. ix

8 x

9 Obsah 1 Úvod Vytěžování dat Vizualizační techniky pro analýzu dat SVG škálovatelná vektorová grafika FAKE GAME Cíle, požadavky a struktura práce Vymezení cílů Požadavky Popis struktury práce Softwarové nástroje Komerční Softwarové nástroje SAS SPSS - Statistical Package for the Social Sciences STATISTICA Data Miner Miner3D Open-source Softwarové nástroje SumatraTT WEKA YALE Rapid Miner Tanagra Orange Shrnutí Návrh Vizualizací Statistické Vizualizace Histogram Průměry Box & Whiskers Binární kategorie Závislosti Bodový graf - závislostí mezi vstupy Bodový graf - závislostí výstupů na vstupech Transformace n-dimenzionálních dat do 2D xi

10 xii OBSAH Paralelní koordináty Andrewsova křivka Vektorový graf Kohonenova Samoorganizující mapa Implementace Knihovny JFreeChart Batik SVG toolkit Analýza a návrh implementace Popis implementace Testování Vizualizací Vzorek dat IRIS Vizualizace IRIS Vzorek dat ADVERT Vzorek dat MOTOL brain pressure Závěry z testování Zhodnocení přínosu a pokračování práce Přínos práce Doporučení dalšího pokračování práce Splnění cílů a Závěr 45 Literatura 47 A Seznam použitých zkratek 49 B UML - definice datových tříd 51 C Obsah přiloženého CD 59

11 Seznam obrázků 1.1 Model CRISP-DM metodologie Model FAKE GAME Popis Box & Whisker diagramu Princip zobrazení paralelních koordinátů Transformace vektoru V (X,Y,dX,dY ) Transformace vektoru V (X,Y,Angle,Length) SOM - uspořádání neuronů (vstupní/výstupní vrstvy) Návrh obrazovky Histogramy vstupů sepal-length, sepal-width, petal-length, petal-width Histogramy výstupů a Binární kategorie výstupů Box & Whiskers - pro vstupy a pro výstupy Průměry - pro vstupy a pro výstupy Box & Whiskers pro výstupní kategorie jednotlivých vstupů Závislosti vstupů na výstupech - iris-setosa na pental-length a pental-width Bodové grafy - všechny kombinace vstupů Paralelní koordináty a Andrewsova křivka Kohonenova mapa Vektorový graf(x,y,dx,dy) - (sl,pl,sw,pw) a (sl,sw,pl,pw) Vektorový graf(x,y,a,l) - (pl,pw,sl,sw) a (sl,sw,pl,pw) Závislosti výstupu ham na vstupech ic2 a ic Závislosti výstupu spam na vstupech ic2 a ic Paralelní koordináty pro ic2 a ic Andrewsovy křivky pro spam a ham SOM pro mřížku o rozměrech 3, 5, Porovnání závislostí vstupů na výstupu Paralelní koordináty bez normalizace a s normalizací B.1 Třídy Graf a GrafFrame B.2 Graf a třídy jednotlivých grafů B.3 Metody společné pro všechny třídy grafů B.4 OptionsPanel (panel voleb) a jednotlivé jeho druhy náležící grafům B.5 Třídy pro SidePanel (ovládací panel) B.6 Třídy Histogram a Means a jejich ovládací panely xiii

12 xiv SEZNAM OBRÁZKŮ B.7 Třída OutputCategory a její ovládací panel B.8 Třída BoxAndWhisker a její ovládací panel B.9 Třídy DependencyIO a DependencyIOReg a jeji ovládací panely B.10 Třídy ScatterPlot a ParallelPlot a jejich ovládací panely B.11 Třída AndrewsCurve a její ovládací panel B.12 Třída SOM a její ovládací panel B.13 Třídy Vector a Vector2 a jejich ovládací panely C.1 Seznam přiloženého CD

13 Seznam tabulek 3.1 Přehled programů Ukázka vzorku dat Simpsonův paradox Simpsonův paradox - vážený průměr xv

14 xvi SEZNAM TABULEK

15 Kapitola 1 Úvod Úvodem bych se chtěl pokusit čtenáři představit, co vlastně znamenají pojmy jako je vytěžování dat, vizualizace dat pro extrakci znalostí. Jaký mají význam? Kde nachází své uplatnění, k čemu slouží, proč o nich dnes slýcháváme na každém kroku? Co je vektorová grafika? A co je to vlastně ten FAKE GAME? 1.1 Vytěžování dat Obrázek 1.1: Model CRISP-DM metodologie Dobývání znalostí bývá definováno jako proces netriviální extrakce implicitních, dříve neznámých a potenciálně užitečných informací z dat.(fayyad,1996) Vytěžování dat (anglicky data mining) je analytická metodologie pro získávání netriviálních, skrytých a potencionálně užitečných informací. Jejíž cílem je získávání znalostí z co největšího množství dat, jejich následné analýzy, která může pomoci v datech objevit různé závislosti, trendy a tendence, na jejichž základě lze vytěžit užitečné znalosti. 1

16 2 KAPITOLA 1. ÚVOD Hlavním oborem, kde se v současnosti vytěžování znalostí z dat převážně využívá je nejenom komerční sféra, ve které získané znalosti pomáhají činit důležitá marketingová a obchodní rozhodnutí, ale i věda a výzkum. Své využití si najde i v lékařství. V 90. letech se zrodily hlavní dvě metodologie pro postup při vytěžování, SEMMA za jejímž zrodem stojí firma SAS a CRISP-DM projekt evropské komise a konzorcia několika firem. Společný základ všech metodologií je stejný a skládá se z následujících hlavních kroků (viz Obr. 1.1). 1. Formulace problému, datová a problémová analýza Prvním základním krokem je správná formulace problému a jeho analýza, která vede k získání užitečných a relevantních znalostí z dat. 2. Sběr a výběr relevantních dat Dalším důležitým krokem je nejenom sběr, ale hlavně výběr správných dat pro analýzu. 3. Předzpracování a transformace dat Data je dále nutno předzpracovat: upravit a ošetřit, popřípadě vyloučit chybné, neúplné, redundantní nebo irelevantní údaje. Musí se také transformovat do formátu, vhodného pro další zpracování. 4. Dolování nových hypotéz K hledání skrytých informací v datech a vytváření modelů se využívají nejrůznější metody od jednoduchých vizualizací, přes regrese a rozhodovací stromy až po sofistikovanější metody jako neuronové sítě a genetické algoritmy. 5. Interpretace výsledků Správnou interpretací výsledků předchozí fáze, můžeme z dat získat nové, obecnější znalosti a matematické modely. 6. Využití a zhodnocení celého procesu Nabyté poznatky a modely, lze pak uvést přímo do praxe, nebo se lze vrátit zpět na začátek celého procesu a zajistit si tak zpětnou vazbu pro další analýzu. 1.2 Vizualizační techniky pro analýzu dat Množství sbíraných dat roste neuvěřitelnou řadou a proto si jejich analýza žádá neustále nové, rychlejší přístupy a metody zajišťující jejich zpracování. Z velkého množství dat, které bývají v mnoha případech i mnoha-dimenzionální, je čím dál tím obtížnější a náročnější hledat a získávat nové užitečné informace. Vizuální vytěžování dat dovoluje provádět pozorování bez jakékoliv předešlé představě a informaci o datech. Tím pádem nemusíme vůbec vědět, co je v datech ukryto a necháme je, aby samy ukázaly co v sobě zajímavého a důležitého skrývají. Neznámá data se z textové, tabulkové či jiné formy promítnou do 2D a nebo 3D obrazu, což umožňuje jejich lepší a přehlednější zobrazení a

17 1.3. SVG ŠKÁLOVATELNÁ VEKTOROVÁ GRAFIKA 3 lze tak zapojit do procesu lidské vnímání. Můžeme okamžitě vidět zajímavou strukturu neznámých dat, sledovat výkyvy, frekvenční výskyty a datové závislosti. Hlavní výhodou vizualizace dat tkví v zapojení uživatele, tedy člověka a jeho kognitivní rozpoznávací schopnosti lidského mozku do procesu analýzy. Výsledkem tradičních analýz bývá velké množství čísel v tabulkách nebo v textové podobě, což klade velké nároky na pozornost a na paměť, lidský mozek v takové záplavě dat rychle ztrácí přehled a orientaci. Kdežto vizualizovaná data využívají rychlé rozpoznávací schopnosti lidského mozku, který je schopen během několika milisekund rozpoznat v obrázku a nebo grafu důležité znaky. Vizuální pohled na data, nabízí uživateli mnoho nových funkcí a nástrojů, které mu budou na ně umožňovat různé pohledy. Tím pádem se naskýtá mnoho dalších možností, jak objevit jinak skryté závislosti a formulovat nové hypotézy. Vše lze poté následně ověřit pomocí klasických postupů analýzy. Kombinace klasických postupů a interaktivního pohledu na data zprostředkovává okamžité ověření automaticky generovaných výsledků s vlastním pozorováním. Prvním krokem analytického procesu je získat základní přehled o datech. Pomocí interaktivních možností vizualizačního nástroje, jako je například filtrace nebo zoomování dat, vyhledáváme v datech na první pohled viditelné vzory a závislosti, na které se pak můžeme pečlivěji zaměřit. Pro získávání detailnějších informací je nutné zaměřit se na mnohem menší a podrobnější množinu dat. Vizualizační nástroj by proto měl umožňovat více pohledů, které umožní lepší přehled a orientaci v datech. V detailních pohledech umožňovat změnu pohledu a zároveň zobrazovat globální pohled, aby uživatel neztratil orientaci. 1.3 SVG škálovatelná vektorová grafika SVG (Scalable Vector Graphics) škálovatelná vektorová grafika je jazyk a formát souborů pro popis dvou-dimenzionální grafiky ve formátu XML. Formát SVG by se měl v budoucnu stát základním otevřeným formátem pro vektorovou grafiku na Internetu. Jedná se o doporučení konzorcia W3C[13]. SVG definuje tři typy základních objektů: vektorové objekty obdélník, kružnici, elipsu, úsečku, lomenou čáru, mnohoúhelník a křivku rastrové objekty rastrové obrázky textové objekty Tyto objekty lze různě seskupovat, formátovat pomocí atributů a nebo CSS stylů, polohovat pomocí obecných prostorových transformací. SVG taktéž podporuje různé grafické efekty a operace jako stíny, světelné efekty, transparentnost a dokonce i skriptování a animace.

18 4 KAPITOLA 1. ÚVOD 1.4 FAKE GAME FAKE GAME (The Fully Automated Knowledge Extraction using the Group of Adaptive Models Evolution)[3] je projekt vyvíjený skupinou CIG (Computational Intelligence Group) na Katedře počítačů, Fakulty elektrotechnické, Českého vysokého učení technického v Praze. Projekt je pokračováním doktorandské práce Fully Automated Knowledge Extraction using Group of Adaptive Models Evolution [1] Ing. Pavla Kordíka, Ph.D.. Jejímž cílem je zaměření na výzkum metod pro práci s daty - předzpracování (data preprocesing), vytěžování (data mining), získávání znalostí (knowledge extraxtion) a jejich vizualizace (data visualization). Všechny tyto náročné operace vyžadují netriviální a hlubší znalosti, v každém výše zmiňovaném oboru. FAKE GAME se je snaží plně automatizovat a tím tak ulehčit práci uživateli. Obrázek 1.2: Model FAKE GAME The Group of Adaptive Models Evolution GAME modul (viz Obr. 1.2) zajišťuje automatické, samo-adaptivní, vytěžování na velkých množinách reálných dat, pomocí GMDH algoritmů, které jsou schopné řešit velice složité problémy a zpracovávat porušené, irelevantní nebo neúplné vzorky dat. Použitím evolučních algoritmů se snaží nalézat optimální topologie modelů, jejichž kvalitu a důvěryhodnost vyhodnocuje za pomocí ensemble technik. The Fully Automated Knowledge Extraction FAKE framework (viz Obr. 1.2) zprostředkovává automatické zpracování dat, pomocí řady speciálních modulů určených pro předzpracování, extrakci a vizuální objevování znalostí, a tím tak eliminuje potřebu hlubších odborných znalostí při dolování dat.

19 Kapitola 2 Cíle, požadavky a struktura práce 2.1 Vymezení cílů Cílem mé diplomové práce je připravit a implementovat sadu grafů do projektu FAKE GAME, tak aby poskytly uživateli první pohled na neznámá, surová, dosud ještě nezpracovaná data. Aby uživatel získal počáteční přehled o datech, co vyjadřují a co z nich lze asi vytěžit za informace. Zapojením jeho kognitivních rozpoznávacích schopností mozku, aby získal skryté informace v datech a své domněnky z nich získané, si pak mohl ověřil nebo vyvrátit dalším zpracováním, pomocí mocnějších nástrojů jako neuronových sítí. Záměrem projektu FAKE GAME je plná automatizace celého procesu vytěžování znalostí z dat, aby uživatel pouze zmáčkl tlačítko a vygeneroval se mu report, do kterého by nahlédl, udělal si o datech představu a podle toho použil správný model a pokračoval v analýze. Grafy proto musí být připraveny na vkládání do takovýchto automatických reportů. Z tohoto důvodu je také požadavek na možnost jejich ukládání do vektorového formátu SVG (viz. Kapitola 1.3), jenž nabízejí mnohem komfortnější a zajímavější možnosti jejich následného prohlížení (např. neomezené přibližování) než standardní rastrová grafika. 2.2 Požadavky Zmapovat softwarové nástroje zmapovat možnosti vizualizací dat používaných při vytěžování znalostí v různých softwarových nástrojích jako jsou například Weka, Yale, Sumatra, atd. Implementace do GAME implementovat různé grafy zobrazující data způsobem umožňujícím objevit nové netriviální znalosti. Použití JFreeChart při implementaci grafů využívat knihovnu JFreeChart. Ukázat získané znalosti u každého z implementovaných grafů, ukázat na příkladě znalosti, které z něj lze získat. 5

20 6 KAPITOLA 2. CÍLE, POŽADAVKY A STRUKTURA PRÁCE Export do vektorové grafiky (SVG) najít a nebo na implementovat řešení exportu grafů do vektorové grafiky pro další využití. 2.3 Popis struktury práce 1. Seznámení se s projektem FAKE GAME: Prvním krokem bude seznámení se s aplikací FAKE GAME, podívat se na jeho vnitřní architekturu, nahlédnout do zdrojových kódů a zjistit si potřebné údaje pro další práci (kam zakomponovat obrazovku pro grafy, kde vzít data). 2. Seznámení se s knihovnou JFreeChart: Dalším krokem bude seznámení se s knihovnou JFreeChart, prohlédnout si jejich demo aplikace. Zjistit jaké možnosti nabízí, jaké data umí vizualizovat. Vyzkoušet si implementaci nějakých grafů. 3. Export do vektorové grafiky: Najít řešení umožňující export a ukládání do vektorové grafiky. 4. Zmapování softwarových nástrojů: Najít a seznámit se se softwarovými nástroji pro vytěžování dat. Vyzkoušet si práci s nimi a inspirovat se použitými vizualizacemi. 5. Navrhnout vizualizace: Prostudovat možnosti vizualizací a navrhnout vizualizace pro potřeby FAKE GAME s ohledem na možnosti JFreeChartu. 6. Implementovat vizualizace: Naprogramovat navrhnuté vizualizace a zakomponovat je do FAKE GAME. 7. Implementovat export do vektorové grafiky: Použít nalezené řešení pro export do vektorové grafiky a nebo ho naprogramovat. 8. Testovat vizualizace: Vyzkoušet a otestovat možnosti vizualizace a popsat znalosti získané z testovacích dat.

21 Kapitola 3 Softwarové nástroje Na poli softwarových nástrojů zabývajících se data miningem a vizualizací se objevuje spousta nástrojů od profesionálních komerčních až po open-source, dokonce lze najít i několik českých produktů. Komerční SAS SPSS STATISTICA Data Miner Miner3D Open-source Sumatra TT Weka YALE - Rapir Miner Orange Tanagra Tabulka 3.1: Přehled programů 3.1 Komerční Softwarové nástroje SAS Firma SAS [7] patří již 30 let mezi přední světové dodavatele analytického softwaru v oblasti BI (Bussiness Intelligence). Její produkty jsou využívány již řadu let v mnoha oblastech počínaje automobilovým a leteckým průmyslem, bankovním a finančním sektorem, telekomunikacemi až po vládní instituce a lékařství. SAS Enterprise Miner je uživatelsky přívětivý program pro vytěžování dat a tvorbu přesných, prediktivních a popisných modelů. Je určen k analýze obrovského množství dat z mnoha oborů, sloužící k odhalování podvodů, předvídání poptávky zdrojů, zvýšení akvizice zákazníků a omezení opotřebování. Tohoto je docíleno pomocí široké sady nástrojů podporující proces dolování dat. Pro vizualizaci dat slouží nástroj SAS Visual Data Discovery, skládající se ze tří produktů Base SAS, SAS/STAT a SAS/GRAPH. Zprostředkovává jednoduché 7

22 8 KAPITOLA 3. SOFTWAROVÉ NÁSTROJE a rychlé rozhraní pro využití analytických schopností SAS. Interaktivní vizualizace rozšiřuje možnosti analýzy a průzkumu dat, umožňuje rychlejší rozhodování a přesnější prezentaci výstupů z analytických procesů. Base SAS je škálovatelné, integrované softwarové prostředí určené speciálně pro přístup k datům, jejich transformaci a reporting. Práci s daty usnadňuje vlastní programovací jazyk a množina maker, ulehčující celý proces analýzy a zpracování. SAS/STAT zajišťuje komplexní sadu analytických nástrojů splňující potřeby analýzy dat z mnoha oborů, od tradiční statistické analýzy rozptylu, regresy, prediktivního modelování, až po exaktní metody a statistické vizualizační techniky a pokročilejší analýzy jako např. Bayesovské, vícerozměrné, klastrové analýzy. Posledním z trojice nástrojů je SAS/GRAPH pro prezentaci tabulek, grafů a map v různých aplikacích business intelligence, čímž umožňuje přijímat rozhodnutí za účelem rychlého pochopení kritických obchodních problémů. Statistické analytické vizualizace nabízejí možnosti zobrazení různých statistických metod (např. Pearson, Spearmanm Hoeffding a Kendall), porovnání distribučního rozložení dat vůči normálnímu, Weibull, beta, gamma nebo kernel rozložení a dále také histogramy, kvantil-kvantil a box ploty. Samozřejmostí je rovněž možnost použití drill-down pro podrobnější vizualizace. Poskytuje také nástroje na zobrazování map států, kontinentů, amerických států a kanadských provincií. Součástí je také široké množství standardních grafů jako jsou horizontální a vertikální sloupcové, koláčové, hvězdicové, blokové, bodové, čárové, bublinkové, box-and-whisker, regresní s intervaly atd.. Všechny lze samozřejmě libovolně nastavovat (měnit barvy, styly, legendy), používat více os a vzájemně je prokládat, zobrazovat v 2D nebo 3D, natáčet a přibližovat. Reportovací nástroj ukládá výstupy v širokém množství grafických formátů JPEG, GIF, TIF, PS, EPS, PNG, PBM, BMP, WMF,..., lze vkládat do spousty aplikací třetích stran jako Microsoft Office, Adobe, CorelDraw, Lotus... pomocí CGM (Computer Graphics Metafiles) formátu. Také umožňuje generovat statické a nebo interaktivní dynamické tabulky a grafy, s drill-down možnostmi, pomocí Javy nebo ActiveX technologií a ty dále vkládat do webových stránek a nebo dokumentů SPSS - Statistical Package for the Social Sciences Balík produktů od firmy SPSS [9] patří již od 80-tých let mezi světově nejrozšířenější analytické systémy pro aplikace v marketingu, personalistice, vědě, výzkumu a v dalších odvětvích. Používá se nejčastěji pro sumarizace dat, manažerské, finanční i vědecké analýzy, k tvorbě rozhodovacích modelů, ale také i k predikci časových dat. Rodina produktů SPSS pokrývá všechny fáze analytického procesu. K vytěžování dat je určen produkt s názvem Clemetine nabízející snadnou správu datových zdrojů, rychlé vytváření a validování modelů za použití sofistikovaných statistických postupů a metod strojového učení, prediktivní modely poskytující výsledky v reálném čase, pro řízení a rozhodování v pravý čas a na správném místě. Data připravuje a poskytuje SPSS Dimension z mnoha zdrojů - textových souborů, databází, tabulkových kalkulátorů, standardních datových formátů jako SPSS, MS Excel a SAS, atd.. Intuitivní grafické rozhraní provází uživatele celým procesem dolování dat, jehož jednotlivé kroky

23 3.1. KOMERČNÍ SOFTWAROVÉ NÁSTROJE 9 jsou propojeny do proudového diagramu, umožňujícího snadné a přehledné úpravy jednotlivých proudů. Uživatel tak může jednoduše zakomponovávat do řešení své odborné a specifické znalosti, nemusí se zatěžovat technickými detaily, jako je zápis kódu a může se tak plně soustředit na získávání znalostí z dat, intenzivněji se věnovat vlastnímu řešení úlohy, analyzovat data do větší hloubky a odhalovat v nich skryté asociace. Výsledků je dosahováno pestrou nabídkou metod pro vytěžování dat jako např. algoritmy pro predikci, seskupování a hledání asociací, analýzy přežití, neuronové sítě grafické pravděpodobnostní modely. Každá fáze celého procesu vytěžování podporuje metodologii CRISP-DM STATISTICA Data Miner STATISTICA Data Miner patří do rodiny komerčních produktů STATISTICA firmy StatSoft [10], která se řadí mezi přední celosvětové společnosti zabývající se vytěžováním dat. Je založen na velmi jednoduchém uživatelském rozhraní a nabízí velký výběr integrovaných částí, k řešení specifických problémů vytěžování dat, které lze samozřejmě jednoduše upravit na řešení vlastních netypických problémů. Pro velmi vysokou výpočetní kapacitu nabízí také verzi server-klient pro distribuované zpracování. Integrované nástroje pro vytěžování dat: Obecný grafický průzkumník s technologií OLAP 2 Velké množství analytických uzlů, zprostředkovávající různé statistiky, umožňuje vytvářet grafy zobrazující vstupní data a nebo další uzly. Pomocí drill-down nástroje lze zobrazovat kategorie, proměnné nebo jejich zvolený rozsah hodnot. Obecný klasifikátor Nabízí klasifikační techniky jako jsou například zobecněné lineární modely, klasifikační stromy, GTrees, CHAID modely a shlukové analýzy(k-means,em shlukování s násobnou křížovou validací). Obecný modul tvorby modelů/vícerozměrný průzkumník Lze vytvářet velkou škálu modelů od lineárních a nelineárních regresních, zobecněných lineárních, zobecněných adaptivních, regresní stromy, až po pokročilé neuronové sítě a MARSpline. Obecný prediktor Prediktor obsahuje prognostické techniky jako např. Arima, Fourierovu spektrální dekompozici, regresní a polynomiální analýzu a také metody neuronových sítí pro predikci časové řady. 1 CRISP-DM projekt evropské komise definující model standardního postupu při vytváření data miningových projektů patřící partnerům CRISP-DM konsorcia: NCR systems Engineering Kopenhagen, Daimler Chrysler atd. 2 OLAP (On-line Analytical Processing) je technologie uložení dat v databázi, která umožňuje uspořádat velké objemy dat tak, aby byla data přístupná a srozumitelná uživatelům zabývajícím se analýzou obchodních trendů a výsledků

24 10 KAPITOLA 3. SOFTWAROVÉ NÁSTROJE Obecný průzkumník s technologií neuronových sítí K dispozici je velké množství nástrojů umělé inteligence, které pomáhají při řešení i těch nejnáročnějších problémů NN analýzy. Různé druhy neuronových sítí jako vícevrstvé perceptrony, pravděpodobnostní a zobecněné regresivní neuronové sítě, samoorganizující se mapy, klastrové sítě a mnoho dalších. Různé metody odhadu - Zpětná propagace, quasi-newton, Levenberg-Marquardt, rychlá propagace, LVQ, prořezávací algoritmy, křížová validace, citlivostní analýzy atd.. Nástroje k čištění a filtrování dat Stromové klasifikační modely Strojové učení Vícerozměrné adaptivní regresní spliny Miner3D Miner3D [5] je dalším velice úspěšným komerčním nástrojem pro vizualizace dat a multidimenzionální datovou analýzu. Pomocí intuitivního a vyspělého uživatelského rozhraní Miner3D umožňuje efektivně pracovat bez rozsáhlých technických příprav. Integrovaný nástroj na tvorbu grafů automaticky vytváří grafy pro aktuálně nahraná data do systému a umožňuje je velice rychle a snadno přizpůsobovat, kombinovat nebo měnit na jiný typ grafu. K dispozici jsou 2D a 3D grafy jako například bodový, sloupcový, a čárový, histogramy, dlaždicové grafy, mapy, povrchové modely,.... Kvalitní a realistické vizuální výsledky jsou jedním z důvodů, kvůli kterým je využíván v bankovnictví, investičními analytiky, vědci ve farmacii, biotechnickém a materiálovém výzkumu, manažery, geology a mnoha dalšími odborníky z různých průmyslových odvětví. Miner3D Enterprise přichází s řadou mocných vizuálních OLAP (On-Line Analytical Processing) funkcí umožňující uživateli velice efektivní práci s datovými sklady, nabízející metody jako například Drill-down, Roll-up 3 a nebo rychlé třídění v paměti. Vizuální rozhraní pomáhá tvořit 3-, 4- nebo dokonce i 5-dimenzionální dotazy. U takto složitých dotazů je velice důležitá jejich smysluplná a intuitivní reprezentace. Celý proces vytváření dotazů, získávání výsledků a vizuální analýzy je velice plynulý a přímočarý. Dynamické filtrování je velice mocným nástrojem pro výběr dat, pomocí kterého lze zobrazovat data v různých interaktivních pohledech a řezech, pomáhá tak odhalovat vzory a shluky v datech nebo vrstvy a dekompozice v datových modelech. Statistický kalkulátor počítá statistické výpočty na vybrané skupině dat. Kombinace obou nástrojů 3 Roll-up znamená hrubší zpracování agregačních výpočtů, než již existující agregační předvýpočty.

25 3.1. KOMERČNÍ SOFTWAROVÉ NÁSTROJE 11 pomáhá rychle měřit a důkladně analyzovat data s vysokou mírou interaktivity a kontextové vizualizace. Pro vykreslování mnoha-dimenzionálních množin dat nabízí Miner3D Trellis grafy, což jsou série menších grafů uspořádaných do pravoúhlé mřížky, jejíž řádek či sloupec odpovídá jedné proměnné nebo kategorii. Lze zde použít libovolný typ grafu v 2D a nebo 3D verzi. K dispozici jsou taktéž sofistikované nástroje zprostředkovávající shlukové analýzy. Kohonenovy samo-organizační mapy (Kohonen s Self-Organizing Maps SOM) Patří mezi algoritmy shlukové analýzy s velice silným rozpoznávacím potenciálem. Datové body se v Kohonenových mapách automaticky rozprostírají do 2D nebo 3D prostoru na základě vzdáleností. Data s podobnou vybranou množinou vlastností pak mají tendenci shlukovat se k sobě, zatímco data s odlišnými vlastnostmi od sebe v mapě rozděluje větší vzdálenost. To uživateli dovoluje vizuálně prozkoumávat data s význačnými vzory. K-Means Shluková analýza Shluková analýza je množina matematických technik pro rozdělování velkého množství dat do menších skupin a nebo shluků na základě jejich podobnosti, tedy data v jednom shluku se vyznačují velice podobnými vlastnostmi. K-Means shlukování a K- Means redukce dat poskytují silnější a větší možnosti při zpracování obrovských objemů dat. Lze je použít pro vizuální shlukování dat ve 3D nebo pro redukci a kompresi velkých datových objemů. Jejich vysoká výpočetní síla je zajištěna pomocí filtrovacích algoritmů a více-dimenzionálních binárních vyhledávacích stromů. PCA(Principal Component Analysis) Pro zpracování mnoha-dimenzionálních souborů dat slouží nástroj PCA, pomocí nějž lze získat přehled nad daty, odhalovat shluky, trendy, zjišťovat souvztažnosti mezi proměnnými a redukovat dimenze bez ztráty informací. Tím je nám umožněno připravit si vhodnější podmnožiny pro vizualizaci dat a zvýšit tak šanci na produkci lepších a užitečnějších výsledků z analýzy. Umožňuje zaměřit se na na klíčové informace obsažené v řadě původních proměnných a ty pak komprimovat do menšího počtu hlavních komponent. V mnoha-dimenzionálních datech bývají potřebné a užitečné informace pouze v několika rozměrech nebo jejich kombinacích a zbytek dat obsahuje pouze tzv. šum, data nepřinášející žádné nové informace. S PCA lze tyto důležité rozměry snadno identifikovat a vybrat si pak pouze podmnožinu dat podprostor, obsahující většinu informací a zbývající nedůležité rozměry odfiltrovat. PCA se snaží nalézt nový soubor takových os (PCA vektorů), kde většina proměnlivostí údajů je obsažena v několika prvních rozměrech. Hlavní komponenty jsou pak nezávislé proměnné a každá komponenta je lineární kombinací původních proměnných. PCA je implementována jako vlastní dekompozice kovarianční matice. Každá datová analýza vyžaduje snadný a spolehlivý přístup ke zdrojům dat, v Miner3D lze jednoduše spravovat a uchovávat odkazy na datové zdroje, pomocí M3D

26 12 KAPITOLA 3. SOFTWAROVÉ NÁSTROJE souborů, které pak umožňují okamžitý přístup k datům. Samozřejmostí je podpora velkého množství datových formátů od jednoduchých textových souborů (TXT, CSV, DBF, XLS) přes napojení na nejrůznější druhy relačních databází (MS SQL, ORACLE IBM DB2, MySQL, ODBC nebo OLEDB) až po SDF soubory uchovávající chemické struktury. Výsledky datových analýz se ukládají nejenom do datových souborů a zdrojů (viz výše), ale i obrázků s vysokým rozlišením ve formátech (BMP, JPEG, TIF, TGA, PCX, RGB,...). Zajímavostí je, že celý proces interaktivní datové analýzy lze krok po kroku zaznamenávat do digitálního video formátu (AVI). 3.2 Open-source Softwarové nástroje SumatraTT Sumatra [11] je univerzální open-source systém na data mining a data warehousing zaměřený speciálně na předzpracování dat. Byl vyvinut na katedře kybernetiky FEL ČVUT. Své velké univerzálnosti a všestranného použití dosahuje díky svá modulární architektuře. Základem systému je prostředí s definovanou strukturou, které pak umožňuje spolupráci nezávislých modulů, kde každý z nich může data načítat, ukládat a provádět s nimi různé transformace. Díky modularitě tak systém může zpracovávat data z velkého množství různých zdrojů od textových CVS, XML, databázových souborů DBF až po přímý přístup na relační databáze pomocí JDBC. Systém má k dispozici také rozsáhlou sadu modulů určených na předzpracování dat, které umožňují data normalizovat, počítat nejrůznější statistiky a provádět různé matematické kalkulace, skriptování a XSLT. Moduly pro vizualizaci dat nejprve musí data transformovat do vizualizačních formátů, které pak lze zobrazit ve velkém množství 2D a 3D grafů, histogramů nebo XML stromů. Sumatra se specializuje na využití v lékařství, obsahuje 22 speciálních modulů na transformace ontologických dat. A je dlouhodobě používána na studii rizikových faktorů aterosklerózy. Hlavní myšlenkou architektury Sumatry je jednoduchost a hierarchická stromová struktura modulů, jež tvoří jednotlivé jar archivy, které se skládají z definice modulu pomocí XML, javovských tříd na zpracování, GUI a vizualizaci výsledků WEKA WEKA Waikato Environment for Knowledge Analysis [14] je rozšířený open-source software obsahující strojově učící se algoritmy pro vytěžování dat, vyvinutý na Univerzitě Waikato. Velkou výhodou WEKY je, že lze využívat její funkce a nástroje přímo ve vlastním Java kódu. WEKA obsahuje nástroje pro předzpracování dat, jejich klasifikaci, regresi, shlukování, asociaci a vizualizaci. Je to vhodný nástroj pro vývoj nových schémat pro strojové učení. WEKA dále umožňuje přímý přístup na relační databázi pomocí Java Database Connectivity JDBC. Hlavním uživatelským rozhraním WEKY je průzkumník Explorer, ale k jejím nástrojům lze přistupovat pomocí příkazové řádky. Nástroj Experimenter slouží k systematickému plánování zpracování algoritmů

27 3.2. OPEN-SOURCE SOFTWAROVÉ NÁSTROJE 13 strojového učení na množině dat. Knowledge Flow umožňuje detailně rozplánovat celý proces data miningu v datovém diagramu, kde jednotlivé instance tvoří nástroje, které data zpracovávají. Data lze nahrát z CSV souborů a nebo přímo z databáze, ke které se lze připojit. Ty se pak dále dají na panelu Filters předzpracovat a filtrovat transformace atributů do diskrétních hodnot a nebo vybírání atributů dle specifických kritérií. Na panelu Klasifikace lze data klasifikovat a zpracovávat pomocí regresních algoritmů a odhadovat tak přesnost výsledků prediktivních modelů a zobrazovat ROC křivky nebo rozhodovací stromy. Data se potom zpracovávají pomocí algoritmů strojového učení jako jsou křížová validace, shlukování a nebo K-Mean shlukování. A nakonec se zpracovaná data vizualizují pomocí scatter plot matic, kde můžeme s jednotlivými scatter ploty manipulovat a interaktivně je zobrazovat a analyzovat použitím různých selektivních operátorů YALE Rapid Miner YALE Yet Another Learning Environment nebo také Rapid Miner [15] je dalším open-source nástrojem pro experimenty se strojovým učením, data miningem a bussines inteligencí, který byl vyvinut na universitě v Dortmundu. Program lze používat jako knihovnu do vlastních programů. Umožňuje rychlou analýzu dat a automaticky provádí předzpracování a samotné učení. Je to velice rozsáhlý nástroj obsahující víc jak 400 operátorů, nastavení je definované v XML souborech, které se snadno tvoří přes grafické uživatelské rozhraní. To se pak použije při strojovém učení a vytěžování dat. Modulární operátorová architektura Rapid Mineru dovoluje komplexní zřetězení operátorů pro velké množství učících problémů, což vede k velmi rychlému prototypování. Nemusíme se zabývat aktuálním formátem dat, jádro Rapid Mineru provede automaticky všechny potřebné transformace. Nástroj obsahuje vedle grafického rozhraní také režim příkazové řádky a Java API rozhraní, lze ho velice snadno rozšířit dalšími moduly, má plně integrovanou knihovnu strojového učení z WEKY. Výsledky experimentů lze zobrazit v nesčetném množství grafů a pohledů 1D, 2D, 3D ploty, histogramy, stromové a clusterové pohledy, mnohodimenzionální zobrazení pomocí Andrew s Curves, GridViz, Parallel, RadViz, Survey, SOM, Hyperplanární projekce a ROC křivek Tanagra Tanagra[12] je open-source projekt na vytěžování dat určený pro akademické a výzkumné účely, nabízí různé metody pro vytěžování dat od průzkumné datové analýzy, statistické metody, až po strojové učení. Projekt je nástupcem SIPINA, který se specializoval na učící algoritmy s učitelem a speciálně na vizuální konstrukci rozhodovacích stromů. Tanagra je mnohem mocnějším nástrojem, který je navíc rozšířen o možnosti jako shluková a faktorová analýza, parametrické a neparametrické statistiky, asociační pravidla, výběr vlastností a konstrukční algoritmy, atd.. Prvním a hlavním cílem projektu je poskytnout výzkumníkům a studentům lehce použitelný nástroj pro vytěžování dat, splňující současné normy a na vývoj softwaru v této oblasti a umožňující analyzovat reálná a nebo syntetická data.

28 14 KAPITOLA 3. SOFTWAROVÉ NÁSTROJE Druhým cílem je lehce modifikovatelná architektura, pro snadné přidávání vlastních metod pro vytěžování dat a srovnávání jejich výkonu. Experimentální platforma má poskytnout prostředí, ve kterém se může analytik věnovat zásadním problémům a není zdržován nepodstatnými činnostmi jako je například správa dat. Třetím a posledním cílem je vést začínající vývojáře a udržovat možné metodologie pro tvorbu softwaru stejného druhu. Volný přístup ke zdrojovým kódům tak pomáhá vývojářům nahlédnout do jeho nitra, aby viděli jak je takový typ programu tvořen a předešli tak problémům při tvorbě obdobné architektury, kterým se mají vyvarovat. Dále aby viděli hlavní kroky projektu a nástroje nebo knihovny, které lze použít. Díky tomu lze Tanagru také považovat za pedagogický nástroj k učení programovacích technik. V současnosti nedosahuje takové síly jako komerční produkty v tomto oboru - nepodporuje tolik zdrojů dat, přímý přístup do datových skladů a nebo databází, neobsahuje metody pro čištění dat, to ovšem neznamená, že by za nimi nějak zaostával. Grafické uživatelské rozhraní je koncipováno pomocí proudových diagramů, sloužící k popisu jednotlivých navazujících operací na data. Obrazovka se skládá za tří částí, proudového diagramu, stromové struktury zobrazující jednotlivé operátory a komponenty pro práci s daty a nakonec zprávu v HTML formátu, ve které jsou uloženy výsledky. Operátory a komponenty provádějí se vstupními daty analýzu a výsledky poskytují na svém výstupu, některé přidávají k výstupním datům vlastní proměnné, které pak slouží k zpracování dalším operátorem. Proces vytěžování dat spočívá v podstatě v řazení jednotlivých operátorů za sebe a ty pak produkují výslednou analýzu. Proudový diagram tak umožňuje jednoduše experimentovat s různými předpoklady a porovnávat dosažené výsledky v paralelních větvích diagramu. Komplexní analýza je pak jednoduše reprezentována díky stromové struktuře a proudovým diagramům a může být uložena pro další experimenty a zpracování. Výsledné zprávy jsou vytvářeny v HTML formátu, čímž je lze snadno exportovat do jiných programů pro další zpracování. Operátory a komponenty: Vizualizační komponenty bodový graf, bodový graf s korelacemi,... Deskriptivní statistiky seřazený tabulkový pohled, lineární korelace, jednosměrná ANOVA (Analysis of Variance), statistiky diskrétních nebo spojitých atributů,... Konstrukční komponenty standardizace atributů, frekvenční nebo pásmová diskretizace, MDLPC, transformace vlastním algebraickým vzorcem,... Regrese lineární regrese, metoda nejmenších čtverců,... Faktorová analýza PCA, analýza korespondencí,... Shlukování K-Means, Kohonenovy samo organizační mapy, LVQ (Learning Vector Quantizers), HAC (Hierarchical agglomerative clustering),...

29 3.2. OPEN-SOURCE SOFTWAROVÉ NÁSTROJE 15 Učení s učitelem Binární logistická regrese, k-nejbližší soused, více vrstvé perceptrony, zpětná propagace, Lineární diskriminační analýza, naivní Bayesovi algoritmy,... Hodnocení učení křížová validace, trénovací test, Orange Orange[6] akademickým projektem skupiny AI Lab, Fakulty počítačů a informatiky na Ljublajanské univerzitě ve Slovinsku, určeným pro vytěžování dat, obsahuje řadu technik pro předzpracování, modelování a průzkum dat. Základem programu jsou komponenty v C++, ke kterým se přistupuje pomocí Python skriptů a nebo grafických objektů nazvaných Orange Widget. Je distribuován pod GPL licencí. Orange nabízí k využití spoustu již hotových komponent nebo implementaci svých vlastních. Komponenty si lze také vytvářet pomocí Pythonu a využívat v nich standardní komponenty z C++. Python zde slouží jako framework pro spojování základních nebo vlastních komponent. Orange Komponenty: Data Vstup/Výstup Podporuje čtení a zápis textových souborů oddělených tabulátorem, C4.5 formátů a další... Předzpracování metody pro výběr podmnožin dat, diskretizaci, hodnocení predikce,... Prediktivní modelování klasifikační stromy, naivní Bayesovi klasifikátory, k-nn, logistická regrese, klasifikace na základě pravidel,... Ensemble metody boosting, bagging a forest trees,... Metody pro popis dat různé druhy vizualizací pomocí widgetů, samo organizační mapy, hierarchické klastrování, K-Means klastrování,... Techniky pro vzorkování a validaci modelů křížová validace, náhodné vzorkování, klasifikace přesnosti, citlivosti, AUC,... Orange rovněž poskytuje rozhraní pro vizuální programování, založené na grafických komponentách Orange Widgets a jejich propojování díky vzájemné komunikaci. Nejdůležitějším rysem Orange je bezesporu integrace s Pythonem, jedná se o jednoduchý a však velice výkonný a flexibilní skriptovací jazyk. Toto všechno společně dělá z Orange komplexní, komponentně orientovaný framework pro strojové učení a vytěžování dat. V této oblasti tak nabízí své široké možnosti nejen zkušeným uživatelům, ale i badatelům, kteří chtějí vyvíjet a testovat své vlastní algoritmy. K ulehčení programátorské práce tak mají možnost využívat spousty již hotových komponent. K získávání znalostí a vytěžování dat se uživatelům nabízejí dvě rozdílné cesty k dosažení kýžených výsledků, a to buď pomocí psaní jednoduchých a krátkých skriptů v Pythonu nebo pomocí mocného prostředí vizuálního programování.

30 16 KAPITOLA 3. SOFTWAROVÉ NÁSTROJE 3.3 Shrnutí Komerční produkty se věnují vývoji svých nástrojů v této oblasti více než 20 let a tak mají o proti open-source značný náskok. Za jejich vývojem rovněž stojí velká poptávka po analytických nástrojích využitelných ve všech odvětvích. Nemalou roli zde hrají i finance, které velkou měrou přispívají k vývoji. Cena samotných nástrojů pro jednotlivé uživatele se u těchto produktů pohybuje řádově v desetitisících a u komplexních firemních řešení i v miliónech. Požadavky zákazníků ovlivňují směřování jejich vývoje, systémy musí být schopné pracovat s velkými objemy dat a tudíž musejí podporoval velké množství formátů datových zdrojů a napojení na databáze a datové sklady. Komerční produkty obsahují mnohem komplexnější řešení, které je využitelné zákazníky ze všech oborů. Open-source produkty jsou o poznání mladší (řádově několik let), vznikají převážně na akademické půdě univerzit jako diplomové práce nebo pomocné nástroje pro výuku. Jejich nespornou výhodou je volné použití a přístup ke zdrojovým kódů, každý vývojář si je tak může snadno upravovat a přizpůsobovat ke svému využití. Ve většině případů slouží jako knihovny s již implementovanými algoritmy a postupy pro vytěžování a získávání znalostí z dat nad kterými je postaven framwork, umožňují provádět celý proces analýzy. Nepotřebují ke svému životu spousty různých nástrojů a funkčností specifických pro komerční nástroje, jako načítání dat ze všech druhů databází, výstupy do nepřeberného množství dalších programů a tak podobně. Místo toho se zaměřují na svoji funkčnost a rozšiřují množinu svých analytických nástrojů. Mnoho open-source nástrojů se inspiruje v komerčních produktech a přebírá z nich osvědčené postupy a funkčnosti týkající ať už samotného procesu celé analýzy, např. proudový model zpracování, a nebo jejich jednotlivých částí. Velkou výhodou open-source nástrojů je jejich neustálý vývoj. Mezi komerčními a open-source produkty sice panují určité rozdíly, ale obě skupiny bezesporu úspěšně plní svoji funkčnost, kterou si kladou za svůj cíl.

31 Kapitola 4 Návrh Vizualizací Než se začnu věnovat návrhu vizualizací, bylo by velice vhodné podívat se jak vypadají taková vstupní data. Množina datových vektorů ((vstup 1,vstup 2,...,vstup n ), (vystup 1,vystup 2,...,vystup m )), se skládá z podvektoru o velikosti n (vstup 1,vstup 2,...,vstup n ) vstupů a podvektoru o velikosti m (vystup 1,vystup 2,...,vystup m ) výstupů. Jejich příklad pak můžeme vidět v tabulce 4.1. Vstup 1 Vstup 2... Vstup n Výstup 1 Výstup 2... Výstup m 5 0, ,1 2 0, ,4 8 0, ,2 6 0, ,1 6 0, ,3 9 0, ,2 8 0, , Tabulka 4.1: Ukázka vzorku dat 4.1 Statistické Vizualizace Histogram Histogram je jedním ze základních statistických grafů znázorňující intervalové rozdělení četností. Na ose X se zobrazují meze intervalů hodnot X, nad nimiž se vykreslují sloupce, kde jeho šířka odpovídá šířce intervalu a jeho výška zachycuje absolutní (popř. relativní) četnosti v daném intervalu. Osa Y pak podle volby zobrazuje absolutní četnosti n i, tj. 17

32 18 KAPITOLA 4. NÁVRH VIZUALIZACÍ četnost pozorování výskytu hodnoty x i v daném intervalu k i, a nebo relativní (poměrné) četnosti, tj. poměr n i pozorování hodnoty x n i v daném intervalu k i vůči celkovému počtu pozorování n. Pro absolutní četnosti pak platí následující: n k = n, k tedy součet absolutních četností je roven celkovému počtu pozorování. Pro relativní četnosti pak obdobně platí: tedy součet relativních četností se rovná 1. k n i n = 1, Abychom zajistili histogramu kvalitní vypovídající hodnotu je nutné zaměřit se také na správnou volbu počtu intervalů, ve kterých budeme vypočítávat četnosti. Protože pokud zvolíme příliš mnoho intervalů, jsou pak velice krátké a informace v nich obsažené jsou nepřehledné. Pokud jich zvolíme naopak málo, pak jsou do intervalu zařazeny zcela odlišné statistické jednotky a tudíž ztrácíme informace. Proto je volba počtu intervalů velice důležitá, bohužel neexistují pro ní žádná obecná pravidla. Pro konrétní vstupní hodnoty je tedy nutné experimentovat s volbou správného počtu intervalů, abychom dosáhli kvalitnějších informací. Existuje však několik doporučení pro jejich volbu: Odhadní pravidlo: k = n Sturgesovo pravidlo: k = log n Histogram bude sloužit k vyjádření intervalového rozdělení četností (jak absolutních, tak i relativních). Bude použitelný jak pro vstupní tak pro výstupní atributy. Můžeme z něj zjistit charakter dat, zda se jedná o diskrétní nebo spojitá data. Aby bylo možno navzájem porovnávat histogramy jednotlivých atributů, jejichž hodnoty se velice významně liší, bude k dispozici možnost normalizace dat. Pro diskrétní binární data nemá histogram skoro žádnou vypovídací hodnotu, dozvíme se pouze počty resp. procentní zastoupení nul a jedniček. Do jednoho grafu bude možno zobrazovat více histogramů jednotlivých vstupů nebo výstupů, které se vybírají na postraním panelu. Tím budeme mít možnost porovnávat vizuálně jednotlivé grafy navzájem mezi sebou.

33 4.1. STATISTICKÉ VIZUALIZACE Průměry Dalšími statistickými veličinami pro získání prvotních informací a přehledu nad neznámým souborem dat slouží různé druhy průměrů jako například aritmetický, geometrický, kvadratický, vážený průměr a medián. Aritmetický průměr je statistickou veličinou popisující typickou hodnotu souboru vstupních hodnot, definovaný následujícím vzorcem: x = 1 n (x 1 + x x n ) = 1 n x i, n i=1 tzn. tedy součet všech hodnot vydělený jejich počtem. Jedná se o jeden z nejpoužívanějších statistických pojmů, který ovšem bývá velice často chybně využíván či dokonce i zneužíván. Vezmněme si například aritmetický průměr majetku občanů žijících v americkém městě Redmond (asi 47 tisíc obyvatel), vzhledem k tomu, že zde žije jeden z nejbohatších mužů planety Bill Gates, bude to jistě nemalá částka. To ovšem neznamená, že typický obyvatel Redmondu je bohatý. Jinými slovy: jediná hodnota významně se lišící se od ostatních ovlivňuje hodnotu aritmetického průměru, který vyjadřuje zcela mylnou informaci. Další běžnou chybou bývá očekávání, že splňuje určité vlastnosti, i když tomu tak nemusí být. Jako například, že polovina hodnot je menších a druhá polovina hodnot je větších, tento fakt nemusí být obecně pravdou. Tuto vlastnost splňuje medián citovaný níže. V některých případech je špatné využití aritmetického průměru přímo chybou. Pokud například nějaká veličina roste první rok o 10%, druhý rok o 30% a třetí rok o 10% klesá, pak výpočtem aritmetického průměru získáme hodnotu = 10%. 3 Její interpretace jako průměrný růst 10% je ovšem chybná. V tomto případě je totiž nutno použít geometrického průměru, jehož výsledkem je pak průměrný růst cca 8.8%. Geometrický průměr je další statistickou veličinou udávající typickou hodnotu v souboru dat, je definován jako: n n x1 x 2... x n = ( x i ) 1 n, tzn. n-tá odmocnina součinu všech hodnot. Z definice vyplývá, že geometrický průměr má smysl pouze pro soubor dat, ve kterých jsou všechny hodnoty kladné. Jeho využití je například pro výpočet průměrného růstu viz příklad výše. Vlastností geometrického průměru je, že je vždy menší nebo roven aritmetickému průměru. Kvadratický průměr je statistická veličina představující druhou odmocninu aritmetického průměru druhých mocnin souboru hodnot, matematicky definována jako: x x x 2 n = 1 n x 2 n n i, kde n je celkový počet hodnot v souboru dat a x i jsou jeho jednotlivé hodnoty. Mezi jeho vlastnosti pak patří: výsledek kvadratického průměru počítaného z reálných čísel je vždy nezáporné číslo, mocniny hodnot pak poskytují větší váhu hodnotám vzdálenějším od nuly. Používá se například pro výpočet směrodatné odchylky. i=1 i=1

34 20 KAPITOLA 4. NÁVRH VIZUALIZACÍ Vážený průměr je statistickou veličinou zobecňující aritmetický průměr a zprostředkovává statistickou charakteristiku souboru dat v případě, že hodnoty z tohoto souboru mají různou důležitost (různou váhu). Jestliže máme soubor n hodnot X = {x 1,x 2,...,x n } a k nim odpovídající váhy W = {w 1,w 2,...,w n }, pak je vážený průměr definován vzorcem w 1 x 1 + w 2 x w 1 x n w 1 + w w n = ni=1 w i x i ni=1 w i. Za předpokladů, že jsou všechny váhy stejné, je vážený průměr totožný s aritmetickým průměrem. Používá se převážně pro výpočet aritmetického průměru soubodu hodnot složeného z více podsouborů. To však může přinášet překvapivé výsledky zvané jako Sipsonův paradox 1. Uveďme si ho na následjícím příkladu[8] : Líza a Bárt Simpsnovi mají dva týdny volna a proto si usmysleli, že začnou upravovat a vylepšovat články na Wikipedii, které tam před tím umístili. První týden Líza upravila 60% ze 100 článků, které revidovala a Bárt upravil 90% z 10 článků. V druhém týdnu Líza upravila pouze 10% z 10 článků, zatímco Bárt upravil 30% ze 100 článků. 1. týden 2. týden celkem Líza 60/100 1/10 61/100 Bárt 9/10 30/100 39/100 Tabulka 4.2: Simpsonův paradox 1. týden v % 2. týden v % celkem v % Líza 60% 10% 55.5% Bárt 90% 30% 35.5% Tabulka 4.3: Simpsonův paradox - vážený průměr V každém z týdnů dosáhl Bárt většího procentuálního počtu upravených článků než Líza, která však na druhou stranu zpracovala větší množství článků. Sloučením výsledků z obou týdnů pomocí váženého průměru, tak celkově Líza (55.5%) upravila mnohem větší procento článků než Bárt (35.5%), i když Bárt dosáhl lěpších hodnot během obou týdnů. Simpsonův paradox zavádí k logickému rozporu popírající obyčejnou intuici, protože celkový výsledek má naprosto opačnou hodnotu než hodnoty v obou jednotlivých obdobích. Medián je statistickou veličinou, značící se x, jež dělí seřazený soubor dat na dvě stejné poloviny. Vyjadřuje míru centrální tendence. Platí, že nejméně 50% hodnot je 1 Edward H. Simpson popsal v roce 1951 tento fenomén podle Karla Pearsona a Udny Yule (1903). Ačkoliv nebyl jeho objevitelem, je po něm pojmenován jako Simpsonův paradox nebo Yule-Simpson efekt.

35 4.1. STATISTICKÉ VIZUALIZACE 21 menších a nebo rovných a nejméně 50% hodnot je větších nebo rovných mediánu. Pro výpočet mediánu stačí seřadit daný soubor dat a za medián prohlásit hodnotu nalézající se uprostřed seznamu, pokud je velikost souboru sudá, pak se za medián obvykle označuje aritmetický průměr z hodnot na pozicích n a n + 1. Mezi základními výhodami mediánu patří vlastnost, že není ovlivněn extrémními hodnotami. To znamená, že 2 2 například na souboru hodnot {1, 2, 2, 3, 9} je medián roven 2, což je mnohem vhodnější ukazatel převažující tendence, než aritmetický průměr s hodnotou 3.4. Další výhoda mediánu spočívá v možnosti jeho použití na libovolném souboru dat, pro který je definována libovolná relace uspořádání menší nebo rovno, tedy i pokud se nejedná o soubor čísel. Jeho použití pro soubory dat, které nabývají pouze dvou hodnot v případě stejného početního zastoupení v obou kategoriích, je pak velmi nestabilní a je pouze hrubým měřítkem vlastností rozdělení. Použití výše zmiňovaných statistických veličin přináší užitečné informace získané ze vstupních dat. A tak nám pomáhá velice jednoduše určit statistické rozložení hodnot, charakteristické prvky a tendence jednotlivých vstupních proměnných. Ovšem při práci s nimi musíme být velice obezřetní, protože jejich intuitivní interpretace může velice snadno vést k nesprávným a nebo zcela chybným závěrům a výsledkům. Graf bude sloužit pro všechny druhy vstupních a výstupních atributů. Obecně platí, že kvadratický průměr skupiny kladných čísel je vetší nebo roven aritmetickému průměru a ten je větší nebo roven geometrickému průměru. Rovnost všech nastává pouze tehdy, pokud jsou všechna čísla stejná. Do grafu lze vykreslit průměry pro více atributů, které lze volit na postranním panelu. Pro redukci velkého rozdílu měřítek různých vstupů nebo výstupů bude poskytnuta možnost jejich hodnoty normalizovat Box & Whiskers Extremni odlehle hodnoty Prumer Meadian Odlehle hodnoty MIN Q1 Q2 MAX Obrázek 4.1: Popis Box & Whisker diagramu Box & Whiskers, do češtiny doslovně přeloženo krabička & vousy, označovaný jako krabičkový (krabicový) graf nebo diagram. Jedná se o další popisný statistický graf zobrazující soubor dat bez jakýchkoliv předpokladů o jeho základní statistické distribuci. Zobrazuje průměr, medián, kvartily, minima, maxima, rozptyl a zkreslenosti v datech (vzdálené hodnoty), jejich umístění a popis můžeme vidět na obrázku 4.1. Popis Box & Whiskers:

36 22 KAPITOLA 4. NÁVRH VIZUALIZACÍ Q 1,Q 3 Kvartily - rozdělují seřazený soubor dat na zhruba čtyři stejné části. Q 1 Q 3 udává vzdálenost mezi kvartily IQR - mezikvartilový rozsah, tvorící v diagramu obdélník. Průměr je vyobrazen symbolem uvnitř obdélníku. Meadián je zobrazen uvnitř obdélníku. Minimum a Maximum jsou vyobrazeny tzv. vousy a, které nejsou od kvartilů Q 1,Q 3 vzdálené více než o 1.5 IQR. Vzdálené hodnoty označené, které jsou vzdálené od kvartilů Q 1,Q 3 více než 1.5 IQR. a méně než 3 IQR. Extrémně vzdálené hodnoty označené <, jsou vzdáleny od kvartilů Q 1,Q 3 o více než 3 IQR. Box & Whiskers bude použitelný pro všechny vstupní a výstupní atributy jak pro diskrétní tak pro spojité hodnoty. Také poskytuje informace o rozdělení dat, zároveň navíc také poskytuje kvartily, minima a maxima, rozptyl a také vzdálené a extrémně vzdálené hodnoty, které pak můžou znamenat například šum nebo chyby v datech. Pro redukci velkého rozdílu měřítek hodnot vstupů nebo výstupů bude možno nastavit normalizované hodnoty. Půjde jich zobrazit více do jednoho grafu, volitelně na postranním panelu, kvůli jejich vzájemnému vizuálnímu porovnávání. Pro binární výstupní kategorie (musí být všechny výstupy binární) bude možnost vstupy zobrazovat podle příslušnoti k výstupní kategorii tedy pro jednotlivé hodnoty výstupů 0, 1 a obou současně Binární kategorie Zobrazení binárních kategorií je koláčový graf zobrazující procentuální rozdělení kombinací všech výstupních hodnot. Z tohoto grafu tak můžeme jednoduše získat přehled o výstupních hodnotách vstupního souboru dat. Bude sloužit pouze pro výstupní binární kategorie, tj všechny výstupy musí být pouze binární. Zobrazí pak všechny možné binární kombinace výstupů a jejich procentuální zastoupení. 4.2 Závislosti Grafická analýza závislostí dvou číselných proměnných je velice užitečný a přitom jednoduchý nástroj pro odhalování závislostí mezi nimi. Rovněž lze vypozorovat i sílu jednotlivých závislostí. Vyžaduje však určitou zkušenost při posuzování výsledků, poněvadž z nich získané závěry mohou býti dosti subjektivní. Jedná se pouze o subjektivní pozorování a vypozorované závislosti je poté nutno matematicky ověřit. Druhy závislostí:

37 4.3. TRANSFORMACE N-DIMENZIONÁLNÍCH DAT DO 2D 23 Pevná (funkční) závislost lineárn(nelineární) závislost, kde všechny hodnoty leží na jedné přímce nebo jiné křivce. Volná (stochastická) závislost jednotlivé body neleží přímo na přímce (křivce), ale je patrný pomyslný průběh kolem ní, vzdálenost od pomyslné křivky pak udává sílu závislosti. Nezávislost pomyslná křivka je rovnoběžná s osou X a nebo nelze nalézt žádnou pomyslnou křivku procházající množinou bodů Bodový graf - závislostí mezi vstupy Bodový graf zobrazující závislosti mezi jednotlivými vstupy. Na obou osách lze zvolit vstupní proměnné z dat, jejichž závislost chceme zobrazit. Barva jednotlivých bodů je přiřazena na základě příslušnosti k výstupním katagoriím. Bude sloužit pro libovolný typ vstupů jak diskrétních tak i spojitých. Pro přehlednější vizualizaci vstupů s různými měřítky, budeme mít možnost oba dva nezávisle normalizovat. Měl by nám poskytovat informace o závislosti mezi nimi, ukázat nám jejich podobnost či rozdílnost a nebo separovatelnost vůči jednotlivým výstupům Bodový graf - závislostí výstupů na vstupech Bodový graf zobrazující závislosti výstupů na vstupech. Na ose X jsou vykresleny všechny vstupy a v ovládacím panelu lze nastavit, zda jednotlivé vstupy mají být viditelné v grafu. Na osu Y si pak můžeme zvolit libovolný výstup, jehož závislost chceme zobrazit. Jednotlivé body jsou pak obarveny podle příslušnoti k danému vstupu. Slouží k vykreslování závislostí výstupních atributů na vstupních, jednoduše tak pouhým pohledem zjistíme, jestli mezi nimi nějaké zjevné závislosti nebo trendy existují. Lze si nechat do jednoho grafu vykreslit závislosti více vstupů na jednom výstupu a ty pak vzájemně porovnávat. Vstupy lze volit na postranním panelu a výstup na ovládacím panelu. Dále lze proložit grafem lineární nebo kvadratickou křivku, které nám pak umožní tyto trendy blíže klasifikovat. Slouží k odhadování závislostí a podobností mezi závislostmi jednotlivých vstupů na výstupech. Pro redukci extrémních hodnot a velkého rozdílu měřítek, lze nezávisle nastavit normalizování dat pro obě osy. 4.3 Transformace n-dimenzionálních dat do 2D Data bývají velice často mnoha-dimenzionální, což znemožňuje jejich přehlednou vizualizaci. Lidský mozek bežně zpracovává prostorové informace ve třech dimenzích, ale jejich vetší počet činí naší představivosti velké obtíže, pro někoho mohou být 4 dimenze naprosto nepředstavitelné. Proto si musíme při jejich zobrazování pomoci různými transformačními technikami, abychom redukovali počet dimenzí na vhodnou velikost pro zobrazení.

38 24 KAPITOLA 4. NÁVRH VIZUALIZACÍ Paralelní koordináty Y X X1 X2 X3 X4 Obrázek 4.2: Princip zobrazení paralelních koordinátů Paralelní koordináty je jedna z technik pro zobrazování mnoha-dimenzionálních souborů do dvourozměrné plochy. Osa X je rozdělena do n kategorií, kde každá znich odpovídá právě jedné dimenzi (jsou rovnoměrně rozloženy po celé ose). Hodnoty na ose Y pak odpovídají hodnotám v jednotlivých dimenzích. Tedy n-rozměrný vektor vstupních dat je zobrazen jako multi-čára, kde jeho jednotlivé položky jsou vyneseny jako body do jednotlivých kategorií na ose X a poté jsou spojeny jednou multi-čárou. Ta je pak zobrazena barvou odpovídajícího výstupu pro daný vstupní vektor. Uveďme si na příkladě zobrazení 4-dimenzionálních dat, kde jeden vstupní vektor (x 1,x 2,,x 3,x 4 ) jehož položky jsou zobrazeny v kategoriích X 1,X 2,,X 3,X 4, je zobrazen na obrázku 4.2. Přínosem paralelních koordinátů spočívá v tom, že transformace mnoha-dimenzionálních rozměrů do roviny nám umožňuje objevit například zajimavé geometrické vlastnosti, které jsou skryty ve velkých dimenzích. Teorii paralelních koordinátů, lze samozřejmě jednoduše rozšířit o další dimenze tak, že budeme provádět transformaci například do 3D (nebo i vyšších dimenzí). Pak výsledným modelem není multi-čára, ale roviny, plochy, hyper křivky, hyper roviny,... Pro dosažení kvalitnějších výsledků a znalostí z dat existují další statistické úvahy zahrnující metody používané při transformaci jako změna pořadí (tj. permutace vstupního vektoru), změna měřítka v osách pro jednotlivé kategorie a rotace. Pokud se rozsah hodnot v jednotlivých dimenzích velice markantně liší, pak různá měřítka osy Y pro jednotlivé kategorie má za následek z kvalitnění transformované projekce. Rotací osy Y o 180 jedné z kategorií se můžeme jednoduše zbavit zbytečných křížení multi-čar mezi těmito kategoriemi. Paralelní koordináty by nám měly poskytnout představu o podílu jednotlivých vstupních proměnných na výstupech. Dále nám tak umožňuje pozorovat a odhalovat shluky tj. vstupní vektory, které jsou si velice podobné, budou mít jim odpovídající multi-čáry taktéž velice podobné a pokud odpovídají i stejným výstupům, tak budou i stejně obarvené (budou tvořit stejnobarevné pásy). Ale také i závislosti výstupu na jednotlivých vstupech nebo jejich podintervalech. Na první pohled nám umožní určit jakého charakteru jsou data jednotlivých vstupů, jestli se jedná o spojitá a nebo diskrétní data. U

39 4.3. TRANSFORMACE N-DIMENZIONÁLNÍCH DAT DO 2D 25 diskrétních dat budou multi-čáry protínat osu vstupu pouze v několika málo bodech, zato u spojitých vstupů budou multi-čáry protínat osu po celé její délce. Graf bude podporovat diskrétní i spojité vstupy a výstupy. Na postranním panelu bude nastavitelné, jaké výstupy se mají zobrazit, lze jich samozřejmě vybrat více, abychom mohli pozorovat jejich podobnosti a rozdělení. Pokud je výstup spojitý nebo diskrétní a zároveň nebinární, pak je tento výstup vykreslen 10 odstíny jemu přiřazené barvy. Odstín mu je přiřazen na základě toho, do jakého intervalu o délce 0.1 mezi nulou a jedničnou spadá jeho normalizovaná hodnota. Tím si zajistíme větší přehlednost grafu a možnost odhalit zajímavé vlastnosti i například nad jedním výstupem. Pro redukci extrémních hodnot a velkého rozdílu měřítek lze nastavit normalizovaná data pro vstupy. Při testování grafu nad různými vzorky dat vznikl nový požadavek na redukci množství zobrazovaných dat, protože pokud množina dat je velice početná, pak se graf stává nepřehledným (velká změt čar) a ztrácí svouji vypovídající hodnotu. Z tohoto důvodu byla přidáná do grafu možnost restrikce jednoho ze vstupů pomocí minimální a maximální hodnoty, která se bude na jeho příslušné ose vykreslovat. To také zároveň přineslo novou možnost zobrazovat si křivky pro libovolný interval hodnot jednoho vstupu Andrewsova křivka Andrewsova křivka je jednou z dalších technik transformace mnoha-dimenzionálních dat na křivku v 2-dimenzionálním prostoru, jenž navrhl Andrews v roce Jedná se o transformaci n-rozměrného vektoru X i = (x i,1,x i,2,...,x i,n ) na spojitou křivku: f i (t) = x i,1 + x i,2 sin(t) + x i,3 cos(t) x i,p 1 sin( p t) + x i,p cos( p 1 2 t), pro liché p f i (t) = x i,1 + x i,2 sin(t) + x i,3 cos(t) x i,p sin( p 2 2 t), pro sudé p, kde jednotlivé koeficienty odpovídají Furierově řadě pro t [ π,π]. Pokud jsou si jednotlivé křivky navzájem podobné, pak vektory transformované do těchto křivek patří do stejné skupiny, tj. podskupiny dat jsou charakteristické podobnými křivkami. Zároveň také rozdílné vstupní vektory, mají markantně rozdílné křivky. Pořadí jednotlivých dimenzí, tedy permutace vstupního vaktoru, zde hraje velice důležitou roli, protože poslední položka vektoru bude mít jen velice málo viditelný příspěvek do křivky (spadá do vysokofrekvenční části křivky). Pro optimalizaci pořadí jednotlivých proměnných může sloužit analýza hlavních komponent (PCA). Mezi další významné vlastnosti transformace patří zachovávání průměru, zachovávání vzdáleností a zachovávání rozptylu. Zachovávání vzdáleností znamená, že celková vzdálenost mezi křivkami, definovaná jako integrální kvadratická odchylka, odpovídá vzdálenosti jejich obrazů, tedy blízké křivky ukazují na nepříliš vzdálené vektory. To nám pak umožňuje snadno odhalit vektory či jejich skupiny, které mohou být v mnoha-dimenzionálním prostoru špatně identifikovatelné.

40 26 KAPITOLA 4. NÁVRH VIZUALIZACÍ Díky vlastnostem Andrewsovi transformace jako je zachovávání vzdáleností, tak můžeme z grafu vypozorovat na základě podobnosti jednotlivých křivek podobnosti ve vektorech vstupních dat. Pokud jsou si křivky velice podobné a nebo naopak velice rozdílné, pak platí to samé i pro jejich vzory, tj. vstupní vektory. To nám tedy zprostředkovává možnost pozorování a odhalování shluků vektorů v datech. Graf bude sloužit pro zobrazování spojitých i diskrétních vstupů a výstupů. Samozřejmostí bude možnost zobrazovat více výstupů, abychom je mohli mezi sebou porovnávat, lze je nastavit na postranním panelu. Pro redukci extrémních hodnot a velkého rozdílu měřítek lze nastavit normalizované vstupní hodnoty. Pokud je výstup spojitý nebo diskrétní a zároveň nebinární, pak je tomuto výstupu přiřazen odstín jeho barvy jako viz výše u Paralelních koordinátů. Také zde při testování grafu nad různými vzorky dat vznikl nový požadavek na redukci množství zobrazovaných dat, protože pokud množina dat je velice početná, pak se graf stává nepřehledným (velká změt čar) a ztrácí svouji vypovídající hodnotu. Z tohoto důvodu byla přidaná i zde restrikce jednoho ze vstupů pomocí minimální a maximální hodnoty, která se bude na jeho příslušné ose vykreslovat Vektorový graf Vdy Vy Vdx Y X Vx Obrázek 4.3: Transformace vektoru V (X, Y, dx, dy ) Vlen Vy Valfa Y X Vx Obrázek 4.4: Transformace vektoru V (X,Y,Angle,Length)

41 4.4. KOHONENOVA SAMOORGANIZUJÍCÍ MAPA 27 Vektorový graf je jednou z dalších možností, jak zobrazit více-dimenzionální data do 2D prostoru. Graf je tvořen vektory (šipkami), které se vytvoří ze vstupních vektorů dimenze n X = (x 1,x 2,...,x n ), tak že se vezme libovolná podmnožina jeho 4 složek a ty se použijí pro tvorbu šipek. Podle následujících transformačních pravidel: viz Obrázek 4.3 a nebo X(...,x x,x y,x dx,x dy,...) V (x,y,dx,dy), X(...,x x,x y,x angle,x length,...) V (x,y,angle,length), viz Obrázek 4.4. Jímž je přiřazena barva na základě toho, k jakému výstupu patří. Zbylé složky vstupního vektoru zůstávají nepoužity a v grafu se nezobrazují. Graf je určen pro spojité i diskrétní vstupy a výstupy. Na postranním panelu, půjde zvolit výstupy, jenž mají být zobrazeny. Na spodním panelu lze nastavit normalizaci dat pro redukci velkého rozsahu dimenzí vstupů a přiřadit jednotlivé vstupy pro transformaci na vektory (šipky). Z toho plyne omezení, že je graf určen pouze pro data obsahující nejméně 4 vstupy. Graf by měl vizualizovat vztahy mezi těmito 4-mi zvolenými vstupy a dopomoci nám odhalit závislosti v těchto vztazích. 4.4 Kohonenova Samoorganizující mapa Kohonenova Samoorganizující mapa (SOM) je samoorganizující se neuronová síť s učením bez učitele. Jedná se o velice silný a kvalitní nástroj pro identifikaci neznámých vlastností a parametrů skrytých v digitalizovaných vzorcích libovolného signálu. Jejich automatická schopnost samoorganizace a shlukování objektů s podobnými vlastnostmi do skupin předurčuje možnost jejich využití při rozhodování, rozlišování a třídění objektů, signálů,... Hojně jsou využívány při zpracování řeči, zvukových signálů, detekce osob na fotografiích, k převádění ručně psaného textu, automatickému třídění, ale také třeba i v medicíně pro zjišťování a předvídání vývoje či vzniku nemocí a mozkových poruch. Samoorganizace a samoučení je základem opravdu inteligentní umělé inteligence a poskytuje nám možnost objevování podobností a rozdílů v úplně neznámých datech. Patří tak mezi základní nástroje používané při shlukové analýze. Struktura: Základem SOM je struktura neuronů uspořádaná nejčastěji do podoby čtvercové či obdélníkové matice (k l), hexagonálních útvarů a nebo i jednorozměrného vektoru. Každému z neuronů přísluší unikátní vektor vah W = (w 1,w 2,...,w n ), kde n je velikost dimenze vstupních dat a každý z nich je připojen ke každému neuronu ze vstupní vrstvy. Vrstva vstupních neuronů se skládá z n neuronů, zprostředkovávající pouze vstup vektoru X = (x 1,x 2,...,x n ) do neuronové sítě(viz Obrázek 4.5). Velikost struktury neuronů (matice) nemá nic společného s počtem vah neuronů a tedy s dimenzí vstupních dat n. Jejich uspořádání (matice, hexagon,...) má vliv na volbu tzv. okolí neuronu R, které vymezuje jeho sousedy (nejblíže postavené neurony). Při uspořádání neuronů do matice

42 28 KAPITOLA 4. NÁVRH VIZUALIZACÍ Obrázek 4.5: SOM - uspořádání neuronů (vstupní/výstupní vrstvy) je velikost okolí rovna počtu řad/sloupců neuronů od centrálního neuronu, ke kterému ji počítáme. Váhy každého z neuronů definují jeho polohu v prostoru. Princip učení: Mějme neuronovou síť uspořádanou do matice o rozměrech (k l) a množinu vstupních vektorů X = (x 1,x 2,...,x n ) dimenze n. Nejprve je nutné váhy všech neuronů nějak inicializovat, tj. každému neuronu se náhodně vygenerují jeho váhy. Matici neuronů se pak postupně předkládají vektory vstupních dat X tak, že se porovná rozdíl vah W = (w 1,w 2,...,w n ) každého neuronu od vstupního vektoru. K vyjádření rozdílu vektorů se nejčastěji používá euklidovské vzdálenosti D i,j = X W i,j = (x 1 w ij1 ) 2 + (x 2 w ij2 ) (x n w ijn ) 2, výsledkem je matice D i,j o rozměrech (k timesl). Z ní poté vybereme nejmenší hodnotu tzv. vítěze D(d x,d y ) = min i,j D i,j. Váhy tohoto neuronu totiž nejvíce ze všech odpovídají vstupnímu vektoru, tj. X W i,j euklidovská vzdálenost je minimální (vítězný neuron má nejpodobnější váhy se vstupním vektorem). Vítěznému neuronu upravíme jeho váhy W, aby se co nejvíce přiblížili hodnotám předloženého vstupního vektoru X podle vzorce: W i,j (nove) = W i,j (stare) + α (X W i,j (stare)), kde α 0, 1 je učící koeficient vyjadřující rychlost učení neuronové sítě. Spolu s vítězným neuronem se upravují také váhy v jeho okolí R, pomocí stejného vzorce (popřípadě s jiným koeficientem β). Pomocí toho se se dosahuje shlukování, tj. pokud přijde na vstup vektor velice podobný vektoru X, pak je velice pravděpodobné, že jeho vítězným neuronem bude ten samý vítězný neuron a nebo některý z tohoto okolí. Naopak pokud však přijde na vstup vektor, který se od vektoru X velice liší, pak jeho vítězný neuron nebude z tohoto okolí. Po předložení všech vektorů ze vstupní množiny se celý proces učení opakuje (obvykle velkým počtem opakování). Při předkládání dalších učících množin vektorů se koeficienty α (β) a R postupně snižují k nule, tzn. své váhy pak upravuje pouze vítěz o nepatrnou hodnotu.

43 4.4. KOHONENOVA SAMOORGANIZUJÍCÍ MAPA 29 Učením vzniká v maticové struktuře neuronů několik významných center tzv. shluky, mezi jejichž neurony se významně liší hodnoty jejich vah. Počet shluků je pak shodný s počtem odlišných vlastností nebo parametrů, které Kohonenova mapa našla v předložených učících dávkách vstupních vektorů. To znamená, že funkčnost mapy výrazně závisí na složení vstupních dat a informací v nich obsažených. SOM funguje jako klasifikátor, pokud mu na vstup přiložíme neznámý vektor (obdobný jako vektory v učící množině, nemusí v ní být obsažen), pak se po výpočtu podobnosti vzdáleností od vektorů vah jednotlivých neuronů se vybere vítězný neuron, který je nejvíce podobný hodnotám na vstupu. Vítězný neuron představuje určitou definovanou skupinu (shluk), do které se neznámý vektor na základě podobnosti zařadí. Tj. neznámý vektor jsme zařadili do skupiny, u které již známe její vlastnosti. Tomuto se říká neadaptační režim, síť vykonává pouze funkci klasifikátoru. Neuronová síť může být také v adaptačním režimu tj. pro neznámý vzorek najde rovněž vítězný neuron a zařadí vzorek do nějaké kategorie, ale zároveň ještě vítěznému neuronu upraví váhy jako při učení a tím se tak neustále přiučuje. Jedním z velkých problémů SOM (ale i většiny algoritmů pro shlukovou analýzu) je závislost počtu shluků ve vstupních datech a v počtu výstupních neuronů a na tom také závisí její úspěšnost. Větší počet neuronů znamená mnohem lepší rozlišovací schopnost neuronové sítě, bohužel ale při nízkém počtu shluků ve vstupních datech má za následek obtížné nacházení shluků a jejich vzájemné prolínání. To platí i v opačném případě, pokud máme ve vstupních datech velký počet shluků a zároveň malý počet neuronů, pak se síť snaží třídit do mnohem menšího počtu shluků, než ve skutečnosti v datech je. A výsledkem pak je, že data s odlišnými vlastnostmi klasifikuje do stejného shluku. Vizualizace Kohonenovy mapy by tak měla poskytovat shlukovou analýzu, odhalovat podobnosti mezi vektory vstupů a shlukovat vektory s podobnými vlastnostmi do center v mapě. Mapa je reprezentována maticí stejných rozměrů jako je neuronová síť, je vygenerována na základě posledního učícího se cyklu, při kterém se do matice ukládá počet vítězství jednotlivých neuronů. Jednotlivé buňky jsou pak obarveny barvou výstupu, ke kterému vítězný neuron patří. Poskytuje tak dva druhy pohledů, prvním je barevné rozložení shluků a druhý černobílý pohled zobrazuje počty vítězství jednotlivých neuronů v černobílé škále, kde bílá znamená žádné vítězství a čím tmavější pole je, tím větší počet vítězství. Aby používání mapy poskytovalo očekávané výsledky (počet shluků a jejich separaci), vyžaduje trochu experimentování s volbou jejich jednotlivých parametrů. Náhodná inicializace vah na začátku učení má za následek při opakování experimentů odlišné výsledky.

44 30 KAPITOLA 4. NÁVRH VIZUALIZACÍ

45 Kapitola 5 Implementace 5.1 Knihovny JFreeChart JFreeChart[4] je Java knihovna pro kreslení grafů, usnadňující vývojářum kreslit grafy profesionální kvality ve svých aplikacích. Projekt je udržuje David Gilbert a je volně distribuován pod GNU LGPL 1 licencí. Je určen pro používání v Java aplikacích, webových appletech, servletech a JSP. JFreeChart umožňuje vykreslovat koláčové grafy, sloupcové (horizontální, vertikální, normální a skládané), čárové, bodové (prokládané křivkami), časové řady, svícové grafy, Ganntovy diagramy, teploměry a číselníky. Jednotlivé grafy lze samozřejmě i kombinovat navzájem. Knihovna dále obsahuje konzistentní a velmi dobře zdokumentované API, podporující širokou škálu typů grafů. Flexibilní design, který lze libovolně rozšiřovat a upravovat k obrazu svému. Podporuje rovněž řadu výstupů, včetně Swing komponent, obrázků JPG a PNG, a nebo vektorovou grafiku PDF, EPS a SVG. Podpoda SVG je ovšem zajištěna pouze pomocí další knihovny Batik (viz. níže) Batik SVG toolkit Batik[2] je Java soubor nástrojů pro aplikace nebo aplety, zprostředovávající zobrazení, generování a manipulaci s vektorovou grafikou ve formátu SVG (Scalable Vector Graphics) (viz Kapitola 1.3). Projekt se snaží poskytnout vývojářům kompletní sadu nástrojů, použitelnou jako celek a nebo pouze jednotlivé části, pro podporu specifických řešení SVG, jako je například SVG Parser, SVG generátor a nebo SVG DOM. Další ambicí projektu je vysoká přizpůsobivost a flexibilita jednotlivých nástrojů, umožující zpracovávat vlastní SVG prvky. SVG prohlížeč vytvořený spojením nástrojů ze základní sady, tak potvrzuje funkčnost a správné provedení nejenom jednotlivých modulů ale i celku. 1 GNU Lesser General Public License (dříve GNU Library General Public License) nebo LGPL je licence svobodného softwaru, publikovaná Free Software Foundation, primárně používaná pro softwarové knihovny.( 31

46 32 KAPITOLA 5. IMPLEMENTACE 5.2 Analýza a návrh implementace Menu Postranni GRAF panel SVG Ovladaci panel Obrázek 5.1: Návrh obrazovky Implementace bude probíhat v programovacím jazyku Java, protože hlavním celý projekt FAKE GAME je v ní napsaný a není proto jiné možnosti. Jako knihovna pro kreslení grafů musí být použit dle zadání JFreeChart. Umožňuje snadné kreslení grafů a dále zprostředkovává vykreslování titulků, os a jejich hodnot, zoomování atd. Výhodou JFreeChartu je export grafů do obrázků, bohužel ale pouze rastrových. Export do vektorové grafy bude zprostředkovávat knihovna Batik SVG toolkit, je přímo vyvíjena pro spolupráci s JFreeChartem, takže pomocí ní lze exportovat i do SVG formátu. Po analýze a vyzkoušení JFreeChartu, vyplynulo několik nedostatků. Nepodporuje 3D grafy, jak avizují na svých stránkách, jejich podpora spočívá pouze v zobrazení sloupcových a koláčových grafů ve 3D, a lze tedy používat pouze vykreslování do 2D. Naobsahuje žádné komplexější funkce pro ovládání grafu. Jeho výhodou je rychlé vytvoření grafu, stačí pouze naplnit dataset, pojmenovat graf a osy, popřípadě nastavit barvy a graf je hotov. Návrh obrazovky (viz Obr. 5.1) bude obsahovat graf, v levém rohu bude menu, pro volbu různých grafů. Levý panel bude obsahovat seznam vstupů/výstupů hodnot, které se budou vykreslovat do grafu, bude podsvícen stejnou barvou jako bude v grafu, bude obsahovat zašktrávátko pro volbu zda má být v grafu viditelný. Ve spodní části obrazovky bude umístěn ovládací panel, bude obsahovat tlačítko pro export do SVG, dále nastavení možností pro vykreslování (volba pro normalizaci, editovací pole pro nastavování hodnot parametrů, rolovací seznam pro volbu vstupů, výstupů pro tranformace).

47 5.3. POPIS IMPLEMENTACE Popis implementace Základem uživatelkého grafického rozhraní bude hlavní třída GrafFrame (viz Příloha B.1), jeho instance se pak bude starat o vykreslování příslušného grafu a všech jeho komponent (samotný graf, ovládací a postranní panel). Po otevření hlavního okna z Menu FAKE GAME se otevře prázdné hlavní zobrazovací okno obsahující pouze své menu pro výběr grafů. Po vybrání typu grafu se příslušný graf a jeho ovládací panely vykreslí do hlavního okna vizualizací. V menu pod volbou New Frame bude možno otevřít si nové okno. Základním stavebním kamenem všech grafů bude abstraktní třída Graf (viz Obrázek příloha B.1), jenž se bude starat o načítání dat z třídy TreeData, která představuje v aplikaci datový zdroj. Z nějž se pak načítají vstupní a výstupní datové vektory, názvy a barvy proměnných. Všechny třídy jednotlivých grafů jsou pak potomkem třídy Graf a implementují jednotlivé jeho metody a atributy specifické pro každý graf. Definice atributů jednotlivých tříd grafů lze vidět v Příloze B spolu s ovládacími panely OptionsPanel, které k nim příslušejí. Struktura ovládacích panelů OptionsPanel je opět hiararchická, tj. zděděná od abstraktní třídy OptionsPanel viz Obrázek příloha B.4. Dále každý graf obsahuje jeden ze čtyř postranní panel SidePanel podle funkce na volbu více proměnných, vybírání proměnné, volbu pouze jedné poměnné a pouze zobrazování proměnných viz Obrázek příloha B.5. Základní metody tříd všech grafů jsou obdobné viz Obrázek příloha B.3 plus ještě Settry/Gettry pro atributy jednotlivých grafů, tj metody pro přístup k atributům třídy daného grafu.

48 34 KAPITOLA 5. IMPLEMENTACE

49 Kapitola 6 Testování Vizualizací 6.1 Vzorek dat IRIS Vstupy: sepal-length, sepal-width, petal-length, petal-width Výstupy: iris-setosa, iris-versicolor, iris-virginica Jedná se o vzorky dat tří druhů kosatců (Iris setosa, Iris virginica a Iris versicolor), data obsahují 50 vzorků od každého druhu. Měří se 4 základní vlastnosti, délka a šířka kališních lístků a délka a šířka okvětních lístků (sepal-length, sepal-width, petal-length, petal-width). Na základě těchto 4 vlastností lze rozhodovat o jaký druh se jedná Vizualizace IRIS Obrázek 6.1: Histogramy vstupů sepal-length, sepal-width, petal-length, petal-width Z histogramů vstupů viz obrázek 6.1 plyne, že sepal-length a sepal-width mají velice podobné rozložení hodnot, liší se pouze ve svém měřítku, obě se blíží gaussovu rozložení. Obdobně také petal-length a petal-width mají velice podobné rozložení svých hodnot, rovněž se lišící měřítkem. Z histogramu výstupů viz obrázek 6.2 je vidět, že jsou shodné pro všechny tři výstupy. Jedná se pouze o binární výstupy určující kategorie (nabývají hodnoty pouze 0 a 1). To 35

50 36 KAPITOLA 6. TESTOVÁNÍ VIZUALIZACÍ Obrázek 6.2: Histogramy výstupů a Binární kategorie výstupů Obrázek 6.3: Box & Whiskers - pro vstupy a pro výstupy také dokazuje obrázek hned vedle pro Binární výstupní kategorií. Z obou lze vyčíst, že 3 výstupní kategorie jsou zastoupeny stejným podílem, a že každá obsahuje 50 vektorů. Z Box & Whiskers viz obrázek 6.3 pro vstupy je vidět rozsah hodnot, jejich kvantily, rozptyl, minima a maxima. Sepal-width obsahuje nějaké vzdálené a extrémně vzdálené hodnoty. Pro binární výstupy nezobrazuje nic překvapivého. Obrázek 6.4: Průměry - pro vstupy a pro výstupy Z Grafu průměrů viz obrázek 6.4 pro vstupy, lze vypozorovat opět nepatrný rozdíl mezi všemy průmery sepal-length a také i u sepal-width. Pro výstupy neposkytuje žádné převratné znalosti, medián pro ně byla zvolena hodnota 0. Ze zatím získaných hodnot by se pak dalo matematicky vypočítat rozložení jednotlivých vstupů. V Box & Whiskers pro výstupní kategorie viz obrázek 6.5, už lze vyčíst daleko zajímavější informace. Pro vstupy petal-length a petal-width (poslední dva grafy) si všimněme výstupu iris-setosa (první tři), výstup iris-setosa(0) a iris-setosa(1) jsou navzájem disjunktní. Tedy z toho vyplývá, že jsme schopni poznat iris-setosu pouze na základě znalosti petal-length a nebo petal-width.

51 6.1. VZOREK DAT IRIS 37 Obrázek 6.5: Box & Whiskers pro výstupní kategorie jednotlivých vstupů Obrázek 6.6: Závislosti vstupů na výstupech - iris-setosa na pental-length a pental-width Obrázek 6.7: Bodové grafy - všechny kombinace vstupů

52 38 KAPITOLA 6. TESTOVÁNÍ VIZUALIZACÍ Z bodového grafu závislostí výstupů na vstupech viz obrázek 6.6, lze rovněž pozorovat jednoznačnou určitelnost pouze z petal-length a nebo petal-width. Z grafu závislostí mezi vstupy obrázek 6.7 jsou vždy body odpovídající výstupu iris-setosa separované od ostatních. V grafu závislost mezi sepal-length a sepal-width jsou body odpovídající výstupům iris-versicolor a iris-virginica vzájemně promíchány, není mezi nimi tudíž žádná závislost. A tedy pro vstupy sepal-length a sepal-width nelze jednoznačně určit žádný výstup. Pro všechny ostatní případy se shluky bodů odpovídající výstupům irisversicolor a iris-virginica pouze okrajově setkávají, tedy kombinace vstupu sepal-width a nebo sepal-length s libovolným dalším by nám už s velkou mírou pravděpodobnosti dovolila určit jestli se jedná o iris-versicolor a nebo o iris-virginica. Obrázek 6.8: Paralelní koordináty a Andrewsova křivka Z obrázku 6.8 lze z paralelních koordinátů okamžitě vyčíst, že každý ze vstupů petal-length a petal-width jednoznačně identifikují iris-setosu a dá se říci s velkou pravděpodobností, že také zároveň identifikují i iris-versicolor a iris-virginica. Pro sepallength a sepal-width se nedá nic určit, protože se všechny tři výstupní kategorie značně prolínají. Z pohledu na andrewsovu křivku můžeme vyčíst, že výstup iris-versicolor a irisvirginica jsou si navzájem velice blízké, protože křivky jsou si značně podobné, narozdíl od iris-setosy, která se od nich markantně liší. Obrázek 6.9: Kohonenova mapa Kohonenova mapa z obrázku 6.9 a shluky v ní nám umožní okamžitě odhalit separovatelnost výstupu iris-setosy. Ostatní dva výstupy iris-versicolor a iris-virginica nejsou už tak jednoduše oddělitelné a částečně se vzájemně dotýkají. Z vektorových grafů v transformaci (x,y,dx,dy) na obrázku 6.10 byly zajímavé kombinace (sl,pl,sw,pw) a (sl,sw,pl,pw) a z vektorových grafů v transformaci (x,y,a,l) na

53 6.2. VZOREK DAT ADVERT 39 Obrázek 6.10: Vektorový graf(x,y,dx,dy) - (sl,pl,sw,pw) a (sl,sw,pl,pw) Obrázek 6.11: Vektorový graf(x,y,a,l) - (pl,pw,sl,sw) a (sl,sw,pl,pw) obrázku 6.11 byly zajímavé kombinace (pl,pw,sl,sw) a (sl,sw,pl,pw). Respektive byly zajímavé tím, že byly nejpřehlednější (netvořili nepřehlednou změť šipek). Když si uvědomíme, jak fungují obě dvě transformace a pečlivěji budeme zkoumat jednotlivé začátky vektorů, jejich velikost a směr nebo rotaci. Tak rovněž objevíme poznatek, že pokud se jedná o výstupy iris-versicolor a iris-virginica, které se částečně prolínají, nelze jednoznačně určit správný výstup. Obrázky si lze rovněž prohlédnout na přiloženém CD viz příloha C. 6.2 Vzorek dat ADVERT Vstupy: ic1, ic2, ic3, ic4. ic5 Výstupy: ham, spam Vzorek ADVERT představuje nejspíše měření nějakého elektrického obvodu, kde ic1, ic2, ic3, ic4. ic5 jsou jeho vnitřní uzly na kterých se měří hodnoty, pomoví kterých se určuje zda na výstupu je signál (ham) a nebo šum (spam). Pro ukázání závislostí a vstahů není podstatné co má vzorek vyjadřovat, ale co můžeme z hodnot zjistit za znalosti. Zde uvedu pouze grafy z kterých bylo možno získat nějaké podstatnější informace, ostatní lze vidět na přiloženém CD viz příloha C. Z histogramů na obrázku lze odvodit že se jedná spojité vstupní hodnoty a výstupy tvoří dvě binární kategori spam a ham. Z obrázků 6.12 a 6.13 lze odvodit, že vstupy ic2 a ic3 mají pro rozsah hodnot jednoznačně určen výstup, tj. pro ic2 > 2, 5 a ic3 < 1 se jedná o spam. Stejnou závislost lze vypozorovat i z paralelních koordinátů viz obrázek 6.14.

54 40 KAPITOLA 6. TESTOVÁNÍ VIZUALIZACÍ Obrázek 6.12: Závislosti výstupu ham na vstupech ic2 a ic3 Obrázek 6.13: Závislosti výstupu spam na vstupech ic2 a ic3 Obrázek 6.14: Paralelní koordináty pro ic2 a ic3 Obrázek 6.15: Andrewsovy křivky pro spam a ham

55 6.3. VZOREK DAT MOTOL BRAIN PRESSURE 41 Z obrázků 6.15 Andrewsovy křivky pro ham lze vypozorovat, že většina křivek tvoří pás a pouze několik se jich liší od ostatních, z toho vyplývá že většina vstupních vektorů pro výstup ham si je velice podobná a pouze několik se jich významně liší. Obdobně lze vypozorovat pro ham, že většina křivek tvoří 3 hlavní kategorie ( 3 druhy křivek). Tj tyto kategorie budou odpovídat dvou množinám křivek viz výše u paralelních koordinátů a zbytku. Pokud bychom zkoumali pomocí paralelních koordinátů do mnohem větších detailů pro menší intervaly, dostali bychom pak jistě množinu rozhodovacích pravidel pro určení výstupu. Obrázek 6.16: SOM pro mřížku o rozměrech 3, 5, 10 Dalším zajímavé obrázky nám poskytuje SOM viz obrázek 6.16 pro velikost mřížky 3, 5 a 10, kde lze rovněž pozorovat rozdělení spamu (modrá barva) do třech kategorií. 6.3 Vzorek dat MOTOL brain pressure Vstupy: ph, O 2, t, HCO 3 Výstupy: CO 2 Jedná se o vzorek dat pro měření závislosti tlaku CO 2 v mozku na ph, O 2, t (teplotě), HCO 3. Zde uvedu pouze grafy zobrazující zajímavé grafy, ostatní obrázky lze vidět na priloženém CD viz příloha C. Obrázek 6.17: Porovnání závislostí vstupů na výstupu

56 42 KAPITOLA 6. TESTOVÁNÍ VIZUALIZACÍ Obrázek 6.18: Paralelní koordináty bez normalizace a s normalizací Na obrázku 6.17 lze pozorovat zajímavé podobnosti závislostí jednotlivých vstupů (ph, O 2, HCO 3 ) na výstupu. Ukázka na obrázku 6.18 zobrazuje paralelní koordináty bez a s normalizací, bez jejíž pomoci se při větším rozdílu měřítek jednotlivých vstupů neobejdeme. Spojitý výstup tak neumožňuje moc přehlednou vizualizaci, ale pomocí omezování jednotlivých proměnných lze získat podrobnější představu o závislosti jednotlivých vstupů na výstupu. 6.4 Závěry z testování Testování ukázalo, že z implementovaných grafů lze získat užitečné znalosti a informace o vzorcích dat. Zároveň ale také ukázalo na řadu problémů a nedostatků. Větší velikosti množiny vstupních vektorů má za následek delší dobu vykreslování grafů jako jsou Bodové grafy, Andrewsova křivka, Paralelní koordináty a nebo Vektorové grafy, protože už obsahují velké množství grafických objektů. Rovněž také narůstá velikost exportovaných obrázků do SVG (10MB). Proto také do Andrewsovy křivky, Paralelních koordinátů musela být přidaná restrikce jednoho ze vstupů pomocí minimální a maximální hodnoty, která se bude na jeho příslušné ose vykreslovat. Dalším nedostatkem zjištěným při testování bylo, že pokud data obsahují velký počet vstupů, pak se nevejdou jejich jednotlivé popisky k osám.

57 Kapitola 7 Zhodnocení přínosu a pokračování práce 7.1 Přínos práce Hlavním přínosem mé práce bude doufám poskytování nových a užitečných informací, uživatelům využívajícím FAKE GAME, při vytěžování znalostí z dat. Doufám, že pomocí implementovaných vizualizačních technik, jenž mají za cíl přiblížit uživateli zkoumaná data, budou moci díky kognitivním rozpoznávacím schopnostem svého mozku vyhledávat v grafech viditelné vzory a závislosti mezi jednotlivými vstupy a výstupy. Doufám, že jim takto získané znalosti budou kladným přínosem a usnadněním, při dalším analytickém zpracovávání dat. Ačkoliv cílem mého směrování jsou databáze, tedy spíše správa a získávání dat, měla tato práce zajímavý přínos i pro mě. Umožnila mi seznámit se s dalším oborem zpracovávajícím data. A přinesla mi zjištění, že vytěžování a dolování znalostí pomocí vizualizací není žádná jednoduchá záležitost, jak by se na první pohled mohlo zdát. Vyžaduje notnou dávku zkušeností, trpělivosti a experimentování, než se podaří mnohdy dobře skryté závislosti a informace objevit, a že pouze jeden pohled někdy prostě nemusí stačit. 7.2 Doporučení dalšího pokračování práce Prvním směrem, který bych doporučil pro pokračování mé práce, by bylo nejspíše zaměření se na větší interaktivitu, umožňující lepší a příjemnější práci s vizualizacemi. Nynější možnost přibližování (zoomování), by určitě stálo za to doplnit o malý náhled zobrazující celou původní vizualizaci, aby uživatel neztratil globální pohled, při hlubším zanoření do dat. Rozšířit možnosti filtrace, tedy výběr popřípadě více výběrů pro volbu rozsahu zobrazovaných hodnot na jednotlivých osách, abychom tak omezili množství zobrazovaných dat a mohli se tak lépe zaměřit na konkrétní podmnožinu dat. Zobrazované hodnoty spojité proměnné rozdělit do menších kategorií a umožnit při vykreslování volbu pouze určité kategorie. Zajímavou možností by také určitě byla možnost označit 43

58 44 KAPITOLA 7. ZHODNOCENÍ PŘÍNOSU A POKRAČOVÁNÍ PRÁCE si jednotlivé objekty (body, křivky) nebo jejich skupinu a tu potom zvýraznit popřípadě skrýt. Další možností pokračování práce, by mohlo být rozšíření o další grafy a vizualizace jako jsou například rozhodovací, klasifikační nebo regresní stromy, rozšířit možnosti o další techniky pro shlukovou analýzu jako k-means nebo pro faktorovou analýzu jako například PCA. Velice zajímavou možností by bylo určitě také rozšíření do 3D a zobrazovat tak vizualizace v prostoru.

59 Kapitola 8 Splnění cílů a Závěr Cílem mé diplomové práce bylo připravit a implementovat sadu grafů do projektu FAKE GAME, tak aby poskytli uživateli první pohled na neznámá, surová, dosud ještě nezpracovaná data. Aby uživatel získal počáteční přehled o datech, co vyjadřují a jaké z nich lze vytěžit informace. Zapojením jeho kognitivních rozpoznávacích schopností mozku, aby získal skryté informace v datech a své domněnky z nich získané si pak mohl ověřil nebo vyvrátit dalším zpracováním, pomocí mocnějších nástrojů jako neuronových sítí. Záměrem celého projektu FAKE GAME je plná automatizace celého procesu vytěžování znalostí z dat, aby uživatel pouze zmáčkl tlačítko a vygeneroval se mu report, do kterého by nahlédl, zjistil udělal si o nich představu a podle toho použil správný model a pokračoval v analýze. Proto musí být grafy připraveny na vkládání do takovýchto automatických reportů. Z toho samého důvodu je tu také požadavek na možnost jejich ukládání do vektorového formátu SVG. Úvodním požadavkem mé práce bylo zmapovat softwarové nástroje pro vytěžování a extrakci znalostí z dat. Vybral jsem několik, dle mého názoru nejpoužívanějších jak komerčních tak také open-source projektů. Každý znich jsem si nainstalovat a zkoušel si vnich experimentovat s možnostmi jejich vizualizací. Pokusil jsem se zběžně popsat jejich funkce a techniky použitelné při vizualizaci. Jejich podrobnější popis a rešerše, by jinak vydaly na další diplomovou práci. Z rešerše softwarových nástrojů jsem vybral několik grafů a vizualizací, které by bylo možno použít pro získávání znalostí, s ohledem na podmínku použití JFreeChartu. Knihovna totiž umožňuje vykreslovat pouze velice jednoduché grafy pomocí bodů, čar a obdélníků do 2D, neumožňuje například zobrazování ve 3D. Grafy umožňují získávat různé informace a znalosti z dat, některé velice užitečné, na druhou stranu některé zase méně použitelné znalosti. Histogram přináší velice užitečné informace o četnostích a rozložení jednotlivých proměnných. Box & Whiskers zase přináší užitečné statistické informace průměr, medián, kvartily, extrémy a odlehlé hodnoty, pro binární výstupní kategorie navíc může přinést informace o separovatelnosti proměnné dle výstupu 0 nebo 1. Průměry naopak nepřináší žádné převratné informace pouze různé průměry, z kterých nelze žádné převratné znalosti získat. Bodové grafy přinášejí užitečné informace o závislostech, trendech a podobností mezi vstupy navzájem a nebo mezi 45

60 46 KAPITOLA 8. SPLNĚNÍ CÍLŮ A ZÁVĚR vstupy a výstupy. Paralelní koordináty zprostředkovávají informace o příspěvcích jednotlivých vstupů na výstupech a také podobnosti mezi jednotlivými vstupnímy vektory. Pro data obsahující velké množství vstupních vektorů může být velice nepřehledný, než se nastavý omezení hodnot na vstupu. Andrewsova křivka přináší informace o rozdílu mezi jednotlivými vstupními vektory, bohužel není moc přehledný pro velké množství dat a jeho vypovídající hodnota je velice malá, protože nebyla implementována možnost změny pořadí jednotlivých proměnných. To má za následek, že největší vliv na tvar křivky má první hodnota, čím je pořadí vetší tím víc se snižuje příspěvek proměnné do křivky. Vektorové transformace přinášejí informace o vstahu 4 proměnných vzájemně mezi sebou. Kohonenova mapa slouží jako klasifikátor a poskytuje klasifikaci jednotlivých výstupů a jejich vstah na základě euklidovské vzdálenosti, jeho vypovídající hodnota je snížena pokud obsahuje pouze jeden spojitý výstup, mapa pak obsahuje pouze jednu barvu a z toho nejsme schopni nic rozumného zjistit. Testování vizualizací odhalilo několik zásadních nedostatků a problémů. Větší velikosti množiny vstupních vektorů má za následek delší dobu vykreslování grafů jako jsou Bodové grafy, Andrewsova křivka, Paralelní koordináty a nebo Vektorové grafy, protože už obsahují velké množství grafických objektů. Rovněž také narůstá velikost exportovaných obrázků do SVG (10MB). Proto také do Andrewsovy křivky, Paralelních koordinátů musela být přidaná restrikce jednoho ze vstupů pomocí minimální a maximální hodnoty, která se bude na jeho příslušné ose vykreslovat. Dalším nedostatkem zjištěným při testování bylo, že pokud data obsahují velký počet vstupů, pak se nevejdou jejich jednotlivé popisky k osám. Pro implementaci exportu do vektorové grafiky jsem použil knihovnu Batik SVG toolkit. Po vyexportovaných obrázků se ale bohužel vyskytly menší komplikace při jejich zobrazování, respektive při zobrazování písma (popisků os). V každém prohlížeči se popisky zobrazují odlišně, liší se rozměry použitého fontu. Pokoušel jsem se experimentovat s parametry fontů při exportu obrázků, ale bohužel se nepodařilo dosáhnout stejného výsledku zobrazení jako u graf. Proto jsou popisky v některých případech nepatrně větší než by měly být a přesahují kam by neměly. To je způsobeno rozdílnou implementací W3C doporučení pro SVG, nebyl jsem schopen určit zda je chyba v Batiku a nebo v prohlížeči, protože každý prohlížeč, který jsem zkoušel (IrfanView, FireFox, Gimp), výsledek zobrazoval odlišně. Doufám, že se mi alespoň částečně podařilo dosáhnout vytyčených cíle. A poskytnout tak uživatelům FAKE GAME, nástroj na vizualizace dat, který mu bude usnadňovat a pomáhat uživatelům při získávání znalostí z dat.

61 Literatura [1] P. Ing. Pavel Kordík. FAKE GAME - The Fully Automated Knowledge Extraction using the Group of Adaptive Models Evolution. PhD thesis, České vysoké učení technické v Praze, Fakulta elektrotechnická, Katedra počítačů, [2] Batik - open-source Java knihovna pro práci s vektorouvou grafikou ve formátu SVG. [3] FAKE GAME - The Fully Automated Knowledge Extraction using the Group of Adaptive Models Evolution. [4] JFreeChart - open-source Java knihovna pro kreslení grafů. [5] Miner3D - komerční software pro vizuální datovou analýzu pro Business Intelligence a vědu. [6] Orange - open-source software pro vytěžování znalostí. [7] SAS - komerční software pro Business Inteligence a prediktivní analýzu. [8] W3C SVG - W3C doporučení formátu škálovatelné vektorové grafiky. s_paradox. [9] SPSS - komerční software pro vytěžování dat, statistické analýzy, podporu rozhodování. [10] StatSoft - STATISTICA Software - komerční software pro vytěžování dat, statistické analýzya kontrolu kvality

62 48 LITERATURA [11] Sumatra TT 2 - open-source systém na předzpracování dat. [12] TANAGRA - open-source software pro vytěžování znalosti určený pro výzkum a vzdělávání. [13] W3C SVG - W3C doporučení formátu škálovatelné vektorové grafiky. [14] Weka 3 - open-source software pro vytěžování dat se strojovým učením v Javě. [15] YALE - RapidMiner.

63 Dodatek A Seznam použitých zkratek FAKE The Fully Automated Knowledge Extraction Plně automatická Extrakce znalostí GAME The Group of Adaptive Models Evolution GMDH Group Method of Data Handling BI Business Intelligence CRISP-DM Cross Industry Standard Process for Data Mining OLAP On-Line Analytical Processing SOM Kohonen s Self-Organizing Maps PCA Principal Components Analysis 49

64 50 DODATEK A. SEZNAM POUŽITÝCH ZKRATEK

65 Dodatek B UML - definice datových tříd Obrázek B.1: Třídy Graf a GrafFrame 51

66 52 DODATEK B. UML - DEFINICE DATOVÝCH TŘÍD Obrázek B.2: Graf a třídy jednotlivých grafů Obrázek B.3: Metody společné pro všechny třídy grafů Obrázek B.4: OptionsPanel (panel voleb) a jednotlivé jeho druhy náležící grafům

67 53 Obrázek B.5: Třídy pro SidePanel (ovládací panel) Obrázek B.6: Třídy Histogram a Means a jejich ovládací panely

68 54 DODATEK B. UML - DEFINICE DATOVÝCH TŘÍD Obrázek B.7: Třída OutputCategory a její ovládací panel Obrázek B.8: Třída BoxAndWhisker a její ovládací panel

69 55 Obrázek B.9: Třídy DependencyIO a DependencyIOReg a jeji ovládací panely Obrázek B.10: Třídy ScatterPlot a ParallelPlot a jejich ovládací panely