Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/29 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 1: Visualizace BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 2/29 Osnova Přednáška 1) Co je znalost 2) Vizualizace dat 3) Druhy dat 4) RapidMiner nástroj pro vytěžování dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 3/29 Znalost Znalost Znalost Moudrost Informace Data
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 4/29 Znalost Znalost Znalost Moudrost Informace Data
Znalost Znalost Zisk Data symboly např: log ze serveru Informace vztahyjsou pochopeny např: relační databáze Znalost vzoryjsou pochopeny např: když počet uživatelů dosáhne 500, server spadne Moudrost principy jsou pochopeny např: vyhněte se IIS Pochopení Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 5/29
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 6/29 Vizualizace Minardův graf Slavná ilustrace (první infografika) Napoleonova katastrofálního tažení do Ruska roku 1812.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 7/29 Epidemie cholery v Londýně 1854 Jedna z prvních map dokumentující epidemii. Snow zjistil, že oběti cholery (tečky) jsou blízko jedné veřejné pumpy na vodu (křížky). Snow vzal tuhle mapu na radnici a na základě ní byla následujícího dne z pumpy odmontována klika. Do té doby umřelo přes 500 lidí.
Vizualizace Diagram příčiny smrti Graf příčiny smrti v průběhu Krymské války. Modře infekce, červeně zranění, černě zbytek. Graf na královnu Viktorii zapůsobil natolik, že autorka, Florence Nightingale, se stala první ženou v Royal Statistical Society. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 8/29
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 9/29 Vizualizace Velmi užitečné ve všech fázích dolování dat: 1. Předzpracování dat o detekce chybějících hodnot o detekce extrémních hodnot o detekce neznormalizovaných hodnot o a mnoha dalších problémů 2. Hledání vzorů Vizualizace 3. Reprezentace dat o Často ta nejlepší reprezentace dat pro klienty o Detekce chyb
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 10/29 Vizualizace Histogram Jaký je ideální počet sloupečků?
Box plot Vizualizace Box plotrozdělí data na čtyři stejně velké části (množstvím dat) medián maximum 75. percentile 25. percentile minimum outlier Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 11/29
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 12/29 Vizualizace Scatter plot Co když mám více dimenzí než dvě?
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 13/29 Vizualizace Parallel Jaký atribut je pro klasifikaci nejlepší?
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 14/29 Vizualizace Ukázka vizualizace
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 15/29 Vizualizace Heat graf turistické destinace http://www.informationisbeautiful.net
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1616/29
Vizualizace Glyfy http://www.ii.uib.no/vis/publications/publication/2009/vids/lie09glyphbased3dvisualization.html Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 17/29
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 18/29 Druhy dat Rozdělení proměnných Poměr Interval Ordinální Nominální
Druhy dat Nominální proměnné Nominální data (z latinského nomen,jméno) jsou položky odlišené jménem. Stát Přiřazené Číslo Rakousko 1 Irsko 2 Chorvatsko 3 Nominální prvky mohou mít přiřazená čísla, ale neznamená to, že Irsko leží vedle Chorvatska.Čísla jen usnadňují ukládání a zpracování. Některé věci tedy nemá smysl pro nominální data dělat. Například měřit průměr. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 19/29
Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 20/29 Binomiální proměnné Nominální atribut, která nabývá jen dvou nominálních hodnot Například hod mincí: Hod Výsledek Přiřazené číslo 1 pana 1 2 orel 0 3 orel 0 4 pana 1
Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 21/29 Ordinální Atribut lze dle něčeho seřadit, ale nezáleží na rozdílu mezi hodnotami Pořadí je často vyjádřeno číslem nebo posloupností jiných symbolů Cyklista Pořadí v Tour de France Lance Armstrong 1 Floyd Landis 2 Roman Kreuziger 3 S ordinálními čísly nelze provádět aritmetické úkony zobrazují jen pořadí
Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 22/29 Interval U intervalu lze měřit rozdílmezi dvěma hodnotami Například rozdíl mezi 100 C a 90 C je týž, jako mezi 90 C a 80 C
Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 23/29 Poměr Poměr má všechny vlastnosti intervalu, navíc ale má jasnou definici nuly. Díky tomu 4 kg je dvakrát více než 2 kg, stejně jako 6 kg je dvakrát více než 3 kg. Veličiny jako hmotnost, délka nebo teplota v K jsou poměrné veličiny. Ale teplota v C již nikoliv, protože 0 C neznamená absenci teploty.
Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 24/29 Srovnání proměnných Můžeme počítat Nominální Ordinální Interval Poměr Rozdělení četností Ano Ano Ano Ano Medián Ne Ano Ano Ano Sčítat a odčítat Ne Ne Ano Ano Průměr, standartní odchylku Ne Ne Ano Ano Podíl Ne Ne Ne Ano Rozdělení ale nemusí být vždy jednoznačné. Například barva. Dle psychologů se jedná o nominální proměnnou. Ale dle fyziků to je podíl, protože barvu lze popsat vlnovou délkou.
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 25/29 Druhy dat Číselné proměnné Mohou být spojité nebo diskrétní Hmotnost # mincí Délka # vajec 12,32 1 250 120,6 12 18,00 1360 10,2 2 6,50 800 13,9 4
RapidMiner Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 26/29 Aktuální žebříček DM nástrojů RapidMiner(345) 37.8% R (272) 29.8% Excel (222) 24.3% KNIME (175) 19.2% Your own code (168) 18.4% Pentaho/Weka (131) 14.3% SAS (110) 12.0% MATLAB (84) 9.2% IBM SPSS Statistics (72) 7.9% Other free tools (67) 7.3% IBM SPSS Modeler (former Clementine) (67) 7.3% Microsoft SQL Server (63) 6.9% Statsoft Statistica (57) 6.2% Other commercial tools (56) 6.1% SAS Enterprise Miner (50) 5.5% Zementis(34) 3.7% Orange (25) 2.7%
RapidMiner Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 27/29 RapidMiner První opensource pro datamining (1996) Přes 100 algoritmů Svazující architektura, data se obvykle musí vejít celé do paměti Také opensource Umí všechno, co Weka, plus něco navíc Umí zpracovávat data on the fly Taky napsán v Javě, ale je stabilní
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 28/29 RapidMiner Porovnání popularity
Úkol Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 29/29 Úkol na cvičení Stáhněte si a nainstalujte RapidMiner z http://sourceforge.net/projects/rapidminer