Vytěžování znalostí z dat

Podobné dokumenty
Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

1. cvičení 4ST201. Základní informace: Vyučující: Obsah: Informace o kurzu Popisná statistika Úvod do SASu

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Základy pravděpodobnosti a statistiky. Popisná statistika

Aplikovaná statistika v R

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Analýza dat na PC I.

KGG/STG Statistika pro geografy

Dobývání znalostí z databází

Vytěžování znalostí z dat

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

IBM SPSS Decision Trees

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Popisná statistika. Statistika pro sociology

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Diskrétní náhodná veličina. November 12, 2008

Dolování asociačních pravidel

Nejčastější chyby v explorační analýze

Základy teorie pravděpodobnosti

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Metodologie pro Informační studia a knihovnictví 2

Základy popisné statistiky

Metodologie pro Informační studia a knihovnictví 2

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map


Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Statistika I (KMI/PSTAT)

Tomáš Karel LS 2012/2013

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Vytěžování znalostí z dat

Metodologie pro Informační studia a knihovnictví 2

Získávání znalostí z dat

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

Kontingenční tabulky v Excelu. Představení programu Statistica

Vytěžování znalostí z dat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Deskriptivní statistika (kategorizované proměnné)

Číselné charakteristiky

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Popisná statistika kvantitativní veličiny

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Získávání dat z databází 1 DMINA 2010

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Návrh a vyhodnocení experimentu

Metodologie pro ISK II

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Statistika I (KMI/PSTAT)

Škály podle informace v datech:

Návrh a vyhodnocení experimentu

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

2. Statistická terminologie a vyjadřovací prostředky Statistická terminologie. Statistická jednotka

Popisná statistika - úvod

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Deskriptivní statistika (kategorizované proměnné)

5EN306 Aplikované kvantitativní metody I

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

5EN306 Aplikované kvantitativní metody I

Třídění statistických dat

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Jak v Javě primitivní datové typy a jejich reprezentace. BD6B36PJV 002 Fakulta elektrotechnická České vysoké učení technické

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení. + odevzdání seminární práce (úkoly na PC)

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Soubory. Hung Hoang Dieu. Department of Mathematics Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 7

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Zimní semestr akademického roku 2015/ ledna 2016

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

Profitabilita klienta v kontextu Performance management

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL


Statistika pro geografy

Přednáška 5. Výběrová šetření, Exploratorní analýza

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

VYUŽITÍ MATLAB WEB SERVERU PRO INTERNETOVOU VÝUKU ANALÝZY DAT A ŘÍZENÍ JAKOSTI

7. Rozdělení pravděpodobnosti ve statistice

Renáta Bednárová STATISTIKA PRO EKONOMY

Tabulka 1. Výběr z datové tabulky

Základy popisné statistiky

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Matematika pro geometrickou morfometrii

Transkript:

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/29 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 1: Visualizace BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 2/29 Osnova Přednáška 1) Co je znalost 2) Vizualizace dat 3) Druhy dat 4) RapidMiner nástroj pro vytěžování dat

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 3/29 Znalost Znalost Znalost Moudrost Informace Data

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 4/29 Znalost Znalost Znalost Moudrost Informace Data

Znalost Znalost Zisk Data symboly např: log ze serveru Informace vztahyjsou pochopeny např: relační databáze Znalost vzoryjsou pochopeny např: když počet uživatelů dosáhne 500, server spadne Moudrost principy jsou pochopeny např: vyhněte se IIS Pochopení Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 5/29

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 6/29 Vizualizace Minardův graf Slavná ilustrace (první infografika) Napoleonova katastrofálního tažení do Ruska roku 1812.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 7/29 Epidemie cholery v Londýně 1854 Jedna z prvních map dokumentující epidemii. Snow zjistil, že oběti cholery (tečky) jsou blízko jedné veřejné pumpy na vodu (křížky). Snow vzal tuhle mapu na radnici a na základě ní byla následujícího dne z pumpy odmontována klika. Do té doby umřelo přes 500 lidí.

Vizualizace Diagram příčiny smrti Graf příčiny smrti v průběhu Krymské války. Modře infekce, červeně zranění, černě zbytek. Graf na královnu Viktorii zapůsobil natolik, že autorka, Florence Nightingale, se stala první ženou v Royal Statistical Society. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 8/29

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 9/29 Vizualizace Velmi užitečné ve všech fázích dolování dat: 1. Předzpracování dat o detekce chybějících hodnot o detekce extrémních hodnot o detekce neznormalizovaných hodnot o a mnoha dalších problémů 2. Hledání vzorů Vizualizace 3. Reprezentace dat o Často ta nejlepší reprezentace dat pro klienty o Detekce chyb

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 10/29 Vizualizace Histogram Jaký je ideální počet sloupečků?

Box plot Vizualizace Box plotrozdělí data na čtyři stejně velké části (množstvím dat) medián maximum 75. percentile 25. percentile minimum outlier Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 11/29

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 12/29 Vizualizace Scatter plot Co když mám více dimenzí než dvě?

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 13/29 Vizualizace Parallel Jaký atribut je pro klasifikaci nejlepší?

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 14/29 Vizualizace Ukázka vizualizace

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 15/29 Vizualizace Heat graf turistické destinace http://www.informationisbeautiful.net

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1616/29

Vizualizace Glyfy http://www.ii.uib.no/vis/publications/publication/2009/vids/lie09glyphbased3dvisualization.html Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 17/29

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 18/29 Druhy dat Rozdělení proměnných Poměr Interval Ordinální Nominální

Druhy dat Nominální proměnné Nominální data (z latinského nomen,jméno) jsou položky odlišené jménem. Stát Přiřazené Číslo Rakousko 1 Irsko 2 Chorvatsko 3 Nominální prvky mohou mít přiřazená čísla, ale neznamená to, že Irsko leží vedle Chorvatska.Čísla jen usnadňují ukládání a zpracování. Některé věci tedy nemá smysl pro nominální data dělat. Například měřit průměr. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 19/29

Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 20/29 Binomiální proměnné Nominální atribut, která nabývá jen dvou nominálních hodnot Například hod mincí: Hod Výsledek Přiřazené číslo 1 pana 1 2 orel 0 3 orel 0 4 pana 1

Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 21/29 Ordinální Atribut lze dle něčeho seřadit, ale nezáleží na rozdílu mezi hodnotami Pořadí je často vyjádřeno číslem nebo posloupností jiných symbolů Cyklista Pořadí v Tour de France Lance Armstrong 1 Floyd Landis 2 Roman Kreuziger 3 S ordinálními čísly nelze provádět aritmetické úkony zobrazují jen pořadí

Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 22/29 Interval U intervalu lze měřit rozdílmezi dvěma hodnotami Například rozdíl mezi 100 C a 90 C je týž, jako mezi 90 C a 80 C

Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 23/29 Poměr Poměr má všechny vlastnosti intervalu, navíc ale má jasnou definici nuly. Díky tomu 4 kg je dvakrát více než 2 kg, stejně jako 6 kg je dvakrát více než 3 kg. Veličiny jako hmotnost, délka nebo teplota v K jsou poměrné veličiny. Ale teplota v C již nikoliv, protože 0 C neznamená absenci teploty.

Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 24/29 Srovnání proměnných Můžeme počítat Nominální Ordinální Interval Poměr Rozdělení četností Ano Ano Ano Ano Medián Ne Ano Ano Ano Sčítat a odčítat Ne Ne Ano Ano Průměr, standartní odchylku Ne Ne Ano Ano Podíl Ne Ne Ne Ano Rozdělení ale nemusí být vždy jednoznačné. Například barva. Dle psychologů se jedná o nominální proměnnou. Ale dle fyziků to je podíl, protože barvu lze popsat vlnovou délkou.

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 25/29 Druhy dat Číselné proměnné Mohou být spojité nebo diskrétní Hmotnost # mincí Délka # vajec 12,32 1 250 120,6 12 18,00 1360 10,2 2 6,50 800 13,9 4

RapidMiner Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 26/29 Aktuální žebříček DM nástrojů RapidMiner(345) 37.8% R (272) 29.8% Excel (222) 24.3% KNIME (175) 19.2% Your own code (168) 18.4% Pentaho/Weka (131) 14.3% SAS (110) 12.0% MATLAB (84) 9.2% IBM SPSS Statistics (72) 7.9% Other free tools (67) 7.3% IBM SPSS Modeler (former Clementine) (67) 7.3% Microsoft SQL Server (63) 6.9% Statsoft Statistica (57) 6.2% Other commercial tools (56) 6.1% SAS Enterprise Miner (50) 5.5% Zementis(34) 3.7% Orange (25) 2.7%

RapidMiner Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 27/29 RapidMiner První opensource pro datamining (1996) Přes 100 algoritmů Svazující architektura, data se obvykle musí vejít celé do paměti Také opensource Umí všechno, co Weka, plus něco navíc Umí zpracovávat data on the fly Taky napsán v Javě, ale je stabilní

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 28/29 RapidMiner Porovnání popularity

Úkol Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 29/29 Úkol na cvičení Stáhněte si a nainstalujte RapidMiner z http://sourceforge.net/projects/rapidminer