Vytěžování znalostí z dat
|
|
- Robert Mach
- před 6 lety
- Počet zobrazení:
Transkript
1 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/29 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 1: Visualizace BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
2 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 2/29 Osnova Přednáška 1) Co je znalost 2) Vizualizace dat 3) Druhy dat 4) RapidMiner nástroj pro vytěžování dat
3 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 3/29 Znalost Znalost Znalost Moudrost Informace Data
4 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 4/29 Znalost Znalost Znalost Moudrost Informace Data
5 Znalost Znalost Zisk Data symboly např: log ze serveru Informace vztahyjsou pochopeny např: relační databáze Znalost vzoryjsou pochopeny např: když počet uživatelů dosáhne 500, server spadne Moudrost principy jsou pochopeny např: vyhněte se IIS Pochopení Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 5/29
6 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 6/29 Vizualizace Minardův graf Slavná ilustrace (první infografika) Napoleonova katastrofálního tažení do Ruska roku 1812.
7 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 7/29 Epidemie cholery v Londýně 1854 Jedna z prvních map dokumentující epidemii. Snow zjistil, že oběti cholery (tečky) jsou blízko jedné veřejné pumpy na vodu (křížky). Snow vzal tuhle mapu na radnici a na základě ní byla následujícího dne z pumpy odmontována klika. Do té doby umřelo přes 500 lidí.
8 Vizualizace Diagram příčiny smrti Graf příčiny smrti v průběhu Krymské války. Modře infekce, červeně zranění, černě zbytek. Graf na královnu Viktorii zapůsobil natolik, že autorka, Florence Nightingale, se stala první ženou v Royal Statistical Society. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 8/29
9 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 9/29 Vizualizace Velmi užitečné ve všech fázích dolování dat: 1. Předzpracování dat o detekce chybějících hodnot o detekce extrémních hodnot o detekce neznormalizovaných hodnot o a mnoha dalších problémů 2. Hledání vzorů Vizualizace 3. Reprezentace dat o Často ta nejlepší reprezentace dat pro klienty o Detekce chyb
10 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 10/29 Vizualizace Histogram Jaký je ideální počet sloupečků?
11 Box plot Vizualizace Box plotrozdělí data na čtyři stejně velké části (množstvím dat) medián maximum 75. percentile 25. percentile minimum outlier Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 11/29
12 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 12/29 Vizualizace Scatter plot Co když mám více dimenzí než dvě?
13 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 13/29 Vizualizace Parallel Jaký atribut je pro klasifikaci nejlepší?
14 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 14/29 Vizualizace Ukázka vizualizace
15 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 15/29 Vizualizace Heat graf turistické destinace
16 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška /29
17 Vizualizace Glyfy Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 17/29
18 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 18/29 Druhy dat Rozdělení proměnných Poměr Interval Ordinální Nominální
19 Druhy dat Nominální proměnné Nominální data (z latinského nomen,jméno) jsou položky odlišené jménem. Stát Přiřazené Číslo Rakousko 1 Irsko 2 Chorvatsko 3 Nominální prvky mohou mít přiřazená čísla, ale neznamená to, že Irsko leží vedle Chorvatska.Čísla jen usnadňují ukládání a zpracování. Některé věci tedy nemá smysl pro nominální data dělat. Například měřit průměr. Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 19/29
20 Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 20/29 Binomiální proměnné Nominální atribut, která nabývá jen dvou nominálních hodnot Například hod mincí: Hod Výsledek Přiřazené číslo 1 pana 1 2 orel 0 3 orel 0 4 pana 1
21 Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 21/29 Ordinální Atribut lze dle něčeho seřadit, ale nezáleží na rozdílu mezi hodnotami Pořadí je často vyjádřeno číslem nebo posloupností jiných symbolů Cyklista Pořadí v Tour de France Lance Armstrong 1 Floyd Landis 2 Roman Kreuziger 3 S ordinálními čísly nelze provádět aritmetické úkony zobrazují jen pořadí
22 Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 22/29 Interval U intervalu lze měřit rozdílmezi dvěma hodnotami Například rozdíl mezi 100 C a 90 C je týž, jako mezi 90 C a 80 C
23 Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 23/29 Poměr Poměr má všechny vlastnosti intervalu, navíc ale má jasnou definici nuly. Díky tomu 4 kg je dvakrát více než 2 kg, stejně jako 6 kg je dvakrát více než 3 kg. Veličiny jako hmotnost, délka nebo teplota v K jsou poměrné veličiny. Ale teplota v C již nikoliv, protože 0 C neznamená absenci teploty.
24 Druhy dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 24/29 Srovnání proměnných Můžeme počítat Nominální Ordinální Interval Poměr Rozdělení četností Ano Ano Ano Ano Medián Ne Ano Ano Ano Sčítat a odčítat Ne Ne Ano Ano Průměr, standartní odchylku Ne Ne Ano Ano Podíl Ne Ne Ne Ano Rozdělení ale nemusí být vždy jednoznačné. Například barva. Dle psychologů se jedná o nominální proměnnou. Ale dle fyziků to je podíl, protože barvu lze popsat vlnovou délkou.
25 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 25/29 Druhy dat Číselné proměnné Mohou být spojité nebo diskrétní Hmotnost # mincí Délka # vajec 12, , , ,2 2 6, ,9 4
26 RapidMiner Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 26/29 Aktuální žebříček DM nástrojů RapidMiner(345) 37.8% R (272) 29.8% Excel (222) 24.3% KNIME (175) 19.2% Your own code (168) 18.4% Pentaho/Weka (131) 14.3% SAS (110) 12.0% MATLAB (84) 9.2% IBM SPSS Statistics (72) 7.9% Other free tools (67) 7.3% IBM SPSS Modeler (former Clementine) (67) 7.3% Microsoft SQL Server (63) 6.9% Statsoft Statistica (57) 6.2% Other commercial tools (56) 6.1% SAS Enterprise Miner (50) 5.5% Zementis(34) 3.7% Orange (25) 2.7%
27 RapidMiner Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 27/29 RapidMiner První opensource pro datamining (1996) Přes 100 algoritmů Svazující architektura, data se obvykle musí vejít celé do paměti Také opensource Umí všechno, co Weka, plus něco navíc Umí zpracovávat data on the fly Taky napsán v Javě, ale je stabilní
28 Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 28/29 RapidMiner Porovnání popularity
29 Úkol Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 29/29 Úkol na cvičení Stáhněte si a nainstalujte RapidMiner z
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 1 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 9 1/16 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 1: Visualizace MI-PDD, 09/2011 MI-POA Evropský sociální fond
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 1/21 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 1/23 Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Vytěžování znalostí z dat
Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 1/10 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
1. cvičení 4ST201. Základní informace: Vyučující: Obsah: Informace o kurzu Popisná statistika Úvod do SASu
cvičící 1. cvičení 4ST201 Informace o kurzu Popisná statistika Úvod do SASu Obsah: Vysoká škola ekonomická 1 Vyučující: Základní informace:» Konzultační hodiny: pátek 9:00 11:00» Místnost: JM317» Email:
Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!
Statistika aneb známe tři druhy lži: úmyslná neúmyslná statistika Statistika je metoda, jak vyjádřit nejistá data s přesností na setinu procenta. den..00..00 3..00..00..00..00..00..00..00..00..00..00 3..00..00..00..00..00..00..00
Základy pravděpodobnosti a statistiky. Popisná statistika
Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace v úterý 14.10 až 15.40 hod. Příklad ze života Cimrman, Smoljak/Svěrák,
Aplikovaná statistika v R
Aplikovaná statistika v R Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 15.5.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 15.5.2014 1 / 15 Co bude náplní našich
Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability
I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry
Analýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 1. Úvod, základní pojmy Mgr. David Fiedor 16. února 2015 Osnova 1 Úvod - organizace výuky 2 3 Struktura přednášek Úvod, základní pojmy Popisná statistika Teoretická rozdělení
Dobývání znalostí z databází
Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining,..., Knowledge Destilery,...) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 1/14 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ
PSY117/454 Statistická analýza dat v psychologii Přednáška 2 ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ Je snadné lhát s pomocí statistiky. Je těžké říkat pravdu bez ní. Andrejs Dunkels; wikiquote Jaké hodnoty máme
Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních
IBM SPSS Decision Trees
IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích
Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?
Organizační pokyny k přednášce Matematická statistika 2012 2013 Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta UK hudecova@karlin.mff.cuni.cz http://www.karlin.mff.cuni.cz/
Popisná statistika. Statistika pro sociology
Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky
Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011
Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,
Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika
Statistika Cvičení z matematické statistiky na PřF Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy léto 2012 Základní dělení popisná (deskriptivní)
Diskrétní náhodná veličina. November 12, 2008
Diskrétní náhodná veličina November 12, 2008 (Náhodná veličina (náhodná proměnná)) Náhodná veličina (nebo též náhodná proměnná) je veličina X, jejíž hodnota je jednoznačně určena výsledkem náhodného pokusu.
Dolování asociačních pravidel
Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních
Nejčastější chyby v explorační analýze
Nejčastější chyby v explorační analýze Obecně doporučuju přečíst přednášku 5: Výběrová šetření, Exploratorní analýza http://homel.vsb.cz/~lit40/sta1/materialy/io.pptx Použití nesprávných charakteristik
Základy teorie pravděpodobnosti
Základy teorie pravděpodobnosti Náhodná veličina Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Základy teorie
Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku
Obsah Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v
Metodologie pro Informační studia a knihovnictví 2
Metodologie pro Informační studia a knihovnictví 2 Modul 4: Kódování a rekódování. Deskriptivní statistika popis dat I Co se dozvíte v tomto modulu? Co zjišťujeme u nominálních proměnných? Co zjišťujeme
Základy popisné statistiky
Základy popisné statistiky V této kapitole se seznámíme se základy popisné statistiky, představíme si základní pojmy a budeme si je ilustrovat na praktických příkladech. Kapitola je psána formou volného
Metodologie pro Informační studia a knihovnictví 2
Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis nekategorizovaných dat Co se dozvíte v tomto modulu? Kdy používat modus, průměr a medián. Co je to směrodatná odchylka. Jak popsat distribuci
Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map
Vytěžování dat 6: Self Organizing Map Michael Anděl Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 10 Slef Organizing Map SOM Toolbox V dnešním cvičení
marek.pomp@vsb.cz http://homel.vsb.cz/~pom68
Statistika B (151-0303) Marek Pomp ZS 2014 marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Cvičení: Pavlína Kuráňová & Marek Pomp Podmínky pro úspěšné ukončení zápočet 45 bodů, min. 23 bodů, dvě zápočtové
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická
Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu
Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech
Statistika I (KMI/PSTAT)
Statistika I (KMI/PSTAT) Cvičení první aneb Sumační symbolika, úvod do popisné statistiky Statistika I (KMI/PSTAT) 1 / 15 Obsah hodiny Po dnešní hodině byste měli být schopni: správně používat sumační
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení ze 4ST201. Na případné faktické chyby v této prezentaci mě prosím upozorněte. Děkuji Tyto slidy berte pouze jako doplňkový materiál není v nich obsaženo
Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,
Vytěžování znalostí z dat
Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 1/31 Vytěžování znalostí z dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical
Metodologie pro Informační studia a knihovnictví 2
Metodologie pro Informační studia a knihovnictví 2 Modul V: Nekategorizovaná data Metodologie pro ISK 2, jaro 2014. Ladislava Z. Suchá Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis
Získávání znalostí z dat
Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace
Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru
Vytěžování dat, cvičení 2: Úvod do RapidMineru Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 23 Úvod do RapidMineru Dnes vám ukážeme jeden z mnoha
Kontingenční tabulky v Excelu. Představení programu Statistica
ASTAc/01 Biostatistika 2. cvičení Kontingenční tabulky v Excelu Základní popisné statistiky Představení programu Statistica Import a základní popis dat ve Statistice, M. Cvanová I. Kontingenční tabulky
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 6 1/25 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
Deskriptivní statistika (kategorizované proměnné)
Deskriptivní statistika (kategorizované proměnné) Nejprve malé opakování: - Deskriptivní statistika se zabývá popisem dat, jejich sumarizaci a prezentací. - Kategorizované proměnné jsou všechny proměnné,
Číselné charakteristiky
. Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch
STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE
STATISTIKA 1 Adam Čabla Katedra statistiky a pravděpodobnosti VŠE KONTAKTY WWW: sites.google.com/site/adamcabla E-mail: adam.cabla@vse.cz Telefon: 777 701 783 NB367 na VŠE, konzultační hodiny: Pondělí
Popisná statistika kvantitativní veličiny
StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali
GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic
GRR získávání znalostí v geografických datech Autoři Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR cílet 2 GRR - Popis systému - cíle systém pro dolování
Získávání dat z databází 1 DMINA 2010
Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou
Úvod do kurzu. Moodle kurz. (a) https://dl1.cuni.cz/course/view.php?id=2022 (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost
Úvod do kurzu Moodle kurz (a) https://dl1.cuni.cz/course/view.php?id=2022 (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost Výpočty online: www.statisticsonweb.tf.czu.cz Začátek výuky posunut
Návrh a vyhodnocení experimentu
Návrh a vyhodnocení experimentu Návrh a vyhodnocení experimentů v procesech vývoje a řízení kvality vozidel Ing. Bohumil Kovář, Ph.D. FD ČVUT Ústav aplikované matematiky kovar@utia.cas.cz Mladá Boleslav
Metodologie pro ISK II
Metodologie pro ISK II Všechny hodnoty z daného intervalu Zjišťujeme: Centrální míry Variabilitu Šikmost, špičatost Percentily (decily, kvantily ) Zobrazení: histogram MODUS je hodnota, která se v datech
Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava
Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava ŠKOMAM 2016 Jak získat data? Primární zdroje dat Vlastní měření (fyzika, biologie,
Statistika I (KMI/PSTAT)
Statistika I (KMI/PSTAT) Cvičení druhé aneb Kvantily, distribuční funkce Statistika I (KMI/PSTAT) 1 / 1 Co se dnes naučíme Po absolvování této hodiny byste měli být schopni: rozumět pojmu modus (modální
Škály podle informace v datech:
Škály podle informace v datech: Různé typy dat znamenají různou informaci, resp. různé množství informace Data nominální Rovná se? x 1 = x 2 Data ordinální Větší, menší? x 1 < x 2 Data intervalová O kolik?
Návrh a vyhodnocení experimentu
Návrh a vyhodnocení experimentu Návrh a vyhodnocení experimentů v procesech vývoje a řízení kvality vozidel Ing. Bohumil Kovář, Ph.D. FD ČVUT Ústav aplikované matematiky kovar@utia.cas.cz Mladá Boleslav
PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.
PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT Všichni žijeme v matrixu. V minulých dílech jsme viděli/y: Frekvence = četnosti Procenta =
Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 1/29 Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
2. Statistická terminologie a vyjadřovací prostředky. 2.1. Statistická terminologie. Statistická jednotka
2. Statistická terminologie a vyjadřovací prostředky 2.1. Statistická terminologie Statistická jednotka Statistická jednotka = nositel statistické informace, elementární prvek hromadného jevu. Příklady:
Popisná statistika - úvod
Popisná statistika - úvod 1 Popisná statistika - úvod zjišťuje (získává) a poskytuje číselné i slovní údaje (informace); o jevech hromadné povahy; v oblasti ekonomiky a společnosti. Zcela obecně pak při
Popisná statistika. Jaroslav MAREK. Univerzita Palackého
Popisná statistika Jaroslav MAREK Univerzita Palackého Přírodovědecká fakulta Katedra matematické analýzy a aplikací matematiky Tomkova 40, 779 00 Olomouc Hejčín tel. 585634606 marek@inf.upol.cz pondělí
Deskriptivní statistika (kategorizované proměnné)
Deskriptivní statistika (kategorizované proměnné) Nejprve malé opakování: - Deskriptivní statistika se zabývá popisem dat, jejich sumarizaci a prezentací. - Kategorizované proměnné jsou všechny proměnné,
5EN306 Aplikované kvantitativní metody I
5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam
Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9
Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................
5EN306 Aplikované kvantitativní metody I
5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam
Třídění statistických dat
2.1 Třídění statistických dat Všechny muže ve městě rozdělíme na 2 skupiny: A) muži, kteří chodí k holiči B) muži, kteří se holí sami Do které skupiny zařadíme holiče? prof. Raymond M. Smullyan, Dr. Math.
veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.
Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z
Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 29. října 2018 Statistika Statistika Statistika je jako bikini. Co odhaluje, je zajímavé, co skrývá, je podstatné. Aaron Levenstein Statistika Statistika
Jak v Javě primitivní datové typy a jejich reprezentace. BD6B36PJV 002 Fakulta elektrotechnická České vysoké učení technické
Jak v Javě primitivní datové typy a jejich reprezentace BD6B36PJV 002 Fakulta elektrotechnická České vysoké učení technické Obsah Celočíselný datový typ Reálný datový typ Logický datový typ, typ Boolean
STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení. + odevzdání seminární práce (úkoly na PC)
STATISTIKA 1 RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení + odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců) KONZULTACE Není hanba, že nevíš, ale že se neptáš.
TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT
EXPLORAČNÍ ANALÝZA DAT TEST Z TEORIE 1. Test ze Statistiky píše velké množství studentů. Představte si, že každý z nich odpoví správně přesně na polovinu otázek. V tomto případě bude směrodatná odchylka
Soubory. Hung Hoang Dieu. Department of Mathematics Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 7
Hung Hoang Dieu Department of Mathematics Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 7 Co je to soubor? Soubor je kus diskového prostoru, vyhrazeného
ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 2. POPISNÉ STATISTIKY Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz CO SE SKRÝVÁ V DATECH data sbíráme proto, abychom porozuměli
Zimní semestr akademického roku 2015/ ledna 2016
Cvičení k předmětu BI-ZMA Tomáš Kalvoda Katedra aplikované matematiky FIT ČVUT Matěj Tušek Katedra matematiky FJFI ČVUT Zimní semestr akademického roku 015/016 5. ledna 016 Obsah Cvičení Předmluva iii
Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu
Metoda Monte Carlo a její aplikace v problematice oceňování technologií Manuál k programu This software was created under the state subsidy of the Czech Republic within the research and development project
Profitabilita klienta v kontextu Performance management
IBM Technical specialist team Pre Sale 26/10/2010 Profitabilita klienta v kontextu Performance management Co všechno řadíme do PM? Automatická data Běžný reporting Pokročilé statistické modely Včera What
Zadání semestrální práce IKTZ 2 letní semestr 2009/2010
Zadání semestrální práce IKTZ 2 letní semestr 2009/2010 Obecné zadání Dle zadání zpracujte data ze studie STULONG (soubory Entry a Contr). Práce je rozdělena do tří částí, které se řeší odděleně. Výstupem
MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL
MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL Matematika a stejně i matematická statistika a biometrie s námi hovoří řečí čísel. Musíme tedy vlastnosti nebo intenzitu vlastností jedinců změřit kvantifikovat. Měřením
Zaměření Webové inženýrství doc. Ing. Tomáš Vitvar, Ph.D. Katedra softwarového inženýrství Fakulta informačních technologií České vysovké učení technické v Praze Den otevřených dveří 20.2.2014 http://www.fit.cvut.cz
Statistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
Přednáška 5. Výběrová šetření, Exploratorní analýza
Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika aneb jak popsat výběrový soubor Typy proměnných
mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.
Popisná statistika Slovní popis problému Naším cílem v této úloze bude stručně a přehledně charakterizovat rozsáhlý soubor dat - v našem případě počty bodů z prvního a druhého zápočtového testu z matematiky.
VYUŽITÍ MATLAB WEB SERVERU PRO INTERNETOVOU VÝUKU ANALÝZY DAT A ŘÍZENÍ JAKOSTI
VYUŽITÍ MATLAB WEB SERVERU PRO INTERNETOVOU VÝUKU ANALÝZY DAT A ŘÍZENÍ JAKOSTI Aleš Linka 1, Petr Volf 2 1 Katedra textilních materiálů, FT TUL, 2 Katedra aplikované matematiky, FP TUL ABSTRAKT. Internetové
7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
Renáta Bednárová STATISTIKA PRO EKONOMY
Renáta Bednárová STATISTIKA PRO EKONOMY ZÁKLADNÍ STATISTICKÉ POJMY Statistika Statistický soubor Statistická jednotky Statistický znak STATISTIKA Vědní obor, který se zabývá hromadnými jevy Hromadné jevy
Tabulka 1. Výběr z datové tabulky
1. Zadání domácího úkolu Vyberte si datový soubor obsahující alespoň jednu kvalitativní a jednu kvantitativní proměnnou s alespoň 30 statistickými jednotkami (alespoň 30 jednotlivých údajů). Zdroje dat
Základy popisné statistiky
Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2
Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011
Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe
Matematika pro geometrickou morfometrii
Matematika pro geometrickou morfometrii Václav Krajíček Vaclav.Krajicek@mff.cuni.cz Department of Software and Computer Science Education Faculty of Mathematics and Physics Charles University Přednáška