Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Podobné dokumenty
Předzpracování dat. Cvičení 2: Import a příprava dat v Matlabu MI-PDD, 09/2011. Pavel Kordík MI-POA

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Přednáška 2: Model, hodnocení modelu, metoda K nejbližších sousedů

Vytěžování znalostí z dat

Vytěžování znalostí z dat

INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

1 Základní funkce pro zpracování obrazových dat

Vytěžování znalostí z dat

Nejčastější chyby v explorační analýze

Analýza dat na PC I.

Úvod do Matlabu. Praha & EU: Investujeme do vaší budoucnosti. 1 / 24 Úvod do Matlabu

Vytěžování znalostí z dat

NPGR032 Cv úvod

% vyhledání prvku s max. velikostí v jednotlivých sloupcích matice X

Martin Flusser. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague. October 17, 2016

Vytěžování znalostí z dat

Základy pravděpodobnosti a statistiky. Popisná statistika

Pracovní text a úkoly ke cvičením MF002

Velmi stručný návod jak dostat data z Terminálu Bloomberg do R

1. cvičení 4ST201. Základní informace: Vyučující: Obsah: Informace o kurzu Popisná statistika Úvod do SASu

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Návod pro práci s SPSS

Kreslení grafů v Matlabu

Příklady k prvnímu testu - Matlab

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Příklady k druhému testu - Matlab

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Nadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech.

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

KMS cvičení 9. Ondřej Marek

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Základy vytěžování dat

SEMESTRÁLNÍ PRÁCE STATISTIKA

Tabulka 1. Výběr z datové tabulky

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica


Třídění statistických dat

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Metodologie pro Informační studia a knihovnictví 2

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

BPC2E_C08 Parametrické 3D grafy v Matlabu

Škály podle informace v datech:

1. Kategoriální proměnná nominální: (Tabulka a graf četností) Př.: sloupec (PokudanoJakčasto) -> Analyze -> Descriptive statistics -> Frequencies

Stručný návod k programu Octave

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

- transpozice (odlišuje se od překlopení pro komplexní čísla) - překlopení matice pole podle hlavní diagonály, např.: A.' ans =

Níže uvedená tabulka obsahuje technické údaje a omezení aplikace Excel (viz také článek Technické údaje a omezení aplikace Excel (2007).

Cvičení 1,2 Osnova studie strategie ICT

Dolování asociačních pravidel

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Základní popisné statistiky a grafy

Pojem a úkoly statistiky

Systém je citlivý na velikost písmen CASE SENSITIVE rozeznává malá velká písmena, např. PROM=1; PROm=1; PRom=1; Prom=1; prom=1; - 5 různých proměnných

pi Ludolfovo číslo π = 3,14159 e Eulerovo číslo e = 2,71828 (lze spočítat jako exp(1)), např. je v Octave, v MATLABu tato konstanta e není

Struktury a dynamická paměť

Faktorová analýza příklad. Obrázek 1 Ukázka části vstupních dat

Předmluva 9 Obsah knihy 9 Typografické konvence 10 Informace o autorovi 10 Poděkování 10

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Tvorba grafů v programu ORIGIN

Cvičení z biostatistiky 06

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Programy pro ˇreˇsen ı ulohy line arn ıho programov an ı 18. dubna 2011

Textové popisky. Typ dat

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD

Úloha: Verifikace osoby pomocí dynamického podpisu

Metodologie pro ISK II

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Martin Flusser. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague. December 7, 2016

téma: Parametrické a křížové dotazy v MS Access

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Martin Flusser. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague. October 23, 2016

Popisná statistika. Komentované řešení pomocí programu R. Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Základní popisné statistiky a grafy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STP097 STATISTIKA CVIČENÍ EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY

1 Jasové transformace

Funkce Cell, Neighborhood and Zonal Statistic

Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného)

NADSTAVBOVÝ MODUL MOHSA V1

Martin Flusser. December 15, 2016

Rastrové digitální modely terénu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

X37SGS Signály a systémy

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Transkript:

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 1/23 Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 3: Visualizace v Matlabu MI-PDD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Načtení dat-matice UCI repository -databáze automobilů moodle auta_mat = csvread('auto-numbers-only.csv'); Načte data jako matici data nesmí obsahovat chybějící hodnoty a nominální hodnoty Všechny atributy numerické Soubor neobsahuje jména atributů Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 2/23

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 3/23 Normalizace dat v1 (matice) Matice po sloupcích vytvořte následující soubory: Obsah souboru norm01v1.m function data = norm01v1(data) for i = 1:size(data,2), data(:,i) = minmax(data(:,i)); end end Obsah souboru minmax.m function vec = minmax(vec) vec = (vec - min(vec)) / (max(vec) - min(vec)); end Úkol: použijte funkci norm01v1 na auta_mat

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 4/23 Načtení dat -dataset stáhnout dataset auto-mpg.data-mod objekt dataset ze Statistics Toolboxu auta_dat = dataset('file','auto-mpg.data-mod-names.csv',... 'ReadVarNames', false,... 'ReadObsNames', false,... 'delimiter', ','); Načte data ve formě datasetu Může obsahovat jména atributů ('ReadVarNames') Může obsahovat chybějící hodnoty ('TreatAsEmpty') Může obsahovat nominální data Atributy lze dodatečně pojmenovat auta_dat(1:5, :)

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 5/23 Atributy a pojmenování dat Atributy: mpg: miles-per-galon, počet mil ujetých na 1 galon paliva cyl: cylinders, počet válců disp: displacement, zdiv hp: horsepower, koňských sil wgt: weight, hmotnost acc: acceleration, zrychlení year: rok výroby org: origin, původ (1 -Amerika, 2 -Evropa, 3 -Japonsko) pojmenování atributů datasetu auta_dat = set(auta_dat,... 'VarNames', {'mpg', 'cyl', 'disp', 'hp',... 'wgt', 'acc', 'year', 'org', 'name'}); auta_dat(1:5, :)

Převody, souhrn Převedení proměnné org na nominální (1 - Amerika, 2 - Evropa, 3 - Japonsko) tmporg = nominal(auta_dat.org, {'America','Europe','Japan'}); auta_dat = replacedata(auta_dat, tmporg, 'org'); auta(1:5,:) Převod dat z datasetu do numerické matice (jen u numerických, ordinálních a nominálních proměnných; zde např. nelze převést proměnnou name) double(auta_dat(:,1:8)) Počáteční průzkum dat summary(auta_dat) Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 6/23

Normalizace dat v2 (dataset) funkce minmax pro jeden vektor (soubor minmax.m) function x01 = minmax(x) x01 = (x - min(x)) / (max(x) - min(x)); end aplikace na sloupce 1-7 datové sady auta01 = auta_dat; x01 = datasetfun( @minmax, auta01(:,1:7),... 'UniformOutput', false ); x01 = [x01{:}]; % Převod cell array na matici auta01 = replacedata( auta01, x01, 1:7); mins = datasetfun( @min, auta01(:,1:7) ) maxs = datasetfun( @max, auta01(:,1:7) ) Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 7/23

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 8/23 Histogram V případě maticových datzaměňte auta_mat(:,8) za auta_dat.org Četnost bodů v kategoriích. kat = getlabels( auta_dat.org ); stredy = 1:numel(kat); hist( double(auta_dat.org), stredy ); set(gca, 'XTickLabel', kat); xlabel('původ automobilů'); ylabel('počet'); %zkuste File/Publish v Editoru

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 9/23 Histogram II Co z obrázku můžeme říct o datech?

Histogram pro spojité proměnné histfit histogram s křivkou normálního rozdělení: h = histfit(auta_dat.mpg); xlabel('výdrž (míle na galon)'); ylabel('počet'); set(h(1),'facecolor',[.8.8 1]); Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 10/23

Histogram pro spojité proměnné II Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 11/23

Příklad: Udělejte 3 histogramy pod sebe výdrž pro americké, evropské a asijské vozy zvlášť hint: americké vozy vyberete příkazem auta_dat(auta_dat.org == 'Amerika', :) vytvoří se dataset obsahující všechny proměnné (:) jen ty řádky, pro něž je v proměnné orghodnota Amerika Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 12/23

Příklad: Řešení Udělejte 3 histogramy pod sebe výdrž pro americké, evropské a asijské vozy zvlášť kat = getlabels( auta_dat.org ); for i = 1:numel(kat), subplot(numel(kat), 1, i); hist( auta_dat.mpg(auta_dat.org == kat{i}), 37 ); axis([9 47 0 23]); title(kat{i}); end Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 13/23

2D histogram hist3([auta_dat.mpg, auta_dat.disp]); xlabel('výdrž (míle na galon)'); ylabel('zdvihový objem'); Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 14/23

Krabicový graf (boxplot) boxplot(auta_dat.mpg, auta_dat.org, 'notch', 'on'); xlabel('původ auta'); ylabel('výdrž (míle na galon)'); červená čára medián, pokud se zářezy nepřekrývají, je rozdíl mediánů mezi skupinami statisticky významný. Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 15/23

Bodový graf (scatterplot) scatter(auta_dat.disp, auta_dat.mpg); xlabel('zdvihový objem'); ylabel('výdrž (míle na galon)'); Můžeme použít i plot. Co z grafu vyplývá? Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 16/23

Bodový graf s histogramy scatterhist(auta_dat.disp, auta_dat.mpg ); xlabel('zdvihový objem'); ylabel('výdrž (míle na galon)'); Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 17/23

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 18/23 Bodový graf s barevným kódováním scatter(auta_dat.disp, auta_dat.mpg, 8, auta_dat.year); colorbar; colormap cool; xlabel('zdvihový objem'); ylabel('výdrž (míle na galon)');

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 19/23 Bodový graf s barevným kódovánímii Co můžeme říct o vývoji zdvihového objemu a výdrže v 70. a 80. letech?

Kategorizovaný bodový graf gscatter( auta_dat.disp, auta_dat.mpg,... auta_dat.org ); xlabel('zdvihový objem'); ylabel('výdrž (míle na galon)'); Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 20/23

Matice bodových grafů Jak zobrazit mnohodimezionální data? plotmatrix (auta_mat) gplotmatrix (auta_dat) auta_mat = double( auta_dat(:,1:7) ); plotmatrix(auta_mat); promenne = get(auta_dat, VarNames ); promenne = promenne(1:7); Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 21/23

Matice bodových grafůii Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 22/23

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 23/23 Matice bodových grafůiii gplotmatrix( auta_mat(:,1:4), auta_mat(:,5:7), auta_dat.org, [], [], 5, [], [], promenne(1:4), promenne(5:7) );