Brno. Datová analytika. Machine Learning a Big Data. Jan Studnička

Podobné dokumenty
MATLAB: Vývoj a nasazení finančních aplikací

Efektivní práce s daty v prostředí MATLAB. Nové datové typy, nové přístupy, Big Data, využití ve finančních aplikacích

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

MATLAB & Simulink. Matematické výpočty, analýza dat a tvorba aplikací. Jaroslav Jirkovský jirkovsky@humusoft.cz. info@humusoft.

Aplikace obrazové fúze pro hledání vad

Příprava dat v softwaru Statistica

Pokročilé neparametrické metody. Klára Kubošová

Předmluva 9 Obsah knihy 9 Typografické konvence 10 Informace o autorovi 10 Poděkování 10

LabView jako programovací jazyk II

Programování LEGO MINDSTORMS s použitím nástroje MATLAB a Simulink

MATLAB a Simulink R2015b

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Paralelní výpočty ve finančnictví

Strojové učení Marta Vomlelová

Možnosti aplikace: Copyright 2001, COM PLUS CZ, Praha

IBM SPSS Modeler. Hlavní přínosy. Intuitivní ovládání IBM

MATLAB. Měření a analýza dat, statistika a optimalizace. Jaroslav Jirkovský jirkovsky@humusoft.cz. info@humusoft.cz.

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Úvodem Dříve les než stromy 3 Operace s maticemi

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Profilová část maturitní zkoušky 2017/2018

Profilová část maturitní zkoušky 2013/2014

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Moderní systémy pro získávání znalostí z informací a dat

IBM SPSS Modeler Professional

Idrisi Andes aneb co bude nového ve verzi 15.0

MATLAB. Matematické výpočty, analýza dat a tvorba aplikací. Jaroslav Jirkovský jirkovsky@humusoft.cz. info@humusoft.

xrays optimalizační nástroj

MATLAB Úvod. Úvod do Matlabu. Miloslav Čapek

Lukáš Brodský Praha Osnova. Objektový přístup Verze 4, 5, 6 / 7 Developer7 -funkčnost, nové vlastnosti HW

IBM SPSS Decision Trees

ití empirických modelů při i optimalizaci procesu mokré granulace léčivl ková SVK ÚOT

Algoritmy a struktury neuropočítačů ASN - P11

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

Fyzické uložení dat a indexy

Informační systémy 2006/2007

Vstupní požadavky, doporučení a metodické pokyny

Přehled systému Microsoft SQL Server. Komu je kniha určena Struktura knihy Nejvhodnější výchozí bod pro čtení knihy Konvence a struktura knihy

NG C Implementace plně rekurentní

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Workshop. Vývoj embedded aplikací v systému MATLAB a Simulink. Jiří Sehnal sehnal@humusoft.cz. info@humusoft.cz.

Srovnání SQL serverů. Škálovatelnost a výkon. Express Workgroup Standard Enterprise Poznámky. Počet CPU bez limitu Obsahuje podporu

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Microsoft Access tvorba databáze jednoduše

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Tabulkový procesor. Základní rysy

MATLAB. Matematické výpočty, analýza dat a tvorba aplikací. Jaroslav Jirkovský jirkovsky@humusoft.cz. info@humusoft.

Systém je citlivý na velikost písmen CASE SENSITIVE rozeznává malá velká písmena, např. PROM=1; PROm=1; PRom=1; Prom=1; prom=1; - 5 různých proměnných

PowerPivot pro Microsoft Excel 2013

Business Intelligence

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Lineární algebra s Matlabem. Přednáška 1

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

Maple 2015 poskytuje novou infrastrukturu pro přístup a práci s miliony dat, a to nejen s daty vestavěných typů, ale i s daty online.

Statistické metody v digitálním zpracování obrazu. Jindřich Soukup 3. února 2012

Matematika v programovacích

Wonderware Information Server 4.0 Co je nového

MBI - technologická realizace modelu

Klasifikační metody pro genetická data: regularizace a robustnost

FOSS4G úspěšné projekty

Databázové systémy Cvičení 5.2

Microsoft Access. Typy objektů databáze: Vytvoření a návrh nové tabulky. Vytvoření tabulky v návrhovém zobrazení

IBM SPSS Modeler Premium

1 Webový server, instalace PHP a MySQL 13

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

Vytěžování znalostí z dat

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

INFORMAČNÍ TECHNOLOGIE PRO ZPRACOVÁNÍ EEG 2 UNIS a popis EEG. doc. Ing. Vladimír Krajča CSc.

Předmluva 11 Typografická konvence použitá v knize Úvod do Excelu

Maturitní otázky z předmětu PROGRAMOVÁNÍ

MATLAB & Simulink. novinky v roce Jan Houška houska@humusoft.cz. HUMUSOFT s.r.o.

ADS DOCHÁZKOVÝ SOFTWARE

BIG DATA je oveľa viac ako Hadoop. Martin Pavlík

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Datová věda (Data Science) akademický navazující magisterský program

Algoritmizace, základy programování, VY_32_INOVACE_PRG_ALGO_01

Strojové učení se zaměřením na vliv vstupních dat

Pokročilé metody geostatistiky v R-projektu

Databázové a informační systémy

Využití metod strojového učení v bioinformatice David Hoksza

Analýzou dat k efektivnějšímu rozhodování

Škály podle informace v datech:

Diplomová práce. On-line databáze provozních dat pro laboratorní odparku. Jan Polnický VŠCHT FCHI, ASŘ 2001/2002

Data Science projekty v telekomunikační společnosti

Tabulkový procesor otázka č.17

MATLAB & Simulink. Návrh digitálních filtrů pro úpravu signálů a analýza obrazu. Jaroslav Jirkovský jirkovsky@humusoft.cz

1 Základní funkce pro zpracování obrazových dat

SRSW4IT Inventarizační SW. Prezentace aplikace. Vedoucí DP: ing. Lukáš Macura Autor: Bc. Petr Mrůzek

VZOROVÝ STIPENDIJNÍ TEST Z INFORMAČNÍCH TECHNOLOGIÍ

Rozpoznávání v obraze

Univerzální prohlížeč naměřených hodnot

Databáze I. Přednáška 4

Operátory ROLLUP a CUBE

Autorizovaný software DRUM LK 3D SOFTWARE PRO VYHODNOCENÍ MĚŘENÍ ODCHYLEK HÁZIVOSTI BUBNOVÝCH ROTAČNÍCH SOUČÁSTÍ

X37SGS Signály a systémy

Katedra kybernetiky, FEL, ČVUT v Praze.

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH

pi Ludolfovo číslo π = 3,14159 e Eulerovo číslo e = 2,71828 (lze spočítat jako exp(1)), např. je v Octave, v MATLABu tato konstanta e není

Bayesovská statistika. Syntax editor. Vylepšení grafiky. Přidáno ve verzi 24. IBM SPSS Statistics. IBM Software Business Analytics

Transkript:

7.9.2018 Brno Datová analytika Machine Learning a Big Data Jan Studnička studnicka@humusoft.cz www.humusoft.cz info@humusoft.cz www.mathworks.com

Technické výpočty v MATLABu Přístup k datům Soubory Analýza a řešení Analýza dat a modelování Sdílení výsledků Dokumentace Software Vývoj algoritmů Výsledný návrh Kód a Aplikace Hardware Vývoj aplikací Nasazení aplikací Automatizace

Způsoby práce v prostředí MATLAB Zápis kódu Plnohodnotný programovací jazyk Zadávání příkazů Skripty Funkce Objektově orientované programování Interaktivní přístup Využití grafických nástrojů Umožnují generovat kód 3

Analýza dat načítání dat a data v MATLABu 4

Načítání dat ze souborů Interaktivní nástroj Import Tool Funkce readtable Načte data ze souboru do tabulky v MATLABu Nastavitelné parametry načítání detectimportoptions Parametry pro funkci readtable detekuje z dat 5 www.mathworks.com/examples/matlab/mw/matlab-ex22647148

Načítání dat z databází Interaktivní nástroj Database Explorer ODBC a JDBC kompatibilní databáze Funkce database Vytvoří připojení k databázi select Načte tabulku z databáze do tabulky v MATLABu datový typ importovaných numerických dat určen z databáze 6

Další Import a Export Dat Přístup k online datům RESTful, JSON, HTTP, CSV, text, a obrázková data webread, tcpclient Databases Načítání velkých kolekcí dat datastore Text, spreadsheet, database, image custom format datastores Images Custom

Tabulky table Různorodá data v tabulkovém formátu Různé typy dat v různých proměnných Text, numerická data, časová data, kategoriální data, Drží data i metadata Zpracování a analýza Voláním funkcí přímo na tabulky Zpracování chybějících a odlehlých údajů Třídění, přeskládání a spojování tabulek Souhrnné statistiky Tvorba modelu, predikce / klasifikace 8

Kategoriální data categorical Diskrétní nenumerická data Data nabývají hodnot z konečné množiny kategorií Efektivní z hlediska zabrané paměti Porovnáváme logickými operátory ==, ~= Můžeme zavést uspořádání <, <=, >, >=

Datum a čas datetime reprezentuje datum a čas (body na časové ose) duration, calendarduration reprezentují dobu trvání (časové intervaly) Slouží pro výpočty i zobrazení sčítání, odčítání, seřazení, porovnání, vykreslení nastavitelný formát zobrazení přesnost na nanosekundy časové zóny, přestupné sekundy, letní čas

Časové tabulky timetable Tabulky s časovými značkami pro jednotlivé řádky indexování dle času Zpracování dat pomocí specializovaných funkcí reorganizace dat změna časové škály synchronizace a spojení časových tabulek Zpracování dat pomocí funkcí pro table www.mathworks.com/examples/matlab/mw/matlab-ex28366094

Text string Efektivní práce s textovými daty >> "image" + (1:3) + ".png" 1 3 string array "image1.png" "image2.png" "image3.png" Příklad: Ověření, zda je v textovém řetězci obsažen jiný text Dříve: if ~isempty(strfind(textdata,"dog")) Nyní: if contains(textdata,"dog")) Až 50x rychlejší výpočet s funkcí contains a datovým typem string než se strfind a cellstr. Až 2x méně využité paměti s datovým typem string oproti cellstr.

Předzpracování dat Zpracování chybějících dat pomocí *missing funkcí Manipulace s textem pomocí replace, contains, endswith, a dalších Vyhlazení dat pomocí filtrace nebo lokální regrese smoothdata Práce s odlehlými pozorováními isoutlier, filloutliers www.mathworks.com/examples/matlab/mw/matlab-ex52135330

Analýza dat Split-Apply-Combine Workflow findgroups rozdělí data do skupin splitapply aplikuje funkci na každou skupinu a zkombinuje výsledky Detekce lokálních extrémů islocalmin and islocalmax Detekce náhlých změn v datech ischange

Machine Learning nové algoritmy a přístupy 15

Strojové učení Typ učení Kategorie algoritmu Klasifikace Support Vector Machines Discriminant Analysis Naive Bayes Nearest Neighbor Učení s učitelem Strojové učení Cíl: předpovědní model založený na vstupních a výstupních datech Regrese Linear Regression, GLM, Nonlinear Regression GPR, SVR Ensemble Methods Decision Trees Neural Networks Učení bez učitele Shluková analýza kmeans, kmedoids Fuzzy C-Means Hierarchical Gaussian Mixture Cíl: seskupení a interpretace dat založená pouze na vstupních datech Neural Networks Hidden Markov Model

Postup při strojovém učení Fáze učení: hledání nejlepšího modelu TRÉNOVACÍ DATA ÚPRAVA DAT UČENÍ S UČITELEM MODEL FILTRACE PCA CLASIFIKACE SOUHRNNÉ STATISTIKY SHLUKOVÁ ANALÝZA REGRESE Predikce: začlenění výsledného modelu do koncové aplikace NOVÁ DATA ÚPRAVA DAT MODEL PREDIKCE FILTRACE PCA SOUHRNNÉ STATISTIKY SHLUKOVÁ ANALÝZA

Výběr a extrakce prediktorů Výběr prediktorů Neighborhood component analysis fscnca, fsrnca Extrakce prediktorů Sparse filtering, Reconstruction ICA sparsefilt, rica transform Vizualizace vícedimenzionálních dat t-distributed Stochastic Neighbor Embedding tsne 18

Klasifikace a regrese Trénování modelu fit* SVM, ECOC, Ensemble, regrese, stepwise* kroková regrese Predikce a diagnostiky vlastnosti a metody modelu predict 19

Nové efektivní algoritmy optimalizace hyperparametrů bayesovská optimalizace klasifikace a regrese pro Big Data techniky pro snížení výpočetní náročnosti trénování modelu SVM, ECOC, logistická regrese stochastic gradient descent, LBFGS, aj. Gaussian kernel classification / regression random feature expansion 20 www.mathworks.com/examples/statistics/mw/stats-ex21115654

Nové interaktivní aplikace Aplikace Toolbox Uvedeno Classification Learner Statistics and Machine Learning Signal Analyzer Regression Learner Wavelet Signal Denoiser Econometric Modeler Signal Processing Statistics and Machine Learning Wavelet Econometrics 21

Big Data tall array 22

Big Data tall Případy využití: Sloupcová data s mnoho řádky Příliš mnoho dat, aby se vešly do paměti Operace jsou povahou statistické Pro statistické výpočty i Machine Learning Stovky funkcí v základním MATLABu a Statistics and Machine Learning Toolbox Automaticky optimalizuje přistupování k datům Tall Data Machine Memory Na desktopu, clusteru, nebo clusteru s nástroji Hadoop a Spark 23 www.mathworks.com/examples/statistics/mw/stats_featured-ex42806539

Big Data bez velkých změn Jeden soubor Sto souborů 24

Big Data Workflow Access Data Tall Data Types Exploration & Pre-processing Machine Learning Text Spreadsheet (Excel) Database (SQL) Custom Reader Datastores for common types of structured data table cell double numeric cellstr datetime categorical Tall versions of commonly used MATLAB data types Numeric functions Summary stats reductions Date/Time capabilities Categorical String processing Table wrangling Missing data handling Summary visualizations: Histogram/histogram2 Kernel density plot Bin-scatter Hundreds of pre-built functions Linear Model Logistic Regression Discriminant Analysis Decision trees classif. K-means PCA Random data sampling Summary statistics Validation techniques Key statistics and machine learning algorithms Tall data types and functions for use with out-of-memory data

Big Data vizualizace pomocí tall Podpora pro: histogram histogram2 ksdensity plot scatter binscatter confusionmat Podpora dále bude růst! 26

Tall Array Run in parallel on compute clusters MATLAB Distributed Computing Server Local disk Shared folders Databases Compute Clusters Spark + Hadoop Tall arrays MATLAB 100 s of functions supported MATLAB Statistics and Machine Learning Toolbox Run in parallel Parallel Computing Toolbox Run in parallel on Spark clusters MATLAB Distributed Computing Server Deploy MATLAB applications as standalone applications on Spark clusters MATLAB Compiler 27

Kontakty Pobřežní 20 www.facebook.com/humusoft 186 00 Praha 8 www.youtube.com/humusoft Česká republika www.twitter.com/humusoft Email: info@humusoft.cz www.humusoft.cz Tel.: +420 284 011 720 28