Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague



Podobné dokumenty
PDD Vlastní téma

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Fakulta chemicko-technologická Faculty of Chemical Technology

Parametrizace ozařovacích míst v aktivní zóně školního reaktoru VR-1 VRABEC

Feature Ranking a Feature Selection založené na induktivních modelech

Web Information Extraction - extrakce informací z webu

Vytěžování znalostí z dat

Vliv přesnosti kalibrační křivky na výsledek verifikace plánů EBT3 filmem

Vytěžování znalostí z dat

SOFTWARE PRO ANALÝZU LABORATORNÍCH MĚŘENÍ Z FYZIKY

Vytěžování znalostí z dat

Cvičení 1,2 Osnova studie strategie ICT

Normal mission real time system

Vytěžování znalostí z dat

Compression of a Dictionary

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

I. Úvod. II. Popis základních metod technické analýzy !! "# ! "" $% &'() "* *+ "" "* (,-.,/ " " "" *!!+ 01+ " * " " 2! " "*"*!

Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU

Vytěžování znalostí z dat

THE PREDICTION PHYSICAL AND MECHANICAL BEHAVIOR OF FLOWING LIQUID IN THE TECHNICAL ELEMENT

External ROM 128KB For Sinclair ZX Spectrum

Mission ctitical real time system

NG C Implementace plně rekurentní

Matematické modely spontánní aktivity mozku

v Praze mezi kanály EEG Ondřej Drbal 5. ročník, stud. sk. 9

Extrakce a selekce příznaků

NÁVRH REGULÁTORU PRO VLT TELESKOP POMOCÍ MATLABU 1. Zdeněk Hurák, Michael Šebek

Správa linuxového serveru: Úvod do poštovního serveru

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

Závěrečná zpráva projektu Experimentální výpočetní grid pro numerickou lineární algebru

spolupráce více systémů. . Pro zajištění služby je používáno více aplikačních protokolů, např.: DNS SMTP.

Vytěžování znalostí z dat

Dolování znalostí z rozsáhlých statistických souborů lékařských dat

SOFTWARE NA ZPRACOVÁNÍ MRAČEN BODŮ Z LASEROVÉHO SKENOVÁNÍ. Martin Štroner, Bronislav Koska 1

Parametrická studie změny napětí v pánevní kosti po implantaci cerkvikokapitální endoprotézy

Počítačová analýza lekařských dat

API pro volání služby kurzovního lístku KB

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Vytěžování znalostí z dat

MATLAB: Vývoj a nasazení finančních aplikací

Dobývání znalostí z databází

TELEGYNEKOLOGIE TELEGYNECOLOGY

Matematický ústav v Opavě. Studijní text k předmětu. Softwarová podpora matematických metod v ekonomice

Technické vzdělávání na Jihočeské univerzitě

Miroslav Čepek

Rozpoznávání objektů ve video sekvencích

Czech Technical University in Prague DOCTORAL THESIS

KOMPARACE MEZINÁRODNÍCH ÚČETNÍCH STANDARDŮ A NÁRODNÍ ÚČETNÍ LEGISLATIVY ČR

8. PŘEDNÁŠKA 20. dubna 2017

PREDIKCE DÉLKY KOLONY V KŘIŽOVATCE PREDICTION OF THE LENGTH OF THE COLUMN IN THE INTERSECTION

Lubomír Pavliska. Datový sklad pro vědu a výzkum s návazností na datové analýzy klinických dat FNO

Lukáš Brodský Praha Osnova. Objektový přístup Verze 4, 5, 6 / 7 Developer7 -funkčnost, nové vlastnosti HW

Cvičení 3. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

PCR IN DETECTION OF FUNGAL CONTAMINATIONS IN POWDERED PEPPER

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

Local Interconnect Network - LIN

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Příprava dat a) Kontrola dat

Analýza ztráty stability sendvičových kompozitních panelů při zatížení tlakem

SenseLab. z / from CeMaS. Otevřené sledování senzorů, ovládání zařízení, nahrávání a přehrávání ve Vaší laboratoři

NÁVOD K POUŽITÍ VÁPNÍK 600 KATALOGOVÉ ČÍSLO 207

Popis plnění balíčku WP08: Snižování mechanických ztrát pohonných jednotek

Ing. Jan Buriánek. Katedra softwarového inženýrství Fakulta informačních technologií České vysoké učení technické v Praze Jan Buriánek, 2010

IMPLEMENTACE AUTOMATIZOVANÉHO MĚŘENÍ HRTF V MATLABU

Měření axiálních rychlostních profilů v nádobách s centrální cirkulační trubkou pomocí LDA systému

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

Laserový skenovací systém LORS vývoj a testování přesnosti

2.přednáška. Informační bezpečnost: Systém řízení informační bezpečnosti (ISMS)

Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích

Zabezpečení datových přenosů pomocí CRC

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Agilní metodiky vývoje softwaru

Časné operace rozštěpu rtu a inteligenční kvocient ve 3-7 letech

DETEKCE ANOMÁLNÍHO CHOVÁNÍ UŽIVATELŮ KATASTRÁLNÍCH MAPOVÝCH SLUŽEB

VŠEOBECNÁ TÉMATA PRO SOU Mgr. Dita Hejlová

Název školy STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

POČÍTAČOVÁ SIMULACE JAKO NÁSTROJ OPTIMALIZACE SVAŘOVACÍ LINKY

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

Rozpoznávání v obraze

OBHAJOBA DIPLOMOVÉ PRÁCE

Hluk kotelen a spalinových cest

KLASIFIKÁTOR IZOLOVANÝCH SLOV NA BÁZI UMĚLÉ NEURONOVÉ SÍTĚ

Rožnovský, J., Litschmann, T., (eds): Závlahy a jejich perspektiva. Mikulov, , ISBN

Architektura počítačů Agenda

Co vím o Ázerbájdžánu?

Faculty of Information Technology, Brno University of Technology. testovací sady. Výstupem predikce je zpravidla odpověd,

WI180C-PB. On-line datový list

Architektura počítačů Agenda

Internet cvičení. ZS 2009/10, Cvičení 4., PHP. Tomáš Pop. DISTRIBUTED SYSTEMS RESEARCH GROUP

Výpočet na gridu a LM TaskPooler

Transkript:

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 1/29 Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 4: Zadání úloh MI-PDD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 2/29 Vlastní téma Předzpracování dat z různých zdrojů (obrázek, text, web, signál, řeč ) Kvalitní rešerše dostupných metod Výběr vhodných metod Ukázka na reálných datech Porovnání úspěšnosti (korelace nebo společná informace s výstupem, případně úspěšnost modelů na testovacích datech) Doporučení: vyhněte se implementaci, snažte se použít dostupné simulátory (GPL kód)

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 3/29 Soutěže KDD, Netflix Většinou hlavně o vhodném předzpracování dat Google: data mining competitions Soutěž FS (výběr příznaků) metod http://clopinet.com/isabelle/projects/nips2003/ Netflix recommending movies http://www.netflixprize.com/assets/grandprize2009_bpc_ BellKor.pdf http://www.netflixprize.com/assets/grandprize2009_bpc_ BigChaos.pdf http://www.netflixprize.com/assets/grandprize2009_bpc_ PragmaticTheory.pdf

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 4/29 Neurochirurgie Motol Snímán tlak v hlavě po úrazu (otok mozku) Jak tlak závisí na dalších snímaných ukazatelích? Vhodné předzpracování zápisu manipulace s pacientem

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 5/29 Neurologie v Hradci Králové Electrophysiological Laboratory Charles University in Prague Faculty of Medicine in Hradec Králové http://www.lfhk.cuni.cz/elf/

Hradec - Spánková data Pavel Kordík (ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 6/29

Vývoj programu pro hodnocení časových řad Zpracování extrahovaných dat Ohodnocování charakteru časových řad obecně MIT spánková data - naimportovat, vyextrahovat příznaky Matlab! Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 7/29

Hradec - Evokované potenciály Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 8/29

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 9/29 Recording positions EEG The original figure illustrating the international 10-20 systém Jasper HH (1958): Report of the Committee on Methods of Clinical Examination in Electroencephalography. Electroenceph. Clin. Neurophysiol. 10: 370-1.

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 10/29 Evokované potenciály poškození očních nervů

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 11/29 GEOFOND Sesuvy DP Petr Zelenka (http://dip.felk.cvut.cz) Databáze sesuvů je třeba prozkoumat závislosti v datech Proč si vybrat tuto práci? -zajímavá data: -zkuste určit, na jakém parametru závisí aktivita sesuvu -najděte zajímavé vazby mezi jednotlivými parametry -najděte parametry metod tak, aby výsledky byly co nejlepší -data jsou již připravena pro experimenty v YALE - můžete se tak zaměřit výhradně na experimentování s daty -neřešíte, jak data do nějakého programu vůbec dostat Vrty Preprocessing dat

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 12/29 Geofond sesuvy v YALE DP Petr Zelenka (http://dip.felk.cvut.cz)

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 13/29 Evoluční kódování DP Petr Zelenka, Michal Záborec (http://dip.felk.cvut.cz) Cílem práce je otestovat náš nový plugin do Yale na různých datech

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 14/29 Algoritmic trading Integrace časových řad různých akcií Extrakce příznaků z burzovních dat Multi-time frame přístup Analýza tiskových zpráv a jejich vlivu na vývoj akcií společností Analýza zpráv na sociálních sítích

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 15/29 FAKE GAME projekt - Nové jednotky - Učicí algoritmy - Stopping criteria - Podpora pro predikci časových řad - Srovnání s KM www.knowledgeminer.com - Srovnání s matlabem (NN toolbox) -Experimenty s nastavením (výpočty na serverech) - Fully Automated Knowledge Extraction -reportovaní pomocí JasperReports, -tutoriály použití na různých datech -srovnání s Wekou -různé předzpracování - sourceforge.net/projects/fakegame http://neuron.felk.cvut.cz/game

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 16/29 IBM SPSS zadání Vliv vážení dat na přesnost, stabilitu a přínosy modelu binární logistické regrese Na základě vzorce pro konfidenční intervaly regresních koeficientů porovnejte chování modelů vytvořených nad váženými a neváženými daty. Vážením zde rozumíme buď duplikaci případů sméněčetnou kategorií cílové proměnné, nebo prostý náhodný výběr případů svícečetnou kategorií cílové proměnné. Obě varianty vážení posuzujte odděleně. Ohodnoťte vliv vážení při učení modelu na přesnost predikcí, stabilitu rozdělení regresního skóre a na průběh ROI evaluační křivky. Teoretické závěry porovnejte spraktickou simulací. Zaměřte se především na hodně nevyvážená rozdělení cílové proměnné. Metody výběru proměnných při modelování logistickou regresí nad datovou maticí s mnoha proměnnými Vypracujte přehled variant, jak postupovat při výběru proměnných pro model binární logistické regrese pro situace, kdy datová matice obsahuje velké množství korelovaných vstupních proměnných. Doporučte vhodný postup pro takové situace a uveďte, čeho bychom se měli vyvarovat. Doporučené postupy a zjištěná rizika ilustrujte na praktické simulaci.

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 17/29 spam pre-filter Analýza záhlaví zpráv, metainformací a jejich souvislost se spamovostí zpráv Popis poli, ktera jsem ziskal zatim ze seznamu. ip_addr - adresa odesilatele countrycode - rozeznany country code pomoci geoip hdr_from - from adresa z MAIL FROM z SMTP protokolu rcpt - prijemce emailu rcpts - pocet prijemcu v celem mailu mailsize - velikost mailu v bytech szn-spam-score - spam score :) user-id - idcko prijemce(interni informace) ebox-id - idcko storage serveru(interni informace) za poslednich 5 min (paralelne i zasebou): ce-connections - pocet konexi ce-bad-rcpt-to - pocet spatnych RCPT TO v SMTP protokolu ce-bad-mail-from - pocet spatnych MAIL FROM v SMTP protokolu ce-bad-commands - pocet spatnych prikazu v SMTP protokolu ce-mail-sent - pocet odeslanych mailu ce-bytes-sent - pocet odeslanych byte ce-bad-auth - pocet spatnych autorizaci na SMTP relay header:* obsah odpovidajicich hlavicek presne v takovem case, jako jsou v mailech TO_CO_JE_VELKYMA - odpovidajici testy z spamassassinu

Honeywell Prague Laboratory Data z budov Energie Logy z karet Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 18/29

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 19/29 Center for chemical genetics Data mining procesů při buněčném dělení

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 20/29 Nové opensource předzpracovací metody fakegame@sourceforge Prostuduj seznam implementovaných předzpracovacích metod Nastuduj a implementuj novou metodu Srovnej s dostupnými metodami na několika různých datových souborech

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 21/29 Automatické předzpracování Otestovat na různých datech Konzistence výběru předzpracovacích metod Automatické předzpracování signálů

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 22/29 Preprocessing methods implemented in FAKE GAME

Methods to impute missing values MissingData.ConstantMissingDataImputer MissingData.MedianMissingDataImputer MissingData.NearestNeighbourMissingDataImputer MissingData.RemoveMissingData MissingData.AnotherInstanceValueDataImputer Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 23/29

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 24/29 Methods to normalize data Normalization.LinearNormalizer Normalization.SoftmaxNormalizer Normalization.MeanNormalizer Normalization.ZscoreNormalizer

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 25/29 Methods to reduce data DataReduction.RandomReduce DataReduction.RemoveOutlayers DataReduction.LeaveOutNeighbours DataReduction.KMeansDataReplacer DataReduction.PCA DataReduction.KDTreeReplacer DataReduction.HartCondensingReduce DataReduction.HartCondensingReduce DataReduction.IB3Reduce DataReduction.KubatMatwinReduce DataReduction.Drop3Reduce DataReduction.ChangReduce DataReduction.WilsonsEditingReduce DataReduction.ChenCondensingReduce DataReduction.RSP3CondensingReduce DataReduction.SpecialCondensingReduce DataReduction.AllKNNEditingSchemeAlgorithm DataReduction.RNNCondensingReduce

Other methods Discretization.EqualSizeBinning DataEnrichement.Smote Nominal data encoding 1 from N Encoding into single attribute Color Size red small green large red large Red color Green color Small size 1 0 1 0 0 1 0 1 Large size Color Size 0.1 0.01 0.3 0.9 or Color Size 0.6 0.4 0.1 0.6 1 0 0 1 0.1 0.9 0.6 0.6 Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 26/29

Our experiments with automated encoding of nominal attributes Correlation Probability density 10% improvement on Golf data Relative accuracy Relative accuracy Relative accuracy Probability density Relative accuracy Relative accuracy Relative accuracy Diploma thesis Michal Zaborec, Minh Duc Do, CTU Prague, 2009 Linear regression Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 27/29

Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 28/29 Putting (preprocessing methods)all together For each feature, optimal sequence of preprocessing methods is evolvedby GA Raw data Genetic Algorithm evolving preprocessing sequences Preprocessing Sequences Selected representative data subset Error of models, fitness function GAME Ensemble of models Automated data preprocessing

Evolving preprocessing sequences Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 4 29/29