PDD Vlastní téma

Podobné dokumenty
Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Úloha: Verifikace osoby pomocí dynamického podpisu

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pokročilé neparametrické metody. Klára Kubošová

NÁVRH A REALIZACE TRADING STRATEGIÍ NA BÁZI STROJOVÉHO UČENÍ S POMOCÍ MATLABU

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

8. PŘEDNÁŠKA 20. dubna 2017

API pro volání služby kurzovního lístku KB

Feature Ranking a Feature Selection založené na induktivních modelech

Rozpoznávání v obraze

NG C Implementace plně rekurentní

spolupráce více systémů. . Pro zajištění služby je používáno více aplikačních protokolů, např.: DNS SMTP.

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Genetické programování 3. část

Vytěžování znalostí z dat

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Cvičení 12: Binární logistická regrese

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

Compression of a Dictionary

Analytické metody v motorsportu

Laboratorní úloha č. 8: Elektroencefalogram

Předzpracování dat. Lenka Vysloužilová

Analytické procedury v systému LISp-Miner

Strojové učení Marta Vomlelová

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD

Úvodem Dříve les než stromy 3 Operace s maticemi

Neuronové časové řady (ANN-TS)

Moderní systémy pro získávání znalostí z informací a dat

Optimalizace provozních podmínek. Eva Jarošová

SenseLab. z / from CeMaS. Otevřené sledování senzorů, ovládání zařízení, nahrávání a přehrávání ve Vaší laboratoři

External ROM 128KB For Sinclair ZX Spectrum

NÁVRH REGULÁTORU PRO VLT TELESKOP POMOCÍ MATLABU 1. Zdeněk Hurák, Michael Šebek

5. Umělé neuronové sítě. Neuronové sítě

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

v Praze mezi kanály EEG Ondřej Drbal 5. ročník, stud. sk. 9

Emergence chování robotických agentů: neuroevoluce

Nadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech.

Lukáš Brodský Praha Osnova. Objektový přístup Verze 4, 5, 6 / 7 Developer7 -funkčnost, nové vlastnosti HW

Strojové učení se zaměřením na vliv vstupních dat

Design Experimentu a Statistika - AGA46E

Vytěžování znalostí z dat

Správa linuxového serveru: Úvod do poštovního serveru

Matematika v programovacích

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Aplikovaná statistika v R - cvičení 2

Schéma e-pošty. UA (User Agent) rozhraní pro uživatele MTA (Message Transfer Agent) zajišťuje dopravu dopisů. disk. odesilatel. fronta dopisů SMTP

Analýza dat na PC I.

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

DETEKCE ANOMÁLNÍHO CHOVÁNÍ UŽIVATELŮ KATASTRÁLNÍCH MAPOVÝCH SLUŽEB

MATLAB: Vývoj a nasazení finančních aplikací

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Počítačové sítě Internetový systém elektronické pošty

Nový bakalářský studijní obor Biomedicínská informatika na Fakultě biomedicínského inženýrství v Kladně

Karta předmětu prezenční studium

vzorek vzorek

VZOROVÝ STIPENDIJNÍ TEST Z INFORMAČNÍCH TECHNOLOGIÍ

Ing. Tomáš MAUDER prof. Ing. František KAVIČKA, CSc. doc. Ing. Josef ŠTĚTINA, Ph.D.

CASE. Jaroslav Žáček

Strategie ACE využívající virtuální elektrody v kochleárních implantátech Nucleus 24

A2B31SMS 11. PŘEDNÁŠKA 4. prosince 2014

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Asociační i jiná. Pravidla. (Ch )

ZX510 Pokročilé statistické metody geografického výzkumu

Manuální kroková regrese Newsletter Statistica ACADEMY

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

prázdninách Praha

Regresní analýza. Eva Jarošová

Architektury počítačů

Příprava dat a) Kontrola dat

Institut teoretické informatiky (ITI) na FI MU

Dobývání znalostí z webu web mining

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Matematický ústav v Opavě. Studijní text k předmětu. Softwarová podpora matematických metod v ekonomice

Biomedicínské inženýrství na ČVUT FEL

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Vliv přesnosti kalibrační křivky na výsledek verifikace plánů EBT3 filmem

Doňar B., Zaplatílek K.: MATLAB - tvorba uživatelských aplikací, BEN - technická literatura, Praha, (ISBN:

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

FoxStat. Change the Net.Work. Nástroj pro záznam a analýzu datového provozu

Fakulta elektrotechniky a komunikačních technologií Ústav radioelektroniky. prof. Ing. Stanislav Hanus, CSc v Brně

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Matematické modely spontánní aktivity mozku

Národní informační středisko pro podporu jakosti

STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM

2. Modelovací jazyk UML 2.1 Struktura UML Diagram tříd Asociace OCL. 3. Smalltalk 3.1 Jazyk Pojmenování

Využití a zneužití statistických metod v medicíně

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Parametrická studie změny napětí v pánevní kosti po implantaci cerkvikokapitální endoprotézy

Využití neuronové sítě pro identifikaci realného systému

SOFTWARE PRO ANALÝZU LABORATORNÍCH MĚŘENÍ Z FYZIKY

Transkript:

PDD Semestrální úlohy CIG@FIT http://cig.felk.cvut.cz/ Vlastní téma Předzpracování dat z různých zdrojů (obrázek, text, web, signál, řeč ) Kvalitní rešerše dostupných metod Výběr vhodných metod Ukázka na reálných datech Porovnání úspěšnosti (korelace nebo společná informace s výstupem, případně úspěšnost modelů na testovacích datech) Doporučení: vyhněte se implementaci, snažte se použít dostupné simulátory (GPL kód)

Soutěže KDD, Netflix Většinou hlavně o vhodném předzpracování dat Google: data mining competitions Soutěž FS (výběr příznaků) metod http://clopinet.com/isabelle/projects/nips/ Netflix recommending movies http://www.netflixprize.com/assets/grandprize9_b PC_BellKor.pdf http://www.netflixprize.com/assets/grandprize9_b PC_BigChaos.pdf http://www.netflixprize.com/assets/grandprize9_b PC_PragmaticTheory.pdf Neurochirurgie Motol Snímán tlak v hlavě po úrazu (otok mozku) Jak tlak závisí na dalších snímaných ukazatelích? Vhodné předzpracování zápisu manipulace s pacientem

Neurologie v Hradci Králové Electrophysiological Laboratory Charles University in Prague Faculty of Medicine in Hradec Králové http://www.lfhk.cuni.cz/elf/ Hradec - Spánková data

Vývoj programu pro hodnocení časových řad Zpracování extrahovaných dat Ohodnocování charakteru časových řad obecně MIT spánková data - naimportovat, vyextrahovat příznaky Matlab! Hradec - Evokované potenciály

EEG Recording positions The original figure illustrating the international - systém Jasper HH (958): Report of the Committee on Methods of Clinical Examination in Electroencephalography. Electroenceph. Clin. Neurophysiol. : 7-. Evokované potenciály poškození očních nervů

GEOFOND Sesuvy DP Petr Zelenka (http://dip.felk.cvut.cz) Databáze sesuvů je třeba prozkoumat závislosti v datech Proč si vybrat tuto práci? - zajímavá data: - zkuste určit, na jakém parametru závisí aktivita sesuvu - najděte zajímavé vazby mezi jednotlivými parametry - najděte parametry metod tak, aby výsledky byly co nejlepší - data jsou již připravena pro experimenty v YALE - můžete se tak zaměřit výhradně na experimentování s daty - neřešíte, jak data do nějakého programu vůbec dostat Vrty Preprocessing dat Geofond sesuvy v YALE DP Petr Zelenka (http://dip.felk.cvut.cz)

Evoluční kódování DP Petr Zelenka, Michal Záborec (http://dip.felk.cvut.cz) Cílem práce je otestovat náš nový plugin do Yale na různých datech Africké myši MotherAg e AdMal es AdFemal es BreedFemal es PostPart um stat us littersi ze FemalesJUV MalesJ UV specie s Season 67 67 7 5 5 98 5 8 5 9 5 5 5 8 vysvetlivky: mame spoustu akvarii (promenna "box"), ve kterych jsou skupiny mysi, ktere se mnozi, takze v kazdem akvariu je ruzny pocet jedincu ruzneho stari a pohlavi. zajima nas, jestli samice rodej v nejaky situaci vice synu nebo naopak treba vice dcer. data maji binomicke rozdeleni s pouzitim logit link function. zkoumana je teda promenna "samci", coz je pocet samcu ve vrhu, ktery se narodi jedne matce. data jsou hierarchicky strukturovana : "matka" is nested in "box". "box" a "matka" jsou faktory s nahodnym efektem. zajima me vliv ostatnich faktoru, ktere jsou ve sloupcich D, G - P, R. potom je tam jeste sloupec Q "species", coz jsou ruzny druhy tech mysi (mysleno biologicky druhy). takze pak jsme nakonec koukali na to, jestli se ty druhy mezi sebou nejak lisi nebo ne.

Stock market trading Integrace časových řad různých akcií Extrakce příznaků z burzovních dat Multi-time frame přístup Analýza tiskových zpráv a jejich vlivu na vývoj akcií společností Analýza zpráv na sociálních sítích FAKE GAME projekt - Nové jednotky - Učicí algoritmy - Stopping criteria - Podpora pro predikci časových řad - Srovnání s KM www.knowledgeminer.com - Srovnání s matlabem (NN toolbox) - Experimenty s nastavením (výpočty na serverech) - Fully Automated Knowledge Extraction -reportovaní pomocí JasperReports, -tutoriály použití na různých datech -srovnání s Wekou -různé předzpracování - sourceforge.net/projects/fakegame http://neuron.felk.cvut.cz/game

IBM SPSS zadání Vliv vážení dat na přesnost, stabilitu a přínosy modelu binární logistické regrese Na základě vzorce pro konfidenční intervaly regresních koeficientů porovnejte chování modelů vytvořených nad váženými a neváženými daty. Vážením zde rozumíme buď duplikaci případů s méněčetnou kategorií cílové proměnné, nebo prostý náhodný výběr případů s vícečetnou kategorií cílové proměnné. Obě varianty vážení posuzujte odděleně. Ohodnoťte vliv vážení při učení modelu na přesnost predikcí, stabilitu rozdělení regresního skóre a na průběh ROI evaluační křivky. Teoretické závěry porovnejte s praktickou simulací. Zaměřte se především na hodně nevyvážená rozdělení cílové proměnné. Metody výběru proměnných při modelování logistickou regresí nad datovou maticí s mnoha proměnnými Vypracujte přehled variant, jak postupovat při výběru proměnných pro model binární logistické regrese pro situace, kdy datová matice obsahuje velké množství korelovaných vstupních proměnných. Doporučte vhodný postup pro takové situace a uveďte, čeho bychom se měli vyvarovat. Doporučené postupy a zjištěná rizika ilustrujte na praktické simulaci. spam pre-filter Analýza záhlaví zpráv, metainformací a jejich souvislost se spamovostí zpráv Popis poli, ktera jsem ziskal zatim ze seznamu. ip_addr - adresa odesilatele countrycode - rozeznany country code pomoci geoip hdr_from - from adresa z MAIL FROM z SMTP protokolu rcpt - prijemce emailu rcpts - pocet prijemcu v celem mailu mailsize - velikost mailu v bytech szn-spam-score - spam score :) user-id - idcko prijemce(interni informace) ebox-id - idcko storage serveru(interni informace) za poslednich 5 min (paralelne i zasebou): ce-connections - pocet konexi ce-bad-rcpt-to - pocet spatnych RCPT TO v SMTP protokolu ce-bad-mail-from - pocet spatnych MAIL FROM v SMTP protokolu ce-bad-commands - pocet spatnych prikazu v SMTP protokolu ce-mail-sent - pocet odeslanych mailu ce-bytes-sent - pocet odeslanych byte ce-bad-auth - pocet spatnych autorizaci na SMTP relay header:* obsah odpovidajicich hlavicek presne v takovem case, jako jsou v mailech TO_CO_JE_VELKYMA - odpovidajici testy z spamassassinu

Honeywell Prague Laboratory Data z budov Energie Logy z karet Center for chemical genetics Data mining procesů při buněčném dělení

Nové opensource předzpracovací metody fakegame@sourceforge Prostuduj seznam implementovaných předzpracovacích metod Nastuduj a implementuj novou metodu Srovnej s dostupnými metodami na několika různých datových souborech Automatické předzpracování Otestovat na různých datech Konzistence výběru předzpracovacích metod Automatické předzpracování signálů

Preprocessing methods implemented in FAKE GAME Methods to impute missing values MissingData.ConstantMissingDataImputer MissingData.MedianMissingDataImputer MissingData.NearestNeighbourMissingDataImputer MissingData.RemoveMissingData MissingData.AnotherInstanceValueDataImputer

Methods to normalize data Normalization.LinearNormalizer Normalization.SoftmaxNormalizer Normalization.MeanNormalizer Normalization.ZscoreNormalizer Methods to reduce data DataReduction.RandomReduce DataReduction.RemoveOutlayers DataReduction.LeaveOutNeighbours DataReduction.KMeansDataReplacer DataReduction.PCA DataReduction.KDTreeReplacer DataReduction.HartCondensingReduce DataReduction.HartCondensingReduce DataReduction.IBReduce DataReduction.KubatMatwinReduce DataReduction.DropReduce DataReduction.ChangReduce DataReduction.WilsonsEditingReduce DataReduction.ChenCondensingReduce DataReduction.RSPCondensingReduce DataReduction.SpecialCondensingReduce DataReduction.AllKNNEditingSchemeAlgorithm DataReduction.RNNCondensingReduce

Other methods Discretization.EqualSizeBinning DataEnrichement.Smote Nominal data encoding from N Color red green Size small large Encoding into single attribute red large Red color Green color Small size Large size Color... Size..9.9 or Color.6..6 Size..6.6 Our experiments with automated encoding of nominal attributes Correlation Probability density % improvement on Golf data Relative accuracy Relative accuracy Relative accuracy Probability density Relative accuracy Relative accuracy Relative accuracy Diploma thesis Michal Zaborec, Minh Duc Do, CTU Prague, 9 Linear regression

Putting (preprocessing methods) all together For each feature, optimal sequence of preprocessing methods is evolved by GA Raw data Genetic Algorithm evolving preprocessing sequences Preprocessing Sequences Selected representative data subset Error of models, fitness function GAME Ensemble of models Automated data preprocessing Evolving preprocessing sequences