Strojové učení Marta Vomlelová

Rozměr: px
Začít zobrazení ze stránky:

Download "Strojové učení Marta Vomlelová"

Transkript

1 Strojové učení Marta Vomlelová KTIML, S303

2 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer Series in Statistics. Springer, (2003 a další, web). 2.I.H.Witten and E.Frank. Data Mining - Practical machine learning tools and techniques with Java implementation. Accademic Press Pub., USA, 1999.

3 Doplňující literatura P. Berka.Dobývání znalostí z databází. Academia, T. Mitchell. Machine Learning. McGraw Hill, New York, S. Russel and P. Norwig. Artificial Intelligence: A Modern Approach. Prentice Hall, 2003.

4 Příklady statistického učení Vytořit z dat model, který dokáže: Určit polohu robota z minulé pozice a senzorů. U pacienta hospitalizovaného s infarktem predikovat riziko dalšího infarktu. Predikci lze založit na demografických, stravovacích a klinických datech o pacientovi. Rozpoznání spamu od u. Predikovat cenu akcií za 6 měsíců z aktuální výkonnosti společnosti a ekonomických dat.

5 Typický scénář zadání Máme danou cílovou veličinu kvantivativní Y cena akcií, nebo kategoriální G infarkt ano/ne. Chceme její hodnotu predikovat na základě příznaků (features) X klinická měření, stravování. Máme množinu trénovacích dat, u kterých známe i příznaky, i hodnotu cílové veličiny. f, ĝ Na základě těchto dat tvoříme model. Dobrý model predikuje cíl s malou chybou.

6 Učení s učitelem / bez učitele Předchozí slajd se týká učení s učitelem (supervized learning). Při učení bez učitele nemáme žádnou cílovou veličinu, úkolem je popsat data např. klastrováním či určením závislostí. (unsupervised learning)

7 Příklad: Klasifikace u. Data obsahují 4601 příkladů, snažíme se rozlišit spam a žádaný . Známe cílovou třídu spam/ a frekvence 57 nejčastějších slov či znaků. Příklad modelu: V tomto příkladu je nestejná cena chyby.

8 Příklad: rakovina prostaty Cílem je predikovat logaritmus prostate specific antigen (lpsa) z množiny příznaků. Predikujeme spojitou veličinu. Bodový graf, XY graf (scatter plot)

9 Obsah Chapter 2: Úvod do učení s učitelem Chapter 3. a 4. Lineární metody pro regresi a klasifikaci Chapter 5. Splajny Chapter 6. Jádrové (kernal) metody a lokální regrese Chapter 7. Ohodnocení a volba modelů Chapter 8. Kombinace modelů, EM algoritmus,.. Chapter 9: Rozhodovací stromy Chapter 10: Boosting Chapter 11: Neuronové sítě Chapter 12: Support vector machines Chapter 13: Nejbližší sousedé Chapter 14: Učení bez učitele

10 Typické otázky u zkoušky Vysvětlete pojem: přeučení, prokletí dimenzionality, bayesovsky optimální predikce, maximálně věrohodný odhad, optimální separující nadrovina,... Napište algoritmus: AdaBoost, Rozhodovací stromy včetně prořezávání, EM, SVM,... Dolňující otázky pro ujasnění, nakolik pojmům/algoritmům rozumíte na jedničku či pokud jste někde hodně nevěděli. Mnohé ze slajdů se nezkouší, z přednášky možná vytušíte co ;-)

11 Přehled základních pojmů vstupní veličiny (=features), cílová veličina numerické, kategoriální, uspořádané veličiny regrese (=predikce numerické veličiny) klasifikace (=predikce kategoriální veličiny) binární veličiny kódujeme 0/1 nebo -1/1 uspořádané často pomocí dummy variables (pomocné proměnné) vstupní veličiny značíme X, výstup Y resp. G. X je matice Nxp, predikce značíme střechou.

12 Lineární regrese p p p p

13 Lin. regrese 2 p

14 Lin. regrese - výsledek Není-li invertibilní, ubereme závislé sloupce, nebo se pokusíme překódovat nebo přefiltrovat data tak, aby invertibilní byla.

15

16

17

18 Maskování U lineární regrese pro víc tříd může dojít k maskování: modrá třída není nikdy predikovaná.

19

20

21

22

23 Lin. regrese vs. nejbližší sousedé Lineární regrese je hladká, stabilní výrazně závisí na předpokladu linearity hranice má malý rozptyl, potenciálně velké vychýlení (bias). k-nn se přizpůsobí libovolné (spojité..) hranici predikce záleží na pozici a hodnotách pár okolních bodů, proto je nestabilní velký rozptyl, malé vychýlení (bias).

24 Přeučení (overfitting) Přeučením se nazývá přílišná závislost modelu na trénovacích datech, která zvyšuje chybu na testovacích datech. Tj. růst oranžové křivky při klesající modré vpravo v grafu.

25 Optimální bayeskovská hranice Pokud víme, jakým procesem jsou data generována, můžeme v každém bodě predikovat nejčastější hodnotu (při stejné ceně chyby). Tento postup vytvoří optimální bayesovskou hranici (kde jsou obě hodnoty stejně časté).

26 Prokletí dimenzionality Nejbližší sousedé jsou při velké dimenzi hodně daleko.

27 Proč vadí vzdálený nejbližší soused

28 Druhý příklad

29 Weka nástroj pro Data mining, umožňuje učit mnoho modelů.

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Marta Vomlelová marta@ktiml.mff.cuni.cz

Marta Vomlelová marta@ktiml.mff.cuni.cz Strojové učení Úvod, lineární regrese Marta Vomlelová marta@ktiml.mff.cuni.cz References [1] P. Berka. Dobývání znalostí z databází. Academia, 2003. [2] T. Hastie, R. Tishirani, and J. Friedman. The Elements

Více

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.

Více

Asociační i jiná. Pravidla. (Ch )

Asociační i jiná. Pravidla. (Ch ) Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo

Více

Lineární diskriminační funkce. Perceptronový algoritmus.

Lineární diskriminační funkce. Perceptronový algoritmus. Lineární. Perceptronový algoritmus. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics P. Pošík c 2012 Artificial Intelligence 1 / 12 Binární klasifikace

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

Václav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV

Václav Matoušek KIV. Umělá inteligence a rozpoznávání.   Václav Matoušek / KIV Umělá inteligence a rozpoznávání Václav Matoušek KIV e-mail: matousek@kiv.zcu.cz 0-1 Sylabus předmětu: Datum Náplň přednášky 16. 2. (3h) 2. 3. (4h) 17. 3. (5h) 14. 4. (3h) Úvod, historie a vývoj UI, základní

Více

Umělá inteligence a rozpoznávání

Umělá inteligence a rozpoznávání Václav Matoušek KIV e-mail: matousek@kiv.zcu.cz 0-1 Sylabus předmětu: Datum Náplň přednášky 11. 2. Úvod, historie a vývoj UI, základní problémové oblasti a typy úloh, aplikace UI, příklady inteligentních

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci

Více

Neuronové sítě (11. přednáška)

Neuronové sítě (11. přednáška) Neuronové sítě (11. přednáška) Machine Learning Naučit stroje se učit O co jde? Máme model výpočtu (t.j. výpočetní postup jednoznačně daný vstupy a nějakými parametry), chceme najít vhodné nastavení parametrů,

Více

Klasifikační metody pro genetická data: regularizace a robustnost

Klasifikační metody pro genetická data: regularizace a robustnost Odd medicínské informatiky a biostatistiky Ústav informatiky AV ČR, vvi Práce vznikla za finanční podpory Nadačního fondu Neuron na podporu vědy Klasifikační metody pro genetická data Regularizovaná klasifikační

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost. Optimální rozdělující nadplocha. Support vector machine. Adaboost. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics Opakování Lineární diskriminační

Více

Support Vector Machines (jemný úvod)

Support Vector Machines (jemný úvod) Support Vector Machines (jemný úvod) Osnova Support Vector Classifier (SVC) Support Vector Machine (SVM) jádrový trik (kernel trick) klasifikace s měkkou hranicí (soft-margin classification) hledání optimálních

Více

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL)

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

1. Data mining. Strojové učení. Základní úlohy.

1. Data mining. Strojové učení. Základní úlohy. 1... Základní úlohy. Učení s učitelem a bez učitele. Petr Pošík Katedra kybernetiky ČVUT FEL P. Pošík c 2010 Aplikace umělé inteligence 1 / 36 Obsah P. Pošík c 2010 Aplikace umělé inteligence 2 / 36 Co

Více

Trénování sítě pomocí učení s učitelem

Trénování sítě pomocí učení s učitelem Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup

Více

UČENÍ BEZ UČITELE. Václav Hlaváč

UČENÍ BEZ UČITELE. Václav Hlaváč UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení

Více

StatSoft Úvod do neuronových sítí

StatSoft Úvod do neuronových sítí StatSoft Úvod do neuronových sítí Vzhledem k vzrůstající popularitě neuronových sítí jsme se rozhodli Vám je v tomto článku představit a říci si něco o jejich využití. Co si tedy představit pod pojmem

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

Využití metod strojového učení v bioinformatice David Hoksza

Využití metod strojového učení v bioinformatice David Hoksza Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace

Více

Instance based learning

Instance based learning Učení založené na instancích Instance based learning Charakteristika IBL (nejbližších sousedů) Tyto metody nepředpokládají určitý model nejsou strukturované a typicky nejsou příliš užitečné pro porozumění

Více

Dnes budeme učit agenty, jak zlepšit svůj

Dnes budeme učit agenty, jak zlepšit svůj Umělá inteligence II Roman Barták, KTIML roman.bartak@mff.cuni.cz http://ktiml.mff.cuni.cz/~bartak Úvodem Dnes budeme učit agenty, jak zlepšit svůj výkon při ř řešení š í budoucích úloh na základě pozorování

Více

Statistická analýza dat

Statistická analýza dat Statistická analýza dat Jméno: Podpis: Cvičení Zkouška (písemná + ústní) 25 Celkem 50 Známka Pokyny k vypracování: doba řešení je 120min, jasně zodpovězte pokud možno všechny otázky ze zadání, pracujte

Více

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,

Více

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání a vizualizace znalostí. Olga Štěpánková et al. Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu Dobývání znalostí - popis a metodika procesu CRISP a objasnění základních pojmů Nástroje pro modelování klasifikovaných dat a jejich

Více

Zobecněná analýza rozptylu, více faktorů a proměnných

Zobecněná analýza rozptylu, více faktorů a proměnných Zobecněná analýza rozptylu, více faktorů a proměnných Menu: QCExpert Anova Více faktorů Zobecněná analýza rozptylu (ANalysis Of VAriance, ANOVA) umožňuje posoudit do jaké míry ovlivňují kvalitativní proměnné

Více

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního

Více

Lineární klasifikátory

Lineární klasifikátory Lineární klasifikátory Lineární klasifikátory obsah: perceptronový algoritmus základní verze varianta perceptronového algoritmu přihrádkový algoritmus podpůrné vektorové stroje Lineární klasifikátor navrhnout

Více

Miroslav Čepek 16.12.2014

Miroslav Čepek 16.12.2014 Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti 16.12.2014

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Obsah přednášky. 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacking 5. Boosting 6. Shrnutí

Obsah přednášky. 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacking 5. Boosting 6. Shrnutí 1 Obsah přednášy 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacing 5. Boosting 6. Shrnutí 2 Meta learning = Ensemble methods Cíl použít predici ombinaci více různých modelů Meta learning (meta

Více

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le Whale detection Brainstorming session Jiří Dutkevič Lenka Kovářová Milan Le Signal processing, Sampling theorem Spojitý signál může být nahrazen diskrétní posloupností vzorků, aniž by došlo ke ztrátě informace,

Více

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. POLYNOMICKÁ REGRESE Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. y = b 0 + b 1 x + b 2 x 2 + + b n x n kde b i jsou neznámé parametry,

Více

Základy vytěžování dat

Základy vytěžování dat Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha

Více

Strojové učení se zaměřením na vliv vstupních dat

Strojové učení se zaměřením na vliv vstupních dat Strojové učení se zaměřením na vliv vstupních dat Irina Perfilieva, Petr Hurtík, Marek Vajgl Centre of excellence IT4Innovations Division of the University of Ostrava Institute for Research and Applications

Více

prekrocena mez ukazatele kvality.

prekrocena mez ukazatele kvality. Příklad efektivního využití dataminingových metod v oblasti kontroly kvality výroby Mgr. Petra Beranová Pokud hovoříme o data miningu (dolování dat), většina z nás si jako typické oblasti využití vybaví

Více

NÁVRH A REALIZACE TRADING STRATEGIÍ NA BÁZI STROJOVÉHO UČENÍ S POMOCÍ MATLABU

NÁVRH A REALIZACE TRADING STRATEGIÍ NA BÁZI STROJOVÉHO UČENÍ S POMOCÍ MATLABU NÁVRH A REALIZACE TRADING STRATEGIÍ NA BÁZI STROJOVÉHO UČENÍ S POMOCÍ MATLABU RNDr. Miroslav Pavelka, PhD m.pavelka@sh.cvut.cz Ing. Jan Hovad jan@hovad.cz OBSAH Obchodování a strojové učení Specifika prediktivního

Více

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum: Fakulta informačních technologií VUT Brno Předmět: Projekt: SRE Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum: 9.12.2006 Zadání Vyberte si jakékoliv 2 klasifikátory, např. GMM vs. neuronová

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili? Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace

Více

Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD

Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD Cvičení 11 Klasifikace Jan Přikryl ČVUT FD 14. března 2018 Příklad 1 Data z akciového trhu Nejprve prozkoumáme data z akciových trhů, konkrétně denní vývoj indexu S&P v letech 2001 2005. Načteme a zobrazíme

Více

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen 11. Klasifikace V této kapitole se seznámíme s účelem, principy a jednotlivými metodami klasifikace dat, jež tvoří samostatnou rozsáhlou oblast analýzy dat. Klasifikace umožňuje určit, do které skupiny

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Klasifikační a regresní lesy Pokročilé neparametrické metody Klasifikační a regresní lesy Klasifikační les Klasifikační les je klasifikační model vytvořený

Více

DATA MINING KLASIFIKACE DMINA LS 2009/2010

DATA MINING KLASIFIKACE DMINA LS 2009/2010 DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I 5EN306 Aplikované kvantitativní metody I Přednáška 10 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam

Více

Automatické vyhledávání informace a znalosti v elektronických textových datech

Automatické vyhledávání informace a znalosti v elektronických textových datech Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Cíle kurzu: seznámit posluchače s vybranými statistickými metodami, které jsou aplikovatelné v ekonomických

Více

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování

Více

Neuronové časové řady (ANN-TS)

Neuronové časové řady (ANN-TS) Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 1/31 Vytěžování znalostí z dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical

Více

Rozdělování dat do trénovacích a testovacích množin

Rozdělování dat do trénovacích a testovacích množin Rozdělování dat do trénovacích a testovacích množin Marcel Jiřina Rozpoznávání je důležitou metodou při zpracování reálných úloh. Rozpoznávání je definováno dvěma kroky a to pořízením dat o reálném rozpoznávaném

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková, Lenka Vysloužilová, et al. https://cw.fel.cvut.cz/wiki/courses/a6m33dvz/start 1 Osnova přednášky Úvod: data, objem, reprezentace a základní terminologie

Více

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016 Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 206 Zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia

Více

Předzpracování dat. Lenka Vysloužilová

Předzpracování dat. Lenka Vysloužilová Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání

Více

Smart Grid Data Mining

Smart Grid Data Mining Smart Grid Data Mining dd-mm-yyyy Adam Kapala, OSGP forum, Bratislava, 29.9.2015 Atos - For internal use ATOS IT Solutions and Services Krátké představení společnosti Atos vznikl 1.7. 2011 celosvětovým

Více

NAIL072 ROZPOZNÁVÁNÍ VZORŮ

NAIL072 ROZPOZNÁVÁNÍ VZORŮ NAIL072 ROZPOZNÁVÁNÍ VZORŮ RNDr. Jana Štanclová, Ph.D. jana.stanclova@ruk.cuni.cz www.cuni.cz/~stancloj LS Zk 2/0 OSNOVA 1. Úvod do rozpoznávání vzorů 2. Bayesovská teorie rozpoznávání 3. Diskriminační

Více

Klasifikace a rozpoznávání. Lineární klasifikátory

Klasifikace a rozpoznávání. Lineární klasifikátory Klasifikace a rozpoznávání Lineární klasifikátory Opakování - Skalární součin x = x1 x 2 w = w T x = w 1 w 2 x 1 x 2 w1 w 2 = w 1 x 1 + w 2 x 2 x. w w T x w Lineární klasifikátor y(x) = w T x + w 0 Vyber

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich

Více

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby Algoritmy a struktury neuropočítačů ASN P4 Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby Vrstevnatá struktura - vícevrstvé NN (Multilayer NN, MLNN) vstupní vrstva (input layer)

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich

Více

Katedra kybernetiky, FEL, ČVUT v Praze.

Katedra kybernetiky, FEL, ČVUT v Praze. Strojové učení a dolování dat přehled Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz posnova přednášek Přednáška Učitel Obsah 1. J. Kléma Úvod do předmětu, učení s a bez učitele.

Více

O kurzu MSTU Témata probíraná v MSTU

O kurzu MSTU Témata probíraná v MSTU O kurzu MSTU Témata probíraná v MSTU 1.: Úvod do STU. Základní dělení, paradigmata. 2.: Základy statistiky. Charakteristiky, rozložení, testy. 3.: Modely: rozhodovací stromy. 4.: Modely: učení založené

Více

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík,, CSc. NEURONOVÉ SÍTĚ otázky a odpovědi 1 AKD_predn4, slide 8: Hodnota výstupu závisí na znaménku funkce net i, tedy na tom, zda bude suma

Více

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek UNIVERZITA PARDUBICE Licenční Studium Archimedes Statistické zpracování dat a informatika 4.4 Aproximace křivek a vyhlazování křivek Mgr. Jana Kubátová Endokrinologický ústav V Praze, leden 2012 Obsah

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Partial Least Squares regrese (PLS-R)

Partial Least Squares regrese (PLS-R) Partial Least Squares regrese (PLS-R) Menu: QCExpert Prediktivní metody Partial Least Squares Modul PLS regrese poskytuje uživateli jednu z nejvýkonnějších současných výpočetních nástrojů pro vyhodnocování

Více

Získávání znalostí z dat

Získávání znalostí z dat Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace

Více

KLASIFIKAČNÍ A REGRESNÍ LESY

KLASIFIKAČNÍ A REGRESNÍ LESY ROBUST 2004 c JČMF 2004 KLASIFIKAČNÍ A REGRESNÍ LESY Jan Klaschka, Emil Kotrč Klíčová slova: Klasifikační stromy, klasifikační lesy, bagging, boosting, arcing, Random Forests. Abstrakt: Klasifikační les

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK11 Základy ekonometrie Autokorelace Cvičení 5 Zuzana Dlouhá Gauss-Markovy předpoklady Náhodná složka: Gauss-Markovy předpoklady 1. E(u) = náhodné vlivy se vzájemně vynulují. E(uu T ) = σ I n konečný

Více

Vojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU 29.4.2015

Vojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU 29.4.2015 Příklady použití metod strojového učení v rozpoznávání tváří Vojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU 29.4.2015 Stavební bloky systému

Více

Pravděpodobně skoro správné. PAC učení 1

Pravděpodobně skoro správné. PAC učení 1 Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného

Více

Učící se klasifikátory obrazu v průmyslu

Učící se klasifikátory obrazu v průmyslu Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:

Více

Testování modelů a jejich výsledků. tomu, co jsme se naučili?

Testování modelů a jejich výsledků. tomu, co jsme se naučili? Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace

Více

Informační systémy 2006/2007

Informační systémy 2006/2007 13 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení Informační systémy 2006/2007 Ivan Kedroň 1 Obsah Analytické nástroje SQL serveru. OLAP analýza

Více

Využití strojového učení k identifikaci protein-ligand aktivních míst

Využití strojového učení k identifikaci protein-ligand aktivních míst Využití strojového učení k identifikaci protein-ligand aktivních míst David Hoksza, Radoslav Krivák SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita

Více

Genetické programování

Genetické programování Genetické programování Vyvinuto v USA v 90. letech J. Kozou Typické problémy: Predikce, klasifikace, aproximace, tvorba programů Vlastnosti Soupeří s neuronovými sítěmi apod. Potřebuje značně velké populace

Více

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3,

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

1 Úvod do celočíselné lineární optimalizace

1 Úvod do celočíselné lineární optimalizace Úvod do celočíselné lineární optimalizace Martin Branda, verze 7.. 7. Motivace Reálné (smíšeně-)celočíselné úlohy Optimalizace portfolia celočíselné počty akcií, modelování fixních transakčních nákladů,

Více

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan.

Více

Dobývání dat a strojové učení

Dobývání dat a strojové učení Dobývání dat a strojové učení Dobývání znalostí z databází (Knowledge discovery in databases) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns

Více