Vytěžování znalostí z dat
|
|
- Otto Malý
- před 6 lety
- Počet zobrazení:
Transkript
1 Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 1/27
2 Klasifikace má 2 fáze: Učící Vybavovací Klasifikace Naším cílem je vytvoření klasifikátoru s co nejlepší úspěšností ve vybavovací fázi Úspěšnost ve vybavovací fázi ale nemůžeme změřit, když neznáme všechna data na kterých bude klasifikátor použit Jak odhadnout chybu klasifikátoru ve vybavovací fázi? Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 2/27
3 Jak odhadnout chybu Spočítáním chyby na trénovacích datech Předpokládáme, že trénovacídata jsou reprezentativním vzorkem Ale, učení většiny modelů spočívá v nastavení parametrů tak, aby byla minimalizována chyba na trénovacích datech. Pokud vybereme klasifikátor, který je nejlepší pro konkrétní data, nemůžeme už tato data použít pro ohodnocení klasifikátoru -> riziko přeučení klasifikátoru Toto není vhodná metoda nepoužívat! Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 3/27
4 Přeučení Složitější modely jsou více se přizpůsobit trénovacím datům a tím snížit chybu na trénovacích datech Model je ale pak naučen přesně na konkrétní data a ztrácí schopnost generalizace pro další data ze stejného rozdělení už chyba strmě stoupá Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 4/27
5 Přeučení Složitější modely jsou více náchylné k přeučení Jednodušší modely mají menší riziko přeučení, ale nejsou schopné pokrýt složitější závislosti v datech Rozhodnutí pro výběr jednoduššího nebo složitějšího modelu není jednoznačné a závisí na konkrétních datech Jak poznat že je model přeučený? Pokud je chyba na trénovacíchdatech o hodně menší než na testovacích datech, pak je model přeučený. Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 5/27
6 Jak odhadnout chybu Rozdělením trénovacích dat na 2 části: Trénovací na trénovací části dat naučíme model Testovací na testovací části dat spočítáme chybu klasifikace Jak rozdělit trénovací množinu? Napůl, 80% trénovací, 20% testovací Zmenšením trénovacímnožiny se klasifikátor hůře učí a chyba klasifikátoru se zvětšuje Malá testovací množina zase neumožňuje přesné zjištění cyby Můžeme si tedy vybrat mezi přesnější klasifikací a přesnějším odhadem chyby Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 6/27
7 Rozdělení Sepal length Sepal Widtg Petal length Petal Width Species Setosa Setosa setosa Versicolor versicolor Versicolor train test Takhle ne! Data se musí rozdělit do trénovacía testovací množiny náhodně Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 7/27
8 Cross-validace Rozdělením na trénovacía testovací množinu ztrácíme možnost použít část dat pro učení Při crossvalidaci rozdělíme data na N stejně velkých částí N-krát opakujeme: Použijeme N-1 částí pro naučení Použijeme 1 část pro zjištění chyby Výsledná chyba je průměr z N dílčích chyb Každá instance je použita N-1krát pro učení a jednou pro výpočet chyby Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 8/27
9 Cross Validace N=5 = train train train train test -> err 1 train train train test train -> err 2 train train test train train -> err 3 train test train train train -> err 4 test train train train train -> err 5 err N i= = 1 err N i Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 9/27
10 Validační data pomocí testovacích dat nebo crossvalidace otestujeme několik modelů a vybereme z nich ten s nejmenší chybou Odhad chyby na testovacích datech, už ale není nevychýlený, protože jsme data použily pro výběr klasifikátoru Proto z dat odebereme ještě jednu část validační na které otestujeme chybu námi zvoleného klasifikátoru Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 10/27
11 Přímočaré řešení: Jak měřit úspěšnost klasifikace = č á ě ý ý č í K tomu analogicky: = č ě ý ý č í Často se používá, ale nevhodné při nerovnoměrném zastoupení tříd Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 11/27
12 Příklad: Problém s accuracy Chceme vytvořit klasifikátor, který rozhodne, zda transakce platební kartou je podvodná (kradenou platební kartou) Podvodných transakcí je proti běžným velmi malý počet pouze 0,01% Triviální klasifikátor, který označí všechny transakce jako v pořádku, bude mít velmi vysokou úspěšnost 99,99% Takový klasifikátor nám ale k ničemu dobrý není Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 12/27
13 Matice záměn Předpokládáme binární klasifikaci skutečnost ANO NE klasifikace ANO TP FP NE FN TN TP true positives, klasifikován správně jako ANO TN true negatives, klasifikován správně jako NE FP false positives, klasifikován jako ANO, ve skutečnosti NE FN false negatives, klasifikován jako NE, ve skutečnosti ANO Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 13/27
14 Matice záměn, poměrné veličiny klasifikace true positive rate(sensitivity, recall) = truenegative rate = falsepositive rate = falsenegative rate = specificity = precision = accuracy = skutečnost ANO NE ANO TP FP NE FN TN Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 14/27
15 F-measure Kompromis mezi precision a recall Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 15/27
16 Příklad matice záměn Iris data, 3 třídy Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 16/27
17 Příklad klasifikace aut Máme data s různými informacemi o 392 autech chceme určit, zda je auto vyrobeno v Americe mpg cylinders displacement horsepower weight acceleration model year origin 0 1 0, , , , , , , , , , , , , , , , , , , , , , , , , , ,2 0, , , , , ,5 0, ,2 0, ,375 0, , , ,5 0, ,2 0, , , , , , ,2 0, , , , , , ,6 0, , , , , Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 17/27
18 Scatter plot pro atributy mpg milesper gallon weight- váha 1,2 1 0,8 weight 0,6 americke neamericke 0,4 0, ,2 0,4 0,6 0,8 1 1,2 mpg Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 18/27
19 Porovnáme výsledky dvou triviálních klasifikátorů: mpg< 0,35 => auto je americké všechna auta americká Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 19/27
20 1.klasifikátor podle mpg mpg< 0,35 => auto je americké matice záměn: TP -americká auta označená jako americká klasifikace Skutečnost Americká Ostatní Americká Ostatní FP -ostatní auta chybně označená jako americká FN -americká auta chybně označená jako ostatní TN -ostatní auta označená jako ostatní procento správně určených (accuracy) =74,74% hodnoty na diagonále správná klasifikace hodnoty mimo diagonálu chyby Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 20/27
21 1 0,9 Vizualizace chyb mpg= 0,35 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, ,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 true positive true negative false negative false positive Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 21/27
22 Skutečnost Americká Ostatní klasifikace přesnost (precision) kolik aut klasifikovaných jako americká byla skutečně americká á = =0,875 kolik aut klasifikovaných jako ostatní byla skutečně ostatní í = =0,623 úplnost (recall) kolik amerických aut jsme označili jako americká á = =0,692 kolik neamerických aut jsme označili jako neamerická í = Americká Ostatní =0,838 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 22/27
23 2. klasifikátor všechna auta americká matice záměn skutečnost americká ostatní klasifkace amaerická ostatní 0 0 TP -americká auta označená jako americká FP -ostatní auta chybně označená jako americká procento správně určených (accuracy) =62,24% >50%protože amerických aut je v datech více než ostatních Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 23/27
24 skutečnost americká ostatní klasifkace amaerická ostatní 0 0 přesnost (precision) kolik aut klasifikovaných jako americká byla skutečně americká á = =0,62 úplnost (recall) kolik amerických aut jsme označili jako americká á = =1 kolik ostatních aut jsme označili jako ostatní í = =0 Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 24/27
25 Threshold U klasifikátoru můžeme většinou snadno zvýšit TPrna úkor TNr a obráceně U bayesovskéhoklasifikátoru změnou apriorních pravděpodobností U k-nn použitím thresholdu místo majority Obdobně u dalších klasifikátorů Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 25/27
26 ROC Závislost TPr na FPr udává ROC křivka Ideální klasifikátor Náhodný výběř Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 26/27
27 AUC Area under curve Plocha pod ROC křivkou 0,5 je pro náhodný výběr 1 je pro ideální klasifikátor Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 5 27/27
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 9 1/16 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 1/21 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 1: Visualizace MI-PDD, 09/2011 MI-POA Evropský sociální fond
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 1 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT RNDr. Eva Janoušová INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ HODNOCENÍ ÚSPĚŠNOSTI KLASIFIKACE A SROVNÁNÍ KLASIFIKÁTORŮ ÚVOD Vstupní data Subjekt Objem hipokampu Objem komor Skutečnost
Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 3 1/23 Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Obsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Základy vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2
INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2 Name: Petr Bělohlávek School year: 2015/2016 Provide answers for the exercises 1. (a) - (c), 2.(c), 2.(d.1-2), 2.(e.1-2) For each exercise,
Vytěžování znalostí z dat
Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 1/31 Vytěžování znalostí z dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical
DATA MINING KLASIFIKACE DMINA LS 2009/2010
DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 6 Jak analyzovat kategoriální a binární
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 4 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL)
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/29 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Změkčování hranic v klasifikačních stromech
Změkčování hranic v klasifikačních stromech Jakub Dvořák Seminář strojového učení a modelování 24.5.2012 Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment
Obsah přednášky. 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacking 5. Boosting 6. Shrnutí
1 Obsah přednášy 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacing 5. Boosting 6. Shrnutí 2 Meta learning = Ensemble methods Cíl použít predici ombinaci více různých modelů Meta learning (meta
Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? 2 Osnova Úvod různé klasifikační modely a jejich kvalita Hodnotící míry (kriteria kvality) pro zvolený model. Postup vyhodnocování
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 6 1/25 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Statistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
Přednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/
Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117 O čem se bude mluvit? Čtyřpolní tabulky Osnova prezentace Čtyřpolní tabulky 1. přístupy
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
Pokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační
Předzpracování dat. Lenka Vysloužilová
Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání
Získávání znalostí z dat
Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 1/10 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.
Řešení příkladu - klasifikace testovacího subjektu pomocí Bayesova klasifikátoru: ata si vizualizujeme (Obr. ). Objem mozkových komor 9 8 7 6 5 pacienti kontroly testovací subjekt 5 6 Objem hipokampu Obr.
Kybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
Pravděpodobně skoro správné. PAC učení 1
Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 13 1/14 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Lineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
Studentská tvůrčí a odborná činnost STOČ 2017
Studentská tvůrčí a odborná činnost STOČ 2017 Detekce a analýza pohybu osob založená na analýze obrazu Bc. Robin Antonič Mendelova univerzita v Brně, Zemědělská 1 20. dubna 2017 FAI UTB ve Zlíně Klíčová
Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace
Úloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru
Vytěžování dat, cvičení 2: Úvod do RapidMineru Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 23 Úvod do RapidMineru Dnes vám ukážeme jeden z mnoha
Testování modelů a jejich výsledků. tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace
Metody analýzy modelů. Radek Pelánek
Metody analýzy modelů Radek Pelánek Fáze modelování 1 Formulace problému 2 Základní návrh modelu 3 Budování modelu 4 Verifikace a validace 5 Simulace a analýza 6 Sumarizace výsledků Simulace a analýza
Předzpracování dat. Cvičení 2: Import a příprava dat v Matlabu MI-PDD, 09/2011. Pavel Kordík MI-POA
Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 2 1/29 Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Detekce obličeje v obraze s využitím prostředí MATLAB
Detekce obličeje v obraze s využitím prostředí MATLAB T. Malach, P. Bambuch, J. Malach EBIS, spol. s r.o. Příspěvek se zabývá detekcí obličeje ve statických obrazových datech. Algoritmus detekce a trénování
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a báli jste se zeptat Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)
Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.
Optimální rozdělující nadplocha. Support vector machine. Adaboost. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics Opakování Lineární diskriminační
Vojtěch Franc. Biometrie ZS Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost
Rozpoznávání tváří I Vojtěch Franc Centrum strojového vnímání, ČVUT FEL Praha Biometrie ZS 2013 Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost Úlohy rozpoznávání tváří: Detekce Cíl: lokalizovat
Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
í Š ó č É Í é á ď Ď é Š Á ó ó É Ó
ď Ň É Ú Ň č ŮŇ Ó í Ó í Š ó č É Í é á ď Ď é Š Á ó ó É Ó é í í Á Í ú Í ě ď Ě ď č Ň Ň é ú Éí É ú é í í í ý á í á á ý í ď ě Ř É č Ú Ň Ě Ů Ňň čí í í ě ý í í Ě ď Ó ě í ě Ě Ě čí í í ě ý í í Ě é ě í ě ě Ř ý ň
Testování hypotéz a jeho metodika 2 Jasnovidec?... 4 Pojmy... 6 Postup... 7 Chyby... 8
Testování hypotéz Petr Pošík Části dokumentu jsou převzaty (i doslovně) z Mirko Navara: Pravděpodobnost a matematická statistika, https://cw.felk.cvut.cz/lib/exe/fetch.php/courses/a6m33ssl/pms_print.pdf
Připomeň: Shluková analýza
Připomeň: Shluková analýza Data Návrh kategorií X Y= 1, 2,..., K resp. i jejich počet K = co je s čím blízké + jak moc Neposkytne pravidlo pro zařazování Připomeň: Klasifikace Data (X,Y) X... prediktory
style:normal;color:grey;font-family:verdana,geneva,kalimati,sans-serif;text-decoration:none;text-align:center;font-v
style:normal;color:grey;font-family:verdana,geneva,kalimati,sans-serif;text-decoration:none;text-align:center;font-v = = < p s t y l e = " p a d d i n g : 0 ; b o r d e r : 0 ; t e x t - i n d e n t :
Lineární klasifikátory
Lineární klasifikátory Lineární klasifikátory obsah: perceptronový algoritmus základní verze varianta perceptronového algoritmu přihrádkový algoritmus podpůrné vektorové stroje Lineární klasifikátor navrhnout
Přednáška 2: Model, hodnocení modelu, metoda K nejbližších sousedů
České vysoké učení technické v Praze Fakulta informačních technologií Katedra teoretické informatiky Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti MI-ADM Algoritmy data miningu (2010/2011)
Rozdělování dat do trénovacích a testovacích množin
Rozdělování dat do trénovacích a testovacích množin Marcel Jiřina Rozpoznávání je důležitou metodou při zpracování reálných úloh. Rozpoznávání je definováno dvěma kroky a to pořízením dat o reálném rozpoznávaném
Vojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU 29.4.2015
Příklady použití metod strojového učení v rozpoznávání tváří Vojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU 29.4.2015 Stavební bloky systému
NG C Implementace plně rekurentní
NG C Implementace plně rekurentní neuronové sítě v systému Mathematica Zdeněk Buk, Miroslav Šnorek {bukz1 snorek}@fel.cvut.cz Neural Computing Group Department of Computer Science and Engineering, Faculty
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
á ý á á ú ú ř ý ý ů ě ů ř á á á á ě ě š ř ů á ě ě ě ů ř š ý š ě ů ž ář ř ř š ý ář á ě ř á ý ě ů á á á ě á ž ě ě ů ě ý ě ř ě šť Č ý á á ř á ě á ř ý ý á
É Ř Á Ý Ý Ý ů Ř Ý Ě ů ě ář Ú ř ě ě ě ě ě á ý á á ú ú ř ý ý ů ě ů ř á á á á ě ě š ř ů á ě ě ě ů ř š ý š ě ů ž ář ř ř š ý ář á ě ř á ý ě ů á á á ě á ž ě ě ů ě ý ě ř ě šť Č ý á á ř á ě á ř ý ý á á ě ú ř ě
Vybrané partie z biostatistiky
1 Úvod Vybrané partie z biostatistiky 10.7.2017, Běstvina Marie Turčičová (turcic@karlin.mff.cuni.cz), MFF UK Pracovat budeme v programu R a jeho nástavbě RStudio, které si můžete bezplatně stáhnout zde:
Aplikovaná numerická matematika - ANM
Aplikovaná numerická matematika - ANM 3 Řešení soustav lineárních rovnic iterační metody doc Ing Róbert Lórencz, CSc České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
Trénování sítě pomocí učení s učitelem
Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup
Lineární a logistická regrese
Lineární a logistická regrese Martin Branda Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Výpočetní prostředky finanční a pojistné matematiky
Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.
10 Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické
KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:
KVALITA DAT Správnost výsledku použití GIS ovlivňuje: POUŽITÁ APLIKACE Kvalita dat v databázi Kvalita modelu, tj. teoretického popisu krajinných objektů a jevů Způsob použití funkcí GIS při přepisu modelu
ů ř Ž ý ý ř ď ř
ř ů ř ů ř ř ý ů ř ů ů ř ť ý Ž ř ř ř ř Ž ř ú ý Ž ř ů ů ť Ř ý ř ř ř ů ý ý ř ý ň Ž ý ů ř Ž ý ý ř ď ř Á ů ó ř Í ř ý ř ý ř ř ř ř ř ř ř ř ř ý ř ť ř ř ř ý ť ř ď ú É ř ť ý ů ř ý ď ř ř Ž ý ý Í ý ó ů ý ý ř ř Í ř
Základy vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
Í ž ž Ž ž Ž Ž ž Š ď Ž Í ť ž Í Ž Ž Ž Í Ý Š Í Š ž Ž Š ž ž ť Ž Š
Á Í Í É ď ď Í Á ž Ž ž ž ž ž Í Í Ý Ě Í Í Í ž Š Ž Í ž Í ž ž ž ž ž ž Í ž ž Ž ž Ž Ž ž Š ď Ž Í ť ž Í Ž Ž Ž Í Ý Š Í Š ž Ž Š ž ž ť Ž Š ž Š ž ž ž Í ž ž Ž ž ž ť Í ž Ž ž ť Ž ž ž Š Ž ž Ž ž ť ž ž Í ž Š Ž ď ž ž ž ť
Odhady Parametrů Lineární Regrese
Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké
ěž Úč úč Í ěž Ž č Ž ž ů Á Č Č Ž Úč Ž Úč Ž ň ž Ů č č Ž Úč Ž Í č š ě ň ó ÚČ č Ž Úč č Č š Ž Š Š ÍŠ
š ě ě š ů úč Ý č Č š ě úč š ěž ÚČ Úč ž č ž ě ě ě ů ě č ň č ž ÚČ Í ů č ú ě Á č Č č ň úč š ěž Úč úč Í ěž Ž č Ž ž ů Á Č Č Ž Úč Ž Úč Ž ň ž Ů č č Ž Úč Ž Í č š ě ň ó ÚČ č Ž Úč č Č š Ž Š Š ÍŠ ěž úč úč ž ě ž Ž
logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Vytěžování Dat Přednáška 9 Lineární klasifikátor, rozšíření báze, LDA, logistická regrese Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Ukázka knihy z internetového knihkupectví
Ukázka knihy z internetového knihkupectví www.kosmas.cz U k á z k a k n i h y z i n t e r n e t o v é h o k n i h k u p e c t v í w w w. k o s m a s. c z, U I D : K O S 1 8 0 8 0 9 U k á z k a k n i h
Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
Žú é ú é é ů é Ž Ž ř Č é Ž ř é Ž ž ř é ú é é é Ž é ú ř ó é Č ú ú ř ú úř ř Ž ú ř ř ř Ú é é ú ú ů é ú Č ř ř ř ů
ř é é ů ú Ú Č ů ú Í ř Č ů ú Í Ž ž ž ž ř é ž Žú é ú é é ů é Ž Ž ř Č é Ž ř é Ž ž ř é ú é é é Ž é ú ř ó é Č ú ú ř ú úř ř Ž ú ř ř ř Ú é é ú ú ů é ú Č ř ř ř ů é ů Ě Í ř ů ú ř é Ž ž ř é ř ř úř ř é é é ž ř ž
Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD
Cvičení 11 Klasifikace Jan Přikryl ČVUT FD 14. března 2018 Příklad 1 Data z akciového trhu Nejprve prozkoumáme data z akciových trhů, konkrétně denní vývoj indexu S&P v letech 2001 2005. Načteme a zobrazíme
ň ú Ú ů é é ň ů ž ů ů ů ů é é é é ú ň é ú ú ů é é ů ů Č é ň ú ú ů é é ů Ť ň é ů ů ú ň é ú ť ť é é é ů é é ů é é ť ň ú ú ů é é ů ů ú é ů é ů é ů ť ů ú
Í ÁŇ Ý ÚŘ ú ů é é Č ó ž ů ú é ú ú ť é é é é ž Č ů é é ů ů ň ť ú Í ů é é ť é ň é ů ů ú ú Í é é é ú Ú ů Í Č Č ú ň ú Ú ů é é ň ů ž ů ů ů ů é é é é ú ň é ú ú ů é é ů ů Č é ň ú ú ů é é ů Ť ň é ů ů ú ň é ú ť
Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie
Klasifikace a rozpoznávání Bayesovská rozhodovací teorie Extrakce p íznaků Granáty Četnost Jablka Váha [dkg] Pravděpodobnosti - diskrétní p íznaky Uvažujme diskrétní p íznaky váhové kategorie Nechť tabulka
š š š š Ú Ú ů ů Ř ý
Ě Ý úř Ě Á š š Ú Ú ů ý š ý š ž ú ý ú ú ú š ú ú ÚČ ž ť š ý Ř Ž ť š Í ť úř Ř š š š š Ú Ú ů ů Ř ý Ě Ř ý ŠÍ ž ů ů š Š Ó ž Č Ú ý ú ý š Ě Ř ý ú ů Í Í š ů Ó Ů Ž Í Č ů ů Ř ŠÍ Ů ý ň Ž ý ž ý ů Í ÚČ ůš ú Í ýš ž ýš
Dopravní plánování a modelování (11 DOPM )
Department of Applied Mathematics Faculty of Transportation Sciences Czech Technical University in Prague Dopravní plánování a modelování (11 DOPM ) VISUM kalibrace, validace, prognóza Prof. Ing. Ondřej
Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague
1 / 23 Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 2 / 23 biologové často potřebují najít často se opakující sekvence DNA tyto sekvence bývají relativně krátké,
ž ú ú ý š ž ý ý ů ž ů ž ý ů š š ů ž ž ž ý Ú Ú Ú ň ž ý Š ý š ž ž ý š ú ý
Ú ú ň ý ž ú ž ů Š Ž Ó ýš ž š š ž š ý ů ý ž ý ů ý ž Ž ž ú ú ý š ž ý ý ů ž ů ž ý ů š š ů ž ž ž ý Ú Ú Ú ň ž ý Š ý š ž ž ý š ú ý Ž ú ž ů šť ý ý ú š ž ý ý ý ů ž ž ž ů ůž ž š ž š ž ž ž ž š ž ž ž š ž š š ž ý
UNIVERZITA PARDUBICE
UNIVERZITA PARDUBICE Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie na téma Tvorba grafů v programu Origin Vedoucí licenčního studia Prof. RNDr. Milan Meloun, DrSc.
Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map
Vytěžování dat 6: Self Organizing Map Michael Anděl Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 10 Slef Organizing Map SOM Toolbox V dnešním cvičení
Validácia reklasifikovaných predikčných máp
Valdáca reklasfkovaných predkčných máp Renata Ďuračová, Mlan Muňko, Lukáš Karell Katedra geodetckých základov Stavebná fakulta STU v Bratslave Aktvty v v kartograf venované Jánov Jánov Pravdov Kartografcká
Redukční věta princip
SA Přednáška 4 Redukční věta Staticky neurčité příhradové konstrukce Spojité nosníky Uzavřené rámy Oecné vlastnosti staticky neurčitých konstrukcí Copyright (c) Vít Šmilauer Czech Technical University
Klasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn]
Klasifikace podle nejbližších sousedů Nearest Neighbour Classification [k-nn] Michal Houdek, Tomáš Svoboda, Tomáš Procházka 6. června 2001 1 Obsah 1 Úvod 3 2 Definice a postup klasifikace 3 3 Příklady
Woody a Steina Vasulkovi
Woody a Steina Vasulkovi W o o d y & S t e i n a Va s u l k a V i d e o a r t o v á t v o r b a m a n ž e l ů Va s u l k o v ý c h j e v ý z n a m n ý m m e z n í k e m v e s v ě t o v é t v o r b ě u
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV INTELIGENTNÍCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INTELLIGENT SYSTEMS VLIV PŘESNOSTI
š š ň š Š š š ň ú ť ň š š
Ť š š ň š Š š š ň ú ť ň š š š Ú š š ň Š Š ú š š ď š ň ť ň š Č š š Í Á š š š š š Ř š š š ť š š š š ň š ň Č ó š Č š š ť š š Ž Š ť Ř š š š š ú š Ř Č šť Í ó Ě Š š š š ň š šš š Š š ú ň š š š š š Č š š ť š š
ů ý ž ý ý ú Ý ů ý ů Ž Ž ú ů
ý ý Ž Ž ý Ž ý ů ů ů ý ý ý Ž Ú ý ů ý ů Ž Ž ů ý ž ý ý ú Ý ů ý ů Ž Ž ú ů ý ý ý ý ý ž ž ů ý ý ž ž Ž ž ý ž ý ý ů ý ý ů ň ž É ů ú ý ů Ž ů ÍŽ ů ů ú ý ů Ž ů ž ů É ý ý ý ů ý ů ů ý ů Í ů Ů ž Ž Ó ň ň Š ů ů ú ž ů
Č Ž ú ú ú Š ú Š ú ú ó ú Č ú ú ú Č Ů ú ň ú ú Ě ú ú
Ř ú ú Č ó ú ú Ů Ž Č Ž ú ú ú Š ú Š ú ú ó ú Č ú ú ú Č Ů ú ň ú ú Ě ú ú Ř ú ó ú ú Č ó ó ú ú ú ú ú ú ó ú ú ň Š Č Š ú ň ó Č Č ú ó Ů Ú ó Ť ú ó Č ó Ň ó ó ó Č ó ó ú ď Ů ú ú Š ú ň ň Ň ú ú ú Č Š ú ú Ů Ů Ž Ú Š ú Š
StatSoft Jaký je mezi nimi rozdíl?
StatSoft Jaký je mezi nimi rozdíl? GAINS ROC X P okud se zabýváte klasifikačními úlohami, pak většinou potřebujete nějakým způsobem mezi sebou porovnat kvalitu vyprodukovaných modelů. Mezi základní pomůcky
Ukázka knihy z internetového knihkupectví
Ukázka knihy z internetového knihkupectví www.kosmas.cz U k á z k a k n i h y z i n t e r n e t o v é h o k n i h k u p e c t v í w w w. k o s m a s. c z, U I D : K O S 2 1 4 4 1 4 U k á z k a k n i h
ZADÁNÍ BAKALÁŘSKÉ PRÁCE
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ZADÁNÍ BAKALÁŘSKÉ PRÁCE Název: Identifikace funkčního stylu dokumentu Student: Svetlana Ekimova Vedoucí: doc.rndr.ing. Marcel Jiřina,
Aplikovaná numerická matematika
Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních