Základy vytěžování dat

Rozměr: px
Začít zobrazení ze stránky:

Download "Základy vytěžování dat"

Transkript

1 Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

2 Testování a kombinování modelů Odkaz na výukové materiály: (oddíl 6) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

3 Vytěžování dat, přednáška 11: Testování modelů Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 31 Testování modelů

4 Chyba modelu Jak zjistíme jestli je vytvořený model dobrý a případně jak moc je dobrý? Musíme jej vyzkoušet. Zkusíme aplikovat model na data a podíváme se, jak model funguje... Ale na jaká data? Ideálně na všechny vstupní vzory, které se kdy mohou objevit (a ideálně i se stejnou distribucí). Ale takových je nekonečně mnoho. Ale máme (snad) reprezentativní vzorek trénovací množinu. 2 / 31 Testování modelů

5 Chyba na trénovacích datech Můžeme zjistit chybu modelu na trénovacích datech? No jasně, můžeme. A je to dobrý odhad chyby modelu na neznámých datech? Ne, není! Proč? Vůbec totiž neříká, jak se bude model chovat pro neznámá data. 3 / 31 Testování modelů

6 Špatný model Představme si klasifikační metodu, která si jen zapamatuje vstupní vzory a pokud přijde na vstup zapamatovaný vzor, odpoví zapamatovanou třídou. Jinak odpoví NIL. Trénovací data: x 1 x 2 x 3 x 4 y A A B B Jakou má chybu na trénovacích datech? Nulovou! A jakou chybu bude mít na neznámém vzoru? Třeba (1.1, 1.05, 1.55, 1.85). 100%. Čili nedokáže generalizovat! Neumí zobecnit vlastnosti, které jsou schované v trénovacích datech. 4 / 31 Testování modelů

7 Přeučení Druhým a neméně důležitým problémem je přeučení. Jde o to, že model se naučí i závyslosti, které v datech nejsou. Představte si, že se snažím predikovat, zda bude pršet, svítit sluníčko nebo bude zataženo, podle toho, jaká je teplota a vlhkost vzduchu. Při měření se ale občas přehlédnu a zapíši špatný údaj. 5 / 31 Testování modelů

8 Trénovací data Ale tyto nechci, aby se tyto chyby model naučil. Naopak chci, aby ostatní (správná) data tyto chyby překryla. 6 / 31 Testování modelů

9 Testovací data Jak se tedy vyzrát na tento problém? Respektive, jak zjistit, jestli je model opravdu dobrý? Zkusím jej na datech, které model neviděl při učení! Tímto získám nevychýlený odchad chyby modelu na skutečných (doposud neznámých) datech. 7 / 31 Testování modelů

10 Chyba na trénovacích a Testovacích datech 8 / 31 Testování modelů

11 Trénovací a testovací data Jak získat trénovací a testovací množinu? Už jsme na to narazili rozdělím náhodně data na trénovací a testovací část. Proč náhodně? Nemůžu jen vzít první a druhou polovinu instancí? 9 / 31 Testování modelů

12 Chyba modelu při jiných testovacích datech Když zkusím spočítat chybu modelu na jiných testovacích datech, získám stejnou chybu? (nejen) Chybovost modelu je vlastně náhodná veličina s (většinou) normálním rozdělením. Tím, že spočítám chybu na testovací množině, získám jednu realizaci náhodné proměnné. Když budu počítat chybu na různých testovacích množinách, získám několik realizací chybové náhodné proměnné a můžu spočítat průměrnou chybu a získat tak představu, jak moc je jeden konkrétní model dobrý/špatný. 10 / 31 Testování modelů

13 Chyba modelu při jiných trénovacích datech Když znovu spustím učení modelu, vznikne mi vždy naprosto stejný model? Teď už vím, jak moc je špatný jeden model. Ale co když mám smůlu a tento model se naučil výrazně hůře/lépe než jiný model vytvořený stejnou metodou. Vím jak moc je dobrá jedna BP neuronová síť, ale jak moc jsou dobré všechny BP neuronové sítě? A jsou lepší než naivní bayesovská síť? Zase parametry chyby jedné realizace modelu jsou jen náhodnými proměnnými všech modelů naučených na tato data. 11 / 31 Testování modelů

14 Statistika chyb Takže průměrná chyba jednoho modelu je zase jen jedna z množných realizací náhodné veličiny hodnota průměru všech modelů této modelovací metody. Čili, pokud vytvořím a spočítám průměrnou chybu pro jeden model, nemusí to nic znamenat o jiných modelech naučených stejnou technikou.!pomoc! 12 / 31 Testování modelů

15 X-fold cross validace (1) Řešením je opakovaně rozdělovat data na trénovací a testovací množinu. A to buď náhodně a nebo nějak systematicky. A uznávaný systematický přístup je křížová validace. Ta funguje tak, že data rozdělím do N částí. Zlatý standard je poružít 10 částí. Pak se mluví o 10 cross fold validation. A to buď náhodně nebo i podle pořadí. 13 / 31 Testování modelů

16 X-fold cross validace (2) A model pak postavím na N-1 částech (foldech) a na poslední model otestuji. Tím získám jeden odhad chyby. Posunu se o jedna doprava a zase postavím model na (N-1) částech a na zbylém otestuji. 14 / 31 Testování modelů

17 X-fold cross validace (3) Takto získám N odhadů chyby. Z toho již dokáži spočítat statistiku například průměrnou chybu klasifikátoru a získat tak poměrně přesný (uvěřitelný) odhad chyby dané klasifikační metody na předložených datech. Navíc s těmito N odhady mohu provádět další statistické testy a vizualizace (boxploty, t-testy,...) Navíc každý vstupní vzor bude v testovací množině právě jednou. Čili získám představu, jak klasifikátor bude fungovat pro tento konkrétní vzor. 15 / 31 Testování modelů

18 Použití křížové validace Možné příklady použití křížové validace: odhad přesnosti modelu na datech, Provedu křížovou validaci a průměr chyb z každé z N validací je nevychýleným odhadem chyby modelu. výběr vhodných parametrů modelu, Vytvořím modely s různými parametry a na každý z nich spustím křížovou validaci. A opět spočítám pro každé nastavení modelu průměrnou chybu z křížové validace a vyberu tu konfiguraci (ty parametry), které mají nejmenší průměrnou chybu. porovnání modelovacích metod. Pro každou modelovací metodu spočítám průměrnou chybu pomocí křížové validace a vyberu tu metodu, která má nejmenší průměrnou chybu. 16 / 31 Testování modelů

19 Validační množina Zejména při použití křížové validace pro určení parametrů se ještě používá tzv. validační množina. Jde o to, že před začátkem křížové validace z dat odeberu část validační množinu. Na zbytku spustím křížovou validaci a najdu optimální parametry. Pak naučím model s těmito optimálními parametry na celé datové množině, kterou jsem předtím použil pro křížovou validaci a abych měl jistotu, že učení modelu dopadlo dobře, naučený model nechám oklasifikovat validační množinu a spočítám validační chybu. 17 / 31 Testování modelů

20 Nevýhoda trénovacích/testovacích/validačních chyb Představme si datovou množinu se dvěma třídami zdraví pacienti a nemocní pacienti. Zdravých pacientů je 95% dat a nemocných je zbývajících 5% pacientů. Jakou chybu na testovacích datech (vybraných jako podmnožinu z tohoto datasetu) bude mít klasifikátor, který bude předpovídat, že všichni pacienti jsou v pořádku? 95% to je super klasifikátor! Ale dělá něco užitečného? NE! Takový klasifikátor je k ničemu. Dokáži zjistit z testovací chyby, že klasifikátor provádí něco takového? 18 / 31 Testování modelů

21 Matice záměn Řešením je matice záměn. 19 / 31 Testování modelů

22 Specificita a senzitivita (1) Pokud mám binární klasifikátor (tj klasifikátor, který zařazuje do dvou tříd), mohu čísla v matici záměn kvantifikovat číslem. Často se používá specificita a senzitivita. Abychom je dokázali spočítat, musíme se nejdřív zamyslet nad zavést pojmy: Positive examples jedna z tříd binárního klasifikátoru (v našem příkladě lidé mající nemoc). Negative examples druhá z tříd (v našem příkladě zdraví lidé). 20 / 31 Testování modelů

23 Specificita a senzitivita (2) True positives (TP) vzory, které model správně označil jako pozitivní (tj lidé, kteří jsou ve skutečnosti jsou nemocní a model je také označil za nemocné). True negatives (TN) vzory, které model správně označil jako negativní (tj lidé, kteří jsou ve skutečnosti jsou zdraví a model je také označil za zdravé). False positives (FP) vzory, které model mylně označil jako pozitivní (tj lidé, kterí jsou ve skutečnosti zdraví, ale model je označil za nemocné). False negatives (FN) vzory, které model mylně označil jako negativní (tj lidé, kterí jsou ve skutečnosti nemocní, ale model je označil za zdravé). 21 / 31 Testování modelů

24 Specificita a senzitivita (2) Když se podívám do matice záměn, můžu přímo zjistit počty vzorů spadající do jednotlivých škatulek (TP, TN, FP, FN). Actually positive Actually negative Predicted positive #True positives #False positives Predicted negative #False negatives #True negatives 22 / 31 Testování modelů

25 Specificita a senzitivita (3) Teď můžu konečně spočítat specificitu a senzitivitu. specificita = sensitivita = #True negatives #True negatives + #False negatives #True positives #True positives + #False positives Specificita je tedy procento správných negatives ze všech vzorů, které byly označeny za negatives (Procento skutečně zdravých lidí mezi všemi, kteří byli modelem označeni za zdravé). Senzitivita je tedy procento správných positives ze všech vzorů, které byly označeny za positives (Procento skutečně nemocných lidí mezi všemi, kteří byli modelem označeni za nemocné). 23 / 31 Testování modelů

26 Specificita a senzitivita (4) Když se vrátím k příkladu s klasifikátorem, který klasifikuje všechny lidi, jako zdravé. Jaká bude specificita a senzitivita? Specificita = 1.0 Senzitivita = / 31 Testování modelů

27 ROC křivka (1) Specificita a senzitivita jsou jen jednou z možností, jak vyhodnocovat možnosti a vlastnosti binárního klasifikátoru. Další hojně využívanou možností je ROC křivka. Typickým výstupem binárního klasifikátoru není přímo hodnota Positive/Negative, ale většinou klasifikátor vrátí číselnou hodnotu a pomocí prahu prozhodnu, kam aktuální vzor zařadím. Typicky se práh volí 0.5, ale jak se změní chyba klasifikátoru, když změní práh? 25 / 31 Testování modelů

28 ROC křivka (2) Mějme klasifikátor, který na tělesné teploty klasifikuje, zda se jedná o zdravého nebo nemocného. Pokud má člověk teplotu menší než práh, jedná se o zdravého člověka. Pokud větší, jedná se o nemocného. Pokud prahem posunu doprava, klasifikuji správně více zdravých lidí, ale (z principu) se mezi ně připletou i nemocní. A obráceně při posunu prahu doleva. 26 / 31 Testování modelů

29 ROC křivka (3) Pak můžu nakreslit graf, kde na na ose Y je počet true positives, na ose X je počet false positives. Minirhizotron/default.htm 27 / 31 Testování modelů

30 ROC křivka (4) Jak bude vypadat ROC křivka ideálního klasifikátoru (který bezchybně rozděluje obě třídy)? Jak bude vypadat ROC křivka náhodného klasifikátoru (který má chybu 50%)? Pro lepší posouzení kvality ROC křivek můžu použít plochu, kterou shora ohraničuje ROC křivka (Area under curve). 28 / 31 Testování modelů

31 Lift Lift je další způsob, jak měřit kvalitu klasifikátoru ve specifických úlohách. Mám klasifikátor, který identifikuje zákazníky, kteří by mohli kladně odpovědět na marketingovou nabídku. A ptám se, když oslovím 10% všech mých zákazníků, které model identifikoval jako nejnadějnější, kolik procent zákazníků, kteří by skutečně odpověděli jsem oslovím. lift = procento oslovených zákazníků, kteří budou kladně reagovat procento oslovených zákazníků Například oslovím 10% zákazníků T-Mobilu a mezi nimi je 50% těch, kteří si skutečně zaplatí nový internet do mobilu, mám lift = 50% 10% = / 31 Testování modelů

32 Lift křivka Když vynesu do grafu lift pro různé počty oslovených zákazníků, získám lift chart, který vypadá takto: 30 / 31 Testování modelů

33 Zdroje a další čtení characteristic specificity chart/lift_chart.html confusion_matrix/confusion_matrix.html 31 / 31 Testování modelů

34 Vytěžování dat, přednáška 12: Kombinování modelů Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 33 Kombinování modelů

35 Ensembles (Kombinování modelů) Aneb víc hlav, víc ví! Co když jsme se dostali na hranice možností jednoho modelu? Co když už delší učení nebo složitější model vede už jen k přeučení modelu? Co s tím? 2 / 33 Kombinování modelů

36 Motivace Soutěž Netflix prize (predikce, které filmy by se zákazníkovi mohli také líbit, když viděl a nějak ohodnotil jinou skupinu filmů?) Respektive cílem je předpovědět hodnocení filmu konkrétním zákazníkem, když víme, jak hodnotil jiné filmy v minulosti. A cenu ( USD) získá ten, kdo dokáže na testovací množině zlepšit přesnost o 5%. 3 / 33 Kombinování modelů

37 Motivace (2) A všechny TOP týmy používají ensembly modelů. 4 / 33 Kombinování modelů

38 Kombinace modelů Kombinace modelů je cestou, jak získat lepší přesnost, než je přesnost nejlepšího z modelů. Každý model dělá chyby pro trochu jiná data. A trochu jiné chyby. Čili, když se zkombinují dohromady, možná modely v ensemblu své chyby eliminují. Také tím, že zkombinuji různé modely, dokáže výsledný model aproximovat rozhodovací hranici, kterou by jinak samostatné modely nedokázaly proložit. Analogie z idealizované zkoušky každý student se naučí látku (každý s jinými chybami) a společně rozhodují o odpovědích na otázky. A v ideálním případě by měli u každé otázky odpovědět správně :). 5 / 33 Kombinování modelů

39 Variance modelů (rozptyl chyby modelů) Vraťme se ještě k chybám modelů. Jak jsem povídal posledně, když vytvořím různé modely (i na stejných datech), nebudou mít stejnou chybu, ale jejich chyby se budou lišit. Například použiji jiné počáteční hodnoty, nebo vezmu jinou podmnožinu trénovací množiny. 6 / 33 Kombinování modelů

40 Variance modelů (rozptyl chyby modelů) (2) Nicméně chyby všech takto vytvořených modelů by měly být z normálního rozdělení se stejnou střední hodnotou a rozptylem. Čili rozptyl modelů udává jako moc se liší chyba jednotlivých modelů od ideální střední chyby. 7 / 33 Kombinování modelů

41 Bias modelů (Zaujetí modelů) Bias (zaujetí) vyjadřuje systematickou chybu způsobenou (například) špatně zvolenou trénovací množinou. 8 / 33 Kombinování modelů

42 Nedoučení modelu (underfitting) Model (například lineární regrese) je příliš jednoduchý, aby dokázal popsat data. Modely budou mít nízkou varianci, ale vysoký bias. Co to znamená? Modely si budou podobné, ale mají velkou chybu proti původním datům. 9 / 33 Kombinování modelů

43 Přeučení modelu (overfitting, už zase) Model je příliš ohebný a naučil se i šum, který v datech ve skutečnosti není. Modely budou mít nízký bias, ale vysokou varianci, ale nízký bias. Co to znamená? Modely sice budou mít nízkou chybu na datech, ale jednotlivé modely budou hodně rozdílné. 10 / 33 Kombinování modelů

44 Kombinování modelů prevence přeučení Přeučení model se naučí i šum v datech a na testovacích datech vykazuje velké chyby. Mám skupinu modelů, a každý jsem naučil na jiné podmnožině trénovacích dat. A každý model jsem možná přeučil. Ale můžu něčeho dosáhnout jejich kombinací? Snížili jsme rozptyl modelů. 11 / 33 Kombinování modelů

45 Kombinování modelů snižování zaujetí Jednoduché modelovací metody s malou ohebností (opět naučené na různých podmnožinách dat) nedokáží dobře aproximovat rozhodovací hranici. Jejich kombinací opět dokáži získat mnohem ohebnější hranici a tedy i menší chybu. 12 / 33 Kombinování modelů

46 Skupiny modelů Síla seskupování modelů tkví v diverzitě (různorodosti) modelů. Diverzity modelů můžu dosáhnout dvěma cestami: Vytvořit modely pomocí různých modelovacích technik. Vytvořit modely nad různými podmnožinami trénovací množiny. Základní použití všech ensemblovacích algoritmů má následující schéma: 1. Vyber stavební jednotky ensemblu (vhodné modely) a vytvoř pro každý trénovací množinu. 2. Natrénuj všechny modely v ensemblu (učení jednotlivých modelů může být závyslé na učení ostatních modelů v ensemblu). 3. Výstup skupiny modelů spočítej výstup všech modelů v ensemblu a jejich výstup skombinuj do výsledného výstupu. 13 / 33 Kombinování modelů

47 Základní ensemblovací algoritmy Pro klasifikační a regresní úlohy se dají použít: Bagging Boosting Stacking Cascade generalization Pouze pro klasifikační úlohy se také dají použít: Cascading Delegating Arbitrating 14 / 33 Kombinování modelů

48 Bagging Nejjednodušší ensemblovací metoda. Nezávysle naučím skupinu modelů. Výstup ensemblu se určí: pro regresi spočítám průměrnou hodnotu ze všech výstupů modelů v ensemblu. pro klasifikaci spočítám majoritu z výstupů modelů v ensemblu. 15 / 33 Kombinování modelů

49 Bagging (2) 16 / 33 Kombinování modelů

50 Boosting Naučím posloupnost modelů, každý další model se bude všímat té část vstupních dat, ve které předchozí modely chybovaly. To, jak moc si bude model všímat vstupních dat se vyjadřuje vahami vstupního vzoru. Oklasifikuji trénovací data všemy doposud naučenými modely a vzorům, na kterých jsem udělal chybu, přidám do trénovací množiny následujícího modelu. Z toho vyplývá, že se modely učí jeden po druhém. Výstup ensemblu se spočítá jako vážený průměr (vážená majorita). Váhy pro majoritu se určí na základě přesnosti jednotlivých modelů. 17 / 33 Kombinování modelů

51 Boosting (2) 18 / 33 Kombinování modelů

52 Adaboost Nejznámější algoritmus pro Boosing se nazývá Adaboost. Základní algoritmus předpokládá klasifikaci do dvou tříd (+1 / -1). Značení n je počet vzorů v trénovací množině. h t je model (klasifikátor). 1. Nastav konstantní váhů všech vzorů v trénovací množině na D 1 (i) = 1 n a nastav t = Nauč klasifikátor h t. 3. Spočítej globální chybu na trénovacích datech η t = i,h t (x i ) y i D t (i) 4. Změň váhy všech vstupních vzorů, u kterých klasifikátor h t udělal chybu. D t+1 (i) = D t(i) η t Z i 1 η t. i, kde h t (x i ) y i. 5. Pokud globální chyba η t klesla pod stanovenou hranici, skonči. Jinak pokračuj bodem 2. Prezentace věnovaná přímo algoritmu Adaboost 19 / 33 Kombinování modelů

53 Stacking Nezávysle naučím skupinu modelů. Pro určení finálního výstupu použiji místo majority další model (meta model). Získám tím větší možnosti pro kombinaci výstupů jednotlivých modelů. Výstupy jednotlivých modelů slouží vstupy meta modelu. Při počítání výstupu spočítám výstupy jednolivých modelů, které pak pustím do meta modelu, který spočítá skutečný výstup. 20 / 33 Kombinování modelů

54 Stacking (2) 21 / 33 Kombinování modelů

55 Cascade generalization Modely v ensemblu tvořím postupně, ke vstupním proměnným postupně přidávám výstupy předchozích modelů. Vstupem i-tého modelu jsou tedy vstupní proměnné (x 1, x 2,..., x n, y 1,..., y i 1 ) Kde y 1,..., y i 1 jsou výstupy předchozích modelů. Modely je tedy učí jeden po druhém a výstupem ensemblu je výstup posledního modelu. 22 / 33 Kombinování modelů

56 Cascade generalization (2) 23 / 33 Kombinování modelů

57 Cascading Podobně jako u Boostingu se další modely specializují na vzory, které předchozí modely klasifikovaly špatně které indikovaly nízkou pravděpodobnost přiřazení vzoru do dané třídy. Při počítání výstupu ensemblu se použije výstup modelu, který udává dostatečně vysokou ppst výstupní třídy. 24 / 33 Kombinování modelů

58 Cascading (2) 25 / 33 Kombinování modelů

59 Delegating Trénovací množina prvního modelu je celá trénovací množina. Do trénovací množiny dalšího klasifikátoru se přiřadím stupní vzory, které byly klasifikovány špatně nebo ppst jejich zařaení do správné třídy je menší než určený práh. Výstup ensemblu je výstup modelu, který indikuje dostatečně vysokou ppst přiřazení do dané třídy. 26 / 33 Kombinování modelů

60 Delegating (2) 27 / 33 Kombinování modelů

61 Arbitrating Trochu zvláštní metoda, kde jsou dva typy modelů standardní modely, predikující cílovou proměnnou, rozhodčí modely, které predikují úspěšnost standardních modelů. Každý stadardní model má svůj rozhočí model. Každá dvojice stardní+rozhodčí model je učena nezávisle. Výstupem ensemblu je model, jehož rozhodčí predikuje nejvyšší míru úspěchu. 28 / 33 Kombinování modelů

62 Arbitrating (2) 29 / 33 Kombinování modelů

63 Výběr relevatních příznaků Poslední téma tohoto kurzu opravdu všechny vstupní proměnné potřebuji ke klasifikaci? Při klasifikaci zdravých a nemocných lidí asi bude hrát větší roli jejich teplota a tlak, než barva vlasů. Techniky, které vybírají vhodné vstupní proměnné, se označují jako feature selection (případně feature ranking) metody. A dělí se do dvou hlavních kategorií: feature selection tyto metody dodají seznam vstupních proměnných (atributů), které považují za důležité, feature ranking tyto metody přiřadí každému atributu skóre, který indikuje vliv atributu na výstupní třídu. 30 / 33 Kombinování modelů

64 Feature selection Typicky hledají podmnožinu atributů, na které model ještě funguje dobře. Dělí se do 3 hlavních kategorií: Wrappers vyberou skupinu atributů, nad ní naučí nějaký model, spočítají jeho přesnost a podle přesnosti upraví skupinu atributů, atd... Filters fungují dost podobně, jen místo modelů se vyhodnocují tzv. filtry. Filtry se v této souvislosti rozumí například korelace mezi vybranou skupinou vstupů a výstupem nebo vzájemná informace,... Embedded techniques tento způsob je zabudován do učícího algoritmu modelu a podle toho, které proměnné model využívá, se sestavuje seznam důležitých atributů. 31 / 33 Kombinování modelů

65 Feature selection (2) Při hledání vhodné kombinace se často uplatňuje hladový přístup. Nejprve hledám množinu s jedním atributem, která má nejvyšší skóre (například nejvyšší přesnost modelu). K této jednoprvkové množině zkouším přidávat další atribut a hledám, který přinese největší zlepšení modelu. Pak hledám třetí, a tak dále, dokud se model nepřestane zlepšovat. 32 / 33 Kombinování modelů

66 Feature ranking Přiřazuje každé vstupní proměnné skóre, které určuje její významnost. Často se používají stejné metody, které se na předchozím slajdu označovaly jako filters: vzájemná informace mezi jednotlivými atributy a výstupem, korelace, informační entropie, přesnost perceptronu s jedním vstupem. Je pak na člověku, jak těchto informací využije. 33 / 33 Kombinování modelů

67 Vytěžování dat, cvičení 12: Neuronové sítě typu Back Propagation Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 5 Neuronové sítě

68 Zadání domácího úkolu V software Rapidminer experimentujte s implementací neuronové sítě typu back-propagation. Touto sítí klasifikujte dodaná data (Glass identification dataset viz. Glass+Identification). Experimentujte s počtem skrytých vrstev a počty neuronů v těchto vrstvách - najděte co možná nejpřesnější a nejméně přesnou konfiguraci neuronové sítě. Zkuste najít minimální počty neuronů ve skrytých vrstvách, pro které síť ještě dokáže data klasifikovat s rozumnou chybou. Pro odchad chyby vždy použijte 10 násobnou Cross-validaci. 2 / 5 Neuronové sítě

69 Zadání domácího úkolu (2) Pro nejpřesnější a nejméně přesnou konfiguraci neuronové sítě vytvořte matici záměn (confusion matrix) a ilustrujte na nich rozdíly v klasifikaci. V datech změňte výstupní třídu tak, aby indikovala Sklo typu 2 nebo 3 a Všechna ostatní skla. Pro takto změněná data a několik neuronových sítí (viz další bod) zobrazte ROC křivku a okomentujte, co ROC křivka říká. Na jejich základě učiňte závěr, která konfigurace neuronové sítě dává nejlepší výsledky. Použijte NS s jedním neuronem v obou skrytých vrstvách a pak vaši nejlepší a nejhorší nalezenou konfiguraci. 3 / 5 Neuronové sítě

70 Obsah zprávy Obsahem zprávy bude: popis výsledků pro jednotlivé konfigurace (počty skrytých vrstev a počty neuronů v nich) neuronové sítě a volitelně i zobrazení NS v jedné konfiguraci, popis výsledků získaných z ROC křivek a jejich zobrazení, váš komentář k předchozím bodům. V domácím úkolu můžete použít Rapidminer proudy, které naleznete na webu cvičení. 4 / 5 Neuronové sítě

71 Uzly Neuronová síť typu back-propagation, kterou máte zkoumat se skrývá v uzlu nazvaném Neural Net Uzly v programu Rapid miner, které se vám také mohou hodit: Apply Model Performance Validation Read CSV 5 / 5 Neuronové sítě

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL)

Více

Miroslav Čepek 16.12.2014

Miroslav Čepek 16.12.2014 Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti 16.12.2014

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT RNDr. Eva Janoušová INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ HODNOCENÍ ÚSPĚŠNOSTI KLASIFIKACE A SROVNÁNÍ KLASIFIKÁTORŮ ÚVOD Vstupní data Subjekt Objem hipokampu Objem komor Skutečnost

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 11 1/31 Vytěžování znalostí z dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical

Více

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru Vytěžování dat, cvičení 2: Úvod do RapidMineru Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 23 Úvod do RapidMineru Dnes vám ukážeme jeden z mnoha

Více

Základy vytěžování dat

Základy vytěžování dat Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 9 1/16 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Neuronové časové řady (ANN-TS)

Neuronové časové řady (ANN-TS) Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili? Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace

Více

DATA MINING KLASIFIKACE DMINA LS 2009/2010

DATA MINING KLASIFIKACE DMINA LS 2009/2010 DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných

Více

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili? Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? 2 Osnova Úvod různé klasifikační modely a jejich kvalita Hodnotící míry (kriteria kvality) pro zvolený model. Postup vyhodnocování

Více

Testování modelů a jejich výsledků. tomu, co jsme se naučili?

Testování modelů a jejich výsledků. tomu, co jsme se naučili? Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace

Více

LDA, logistická regrese

LDA, logistická regrese Vytěžování Dat Přednáška 9 Lineární klasifikátor, rozšíření báze, LDA, logistická regrese Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Více

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování

Více

Státnice odborné č. 20

Státnice odborné č. 20 Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin

Více

Statistická analýza dat

Statistická analýza dat Statistická analýza dat Jméno: Podpis: Cvičení Zkouška (písemná + ústní) 25 Celkem 50 Známka Pokyny k vypracování: doba řešení je 120min, jasně zodpovězte pokud možno všechny otázky ze zadání, pracujte

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 6 Jak analyzovat kategoriální a binární

Více

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005 Rozpoznávání písmen Jiří Šejnoha Rudolf Kadlec (c) 2005 Osnova Motivace Popis problému Povaha dat Neuronová síť Architektura Výsledky Zhodnocení a závěr Popis problému Jedná se o praktický problém, kdy

Více

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Vytěžování Dat Přednáška 9 Lineární klasifikátor, rozšíření báze, LDA, logistická regrese Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Více

Statistická teorie učení

Statistická teorie učení Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální

Více

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/ Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117 O čem se bude mluvit? Čtyřpolní tabulky Osnova prezentace Čtyřpolní tabulky 1. přístupy

Více

Pravděpodobně skoro správné. PAC učení 1

Pravděpodobně skoro správné. PAC učení 1 Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.

Více

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

Trénování sítě pomocí učení s učitelem

Trénování sítě pomocí učení s učitelem Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.

Více

1 Linearní prostory nad komplexními čísly

1 Linearní prostory nad komplexními čísly 1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)

Více

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.

Více

Analytické procedury v systému LISp-Miner

Analytické procedury v systému LISp-Miner Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS Veronika NEVTÍPILOVÁ Gisáček 2013 Katedra Geoinformatiky Univerzita Palackého v Olomouci Cíle otestovat kvalitu interpolace pomocí

Více

Změkčování hranic v klasifikačních stromech

Změkčování hranic v klasifikačních stromech Změkčování hranic v klasifikačních stromech Jakub Dvořák Seminář strojového učení a modelování 24.5.2012 Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment

Více

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Vytěžování Dat Přednáška 9 Lineární klasifikátor, rozšíření báze, LDA, logistická regrese Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Více

Předzpracování dat. Lenka Vysloužilová

Předzpracování dat. Lenka Vysloužilová Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání

Více

Instance based learning

Instance based learning Učení založené na instancích Instance based learning Charakteristika IBL (nejbližších sousedů) Tyto metody nepředpokládají určitý model nejsou strukturované a typicky nejsou příliš užitečné pro porozumění

Více

Ochutnávka strojového učení

Ochutnávka strojového učení Ochutnávka strojového učení Úvod do problematiky Barbora Hladká http://ufal.mff.cuni.cz/bvh Univerzita Karlova Matematiko-fyzikální fakulta Ústav formální a aplikované lingvistiky TechMeetUp Ostrava 21/3/18

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Připomeň: Shluková analýza

Připomeň: Shluková analýza Připomeň: Shluková analýza Data Návrh kategorií X Y= 1, 2,..., K resp. i jejich počet K = co je s čím blízké + jak moc Neposkytne pravidlo pro zařazování Připomeň: Klasifikace Data (X,Y) X... prediktory

Více

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291 Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Cvičení ze statistiky - 3. Filip Děchtěrenko

Cvičení ze statistiky - 3. Filip Děchtěrenko Cvičení ze statistiky - 3 Filip Děchtěrenko Minule bylo.. Dokončili jsme základní statistiky, typy proměnných a začali analýzu kvalitativních dat Tyhle termíny by měly být známé: Histogram, krabicový graf

Více

O kurzu MSTU Témata probíraná v MSTU

O kurzu MSTU Témata probíraná v MSTU O kurzu MSTU Témata probíraná v MSTU 1.: Úvod do STU. Základní dělení, paradigmata. 2.: Základy statistiky. Charakteristiky, rozložení, testy. 3.: Modely: rozhodovací stromy. 4.: Modely: učení založené

Více

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších

Více

Metody analýzy modelů. Radek Pelánek

Metody analýzy modelů. Radek Pelánek Metody analýzy modelů Radek Pelánek Fáze modelování 1 Formulace problému 2 Základní návrh modelu 3 Budování modelu 4 Verifikace a validace 5 Simulace a analýza 6 Sumarizace výsledků Simulace a analýza

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr

Více

StatSoft Jaký je mezi nimi rozdíl?

StatSoft Jaký je mezi nimi rozdíl? StatSoft Jaký je mezi nimi rozdíl? GAINS ROC X P okud se zabýváte klasifikačními úlohami, pak většinou potřebujete nějakým způsobem mezi sebou porovnat kvalitu vyprodukovaných modelů. Mezi základní pomůcky

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 6 1/18 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality RNDr. Alena Mikušková FN Brno Pracoviště dětské medicíny, OKB amikuskova@fnbrno.cz Analytické znaky laboratorní metody

Více

Jak bude zítra? Skoro jako dneska. Dan Lessner

Jak bude zítra? Skoro jako dneska. Dan Lessner Jak bude zítra? Skoro jako dneska. Dan Lessner Osnova O čem budu mluvit Motivace, popis problému Vhodná data Použitá architektura sítě Zajímavá zjištění Kde je zakopaný pes? Tady Co teď s tím Další zajímavá

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Rozdělování dat do trénovacích a testovacích množin

Rozdělování dat do trénovacích a testovacích množin Rozdělování dat do trénovacích a testovacích množin Marcel Jiřina Rozpoznávání je důležitou metodou při zpracování reálných úloh. Rozpoznávání je definováno dvěma kroky a to pořízením dat o reálném rozpoznávaném

Více

oddělení Inteligentní Datové Analýzy (IDA)

oddělení Inteligentní Datové Analýzy (IDA) Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 1 / 25 Odhad rozdělení Úloha: Vstup: data D = {

Více

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a báli jste se zeptat Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)

Více

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík,, CSc. NEURONOVÉ SÍTĚ otázky a odpovědi 1 AKD_predn4, slide 8: Hodnota výstupu závisí na znaménku funkce net i, tedy na tom, zda bude suma

Více

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme

Více

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet

Více

Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD

Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD Cvičení 11 Klasifikace Jan Přikryl ČVUT FD 14. března 2018 Příklad 1 Data z akciového trhu Nejprve prozkoumáme data z akciových trhů, konkrétně denní vývoj indexu S&P v letech 2001 2005. Načteme a zobrazíme

Více

Neuronové sítě Ladislav Horký Karel Břinda

Neuronové sítě Ladislav Horký Karel Břinda Neuronové sítě Ladislav Horký Karel Břinda Obsah Úvod, historie Modely neuronu, aktivační funkce Topologie sítí Principy učení Konkrétní typy sítí s ukázkami v prostředí Wolfram Mathematica Praktické aplikace

Více

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost. Optimální rozdělující nadplocha. Support vector machine. Adaboost. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics Opakování Lineární diskriminační

Více

Obsah přednášky. 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacking 5. Boosting 6. Shrnutí

Obsah přednášky. 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacking 5. Boosting 6. Shrnutí 1 Obsah přednášy 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacing 5. Boosting 6. Shrnutí 2 Meta learning = Ensemble methods Cíl použít predici ombinaci více různých modelů Meta learning (meta

Více

Pravděpodobnost, náhoda, kostky

Pravděpodobnost, náhoda, kostky Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti

Více

Cvičná bakalářská zkouška, 1. varianta

Cvičná bakalářská zkouška, 1. varianta jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární

Více

Kombinování klasifikátorů Ensamble based systems

Kombinování klasifikátorů Ensamble based systems Kombinování klasifikátorů Ensamble based systems Rozhodování z více hledisek V běžném životě se často snažíme získat názor více expertů, než přijmeme závažné rozhodnutí: Před operací se radíme s více lékaři

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Klasifikační a regresní lesy Pokročilé neparametrické metody Klasifikační a regresní lesy Klasifikační les Klasifikační les je klasifikační model vytvořený

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1

Více

Bayesovské rozhodování - kritétium minimální střední ztráty

Bayesovské rozhodování - kritétium minimální střední ztráty Bayesovské rozhodování - kritétium imální střední ztráty Lukáš Slánský, Ivana Čapková 6. června 2001 1 Formulace úlohy JE DÁNO: X množina možných pozorování (příznaků) x K množina hodnot skrytého parametru

Více

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání a vizualizace znalostí. Olga Štěpánková et al. Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu Dobývání znalostí - popis a metodika procesu CRISP a objasnění základních pojmů Nástroje pro modelování klasifikovaných dat a jejich

Více

Úvod do zpracování signálů

Úvod do zpracování signálů 1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami Josef Keder Motivace Předpověď budoucí úrovně znečištění ovzduší s předstihem v řádu alespoň několika hodin má význam

Více

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule

Více

StatSoft Úvod do neuronových sítí

StatSoft Úvod do neuronových sítí StatSoft Úvod do neuronových sítí Vzhledem k vzrůstající popularitě neuronových sítí jsme se rozhodli Vám je v tomto článku představit a říci si něco o jejich využití. Co si tedy představit pod pojmem

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci

Více

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc Neuronové sítě a možnosti jejich využití Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc 1. Biologický neuron Osnova 2. Neuronové sítě Umělý neuron

Více