Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD

Podobné dokumenty
Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Lineární regrese. Komentované řešení pomocí MS Excel

Statistická analýza dat

You created this PDF from an application that is not licensed to print to novapdf printer (

Úvodem Dříve les než stromy 3 Operace s maticemi

4EK211 Základy ekonometrie

Korelační a regresní analýza

AVDAT Mnohorozměrné metody, metody klasifikace

Úloha - rozpoznávání číslic

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Měření závislosti statistických dat

Tomáš Karel LS 2012/2013

Odhad - Problémy se sdruženým rozdělením pravděpodobnosti

4EK211 Základy ekonometrie

Vytěžování znalostí z dat

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

4EK211 Základy ekonometrie

Pearsonův korelační koeficient

Aplikovaná statistika v R - cvičení 3

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Regresní analýza. Eva Jarošová

6. Lineární regresní modely

Regresní a korelační analýza

1 Polynomiální interpolace

Ing. Michael Rost, Ph.D.

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

MATEMATIKA III V PŘÍKLADECH

Regresní a korelační analýza

AVDAT Nelineární regresní model

4EK211 Základy ekonometrie

Stavový model a Kalmanův filtr

Hodina 50 Strana 1/14. Gymnázium Budějovická. Hodnocení akcií

Inovace bakalářského studijního oboru Aplikovaná chemie

LINEÁRNÍ REGRESE. Lineární regresní model

Statistika (KMI/PSTAT)

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

vzorek vzorek

11MAMY LS 2017/2018. Úvod do Matlabu. 21. února Skupina 01. reseni2.m a tak dále + M souborem zadané funkce z příkladu 3 + souborem skupina.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Statistická analýza jednorozměrných dat

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Jana Vránová, 3. lékařská fakulta, UK Praha

Strojové učení Marta Vomlelová

PRAVDĚPODOBNOST A STATISTIKA

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Regresní a korelační analýza

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

4EK211 Základy ekonometrie

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

STATISTIKA I Metodický list č. 1 Název tématického celku:

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů

Tomáš Karel LS 2012/2013

4EK211 Základy ekonometrie

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

UNIVERZITA PARDUBICE

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

Regresní analýza 1. Regresní analýza

6. Lineární regresní modely

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

odpovídá jedna a jen jedna hodnota jiných

4EK211 Základy ekonometrie

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

4EK211 Základy ekonometrie

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Regresní a korelační analýza

10. Předpovídání - aplikace regresní úlohy

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

KLIMATICKÝ DOWNSCALING. ZOO76 Meteorologie a klimatologie Petr Kolář PřF MU Brno

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

KORELACE. Komentované řešení pomocí programu Statistica

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

4EK211 Základy ekonometrie

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

Úvod do analýzy časových řad

Cvičení ze statistiky - 3. Filip Děchtěrenko

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Bodové a intervalové odhady parametrů v regresním modelu

Tomáš Karel LS 2012/2013

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba nelineárních regresních modelů v analýze dat. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Tomáš Karel LS 2012/2013

Bodové odhady parametrů a výstupů

ANALÝZA A KLASIFIKACE DAT

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Diagnostika regrese pomocí grafu 7krát jinak

Ilustrační příklad odhadu LRM v SW Gretl

Kontingenční tabulky, korelační koeficienty

Transkript:

Cvičení 11 Klasifikace Jan Přikryl ČVUT FD 14. března 2018

Příklad 1 Data z akciového trhu Nejprve prozkoumáme data z akciových trhů, konkrétně denní vývoj indexu S&P v letech 2001 2005. Načteme a zobrazíme základní charakterisktiky smarket = readtable( islr_smarket.csv ); summary(smarket) Proměnná Direction je kategorická (buď Up nebo Down) a je potřeba to Matlabu sdělit: smarket.direction = categorical(smarket.direction)

Příklad 1 Pokud bychom chtěli zkoumat korelace mezi jednotlivými numerickými proměnnými, nabízí se funkce corrcoef()... corrcoef(smarket)... jenže jako vstup je potřeba matice: smarket_matrix = table2array(smarket(:,2:end-1)) smarket_cc = corrcoef(smarket); Vysvětlete, proč indexujeme smarket(:,2:end-1). Najdete v korelační matici hodnoty naznačující, že nějaké veličiny jsou korelované? Pokud ano, kterým proměnným odpovídají?

Příklad 1 Pokud bychom chtěli zkoumat korelace mezi jednotlivými numerickými proměnnými, nabízí se funkce corrcoef()... corrcoef(smarket)... jenže jako vstup je potřeba matice: smarket_matrix = table2array(smarket(:,2:end-1)) smarket_cc = corrcoef(smarket); Vysvětlete, proč indexujeme smarket(:,2:end-1). Vykreslíme plot(smarket.volume) Na základě grafu vysvětlete, proč je mezi Year a Volume pozitivní korelace.

Příklad 2 Logistická regrese Natrénujeme generalizovaný lineární model závislosti Direction na Lag1 až Lag5. Logistickou závislost specifikujeme volbou Distribution, binomial : mdl = fitglm(smarket, Direction ~ Lag1+Lag2+Lag3+Lag4+Lag5+Volume, Distribution, binomial ) Který regresní koeficient má nejmenší p-hodnotu? Naznačuje tato hodnota silnou vazbu na výstup modelu?

Příklad 2 Podívejme se na predikci modelu: probs = predict(mdl) Jak dobře model predikuje vývoj trhu zjistíme porovnáním s trénovacími hodnotami v Direction. Musíme ale probs převést na kategorickou proměnnou s hodonotami Up a Down: predictions = repmat(categorical({ Down }), mdl.numobservations, 1); predictions(probs>0.5) = Up ; Pokračujeme maticí záměn: confusionmat(predictions,smarket.direction) (507+145)/1250 mean(predictions == smarket.direction)

Příklad 2 Je náš model lepší, než náhodné rozhodování? Jaká je jeho trénovací chyba? Lepší odhad chyby, kterou model bude v reálu vykazovat, lze získat například identifikací modelu na datech z let 2001 2004 a ověřením předpovědí na datech z roku 2005. train=(smarket.year<2005); smarket_train = smarket(train,:) smarket_test = smarket(~train,:); Co znamená smarket(train,:), smarket(~train,:)? Jak velká je trénovací a testovací množina? size(smarket_train) size(smarket_test)

Příklad 2 Identifikujeme model a porovnáme jej na datech z roku 2005: mdlt = fitglm(smarket_train, Direction ~ Lag1+Lag2+Lag3+Lag4+Lag5+Volume, Distribution, binomial ) probs = predict(mdlt, smarket_test); predictions = repmat(categorical({ Down }),252,1); predictions(probs>0.5) = Up ; confusionmat(predictions, smarket_test.direction) mean(predictions == smarket_test.direction) Jaká je chyba testovací sady?

Příklad 2 Identifikujeme jednodušší model pouze se členy Lag1 a Lag2, které v originální logistické regresi měly nejsilnější vztah k výstupu: mdlt = fitglm(smarket_train, Direction ~ Lag1+Lag2, Distribution, binomial ) probs = predict(mdlt, smarket_test); predictions = repmat(categorical({ Down }),252,1); predictions(probs>0.5) = Up ; confusionmat(predictions, smarket_test.direction) mean(predictions == smarket_test.direction) Jaký je odhad testovací chyby nyní? Jaká je pravděpodobnost předpovědi růstu trhu? Poklesu trhu?

Příklad 2 Na závěr si ukážeme, jak spočítat predikce u nových hodnot Lag1 a Lag2 daných následující tabulkou: Lag1 Lag2 1,2 1,1 1,5 0,8 pt = table([1.2;1.5], [1.1;-0.8], VariableNames, { Lag1, Lag2 }); predict(mdlt2, pt) Místo tabulky můžete v tomto případě použít i pt reprezentované maticí. Jak to uděláte?

Příklad 3 Diskriminační analýza Nyní zkusíme to samé pomocí lineární diskriminační analýzy. V Matlabu je na to obecná metoda fitcdiscr(), implementující i vyšší polynomiální reprezentace hranice. Vstupem metody je zvlášť matice prediktorů a zvlášť odpověď modelu: x = [ smarket_train.lag1, smarket_train.lag2 ]; y = smarket_train.direction; cmdl = fitcdiscr(x,y) Vidíme, že cmdl neobsahuje údaje o názvech proměnných, doplníme: cmdl = fitcdiscr(x,y, PredictorNames,{ Lag1, Lag2 }, ResponseName, Direction )

Příklad 3 Zkusíme si vykreslit hranici a hodnoty v jednotlivých třídách. Podívejte se nejprve, k čemu slouží funkce gscatter() a ezplot(). gscatter(smarket.lag1,smarket.lag2,smarket.direction) hold on f = @(x1,x2) K + L(1)*x1 + L(2)*x2; K = cmdl.coeffs(1,2).const; L = cmdl.coeffs(1,2).linear; h2 = ezplot(f,[-6,6,-6,6]);

Příklad 3 Chybí: (a) matice záměn, přesnost predikce w.r.t logit (b) kvadratická diskriminační analýza (c) KNN