INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2

Podobné dokumenty
Vytěžování znalostí z dat

Připomeň: Shluková analýza

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

Získávání znalostí z dat

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

ÚKOL ,77 5,00 5 2,531,003,056 -,869,113

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Faktorová analýza příklad. Obrázek 1 Ukázka části vstupních dat

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c)

Testy nezávislosti kardinálních veličin

Karta předmětu prezenční studium

Zpracování a vyhodnocování analytických dat

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Karnaughovy mapy. Pravdivostní tabulka pro tři vstupní proměnné by mohla vypadat například takto:

M cvičení : GLM04b (Vztah mezi Poissonovým a

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Výsledky vstupních testů z matematiky a úspěšnost studia

4EK211 Základy ekonometrie

Tato tematika je zpracována v Záznamy přednášek: str materiál: PrikladyZobrazeniCisel.pdf

Y36SAP - aritmetika. Osnova

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Vliv přesnosti kalibrační křivky na výsledek verifikace plánů EBT3 filmem

2 Spojité modely rozhodování

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Aplikovaná statistika v R - cvičení 3

Frekvenční analýza, čtyřpolní tabulky

M cvičení : GLM03a (The Working Activities of Bees)

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

4EK211 Základy ekonometrie

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.


Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF)

Předzpracování dat. Cvičení 2: Import a příprava dat v Matlabu MI-PDD, 09/2011. Pavel Kordík MI-POA

Teorie informace a kódování (KMI/TIK)

Na úvod tip, jak kontrolovat šířku tabulky před a po změně. Chování makra ukazují obrázky. Jak změnit rastr v hotové tabulce Excelu

5. PŘEDNÁŠKA EKONOMETRICKÝ MODEL REGRESNÍ ANALÝZA DUMMIES VÍCENÁSOBNÁ REGRESE

STATISTIKA MIGRANTŮ PRO REGIONY V MORAVSKOSLEZSKÉM KRAJI A PRO KRAJ V OBDOBÍ

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

Pokročilé neparametrické metody. Klára Kubošová

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

EKONOMIE TENISU: NOVÉ

Návrhy dalších možností statistického zpracování aktualizovaných dat

Rozhodovací stromy a lesy

Upozornění: Dne:

Jak pracovat s absolutními hodnotami

DIGITÁLNÍ KOMUNIKACE S OPTICKÝMI VLÁKNY. Digitální signál bude rekonstruován přijímačem a přiváděn do audio zesilovače.

5. Maticová algebra, typy matic, inverzní matice, determinant.

V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů).

DATA MINING KLASIFIKACE DMINA LS 2009/2010

matice([[1,1,0,0,0],[1,1,1,0,0],[0,1,1,0,0],[0,0,0,1,1],[0,0,0,1,1]],1). matice([[1,1,1],[1,1,0],[1,0,1]],2).

skladbu obou směsí ( v tunách komponenty na 1 tunu směsi):

Popisná statistika. Komentované řešení pomocí MS Excel

Projekt LISp-Miner. M. Šimůnek

Plánované experimenty - Návrh

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE VYUŽITÍ LOGISTICKÉ REGRESE VE VÝZKUMU TRHU

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

Pomůcka pro cvičení: 3. semestr Bc studia

AVDAT Klasický lineární model, metoda nejmenších

Zabezpečení datových přenosů pomocí CRC

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Extrakce a selekce příznaků

Logaritmus, logaritmická funkce, log. Rovnice a nerovnice. 3 d) je roven číslu: c) -1 d) 0 e) 3 c) je roven číslu: b) -1 c) 0 d) 1 e)

Evropské výběrové šetření o zdravotním stavu v ČR - EHIS CR Index tělesné hmotnosti, fyzická aktivita, spotřeba ovoce a zeleniny

Metodologie pro ISK 2, jaro Ladislava Z. Suchá

Department of Mathematical Analysis and Applications of Mathematics Faculty of Science, Palacký University Olomouc Czech Republic

Seznámení se se zvolenou pokročilou iterativní metodou na problému batohu

Statistické metody vyhodnocení vlivu škodlivin na denní úmrtnost, hospitalizaci a příznaky kardiovaskulárních a respiračních onemocnění

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Strojové učení Marta Vomlelová

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

VYSOK A ˇ SKOLA POLYTECHNICK A JIHLAVA Katedra matematiky Statistick a anal yza a ˇ casov e ˇ rady v pˇ r ıkladech Stanislava Dvoˇ r akov a 2015

Uni- and multi-dimensional parametric tests for comparison of sample results

Dnešní program odvozování v Bayesovských sítích exaktní metody (enumerace, eliminace proměnných) aproximační metody y( (vzorkovací techniky)

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

Filtrace snímků ve frekvenční oblasti. Rychlá fourierova transformace

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

Téma je podrobně zpracováno ve skriptech [1], kapitola

Metodologie pro Informační studia a knihovnictví 2

Úkol 12. Přemysl Bejda. 22. března SAS slouží pro statistiky, jeho využití není příliš flexibilní, protože v něm nelze psát vlastní procedury.

Firemní aplikace pro nástěnný ovladač AMR-OP60. Aplikace disponuje automatickým přepínáním zobrazení vnitřní / venkovní teploty.

Problémy konstrukce a implementace modelů strukturální analýzy

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství Ústav strojírenské technologie odbor slévárenství. Ing. Martin Svadbík

Analýza reziduí gyroskopu umístěného na kyvadle p.1

13. Soustava lineárních rovnic a matice

Laboratorní zdroj - 6. část

Přednáška 2: Model, hodnocení modelu, metoda K nejbližších sousedů

Regresní analýza jednoduchá lineární regrese mnohonásobná lineární regrese logistická regrese

Jak začít pracovat s programem BetOptim.exe?

Lineární regrese. Komentované řešení pomocí MS Excel

Transkript:

INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2 Name: Petr Bělohlávek School year: 2015/2016 Provide answers for the exercises 1. (a) - (c), 2.(c), 2.(d.1-2), 2.(e.1-2) For each exercise, your answer cannot exceed one sheet of paper. 1

1. (a) Scatterplot matrix, correlation matrix [5 pts] Implicitně nezobrazuji pole name, přestože v zadání jsou požadovány všechny sloupce. Výsledný graf by nedával smysl. Nicméně stačí smazat selektor a graf bude podle zadání validní. mpg cylinders displacement horsepower weight acceleration year mpg 1.0000000-0.7776175-0.8051269-0.7784268-0.8322442 0.4233285 0.5805410 cylinders -0.7776175 1.0000000 0.9508233 0.8429834 0.8975273-0.5046834-0.3456474 displacement -0.8051269 0.9508233 1.0000000 0.8972570 0.9329944-0.5438005-0.3698552 horsepower -0.7784268 0.8429834 0.8972570 1.0000000 0.8645377-0.6891955-0.4163615 weight -0.8322442 0.8975273 0.9329944 0.8645377 1.0000000-0.4168392-0.3091199 acceleration 0.4233285-0.5046834-0.5438005-0.6891955-0.4168392 1.0000000 0.2903161 year 0.5805410-0.3456474-0.3698552-0.4163615-0.3091199 0.2903161 1.0000000 2

1. (b) Multiple linear regression [10 pts] Původní sloupec origin jsem nahradil dvěma novými sloupci european a japanese. Jednička v nich indikuje původ auta. Pokud je v obou nula, auto je americké. Druhá varianta je zakázat intercept a přidat další proměnnou american, ale to je zbytečně komplikované. Data nenormalizuji (zadání o tom nemluví), nicméně si myslím, že by normalizace mohla model zpřesnit (zejména kvůli vysokým hodnotám roku výroby). Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -1.795e+01 4.677e+00-3.839 0.000145 *** cylinders -4.897e-01 3.212e-01-1.524 0.128215 displacement 2.398e-02 7.653e-03 3.133 0.001863 ** horsepower -1.818e-02 1.371e-02-1.326 0.185488 weight -6.710e-03 6.551e-04-10.243 < 2e-16 *** acceleration 7.910e-02 9.822e-02 0.805 0.421101 year 7.770e-01 5.178e-02 15.005 < 2e-16 *** european 2.630e+00 5.664e-01 4.643 4.72e-06 *** japanese 2.853e+00 5.527e-01 5.162 3.93e-07 *** U koeficientů bez hvězdičky v posledním sloupci se neprokázal signifikantní vliv na sloupec mpg. Dále je tedy ignoruji. U kvantifikačních proměnných platí, že získané koeficienty vyjadřují změnu mpg při jednotkovém zvýšení dané proměnné a fixaci ostatních proměnných. Kladné koeficienty ukazují rostoucí závislost, záporné klesající. Např. váha vozu výrazně snižuje dojezd, tedy zvyšuje spotřebu, což je očekávaný výsledek. Naopak novější auta mají spotřebu nižší. U ostatních proměnných je vysvětelní totožné. Rozdílná situace je u posledních dvou proměnných, které nabývají hodnoty pouze nula nebo jedna. Jak jsem psal výše, americký původ nechávám zahrnutý v intercept. Obě proměnné mají signifikantní vliv na cílovou proměnnou. Vysvětlení koeficientů je následující. Při fixaci všech proměnných má evropské auto oproti americkému o 2.63 větší dojezd. Podobně, japonské má oproti americkému dojezd větší o 2.85. Oba tyto rozdíly jsou signifikantní. Jelikož volíme stejnou bázi (americké zahrnuté v intercept), můžeme odhadnout i rozdíl mezi evropskými a japonskými auty (rozdíl koeficientů). U tohoto poslendího rozdílu nemůžeme zjistit, jestli je signifikantní. Mohli bychom vyrobit nový model, který bude v intercept zahrnovat např. evropská auta potom je s japonskými porovnat. Vzhledem k omezení na délku odpovědi tento model vynechávám. Při fixaci všech ostatních proměnných budou proměnné intercept, european a japanese určovat pouze posun (absolutní člen) celého modelu. 3

1. (c) Polynomial regression [10 pts] Model Konstantní Nemá smysl, resp. 0 Lineární 0.1792071 Kvadratický 0.193964 Kubický 0.195508 4. stupně 0.2135979 5. stupně 0.2148018 R^2 je pouze jeden parametr modelu a pouze na jeho základě se nedá model hodnotit. Vizualizované residuály (viz R skript) ukazují na první pohled, že modely příliš dobře nesedí, protože ve všech grafech residuálů je jasně patrný trend. Dle předpokladů můžeme konstatovat, že komplikovanější modely vysvětlují rozptyl dat lépe. Pozn.: U modelů vyšších stupňů nejsou všechny koeficienty signifikantně odlišné od nuly. R^2 4

2. (c) Trivial classifier [10 pts] Seed nastavuji na 123 jako na cvičení (kvůli ladění). Pro jiný seed vyjdou výledky pravděpodobně jinak. Při tomto seedu vyšel triviální klasifikátor takový, že vždy vrací True. Přesnost vyšla přibližně 44.87%. Entropie zjevně musí být jedna, protože na zakódování True/False informace stačí jediný bit. > p.mpg = c(0.5, 0.5) # because of median > -sum(p.mpg * log2(p.mpg)) # entropy [1] 1 5

2. (d.1) Logistic regression: training and test error rate, confusion matrix [5 pts] glm.ts.prediction FALSE TRUE FALSE 37 4 TRUE 6 31 Train accuracy: 92.99% Train err. rate: 7.00% Test accuracy: 87.17% Test err. rate: 12.82% 6

2. (d.2) Logistic regression: interpretation of the hypothesis parameters [10 pts] Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -21.053073 6.674896-3.154 0.00161 ** cylinders -0.032570 0.472714-0.069 0.94507 displacement 0.013541 0.014607 0.927 0.35390 horsepower -0.037242 0.026376-1.412 0.15796 weight -0.006082 0.001497-4.063 4.84e-05 *** acceleration 0.054556 0.154791 0.352 0.72450 year 0.504734 0.097193 5.193 2.07e-07 *** european 1.614475 0.837184 1.928 0.05380. japanese 0.806224 0.803402 1.004 0.31561 Podobně jako v předchozím komentáři modelu uvažujeme pouze proměnné, jejichž koeficienty jsou signifikantně odlišné od nuly (tedy váhu a rok výroby). Každý z odpovídajících odhadnutých koeficientů vyjadřuje logaritmickou změnu šance (logitu) při jednotkovém zvýšení dané proměnné. Tedy je potřeba predikovanou hodnotu val transformovat na e^val abychom získali skutečnou šanci. Dummy proměnné nemá smysl interpretovat, protože nejsou signifikantní. 7

2. (e.1) Decision trees: plot of the tree, training and test error rate [5 pts] Train: tr.prediction FALSE TRUE FALSE 145 7 TRUE 8 154 Test: ts.prediction FALSE TRUE FALSE 42 5 TRUE 1 30 Train accuracy: 95.22% Train err. rate: 4.77% Test accuracy: 92.30% Test err. rate: 7.69% 8

2. (e.2) Decision trees: tuning the cp parameter [10 pts] Pomocí funkce printcp získáme následující údaje: CP nsplit rel error xerror xstd 1 0.803922 0 1.000000 1.12418 0.057644 2 0.026144 1 0.196078 0.20261 0.034548 3 0.019608 3 0.143791 0.20915 0.035038 4 0.013072 4 0.124183 0.18954 0.033532 5 0.010000 6 0.098039 0.17647 0.032469 Vybereme cp s nejnižší chybovostí, tedy cp=0.01. Tato hodnota se ukázala jako optimální pro složitost stromu. Je dostatečně malá, aby byl strom dost rozvětvený a zároveň dost velká na to, aby nedošlo k příliš velkému přeučení. Nový model má stejné vlastnosti jako předchozí. 9