Statistická analýza dat

Podobné dokumenty
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Design Experimentu a Statistika - AGA46E

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

4ST201 STATISTIKA CVIČENÍ Č. 10

AVDAT Klasický lineární model, metoda nejmenších

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Aplikovaná statistika v R - cvičení 2

Regresní a korelační analýza

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

4EK211 Základy ekonometrie

Tomáš Karel LS 2012/2013

ADDS cviceni. Pavlina Kuranova

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Inovace bakalářského studijního oboru Aplikovaná chemie

AVDAT Mnohorozměrné metody, metody klasifikace

Regresní analýza 1. Regresní analýza

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Tomáš Karel LS 2012/2013

6. Lineární regresní modely

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Testování hypotéz o parametrech regresního modelu

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Optimalizace provozních podmínek. Eva Jarošová

Měření závislosti statistických dat

AVDAT Geometrie metody nejmenších čtverců

LINEÁRNÍ MODELY. Zdeňka Veselá

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Seminář 6 statistické testy

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

AVDAT Nelineární regresní model

Úvodem Dříve les než stromy 3 Operace s maticemi

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

UNIVERZITA PARDUBICE

Regresní a korelační analýza

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

odpovídá jedna a jen jedna hodnota jiných

Testování hypotéz o parametrech regresního modelu

Statistická analýza jednorozměrných dat

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Cvičení z optimalizace Markowitzův model

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

6. Lineární regresní modely

Regresní a korelační analýza

KMA Písemná část přijímací zkoušky - MFS 2o16

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

4EK211 Základy ekonometrie

Regresní a korelační analýza

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Přednáška 13 Redukce dimenzionality

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Cvičná bakalářská zkouška, 1. varianta

Přednáška IX. Analýza rozptylu (ANOVA)

Matematika I A ukázkový test 1 pro 2014/2015

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

7. Analýza rozptylu.

LINEÁRNÍ REGRESE. Lineární regresní model

Odhady Parametrů Lineární Regrese

STATISTICA Téma 7. Testy na základě více než 2 výběrů

6. Lineární regresní modely

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

Matematika I A ukázkový test 1 pro 2011/2012. x + y + 3z = 1 (2a 1)x + (a + 1)y + z = 1 a

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Regresní analýza. Eva Jarošová

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Klasifikace a rozpoznávání. Lineární klasifikátory

4EK211 Základy ekonometrie

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Seminář 6 statistické testy

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

4EK211 Základy ekonometrie

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Plánování experimentu

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Bodové a intervalové odhady parametrů v regresním modelu

6. Lineární regresní modely

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Změna hodnoty pozice v důsledku změn tržních cen.

Transkript:

Statistická analýza dat Jméno: Podpis: Cvičení Zkouška (písemná + ústní) 25 Celkem 50 Známka Pokyny k vypracování: doba řešení je 120min, jasně zodpovězte pokud možno všechny otázky ze zadání, pracujte s pojmy používanými v předmětu, můžete používat kalkulátory.

Statistické minimum. (10 b) Zodpovězte následující otázky: (a) (5 b) Uvažujte náhodný vektor X. Definujte kovarianční a korelační matici. Jaké mají tyto matice vlastnosti? K čemu se dají použít? (b) (5 b) Vysvětlete význam pojmu matoucí proměnná (confounding variable). Uved te příklad a naznačte vliv na model.

Analýza rozptylu. (10 b) Odpovězte na otázky níže. (a) (2 b) K čemu se používá parametrická jednostupňová analýza rozptylu (parametric one-way ANOVA)? Formulujte její nulovou a alternativní hypotézu. (b) (3 b) Jaké má tato metoda předpoklady? Jak je budete testovat? Co se stane, pokud splněny nejsou? (c) (3 b) Podrobně popište výstupní tabulku ANOVA testu na konci posloupnosti příkazů níže. F<-unlist(mapply(rep,times=c(8,9,10),x=c(1,2,3))) O<-F+rnorm(n=27,mean=0,sd=2) summary(aov(o as.factor(f))) Df Sum Sq Mean Sq F value Pr(>F) F 2 11.41 5.707 1.953 0.164 Residuals 24 70.14 2.923 (d) (2 b) K čemu slouží následný post-hoc test? Na jakém principu je založen?

Diskriminační analýza. (10 b) Níže diskutujte vlastnosti lineární a kvadratické diskriminační analýzy (LDA a QDA). (a) (2 b) Z jaké myšlenky obě metody vycházejí? Napište definiční vztah. (b) (2 b) Jaký je základní rozdíl mezi LDA a QDA? Z čeho plyne? (c) (1 b) Předpokládejte, že řešíte problém s lineární bayesovskou rozhodovací hranicí. Která z metod dosáhne vyšší přesnosti nad trénovacími daty? Která nad testovacími? Proč? (d) (1 b) Předpokládejte, že řešíte problém s nelineární bayesovskou rozhodovací hranicí. Která z metod dosáhne vyšší přesnosti nad trénovacími daty? Která nad testovacími? Proč? (e) (1 b) Uvažujte obecnou klasifikační úlohu. S rostoucím počtem trénovacích příkladů relativní testovací klasifikační přesnost QDA vzhledem k LDA poroste, bude klesat nebo se nebude měnit? Proč? (f) (3 b) Máte určit, zda na akcii firmy s loňským ročním výnosem 4% bude vyplacena dividenda. Z burzovní analýzy velkého počtu firem víte, že firem, které vyplácí dividendu, je 80% a jejich průměrný roční výnos je 10%. Firmy bez dividendy mají průměrný výnos 0%. Rozdělení výnosů v obou skupinách je normální s rozptylem ˆσ 2 = 0.36. Budete aplikovat LDA, nebo QDA? Nemusíte důsledně počítat pravděpodobnost, stačí přesně zapsat.

Multivariátní regrese. (10 b) Sestavujete multivariátní lineární model. Závisle proměnných je velký počet, hledáte model, který minimalizuje kritérium (y i je hodnota závisle proměnné v i-tém vzorku, x i j je hodnota j-té nezávisle proměnné v i-tém vzorku): m (y i ˆβ 0 i=1 p ˆβ j x ij ) 2 + λ Parametr λ nejprve nastavíte na 0, poté jej postupně zvyšujete. S nárůstem λ (a) (2 b) trénovací reziduální součet čtverců (residual sum of squares, RSS) (b) (2 b) testovací RSS (c) (2 b) variance (d) (2 b) zaujetí (bias) (e) (2 b) neredukovatelná chyba (irreducible error ɛ) j=1 p j=1 ˆβ 2 j

Robustní statistika. (10 b) Odhadněte dvěma různými metodami robustně rozptýlenost (scale) ze vzorku {-1.84,1.18,0.0499,-0.751,-0.00707,-2.05,-1.47,-0.0520,-0.991,-0.945}. (a) (2 b) Metoda 1 (popis a aplikace na vzorek): (b) (2 b) Metoda 2 (popis a aplikace na vzorek): (c) (2 b) Dejte tyto odhady do vztahu s obvyklým odhadem standardní odchylky. (d) (2 b) Popište kritéria, jež jsou určující pro kvalitu robustního odhadu rozptýlenosti. (e) (2 b) Diskutujte výhody a nevýhody vámi zvolených metod podle kritérií popsaných v předchozím bodě.