(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Podobné dokumenty
V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů).

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

4ST201 STATISTIKA CVIČENÍ Č. 10

Tomáš Karel LS 2012/2013

1. Příklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti:

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Tomáš Karel LS 2012/2013

Statistika (KMI/PSTAT)

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

4EK211 Základy ekonometrie

Technická univerzita v Liberci

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

INDUKTIVNÍ STATISTIKA

Doporučené příklady k procvičení k 2. Průběžnému testu

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Regresní a korelační analýza

Regresní a korelační analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

4EK211 Základy ekonometrie

LINEÁRNÍ REGRESE. Lineární regresní model

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Regresní a korelační analýza

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Inovace bakalářského studijního oboru Aplikovaná chemie

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

4EK211 Základy ekonometrie

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Korelační a regresní analýza

TECHNICKÁ UNIVERZITA V LIBERCI

Regresní analýza 1. Regresní analýza

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Statistická analýza dat

Regresní analýza. Eva Jarošová

TECHNICKÁ UNIVERZITA V LIBERCI

MATEMATIKA III V PŘÍKLADECH

Příklad: Test nezávislosti kategoriálních znaků

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

4EK211 Základy ekonometrie

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

odpovídá jedna a jen jedna hodnota jiných

Analýza rozptylu. ANOVA cvičení

Bodové a intervalové odhady parametrů v regresním modelu

TECHNICKÁ UNIVERZITA V LIBERCI

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

4EK211 Základy ekonometrie

Neparametrické metody

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Aplikovaná statistika v R - cvičení 2

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Plánování experimentu

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Statistická analýza jednorozměrných dat

4EK211 Základy ekonometrie

KGG/STG Statistika pro geografy

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Kontingenční tabulky, korelační koeficienty

4EK211 Základy ekonometrie

= = 2368

Testování hypotéz a měření asociace mezi proměnnými

AVDAT Geometrie metody nejmenších čtverců

AVDAT Klasický lineární model, metoda nejmenších

You created this PDF from an application that is not licensed to print to novapdf printer (

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Kontingenční tabulky, korelační koeficienty

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

6. Lineární regresní modely

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

PRAVDĚPODOBNOST A STATISTIKA

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Optimalizace provozních podmínek. Eva Jarošová

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

MATEMATIKA III V PŘÍKLADECH

Testování hypotéz. 4. přednáška

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

6. Lineární regresní modely

ADDS cviceni. Pavlina Kuranova

otec syn

Testování statistických hypotéz

"Competitivness in the EU Challenge for the V4 countries" Nitra, May 17-18, 2006

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

=10 =80 - =

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Cvičení ze statistiky - 9. Filip Děchtěrenko

AVDAT Výběr regresorů v mnohorozměrné regresi

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Transkript:

Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou vybrané údaje z provedené analýzy rozptylu. Jednalo se o test, zda-li se liší spotřeba automobilu při použití různých typů benzínu. Doplňte tabulku a zjistěte z ní následující údaje: Počet celkových pokusů (testovacích jízd) Počet testovaných typů benzínu Množství variability vysvětlené modelem Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu? Source DF Sum of Squares Mean Square F Value Pr > F Model Error 12 Corrected Total 15 0,27900000 R-Square Coeff Var Root MSE B Mean 0,587276 1,623170 0,097958 6,035000 Source DF Sum of Squares Mean Square F Value Pr > F Model 3 0,16385 0,0546 5,69 Error 12 0,11515 0,0096 Corrected Total 15 0,27900000 R-Square Coeff Var Root MSE B Mean 0,587276 1,623170 0,097958 6,035000 Model DF = CT DF Error DF = 15 12 = 3 Model SoS = CT SoS * R-Square = 0,279*0,587276 = 0,16385 Error SoS = CT SoS Model SoS = 0,279 0,16385 = 0,11515 Model MS = 0,16385/3 = 0,0546 Error MS = 0,11515/12 = 0,0096 F Value = Model MS/Error MS = 0,0546/0,0096 = 5,69 CT DF = n 1 = 15.. n =16 Model DF = k 1 = 3. k = 4

R-Square = 0,587276 Kritický obor testu je dán kritickou hodnotou F 1-α [k-1; n-k] = F 0,95 [3; 12] = 3,59. Testové kritérium překračuje kritickou hodnotu. Regrese 2. Příklad Odhadněte parametry lineární regresní funkce (přímky) popisující závislost y na x (ručně, SAS) a zapište pro dané hodnoty x vyrovnané hodnoty y. y = 1,733 + 3,1x X 1 1 2 2 3 3 4 4 5 5 6 6 Y 3 5 8 10 12 9 15 14 17 19 25 14 x y y 1 4 4,833 2 9 7,933 3 10,5 11,033 4 14,5 14,133 5 18 17,233 6 19,5 20,333 První sloupec udává průběh podmíněných průměrů (vždy průměr těch y, které byly naměřené při dané hodnotě x). Druhý sloupec udává průběh funkce y = b 0 + b 1 x. Ruční výpočet: 3. Příklad V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů). Náklady 835 63 240 1005 184 213 313 658 195 545 Cena 136 24 52 143 42 43 67 106 61 99 a. Modelujte závislost nákladů na údržbu na ceně regresní přímkou. b. Ověřte pomocí testu, zda se jedná o významnou závislost (α = 0,05). c. Zhodnoťte kvalitu modelu pomocí koeficientu determinace. d. Interpretujte věcně hodnotu regresního koeficientu b 1. e. Odhadněte střední hodnotu nákladů u domů za 80 tis. dolarů. File New Data (Finish) y = - 160,35 + 7,5737x Pr > F = <.0001; tedy je menší než 0,05 model jako celek má smysl (alespoň jedna proměnná je významně odlišná od nuly) Pr > t = 0,0045 resp. <.0001; tedy je menší než 0,05 jak proměnná b0, tak b1 jsou významně odlišné od nuly a mají v modelu smysl. Koeficient determinace = R 2 = R-square = 0,9697. 96,97% celkové variability je vysvětleno tímto modelem. S každým tisícem dolarů, o který je dům dražší, stoupají roční náklady na údržbu o 7,5737 dolarů Doplněním: y = -160,35 + 7,5737*80 = 445, 56 dolarů. 4. Příklad Máte tento výstup ze SAS modelující závislost mezi mediánem ceny domu v Bostonu (v tis. dolarech) a počtem pokojů:

Analysis of Variance Source DF Sum ofmean F Value Pr > F Squares Square Model 1 Error 504 Corrected Total 505 42716 Root MSE 6.61616 R-Square 0.4835 Dependent Mean 22.53281 Adj R-Sq 0.4825 Coeff Var 29.36234 Parameter Estimates Variable DF Parameter Standard t Value Pr > t Estimate Error Intercept 1-34.67062 2.64980 Rooms 1 9.10211 0.41903 a. Dopočítejte teoretický a reziduální součet čtverců. b. Vypočítejte hodnoty testových kritérií pro celkový F-test a jednotlivé t-testy, proveďte dané testy na 1% hladině významnosti. c. Vypočítejte mediánovou cenu domu s 5 pokoji. Teoretický součet čtverců Model SoS. = R 2 *Total SoS = 0,4835*42716 = 20653 Reziduální součet čtverců Error SoS = Total SoS Model SoS = 42716 20653 = 22063 F test F = 471,79 F 0,99 [1;504] = 6,635 { } Spadá do kritického oboru, zamítáme nulovou hypotézu, že se všechny proměnné rovnají nule. Prokázali jsme, že alespoň jedna proměnná v modelu je statisticky významně odlišná od nuly. t-testy t = t 0,99 [504] = 2,457 (přibližně, hodnota pro t[30]) { } Obě hodnoty padají do kritického oboru, tedy zamítáme pro oba parametry nulovou hypotézu, že se jeho hodnota rovná nule. Prokázali jsme, že na hladině významnosti 0,1 jsou parametry b 0 a b 1 statisticky významně odlišné od nuly. y = -34,67062 + 9,10211*5 = 10,84. Mediánová cena domu s pěti pokoji v Bostonu je 10 840 dolarů. 5. Příklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti. (Stahovani Auta) Rychlost (km/h) 40 50 60 70 80 90 100 110 Spotřeba (l/100 km) 5,7 5,4 5,2 5,2 5,8 6 6,8 8,1 a. Vyrovnejte data regresní přímkou a regresní parabolou. b. Ověřte kvalitu modelů na hladině významnosti 0,05 a porovnejte je. c. Ověřte význam kvadratického členu v modelu paraboly na hladině významnosti 0,01. d. Proveďte odhad spotřeby při rychlosti 80km/h.

přímka: y = 3,63 + 0,0319x parabola: y = 9,76 0,14845x + 0,00120x 2 Pro vytvoření paraboly je potřeba vytvořit kromě proměnných y a x ještě proměnnou x 2, jejíž hodnoty získáme umocněním hodnot x. Následně do modelu zařadíme jako vysvětlující proměnné x i x 2. Pro porovnávání kvality modelů užíváme upravený koeficient determinace, který najdeme v řádku Adj R-Sq. Pouze pokud bychom jej neměli, užívali bychom čistý koeficient determinace (R-Square) Přímka: 0,5652 Parabola: 0,9772 Model paraboly vysvětluje mnohem více z celkové variability vzhledem k množství užitých proměnných (tj. upravený koeficient determinace je vyšší) než model přímky, je tudíž považován za užitečnější. t-test pro proměnnou x 2 vychází příznivě (Pr > t = 0,0001, což je méně než 0,01) y = 9,76 0,14846*80 + 0,00120*80 2 = 5,5632 6. Příklad Sestrojte regresní model závislosti pracovní neschopnosti (v procentech pracovních dní za rok) na průměrném věku zaměstnanců a podílu žen (v procentech) na celkovém počtu zaměstnanců v podnicích určitého odvětví. Neschopnost Průměrný věk Podíl žen 3.1 35 40 4.0 33 44 3.5 42 40 3.0 34 38 1.9 40 30 2.0 36 32 2.5 40 35 3.0 38 36 3.5 32 40 2.5 40 35 a. Ověřte vhodnost zařazení proměnných do modelu na hladině významnosti 0,05. b. Odhadněte parametry lineární regresní funkce a tuto zapište. c. Posuďte kvalitu modelu. d. Odhadněte roční procento pracovní neschopnosti v podniku s průměrným věkem zaměstnanců 39 let, kde pracuje 42% žen. Do vysvětlujících proměnných se zařadí obě dvě uvažované proměnné. Vzniká model: y = -3,40695 + 0,01006x 1 + 0,16040x 2. Dle t-testů do modelu nepatří proměnná x 1. Adj. R-Sq = 0,9358. Upravíme model tak, že proměnnou x 1 vyřadíme. y = -2,88125 + 0,15625x 2 T-testy i F-test vychází v pořádku. Adj. R-Sq = 0,9416. Model je dokonce možno považovat za kvalitnější z hlediska vysvětlené variability v poměru k počtu zařazených proměnných. R-Square = 0,9481. Tento model vysvětluje celkem 94,81% celkové variability, testy parametrů taky vycházejí v pořádku. Předchozí model vysvětloval 95,01% celkové variability, ale jednalo se o statisticky neprůkazný model, větší podíl vysvětlené variability je způsoben zařazením dalších proměnných. Teoreticky lze zařazením libovolných (!) dodatečných proměnných nakonec vysvětlit 100% variability (stačí mít tolik proměnných, kolik je pozorování), ale kvalita takovéhoto modelu by zjevně byla nulová. Proto se pro hodnocení užívá Adj R-Sq. d.) y = -2,88125 + 0,15625*42 = 3,68125. Opět je potřeba být opatrný při hodnocení schopnosti modelu předvídat, protože tvrdí, že při nulovém podílu žen by průměrná pracovní neschopnost byla záporná, což je logický nesmysl. 7. Příklad Máme k dispozici měření hmotnosti dětí a počtu jejich bodů za diktát.

Student 1 2 3 4 5 6 7 8 9 10 Hmotnost 20 24 31 35 39 43 45 48 52 53 Počet bodů 34 36 38 42 45 48 51 55 58 62 a. Změřte těsnost lineární závislosti mezi počtem bodů za diktát a hmotností dětí. b. Otestujte na 5% hladině významnosti, zde je tato závislost statisticky významná. Uvažujte nad tím, zda-li můžeme určit směr závislosti a použít případně regresní funkci. Ručně: V SAS: Analyze Multivariate Correlations Jedna proměnná jako Analysis Variables, druhá jako Correlate with. Potom Run. Vidíme hodnotu koeficientu (0,97546) i příslušného testu (<.0001), tedy se jedná o statisticky významnou lineární závislost. Ručně: t = ; proti t 0,975 [8] = 2,306. Spadá do kritického oboru, tudíž zamítáme nulovou hypotézu, která tvrdí, že korelační koeficient je roven nule. Prokázali jsme, že je statisticky významně odlišný od nuly. Je logicky nesmyslné, aby počet bodů z diktátu závisel na hmotnosti. Jedná se ve skutečnosti o tzv. falešnou korelaci, kdy obě proměnné závisí na proměnné třetí, zde neuvažované, a tou je věk testovaných dětí. Ne každá korelace je tudíž důkazem závislosti (!) a už vůbec nic neříká o směru této závislosti.