Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Podobné dokumenty
Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

1. Příklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti:

4ST201 STATISTIKA CVIČENÍ Č. 8

Tomáš Karel LS 2012/2013

Statistika (KMI/PSTAT)

Tomáš Karel LS 2012/2013

4EK211 Základy ekonometrie

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

4EK211 Základy ekonometrie

INDUKTIVNÍ STATISTIKA

4ST201 STATISTIKA CVIČENÍ Č. 10

Plánování experimentu

Regresní analýza. Eva Jarošová

Korelační a regresní analýza

odpovídá jedna a jen jedna hodnota jiných

Regresní a korelační analýza

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Inovace bakalářského studijního oboru Aplikovaná chemie

Regresní analýza 1. Regresní analýza

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Doporučené příklady k procvičení k 2. Průběžnému testu

Regresní a korelační analýza

Regresní a korelační analýza

4EK211 Základy ekonometrie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Bodové a intervalové odhady parametrů v regresním modelu

Statistická analýza jednorozměrných dat

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

MATEMATIKA III V PŘÍKLADECH

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

LINEÁRNÍ REGRESE. Lineární regresní model

4EK211 Základy ekonometrie

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

6. Lineární regresní modely

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

PRAVDĚPODOBNOST A STATISTIKA

Intervaly spolehlivosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

Technická univerzita v Liberci

=10 =80 - =

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Pravděpodobnost a matematická statistika

You created this PDF from an application that is not licensed to print to novapdf printer (

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

PRAVDĚPODOBNOST A STATISTIKA

TECHNICKÁ UNIVERZITA V LIBERCI

4EK211 Základy ekonometrie

otec syn

6. Lineární regresní modely

Kontingenční tabulky, korelační koeficienty

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

KGG/STG Statistika pro geografy

V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů).

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

5EN306 Aplikované kvantitativní metody I

6. Lineární regresní modely

Analýza rozptylu. ANOVA cvičení

Statistická analýza jednorozměrných dat

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Korelace. Komentované řešení pomocí MS Excel

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Zápočtová práce STATISTIKA I

Testování hypotéz. 4. přednáška

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Bodové a intervalové odhady parametrů v regresním modelu

4EK201 Matematické modelování. 11. Ekonometrie

Kontingenční tabulky, korelační koeficienty

TECHNICKÁ UNIVERZITA V LIBERCI

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

AVDAT Geometrie metody nejmenších čtverců

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

KGG/STG Statistika pro geografy

Cvičení 12: Binární logistická regrese

Tabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

STATISTIKA I Metodický list č. 1 Název tématického celku:

4EK211 Základy ekonometrie

UNIVERZITA PARDUBICE

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

Transkript:

1. Příklad U 12 studentů jsme sledovali počet dosažených bodů na závěrečném testu (od 0 do 60). Vždy 4 z těchto studentů chodili k jednomu ze 3 cvičících panu Kubovi, panu Kubinovi, nebo panu Kubinčákovi. Má osoba cvičícího vliv na počet dosažených bodů u závěrečného testu? Jaká je těsnost závislosti? Cvičící Kuba Kubina Kubinčák 53 42 39 Body u závěrečného 47 48 46 testu 55 48 39 50 50 43 H 0 : μ 1 = μ 2 = μ 3 (nezávislost) Anova: jeden faktor Faktor Výběr Počet Součet Průměr Rozptyl Kuba 4 205 51,25 12,25 Kubina 4 188 47 12 Kubinčák 4 167 41,75 11,58333 Zdroj variability SS Rozdíl MS F P F krit Mezi výběry 181,1667 2 90,58333 7,583721 0,011737 4,256495 Všechny výběry 107,5 9 11,94444 Celkem 288,6667 11 F 7,58 F( k 1; n k) ; (2;9) F 4, 26; 4, 26 W F F F krit W F 1 F W ; H zamítám, H přijímám, na 5% hladině významnosti Alternativně: p-hodnota = " P" = 0,0117 p-hodnota = 0,0117 < α = 0,05 ->zamítám H 0, přijímám H 1, na 5% hladině významnosti (ale na 1% bychom nezamítali). 2 181,167 Intenzita závislosti P 0,628. 62,8 % variability počtu bodů je vysvětlitelné cvičícím. 288,667

2. Příklad V souboru Vysledky máte k dispozici kompletní výsledky čtyř variant prvního průběžného testu z loňského. Otestujte v Excelu hypotézu, že varianta vybraného testu ovlivňuje bodový výsledek studenta. Zhodnoťte kvalitu vytvořeného modelu. H 0 : μ 1 = μ 2 = μ 3 = μ 4 (nezávislost) Anova: jeden faktor Faktor Výběr Počet Součet Průměr Rozptyl Adamek 30 450 15 22,41379 Barunka 17 236 13,88235 36,36029 Jiricek 32 412 12,875 12,69355 DetinskeKol 21 266 12,66667 28,63333 Zdroj variability SS Rozdíl MS F P F krit Mezi výběry 95,10863 3 31,70288 1,3847 0,252143 2,699393 Všechny výběry 2197,931 96 22,89512 Celkem 2293,04 99 F 1,14 F( k 1; n k) ; (3;96) F 2,70; 2,70 W F F F krit W F 1 F W ; H nezamítám, H nepřijímám, na 5% hladině významnosti Alternativně: p-hodnota = " P" = 0,252143 p-hodnota = 0,252143 < α = 0,05 -> nezamítám H 0, nepřijímám H 1, na 5% hladině významnosti. Intenzita závislosti testu. 2 95,109 P 0,041. 4,1 % variability počtu bodů je vysvětlitelné variantou 2293,04 3. Příklad V následující tabulce jsou vybrané údaje z provedené analýzy rozptylu. Jednalo se o test, zda-li se liší spotřeba automobilu při použití různých typů benzínu. Doplňte tabulku a zjistěte z ní následující údaje: Počet celkových pokusů (testovacích jízd)

Počet testovaných typů benzínu Množství variability vysvětlené modelem Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu? Zdroj variability SS Rozdíl MS F Mezi výběry S y.m k - 1 S y.m /(k - 1) MS(MV/MS(VV) Všechny výběry S y.v n - k S y.v /(n - k) P F krit p- hodnota F 1-α (k - 1; n - k) Celkem S y n - 1 R-Square P 2 = S y.m /S y Zdroj variability SS Rozdíl MS F P Mezi výběry 0,164 3 0,164/3=0,055 0,055/0,010=5,5??? Všechny 0,115/12=0,01 výběry 0,115 12 0 F krit F 0,95 (3; 12) = 3,49 Celkem 0,279 15 R-Square 0,587276 S y.m = P 2 * S y = 0,279 * 0,587276 = 0,164 S y.v = S y - S y.m = 0,279-0,164 = 0,115 Počet celkových pokusů (testovacích jízd) n - 1 = 15 -> n = 16

Počet testovaných typů benzínu k - 1 = 3 -> k = 4 Množství variability vysvětlené modelem P 2 = 0,587276 -> 58,7 % Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu? H 0 : μ 1 = μ 2 = μ 3 = μ 4 (nezávislost) F 5,5 F( k 1; n k) ; (3;12) F 3, 49; 3, 49 W F F F krit W F 1 F W ; H zamítám, H přijímám, na 5% hladině významnosti 4. Příklad Existuje závislost hodnocení filmu na serveru www.csfd.cz na jeho žánru? Testujte na 5% hladině významnosti a posuďte těsnost testované závislosti. Žánr Hodnocení Komedie 87 87 84 74 81 Akční 62 64 70 58 67 Drama 83 91 84 79 88 H 0 : μ 1 = μ 2 = μ 3 (nezávislost) Anova: jeden faktor Faktor Výběr Počet Součet Průměr Rozptyl Komedie 5 413 82,6 29,3 Akční 5 321 64,2 21,2 Drama 5 425 85 21,5 Zdroj variability SS Rozdíl MS F P F krit Mezi výběry 1294,933 2 647,4667 26,97778 3,63E-05 3,885294 Všechny výběry 288 12 24 Celkem 1582,933 14

F 26,98 F( k 1; n k) ; (2;12) F 3,89; 3,89 W F F F krit W F 1 F W ; H zamítám, H přijímám, na 5% hladině významnosti Alternativně: p-hodnota = " P" = 3,63*10-5 = 0,000036 p-hodnota = 0,000036 < α = 0,05 -> zamítám H 0, přijímám H 1, na 5% hladině významnosti. Intenzita závislosti žánrem. 2 1294,93 P 0,818. 81,8 % variability hodnocení filmu je vysvětlitelné jeho 1582,93 5. Příklad V souboru STA2-04 máte k dispozici na Listu 2 údaje o věku a hmotnosti vybraných dětí. Sestrojte regresní funkci ve smyslu podmíněných průměrů hmotnosti v závislosti na věku. Věk Střední hodnota výšky při daném věku 1 72,66667 2 88 3 99,5 4 105 5 108 6 118,5 7 121,25 V Excelu -> seřadit tabulku podle věku a pak počítat průměry výšky pro daný věk. Nebo použít funkci AVERAGEIF(oblast; kritérium; oblast pro průměr) Odhadněte hodnoty regresní přímky této regresní funkce přímo z celých dat. Posuďte kvalitu modelu pomocí indexu determinace a F-testu. Pomocí Analýza dat -> Regrese; X - věk, Y - výška VÝSLEDEK Regresní statistika Násobné R 0,963509739 spolehlivosti R 0,928351017 Nastavená hodnota spolehlivosti R 0,924370518 Chyba stř. hodnoty 4,645221891 Pozorování 20

Rozdíl SS MS F Významnost F Regrese 1 5032,544444 5032,544444 233,2248 9,54218E-12 Rezidua 18 388,4055556 21,57808642 Celkem 19 5420,95 Koeficienty Chyba stř. hodnoty t Stat P Hranice 71,63888889 2,216981861 32,31370095 2,15E-17 Věk (roky) 7,477777778 0,48964938 15,27169864 9,54E-12 Regresní funkce: Y = 71,639 + 7,478x Index determinace: 2 5032,54 R 0,928 92,8 % variability výšky je vysvětlitelné věkem. 5420,95 F-test: H 0 : β 0 = c, β 1 = 0 (y nezávisí na žádné z vysvětlujících proměnných x; zde výška nezávisí na věku) F 233,22 F( p 1; n p) ; (1;18) 4, 41; 4, 41 W F F F W F 1 F W ; H zamítám, H přijímám, na 5% hladině významnosti Alternativně: p-hodnota = "Významnost F" = 9,54*10-12 = 0,00000000000954 p-hodnota = 0,00000000000954 < α = 0,05 -> zamítám H 0, přijímám H 1, na 5% hladině významnosti. 6. Příklad Na základě tabulky zapište regresní funkci jako funkci podmíněných průměrů, dále odhadněte parametry lineární regresní funkce (přímky) popisující závislost y na x a zapište pro dané hodnoty x vyrovnané hodnoty y. X 1 1 2 2 3 3 4 4 5 5 6 6 Y 3 5 8 10 12 9 15 14 17 19 25 14 Průměry x 1 1 2 2 3 3 4 4 5 5 6 6 3,5 y 3 5 8 10 12 9 15 14 17 19 25 14 12,583 x*y 3 5 16 20 36 27 60 56 85 95 150 84 53,083 x 2 1 1 4 4 9 9 16 16 25 25 36 36 15,1671

xy x y 53,083 3,5 12,583 b1 3,1 2 2 2 x x 15,167 3,5 b0 y b1x 12,583 3,1 3,5 1,733 Y = 1,733 + 3,1*x Vyrovnané hodnoty (odhady z regresní funkce): x 1 2 3 4 5 6 Y 4,833 7,933 11,03 14,13 17,23 20,33 7. Příklad V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů). Náklady 835 63 240 1005 184 213 313 658 195 545 Cena 136 24 52 143 42 43 67 106 61 99 Regresní statistika Násobné R 0,984743 spolehlivosti R 0,969718 Nastavená hodnota spolehlivosti R 0,965933 Chyba stř. hodnoty 58,59154 Pozorování 10 Rozdíl SS MS F Významnost F Regrese 1 879463,1504 879463,1504 256,1815 2,32776E-07 Rezidua 8 27463,74958 3432,968698 Celkem 9 906926,9 Koeficienty Chyba stř. hodnoty t Stat P Hranice -160,3468801 41,00253356-3,910657858 0,004477 Cena 7,573698319 0,473188412 16,0056716 2,33E-07 a.) Modelujte závislost nákladů na údržbu na ceně regresní přímkou. y - náklady; x - cena Y = - 160,35 + 7,57x b.) Ověřte pomocí testu, zda se jedná o významnou závislost (α = 0,05).

H 0 : β 0 = c, β 1 = 0 (y nezávisí na žádné z vysvětlujících proměnných x; zde náklady nezávisí na ceně) F 256,18 F( p 1; n p) ; (1;8) 5,32; 5,32 W F F F W F 1 F W ; H zamítám, H přijímám, na 5% hladině významnosti Alternativně: p-hodnota = "Významnost F" = 2,33*10-7 = 0,000000233 p-hodnota = 0,000000233 < α = 0,05 -> zamítám H 0, přijímám H 1, na 5% hladině významnosti. c.) Zhodnoťte kvalitu modelu pomocí koeficientu determinace. 2 879463 R 0,97 97 % variability nákladů na údržbu je vysvětlitelné cenou domu. 906927 d.) Interpretujte věcně hodnotu regresního koeficientu b1. b 1 = 7,57 znamená, že když se x zvýší o 1, y vzroste o 7,57, tedy věcně: když se cena domu v modelu zvýší o 1 000 dolarů, vzrostou náklady na údržbu o 7,57. e.) Odhadněte střední hodnotu nákladů u domů za 80 tis. dolarů. Y = - 160,35 + 7,57*80 = 445,55 8. Příklad Máte tento výstup z Excelu modelující závislost mezi cenou domu (v tis. dolarech) a počtem pokojů:

Regresní statistika Násobné R spolehlivosti R Nastavená hodnota spolehlivosti R Chyba stř. hodnoty Pozorování R (vícenásobný korelační koeficient) 2 ST R S Y R 2 ADJ MSE n Rozdíl SS MS F Významnost F Regrese p - 1 S T S t /(p - 1) MS(Reg)/MS(Rez) p-hodnota Rezidua n - p S R S r /(n - p) Celkem n - 1 S y Koeficienty Chyba stř. hodnoty t Stat P Hranice b 0 s(b 0 ) b 0 /s(b 0 ) p-hodnota x b 1 s(b 1 ) b 1 /s(b 1 ) p-hodnota a. Dopočítejte teoretický a reziduální součet čtverců. S T = R 2 *S Y = 0,791*8 997 200 000 = 7 116 785 200 S T = S Y - S T = 8 997 200 000-7 116 785 200 = 1 880 414 800 b. Vypočítejte hodnoty testových kritérií pro celkový F-test a jednotlivé t-testy, proveďte dané testy na 1% hladině významnosti. H 0 : β 0 = c, β 1 = 0 (y nezávisí na žádné z vysvětlujících proměnných x; zde cena nezávisí počtu pokojů) 7116785200 F 1 68,12 1880414800 F( p 1; n p) 18 ; (1;18) 4, 41; 4, 41 W F F F W F 1 F W ; H zamítám, H přijímám, na 5% hladině významnosti

H : b 0 (konstanta je v modelu zbytečná) 0 0 H : b 0 1 0 38689,58 t 3,42 t( n p) 11318, 29 1 /2; 0,975(18) 2,101; 0,05 2,101 W t t t W t t W H H 0 1 1 1 zamítám, H přijímám, na 5% hladině významnosti. : b 0 (proměnná x je v modelu zbytečná) H : b 0 17764,97 t 8,25 t( n p) 2152, 45 1 /2; 0,975(18) 2,101; 0,05 2,101 W t t t W t t W H zamítám, H přijímám, na 5% hladině významnosti. c. Odhadněte cenu domu s 5 pokoji. Y = -38 689,58 + 17 764,97 * 5 = 50 135,27