Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Podobné dokumenty
Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Tomáš Karel LS 2012/2013

1. Příklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti:

Tomáš Karel LS 2012/2013

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Plánování experimentu

4EK211 Základy ekonometrie

Statistika (KMI/PSTAT)

PRAVDĚPODOBNOST A STATISTIKA

INDUKTIVNÍ STATISTIKA

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Testování hypotéz o parametrech regresního modelu

Technická univerzita v Liberci

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Testování hypotéz o parametrech regresního modelu

Regresní a korelační analýza

Jednostranné intervaly spolehlivosti

Korelační a regresní analýza

4ST201 STATISTIKA CVIČENÍ Č. 8

4EK211 Základy ekonometrie

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Regresní a korelační analýza

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

TECHNICKÁ UNIVERZITA V LIBERCI

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

4EK211 Základy ekonometrie

Téma 9: Vícenásobná regrese

4ST201 STATISTIKA CVIČENÍ Č. 10

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Testování hypotéz. 4. přednáška

ADDS cviceni. Pavlina Kuranova

Doporučené příklady k procvičení k 2. Průběžnému testu

Bodové a intervalové odhady parametrů v regresním modelu

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Ilustrační příklad odhadu LRM v SW Gretl

KGG/STG Statistika pro geografy

odpovídá jedna a jen jedna hodnota jiných

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

PRAVDĚPODOBNOST A STATISTIKA

TECHNICKÁ UNIVERZITA V LIBERCI

Regresní analýza. Eva Jarošová

4ST201 STATISTIKA CVIČENÍ Č. 7

KORELACE. Komentované řešení pomocí programu Statistica

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Regresní a korelační analýza

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Zápočtová práce STATISTIKA I

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Testování statistických hypotéz. Obecný postup

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Regresní analýza 1. Regresní analýza

Regresní a korelační analýza

Testování statistických hypotéz

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

MATEMATIKA III V PŘÍKLADECH

Statistická analýza jednorozměrných dat

Cvičení 9: Neparametrické úlohy o mediánech

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Statistika, Biostatistika pro kombinované studium. Jan Kracík

= = 2368

Neparametrické metody

Bodové a intervalové odhady parametrů v regresním modelu

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Statistická analýza jednorozměrných dat

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Regresní a korelační analýza

4EK211 Základy ekonometrie

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Cvičení ze statistiky - 9. Filip Děchtěrenko

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

PRAVDĚPODOBNOST A STATISTIKA

Cvičení 12: Binární logistická regrese

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Protokol č. 1. Tloušťková struktura. Zadání:

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Cvičení ze statistiky - 8. Filip Děchtěrenko

Testy. Pavel Provinský. 19. listopadu 2013

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Transkript:

Neparametrické testy (motto: Hypotézy jsou lešením, které se staví před budovu a pak se strhává, je-li budova postavena. Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou pravdu, podobně jako nelze pokládat lešení za stavbu samu. J. W. Goethe) 1. Příklad Následující tabulka udává region pijáka piva a preferenci pití piva točeného nebo z lahve. Posuďte na jejím základě, zdali existují rozdíly v preferenci pití piva (z plechovky nebo točeného) v různých částech země. Hladina významnosti je 10%. Vypočítejte míru těsnosti této závislosti. Sever Jih Západ Plechovka 300 190 60 Točené 200 110 40 χ 2 0,90[2] = 4,61; r = 2 (počet řádků), s = 3 (počet sloupců) W0,1 = [G 4,61] Sever Jih Západ Součty Plechovka 300 190 60 550 Točené 200 110 40 350 Součty 500 300 100 900 Sever Jih Západ Součty Plechovka 305.56 183.33 61.11 550 Točené 194.44 116.67 38.89 350 Součty 500 300 100 900 Sever Jih Západ Součty Plechovka 0.10 0.24 0.02 Točené 0.16 0.38 0.03 Součty G = 0.94 Nespadá do kritického oboru, nezamítáme nulovou hypotézu ve prospěch hypotézy alternativní, že existuje vztah mezi regionem a preferencí způsobu pití piva. G 0,94 C 0,032 n G 900,94 V G 0,94 0,032 nm ( 1) 900

2. Příklad Ve 12 supermarketech byl testován vliv způsobu vystavení zboží na jeho odbyt. Zboží bylo umístěno 2 různými způsoby (A a B), vždy v 6 supermarketech stejně a sledoval se počet prodaných kusů za určitou dobu. Rozhodněte pomocí testu, zda způsob umístění zboží statisticky významně ovlivňuje počet prodaných kusů na hladině významnosti 0,01. Zhodnoťte kvalitu vytvořeného modelu. A 42 46 37 48 53 92 B 104 79 122 115 71 89 H0: μ1 = μ2 (nezávislé) H1: non H0 (závislé) F0,99 [1; 10] = 10,044 W0,01 = {F 10,044} Tabulka se překopíruje do MS Excel. Následně je potřeba mít aktivován doplněk Analýza dat. K jeho aktivaci vede tento postup: Soubor Možnosti Doplňky Přejít Analytické nástroje (zaškrtnout) a OK. Doplněk se potom nachází v záložce Data vpravo. Volba, kterou z Analýzy dat použijeme je : jeden faktor. Do vstupní oblasti označíme data, pokud jsou přepsané přesně jako v zadání, tak je potřebujeme sdružit po řádcích. Pokud je v označených datech záhlaví, pak je potřeba zaškrtnout volbu Popisky. Anova: jeden faktor Faktor Výběr Počet Součet Průměr Rozptyl A 6 318 53 394.4 B 6 580 96.66667 412.2667 Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry 5720.333 1 5720.333 14.18264 0.003686 4.964603 Všechny výběry 4033.333 10 403.3333 Celkem 9753.667 11 F = 14,18 Spadá do kritického oboru, tedy zamítáme nulovou hypotézu, že jsou si střední hodnoty v jednotlivých skupinách rovny a tudíž způsob umístění neovlivňuje prodej, ve prospěch alternativní, že způsob prodeje ovlivňuje prodejnost.

Alternativní způsob jak vyhodnotit test je použít p-hodnotu. V tomto výstupu je označena jako Hodnota P. Platí, že jestliže p-hodnota α, pak nulovou hypotézu zamítáme. Zde je p-hodnota 0,0037, tj. je menší než hladina významnosti a nulovou hypotézu skutečně zamítáme. Síla závislosti je dána poměrem determinace P2 = Sy,m/Sy = 5 720,33/9 753,66 = 0,586480; znamená to, že model vysvětluje 58,65% variability sledované proměnné. 3. Příklad V souboru Vysledky máte k dispozici kompletní výsledky čtyř variant prvního průběžného testu z loňského. Otestujte v Excelu hypotézu, že varianta vybraného testu ovlivňuje bodový výsledek studenta. Zhodnoťte kvalitu vytvořeného modelu. Výsledky: Sy.m = 95,11; Sy,v = 2197,93; Sy = 2293,04; F = 1,38; Hodnota P = 0,2521; na 25,21% a jakékoliv nižší hladině významnosti nemůžeme zamítnout nulovou hypotézu o rovnosti středních hodnot výsledků daných testů. 4. Příklad V následující tabulce jsou vybrané údaje z provedené analýzy rozptylu. Jednalo se o test, zda-li se liší spotřeba automobilu při použití různých typů benzínu. Doplňte tabulku a zjistěte z ní následující údaje: Počet celkových pokusů (testovacích jízd) Počet testovaných typů benzínu Množství variability vysvětlené modelem Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu? Zdroj variability SS Rozdíl MS F Mezi výběry Všechny výběry 12 Hodnota P F krit Celkem 0.279 15 R-Square 0.587276 Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry S y,m k-1 S y,m /(k-1) F p-hodnota F 1-α (k-1; n-k) Všechny výběry S y,v n-k S y,v /(n-k) Celkem S y n-1

R-Square P 2 Doplněná tabulka: Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry 0,164 3 0,0546 5,69? 3,49 Všechny výběry 0,115 12 0,0096 Celkem 0.279 15 R-Square 0.587276 Počet pokusů = n = 16 Počet typů benzínu = k = 4 Množství variability = R-square = 0,587276 W α = {F; F F 1-α } F 0,95 (3; 12) = 3,49 W 0,05 = {F;F 3,49} F = 5,69 F patří do kritického oboru, tudíž zamítáme nulovou hypotézu ve prospěch alternativní. Spotřeba závisí na typu benzínu. P-hodnotu neumíme v rámci kurzu dopočítat, ale byla by nižší než 0,05. Regrese 5. Příklad Odhadněte parametry lineární regresní funkce (přímky) popisující závislost y na x (ručně, SAS) a zapište pro dané hodnoty x vyrovnané hodnoty y. Průměry X 1 1 2 2 3 3 4 4 5 5 6 6 3.50 Y 3 5 8 10 12 9 15 14 17 19 25 14 12.58 X*Y 3 5 16 20 36 27 60 56 85 95 150 84 53.08 X 2 1 1 4 4 9 9 16 16 25 25 36 36 15.17 53,08 3,5 12,58 b1 3,1 2 15,17 3,5

b0 12,58 3,1 3,5 1,73 Y = 1,73 + 3,1x Vyrovnané (= odhadnuté) hodnoty: X y 1 4.83 2 6.57 3 8.30 4 10.03 5 11.77 6 13.50 6. Příklad V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů). Náklady Cena 835 136 63 24 240 52 1005 143 184 42 213 43 313 67 658 106 195 61 545 99 a. Modelujte závislost nákladů na údržbu na ceně regresní přímkou. b. Ověřte pomocí testu, zda se jedná o významnou závislost (α = 0,05). c. Zhodnoťte kvalitu modelu pomocí koeficientu determinace. d. Interpretujte věcně hodnotu regresního koeficientu b1. e. Odhadněte střední hodnotu nákladů u domů za 80 tis. dolarů. Údaje přepíšeme do Excelu ve formátu tabulky jako je výše (tj. proměnné píšeme do sloupců). Následně v doplňku Analýza dat zvolíme možnost Regrese. Vstupní oblast Y má obsahovat hodnoty vysvětlované proměnné (zde Náklady) a vstupní oblast X má obsahovat hodnoty vysvětlujících proměnných (zde je jenom jedna a to Cena). Opět je třeba dávat pozor na popisky, tj. jestli ve vstupních oblastech jsou nebo nejsou popisky (záhlaví). Nic jiného není v rámci kurzu nutné nastavovat. Výstup je následující:

VÝSLEDEK Regresní statistika Násobné R 0.9847425 Hodnota spolehlivosti R 0.969717791 Nastavená hodnota spolehlivosti R 0.965932515 Chyba stř. hodnoty 58.59154118 Pozorování 10 Rozdíl SS MS F Významnost F Regrese 1 879463.1504 879463.15 256.18152 2.32776E-07 Rezidua 8 27463.74958 3432.9687 Celkem 9 906926.9 Koeficienty CHSH t Stat Hodnota P Hranice -160.346880 41.00253356-3.9106579 0.0044769 Cena 7.573698319 0.473188412 16.005672 2.328E-07 Ad a.) Y = - 160,35 + 7,57x Ad b.) F-test: Významnost F (p-hodnota) je 0,000000233, tj. menší než 0,05. Zamítáme nulovou hypotézu tohoto testu (vysvětlovaná proměnná nezávisí na žádné z vysvětlujících), což znamená, že má smysl se touto regresí dále zabývat. t-test: b0 Hodnota P (p-hodnota) je zde 0,00448, tj. menší než hladina významnosti a zamítám nulovou hypotézu (že je parametr nulový). To znamená, že má smysl v modelu nechat příslušnou proměnnou (zde tedy konstantu, která je bez proměnné) b1 Hodnota P (p-hodnota) je zde 0,000000233, tj. menší než hladina významnosti a zamítám nulovou hypotézu (že je parametr nulový). To znamená, že má smysl v modelu nechat příslušnou proměnnou (zde tedy cenu) Ad c.) R 2 = Hodnota spolehlivosti R = 0,9697 (Model vysvětluje 96,97 % variability vysvětlované proměnné, zde Nákladů) Ad d.) S každým tisícem dolarů, o který je dům dražší, stoupají odhadované náklady o 7,57 dolaru. Ad e.) Y = - 160,35+7,57*80 = 445,55