4ST201 STATISTIKA CVIČENÍ Č. 10

Podobné dokumenty
(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Tomáš Karel LS 2012/2013

V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů).

MATEMATIKA III V PŘÍKLADECH

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Korelační a regresní analýza

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

Regresní a korelační analýza

You created this PDF from an application that is not licensed to print to novapdf printer (

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

INDUKTIVNÍ STATISTIKA

odpovídá jedna a jen jedna hodnota jiných

4EK211 Základy ekonometrie

Regresní a korelační analýza

Statistika (KMI/PSTAT)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

4EK211 Základy ekonometrie

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Inovace bakalářského studijního oboru Aplikovaná chemie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

4EK211 Základy ekonometrie

Regresní analýza 1. Regresní analýza

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

6. Lineární regresní modely

AVDAT Klasický lineární model, metoda nejmenších

KGG/STG Statistika pro geografy

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistická analýza dat

LINEÁRNÍ REGRESE. Lineární regresní model

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

KORELACE. Komentované řešení pomocí programu Statistica

AVDAT Geometrie metody nejmenších čtverců

Optimalizace provozních podmínek. Eva Jarošová

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

"Competitivness in the EU Challenge for the V4 countries" Nitra, May 17-18, 2006

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

6. Lineární regresní modely

Technická univerzita v Liberci

Úvodem Dříve les než stromy 3 Operace s maticemi

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Kontingenční tabulky, korelační koeficienty

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Regresní analýza. Eva Jarošová

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Kontingenční tabulky, korelační koeficienty

Ilustrační příklad odhadu LRM v SW Gretl

1. Příklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti:

MEZIREGIONÁLNÍ PŘEPRAVA NA ŽELEZNICI V ČR INTERREGINAL RAILWAY TRANSPORT IN CZECH REPUBLIC

10. Předpovídání - aplikace regresní úlohy

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Testování hypotéz a měření asociace mezi proměnnými

Téma 9: Vícenásobná regrese

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

4EK211 Základy ekonometrie

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

6. Lineární regresní modely

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Plánování experimentu

Aplikovaná statistika v R - cvičení 2

Cvičení 12: Binární logistická regrese

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

F p Test. statistika p 13,9 <,001 Muž 249 <,001 Žena 281 <,001. T test t df p Průměrný rozdíl 5, ,48 <,001 4,56

z dat nasbíraných v letech Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme,

KGG/STG Statistika pro geografy

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

5EN306 Aplikované kvantitativní metody I

Bodové a intervalové odhady parametrů v regresním modelu

Kanonická korelační analýza

Korelace. Komentované řešení pomocí MS Excel

6. Lineární regresní modely

Transkript:

4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte chybějící údaje ve výstupu z regresní analýzy v SAS. Vyhodnoťte výsledek F-testu a individuálních t-testů. Využijte vztahu mezi různými součty čtverců a indexem determinace. Source DF Sum of Squares Mean Squares F Value Model 1 Error 504 Corrected 505 42716 R-Square 0.4835 Adj R-Sq 0.4825 Variable DF Parameter Estimate Standard Error t Value Intercept 1-34.67062 2.64980 X 1 9.10211 0.41903 Vícenásobná lineární regrese v řadě případů se nepodaří vysvětlit změny závisle proměnné pouze jednou vysvětlující proměnnou, pak můžeme úlohu rozšířit o více vysvětlujících proměnných a hovoříme o vícenásobné regresi náročné nebo nemožné využít grafické analýzy pro posouzení vhodnosti regresní funkce - využití matematicko-statistických kritérií (testy, míry těsnosti, korelační koeficienty ) v případě lineární závislosti vysvětlované proměnné na každé z vysvětlujících proměnných konstruujeme mnohonásobnou lineární funkci a zkoumáme vícenásobnou lineární regresi vícenásobná lineární regresní funkce: = + + + +,,, = dílčí regresní koeficienty, udávají odhad toho, jak se průměrně změní hodnota vysvětlované proměnné při jednotkové změně dané vysvětlující proměnné za předpokladu, že ostatní vysvětlující proměnné zůstanou konstantní pro koeficient determinace platí, že přidáním dalších proměnných do modelu se jeho hodnota nesníží, proto model s větším množství vysvětlujících proměnných bude působit jako kvalitnější než model s nižším počtem vysvětlujících proměnných proto se pro srovnání více modelů s různým počtem vysvětlujících proměnných používá tzv. upravený koeficient determinace, který zohledňuje počet parametrů modelu =1 (1 ) 1 1

Př. 10.2 Při zjišťování účinnosti dvou různých způsobů reklamy na tržby z prodeje nového CD byly získány následující údaje (zbozi.sas7bdat): tržby (tis. Kč) náklady (tis. Kč) rádio a televize tisk 1119 0 40 625 25 25 971 30 30 1177 35 35 982 40 25 1577 45 45 914 50 0 1330 55 25 1436 60 30 1741 65 35 1717 70 40 a) Odhadněte parametry lineární regresní funkce, popisující závislost tržeb (y) na velikosti výdajů na reklamu v rádiu a televizi (x 1) a na velikosti výdajů na reklamu v tisku (x 2). Charakterizujte těsnost závislosti. b) Posuďte vhodnost zařazení proměnných do modelu na základě výsledků testů. c) Jaký průměrný přírůstek tržeb lze podle tohoto modelu očekávat při zvýšení nákladů na reklamu v tisku o 5000 Kč, zůstanou-li náklady na reklamu v rádiu a televizi stejné? d) Proveďte bodový odhad velikosti tržeb, vydá-li se na reklamu v rádiu a televizi 40 tis. Kč a na reklamu v tisku 35 tis. Kč. Source DF Sum of Squares Mean Square F Value p-value Model 2 1 065 848 532 924 19,9 0,000789 Error 8 214 567 26 821 Corrected Total 10 1 280 415 R-Square 0,8324 Adj R-Sq 0,7905 Variable DF Parameter Estimate Standard Error t Value p-value Intercept 1 123,7 184,75 0,67 0,521991 Radio_TV 1 12,6 2,56 4,93 0,001149 Tisk 1 18,9 4,32 4,37 0,002393 2

Př. 10.3 Na obrázku je uveden výstup z vícenásobné regresní analýzy v SAS, odpovídající modelu vícenásobné lineární regrese se dvěma vysvětlujícími proměnnými. Model má popisovat závislost pracovní neschopnosti (%) na průměrném věku pracovníků a na podílu žen na celkovém počtu pracovníků (%). Co všechno je možné z výstupu vyčíst? Vypočtěte hodnotu koeficientu determinace a upraveného koeficientu determinace. Variable DF Parameter Standard Error t Value Pr > t Intercept 1-3.04695 1.11682-3.05058 0.0186 vek 1 0.0100588 0.0190678 0.527529 0.6141 zeny 1 0.160399 0.0156658 10.2388 0.0000 Source DF Sum of Squares Mean Squares F Value Pr > F Model 2 3.91442 1.95721 66.64 0.0000 Error 7 0.205577 0.0293682 Corrected 9 4.12 Př. 10.4 Srovnejte model z předchozího příkladu s modelem, který obsahuje pouze proměnnou ženy. Který z těchto modelů je kvalitnější? Variable DF Parameter Estimate Standard Error t Value p-value Intercept 1-2,88125 0,480920139-5,991 0,0003 zeny 1 0,15625 0,012922546 12,091 0,0000 Source DF Sum of Squares Mean Squares F Value p-value Model 1 3,90625 3,90625 146,20 0,0000 Error 8 0,21375 0,02671875 Corrected Total 9 4,12 3

Závislost 2 číselných proměnných - korelační analýza Co testujeme? jednoduchý (párový) korelační koeficient měří sílu vzájemné lineární závislosti mezi dvěma proměnnými = = nabývá hodnot z intervalu <-1;1>, kde kladné hodnoty značí přímou lineární závislost a záporné hodnoty nepřímou lineární závislost čím více se hodnota korelačního koeficientu blíží ke krajním hodnotám, tím lze závislost považovat za silnější hodnoty blízké nule neznamenají obecně nezávislost, nýbrž pouze lineární nezávislost (= nekorelovanost) sledovaných proměnných =0,93 = 0,88 = 0,09 = 0,12 Test nulová hypotéza o nezávislosti formulována jako hypotéza o nulové hodnotě korelačního koeficientu : ρ =0 :ρ 0 => lineární nezávislost proměnných => lineární závislost proměnných testové kritérium t má při platnosti nulové hypotézy studentovo t rozdělení s = 2 stupni volnosti = 2 1 Kritický obor = ; / ( 2) / ( 2); 4

Př. 10.5 U 15 chlapců jsme spočítali počet udělaných kliků a počet shybů. Spočítejte, jestli existuje vzájemná lineární závislost mezi počtem shybů a počtem kliků a vyčíslete intenzitu této závislosti. chlapec shybů kliků 1 1 10 2 3 15 3 2 15 4 0 0 5 5 40 6 6 25 7 1 7 8 4 31 9 3 30 10 5 35 11 6 41 12 2 10 13 1 14 14 1 9 15 8 64 5