Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.



Podobné dokumenty
(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů).

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

4ST201 STATISTIKA CVIČENÍ Č. 10

KGG/STG Statistika pro geografy

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

4EK211 Základy ekonometrie

Analýza dat z dotazníkových šetření

STATISTIKA MIGRANTŮ PRO REGIONY V MORAVSKOSLEZSKÉM KRAJI A PRO KRAJ V OBDOBÍ

Jste aktivní sportovec?(pravidelně sportuji alespoň 2x týdně) Jakým sportovním činnostem se pravidelně věnujete? (alespoň 1 x za dva týdny v sezóně)

Metodologie pro ISK II

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

4EK211 Základy ekonometrie

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Seminář 6 statistické testy

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

ÚKOL ,77 5,00 5 2,531,003,056 -,869,113

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Karta předmětu prezenční studium

Regresní a korelační analýza

AVDAT Klasický lineární model, metoda nejmenších

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Příklad: Test nezávislosti kategoriálních znaků

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

6. Lineární regresní modely

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

Seminář 6 statistické testy

C V I Č E N Í ZE STATISTIKY PRO BIOLOGY:

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

SEMINÁRNÍ PRÁCE Z 4ST432 Tereza Michlíková (xmict05) ZS 06/07

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Pomůcka pro cvičení: 3. semestr Bc studia

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Zápočtová práce STATISTIKA I

Příloha č.1 Vypočtené hodnoty jednotlivých proměnných indexu OCA pro MUBS za období

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Opakování: Nominální proměnná více hodnotová odpověď.

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

TECHNICKÁ UNIVERZITA V LIBERCI

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

ADDS cvičení 7. Pavlína Kuráňová

Uni- and multi-dimensional parametric tests for comparison of sample results

Ilustrační příklad odhadu LRM v SW Gretl

PŘÍLOHA A. METODA NEJMENŠÍCH ČTVERCŮ PRODEJ BYTŮ. Příloha A. Metoda nejmenších čtverců Prodej bytů

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Korelační a regresní analýza

6. T e s t o v á n í h y p o t é z

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Analýza dat na PC I.

Testy nezávislosti kardinálních veličin

Regresní a korelační analýza

Dynamické metody pro predikci rizika

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Regresní analýza. Eva Jarošová

AVDAT Geometrie metody nejmenších čtverců

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Regresní a korelační analýza

Regresní a korelační analýza

M cvičení : GLM04b (Vztah mezi Poissonovým a

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

Inovace bakalářského studijního oboru Aplikovaná chemie

Tomáš Karel LS 2012/2013

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

Využití software ITEMAN k položkové analýze a analýze výsledků testů

4ST201 STATISTIKA CVIČENÍ Č. 8

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Regresní a korelační analýza

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Kurz SPSS: Jednoduchá analýza dat. Jiří Šafr

Analýza dat s využitím MS Excel

Hledání závislostí technologických a nákladových charakteristik při tavení oceli na elektrických obloukových pecích

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

Popisná statistika. Komentované řešení pomocí MS Excel

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství Ústav strojírenské technologie odbor slévárenství. Ing. Martin Svadbík

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Vysoká škola ekonomická v Praze

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

4EK211 Základy ekonometrie

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Kapitola IV. DESATERO PRO POROVNÁVÁNÍ VÝSLEDKŮ DVOU METOD. Luděk Dohnal. Desatero pro porovnávání výsledků dvou metod 21

Charakteristika datového souboru

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Transkript:

SEMINÁRNÍ PRÁCE

Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné kategoriální, alespoň 2 proměnné číselné spojité a 2 proměnné číselné nespojité). 1) Vypočítejte a popište základní charakteristiky jedné číselné spojité a jedné číselné nespojité proměnné, nakreslete vhodné grafy. 2) Pro zkoumání vztahů mezi proměnnými použijte: a) kontingenční tabulku b) analýzu rozptylu (nepovinné) c) korelační tabulku d) jednoduchou regresní analýzu e) vícenásobnou regresní analýzu 3) Výsledky okomentujte a doplňte vhodnými grafy. Průzkum dovolených, strávených v zahraničí v roce 2006, provedený v obci Vysoké Mýto Pozorování Cestovní kancelář Destinace Délka pobytu v zahraničí Věk Cena pobytu v zahraničí Měsíční příjem 1 žádná Chorvatsko 12 39 4 900,00 Kč 12 600,00 Kč 2 žádná Irsko 13 28 18 500,00 Kč 25 600,00 Kč 3 CK Union Francie 10 53 6 330,00 Kč 9 400,00 Kč 4 CK Sunny Day Španělsko 12 48 11 990,00 Kč 12 400,00 Kč 5 žádná Norsko 20 24 20 000,00 Kč 22 400,00 Kč 6 CK Sunny Day Chorvatsko 10 37 14 790,00 Kč 14 400,00 Kč 7 CK Jiří Kalousek Španělsko 10 44 7 789,00 Kč 24 200,00 Kč 8 žádná Francie 12 39 6 500,00 Kč 16 800,00 Kč 9 CK Uion Chorvatsko 12 41 6 580,00 Kč 10 200,00 Kč 10 žádná Norsko 25 26 22 500,00 Kč 23 800,00 Kč 11 CK Sunny Day Španělsko 12 35 15 390,00 Kč 17 400,00 Kč 12 žádná Francie 5 25 4 000,00 Kč 13 000,00 Kč 13 žádná Chorvatsko 13 28 4 300,00 Kč 11 400,00 Kč 14 CK Union Francie 10 31 5 800,00 Kč 15 400,00 Kč 15 CK Union Španělsko 10 42 8 999,00 Kč 14 600,00 Kč 16 CK Jiří Kalousek Chorvatsko 10 37 8 699,00 Kč 21 500,00 Kč 17 CK Sunny Day Francie 15 55 6 590,00 Kč 14 400,00 Kč 18 CK Union Norsko 10 47 10 380,00 Kč 16 400,00 Kč 19 CK Jiří Kalousek Španělsko 10 50 5 989,00 Kč 10 600,00 Kč 20 žádná Irsko 29 22 23 000,00 Kč 23 800,00 Kč 21 CK Jiří Kalousek Francie 5 33 6 999,00 Kč 16 000,00 Kč 22 žádná Chorvatsko 13 46 5 500,00 Kč 14 600,00 Kč 23 CK Sunny Day Španělsko 10 38 9 790,00 Kč 16 800,00 Kč 24 CK Union Francie 11 20 6 330,00 Kč 12 800,00 Kč 25 CK Jiří Kalousek Španělsko 10 34 7 299,00 Kč 13 800,00 Kč 26 žádná Chorvatsko 11 46 4 000,00 Kč 12 400,00 Kč 27 CK Union Norsko 10 27 10 380,00 Kč 11 600,00 Kč 28 žádná Francie 11 29 5 500,00 Kč 18 400,00 Kč 29 CK Union Chorvatsko 11 49 6 580,00 Kč 17 000,00 Kč 30 CK Sunny Day Španělsko 12 38 12 490,00 Kč 19 600,00 Kč

1) Vypočítejte a popište základní charakteristiky jedné číselné nespojité a jedné číselné spojité proměnné, nakreslete vhodné grafy. Pozorování Délka pobytu v zahraničí Cena pobytu v zahraničí Pozorování Délka pobytu v zahraničí Cena pobytu v zahraničí 1 12 4 900,00 Kč 16 10 8 699,00 Kč 2 13 18 500,00 Kč 17 15 6 590,00 Kč 3 10 6 330,00 Kč 18 10 10 380,00 Kč 4 12 11 990,00 Kč 19 10 5 989,00 Kč 5 20 20 000,00 Kč 20 29 23 000,00 Kč 6 10 14 790,00 Kč 21 5 6 999,00 Kč 7 10 7 789,00 Kč 22 13 5 500,00 Kč 8 12 6 500,00 Kč 23 10 9 790,00 Kč 9 12 6 580,00 Kč 24 11 6 330,00 Kč 10 25 22 500,00 Kč 25 10 7 299,00 Kč 11 12 15 390,00 Kč 26 11 4 000,00 Kč 12 5 4 000,00 Kč 27 24 10 380,00 Kč 13 13 4 300,00 Kč 28 11 5 500,00 Kč 14 10 5 800,00 Kč 29 11 6 580,00 Kč 15 10 8 999,00 Kč 30 12 12 490,00 Kč a) Délka pobytu v zahraničí číselná nespojitá proměnná One-Way Frequencies délka pobytu Frequency Percent Cumulative Frequency Cumulative Percent 5 2 6.67 2 6.67 10 10 33.33 12 40.00 11 4 13.33 16 53.33 12 6 20.00 22 73.33 13 3 10.00 25 83.33 15 1 3.33 26 86.67 20 1 3.33 27 90.00 24 1 3.33 28 93.33 25 1 3.33 29 96.67 29 1 3.33 30 100.00 Původně nesetříděná data jsme uspořádali do tabulky rozdělení četností. Z ní můžeme vyvodit např. následující závěry: - v souboru jsou 2 osoby, které strávili v zahraničí 5 dní, 10 osob, které pobývali v zahraničí 10 dní, 4 osoby, které strávili v cizině11 dní atd. - osoby, které pobývali na dovolené 5 dní tvoří 6,67% všech dotázaných osob, osoby, které strávili v zahraničí 10 dní, tvoří 33,33% všech dotázaných atd.

- 2 osoby strávili v zahraničí 5 dní, což je 6, 67% všech dotázaných, 12 osob strávilo v zahraničí 5 nebo 10 dní, což je 40 % všech dotázaných, ani jedna osoba nestrávila v zahraničí více než 29 dní, což znamená, že všechny dotázané osoby pobývali v zahraničí 29 a méně dní. Tento graf znázorňuje vertikální sloupcový graf četností pro znak délka pobytu v zahraničí. V následujících tabulkách se uvádějí míry úrovně a to v tomto pořadí: - největší hodnota, aritmetický průměr, nejmenší hodnota, dolní kvartil, medián, horní kvartil, variační rozpětí, výběrová směrodatná odchylka, součet a výběrový rozptyl Jak vidíme, maximální doba strávená v zahraničí je 29 dní, a nejkratší 5 dní. V průměru stráví lidé v zahraničí 12,6 dní. Variační rozpětí, které se vypočítá jako rozdíl nejvyšší a nejmenší hodnoty, je 24. Směrodatná odchylka je 5,282 dní. Umocníme-li směrodatnou odchylku, dostaneme rozptyl. Rozptyl je tedy 27,9. Dolní kvartil odděluje čtvrtinu nejnižších hodnot znaku délka pobytu a jeho hodnota je 10 dní. Medián neboli prostřední hodnota je 50 % kvantil, který člení statistický soubor na dvě stejně četné poloviny, je v našem případě 11 dní. Horní kvartil odděluje 75 % nejnižších hodnot znaku od zbývajících 25 % hodnot znaku a v našem případě je 13 dní. Celkem všech 30 dotázaných osob strávilo v roce 2006 v zahraničí 378 dní. Analysis Variable : délka pobytu Maximum Mean Minimum Lower Quartile Median Upper Quartile 29.0000000 12.6000000 5.0000000 10.0000000 11.0000000 13.0000000 Analysis Variable : délka pobytu Range Std Dev Sum Variance 24.0000000 5.2823715 378.0000000 27.9034483

Krabičkový graf, který vidíme níže, nám znázorňuje extrémní hodnoty souboru a kvartily. Spodní horizontální čára určuje dolní kvartil, střední je medián a nejvyšší znázorňuje horní kvartil. Hodnoty délky pobytu se pohybují nejvíce v oblasti krabičky a dále podél vertikální úsečky. Body, které vidíme na obou stranách grafu nejsou spojeny úsečkou, protože mezi poslední hodnotou na úsečce a těmito body nejsou žádné hodnoty. Jsou to extrémní hodnoty, které mohou zkreslovat například průměrnou délku pobytu v zahraničí. Proto je objektivnějším hodnocením medián než aritmetický průměr. b) Cena pobytu v zahraničí číselná spojitá proměnná Původně nesetříděná data jsem opět uspořádala do tabulky intervalových rozdělení četností. Interval Cena pobytu v zahraničí Četnost Kumulativní četnost (hranice intervalu) Střed intervalu dolní horní absolutni relativni absolutní relativní 1 3500 7000 5250 14 0,467 14 0,467 2 7000 10500 8750 8 0,267 22 0,733 3 10500 14000 12250 2 0,067 24 0,800 4 14000 17500 15750 2 0,067 26 0,867 5 17500 21000 19250 2 0,067 28 0,933 6 21000 24500 22750 2 0,067 30 1,000 Celkem x x x 30 1,000 x x Z tabulky můžeme vyvodit např. následující závěry: - v souboru je 14 osob, jež zaplatily za pobyt v zahraničí od 3 500 do 7 000 Kč, 2 osoby, které zaplatily od 10 500 do 14 000 Kč, 2 osoby, které dovolená stála v rozmezí od 21 000 až 24 500 Kč atd. - osoby, které zaplatily za dovolenou od 7 000 do 10 500 Kč tvoří 26,7% všech dotázaných osob, osoby, které zaplatily od 17 500 do 21 000 Kč tvoří 6,7 % atd. - 14 osob, zaplatilo za pobyt od 3 500 do 7 000 Kč, což je 46,7% všech dotázaných, 26 osob zaplatilo od 14 000 do 17 500 Kč, což je 86,7 % všech dotázaných, ani jedna osoba nezaplatila za pobyt v zahraničí více než 24 500 Kč, což znamená, že všech 30 dotázaných osob zaplatilo za pobyt v zahraničí 24 500 Kč a méně.

V následujících tabulkách se uvádějí míry úrovně a to v tomto pořadí: - největší hodnota, aritmetický průměr, nejmenší hodnota, dolní kvartil, medián, horní kvartil, variační rozpětí, výběrová směrodatná odchylka, součet a výběrový rozptyl Jak vidíme, maximální cena pobytu činí 23 000 Kč, a nejnižší 4 000 Kč. V průměru zaplatí lidé za pobyt v zahraničí 9 596,47 Kč. Variační rozpětí, které se vypočítá jako rozdíl nejvyšší a nejmenší hodnoty, je 19 000 Kč. Směrodatná odchylka je 5 439,08 Kč. Umocníme-li směrodatnou odchylku, dostaneme rozptyl. Rozptyl je tedy 29 583 636,95. Dolní kvartil odděluje čtvrtinu nejnižších hodnot znaku cena pobytu a jeho hodnota je 5 989 Kč. Medián neboli prostřední hodnota je 50 % kvantil, který člení statistický soubor na dvě stejně četné poloviny, je v našem případě 7 149 Kč. Horní kvartil odděluje 75 % nejnižších hodnot znaku od zbývajících 25 % hodnot znaku a je 11 990 Kč. Celkem všech 30 dotázaných osob zaplatilo v roce 2006 za pobyt v zahraničí 287 894 Kč. Analysis Variable : cena pobytu Maximum Mean Minimum Lower Quartile Median Upper Quartile 23000.00 9596.47 4000.00 5989.00 7149.00 11990.00 Analysis Variable : cena pobytu Range Std Dev Sum Variance 19000.00 5439.08 287894.00 29583636.95 Krabičkový graf, který vidíme níže, nám opět znázorňuje extrémní hodnoty souboru a kvartily. Spodní horizontální čára určuje dolní kvartil, střední je medián a nejvyšší znázorňuje horní kvartil. Hodnoty délky pobytu se pohybují nejvíce v oblasti krabičky a dále podél vertikální úsečky. Body, které vidíme na v horní části grafu nejsou spojeny úsečkou, protože mezi poslední hodnotou na úsečce a těmito body nejsou žádné hodnoty. Jsou to extrémní hodnoty, které mohou zkreslovat například průměrnou cenu pobytu v zahraničí. Proto je objektivnějším hodnocením medián než aritmetický průměr.

2) Kontingenční tabulka analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které vycestovaly v roce 2006 do ciziny byla sestavena následující kontingenční tabulka. Destinace/CK CK Jiří Kalousek (1) CK Sunny Day (2) CK Union (3) Žádná CK (4) Celkem Přímořské (1) 5 6 6 7 24 Poznávací (2) 0 0 2 4 6 Celkem 5 6 8 11 30 Francie, Chorvatsko a Španělsko sloučíme do skupiny přímořské destinace a Norsko a Irsko do skupiny poznávací destinace. Máme rozhodnout, zda výběr cestovní kanceláře závisí na vybrané destinaci. Table Analysis Frequency Expected Col Pct Table of radek by sloupec sloupec radek 1 2 3 4 Total 1 5 4 100.00 6 4.8 100.00 6 6.4 75.00 7 8.8 63.64 24 2 0 1 0.00 0 1.2 0.00 2 1.6 25.00 4 2.2 36.36 6 Total 5 6 8 11 30 Na prvním místě v buňce jsou zobrazeny sdružené absolutní četnosti, na druhém očekávané četnosti a na třetím místě jsou zobrazeny sdružené relativní četnosti v procentech. Pomocí Chí-kvadrát testu testujeme hypotézu H 0 : výběr cestovní kanceláře nezávisí na vybrané destinaci. Alternativní hypotéza je H 1 : non H 0.

V této tabulce nalezneme výsledek testované hypotézy. Statistics for Table of radek by sloupec Statistic Value Prob Chi-Square 3 4.7159 0.1938 Likelihood Ratio Chi-Square 3 6.6062 0.0856 Mantel-Haenszel Chi- Square 1 4.1763 0.0410 Phi Coefficient 0.3965 Contingency Coefficient 0.3686 Cramer's V 0.3965 Sample Size = 30 Hodnota v řádku Chi-Square a sloupci Value udává hodnotu testového kritéria a je tedy 4,7159. Hodnota ve sloupci Prob je vyšší než 0,05, tj. 0,1938, a proto na 5% hladně významnosti testovanou hypotézu H 0 nezamítáme. Výběr cestovní kanceláře nezávisí na vybrané destinaci. 3) Korelační tabulka korelační analýza Předmětem korelační analýzy je zkoumání lineárních vztahů mezi dvěma nebo více proměnnými. Mírou těsnosti těchto vztahů jsou korelační koeficienty. Korelační koeficient může nabývat hodnot z intervalu <-1, +1>, přičemž znaménko určuje směr závislosti. Hodnoty blízké nule znamenají slabou lineární závislost mezi pozorovanými hodnotami proměnných X 1 a X 2, hodnoty blízké +1 znamenají vysokou kladnou korelaci (body odpovídající dvojicím X 1 a X 2 leží v blízkosti přímky s kladnou směrnicí), hodnoty blízké -1 znamenají vysokou zápornou korelaci (body odpovídající dvojicím hodnot X 1 a X 2 leží v blízkosti přímky se zápornou směrnicí). Máme výběr 30 obyvatel města Vysoké Mýto, kteří v roce 2006 vycestovali do zahraničí. Zajímá nás jak spolu souvisí délka pobytu v zahraničí s cenou pobytu. Délka pobytu v zahraničí Cena pobytu v zahraničí Délka pobytu v zahraničí Cena pobytu v zahraničí 12 4 900,00 Kč 10 8 699,00 Kč 13 18 500,00 Kč 15 6 590,00 Kč 10 6 330,00 Kč 10 10 380,00 Kč 12 11 990,00 Kč 10 5 989,00 Kč 20 20 000,00 Kč 29 23 000,00 Kč 10 14 790,00 Kč 5 6 999,00 Kč 10 7 789,00 Kč 13 5 500,00 Kč 12 6 500,00 Kč 10 9 790,00 Kč 12 6 580,00 Kč 11 6 330,00 Kč 25 22 500,00 Kč 10 7 299,00 Kč 12 15 390,00 Kč 11 4 000,00 Kč 5 4 000,00 Kč 24 10 380,00 Kč 13 4 300,00 Kč 11 5 500,00 Kč 10 5 800,00 Kč 11 6 580,00 Kč 10 8 999,00 Kč 12 12 490,00 Kč

Testovaná hypotéza H 0 : ς = 0 (neexistuje lineární vztah mezi X 1 a X 2 ) Alternativní hypotéza H 1 : ς 0 (existuje lineární vztah mezi X 1 a X 2 ) 1 With Variables: cena pobytu 1 Variables: delka pobytu Pearson Correlation Coefficients, N = 30 Prob > r under H0: Rho=0 delka pobytu cena pobytu 0.73516 <.0001 V tabulce je uvedena hodnota korelačního koeficientu (0,73516) a P-hodnota (<.0001), která odpovídá hodnotě testové statistiky. Protože α = 0,05 je větší než P-value, testovanou hypotézu H 0 zamítáme. Jak je vidět mezi proměnnými délka pobytu a cena pobytu lze pozorovat přímou silnou lineární závislost (korelaci), což vyplývá i z grafu uvedeného níže. Lze tedy říci, že s rostoucími hodnotami jedné proměnné střední hodnota druhé proměnné také roste.

Hodnoty korelačního koeficientu a test hypotézy H 0 : ς = 0 proti H 1 : ς 0 lze určit i z výstupu lineární regrese. Pokud cena pobytu je vysvětlovaná proměnná a délka pobytu je vysvětlující proměnná, pak dostaneme tyto výstupy: Dependent Variable: cena pobytu Parameter Estimates Variable Parameter Estimate Standard Error t Value Pr > t Intercept 1-428.73214 1876.42191-0.23 0.8209 delka pobytu 1 826.17023 143.97146 5.74 <.0001 Z tabulky odečteme hodnotu regresního koeficientu b 12 = 826,17023. Korelační koeficient souvisí s koeficientem determinace modelu regresní přímky. Absolutní hodnotu korelačního koeficientu dostaneme odmocněním koeficientu determinace, který je uveden v následující tabulce. Root MSE 3752.84382 R-Square 0.5405 Dependent Mean 9595.46667 Adj R-Sq 0.5240 Coeff Var 39.11059 Korelační koeficient: r = R 2 = 0,5405 = 0,735187. Z hodnoty koeficientu determinace plyne, že modelem regresní přímky je vysvětleno 54,05 % variability závislé proměnné (cena pobytu). Pokud za vysvětlovanou proměnnou zvolíme délku pobytu a vysvětlující proměnnou bude cena pobytu, pak obdržíme tyto výstupy: Dependent Variable: delka pobytu Parameter Estimates Variable Parameter Estimate Standard Error t Value Pr > t Intercept 1 5.85630 1.25230 4.68 <.0001 cena pobytu 1 0.00065417 0.00011400 5.74 <.0001 Z tabulky odečteme hodnotu regresního koeficientu b 21 = 0,00065417. Korelační koeficient souvisí s koeficientem determinace modelu regresní přímky. Absolutní hodnotu korelačního koeficientu dostaneme odmocněním koeficientu determinace, který je uveden v následující tabulce.

Root MSE 3.33941 R-Square 0.5405 Dependent Mean 12.13333 Adj R-Sq 0.5240 Coeff Var 27.52262 Korelační koeficient: r = R 2 = 0,5405 = 0,735187. Z hodnoty koeficientu determinace opět plyne, že modelem regresní přímky je vysvětleno 54,05 % variability závislé proměnné (délka pobytu). Závěrem lze shrnout: Korelační koeficient je symetrickou mírou lineární závislosti a jeho odhad získáme odmocněním koeficientu determinace modelu regresní přímky, případně doplněním záporného znaménka. Závisle proměnnou přitom může být kterákoli ze dvou uvažovaných proměnných. K testu hypotézy H 0 : ς = 0 proti H 1 : ς 0 můžeme použít ekvivalentní test H 0 : βj = 0 proti H 1 : βj 0, jehož výsledek najdeme na příslušném výstupu lineární regrese. 4) Jednoduchou regresní analýza Cílem regresní analýzy je nalezení vztahu mezi vysvětlovanou nebo závisle proměnnou Y a jednou nebo více vysvětlujícími proměnnými (nezávisle proměnnými) X 1, X 2,, X k a konstrukce vhodného modelu. Nejznámější charakteristikou kvality regresního modelu je koeficient determinace R 2. Koeficient determinace nabývá hodnot z intervalu <0;1> a udává, jakou část celkové variability pozorovaných hodnot lze vysvětlit daným modelem. Každý dotázaný je již vydělávající osobou. Chceme zjistit, zda cena, kterou vybrané osoby zaplatily za pobyt v zahraničí závisí na výši jejich měsíčních příjmů. a) Regresní přímka: y=β 0 + β 1 + ε Dependent Variable: cena pobytu Parameter Estimates Variable Parameter Estimate Standard Error t Value Pr > t Intercept 1-3609.16087 2781.32495-1.30 0.2050 mesícní príjem 1 0.81965 0.16643 4.93 <.0001 Tabulka obsahuje odhady parametrů regresní přímky, směrodatné chyby těchto odhadů, hodnoty testové statistiky při testování hypotéz H 0 : β j = 0 proti H 1 : β j 0 pro j = 0, 1, příslušné P-hodnoty a meze intervalů spolehlivosti pro β j. β 0 = -3609,16087 β 1 = 0,81965 P-Value = 0,2050 0,05 H 0 nezamítáme, β0 je statisticky nevýznamný parametr P-Value <.0001, tj. 0 0,05 H 0 zamítáme, β1 je statistiky významný parametr Tato funkce (přímka) není vhodná pro vystižení závislosti.

b) Parabola: Y i = β 0 + β 1 x i + β 2 x i 2 Dependent Variable: cena pobytu Parameter Estimates Variable Parameter Estimate Standard Error t Value Pr > t Intercept 1 11683 10852 1.08 0.2912 mesicni prijem 1-1.06167 1.30254-0.82 0.4222 mesicni prijem2 1 0.00005376 0.00003693 1.46 0.1570 Tabulka obsahuje odhady parametrů regresní paraboly, směrodatné chyby těchto odhadů, hodnoty testové statistiky při testování hypotéz H 0 : βj = 0 proti H 1 : βj 0 pro j = 0, 1, 2, příslušné P-hodnoty a meze intervalů spolehlivosti pro βj. β 0 = 11 683 β 1 = 0,81965 β 2 = 0,00005376 P-Value = 0,2912 0,05 H 0 nezamítáme, β0 je statisticky nevýznamný parametr P-Value = 0,4222 0,05 H 0 nezamítáme, β1 je statistiky nevýznamný parametr P-Value = 0,1570 0,05 H 0 nezamítáme, β2 je statistiky nevýznamný parametr Tato funkce (parabola) není vhodná pro vystižení závislosti. 3) Exponenciála: Y i = β 0 x β 1 x i ln Y i = ln β 0 x x i ln β 1 Results Dependent Variable: ln cena pobytu Parameter Estimates Variable Parameter Estimate Standard Error t Value Pr > t Intercept 1 7.85797 0.26543 29.61 <.0001 mesicni prijem 1 0.00007322 0.00001588 4.61 <.0001 Tabulka obsahuje odhady parametrů regresní paraboly, směrodatné chyby těchto odhadů, hodnoty testové statistiky transformovaného exponenciálního modelu při testování hypotéz H 0 : β j = 0 proti H 1 : β j 0 pro j = 0, 1, příslušné P-hodnoty a meze intervalů spolehlivosti pro β j. β 0 = 7,85797 β 1 = 0,00007322 P-Value = <.0001 0,05 H 0 zamítáme, β 0 je statisticky významný parametr P-Value = <.0001 0,05 H 0 zamítáme, β 1 je statisticky významný parametr Tato funkce (exponenciála) je vhodná pro vystižení závislosti.

ln Y i = 7,85797 + 0,00007322 x i Y i = exp (7,85797 + 0,00007322 x i ) Analysis of Variance Source Sum of Squares Mean Square F Value Pr > F Model 1 3.17897 3.17897 21.26 <.0001 Error 28 4.18750 0.14955 Corrected Total 29 7.36647 Testové kritérium F-Value = 21,26. P-Value = <.0001, tj. 0 0,05 testovanou hypotézu o nezávislosti H 0 zamítáme. Cena, kterou vybrané osoby zaplatily za pobyt v zahraničí závisí na výši měsíčního příjmu těchto osob. Jak moc? Root MSE 0.38672 R-Square 0.4315 Dependent Mean 9.03762 Adj R-Sq 0.4112 Coeff Var 4.27902 Koeficient determinace R 2 = 0,4315. To znamená, že tento model vysvětluje 43,15 % celkové variability závisle proměnné. Dependent Variable: ln cena pobytu Durbin-Watson D 1.940 Number of Observations 30 1st Order Autocorrelation 0.018 Durbin-Watsonův test testuje nezávislost reziduí. Je-li výsledná hodnota blízká číslu 2 (jako je tomu v našem případě, kdy D-W = 1,940), rezidua nejsou autokorelovaná (nejsou vzájemně lineárně závisle) a model byl zvolen správně. Níže je uvedeno grafické znázornění závislosti.

Regression Analysis Plots 4) Hyperbola: Y = b 0 + b 1 1/x Dependent Variable: cena pobytu Parameter Estimates Variable Parameter Estimate Standard Error t Value Pr > t Intercept 1 21821 3183.39572 6.85 <.0001 inv_mesicni prijem 1-183256611 46152615-3.97 0.0005 Tabulka obsahuje odhady parametrů regresní hyperboly, směrodatné chyby těchto odhadů, hodnoty testové statistiky transformovaného exponenciálního modelu při testování hypotéz H 0 : β j = 0 proti H 1 : β j 0 pro j = 0, 1, příslušné P-hodnoty a meze intervalů spolehlivosti pro β j. β 0 = 21 821 β 1 = -183 256 611 P-Value = <.0001, tj. 0 0,05 H 0 zamítáme, β 0 je statisticky významný parametr P-Value = 0,0005 0,05 H 0 zamítáme, β 1 je statisticky významný parametr Tato funkce (hyperbola) je vhodná pro vystižení závislosti. Y i = 21 821-183 256 611 x i

Analysis of Variance Source Sum of Squares Mean Square F Value Pr > F Model 1 309127164 309127164 15.77 0.0005 Error 28 548995165 19606970 Corrected Total 29 858122329 Testové kritérium F-Value = 15,77. P-Value = 0,0005 0,05 testovanou hypotézu o nezávislosti H 0 zamítáme. Cena, kterou vybrané osoby zaplatily za pobyt v zahraničí závisí na výši měsíčního příjmu těchto osob. Jak moc? Root MSE 4427.97586 R-Square 0.3602 Dependent Mean 9595.46667 Adj R-Sq 0.3374 Coeff Var 46.14654 Koeficient determinace R 2 = 0,3602. To znamená, že tímto modelem je vysvětleno 36,02 % celkové variability závisle proměnné. Dependent Variable: cena pobytu Durbin-Watson D 1.500 Number of Observations 30 1st Order Autocorrelation 0.245 Durbin-Watsonův test testuje nezávislost reziduí. Je-li výsledná hodnota blízká číslu 2 (jako je tomu v našem případě, kdy D-W = 1,500), rezidua nejsou autokorelovaná (nejsou vzájemně lineárně závisle) a model byl zvolen správně. Níže je uvedeno grafické znázornění závislosti.

Regression Analysis Plots 5) Logaritmická regrese: Y = b 0 + b 1 ln(x) Dependent Variable: cena pobytu Parameter Estimates Variable Parameter Estimate Standard Error t Value Pr > t Intercept 1-114564 27624-4.15 0.0003 ln_mesicni prijem 1 12866 2861.30682 4.50 0.0001 Tabulka obsahuje odhady parametrů logaritmické regrese, směrodatné chyby těchto odhadů, hodnoty testové statistiky transformovaného exponenciálního modelu při testování hypotéz H 0 : β j = 0 proti H 1 : β j 0 pro j = 0, 1, příslušné P-hodnoty a meze intervalů spolehlivosti pro β j. β 0 = -114 564 β 1 = 12 866 P-Value = 0,0003 0,05 H 0 zamítáme, β 0 je statisticky významný parametr P-Value = 0,0001 0,05 H 0 zamítáme, β 1 je statisticky významný parametr Tato funkce (logaritmická) je vhodná pro vystižení závislosti. Y = -114 564 + 12 866 ln(x)

Analysis of Variance Source Sum of Squares Mean Square F Value Pr > F Model 1 359810948 359810948 20.22 0.0001 Error 28 498311381 17796835 Corrected Total 29 858122329 Testové kritérium F-Value = 20,22. P-Value = 0,0001 0,05 testovanou hypotézu o nezávislosti H 0 zamítáme. Cena, kterou vybrané osoby zaplatily za pobyt v zahraničí závisí na výši měsíčního příjmu těchto osob. Jak moc? Root MSE 4218.62952 R-Square 0.4193 Dependent Mean 9595.46667 Adj R-Sq 0.3986 Coeff Var 43.96482 Koeficient determinace R 2 = 0,4193. To znamená, že tímto modelem je vysvětleno 41,93 % celkové variability závisle proměnné. Dependent Variable: cena pobytu Durbin-Watson D 1.585 Number of Observations 30 1st Order Autocorrelation 0.203 Durbin-Watsonův test testuje nezávislost reziduí. Je-li výsledná hodnota blízká číslu 2 (jako je tomu v našem případě, kdy D-W = 1,585), rezidua nejsou autokorelovaná (nejsou vzájemně lineárně závisle) a model byl zvolen správně.

Níže je uvedeno grafické znázornění závislosti. Regression Analysis Plots Závěr: ejvhodnější regresní funkcí pro modelování závislosti ceny pobytu na výši měsíčních příjmů je exponenciála. 5) Vícenásobnou regresní analýza Zkoumá závislost y nejen na vysvětlující proměnné x 1 ale též na dalších vysvětlujících proměnných x 2, x 3, x 4, Jsou dána data o délce pobytu v zahraničí, věku osob a měsíčním příjmu. Chceme zjistit, zda délka pobytu v zahraničí závisí na ostatních proměnných. Délka pobytu v zahraničí (y) Věk (x 1 ) Měsíční příjem (x 2 ) Délka pobytu v zahraničí (y) Věk (x 1 ) Měsíční příjem (x 2 ) 12 39 12 600,00 Kč 10 37 21 500,00 Kč 13 28 25 600,00 Kč 15 55 14 400,00 Kč 10 53 9 400,00 Kč 10 47 16 400,00 Kč 12 48 12 400,00 Kč 10 50 10 600,00 Kč 20 24 22 400,00 Kč 29 22 23 800,00 Kč 10 37 14 400,00 Kč 5 33 16 000,00 Kč 10 44 24 200,00 Kč 13 46 14 600,00 Kč 12 39 16 800,00 Kč 10 38 16 800,00 Kč 12 41 10 200,00 Kč 11 20 12 800,00 Kč 25 26 23 800,00 Kč 10 34 13 800,00 Kč 12 35 17 400,00 Kč 11 46 12 400,00 Kč 5 25 13 000,00 Kč 10 27 11 600,00 Kč 13 28 11 400,00 Kč 11 29 18 400,00 Kč 10 31 15 400,00 Kč 11 49 17 000,00 Kč 10 42 14 600,00 Kč 12 38 19 600,00 Kč

Testovaná hypotéza H 0 : I 2 = 0 (nezávislost) Alternativní hypotéza H 1 : I 2 0 (závislost) Y i = β 0 + βyx 1.x 2 X 1 + βyx 2.x 1 X 2 + ε i Dependent Variable: delka pobytu Parameter Estimates Variable Parameter Estimate Standard Error t Value Pr > t Intercept 1 6.69860 5.23994 1.28 0.2120 vek 1-0.06740 0.08788-0.77 0.4498 mesicni prijem 1 0.00049229 0.00018806 2.62 0.0143 Z tabulky můžeme opět vyčíst hodnoty regresních parametrů. β 0 = 6,69860 P-Value = 0,2120 0,05 H 0 nezamítáme, β 0 je statisticky nevýznamný parametr β 1 = - 0,06740 P-Value = 0,4498 0,05 H 0 nezamítáme, β 1 je statisticky nevýznamný parametr β 2 = 0, 00049229 P-Value = 0,0143 0,05 H 0 zamítáme, β 2 je statisticky významný parametr Parametry β 0 a β 1 musíme z modelu vyřadit, jelikož jsou statisticky nevýznamné. Nejprve vyřadíme konstantu β 0. Tím získáme následující hodnoty: Dependent Variable: delka pobytu Parameter Estimates Variable Parameter Estimate Standard Error t Value Pr > t vek 1 0.02569 0.04975 0.52 0.6097 mesicni prijem 1 0.00068488 0.00011383 6.02 <.0001 Protože proměnná β 1 i nadále zůstává statisticky nevýznamná, musíme jí také vyřadit z modelu. Nyní již zbývá v modelu jen vysvětlující proměnná měsíční příjem. β 2 = 0,00073836 (VIZ níže) P-Value <.0001, tj. 0 0,05 H 0 zamítáme, β 2 je statisticky významný parametr

Dependent Variable: delka pobytu Parameter Estimates Variable Parameter Estimate Standard Error t Value Pr > t mesicni prijem 1 0.00073836 0.00004662 15.84 <.0001 Y i = 0,00073836X 2 + ε i Analysis of Variance Source Sum of Squares Mean Square F Value Pr > F Model 1 4567.93230 4567.93230 250.86 <.0001 Error 29 528.06770 18.20923 Uncorrected Total 30 5096.00000 Testové kritérium F-Value = 250,86. P-Value <.0001, tj. 0 0,05 testovanou hypotézu o nezávislosti H 0 zamítáme. Délka pobytu v zahraničí závisí pouze na výši měsíčního příjmu. Jak moc? Root MSE 4.26723 R-Square 0.8964 Dependent Mean 12.13333 Adj R-Sq 0.8928 Coeff Var 35.16946 Koeficient determinace R 2 = 0,8964. To znamená, že tento model vysvětluje 89,64 % celkové variability závisle proměnné. Dependent Variable: delka pobytu Durbin-Watson D 2.402 Number of Observations 30 1st Order Autocorrelation -0.213 Durbin-Watsonův test testuje nezávislost reziduí. Je-li výsledná hodnota blízká číslu 2 (jako je tomu v našem případě, kdy D-W = 2,402), rezidua nejsou autokorelovaná (nejsou vzájemně lineárně závisle) a model byl zvolen správně.