Jedoduchá leárí regrese Motvace: Cíl regresí aalýz - popsat závslost hodot velč Y a hodotách velč X. Nutost vřešeí dvou problémů: a) jaký tp fukce se použje k popsu daé závslost; b) jak se staoví kokrétí parametr daého tpu fukce? ad a) Př určeí tpu fukce je třeba provést teoretcký rozbor zkoumaé závslost. Teoretcká aalýza může upozort apříklad a to, že s růstem hodot velč X budou mít hodot velč Y tedec mootóě růst č klesat, tato tedece má charakter zrchlujícího se č zpomalujícího se růstu č poklesu, jde o závslost, kd s růstem hodot velč X dochází zpočátku k růstu hodot velč Y, který je po dosažeí určtého maxma vstřídá poklesem, apod. Můžeme apř. zkoumat závslost ce ojetého auta (velča Y) a jeho stáří (velča X). Je zřejmé, že s rostoucím stářím bude klesat cea, ale eí jasé, zda leárě, kvadratck č dokoce expoecálě. Vžd se sažíme o to ab regresí model bl jedoduchý, tj. ab eobsahoval přílš moho parametrů. Přpadá-l v úvahu více fukcí, posuzujeme jejch vhodost pomocí růzých krtérí vz dále. Často však emáme dostatek formací k provedeí teoretckého rozboru. Pak se sažíme odhadout tp fukce pomocí dvourozměrého tečkového dagramu. Zde se omezíme a fukce, které závsejí leárě a parametrech.,, 0, Zvláští pozorost budeme věovat polomálí fukc. stupě = β 0 + β x. x ad b) Odhad b0,b,, bp ezámých parametrů 0,,, p získáme a základě dvourozměrého datového souboru metodou ejmeších čtverců, tj. z podmík, ab součet čtverců odchlek zjštěých a odhadutých hodot bl x mmálí. p
Specfkace klasckého modelu leárí regrese, kde - teoretcká regresí fukce, která leárě závsí a ezámých regresích parametrech Y m x; m x;,, 0, 0,,, zámých fukcích p p f x,,f p x, které jž eobsahují ezámé parametr, tj. m p x; 0,,, p jf jx j0,, 0,, přčemž Jde o determstckou složku modelu. Složka - áhodá složka modelu. Je to áhodá odchlka od determstcké závslost Y a X. Popsuje závslost vsvětlovaé proměé a ezámých ebo epozorovaých proměých a popsuje vlv áhod. Nelze j fukčě vjádřt. Velča Y - závsle proměá (též vsvětlovaá) velča. Velča X - ezávsle proměá (též vsvětlující) velča. Pořídíme dvojc pozorováí, tj. dvourozměrý datový soubor x,,, x Pro =,..., platí: mx ; 0,,, p., O áhodých odchlkách předpokládáme, že a) (odchlk ejsou sstematcké) b) D 0 (všecha pozorováí jsou prováděa s touž přesostí) c) C, 0 pro j(mez áhodým odchlkam eexstuje žádý leárí vztah) 0 E j,, d) N 0,. V tomto případě hovoříme o klasckém modelu leárí regrese. ~ x x. f 0 p a x.
Ozačeí p 0 b,,,b b - odhad regresích parametrů p 0,,, (ejčastěj je získáme metodou ejmeších čtverců, tj. z podmík, že výraz p 0 j j j x f abývá svého mma pro β j = b j, j = 0,,, p) 0 b p,, x;b mˆ - emprcká regresí fukce p 0 j j j p 0 x f b,b, ;b x mˆ ŷ - regresí odhad -té hodot velč Y (-tá predkovaá hodota velč Y) ŷ e - -té rezduum E ŷ S - rezduálí součet čtverců p S s E - odhad rozptlu σ R m ŷ S - regresí součet čtverců ( m ) T m S - celkový součet čtverců ( E R T S S S )
Výzam jedotlvých tpů součtů čtverců Předpokládejme, že máme dvourozměrý datový soubor, v ěmž průměr hodot závsle proměé velč Y je 9 a závslost velč Y a velčě X je popsáa regresí přímkou = x + 3. Dvourozměrý tečkový dagram obsahuje bod o souřadcích (5, 9), který pochází z datového souboru. Na regresí přímce leží bod o souřadcích (5, 3). Odchlka zjštěé hodot 9 od průměru 9 je v obrázku ozačea Total devato a po umocěí je to jeda ze složek celkového součtu čtverců S T, tj. složka m. Odchlka zjštěé hodot 9 od hodot 3 a regresí přímce je v obrázku ozačea Uexplaed devato a po umocěí je to jeda ze složek rezduálího součtu čtverců S E, tj. složka. Odchlka hodot 3 a regresí přímce od průměru 9 je v obrázku ozačea Explaed devato a po umocěí je to jeda ze složek regresího součtu čtverců S R, tj. složka. ŷ m ŷ
Matcový záps klasckého modelu leárí regrese, kde Xβ ε ',, - vektor pozorováí závsle proměé velč Y, f x f p x X - regresí matce f x f p x (předpokládáme, že h(x) = p+ < ) ' 0,,, - vektor regresích parametrů, ', p, - vektor áhodých odchlek. Podmík (a) až (d) lze zkráceě zapsat ve tvaru ~ N (0, σ I). Matcově zapsaá metoda ejmeších čtverců vede a rovce X Xβ = X - sstém ormálích rovc b = (X X) - X odhad vektoru β získaý metodou ejmeších čtverců ŷ = Xb vektor regresích odhadů (vektor predkce) e = - ŷ - vektor rezduí Vlastost odhadu b: ' ' - odhad b je leárí, eboť je vtvoře leárí kombací pozorováí,, s matcí vah X X - odhad b je estraý, eboť E(b) = β; - odhad b má varačí matc var b = σ (X'X) - ; - odhad b ~ Np+(β, σ (X'X)-) vzhledem k platost podmík (d); X ; - pro odhad b platí Gaussova - Markovova věta: Odhad b = (X'X) - X' je ejlepší estraý leárí odhad vektoru β.
Příklad U šest obchodíků bla zjšťováa poptávka po určtém druhu zboží lo (velča X - v kusech) a letos (velča Y - v kusech). číslo obchodíka 3 4 5 6 poptávka lo (X) 0 60 70 00 50 60 poptávka letos (Y) 50 60 60 0 30 30 Předpokládejte, že závslost letoší poptávk a loňské lze vsthout regresí přímkou. Sestavte regresí matc, vpočtěte odhad regresích parametrů a apšte rovc regresí přímk. Iterpretujte parametr regresí přímk. Řešeí: Sestavíme regresí matc. X x x Podle vzorce, ted X = b X X ' ' X 0 60 70 00 50 60 Nejprve vpočítáme matc X X =. získáme odhad regresích parametrů. 6 660 660 09000 a k í verzí matc (X X) - = 0,499084 0,0030 840 0,499084 Dále získáme souč X = a akoec vektor odhadů regresích parametrů: b = 38500 0,0030 Regresí přímka má ted rovc = 0,6868 +,665 x. 0,0030 0,00007. 0,0030 840 0,6868. =. 0,00007 38500,665 Zameá to, že př ulové loňské poptávce b letoší poptávka čla 0,6868 kusů a př zvýšeí loňské poptávk o 0 kusů b se letoší poptávka zvedla o,665 kusů.
Výpočet pomocí sstému STATISTICA Vtvoříme ový datový soubor se dvěma proměým X a Y a 6 případ: Statstk Vícerozměrá regrese Závsle proměá Y, ezávsle proměá X - OK OK Výpočet: Výsledk regrese. N=6 Abs.č le X Výsledk regrese se závslou proměou : Y (Tabulka) R=,979770 R=,9447393 Upraveé R=,930945 F(,4)=68,384 p<,007 Směrod. chba odhadu : 9,9 Beta Sm.chba B Sm.chba t(4) Úroveň p beta B 0,68683 0,6436 0,0337 0,97505 0,97977 0,7538,66484 0,535 8,69474 0,0067 Ve výstupí tabulce ajdeme koefcet b 0 ve sloupc B a řádku ozačeém Abs. čle, koefcet b ve sloupc B a řádku ozačeém X. Rovce regresí přímk: = 0,68683 +,66484 x. Zameá to, že př ulové loňské poptávce b letoší poptávka čla 0,6868 kusů a př zvýšeí loňské poptávk o 0 kusů b se letoší poptávka zvedla o,665 kusů.
Testováí výzamost modelu jako celku (celkový F-test) Na hladě výzamost α testujeme, 0,, 0 H 0 :, p, 0,, 0. prot H :, p (Nulová hpotéza říká, že dostačující je model kostat.) Testová statstka: Krtcký obor: F S p R S p má rozložeí F(p, -p-), pokud H 0 platí. E W F p, p., F W H 0 zamítáme a hladě výzamost α. Výsledk F-testu zapsujeme do tabulk aalýz rozptlu: zdroj varablt součet čtverců stupě volost podíl model S R p S R /p rezduálí S E -p- S E /(-p-) - celkový S T - - - statstka F S E SR p p
Příklad: Majtelé prodej počítačových her echal své prodavače absolvovat kurz prodejích dovedostí. Poté zjšťoval po dobu 0 dů, kolk osob avštíví během otevírací dob prodeju (proměá X) a jaká je v teto de tržba (proměá Y, udává se v tsících Kč a je zaokrouhleá). 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 0 x 0 7 8 9 30 3 3 34 35 37 38 39 4 44 48 49 5 54 5 6 7 7 8 9 0 3 3 4 4 5 6 5 5 4 3 3 Dvourozměrý tečkový dagram 8 6 4 0 8 6 4 5 0 5 30 35 40 45 50 55 60 x Z grafu závslost Y a X vplývá, že s rostoucím počtem zákazíků se tržb zvšují, avšak př deím počtu zákazíků as 4 dosahují svého maxma a pak už zase klesají (všší počet zákazíků obsluha prodej ezvládá a zákazíc odcházejí, až b akoupl). Zdá se ted, že vhodým modelem závslost tržeb a počtu zákazíků bude regresí parabola 0 x x. Odhaděte parametr regresího modelu a proveďte celkový F-test.
Řešeí: Vtvoříme ový datový soubor se třem proměým X, Xkv, Y a o 0 případech. Do proměých X a Y apíšeme zjštěé hodot a do Dlouhého jméa proměé Xkv apíšeme = X^. Získáí odhadů b 0, b, b : Statstk Vícerozměrá regrese Závsle proměá Y, ezávsle proměé X, Xkv - OK OK Výpočet: Výsledk regrese. N=0 Abs.č le x xkv Výsledk regrese se závslou proměou : (prodeja_software.sta) R=,955976 R=,9393 Upraveé R=,9008653 F(,7)=88,54 p<,00000 Směrod. chba odhadu :,063 b* Sm.chba b Sm.chba t(7) p-hod. z b* z b -0,773 3,37356-6,579 0,0000 4,564 0,5480,565 0,89559 8,5655 0,000000-3,73838 0,5480-0,073 0,00535-6,89 0,000003 Regresí parabola má ted tvar: = -0,773 +,565x - 0,073x. Výsledk celkového F-testu jsou uvede v záhlaví výstupí tabulk. Testová statstka F abývá hodot 88,54, odpovídající p-hodota je blízká 0, ted a hladě výzamost 0,05 zamítáme hpotézu, že dostačující je model kostat. Podrobější výsledk získáme v tabulce aalýz rozptlu: Aktvujeme Výsledk víceásobá regrese Detalí výsledk ANOVA Efekt Regres. Rezd. Celk. Aalýza rozp tlu (prodeja_software.sta) Součet sv Průměr F p-hod. čtverců čtverců 99,84 99,90706 88,5445 0,000000 9,859 7,858 9,0000
Testováí výzamost regresích parametrů (dílčí t-test) Na hladě výzamost α pro j = 0,,..., p testujeme hpotézu H 0 : β j = 0 prot H : βj 0. Testová statstka: Krtcký obor: b Tj s j b j má rozložeí t(-p-), pokud H 0 platí. W, t / p t / p, T j W H 0 zamítáme a hladě výzamost α.. Příklad: V předešlém příkladě, kde bla modelováa závslost tržb a počtu zákazíků regresí parabolou, proveďte dílčí t-test o evýzamost jedotlvých regresích parametrů Řešeí: Stačí terpretovat výstupí tabulku víceásobé regrese: N=0 Abs.č le x xkv Výsledk regrese se závslou proměou : (prodeja_software.sta) R=,955976 R=,9393 Upraveé R=,9008653 F(,7)=88,54 p<,00000 Směrod. chba odhadu :,063 b* Sm.chba b Sm.chba t(7) p-hod. z b* z b -0,773 3,37356-6,579 0,0000 4,564 0,5480,565 0,89559 8,5655 0,000000-3,73838 0,5480-0,073 0,00535-6,89 0,000003 Sloupec ozačeý t(7) obsahuje realzace testových statstk a sloupec p-hod. pak odpovídající p-hodot. Ve všech třech případech jsou p-hodot meší ež 0,05, ted a hladě výzamost 0,05 zamítáme hpotéz o evýzamost regresích parametrů β 0, β, β.
Krtéra pro posouzeí vhodost zvoleé regresí fukce a) Idex determace ID S S R E - dex determace ( T S S T 0 ID ) udává, jakou část varablt závsle proměé velč Y lze vsvětlt zvoleou regresí fukcí (často se udává v %); je zároveň mírou těsost závslost proměé Y a proměé X; je to obecá míra, ezávslá a tpu regresí fukce (lze použít pro měřeí eleárí závslost); je to míra, která ebere v úvahu počet parametrů regresí fukce. U regresích fukcí s více parametr vchází ted obvkle všší ež u regresích fukcí s méě parametr; tato míra eí smetrcká. Za vhodější se považuje ta regresí fukce, pro ž je dex determace všší. V případě, že porováváme ěkolk modelů s rozdílým počtem parametrů, používáme adjustovaý dex determace: ID adj ID p ID - adjustovaý dex determace p V příkladu s prodejem software ajdeme dex determace ve výstupí tabulce regrese: Výsledk regrese se závslou proměou : (prodeja_software.sta) R=,955976 R=,9393 Upraveé R=,9008653 N=0 Abs.č le x xkv F(,7)=88,54 p<,00000 Směrod. chba odhadu :,063 b* Sm.chba b Sm.chba t(7) p-hod. z b* z b -0,773 3,37356-6,579 0,0000 4,564 0,5480,565 0,89559 8,5655 0,000000-3,73838 0,5480-0,073 0,00535-6,89 0,000003 Idex determace je zde ozače jako R, abývá hodot 0,94 a říká ám, že 9,4% varablt tržeb je vsvětleo regresí parabolou. Adjustovaý dex determace je ozače Upraveé R.
b) Testové krtérum F Za vhodější je považováa ta regresí fukce, u íž je hodota testové statstk modelu jako celku všší. Ve výstupí tabulce regrese je testová statstka F uvedea v záhlaví: Výsledk regrese se závslou proměou : (prodeja_software.sta) R=,955976 R=,9393 Upraveé R=,9008653 N=0 Abs.č le x xkv F(,7)=88,54 p<,00000 Směrod. chba odhadu :,063 b* Sm.chba b Sm.chba t(7) p-hod. z b* z b -0,773 3,37356-6,579 0,0000 4,564 0,5480,565 0,89559 8,5655 0,000000-3,73838 0,5480-0,073 0,00535-6,89 0,000003 V ašem příkladě je ozačea F(,7) a abývá hodot 88,54. F S E SR p p pro test výzamost
c) Rezduálí součet čtverců a rezduálí rozptl Rezduálí součet čtverců: S E ŷ Za vhodější považujeme fukc, která má rezduálí součet čtverců žší. Rezduálí součet čtverců lze použít pouze tehd, kdž srováváme fukce se stejým počtem parametrů. Rezduálí rozptl: s SE p Za vhodější považujeme tu fukc, která má rezduálí rozptl žší. Rezduálí rozptl můžeme použít vžd, bez ohledu a to, kolk parametrů mají srovávaé regresí fukce. Obě charakterstk ajdeme v tabulce ANOVA: Efekt Regres. Rezd. Celk. Aalýza rozp tlu (prodeja_software.sta) Souč et sv Průměr F p-hod. čtverců čtverců 99,84 99,90706 88,5445 0,000000 9,859 7,858 9,0000 Rezduálí součet čtverců je 9,859 a rezduálí rozptl je,858.
d) Středí absolutí procetuálí chba predkce (MAPE) MAPE ŷ Za vhodější považujeme tu fukc, která má MAPE žší. Sstém STATISTICA MAPE eposktuje, tuto chbu musíme vpočítat. Statstk Vícerozměrá regrese Závsle proměá Y, ezávsle proměé x, xkv - OK OK zvolíme Rezdua/předpoklad/předpověd Rezduálí aalýza Uložt Uložt rezdua & předpověd vbereme proměou - OK. K vzklému datovému souboru přdáme jedu ovou proměou, azveme j chba a do jejího Dlouhého jméa apíšeme =00*abs((v-v)/v) Pomocí Statstk Základí statstk/tabulk Popsé statstk zjstíme průměr proměé chba. V ašem případě je MAPE 9,3%.
e) Aalýza rezduí Rezdua považujeme za odhad áhodých odchlek a klademe a ě stejé požadavk jako a áhodé odchlk, tj. mají být ezávslá, mají být ormálě rozložeá, mají mít ulovou středí hodotu, mají mít kostatí rozptl (tj. jsou homoskedastcká). Nezávslost rezduí (autokorelac) posuzujeme apř. pomocí Durbov Watsoov statstk, která b se měla acházet v tervalu 6 krtckou hodotou). Normaltu rezduí ověřujeme pomocí testů ormalt (apř. Lleforsovou varatou Kolmogorovova Smrovova testu ebo Shaprovým Wlksovým testem) č grafck pomocí N-P plotu. Testováí ulovost středí hodot rezduí provádíme pomocí jedovýběrového t-testu. Homoskedastctu rezduí posuzujeme pomocí grafu závslost rezduí a predkovaých hodotách. V tomto grafu b rezdua měla být rovoměrě rozptýlea.,4;, (to je ovšem pouze oretačí vodítko, korektí postup spočívá v porováí této statstk s tabelovaou
Příklad: Proveďte aalýzu rezduí pro příklad s modelováím závslost tržb a počtu zákazíků. Posouzeí ezávslost rezduí pomocí Durbov Watsoov statstk: Statstk Víceásobá regrese proměá Závslá:, ezávslá x, xkv OK a záložce Resdua/předpoklad/předpověd vbereme Rezduálí aalýza - Detal Durb-Watsoova statstka: Durb- Watso.d Sérové korelace Odhad 0,70506 0,59948 Hodota této statstk je ízká, svědčí o tom, že rezdua jsou kladě korelovaá. Posouzeí homoskedastct rezduí Rezduálí aalýza Bodové graf Předpověd vs. rezdua,0 Předpovězeé hodot vs. rezdua Závslá proměá :,5,0 0,5 Rezdua 0,0-0,5 -,0 -,5 -,0 -,5 4 6 8 0 4 6 Předpov. hodot 0,95 It.spol. Je vdět, že rezdua ejsou kolem 0 rozmístěa áhodě. Model s regresí parabolou ted eí úplě vhodý.
Testováí ulovost středí hodot rezduí: Pro proměou Rezdua z tabulk uložeé pomocí Rezduálí aalýz provedeme jedovýběrový t-test: Statstk - Základí statstk/tabulk t-test, samost. vzorek OK proměé Rezdua OK. Průměr Sm.odch. N Sm.chba Referečí t SV p Proměá kostata Rezdua -0,000000,004880 0 0,4698 0,00-0,000000 9,000000 Na hladě výzamost 0,05 ezamítáme hpotézu, že středí hodota rezduí je 0. Posouzeí ormalt rezduí: Na záložce Pravděpodobostí graf zvolíme Normálí pravděpodobostí graf rezduí:,0 Normálí p-graf z Rezdua Tabulka 9v*0c,5,0 Oček. ormál. hodot 0,5 0,0-0,5 -,0 -,5 -,0 -,5 -,0 -,5 -,0-0,5 0,0 0,5,0,5,0 Rezdua : SW-W = 0,960; p = 0,5453 Pozorovaý kvatl Rezdua se řadí kolem deálí přímk, lze ted soudt, že se řídí ormálím rozložeím. Závěr: V eprospěch regresí parabol hovoří hodota Durbov Watsoov statstk a graf závslost rezduí a predkovaých hodotách.
Pops časových řad Pojem časové řad: Časovou řadou rozumíme řadu hodot určtého ukazatele uspořádaou podle přrozeé časové posloupost t <... < t. Jsou-l časové terval (t, t ),..., (t -, t ) stejě dlouhé (ekvdstatí), zjedodušeě zapsujeme časovou řadu jako,...,. Přtom ukazatel je velča, která charakterzuje ějaký jev v určtém prostoru a určtém čase (okamžku č tervalu). t,, t Druh časových řad a) Časová řada okamžková: příslušý ukazatel udává, kolk jevů exstuje v daém časovém okamžku (apř. počet obvatelstva k určtému du). b) Časová řada tervalová: příslušý ukazatel udává, kolk jevů vzklo č zaklo v určtém časovém tervalu (apř. počet sňatků během roku). Nejsou-l jedotlvé časové terval ekvdstatí, musíme provést očštěí časové řad od důsledků kaledářích varací. Příklad: Máme k dspozc údaje o tržbě obchodí orgazace (v ts. Kč) v jedotlvých měsících roku 995: 400, 34, 407, 445, 894, 3354, 355, 355, 35, 3063, 694, 600. Vpočtěte očštěé údaje. Řešeí: Průměrá délka měsíce je 365/ de. Očštěá hodota 365 pro lede ( o) 400 354, 84 3, 365 pro úor ( o) 34 38, 8 8. Pro ostatí měsíce aalogck dostaeme 36,7; 478,96; 839,54; 3400,58, 3448,86; 3448,86; 369,79; 3005,36; 73,4; 55,08.
Výpočet pomocí sstému STATISTICA: Vtvoříme ový datový soubor o třech proměých: trzba, dm (délk jedotlvých měsíců) a ot (očštěá tržba) a případech. Do proměé trzba zapíšeme zjštěé hodot. Do proměé dm vložíme délk jedotlvých měsíců, tj. 3, 8, 30,, 3. Do Dlouhého jméa proměé ot apíšeme =trzba*365/(*dm). 3 4 5 6 7 8 9 0 trzba dm 3 ot 400 3 354,839 34 8 38,85 407 3 36,707 445 30 478,958 894 3 839,543 3354 30 3400,583 355 3 3448,858 355 3 3448,858 35 30 369,79 3063 3 3005,363 694 30 73,47 600 3 55,075
Grafcké zázorěí okamžkové časové řad Použjeme spojcový dagram. Na vodorovou osu vášíme časové okamžk t,..., t, a svslou osu odpovídající hodot,...,. Dvojce bodů (t, ), =,..., spojíme úsečkam. Příklad: Časová řada obsahuje údaje o počtu zaměstaců určté akcové společost v letech 989 996 vžd k 3.. 989 990 99 99 993 994 995 996 6 67 63 635 64 64 63 65 Zázorěte tuto časovou řadu grafck. Řešeí pomocí sstému STATISTICA: Vtvoříme datový soubor o dvou proměých azvaých rok a pocet a 8 případech. Graf Bodové graf odškrteme Leárí proložeí Proměé X rok, Y počet OK OK. x klkeme a pozadí grafu vbereme Graf: obecé zaškrteme Spojce OK. 64 640 638 636 634 pocet 63 630 68 66 64 6 60 988 989 990 99 99 993 994 995 996 997 rok
Grafcké zázorěí tervalové časové řad Použjeme sloupkový dagram. Je to soustava obdélíků, kde šířka obdélíku je rova délce tervalu a výška odpovídá hodotě ukazatele v daém tervalu. Ke zázorěí tervalové časové řad lze použít spojcový dagram, přčemž a vodorovou osu vášíme střed příslušých tervalů. Příklad: Máme k dspozc údaje o produkc určtého podku (v tsících výrobků) v letech 99-996. 99 99 993 994 995 996 4 06 07 0 6 37 Zázorěte tuto časovou řadu grafck. Řešeí pomocí sstému STATISTICA: Vtvoříme datový soubor o dvou proměých azvaých rok a produkce a 6 případech. Graf Bodové graf odškrteme Leárí proložeí Proměé X rok, Y produkce OK OK. x klkeme a pozadí grafu vbereme Graf: obecé zaškrteme Spojce Přdat ový graf tp Sloupcový graf OK. Do sloupců ozačeých jako Nový, Nový okopírujeme hodot proměých rok a produkce. Ve Všech možostech: Sloupce upravíme šířku sloupce a. 40 35 30 5 produkce 0 5 0 05 00 990 99 99 993 994 995 996 997 rok
Průměr okamžkové časové řad Nejprve vpočteme průměr pro jedotlvé dílčí terval (t, t ), (t, t 3 ),..., (t -, t ):,,, 3. Jsou-l všech tto terval stejě dlouhé, vpočteme prostý chroologcký průměr okamžkové časové řad:. Nemají-l terval stejou délku, vpočteme d = t t -, =,..., a použjeme vážeý chroologcký průměr okamžkové časové řad: d d. Příklad: Časová řada vjadřuje počet obvatelstva ČSSR (v tsících) v letech 965 až 974 vžd ke d 3.. Rok 965 966 967 968 969 970 97 97 973 974 počet 494 47 4333 4387 4443 4345 449 4576 463 4738 Charakterzujte tuto časovou řadu chroologckým průměrem. Řešeí: 4430 4738 463 47 494 9.
Průměr tervalové časové řad. Příklad:Vpočtěte průměrou hodotu ročí časové řad HDP ČR (v mlardách Kč) v letech 994 až 000. Řešeí: 303,6 433,8 398, 7 994 995 996 997 998 999 000 303,6 38, 447,7 43,8 40,3 390,6 433,8. 7
Damcké charakterstk časových řad Absolutí přírůstk. dferece:. dferece: atd. (Dferecováí má velký výzam př odhadu tredu časové řad regresím metodam.),,,, 3,, Průměrý absolutí přírůstek: Relatví přírůstek,,, (Relatví přírůstek po vásobeí 00 udává, o kolk procet se změla hodota v čase t oprot času t -.) Koefcet růstu (tempo růstu) k,,, (Koefcet růstu po vásobeí 00 udává, a kolk procet hodot v čase t - vzrostla č poklesla hodota v čase t.) Průměrý koefcet růstu k k k 3 k Průměrý relatví přírůstek k
Příklad: Pro časovou řadu HDP ČR v letech 994 až 000 (v mlardách Kč) vpočtěte základí charakterstk damk a grafck zázorěte. dferece a koefcet růstu. Řešeí: rok HDP Δ k δ 994 303,6 x x x 995 38, 77,5,059 0,059 996 447,7 66,6,048 0,048 997 43,8-4,7 0,990-0,00 998 40,3-3,5 0,978-0,0 999 390,6-0,7 0,99-0,008 000 433,8 43,,03 0,03 Průměrý absolutí přírůstek: ročě. Průměrý koefcet růstu: 433,8 303,6,7 6 433,8 k 6,06 303,6, tz., že v období 994 000 rostl HDP průměrě o,7 mlard Kč, tz., že v období 994 000 rostl HDP průměrě o,6% ročě. Graf. dferecí: 00.07 Graf koefcetů růstu: 80.06.05. dferec e 60 40 0 koefcet růstu.04.03.0.0 0.00-0 0.99 0.98-40 994 995 996 997 998 999 000 00 rok 0.97 994 995 996 997 998 999 000 00 rok
Výpočet pomocí sstému STATISTICA Statstk Pokročlé leárí/eleárí model Časové řad/predkce Proměé HDP OK OK (trasformace, autokorelace, kříž. korelace, graf) Dferecováí - OK (trasformovat vbraé řad) vkreslí se graf. 00 Graf proměé: HDP D(-) 00 80 80 60 60 40 40 HDP 0 0 0 0-0 -0-40 -40-60 -60,5,0,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 Čísla případů Vrátíme se do Trasformace proměých Uložt proměé. Otevře se ové datové oko, kde v proměé HDP_ jsou ulože. dferece. HDP HDP_ 303,600 38,00 77,500 3 447,700 66,600 4 43,800-4,900 5 40,300-3,500 6 390,600-0,700 7 433,800 43,00
Výpočet relatvích přírůstků: pro =,..., Vrátíme se do Trasformace proměých ozačíme proměou, kterou chceme trasformovat (HDP) vbereme Posu OK, (Trasformovat vbraé řad) vkreslí se graf. Vrátíme se do Trasformace proměých Uložt proměé. Tato trasformovaá velča se uloží do tabulk pod ázvem HDP_ (proměá s. dferecem se přejmeuje a HDP_). Přdáme ovou proměou RP a do jejího Dlouhého jméa apíšeme vzorec =HDP_/HDP_. Výpočet koefcetů růstu: k pro =,..., Do tabulk přdáme proměou KR a do jejího Dlouhého jméa apíšeme vzorec =HDP/HDP_. Získáme tabulku 3 4 5 6 7 8 HDP HDP_ 3 HDP_ 4 RP 5 KR 303,600 38,00 77,500 303,600 0,05945,05945 447,700 66,600 38,00 0,048,048 43,800-4,900 447,700-0,009 0,989708 40,300-3,500 43,800-0,098 0,97805 390,600-0,700 40,300-0,00764 0,99364 433,800 43,00 390,600 0,03066,03066 433,800 Pomocí Graf - D Graf Spojcové graf (Proměé) vkreslíme průběh relatvích přírůstků a koefcetů růstu. Průměrý absolutí přírůstek a průměrý koefcet růstu vpočteme a kalkulačce pomocí vzorců 433,8 303,6 433,8,7 a k 6, 06. 6 303,6
Adtví model časové řad Předpokládejme, že pro časovou řadu,..., platí model t = f(t) + ε t, t =,...,, kde f(t) je ezámá tredová fukce (tred), kterou považujeme za sstematckou (determstckou) složku časové řad (popsuje hlaví tedec dlouhodobého vývoje časové řad), ε t je áhodá složka časové řad zahrující odchlk od tredu. Náhodá složka splňuje předpoklad E(ε t ) = 0, D(ε t ) = σ, C(ε t, ε t+h ) = 0, ε t ~ N(0, σ ) (říkáme, že ε t je bílý šum).
Odhad tredu časové řad pomocí klouzavých průměrů Podstata klouzavých průměrů Předpokládáme, že časová řada se řídí adtvím modelem t = f(t) + ε t, t =,...,. Odhad tredu v bodě t získáme určtým zprůměrováím původích pozorováí z jstého okolí uvažovaého časového okamžku t. Můžeme s představt, že podél daé časové řad klouže okéko, v jehož rámc se průměruje. Nechť toto okéko zahruje d čleů alevo od bodu t a d čleů apravo od bodu t. Hovoříme pak o vhlazovacím okéku šířk h = d +. Prvích a posledích d hodot tredu eodhadujeme, protože pro eí vhlazovací okéko smetrcké. Odhad tredu ve středu vhlazovacího okéka je dá vztahem: fˆ (t) d td td td d d k0 tdk, t = d+,..., -d. t,,d d,, Šířka vhlazovacího okéka Velm důležtou otázkou je staoveí šířk vhlazovacího okéka. Je-l okéko přílš šroké, bude se odhad tredu blížt přímce (říkáme, že je přehlaze) a zároveň se ztratí velký počet čleů a začátku a a koc časové řad. Je-l aopak okéko úzké, bude se odhad tredu blížt původím hodotám (říkáme, že odhad je podhlaze). Nejčastěj se volí šířka okéka h = 3, 5, 7, pro čtvrtletí hodot pak 4.
Příklad: Časová řada 5, 9,, 35, 0, 07, 87, 04, 74, 7, 0, 7 udává ročí objem vývozu pva (v mlóech ltrů) z Českosloveska v letech 980 až 99. a) Odhaděte tred této časové řad pomocí klouzavých průměrů s vhlazovacím okékem šířk 3 a poté 5. b) Grafck zázorěte průběh časové řad s odhadutým tredem. Řešeí pomocí sstému STATISTICA: Vtvoříme datový soubor export_pva.sta o dvou proměých ROK a VYVOZ a dvaáct případech. Statstk Pokročlé leárí/eleárí model Časové řad/predkce Proměé Y OK OK (trasformace, autokorelace, kříž. korelace, graf) Vhlazováí zaškrteme N-bod. klouzavý průměr, N = 3 OK (Trasformovat vbraé řad) vkreslí se graf, vrátíme se do Trasformace proměých Uložt proměé. Otevře se ový spreadsheet, kde v proměé VYVOZ_ jsou ulože klouzavé průměr pro N = 3. Totéž uděláme pro případ N = 5. Ve spreadsheetu se proměá VYVOZ_ přepíše a VYVOZ_ a ová proměá se uloží jako VYVOZ_. Nově vzklé proměé azveme KP3 a KP5. K datovému souboru přdáme proměou ROK, do jejíhož Dlouhého jméa apíšeme =979+v0. 3 4 5 6 7 8 9 0 export_pva.sta rok VYVOZ 3 KP3 4 KP5 980 5,000 98 9,000 8,667 98,000 5,333 8,600 983 35,000 9,667 7,000 984 0,000 4,667 0,600 985 07,000 98,667 07,000 986 87,000 99,333 94,800 987 04,000 88,333 88,800 988 74,000 83,333 87,600 989 7,000 8,333 04,600 990 0,000 5,000 99 7,000
Grafcké zázorěí časové řad s odhadutým tredem provedeme pomocí víceásobých bodových grafů. 80 60 40 0 00 80 60 978 980 98 984 986 988 990 99 80 60 40 0 00 80 60 978 980 98 984 986 988 990 99
Porováí emprckého a teoretckého rozložeí Motvace: Možost použtí statstckých testů je podmíěa ějakým předpoklad o datech. Velm často je to předpoklad o tpu rozložeí, z ěhož získaá data pocházejí. Moho testů je založeo a předpokladu ormalt. (Testováí ormalt blo probráo ve. kaptole.) Opomíjeí předpokladů o tpu rozložeí může v prax vést ke zcela zavádějícím výsledkům, proto je uté věovat tomuto problému patřčou pozorost. V této kaptole se sezámíme s testem dobré shod, který je (po splěí určtých předpokladů) použtelý k ověřeí shod emprckého rozložeí s jakýmkolv teoretckým rozložeím. Tato uverzálost je ovšem provázea poěkud sížeou slou testu. Proto bl pro ěkterá rozložeí vvut specálí test vužívající charakterstckých vlastostí těchto rozložeí. Zde uvedeme tzv. jedoduché test expoecálího a Possoova rozložeí.
Test dobré shod Pops testu Testujeme hpotézu, která tvrdí, že áhodý výběr X,..., X pochází z rozložeí s dstrbučí fukcí Φ(x). Spojtý případ: - data rozdělíme do r třídcích tervalů - zjstíme absolutí četost j j-tého třídcího tervalu - vpočteme pravděpodobost p j, že áhodá velča X s dstrbučí fukcí Φ(x) se bude realzovat v j-tém třídcím tervalu. Platí-l ulová hpotéza, pak p j = Φ(u j+ ) - Φ(u j ). Dskrétí případ: - určíme varat x [j], j =,, r - pro varatu x [j] zjstíme absolutí četost j - vpočteme pravděpodobost p j, že áhodá velča X s dstrbučí fukcí Φ(x) se bude realzovat varatou x [j]. Platí-l ulová hpotéza, pak. Testová statstka: K r j j p p j j p j x j u,, j =,..., r j u j lm x xx j P X x j. Platí-l ulová hpotéza, pak K χ (r--p), kde p je počet odhadovaých parametrů daého rozložeí. (Např. pro ormálí rozložeí p =, protože z dat odhadujeme středí hodotu a rozptl.) Pokud žádý parametr emusíme odhadovat, hovoříme o úplě specfkovaém problému. Nulovou hpotézu zamítáme a asmptotcké hladě výzamost α, kdž K χ -α(r--p). Aproxmace se považuje za vhovující, kdž p j 5, j =,..., r. Upozorěí: Př esplěí podmík p j 5, j =,..., r je třeba ěkteré terval resp. varat slučovat, což vede ke ztrátě formace. Ve spojtém případě je hodota testové statstk K slě závslá a volbě třídcích tervalů
Příklad: (Testováí shod emprckého a teoretckého rozložeí př úplě specfkovaém problému) Ze souboru rod s pět dětm blo áhodě vbráo 84 rod a bl zjšťová počet chlapců: Počet chlapců 0 3 4 5 Počet rod 3 0 3 4 4 Na asmptotcké hladě výzamost 0,05 testujte hpotézu, že rozložeí počtu chlapců se řídí bomckým rozložeím B(5; 0,5). Řešeí: Počet chlapců v áhodě vbraé rodě s 5 dětm je áhodá velča s rozložeím B(5; 0,5), její pravděpodobostí fukce je p j 5, j 0,,,5 j 3. Výpočt potřebé pro staoveí testové statstk K uspořádáme do tabulk. j j p j p j 0 3 0,035 84.0,035=,65 0 0,565 84.0,565=3,5 0,35 84.0,35=6,5 3 3 0,35 84.0,35=6,5 4 4 0,565 84.0,565=3,5 5 4 0,035 84.0,035=,65 Podmík dobré aproxmace ejsou splě, sloučíme ted prví dvě varat a posledí dvě varat. j j p j p j p j p 0 a 3 0,875 84.0,875=5,75 0,48059 0,35 84.0,35=6,5 0,688095 3 3 0,35 84.0,35=6,5 0,85954 4 a 5 8 0,875 84.0,875=5,75 0,349 Vpočteme realzac testové statstk: K = 0,48059 + 0,688095 + 0,85954 + 0,349 =,349, počet tříd r = 4, počet odhadovaých W r p, 0, 95 3, 7,847;. Protože K W, ulovou hpotézu parametrů p = 0, r p - = 3, krtcký obor ezamítáme a asmptotcké hladě výzamost 0,05. j j
Výpočet pomocí sstému STATISTICA: Vtvoříme datový soubor se dvěma proměým a čtřm případ. Proměá j obsahuje zjštěé četost (po sloučeí varat), proměá pj pak teoretcké četost. Statstk Neparametrcká statstka Pozorovaé vs. očekávaé χ OK Proměé Pozorovaé četost j, očekávaé četost pj OK Výpočet. Případ C: C: C: 3 C: 4 Sčt Pozorovaé vs. oč ekávaé č etost (T abulka) Ch-Kvadr. =,34906 sv = 3 p =,5036 pozorov. oč ekáv. P - O (P-O)^ j pj /O 3,00000 5,75000 -,75000 0,48059,00000 6,5000-4,5000 0,688095 3,00000 6,5000 4,75000 0,85954 8,00000 5,75000,5000 0,349 84,00000 84,00000 0,00000,34906 V záhlaví výstupí tabulk je uvedea hodota testového krtéra (,34906), počet stupňů volost = 3 a p-hodota (0,5036). Nulová hpotéza se ted ezamítá a asmptotcké hladě výzamost 0,05.
Příklad: (Testováí shod emprckého a teoretckého rozložeí př eúplě specfkovaém problému dskrétí případ) V tabulce jsou roztřídě fotbalové zápas určté soutěže podle počtu vstřeleých braek. Počet braek 0 3 4 a víc Počet zápasů 9 30 7 0 8 Na asmptotcké hladě výzamost 0,05 testujte hpotézu, že jde o výběr z Possoova rozložeí. Výpočet pomocí sstému STATISTICA: Vtvoříme datový soubor s dvěma proměým a 5 případ. Proměá POCET obsahuje počet vstřeleých braek, proměá CETNOST pak počet zápasů, v chž blo dosažeo zjštěého počtu braek. Statstk Prokládáí rozděleí Dskrétí rozděleí Possoovo OK Proměá POCET klkeme a kou se závažím Proměá vah CETNOST Stav Zaputo OK Výpočet. Kategore <= 0,00000,00000,00000 3,00000 < Nekoečo Proměá: POCET, Rozděleí:Possoovo, Lambda =,500 (brak.sta) Chí-kvadrát =,0705, sv = 3, p = 0,55790 Pozorovaé Kumulatv. Procet Kumul. % Očekáv. Kumulatv. Procet Kumul. % Pozorovaé - Četost Pozorovaé Pozorovaé Pozorovaé Četost Očekáv. Očekáv. Očekáv. Očekáv. 9 9,6905,6908,7494 8,7494,330,330 0,5706 30 49 35,749 58,33338,440 46,8573333,4695 55,785,88560 7 66 0,380 78,574,08580 67,94335,04 80,8847-4,08580 0 76,90476 90,4760,5490 78,48603,5507 93,4358-0,5490 8 84 9,538 00,0000 5,5397 84,00000 6,5644 00,0000,48603 V tomto případě je parametr λ Possoova rozložeí ezámý, je odhadut pomocí výběrového průměru a odhad čí,5. Podmík dobré aproxmace jsou splě, dokoce všech teoretcké četost jsou větší ež 5. Dále je v záhlaví výstupí tabulk uvedea hodota testového krtéra (,0705), počet stupňů volost r p = 5 = 3 a p-hodota (0,5578). Nulová hpotéza se ted ezamítá a asmptotcké hladě výzamost 0,05.
Počet pozorováí Pro vtvořeí grafu se vrátíme do Proložeí dskrétích rozložeí Základí výsledk Graf pozorovaého a očekávaého rozděleí. 35 30 5 0 5 0 5 0-0 3 4 5 Kategore (horí meze)
Příklad: (Testováí shod emprckého a teoretckého rozložeí př eúplě specfkovaém problému spojtý případ) U 48 studetek VŠE v Praze bla zjšťováa výška (v cm): 65 70 70 79 70 68 74 6 67 65 70 73 83 76 65 68 7 78 68 68 69 63 7 84 76 75 76 69 68 70 66 60 67 6 6 66 70 68 55 6 69 66 60 69 65 63 68 63 Pomocí testu dobré shod testujte a hladě výzamost 0,05 hpotézu, že data pocházejí z ormálího rozložeí. Pomocí hstogramu posuďte vzuálě předpoklad ormalt. Výpočet pomocí sstému STATISTICA: Statstk - Prokládáí rozděleí poecháme mplctí astaveí a ormálí rozložeí OK Proměá X OK a záložce Parametr změíme Počet kategorí a 7 (podle Sturgesova pravdla) Výpočet. Horí hrace <= 57,486 6,857 67,4857 7,5743 77,749 8,8574 < Nekoečo Proměá: X, Rozděleí:Normálí (vska.sta) Chí-kvadrát =,0980, sv = (uprav.), p = 0,9585 Pozorovaé Kumulatv. Procet Kumul. % Očekáv. Kumulatv. Procet Kumul. % Pozorovaé - Četost Pozorovaé Pozorovaé Pozorovaé Četost Očekáv. Očekáv. Očekáv. Očekáv.,08333,0833,9706,9706,49387,4939-0,9706 6 7,50000 4,5833 5,5484 6,789,4894 3,983 0,4856 9 5,00000 39,58333,460 0,74098,0464 4,093 -,460 9 38 39,58333 79,6675,8946 36,0655533,07 75,366 3,0854 6 44,50000 9,6667 9,07700 45,4558,904 94,0470-3,07700 46 4,6667 95,8333,50365 47,6460 5,594 99,69-0,50365 48 4,6667 00,0000 0,35380 48,00000 0,73708 00,0000,6460 Př tomto roztříděí dat do 7 tervalů ejsou splě podmík dobré aproxmace, ve třech tervalech jsou teoretcké četost pod 5. Změíme ted dolí mez a 59 a horí a 78.
Proměá: X, Rozděleí:Normálí (vska.sta) Chí-kvadrát = 3,8568, sv = 4, p = 0,463 Horí hrace Pozorovaé Četost Kumulatv. Pozorovaé Procet Pozorovaé Kumul. % Pozorovaé Očekáv. Četost Kumulatv. Očekáv. Procet Očekáv. Kumul. % Očekáv. Pozorovaé - Očekáv. <= 6,749 3 3 6,5000 6,500 5,7996 5,7300,99,99 -,7300 64,4857 7 0 4,58333 0,83335,675946,39894,8489 3,7478,3405 67,486 9 9 8,75000 39,58337,86633 9,6576,38048 40,83,3737 69,8574 30,9667 6,50008,8455 8,074038,3598 58,4876,8755 7,5743 8 38 6,66667 79,6677,9956 36,065556,64899 75,366 0,00848 75,857 3 4 6,5000 85,4675,863558 4,990,575 87,353 -,86356 < Nekoečo 7 48 4,58333 00,00006,070896 48,00000,64770 00,0000 0,990 V tomto případě jsou podmík dobré aproxmace splě. Testová statstka se realzuje hodotou 3,8568, p-hodota je 0,463, ted a asmptotcké hladě výzamost 0,05 hpotézu o ormaltě ezamítáme. Podívejme se ještě a hstogram s proložeou Gaussovou křvkou: Na záložce Základí výsledk zvolíme Graf pozorovaého a očekávaého rozděleí. 4 Proměá: X, Rozděleí:Normálí Chí-kvadrát test = 3,8568, sv = 4, p = 0,463 0 Počet pozorováí 8 6 4 0 60,49 65,574 7,0000 76,486 6,857 68,857 73,743 79,49 Kategore (horí meze)
Jedoduchý test expoecálího a Possoova rozložeí Jedoduchý test expoecálího rozložeí Testujeme hpotézu, která tvrdí, že áhodý výběr X,..., X pochází z expoecálího rozložeí. Ozačme M výběrový průměr a S výběrový rozptl tohoto áhodého výběru. Víme, že středí hodota áhodé velč X ~ Ex(λ) je E(X) = /λ a rozptl je D(X) = /λ. Test založíme a statstce rozložeím χ (-). Krtcký obor: výzamost α. K S M W 0, / /,, která se v případě platost H 0 asmptotck řídí. Jestlže K W, H 0 zamítáme a asmptotcké hladě Příklad Bla zkoumáa doba žvotost 45 součástek (v hodách). Průměrá žvotost bla m = 99,93 a rozptl s = 738,9. Na asmptotcké hladě výzamost 0,05 testujte hpotézu, že daý áhodý výběr pochází z expoecálího rozložeí. Řešeí: S Testovou statstku K vpočteme podle vzorce K. Krtcký obor má tvar: M V ašem případě K = 3,94, W 0;7,575 64,0;, H 0 ted ezamítáme a asmptotcké hladě výzamost 0,05. 0; / / ;. W
Jedoduchý test Possoova rozložeí Testujeme hpotézu, která tvrdí, že áhodý výběr X,..., X pochází z Possoova rozložeí. Ozačme M výběrový průměr a S výběrový rozptl tohoto áhodého výběru. Víme, že středí hodota áhodé velč X ~ Po(λ) je E(X) = λ a rozptl je D(X) = λ. Test založíme a statstce χ (-). Krtcký obor: výzamost α. K S M / W 0, /,, která se v případě platost H 0 asmptotck řídí rozložeím. Jestlže K W, H 0 zamítáme a asmptotcké hladě Příklad Studujeme rozložeí počtu pacetů, kteří během 75 dů přjdou a pohotovost. Osmhodovou pracoví dobu rozdělíme do půlhodových tervalů a v každém tervalu zjstíme počet příchozích pacetů: Počet pacetů 0 3 4 4 6 7 8 9 0 Pozrovaá četost 79 88 8 75 96 4 45 0 7 3 Na asmptotcké hladě výzamost 0,05 testujte hpotézu, že daý áhodý výběr pochází z Possoova rozložeí. Řešeí: Celkový počet pacetů je = 00. Realzac výběrového průměru M získáme jako vážeý průměr počtu pacetů (m =,8033) a realzac výběrového rozptlu S získáme jako vážeý rozptl počtu pacetů (s =,7086). Testovou statstku S vpočteme podle vzorce K, ted K = 58,5, krtcký obor M W 0, / /, 0, 0,0599 0, 97599, 0;04,93 96,86;. Protože testová statstka se erealzuje v krtckém oboru, H 0 ezamítáme a asmptotcké hladě výzamost 0,05.