STATISTIKA (pro navazující magisterské studium)

Transkript

1 Slezská unverzta v Opavě Obchodně podnkatelská fakulta v Karvné STATISTIKA (pro navazující magsterské studum) Jaroslav Ramík Karvná 007

2 Jaroslav Ramík, Statstka

3 Jaroslav Ramík, Statstka 3 OBSAH MODULU STATISTIKA ANALÝZA ROZPTYLU (ANOVA) JEDEN FAKTOR Nezávslý a závslý faktor Předpoklady analýzy rozptylu s jedním faktorem....3 Postup př analýze rozptylu s jedním faktorem....4 Míra těsnost závslost... 4 ANALÝZA ROZPTYLU (ANOVA) VÍCE FAKTORŮ Analýza rozptylu se dvěma faktory Předpoklady ANOVA se faktory REGRESNÍ ANALÝZA JEDNOROZMĚRNÁ: LINEÁRNÍ REGRESE Regresní analýza Jednoduchá regresní analýza Metoda nejmenších čtverců Míra varablty, koefcent determnace Klascký lneární model REGRESNÍ ANALÝZA JEDNOROZMĚRNÁ: INTERVALY SPOLEHLIVOSTI TESTY HYPOTÉZ, NELINEÁRNÍ REGRESE Intervaly spolehlvost Testy hypotéz Nelneární regresní analýza Parabolcká regrese Törnqustovy funkce Metoda vybraných bodů REGRESNÍ ANALÝZA - VÍCEROZMĚRNÁ Vícerozměrná regresní analýza Metoda nejmenších čtverců Náhodný vektor a jeho charakterstky Klascký lneární model Míry varablty a koefcent determnace Intervaly spolehlvost a testy hypotéz Indvduální t-testy o hodnotách regresních koefcentů F-test hypotézy o hodnotách regresních koefcentů REGRESNÍ ANALÝZA VÍCEROZMĚRNÁ: MULTIKOLINEARITA, HETEROSKEDASTICITA, AUTOKORELACE Co je multkolnearta? Co je heteroskedastcta? Jak zjšťovat heteroskedastctu? Jak odstraňovat heteroskedastctu?... 9

4 Jaroslav Ramík, Statstka Co je autokorelace? FIKTIVNÍ PROMĚNNÉ Co jsou fktvní proměnné? Fktvní proměnné a ANOVA Společné fktvní a kvanttatvní proměnné Fktvní proměnné v sezónních modelech ZÁKLADY ANALÝZY ČASOVÝCH ŘAD Typy ekonomckých časových řad Elementární charakterstky časových řad Modely ekonomckých časových řad ANALÝZA TRENDU ČASOVÉ ŘADY Analýza trendové složky Lneární trend Parabolcký trend Mocnnný trend Exponencální trend Logstcký trend Gompertzův trend Volba vhodného modelu trendu Klouzavé průměry Exponencální vyrovnání ANALÝZA SEZÓNNÍ SLOŽKY A NÁHODNÉ SLOŽKY Analýza perodcké složky Harmoncká analýza Model konstantní sezónnost se schodovtým trendem Model konstantní sezónnost s lneárním trendem Model proporconální sezónnost Analýza náhodné složky STOCHASTICKÉ PROCESY Stochastcký (náhodný) proces Staconární a nestaconární proces Bílý šum a náhodná procházka Determnstcký a stochastcký trend Jak poznáme, že ČŘ je staconární? MODELY ARIMA A PROGNÓZOVÁNÍ ČASOVÝCH ŘAD Úvod Modelování časových řad pomocí ARIMA Autoregresvní proces (AR) Proces klouzavých průměrů (MA) Autoregresvní proces klouzavých průměrů (ARMA) Autoregresvní a ntegrovaný proces klouzavých průměrů (ARIMA) Sezónní procesy ARIMA Box-Jenknsova metodologe prognózování ČŘ Prognózování pomocí ARIMA modelů Identfkace procesů ARIMA pomocí ACF a PACF... 64

5 Jaroslav Ramík, Statstka 5 RYCHLÝ NÁHLED DO PROBLEMATIKY MODULU STATISTIKA. Analýza rozptylu (ANOVA) Jeden faktor: Nezávslý a závslý faktor, předpoklady analýzy rozptylu s jedním faktorem. Postup př analýze rozptylu s jedním faktorem. Míra těsnost závslost, determnační a korelační poměr. Rychlý náhled. Analýza rozptylu Dva a více faktorů, neparametrcká ANOVA: Analýza rozptylu se dvěma faktory. Předpoklady ANOVA se faktory. Dvoufaktorová ANOVA bez nterakce a s nterakcí. Kruskal-Wallsova neparametrcká ANOVA. 3. Regresní analýza Jednorozměrná, lneární Co je regresní analýza (RA) - jednoduchá, vícenásobná, lneární, nelneární. Podstata jednoduché lneární RA - bodový dagram, regresní přímka, regresní koefcenty, přléhavost, koefcent determnace, testy hypotéz. 4. Regresní analýza Jednorozměrná, nelneární Jednoduchá nelneární RA - základní typy nelnearty, Törnqustovy křvky a jejch aplkace v ekonom. 5. Regresní analýza - Vícerozměrná Vícenásobná lneární RA krtérum, predktory, regresní nadrovna, koefcent determnace. Použtí VRA pro nomnální predktory a korelační koefcenty. Aplkace na příkladech z ekonomcké oblast (marketngový výzkum). 6. Regresní analýza Vícerozměrná: Multkolnearta, heteroskedastcta, autokorelace Populační a výběrová regresní funkce. Klascký vícerozměrný lneární regresní model. Multkolnearta a její příčny. Heteroskedastcta, testy H-S (Parkův test, Bartleyův test) a její odstraňování. Autokorelace (znaménkový test). 7. Fktvní proměnné Použtí kvaltatvních proměnných v regresní analýze 8. Základy analýzy časových řad Typy ekonomckých ČŘ. Elementární charakterstky ČŘ. Modely ekonomckých ČŘ dekompozční, exponencálního vyrovnání, ARIMA. 9. Analýza trendu časové řady (ČŘ) Analytcké metody stanovení trendů ČŘ: regresní analýza (MNČ metoda nejmenších čtverců, MMV metoda maxmální věrohodnost). Syntetcké metody: klouzavé průměry, exponencální vyrovnání. 0. Analýza sezónní a náhodné složky ČŘ Analýza sezónní složky: modely konstantní sezónnost se schodovtým trendem, s lneárním trendem. Modely proporconální sezónnost. Analýza náhodné složky: statstcké testy náhodné složky pomocí rezduí. Stochastcké procesy Stochastcký (náhodný) proces, staconární a nestaconární proces, bílý šum a náhodná procházka, determnstcký a stochastcký trend, testování staconarty.

6 Jaroslav Ramík, Statstka 6. Modely ARIMA a prognózování řasových řad. Základy modelů ARIMA: modely AR, MA, I, ARIMA. Identfkace ARIMA modelu pomoc autokorelační funkce (ACF) a parcální autokorelační funkce (PACF). Výpočet koefcentů modelu ARIMA, verfkace modelu, predkce v modelu ARIMA. Prognóza ex-post a ex-ante, bodové a ntervalové prognózy.

7 Jaroslav Ramík, Statstka 7 ÚVODEM MODULU STATISTIKA Tento text představuje studjní oporu pro kombnované studum všech akredtovaných studjních programů v navazujícím magsterském studu na Slezské unverztě, Obchodně podnkatelské fakultě v Karvné. Předmět Statstka navazuje na předmět Kvanttatvní metody B obsahující základní bakalářský kurz statstky na SU OPF, nebo na obdobný ekvvalentní předmět základů statstky v bakalářském stupn studa na jné VŠ ekonomckého zaměření v ČR. V tomto předmětu je kladen důraz především na uplatnění statstckých metod v aplkovaných ekonomckých dscplínách, jako jsou zejména marketng a management. Samotný učební text, nebo jak se říká v termnolog dstančního studa: studjní opora - umožňující dstančnímu studentov plnohodnotné a zároveň samostatné studum je rozčleněn do tématckých kaptol. Jednotlvé kaptoly odpovídají obvyklým výukovým týdnům jednoho semestru a jsou přblžně stejně obsahově rozsáhlé a obtížné. Takový rozsah učva odpovídá klascké dvouhodnové přednášce v prezenčním studu na vysoké škole ekonomckého zaměření. V prezenčním studu je ovšem přednáška doplněna semnářem cvčením, kde se probraná látka aplkuje na konkrétní číselné příklady, které se řeší až k požadovanému výsledku často pomocí počítače. Dstanční vysokoškolské studum je specfcká forma, která v případě předmětu Statstka vyžaduje enormní úslí studenta zaměřené na pravdelnost a vytrvalost v samostudu, schopnost koncentrace na předmět, aktvní přístup spočívající samostatném řešení příkladů. V tom všem by vám tato studjní opora měla pomoc nahradt kvaltní prezenční výuku úlohu učebnc a skrpt. Dstanční opora je k tomu účelu vybavena určtým nástroj, specfckým právě pro dstanční formu, o jejchž funkcích byste měl vědět a mohl je tudíž účelně využívat ve svůj prospěch. Pro lepší zvládnutí látky jsou vám v elektroncké verz kurzu Statstka k dspozc ještě doplňkové elektroncké materály. Dalším podpůrným zdroj ke studu mohou být klascké učebnce a skrpta a další doporučená lteratura. Zajsté jste s jž povšml, že text je opatřen šrším okraj, obsahujícím margnále: hesla a kony. Volné místo slouží k tomu, abyste jej zaplnl svým poznámkam a značkam k lepšímu pochopení studované látky (samozřejmě u opory v tštěné podobě). Význam kon používaných v textu naleznete na konc modulu v seznamu použtých značek, symbolů a zkratek. Předpokladem pro úspěšné zvládnutí tohoto kurzu Statstka je zvládnutí kurzu Kvanttatvní metody B na SU OPF nebo odpovídajícího základního bakalářského kurzu Pravděpodobnost Statstky, a to podle typu bakalářského studa na některé VŠ v ČR. Ne všechno, co jste se v základních kurzech statstky naučl, zde využjete, řada věcí tam prezentovaných měla jný účel. Rozhodně se vám však vyplatí nabytá schopnost přesného a logckého uvažování, nezbytností je též zvládnutí matematcké symbolky a základních partí teore pravděpodobnost a základů nferenční statstky. Nyní něco k obsahu předmětu Statstka. Přesnější název předmětu by zněl: Vybrané statstcké metody pro ekonomy, nebo ještě přesněj: Vybrané statstcké metody a jejch použtí v marketngu a managementu. To jsou totž významné oblast uplatnění statstckých metod, s nmž se absolvent Obchodně podnkatelské fakulty SU často v prax setkávají. Obsahem kaptol a je analýza rozptylu - ANOVA, kaptoly 3 až 6 jsou věnovány regresní analýze - jednoduché vícerozměrné, zbývající kaptoly 7 až se věnují analýze ekonomckých časových řad, ty jsou v ekonomckých dscplnách mmořádně významné. Během studa budete využívat k řešení úloh známého programu Excel, s nímž jste pracoval jž v předmětu Kvanttatvní metody B.

8 Jaroslav Ramík, Statstka 8 Průměrně by vám samostatné studum každé kaptoly mělo zabrat 4 až 6 hodn. Studum předmětu Statstka tedy vyžaduje značný objem práce. Odměna, která vás na konc studa našeho předmětu očekává, však stojí za to: je to poct, že jste překonal něco významného, že jste se přenesl přes překážku, za níž se nachází svět profesonálů, kteří rozumějí odborným metodám a postupům, jež jsou obyčejným smrtelníkům nepřístupné. Získaný nadhled vám umožní snadněj pochopt a osvojt s praktcké zásady analýzy nformací, jmž jsme všchn dnes zahlcen a v nchž je nám určeno žít.

9 Jaroslav Ramík, Statstka 9 ANALÝZA ROZPTYLU (ANOVA) JEDEN FAKTOR CÍLE KAPITOLY Po úspěšném a aktvním absolvování této KAPITOLY Budete umět: zařadt problematku ANOVA do kontextu statstckých metod, porozumět rozdílu mez jednofaktorovou a vícefaktorovou ANOVA, objasnt význam jednotlvých dílčích rozptylů studovaného kvanttatvního statstckého znaku, vysvětlt předpoklady jednofaktorové ANOVA, aplkovat 3 kroky př výpočtu jednofaktorové ANOVA, aplkovat míry těsnost a závslost. Budete umět Získáte: schopnost dentfkovat a analyzovat problémy, které lze řešt s využtím ANOVA. Získáte Budete schopn: Řešt konkrétní praktcké úlohy ANOVA s použtím kalkulačky, ale zejména s využtím funkcí Excelu. Budete schopn RYCHLÝ NÁHLED DO PROBLEMATIKY KAPITOLY Jednofaktorová metoda ANOVA, kterou prokazujeme závslost hodnot znaku Y na faktoru X, pro něž jsou k dspozc příslušná data, spočívá v tom, že celkovou varabltu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na varabltu uvntř jednotlvých výběrů a na varabltu mez jednotlvým výběry. Cílem, k němuž směřujeme, je buď přjmout nulovou hypotézu o vzájemné nezávslost Y na X, nebo j zamítnout (na zvolené hladně významnost), a tedy předpokládat závslost Y na X. Jedná se tedy o běžný statstcký postup nazývaný testování statstckých hypotéz, známý ze základního kurzu statstky. V případě přjetí nulové hypotézy vyvozujeme nezávslost hodnot Y na X, v opačném případě konstatujeme, že Y na X závsí. V této kaptole se naučíte, jak tento test statstcké hypotézy konkrétně provést: jak vypočítat hodnotu testového krtéra a příslušnou krtckou hodnotu a jak vyvodt z těchto hodnot příslušný závěr týkající se eventuální závslost nebo nezávslost hodnot znaku Y na faktoru X. Rychlý náhled ČAS POTŘEBNÝ KE STUDIU Čas ke zvládnutí problematky této kaptoly včetně výpočetních dovedností s pomocí Excelu je přblžně 3-4 hodny.

10 Jaroslav Ramík, Statstka 0 KLÍČOVÁ SLOVA KAPITOLY Jednofaktorová analýza rozptylu, ANOVA, nezávslý faktor, závslý faktor, celkový součet čtverců, vntroskupnový součet čtverců, mezskupnový součet čtverců, stupeň volnost, F-test, krtcká hodnota Fsherova rozdělení, determnační poměr, korelační poměr. Klíčová slova PRŮVODCE STUDIEM Analýza rozptylu umožňuje ověřt významnost rozdílu mez výběrovým průměry většího počtu náhodných výběrů, umožňuje posoudt vlv různých faktorů na hospodářský proces charakterzovaný kvanttatvním statstckým znakem (Y). Taktéž dovoluje hodnott účnky různých přjatých hospodářských opatření (faktor X). Základní myšlenka analýzy rozptylu spočívá v rozkladu celkového rozptylu na dílčí rozptyly příslušející jednotlvým vlvům, podle nchž jsou data roztříděna. Kromě dílčích rozptylů je jednou složkou celkového rozptylu tzv. rezduální rozptyl, způsobený nepostženým vlvy. Podle počtu analyzovaných faktorů rozlšujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. Všeobecně používané označení ANO- VA je akronymem anglckých slov ANalyss Of VArance (doslovný překlad: analýza rozptylu). Formálně vzato je ANOVA, ať jednofaktorová nebo vícefaktorová, testem statstcké hypotézy, s nímž jste se seznáml v základním kurzu statstky. Klascká ANOVA vychází, jak uvdíte, z předpokladu normalty rozdělení hodnot daného faktoru. Pokud je takový předpoklad neudržtelný, lze použít ANOVA jného typu, konkrétně Kruskal-Wallsovu verz ANOVA. Jednofaktorovou ANOVA se zabývá tato kaptola, vícefaktorová a Kruskal-Wallsova ANOVA je obsahem kaptoly následující.. Nezávslý a závslý faktor Často se vyskytuje stuace, kdy máme k nezávslých náhodných výběrů, které obecně nemusí pocházet z jednoho základního souboru, nebo jnak řečeno, nemusí být stejného typu, s různým rozsahy, tj. počty prvků n,n,...,nk. Číslo k může být lbovolné celé, větší než, podle konkrétní stuace, např., 3, 4,... Tyto rozsahy výběrů rovněž nemusí být stejné, v každém z nch budž znám (výběrový) průměr x, a také (výběrový) rozptyl s, =,,...,k. V praktckých stuacích obvykle tyto výběry vznknou tak, že základní soubor rozdělíme podle určtého statstckého znaku X do k skupn, např. věkových, v každé z nch pak máme n prvků, =,,...,k. Znak X pak označujeme jako nezávslý faktor, jehož hodnoty předem stanovíme, např. věkové skupny mohou být: do 8 let, 9 až 9 let, 30 až 59 let, 60 a více let, v tomto případě je k = 4. Hovoříme proto často o faktoru kontrolovaném. Další příklady faktorů: velkost rodny, měsíční příjem rodny, velkost podnku, typ ekonomcké čnnost, apod. Hodnotam faktoru X jsou obvykle kvaltatvní (nečíselné) velčny, označujeme je symbolcky mohou ale nemusejí být nutně vzájemně uspořádány. x,x,...,xk. Tyto hodnoty Faktor X, jež nabývá k kvaltatvních hodnot, může (ale nemusí) ovlvňovat hodnoty statstckého znaku Y, o kterém předpokládáme, že má na rozdíl od X kvanttatvní (tedy číselnou) povahu. Stuace Nezávslý faktor X Příklady faktorů Kvaltatvní faktor Cílem ANOVA je právě prokázat, že hodnoty kvaltatvního znaku X ovlvňují hodnoty kvanttatvního znaku Y- závslého faktoru. Hodnoty znaku Y, které přísluší hodnotě x faktoru X, ozna- Kvanttatvní faktor Y Cíl ANOVA

11 Jaroslav Ramík, Statstka čujeme y, y,..., yn. Pro analýzu rozptylu je výhodné uspořádat výchozí údaje do přehledné tabulky, vz Tab... Prncp metody ANOVA, kterou prokazujeme závslost Y na X, spočívá v tom, že celkovou varabltu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na varabltu uvntř jednotlvých výběrů a na varabltu mez jednotlvým výběry. V následujícím odstavc tento postup upřesníme. Prncp metody ANOVA Číslo výběru Zjštěné hodnoty sledovaného znaku Počet prvků Průměr Rozptyl y, y,..., y j,..., y n n y s y, y,..., y j,..., yn n y s M M M M M, y,..., y,..., y n y y j n M M M M M k, y,..., y,..., y n yk k kj kn k k s yk s k Celkem n y s Tab... Schéma výchozí tabulky analýzy rozptylu pro jeden faktor. Předpoklady analýzy rozptylu s jedním faktorem Předpokládáme, že faktor X má k úrovní (hodnot vztahem: µ = µ +, =,,...,k, kde x ), s účnkem na znak Y, který lze vyjádřt α µ je průměr znaku Y v -té skupně (příslušné k hodnotě faktoru µ je celkový průměr znaku Y, α je efekt hodnoty faktoru x na znak Y. Formulujeme nyní nulovou hypotézu H 0, že všechny výběry pocházejí ze stejné základní populace (základního souboru), jnak řečeno, že hodnoty faktoru X nemají na hodnoty znaku Y žádný efekt (vlv). Budeme dále předpokládat, že hodnotyα pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem σ. Formulujeme nulovou hypotézu: H 0 : E( α ) = E( α ) =... = E( α k) = 0, prot alternatvní hypotéze, že H 0 neplatí, tudíž alespoň pro dvě položky, např. a j, platí: Eα Eα. H : ( ) ( ) j Symbolem E( α ) označujeme střední hodnotu náhodné velčny rozptylu pro všechny velčny x ), α. Předpoklad konstantního α je podstatný, je ho možno ověřt statstckým testem, a to buď tzv. Bartlettovým testem, s nímž se seznámíte pozděj. Normaltu rozdělení velčn α lze taktéž ověřt příslušným testem, např. Ch-kvadrát testem dobré shody, známým ze základního kurzu statstky, vz [KvMeB]. V prax obvykle předpokládáme (na podkladě věcné znalost problému), že zmíněné dva předpoklady jsou automatcky splněny a př aplkac ANOVA je obvykle neověřujeme. Základní vztah závslost Y na X Nulová hypotéza Předpoklad normalty dat Ověření předpokladů

12 Jaroslav Ramík, Statstka Cílem, k němuž směřujeme, je buď přjmout nulovou hypotézu H 0, nebo H 0 zamítnout (na zvolené hladně významnost). Jedná se tedy o běžný statstcký postup nazývaný testování statstckých hypotéz, známý ze základního kurzu statstky, vz [KvMeB]. V případě přjetí nulové hypotézy vyvozujeme nezávslost hodnot faktoru Y na faktoru X, jnak řečeno: faktor Y na faktoru X nezávsí. V opačném případě, tj. př zamítnutí H 0, konstatujeme, že faktor Y na faktoru X závsí, nebol faktor X ovlvňuje Y. Cíl ANOVA.3 Postup př analýze rozptylu s jedním faktorem Celkovou varabltu znaku Y změříme, jak známo, výběrovým rozptylem, vz [KvMeB] s = ( yj y) j n. (.) V souvslost s analýzou rozptylu se budeme zabývat pouze čtatelem výše uvedeného zlomku, totž součtem čtverců odchylek zjštěných hodnot y od celkového průměru y, přčemž průměr vypočítáme podle známého vztahu: sečteme všechny hodnoty a výsledek podělíme jejch počtem, tedy k n y= yj. n = j= Tento celkový součet čtverců budeme označovat symbolem S y = k n ( yj y) = j= j S y, tj.. (.) Celkovému součtu čtverců přísluší počet stupňů volnost df y = n -. Varabltu mez skupnam budeme měřt mezskupnovým součtem čtverců, který defnujeme následovně S y,m = k = n ( y y) S y, m. (.3) Mezskupnovému součtu čtverců přísluší počet stupňů volnost df m = k -. Varabltu uvntř skupn označujeme jako vntroskupnovou, nebo také rezduální a používáme přtom označení S, přčemž defnujeme vntroskupnový (rezduální) součet čtverců takto S y,v = y, v k n ( yj y) = j=. (.4) Vntroskupnovému součtu čtverců přísluší počet stupňů volnost df v = n - k. Artmetckým úpravam výše uvedených vzorců lze snadno dokázat základní vztah analýzy rozptylu, totž, že celkový součet čtverců je roven sumě mezskupnového a vntroskupnového součtu čtverců, symbolcky: S = S + S. (.5) y y,m y,v Pro ověření nulové hypotézy H 0 použjeme statstku: Výběrový rozptyl Průměr Celkový součet čtverců Mezskupnový SČ Vntroskupnový rezduální SČ Základní vztah ANOVA

13 Jaroslav Ramík, Statstka 3 F = S k S y, m y, v n k S y, m df = S m y, v df v, (.6) která má př platnost nulové hypotézy Fsherovo rozdělení F( k,n k) Fsherova rozdělení ( df, ). Krtcké hodnoty F df α jsou tabelovány pro různé hodnoty hladny významnost α a různé hodnoty parametrů (stupňů volnost: degree of freedom) df a df. Někdy se namísto krtckých hodnot tabelují kvantly Fsherova rozdělení F k α( df, df ). Vztah mez krtckým hodnotam a kvantly je jednoduchý: F ( df, df α ) = F k α( df, df ). Např. 5-t procentní krtcká hodnota je rovna 95-t procentnímu kvantlu př stejných hodnotách parametrů df a df. Testové krtérum Krtcké hodnoty Kvantly Výpočet v Excelu Pro výpočet krtckých hodnot lze využít Excelu. Postupuje se přtom takto: v hlavním menu postupně vybíráte: Vložt Funkce Statstcké FINV(α;df ; df ). Postup testování hypotézy H 0 charakterzujeme následujícím 3 kroky: Krok. Zvolte hladnu významnost α, která představuje chybu. druhu, tj pravděpodobnost zamítnut správné hypotézy. Praktcké hodnoty hladny významnost α jsou: 0,, 0,05, 0,0, nebo-l v procentech: 0%, 5%, %. Krok. Vypočťěte hodnotu statstky F podle vzorce (.6), přčemž pro hodnoty mezskupnového součtu čtverců S y, m a pro výpočet vntroskupnového součtu čtverců S y, v použjte vzorce (.3) a (.4). Výpočetně výhodnější, např. pro výpočet na kalkulačce, jsou následující vzorce: k n k n S y = yj yj, (.7) = j= n = j= k k n S y,m = n y yj. (.8) = n = j= K výpočtu S lze využít základního vztahu (.5) a právě uvedených vztahů (.7) a (.8): S y,v y, v = S S. y y,m Krok 3. Porovnejte hodnotu statstky F vypočtené v Kroku s krtckou hodnotou F k,n k. Výsledek tohoto porovnání může být dvojí: α ( ) I. Platí F F ( k,n k) α. Potom se nulová hypotéza H 0 přjímá (nezamítá) a tudíž se konstatuje, že hodnoty faktoru X nemají na hodnoty znaku Y statstcky významný vlv (na zvolené hladně významnost). Jnak řečeno, faktor X je neúčnný. II. Platí F > F ( k,n k) α. Potom se nulová hypotéza H 0 zamítá, přjímá se hypotézu alternatvní H, a tudíž se konstatuje, že hodnoty faktoru X mají na hodnoty znaku Y statstcky významný vlv. Jnak řečeno, faktor X je účnný. Postup testování Krok Krok Výpočetní vzorce Krok 3 Faktor je neúčnný Faktor je účnný

14 Jaroslav Ramík, Statstka 4 PRŮVODCE STUDIEM - POKRAČOVÁNÍ Podaří-l se výše uvedeným testem prokázat, že hodnoty faktoru X mají na hodnoty znaku Y statstcky významný vlv, mohou nás zajímat další nformace o tom, které skupny se významně odlšují od průměru, eventuálně jak skupnové průměry seřadt, případně zařadt do společných celků. V krajním případě by se totž mohlo stát, že významnost rozdílnost k skupn způsobuje skupna jedná a ostatní skupny se navzájem nelší. Touto problematkou se zabývají metody tzv. smultánního testování, z nchž nejznámější je metoda Shaffeho. Vy se touto problematkou zde nezabývat nebudete, zájemce odkazujeme na lteraturu, vz např. [Anděl]. Jž jsme se výše zmínl, že metoda analýzy rozptylu je založena na předpokladech shody rozptylů v jednotlvých k skupnách. Pokud jsou předpoklady splněny, pak popsaná metoda ANOVA poskytuje nejlepší výsledky je nejúčnnější. Není-l tento předpoklad splněn, pak použtí výše uvedeného testu může poskytnout nesprávný výsledek. V takovém případě lze použít jné metody, např. Kruskal-Wallsova ANOVA, ta používá Ch-kvadrát test, s ní se seznámíte v příští kaptole. V Excelu jsou k dspozc funkce, které umožňují řešt jednofaktorové vícefaktorové úlohy ANOVA. Naleznete je v hlavním menu: Nástroje Analýza dat ANOVA: jeden faktor... V tomto textu se s nm naučíte pracovat..4 Míra těsnost závslost y,m Varablta podmíněných (skupnových) průměrů y kolem celkového průměru y je způsobena závslostí znaku Y na znaku X. Tuto varabltu jsme vyjádřl mezskupnovým součtem čtverců S. Varablta znaku Y uvntř jednotlvých skupn vyjádřena vntroskupnovým (rezduálním) součtem čtverců S y, v, je způsobena jným (neuvažovaným) čntel. Čím větší je y, m S, tím větší je těsnost závslost znaků X a Y. Protože však jsou jednotlvé součty čtverců vzájemně vázány vztahem (.5), lze míru těsnost závslost vyjádřt jako podíl mezskupnového a celkového součtu čtverců. Zavádíme proto jako míru těsnost závslost znaku Y na znaku X poměr determnace P takto: P = S S y,m y. (.9) Odmocnnu z poměru determnace P nazýváme poměr korelace. Poměr determnace nabývá hodnot z ntervalu [0,]. Čím těsnější je závslost Y na X, tím více se hodnota poměru determnace blíží k, tím více se také vntroskupnový součet čtverců blíží k celkovému součtu čtverců, přčemž mezskupnový součet čtverců se blíží k nule. Naopak, čím více se poměr determnace blíží k 0, tím menší část z celkového součtu čtverců tvoří mezskupnový součet čtverců (na úkor vntroskupnového), a tím menší je těsnost závslost znaku Y na X. Způsob výpočtu determnačního a korelačního poměru s procvčíte na numerckých příkladech. V Excelu bohužel funkce pro výpočet poměru determnace nebo korelace chybí, musí se proto k výpočtu použít vzorce (.9). Varablta Poměr determnace Poměr korelace Uvědomte s však, že poměr determnace P je náhodná velčna (jakožto podíl dvou velčn součtu čtverců, které jsou samy náhodným velčnam), proto může být výsledkem kladné číslo v případě, že výsledkem ANOVA je fakt, že zkoumaný faktor není statstcký významný, nebol sledovaná velčna na faktoru nezávsí. V takovém případě by logcky mělo platt, že poměr de-

15 Jaroslav Ramík, Statstka 5 termnace P je nulový, tj. P = 0. Tento zdánlvý rozpor vysvětlujeme statstckým přístupem: testem statstcké hypotézy: V tomto případě je nulová hypotéza H 0 : P = 0. Jako testové krtérum se použje statstka F ze vzorce (.6). Pokud platí F Fα ( k,n k), potom se nulová hypotéza H 0 přjímá (a tudíž se konstatuje, že hodnoty faktoru X nemají na hodnoty znaku Y statstcky významný vlv na zvolené hladně významnost) a poměr determnace (samozřejmě poměr korelace) je roven nule, jnak řečeno, je statstcky nevýznamný. V opačném případě se nulová hypotéza zamítá a poměr determnace je statstcky významný. Hodnota poměru determnace poměru korelace je nenulová. V tom případě má smysl hovořt o síle závslost velčny Y na faktoru X. Test nulovost poměru determnace ŘEŠENÝ PŘÍKLAD - Na testovacím okruhu byla testována průměrná spotřeba tří automoblů téže třídy různých výrobců Škoda, Renault a Fat. Řdč absolvoval s každým automoblem 5 testovacích jízd. Tabulka ukazuje spotřebu benzínu na 00 klometrů v jednotlvých jízdách. Automobl Spotřeba Škoda 7,4 7,8 6,8 7,6 8, Renault 6,7 7, 8,3 7, 7,5 Fat 6,8 6,9 7,3 7,9 7,6 Na hladně významnost α = 0,05 zjstěte, zda má typ automoblu vlv na spotřebu benzínu. V kladném případě vypočtěte determnační a korelační poměr. Řešení příkladu Chceme zjsstt závslost znaku Y (průměrná spotřeba) na jedném znaku X (výrobce automoblu). Provedeme proto jednofaktorovou analýzu rozptylu. Faktor X má tř hodnoty: x =Škoda, x =Renault, x 3 =Fat, tzn. k = 3, s počty hodnot n = n = n 3 = 5 v každé z nch.budeme testovat nulovou hypotézu H 0 : E(α ) = E(α ) = E(α ) = 0, tj. průměrná spotřeba je u všech vozdel stejná. Alternatvní hypotéza H je negací nulové hypotézy. Nejprve vypočítáme podmíněné průměry y, y, y 3

16 Jaroslav Ramík, Statstka 6 y y y 3 5 y j j= 7, 4+ 7, 8+ K+ 8, = = = 7, j= 5 y j = = 5 6, 7+ 7, + K+ 7, 5 5 = 7, 36 y3 j j= 6, 8+ 6, 9+ K+ 7, 6 = = = 7, a celkový průměr znaku Y, yj 7, 4+ 7, 8+ K+ 7, 6 y = = = 7, 4. n 5 Dále vypočítáme pomocí vztahů (.), (.3), popř. (.7), (.8) součty S y a S ym. 3 5 S y = ( yj y) = ( 7, 4 7, 4) + ( 7, 8 7, 4) + K+ (8, 7, 4) + = j= 3 + ( 6, 7 7, 4) + ( 7, 7, 4) + K+ ( 7, 5 7, 4) + + ( 6, 8 7, 4) + K+ ( 7, 6 7, 4) = 3, 4 S ym = n ( yj y) = 5( y y) + 5( y y) + 5 ( y3 y) = = = 5( 7, 54 7, 4) + 5( 7, 36 7, 4) + 5( 7, 3 7, 4) = 0, 6. Součet S ym má k - stupňů volnost, v našem případě df m = 3 =. Pomocí součtů S y a S ym dopočítáme součet S yv, neboť S y = S yv + S ym. Proto S yv = S y S ym = 3,4 0,6 = 3,4. Součet S yv má n k stupňů volnost, proto df v = 5 3 =. Testové krtérum F vypočítáme podle vztahu (.6): F = S ym 0, 6 k = = 0, 96. S yv 3, 4 n k Pro stanovení krtckého oboru C najdeme v tabulkách krtckých hodnot F α (k, n k) krtckou hodnotu F 0,05 (, ) = 3,89 (ověřte v Excelu pomocí funkce FINV). Krtcký obor je proto nterval od 3,89 do nekonečna, tj. C = (3, 89, + ).

17 Jaroslav Ramík, Statstka 7 Zřejmě platí 0,96 < 3,89, tzn. F C, proto nulovou hypotézu H 0 přjímáme. Znamená to, že faktor X-výrobce automoblu je neúčnný, nebo-l, že průměrná spotřeba benzínu není statstcky významně ovlvněna výrobcem automoblu. Poměr determnace korelace je tedy 0. * ŘEŠENÝ PŘÍKLAD - Rozhodněte, zda velkost výnosů petržele (faktor Y) závsí na použtém druhu hnojva (faktor X). Pokud závsí, pak pomocí determnačního poměru zjstěte těsnost této závslost. Data jsou uvedena v následující tabulce, použjte hladnu významnost 0,05. Hnojvo Výnosy (kg/0 m ) A B C Řešení příkladu U tohoto příkladu s ukážeme řešení s pomocí Excelu. Nejprve však příklad vyřešíme klasckým postupem. K výpočtu hodnot součtů čtverců S ym a S y, potřebujeme znát celkový průměr y a podmíněné průměry y, y, y3. y y = 6 j= = 75, 5; y y= 3 n = y n j n y K+ 47 = = 43, 6 3 = 6, 8, , , 8 5 = = 58,. 5 Nyní jž můžeme vypočítat součty S ym a S y, podle vztahů (.), (.3) S S y ym = = j 3 = j ( y y ) n ( y y ) = ( 40 58, ) + ( 76 58, ) + ( 60 58, ) = 6( 43 58, ) + K+ ( 47 58, ) + K+ ( 68 58, ) + K+ ( 70 58, ) ( 755, 58, ) = 8784,. + 5( 68, 58, ) = 65485,.

18 Jaroslav Ramík, Statstka 8 S ym 654, 85 Hodnota testového krtéra je F = k = = 7, 6. S yv 878, 4 654, 85 n k Krtcká hodnota je F 0,05 (, ) = 3,89 a je mnohem menší než hodnota testového krtéra F. Proto nulovou hypotézu zamítáme a konstatujeme, faktor hnojva významně ovlvňuje hodnoty výnosů petržele. Hodnotu determnačního poměru P zjstíme dosazením hodnot S ym a S y do vztahu (.9). P 654, 85 = = 0, , 4 Hodnoty determnačního poměru blízké svědčí o vysoké závslost faktoru Y na faktoru X. Hodnota 0,9 proto znamená, že závslost výnosů petržele na použtém druhu hnojva je vysoká. * Řešení příkladu pomocí Excelu Nejprve je zapotřebí přpravt v Excelu data. Jednotlvé hodnoty y j pro faktoru Y pro hodnotu x faktoru X uspořádáme do řádků, podobně jako v tabulce v zadání. V prvním sloupc umístíme kvůl lepší orentac hodnotu x název hodnoty faktoru (popsky), v tomto případě název hnojva: A, B, C. Data ve worksheetu Excelu vypadají tedy například takto: A B C D E F G H A B C Data je možné uspořádat také do sloupců, přtom do prvního řádku umístíme názvy hodnot faktoru X (popsky). To je výhodné zejména u velkého množství dat, tj. pro velkou hodnotu počtu dat n. Dále otevřeme v hlavním menu postupně položky: Nástroje Analýza dat... ANOVA: jeden faktor Pokud tam položku Analýza dat... nenajdete, je j zapotřebí nstalovat. To se provede jednoduše tak, že zvolíte v menu Nástroje položku Doplňky..., myší zaklknete položku Analytcké nástroje a pak OK. Př následujícím otevření položky Nástroje se jž Analýza dat... objeví. Zvolíte-l první položku ANOVA:jeden faktor, otevře se zadávací okno kde postupně zadáte: Vstupní oblast: $A$:$G$3 Sdružt: zaklknete tlačítko Řádky (je možné uspořádat data do sloupců, pak ovšem zaklknete tlačítko Sloupce) Popsky v prvním sloupc zaklknete Alfa: 0,05 (hladna významnost je předvolena, lze j však změnt) Výstupní oblast: $A$5 (levý horní roh výstupní oblast) Potvrdíte OK Obdržíte následující výstup, kterého levý horní roh začíná v buňce A5 nadpsem Anova jeden faktor (vz následující kope obrazovky):

19 Jaroslav Ramík, Statstka 9 V první tabulce s názvem Faktor jsou uvedeny základní statstcké údaje o datech: Počet, Součet, Průměr a Rozptyl. Ve druhé tabulce nazvané ANOVA jsou uvedeny výpočty metodou ANOVA, jednotlvé položky mají následující význam: Mez výběry = mezskupnový Všechny výběry = vntroskupnový Celkem = celkový SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnost (DF Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové krtérum = 7,5 Hodnota P = Sgnfkance (p-hodnota) = 0, < 0,05 = α F krt = krtcká hodnota rozdělení F = 3,89 Hodnoty získané řešením v Excelu jsou stejné jako př použtí ručního výpočtu, proto závěry jsou stejné. V Excelu máme navíc vypočtenu p-hodnotu testu (tzv. sgnfkanc), která, pokud je menší než zvolená hladna významnost α, znamená, že nulovou hypotézu zamítáme. V opačném případě nulovou hypotézu přjímáme. *

20 Jaroslav Ramík, Statstka 0 SAMOSTATNÉ ÚKOLY Řešte ručním výpočtem a zkontrolujte výsledky řešením v Excelu.. Pan Novák může jet do zaměstnání čtyřm různým trasam. Čtyřkrát projel jednotlvé trasy a zaznamenal s dobu, po kterou jel do zaměstnání. Na hladně významnost α = 0,0 zjstěte, zda záleží na tom, kterou trasou pojede. Cesta Cesta Cesta 3 Cesta Učtel fyzky zkoumal, jaký vlv má druh zkušebního testu na jeho úspěšnost. Vytvořl tř typy stejně obtížných testů a náhodně je rozdal mez studenty ve třídě. Tabulka uvádí bodové zsky studentů v jednotlvých testech. Na hladně významnost α = 0,05 zjstěte, zda má typ testu vlv na úspěšnost studentů. Typ testu T T T Ve vepříně zjšťoval, jestl váhové přírůstky vepřů závsí na použtém druhu krmva, č nkol. Na hladně významnost α = 0,05 rozhodněte, zda jsou váhové přírůstky pro různá krmva různé, eventuálně zjstěte, který druh krmva dává nejmenší váhové přírůstky. Krmvo A B C,5 9,9 3,7,8 4,3,5 6,3 0, 0,6 4, 0,9,4 5,6, 8,.4 Výroba součástek může v podnku probíhat na jednom ze čtyř rozdílných strojů. Ikdyž každý stroj provádí stejné operace, má každý svá specfka. U každého stroje pracuje jeden dělník. Na hladně významnost α = 0,0 testujte hypotézu o tom, že počet vyrobených součástek není

21 Jaroslav Ramík, Statstka ovlvněn volbou stroje an dělníkem, který na něm pracuje. Stroj Dělník A B C D Školský úřad Karvná chtěl srovnat úroveň znalostí maturantů gymnází okresu Karvná. Za tímto účelem byl vytvořen test zahrnující otázky ze všech oblastí učva a zadán náhodně vybraným studentů jednotlvých škol. Bodové výsledky studentů jsou uvedeny v následující tabulce. Gymnázum Karvná Gymnázum Český Těšín Gymnázum Bohumín Gymnázum Orlová Gymnázum Havířov a. Na hladně významnost α = 0,05 zjstěte, je-l průměrná úroveň maturantů jednotlvých škol stejná. b. Jak ovlvní výsledek průzkumu změna hladny významnost na 0,0? SHRNUTÍ KAPITOLY Jednofaktorová nalýza rozptylu ANOVA umožňuje ověřt významnost rozdílu mez výběrovým průměry dvou nebo většího počtu náhodných výběrů, nebo jnak formulováno, umožňuje posoudt vlv kvaltatvního faktoru na proces charakterzovaný kvanttatvním faktorem. Základní myšlenka analýzy rozptylu spočívá v rozkladu celkového rozptylu na dílčí rozptyly příslušející jednotlvým vlvům, podle nchž jsou data roztříděna. Předpokládáme, že faktor X má k hodnot s efektem na znak Y a formulujeme nulovou hypotézu, že všechny výběry pocházejí ze stejné základní populace, nebol že střední hodnota faktoru Y je pro každou hodnotu faktoru X stejná. Pro ověření nulové hypotézy použjeme statstku F, která má př platnost nulové hypotézy Fsherovo rozdělení. Krtcké hodnoty Fsherova rozdělení jsou tabelovány pro různé hodnoty hladny významnost α a různé hodnoty stupňů volnost. Nulovou hypotézu buď přjímáme (nezamítáme) a tudíž konstatujeme, že hodnoty faktoru X nemají na hodnoty znaku Y statstcky významný vlv, anebo nulovou hypotézu zamítáme, přjímáme hypotézu alternatvní a tudíž konstatujeme, že hodnoty faktoru X mají na hodnoty znaku Y statstcky významný vlv. Míru těsnost závslost vyjadřujeme jako podíl mezskupnového a celkového součtu čtverců a zavádíme proto jako míru těsnost závslost znaku Y na znaku X poměr determnace P, který nabývá hodnot mez 0 a. Čím těsnější je závslost Y na X, tím více se hodnota poměru determnace více blíží k. Odmocnnu z poměru determnace P nazýváme poměr korelace. U analýzy rozptylu s jedním faktorem můžeme též uvažovat, že se výsledky třídí podle kvaltatvního znaku X do několka (konkrétně do k) skupn. Proto v tomto případě hovoříme také o ANOVA př jednoduchém třídění.

22 Jaroslav Ramík, Statstka ŘEŠENÍ A ODPOVĚDI. F =,0 F krt = 5,95 p-hodnota = 0,43 H 0 přjímáme (je jedno, kterou cestu zvolí). F =,43 F krt = 3,98 p-hodnota = 0,8 H 0 přjímáme (typ testu nemá vlv na úspěch).3 F = 4,7 F krt = 3,89 p-hodnota = 0,03 H 0 zamítáme (krmvo má vlv, nejvíce A).4 F = 79,6 F krt = 4,43 p-hodnota = 0,000 H 0 zamítáme (typ stroje má vlv).5 F = 0, F krt = 3,6 p-hodnota = 0,97 H 0 přjímáme (škola nemá vlv)

23 Jaroslav Ramík, Statstka 3 ANALÝZA ROZPTYLU (ANOVA) VÍCE FAKTORŮ CÍLE KAPITOLY Po úspěšném a aktvním absolvování této KAPITOLY Budete umět: porozumět rozdílu mez jednofaktorovou a vícefaktorovou ANOVA, objasnt význam jednotlvých dílčích rozptylů studovaného kvanttatvního statstckého znaku, vysvětlt předpoklady dvoufaktorové ANOVA, aplkovat 3 kroky př výpočtu dvoufaktorové ANOVA, aplkovat míry těsnost a závslost. Budete umět Získáte: schopnost dentfkovat a analyzovat problémy, které lze řešt s využtím vícefaktorové ANOVA. Získáte Budete schopn: Řešt konkrétní praktcké úlohy dvoufaktorové ANOVA s použtím kalkulačky, ale zejména s využtím funkcí Excelu. Budete schopn RYCHLÝ NÁHLED DO PROBLEMATIKY KAPITOLY Jednofaktorová metoda ANOVA, kterou prokazujeme závslost znaků (faktorů) Y na X, pro něž jsou k dspozc příslušná data, spočívá v tom, že celkovou varabltu měřenou součtem čtverců odchylek od celkového průměru rozdělíme na varabltu uvntř jednotlvých výběrů a na varabltu mez jednotlvým výběry. Cílem, k němuž směřujeme nyní, je stuace, kdy budeme uvažovat, že se kromě třídění do skupn vyskytují další faktory, říkáme jm bloky, podle nchž výsledky (tj. hodnoty znaku Y) rovněž třídíme. Rychlý náhled ČAS POTŘEBNÝ KE STUDIU Čas ke zvládnutí problematky této kaptoly včetně výpočetních dovedností s pomocí Excelu je přblžně - 3 hodny. KLÍČOVÁ SLOVA KAPITOLY Vícefaktorová analýza rozptylu, ANOVA, nezávslé faktory, závslý faktor, celkový součet čtverců, vntroskupnový součet čtverců, mezskupnový součet čtverců, stupeň volnost, F-test, krtcká hodnota Fsherova rozdělení, determnační poměr, korelační poměr. Klíčová slova

24 Jaroslav Ramík, Statstka 4 PRŮVODCE STUDIEM U analýzy rozptylu s jedním faktorem jste uvažoval výsledky tříděné podle jstého kvaltatvního znaku X do několka (konkrétně do k) skupn o rozsazích n, n,..., nk. Proto v tomto případě hovoříme také o ANOVA př jednoduchém třídění, nebol třídění podle jednoho faktoru. V této kaptole budeme uvažovat stuac kdy se kromě třídění do skupn vyskytují další faktory, říkáme jm bloky, podle nchž výsledky (tj. hodnoty znaku Y) rovněž třídíme. Přehledná stuace vznká, když kromě prvního faktoru uvažujeme ještě faktor druhý, říkáme pak, že je třídíme do bloků a v takovém případě se jedná o dvoufaktorovou ANOVA. Formálně vzato je ANOVA, ať jednofaktorová, dvoufaktorová nebo vícefaktorová, parametrckým testem statstcké hypotézy, s nímž jste se seznáml v základním kurzu statstky. Tato tzv. klascká ANOVA vychází z předpokladu normalty rozdělení hodnot uvažovaných faktorů. Pokud je takový předpoklad neudržtelný, lze použít jného typu ANOVA, tedy neparametrckého testu statstcké hypotézy (tento pojem s přpomeňte ze základního kurzu statstky!). Konkrétně se v této kaptole seznámíte s Kruskal-Wallsovu verz ANOVA, která využívá Ch-kvadrát test statstcké hypotézy.. Analýza rozptylu se dvěma faktory U analýzy rozptylu s jedním faktorem jsme uvažoval výsledky tříděné podle jstého kvaltatvního znaku X do několka (konkrétně do k) skupn o rozsazích n, n,..., nk. V tomto odstavc budeme uvažovat stuac kdy se kromě třídění do skupn vyskytuje další faktor, podle něhož výsledky (tj. hodnoty znaku Y) rovněž třídíme, říkáme, že je třídíme do bloků. Začneme výklad příkladem známým jž z předchozí kaptoly. Příklad. Testovacím jízdam na zkušebním okruhu se zjšťuje průměrná spotřeba palva automoblu Octava př použtí benzínu od různých výrobců (např. Aral, Shell, Benzna, Slovnaft). Všechny testy provede jeden řdč, když s každým druhem benzínu uskuteční několk testovacích jízd, a to tak, že pro každou značku benzínu uskuteční jný počet jízd. Zjštěné výsledky testů, tj. změřené průměrné spotřeby na 00 km, podrobíme jednofaktorové analýze rozptylu, která nám umožní zjstt, zda značka (tj. výrobce) použtého benzínu má vlv na průměrnou spotřebu automoblu. Příklad. Nyní budeme uvažovat podobnou stuac, kdy výsledky testů byly získány různým řdč (např. A, B, C, D, E, F), a to tak, že každý řdč uskutečnl jednu testovací jízdu s každou značkou benzínu. Výsledky testů proto budeme člent nejen podle značky benzínu - do skupn (. faktor), ale také podle testovacích řdčů - do bloků (. faktor). Podle předpokladů je nyní počet výsledků ve všech skupnách stejný a je roven počtu řdčů (každý řdč jel s jednou značkou benzínu jedenkrát). Zjštěné výsledky podrobíme dvoufaktorové analýze rozptylu, která umožní jednak zjstt, zda značka (tj. výrobce) použtého benzínu má vlv na průměrnou spotřebu automoblu, jednak zjstt, zda různí řdč mají vlv na tuto spotřebu. Příklad 3. Nyní budeme uvažovat stejnou stuac jako v příkladu, přtom výsledky testů byly získány různým řdč (např. A, B, C, D, E, F), a to tak, že každý řdč uskutečnl tř testovací jízdy s každou značkou benzínu. Zjštěné výsledky podrobíme dvoufaktorové analýze rozptylu s opakováním, která umožní jednak zjstt, zda značka (tj. výrobce) použtého benzínu má vlv na průměrnou spotřebu automoblu, jednak zjstt, zda různí řdč mají vlv na tuto spotřebu. Třídění do skupn Třídění do bloků Příklad testovací jízdy: vlv značky benzínu Příklad testovací jízdy: vlv řdčů Příklad 3 testovací jízdy s opakováním: vlv řdčů Na konc této kaptoly budou všechny tř příklady podrobně analyzovány na konkrétních číselných datech. Nyní budeme postupovat ve výkladu s obecným daty, nejprve pro případ popsaný v příkladu. Taková data, podobně jako u jednofaktorové analýzy rozptylu, uspořádáme do přehledné tabulky Tab...

25 Jaroslav Ramík, Statstka 5 Hodnoty sledovaného znaku Číslo bloku Číslo skupny... j... r Průměr skupny y y... y j... y r y Tabulka.. y y... y j... y r y M M M M M M M M y y... y j... y r y M M M M M M M M k y k y k... y kj... y kr y k Průměr bloku y y... y j... y r y Tab... Schéma výchozí tabulky analýzy rozptylu pro dva faktory V Tab... značíme symbolem y průměr v -té skupně, symbolem y j označujeme průměr hodnot v j-tém bloku, symbolem y značíme celkový průměr. Celkový součet čtverců (celkovou varabltu) označujeme stejně, jako v (.), tedy: ( j ) S = y y y k = r j=. (.) Varabltu mez skupnam budeme měřt mezskupnovým součtem čtverců, který defnujeme následovně: ( ) S, = r y y y m k = S y, m. (.) Mezskupnovému součtu čtverců přísluší počet stupňů volnost df m = k -. Varabltu mez bloky budeme měřt mezblokovým součtem čtverců S y, b, který defnujeme následovně: ( j ) S, = k y y y b r j=. (.3) Mezskupnovému součtu čtverců přísluší počet stupňů volnost df b = r -. Varabltu uvntř skupn označujeme jako vntroskupnovou, nebo také rezduální a používáme přtom označení S, přčemž defnujeme vntroskupnový (rezduální) součet čtverců takto k y, v r ( ) S, = y y y + y y v j j = j=. (.4) Vntroskupnovému součtu čtverců přísluší počet stupňů volnost df v =(k-)(r-). Celkový součet čtverců Artmetckým úpravam výše uvedených vzorců lze dokázat základní vztah dvoufaktorové analýzy rozptylu, totž, že celkový součet čtverců je roven sumě mezskupnového, vntroskupnové- Mezskupnový součet čtverců Mezblokový součet čtverců Vntroskupnový součet čtverců

26 Jaroslav Ramík, Statstka 6 ho a blokového součtu čtverců, symbolcky S S + S y = y,m y,v + S y b,. (.5) Základní vztah. Předpoklady ANOVA se faktory Předpokládáme, že faktor X má k úrovní, faktor X má r úrovní s efektem na znak Y, který lze vyjádřt vztahem Předpklady µ j = µ + α + β j, =,,...,k, j =,,...,r, (.6) kde µ j je průměr znaku Y v -té skupně a j-tém bloku, µ je celkový průměr znaku Y, α je efekt hodnoty faktoru X na znak Y, β j je efekt hodnoty faktoru X na znak Y. V modelu (.6) nejprve předpokládáme, že efekty obou faktorů na znak Y jsou adtvní a vzájemně nezávslé, tj. bez vzájemných nterakcí. Tento předpoklad nám umožní oddělt od sebe hypotézy o efektech jednotlvých faktorů. Formulujeme nejprve nulovou hypotézu, že všechny skupny pocházejí ze stejné základní populace (základního souboru), jnak řečeno, že hodnoty faktoru X nemají na hodnoty znaku Y žádný efekt (vlv). Budeme tedy v nulové hypotéze předpokládat, že α pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem σ, tedy formulujeme nulovou hypotézu Nulová hypotéza H 0 : E( α ) = E( α ) =... = E( α ) k = 0, prot alternatvní hypotéze, že H 0 neplatí, tudíž alespoň pro dvě hodnoty, např. a j, platí: H : E( ) E( α ) α. j Cílem, k němuž směřujeme, je přjmout nulovou hypotézu H 0, eventuálně H 0 zamítnout (na zvolené hladně významnost). Pro ověření nulové hypotézy H 0 použjeme statstku: F = S y, m k S y, v, (.7) ( k )( r ) která má př platnost nulové hypotézy Fsherovo rozdělení F ( k, ( k )( r )). Krtcké hodnoty lze nalézt v tabulkách, nebo lze využít funkce z Excelu: FINV(α;k-;(k-)(r-)). Statstka pro skupnový test Fsherovo rozdělení F Dále formulujeme nulovou hypotézu, že všechny bloky pocházejí ze stejné základní populace (základního souboru), jnak řečeno, že hodnoty faktoru X nemají na hodnoty znaku Y žádný efekt. Budeme tedy v nulové hypotéze předpokládat, že β pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem σ, tedy formulujeme nulovou j

27 Jaroslav Ramík, Statstka 7 hypotézu H 0 : E( β ) =... = E( β r ) = 0, prot alternatvní hypotéze, že H 0 neplatí, tudíž alespoň pro dvě hodnoty, např., platí H : E( β ) E( β ). Pro ověření nulové hypotézy H 0 použjeme statstku: F = S y, b r S y, v ( k )( r ), (.8) Statstka pro blokový test která má př platnost nulové hypotézy Fsherovo rozdělení F( r,( k )( r )). Zásadní rozdíl mez dvoufaktorovou a jednofaktorovou analýzou rozptylu spočívá v tom, že u jednofaktorové ANOVA neuvažujeme působení dalšího faktoru, zatímco u dvoufaktorové ANOVA tak čníme. Tento rozdíl je vyjádřen ve výpočtu testového krtéra (.7) a (.8), kde se ve jmenovatel zlomku vyskytuje člen (k )(r ). Kdybychom na stejnou stuac aplkoval pouze jednofaktorovou ANOVA, pak by ve výpočtu hodnoty testového krtéra podle vztahu (.6) byl na stejném místě člen (n - k) nebo člen (n - r), podle toho, zda bychom bral v úvahu skupny nebo bloky. Tento rozdíl může zapříčnt rozdílné výsledky získané jednofaktorovou nebo dvoufaktorovou ANOVA! Rozdíl mez jedno a doufaktor. ANO- VA ŘEŠENÝ PŘÍKLAD - Testovacím jízdam na zkušebním okruhu se zjšťuje průměrná spotřeba benzínu Natural 95 automoblu Octava př použtí benzínu od různých výrobců (Aral, Shell, Benzna, Slovnaft). Bylo vybráno 6 řdčů A, B, C, D, E, F, z nchž každý absolvoval s každým typem benzínu jednu zkušební jízdu. Na hladně významnost 0,05 testujte, je-l průměrná spotřeba palva závslá na typu použtého benzínu a na tom, který řdč s vozem jel. Řdč Značka benzínu A B C D E F Aral 7,5 6,9 7,9 7,3 6,9 7,8 Shell 7,6 7, 7,5 8,0 7,3 8, Benzna 7, 8, 7,8 7,6 7,8 6,9 Slovnaft 7,0 7,3 7, 7,5 8, 7,7

28 Jaroslav Ramík, Statstka 8 Řešení příkladu Máte za úkol prozkoumat závslost průměrné spotřeby (znak Y) na typu použtého benzínu (znak X ) a na řdč (znak X ), který s vozem jel. Znak X má k = 4 skupny, znak X má r = 6 bloků. Pro faktor X formulujeme nulovou hypotézu: H 0 : E(α )=E(α )=E(α 3 )=E(α 4 ), (.9) prot H : neplatí (.9), tj. průměrná spotřeba závsí na použtém druhu benzínu. Pro faktor X formulujeme nulovou hypotézu H 0 : E(β )=E(β )= =E(β 6 ), (.0) prot alternatvní hypotéze H : neplatí (.0), tj. průměrná spotřeba benzínu závsí na řdč, který s vozem jel. Pro ověření těchto hypotéz, tj. pro výpočet testových krtérí, musíme znát hodnotu součtů S y,m, S y,b a S y. Nejdříve vypočítáme podmíněné průměry y., =,, 3, 4, y j., j =,,, 6 a také celkový průměr y. 7, 5+ 6, 9+ K+ 7, 8 y. = = 7, 38, 6 další průměry y., y3., y4. vypočítáme analogcky, vz Tab... 7, 5+ 7, 6+ 7, + 7 y. = = 7, 33, 4 další průměry y., K, y. 6 vypočítáme analogcky. Celkový průměr je 7, 5+ 6, 9+ K+ 7, 7 y = = 7, Hodnoty všech průměrů jsou uvedeny v tabulce. Nyní lze přstoupt k výpočtu jednotlvých součtů. 4 [( 7, 38 7, 5) + K+ ( 7, 48 7, 5) ] 0, S ym = r ( y. y ) = 6 =. = 6 [ ] 0, 35 ( y y) = 4 ( 7, 33 7, 5) + K+ ( 7, 38 7, 5) S yb = k. j =. j= Potřebujeme znát hodnotu součtu S y,v, z praktckého hledska je však výhodnější vypočítat hodnotu součtu S y. Součet S y,v pak snadno dopočítáme, neboť S y =S y,m +S y,v +S y,b. S y = ( y, j y) = ( 7, 5 7, 5) + ( 6, 9 7, 5) + K+ ( 7, 8 7, 5) = j= ( 7, 6 7, 5) + K+ ( 8, 7, 5) + K+ ( 7, 7 7, 5) = 3, 79. Potom vypočítáme S y,v = S y - S y,m - S y,b = 3,79-0, - 0,36 = 3,. Pro ověření hypotézy H 0 určíme testové krtérum F + Ruční výpočet F = S y, m k S ( k )( r ) 0, = 3 3, 3 5 = 0 3., y, v V tabulce krtckých hodnot F-rozdělení nebo pomocí Excelu najdeme F 0,05 (3,5) = FINV(0,05;3;5) = 3,9. Protože 0,3 < 3,9, přjímáme H 0, což znamená, že použtá

29 Jaroslav Ramík, Statstka 9 značka benzínu nemá na průměrnou spotřebu vlv. Pro ověření hypotézy H 0 určíme testové krtérum F S y, b 0, 36 F 5 = r = = 0, 33. S y, v 3, ( k )( r ) 3 5 F 0,05 (5,5) = FINV(0,05;5;5) =,9. Protože 0,33 <,9, přjímáme hypotézu H 0, tzn., že an volba řdče nemá na průměrnou spotřebu statstcky významný vlv. Na rozdíl od jednofaktorové ANOVA jsme zde v obou stuacích uvažoval současné působení dvou faktorů! Řdč Značka benzínu A B C D E F Průměry Aral 7,5 6,9 7,9 7,3 6,9 7,8 7,38 Shell 7,6 7, 7,5 8,0 7,3 8, 7,63 Benzna 7, 8, 7,8 7,6 7,8 6,9 7,57 Slovnaft 7,0 7,3 7, 7,5 8, 7,7 7,48 Průměry 7,33 7,38 7,6 7,6 7,55 7,65 7,50 Tab... Průměry Nakonec ještě ukážeme řešení pomocí Excelu. Využjeme přtom funkc v menu: Nástroje Analýza dat... ANOVA:dva faktory bez opakování Nejprve je zapotřebí přpravt v Excelu data. Jednotlvé hodnoty y j pro faktoru Y pro hodnoty faktorů X =benzín a X =řdč uspořádáme do řádků a sloupců, podobně jako v tabulce v zadání. Data ve worksheetu Excelu vypadají tedy například takto: Výpočet v Excelu A B C D E F G I benzn/řdč A B C D E F Aral 7,5 6,9 7,9 7,3 6,9 7,8 3 Shell 7,6 7, 7,5 8 7,3 8, 4 Benzna 7, 8, 7,8 7,6 7,8 6,9 5 Slovnaft 7 7,3 7, 7,5 8, 7,7 6 Dále otevřeme v hlavním menu postupně položky: Nástroje Analýza dat... ANOVA:dva faktory bez opakování Poznámka: Pokud tam položku Analýza dat... nenajdete, je j zapotřebí donstalovat. To se provede jednoduše tak, že zvolíte v menu Nástroje položku Doplňky..., myší zaklknete položku Analytcké nástroje a pak OK. Př následujícím otevření položky Nástroje se jž Analýza dat... objeví. Po volbě třetí položky ANOVA:dva faktory bez opakování, se otevře zadávací okno kde postupně zadáte: Vstupní oblast: $A$:$G$5 Popsky v prvním sloupc zaklknete Alfa: 0,05 (hladna významnost je předvolena, lze j však změnt) Výstupní oblast: $L$ (levý horní roh výstupní oblast) Potvrdíte OK

30 Jaroslav Ramík, Statstka 30 Obdržíte následující výstup, kterého levý horní roh začíná v buňce L nadpsem ANO- VA: dva faktory bez opakování: Anova: dva faktory bez opakování Faktor Počet Součet Průměr Rozptyl Aral 6 44,3 7, ,85667 Shell 6 45,8 7, ,54667 Benzna 6 45,4 7, ,94667 Slovnaft 6 44,9 7, ,8667 A 4 9,3 7,35 0, B 4 9,5 7,375 0,65 C 4 30,4 7,6 0, D 4 30,4 7,6 0, E 4 30, 7,55 0,33333 F 4 30,6 7,65 0,96667 ANOVA Zdroj varablty SS Rozdíl MS F Hodnota P F krt Řádky 0, 3 0,07 0,3558 0, ,87383 Sloupce 0, , , ,88493,9095 Chyba 3,5 5 0,5 Celkem 3, V první tabulce jsou uvedeny základní statstcké údaje o datech: Faktor, Počet, Součet, Průměr a Rozptyl. Ve druhé tabulce nazvané ANOVA jsou uvedeny výpočty metodou ANOVA: dva faktory bez opakování, jednotlvé položky mají následující význam: Řádky = mezskupnový Sloupce = vntroskupnový Chyba = mezblokový Celkem = celkový SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnost (DF Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové krtérum Hodnota P = Sgnfkance (p-hodnota) F krt = krtcká hodnota rozdělení F Hodnoty získané řešením v Excelu jsou stejné jako př použtí ručního výpočtu, proto závěry jsou stejné. V Excelu máme navíc vypočtenu p-hodnotu testu (tzv. sgnfkanc), která, pokud je menší než zvolená hladna významnost α, znamená, že nulovou hypotézu zamítáme. V opačném případě nulovou hypotézu přjímáme. * V předchozích úvahách jsme měl stuac právě jednoho výskytu všech kombnací hodnot skupn a bloku obou uvažovaných faktorů. Například každý řdč absolvoval jednou jízdu z každým typem benzínu. Dále budeme uvažovat stuac vícenásobného opakování všech kombnací hodnot skupn a bloku obou uvažovaných faktorů. Například každý řdč absolvuje několk jízd (na- Vícenásobné opakování

31 Jaroslav Ramík, Statstka 3 příklad 3 jízdy vz následující příklad -) s každým typem benzínu, přtom samozřejmě mohou být dosažené hodnoty průměrné spotřeby různé. Zda se tyto výsledky odlšují výrazně č nkolv, se opět zjšťuje statstckým testem. Podrobnou analýzu stuace, která je analogcká analýze případu bez opakování, jž zde uvádět nebudeme. Omezíme se pouze na řešení příkladu s využtím Excelu, konkrétně položky ANOVA: dva faktory s opakováním. ŘEŠENÝ PŘÍKLAD - Podobně jako v příkladu - se zjšťuje průměrná spotřeba benzínu Natural 95 automoblu Octava př použtí benzínu od různých výrobců (Aral, Shell, Benzna, Slovnaft). Bylo vybráno 6 řdčů A, B, C, D, E, F, z nchž každý absolvoval s každým typem benzínu tř zkušební jízdy. Na hladně významnost 0,05 testujte, je-l průměrná spotřeba palva závslá na typu použtého benzínu a na řdč. Údaje jsou uvedeny v následující tabulce. benzn/řdčaral Shell Benzna Slovnaft A 7,5 7,6 7, 7 7,7 7,4 7,6 7,4 8 7,3 8, 7,7 B 6,9 7, 8, 7,3 6,7 7,4 8,5 7,6 6,6 7,6 8,8 7,8 C 7,9 7,5 7,8 7, 8 7,8 7,7 7, 8,3 8, 7,6 7 D 7,3 8 7,6 7,5 7, 8 7,8 7,7 7, 7,9 8 7,8 E 6,9 7,3 7,8 8, 6,8 7, 8 8, 6,7 7 8, 8 F 7,8 8, 6,9 7,7 7,7 8,4 7,5 7,7 7,5 8,5 7,9 7,7 Tab..3. Řdč verus. Benzíny s opakováním Řešení příkladu Data ve worksheetu Excelu vypadají přesně tak jako v Tab..3, jsou umístěny např. v pol A až E9. Dále otevřeme v hlavním menu postupně položky: Nástroje Analýza dat... ANOVA:dva faktory s opakováním Poznámka: Pokud tam položku Analýza dat... nenajdete, je j zapotřebí donstalovat, vz poznámka v předchozím příkladu -. Po volbě druhé položky ANOVA:dva faktory s opakováním, se otevře zadávací okno kde postupně zadáte: Vstupní oblast: $A$:$E$9

32 Jaroslav Ramík, Statstka 3 Řádků na výběr: 3 (tj. počet opakování) Alfa: 0,05 (hladna významnost je předvolena, lze j však změnt) Výstupní oblast: např. $L$ (levý horní roh výstupní oblast) Potvrdíte OK Obdržíte následující výstup, kterého levý horní roh začíná v buňce L nadpsem ANO- VA:dva faktory s opakováním. V první tabulce jsou uvedeny základní statstcké údaje o datech: Faktor, Počet, Součet, Průměr a Rozptyl. Anova: dva faktory s opakováním Faktor Aral Shell Benzna Slovnaft Celkem A Počet Součet 3,,3,9, 90,5 Průměr 7,73 7,43 7,63 7,37 7,54 Rozptyl 0,06 0,0 0,0 0, 0,0 B Počet Součet 0,, 5,4,7 90,5 Průměr 6,73 7,40 8,47 7,57 7,54 Rozptyl 0,0 0,04 0, 0,06 0,46 C Počet Součet 4, 3,4 3,,3 9 Průměr 8,07 7,80 7,70 7,0 7,67 Rozptyl 0,04 0,09 0,0 0,0 0,6 D Počet Součet,6 3,9 3,4 3 9,9 Průměr 7,00 7,967 7,800 7,667 7,658 Rozptyl 0,00 0,003 0,040 0,03 0,03 E Počet Součet 0,4,5 3,9 4,3 90, Průměr 6,80 7,7 7,97 8,0 7,5 Rozptyl 0,0 0,0 0,0 0,0 0,33 F Počet Součet 3 5,,3 3, 93,5 Průměr 7,67 8,37 7,43 7,70 7,79 Rozptyl 0,0 0,0 0,5 0,00 0,9 Celkem Počet Součet 3,6 38,4 4 36,5 Průměr 7,37 7,69 7,83 7,58 Rozptyl 0,8 0,0 0,9 0,3 Ve druhé tabulce nazvané ANOVA jsou uvedeny výpočty metodou ANOVA: dva faktory s opakováním.

33 Jaroslav Ramík, Statstka 33 ANOVA Zdroj varablty SS Rozdíl MS F Hodnota P F krt Výběr 0,69 5 0,4,64 0,03,4 Sloupce,08 3 0,69 3,3 0,00,80 Interakce 0,3 5 0,68,99 0,00,88 Dohromady,5 48 0,05 Celkem 5,53 7 Jednotlvé položky mají následující význam: Výběr = mezskupnový Sloupce = vntroskupnový Interakce = mezblokový Celkem = celkový SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnost (DF Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové krtérum Hodnota P = Sgnfkance (p-hodnota) F krt = krtcká hodnota rozdělení F Hodnoty získané řešením v Excelu jsou analogcké jako v příkladu -, tedy v případě ANOVA bez opakování. Navíc je tu p-hodnota uvedená v řádku Interakce, která se týká testu vzájemné závslost faktorů. Nulová hypotéza předpokládá, že faktoru jsou vzájemně nezávslé. Pokud je tato hodnota menší než zvolená hladna významnost α, znamená to, že nulovou hypotézu zamítáme. V opačném případě nulovou hypotézu přjímáme. * SAMOSTATNÉ ÚKOLY Řešte v Excelu.. Ve čtyřech městech okresu Karvná jsme v jednotlvých dnech sledoval průměrnou spotřebu ptné vody (v m 3 ) na jednoho obyvatele. Zjstěte, zda je průměrná spotřeba vody závslá na dn v týdne, a je-l spotřeba v různých městech různá. Uvažujte hladnu významnost 0,0. Zjštěné údaje jsou uvedeny v tabulce. Karvná Orlová Bohumín Český Těšín Po 0,64 0,75 0,54 0,76 Út 0,78 0,63 0,6 0,83 St 0,93 0,8 0,7 0,9 Čt 0,66 0,6 0,56 0,6 Pá 0,99,3 0,79 0,99 So,,65,3 0,98 Ne,05,3,4,. Výroba součástek může v podnku probíhat na jednom ze čtyř rozdílných strojů. I když každý stroj provádí stejné operace, má svá specfka. U každého stroje pracuje jeden dělník. Na hladně významnost α = 0,0 testujte hypotézu o tom, že počet vyrobených součástek není

34 Jaroslav Ramík, Statstka 34 ovlvněn volbou stroje an dělníkem, který na něm pracuje. Stroj Dělník A B C D SHRNUTÍ KAPITOLY V této kaptole jsme uvažoval stuac kdy se kromě třídění do skupn vyskytují další faktory, říkáme jm bloky, podle nchž výsledky (tj. hodnoty znaku Y) rovněž třídíme. Přehledná stuace vznká, když kromě prvního faktoru uvažujeme ještě faktor druhý, říkáme pak, že je třídíme do bloků a v takovém případě se jedná o dvoufaktorovou ANOVA. Formálně vzato je ANOVA, ať jednofaktorová, dvoufaktorová nebo vícefaktorová, parametrckým testem statstcké hypotézy, s nímž jste se seznáml v základním kurzu statstky. Nejprve jsme měl stuac právě jednoho výskytu všech kombnací hodnot skupn a bloku obou uvažovaných faktorů. Například každý řdč absolvoval jednou jízdu z každým typem benzínu. Poté jsme uvažoval stuac vícenásobného opakování všech kombnací hodnot skupn a bloku obou uvažovaných faktorů. Například každý řdč absolvuje několk jízd s každým typem benzínu, přtom samozřejmě mohou být dosažené hodnoty průměrné spotřeby různé. Zda se tyto výsledky odlšují výrazně č nkolv, se opět zjstlo statstckým testem. K řešení příkladů jsme použl Excel, konkrétně položku Analýza dat.

35 Jaroslav Ramík, Statstka 35 ŘEŠENÍ A ODPOVĚDI..

36 Jaroslav Ramík, Statstka 36 3 REGRESNÍ ANALÝZA JEDNOROZMĚRNÁ: LINEÁRNÍ REGRESE CÍLE KAPITOLY Po úspěšném a aktvním absolvování této KAPITOLY Budete umět: porozumět rozdílu mez regresní analýzou a ANOVA, objasnt význam jednoduché regresní analýzy, vysvětlt podstatu a postup metody nejmenších čtverců, vysvětlt předpoklady klasckého jednoduchého lneárního modelu, objasnt podstatu heteroskedastcty a autokorelace, aplkovat míry těsnost a závslost: koefcenty determnace a korelace. Budete umět Získáte: schopnost dentfkovat a analyzovat problémy, které lze řešt s využtím jednoduché lneární regresní analýzy. Získáte Budete schopn: Řešt konkrétní praktcké úlohy jednoduché lneární regresní analýzy zejména s využtím Excelu. Budete schopn RYCHLÝ NÁHLED DO PROBLEMATIKY KAPITOLY Analýzu rozptylu z první kaptoly je možné chápat jako analýzu závslost kvanttatvního znaku (proměnné) na kvaltatvním znaku - faktoru (proměnné). Naprot tomu závslostí kvanttatvního znaku na kvanttatvním znaku (nebo více kvanttatvních znacích) se zabývá regresní analýza. V případě závslost dvou znaků mluvíme o jednorozměrné regres (případně jednoduché regres), u znaku závslém na více kvanttatvních velčnách hovoříme o vícerozměrné regres (vícenásobné regres). V této kaptole budeme vyšetřovat nejprve nejjednodušší lneární závslost dvou znaků, v další kaptole se budeme zabývat nelneárním závslostm dvou znaků důležtých z hledska ekonomckých aplkací. V následujících kaptolách pak budeme vyšetřovat závslost více než dvou statstckých znaků. Rychlý náhled ČAS POTŘEBNÝ KE STUDIU Čas ke zvládnutí problematky této kaptoly včetně výpočetních dovedností s pomocí Excelu je přblžně 3-4 hodny.

37 Jaroslav Ramík, Statstka 37 KLÍČOVÁ SLOVA KAPITOLY Jednoduchá regresní analýza, metoda nejmenších čtverců, klascký jednoduchý lneární model, heteroskedastcta, autokorelace, koefcent determnace a korelace Klíčová slova PRŮVODCE STUDIEM 3 Nejprve s ozřejmíte základní rozdíl mez ANOVA a regresní analýzou, formulujete model jednoduché lneární regresní analýzy, defnujete a ozřejmíte pojem regresní přímky a regresních koefcentů. Poté bude vysvětlena metoda nejmenších čtverců k nalezení nejlepších hodnot regresních koefcentů v regresním modelu. Míra přléhavost dat k regresní křvce bude stanovena pomocí koefcentu determnace a jeho odmocnny koefcentu korelace. Nakonec se seznámíte s tzv. klasckým jednoduchým regresním modelem, který stanovuje 3 základní podmínky, kterým by měl vyhovovat regresní model vzhledem k exstujícím datům. Vše bude demonstrováno na příkladech, které budou řešeny mmo jné pomocí funkcí Excelu. 3. Regresní analýza Analýzu rozptylu z první kaptoly je možné chápat jako analýzu závslost kvanttatvního znaku (proměnné) na kvaltatvním znaku - faktoru (proměnné). Naprot tomu závslostí kvanttatvního znaku na kvanttatvním znaku (nebo více kvanttatvních znacích) se zabývá regresní analýza. V případě závslost dvou znaků mluvíme o jednorozměrné regres (případně jednoduché regres), u znaku závslém na více kvanttatvních velčnách hovoříme o vícerozměrné regres (vícenásobné regres). V této kaptole budeme vyšetřovat nejprve nejjednodušší lneární závslost dvou znaků, v další kaptole se budeme zabývat nelneárním závslostm dvou znaků důležtých z hledska ekonomckých aplkací. V následujících kaptolách pak budeme vyšetřovat závslost více než dvou statstckých znaků. V regresní analýze studujeme vztah mez jednou proměnnou (hodnotam statstckého znaku) nazývanou závsle proměnnou (někdy vysvětlovanou proměnnou), označujeme j Y, a obecně několka proměnným (hodnotam statstckých znaků), které nazýváme nezávsle proměnné (někdy vysvětlující proměnné), a označujeme je symboly X, X,.... Pokud se zabýváme jednou nezávsle proměnnou X, hovoříme o jednoduché regres, pokud je nezávsle proměnných více než jedna, mluvíme o vícrozněrnéné (vícenásobné) regres (někdy též mnohonásobné regres). V této a následující kaptole se věnujeme jednoduché regres. Regresní analýza Jednoduchá a vícenásobná regrese Proměnné v regresní analýze Závsí-l velčna Y na velčně X, pak to matematcky vyjadřujeme zápsem Y = f(x), (3.) Funkční vztah což je funkční vztah, známý mmo jné z fyzky (například Newtonův gravtační zákon: Y je přtažlvá síla, X je vzdálenost hmotných bodů). V našem případě jsou Y a X statstcké znaky (náhodné velčny), pak hovoříme o statstcké závslost, funkční vztah (.) přejde v regresní vztah (regresní model) y = f(x) + ε, (3.) Regresní vztah kde y, resp. x, představují hodnoty znaku Y, resp. X, ε je náhodná složka, funkc f nazýváme regresní funkce.

38 Jaroslav Ramík, Statstka 38 Jestlže je regresní funkce f lneární, což značí že má tvar regresní přímky Regresní přímka ( x ) =β + x, (3.3) f 0 β potom hovoříme o jednoduché lneární regres, nemá-l regresní funkce lneární tvar, hovoříme o jednoduché nelneární regres. Ve vzorc (3.3) jsou β 0, β parametry regresní funkce, nebol regresní koefcenty. Mez nejpoužívanější nelneární regresní funkce patří: regresní parabola: regresní hyperbola: regresní log. funkce: 0 βx f ( x ) =β +, (3.4) f ( x ) =β 0+ β, (3.5) x f x ) = β + log x. (3.6) regresní mocnnná funkce: f =, (3.7) regresní exponencální funkce: ( 0 β β ( x) β 0 x x f ( x) β 0β =. (3.8) Parametry regresní přímkyregresní koefcenty Nejpoužívanější nelneární regrersní funkce Výše uvedené nelneární regresní funkce lze převést na lneární vhodnou transformací, jak uvdíme v následující kaptole. Kromě výše uvedených příkladů nelneárních regresních funkcí exstuje celá řada dalších významných nelneárních funkcí, např. Törnqustovy funkce, které nelze na lneární funkc jednoduše převést. Budeme se jm zabývat v následující kaptole. 3. Jednoduchá regresní analýza Představte s výběr párových hodnot (y, x ), (y, x ), (y 3, x 3 ),..., (y n, x n ), získaných (např. změřených) na statstckých jednotkách základního souboru. Zde jsou y hodnotam závsle proměnné Y a x jsou hodnotam nezávsle proměnné X. Zmíněné párové hodnoty můžeme získat zejména dvojím způsobem: Dva způsoby získání dat (A) (B) Hodnoty nezávsle proměnné x jsme předem pevně zvoll a k nm jsme změřl příslušné hodnoty y. V této stuac jsou hodnoty znaku X pevné (nenáhodné), zatímco hodnoty znaku Y považujeme za náhodné velčny. Párové hodnoty (y, x ) změříme na n náhodně zvolených jednotkách základního souboru. V této stuac jak hodnoty znaku X, tak hodnoty znaku Y považujeme za náhodné velčny. Výše uvedený datový soubor párových hodnot můžeme geometrcky znázornt v rovně bodovým grafem, kde na vodorovnou osu x nanášíme hodnoty nezávsle proměnné a na svslou osu y příslušné hodnoty závsle proměnné. Výsledkem je geometrcké znázornění n bodů v rovně, z jejchž vzájemné polohy můžeme soudt na regresní závslost znaku Y na X. Úkolem jednoduché lneární regrese je proložt daným body přímku (tj. nalézt lneární regresní funkc), která nejlépe charakterzuje polohu daných n bodů. Z předchozího odstavce víme, že tato regresní funkce má tvar f ( x ) =β 0+ βx, kde β 0, β jsou zatím neznámé hodnoty parametrů regresní Bodový graf

39 Jaroslav Ramík, Statstka 39 přímky. Regresní model (.) má nyní tvar y = β 0+ β x + ε, =,,..., n. (3.9) Odhady b, b 0 těchto neznámých parametrů regresní koefcenty získáme metodou nejmenších čtverců. Této metodě, která patří mez nejdůležtější metody používané ve statstce, bude věnován následující odstavec. Metoda nejmenších čtverců 3.3 Metoda nejmenších čtverců Uvažujte data ve formě párových hodnot bodů: (y, x ), (y, x ), (y 3, x 3 ),..., (y n, x n ). Úkolem jednoduché regrese je nalézt regresní funkc, která nejlépe charakterzuje polohu daných n bodů. Nejprve budeme uvažovat obecný tvar regresní funkce f x; β 0, β ) se dvěma parametry ( β 0, β (nemusí to být nutně regresní přímka). Specálním případy této regresní funkce je lneární funkce (3.3) a také nelneární funkce (3.4) (3.8). Postup metody nejmenších čtverců bude vždy stejný, tj. nezávslý na konkrétním tvaru regresní funkce. Odhady b 0, b neznámých parametrů β 0, β získáme tak, že nalezneme hodnoty b 0, b, pro něž nabývá své mnmální hodnoty rezduální součet čtverců odchylek hodnot závsle proměnné y od teoretcké hodnoty Y = f ( x ; b b ) 0, tj., Data Rezduální součet čtverců n S R = ( y Y ) = ( y f ( x b, b )) = n = 0,. (3.0) Jak je známo z matematcké analýzy, své mnmum funkce S R (zde je to funkce proměnných b 0, b ) vždy nabývá pro ty hodnoty b 0, b, pro něž se anulují její parcální dervace: S R = 0 b, S R = b 0. (3.) 0 Vztahy (3.) představují soustavu rovnc o neznámých b 0, b, která se nazývá soustava normálních rovnc. Jejím řešením získáme hledané odhady regresních parametrů zvolené regresní funkce. Soustava normálních rovnc Vyřešíme nyní soustavu (3.) pro specální případ, který nás zejména zajímá, totž pro lneární regresní funkc f ( x; β 0, β ) = β0+ βx. Dosadíme-l tuto funkc do vztahu (3.0), vypočteme příslušné parcální dervace, které položíme rovny 0, získáme konkrétní soustavu normálních rovnc n = y = b n 0 + b n = x, (3.) n = x y = b n 0 = x + b n = x. Z těchto rovnc jž snadno (v konkrétním případě pro dané hodnoty y, x známou dosazovací metodou ) vypočteme hledané odhady b 0, b takto:

40 Jaroslav Ramík, Statstka 40 n x y nx y = b,. (3.3) = b n 0 = y b x x nx = Z analytcké geometre s přpomeňte, že regresní koefcent b 0 představuje průsečík regresní přímky s osou y, tedy hodnotu Y 0 pro x = 0, tento regresní koefcent se někdy nazývá úrovňová konstanta. Regresní koefcent b vyjadřuje směrnc přímky, tedy sklon přímky k ose x, tj. změnu funkční hodnoty Y př změně nezávsle proměnné x o jednotku. Pro jné než lneární tvary regresní funkce je postup metody nejmenších čtverců obdobný. Výsledkem je rovněž soustava normálních rovnc, tyto rovnce však jž nemusí být lneární a proto soustavu jž obvykle nelze snadno vyřešt. K řešení pak používáme terační numercké metody, které zde nejsou předmětem našeho zájmu. V část Řešené příklady uvedeme způsob nalezení odhadů regresních koefcentů metodou lnearzace exponencální a mocnnné regresní funkce pomocí logartmcké transformace. Úrovňová konstanta Iterační metody Na tomto místě bychom chtěl zvýraznt jeden důležtý fakt, který budeme v následujícím výkladu neustále využívat. Data pro regresní analýzu jsou výsledkem náhodného výběru, ať jž jsme použl př jejch získání postup (A), nebo (B). Proto také výsledek jednoduché lneární regresní analýzy odhady neznámých parametrů β 0, β, tj. regresní koefcenty b, b 0, budou náhodné velčny. Př každém dalším náhodném výběru dat bude výsledek, tj. odhad b, b 0, obecně jný! Má proto význam hovořt dále o statstckých charakterstkách těchto odhadnutých parametrů, jako např. střední hodnota, rozptyl, apod. 3.4 Míra varablty, koefcent determnace Metoda nejmenších čtverců nás nyní přvedla k postupu, který jsme jž použl v předchozí kaptole př analýze rozptylu. V ANOVA se jednalo o rozklad celkové varablty znaku Y, vyjádřené jako celkový součet čtverců, na mezskupnový a vntroskupnový (rezduální) součet čtverců. V analýze rozptylu jsme pracoval se znakem X, který měl kvaltattvní povahu, a proto nebylo možné vyjádřt závslost regresním modelem. V regresní analýze má znak X nezávsle proměnná kvanttatvní povahu, a proto je regresní model závslost Y na X možný. Použjeme analog s ANOVA v tom, že znak X zde bude nabývat hodnot x,x,...,x n a -tá skupna bude nyní charakterzována teoretckou hodnotou Y = f ( x ; b 0, b ), namísto skupnového průměru y v ANOVA. Potom celkovou varabltu vysvětlované proměnné charakterzuje celkový součet čtverců: Srovnání s ANOVA Součty čtverců S y = n ( y y) =. (3.4) Část celkové varablty vysvětlenou regresním modelem charakterzuje teoretcký součet čtverců:

41 Jaroslav Ramík, Statstka 4 S T = n ( Y y) =, (3.5) nevysvětlenou část celkové varablty představuje rezduální součet čtverců (3.0): n S R = ( ) = y Y, (3.6) kde e = y Y nazýváme rezduum. Rezduum Lze dokázat, že mez jednotlvým součty čtverců platí základní vztah: S y = S T + S R. (3.7) Obdobně jako v analýze rozptylu jsme zavedl k vyjádření těsnost vztahu Y a X poměr determnace, nyní zavedeme analogcký pojem charakterzující přléhavost dat k regresnímu modelu. Tímto pojmem je koefcent determnace, který defnujeme vztahem R = S S R y. (3.8) Ze vztahu (3.7) vyplývá, že koefcent determnace nabývá hodnoty z ntervalu [0,] a určuje tu část celkové varablty pozorovaných hodnot S y, kterou lze vysvětlt daným regresním modelem. Jnak řečeno, po vynásobení koefcentu determnace 00 obdržíme, kolk procent celkové varablty je vysvětltelných regresním modelem. Koefcent determnace je proto důležtou charakterstkou vhodnost zvoleného regresního modelu. Vztah (3.8) vznká podílem náhodných velčn, a proto jakožto náhodná velčna je odhadem koefcentu determnace R. Pro malé rozsahy výběru n je odhad (3.8) vychýlený, vz [KvMeB], tj. nadhodnocuje přléhavost k regresnímu modelu. Proto se používá nevychýlený odhad koefcentu determnace R adj (z angl. adjusted), který nazýváme korgovaný (upravený) koefcent determnace: n R adj = ( R ). (3.9) n Pro velké hodnoty n je však zlomek ve vzorc (3.9) blízký k jedné a korgovaný koefcent se blíží k nekorgovanému. Koefcent determnace Korgovaný koefcent determnace 3.5 Klascký lneární model Klasckým jednoduchým lneárním regresním modelem se nazývá regresní model (3.9): y = β 0+ β x + ε, =,,...,n, splňující následující podmínky:. Hodnoty vysvětlující proměnné x se volí předem, vz (A) odstavec 3., nejsou to tedy náhodné velčny. Klascký model 3 podmínky. Náhodné složky ε v modelu (3.9) mají normální rozdělení pravděpodobnost se střední

42 Jaroslav Ramík, Statstka 4 hodnotou 0 a (neznámým) rozptylem σ. Konstantnost rozptylu nazýváme homoskedastcta. Homoskedastcta 3. Náhodné složky jsou nekorelované, tj. Cov(ε, ε j ) = 0 pro každé j,,j =,,...,n. (Cov značí kovaranc, vz [KvMeB]) Podmínky. až 3. požadujeme tehdy, chceme-l zajstt splnění některých dalších vlastností: např. zjstt ntervaly spolehlvost koefcentů regresní funkce, nterval spolehlvost hodnoty regresní funkce, eventuálně chceme-l provádět testy hypotéz o některých prvcích regresního modelu. Těmto tématy se budeme zabývat v následujících odstavcích. Pokud totž tyto podmínky splněny nejsou, nelze zajstt spolehlvé předpověd. V prax jsou podmínky klasckého modelu často splněny, nejsme-l s však jejch platností jst, můžeme provést testy hypotéz jak o normaltě rozdělení náhodné složky (např. test dobré shody, vz např. [KvMeB]), tak testy o nekorelovanost náhodných složek (např. t-test). Další testy uvedeme pozděj v souvslost s časovým řadam. Na Obr. 3. je znázorněna stuace, kdy podmínky klasckého lneárního modelu jsou splněny, na Obr. 3. je zachycena stuace, kdy není splněna an podmínka normalty náhodných složek (na obrázku jsou všechny ε praktcky stejné), an podmínka nekorelovanost (hodnoty y se nacházejí vedle sebe po jedné straně grafu regresní funkce). Splnění podmínek v prax 5 Data a regresní křvka yt t 5 0 Obr. 3.. Podmínky klasckého modelu jsou splněny

43 Jaroslav Ramík, Statstka 43 Obr. 3.. Podmínky klasckého modelu nejsou splněny ŘEŠENÝ PŘÍKLAD 3- Společnost na výrobu bytového textlu zkoumala, jak souvsí zsk z prodeje s výdaj na reklamu. Tab. 3. uvádí údaje obdržené v deset náhodně vybraných frmách. a. Načrtněte bodový graf a určete typ regresní funkce popsující danou závslost. b. Stanovte koefcenty regresní funkce z a. c. Vypočítejte koefcent determnace a zhodnoťte těsnost závslost vyjádřenou regresním modelem z bodu b. Pozorování Výdaje na reklamu (ts. Kč) Zsk z prodeje (0 ts. Kč) Tab. 3.. Výdaje na reklamu Řešení příkladu a. Zkoumá se závslost zsku z prodeje na výdajích na reklamu, proto sestrojíte bodový graf tak, že na osu x nanesete výdaje, na osu y zsk. Z grafu vdíte, že jde o přímou závslost, kterou je možné popsat regresní přímkou

44 Jaroslav Ramík, Statstka 44 Y = β 0 + β x. b. Máte za úkol stanovt hodnoty koefcentů b 0, b, nebol na základě dat z tabulky odhadnout hodnoty parametrů β, β. Využjeme výsledků metody nejmenších čtverců, nebudete však dosazovat přímo do soustavy rovnc (3.), ale použjete vztahy pro b 0, b, tj. (3.3), které je možné z dané soustavy vyjádřt, a to v numercky výhodném a snadno zapamatovatelném tvaru: xy x y 46, 4 5, 8 00, 9 b = = = = , x x b = y b x = 5, 8, 97 4= , Výpočty potřebných hodnot pomocí kalkulačky jsou uvedeny v následující tabulce. x y x x y Y ( Y y) ( y y) ,04 565, 43, ,98 38, 36, ,95,5 8, ,95,5 90, ,86 35,6 3, ,77 8,6 0, ,74 34,84 38, ,6 35,88 04, ,56 56,08 635, ,53 7,60 0,4 Součet ,3 35,6 Průměr 4 5, , Lneární regrese y =,9676x - 5,747 R = 0,958 Zsk z prodeje (0 ts. Kč) Lneární (Zsk z prodeje (0 ts. Kč)) Obr Graf regresní přímky Hledaná regresní přímka má tvar: Y = 5, 75+, 97x.

45 Jaroslav Ramík, Statstka 45 c. K tomu, abychom vypočítal determnační koefcent, musíme znát hodnotu součtu S T a součtu S y. Tyto součty vypočítáme podle vztahů (3.4), (3.5). Pro výpočet teoretckého součtu musíme pro každé x, =,,0, znát teoretckou hodnotu Y, =,,0: Y = 5, 75+, 97 x = 5, 78+, 97 6=, 04. Tato hodnota udává, jaký by měl být zsk př výdajích x = 6. Protože však jde o stochastckou závslost mez společenským velčnam, může se tato hodnota lšt od skutečně zjštěné hodnoty y = 5. Všechny teoretcké hodnoty Y hodnoty součtů S y a S T jsou uvedeny v tabulce. Koefcent determnace vypočítáme dosazením součtů S y, S T do vztahu (3.8). R S = S T y 994, 3 = = 0, , 6 Tato hodnota znamená, že pomocí regresní přímky 95,8% chování proměnné Y. Y = 5, 78+, 97x je vysvětleno Nakonec ještě ukážeme řešení pomocí Excelu. Využjeme přtom graf funkce s funkcí Přdat spojnc trendu... V dalším řešeném přkladu s pak ukážeme ještě další možnost řešení úlohy jednoduché ( vícenásobné) regrese s využtím menu: Nástroje Analýza dat... Regrese. Data jsou uspořádána ve worksheetu ve sloupcích: A B Výdaje na reklamu (ts. Kč) Zsk z prodeje (0 ts. Kč) Po volbě položky Vložt graf XY bodový..., se otevře zadávací okno kde zadáte: Oblast dat: $A$:$B$ Sloupce: (zaklknout) Potvrdíte OK Obdržíte bodový graf, vz Obr (ještě bez regresní přímky). Poklepem pravým tlačítkem myš na některý z bodů grafu obdržíte nabídku menu, kde zvolíte: Přdat spojnc trendu Typ trendu regrese: zvolíte Lneární Dále otevřete záložku Možnost, kde zaklknete: Zobrazt rovnc regrese (rovnce regresní přímky) a

46 Jaroslav Ramík, Statstka 46 Zobrazt hodnotu spolehlvost R (hodnotu koefcentu determnace R ). Potvrdíte OK. Obdržíte výsledek téměř takový, jaký je na Obr K původním bodům se zobrazí regresní přímka, dále rovnce regresní přímky a hodnotu koefcentu determnace R. V následujícím řešeném příkladu s ukážeme použtí lneární regrese k predkc hodnoty závsle proměnné. * ŘEŠENÝ PŘÍKLAD 3- Společnost Ar - Ostrava, zajšťující lety na trase Ostrava - Praha, sleduje př plánování letů také na hmotnost užtečného zatížení letadla, jehož významnou část tvoří pasažéř a jejch zavazadla. Zjstlo se, že hmotnost zavazadel cestujících souvsí s dobou, na kterou odcestoval. a. Najděte rovnc regresní přímky popsující danou závslost. b. S jakou hmotností zavazadel lze počítat, bude-l na palubě 5 cestujících vracejících se za dny, 7 cestujících vracejících se za 5 dnů, 5 cestujících vracejících se za 6 dnů a cestující vracející se za 4 dní. Výsledky průzkumu jsou zaznamenány v tabulce. Prezentujeme zde pouze ruční výpočet řešení (s kalkulačkou), řešení pomocí Excelu s využtím funkce Přdat spojnc trendu v bodovém grafu ponecháváme na čtenář. Řešení příkladu Pozorování Dny Hmotnost a. K výpočtu regresních koefcentů b 0, b použjeme opět vztahů (3.3):

47 Jaroslav Ramík, Statstka 47 x y x y 34, 4 8, 8, 8 b = = = 99 96, 73 8,,, x x b = y b x= 8, 8, 99 8, = , Regresní přímka má tedy tvar Y = 4, 7+, 99x. x y x y x Součet Průměr 8, 8,8 34,4 96,73 b. Vypočítáme hodnotu Y pro x = : Y ( ) = 4, 7+, 99 = 0, 5, x = 5: Y ( 5 ) = 4, 7+, 99 5= 9,, x = 6: Y ( 6 ) = 4, 7+, 99 6=,, x =4: Y ( 4 ) = 4, 7+, 99 4= 46, 3. Potom hmotnost zavazadel m, se kterou lze počítat, snadno zjstíte, uvážíte-l počty příslušných cestujících: m = 5 Y( ) + 7 Y( 5 ) + 5 Y( 6 ) + Y( 4 ) = 53, , 54+, , = 445, 47 SHRNUTÍ KAPITOLY * Jednoduchá regresní analýza se zabývá závslostí kvanttatvního znaku Y, označovaného jako závslá nebo vysvětlovaná proměnná, na kvanttatvním znaku X, pokládaném za nezávsle nebo vysvětlující proměnnou. V našem případě jsou Y a X statstcké znaky, pak hovoříme o statstcké závslost, kterou vyjadřuje regresní vztah (regresní model): y = f(x) + ε, kde y, resp. x, představují hodnoty znaku Y, resp. X, ε je náhodná chyba, funkc f nazýváme regresní funkce. Jestlže je regresní funkce f lneární, což značí že má tvar regresní přímky: ( x ) =β + x, f 0 β

48 Jaroslav Ramík, Statstka 48 potom hovoříme o jednoduché lneární regres, nemá-l regresní funkce lneární tvar, hovoříme o jednoduché nelneární regres. Pro data ve formě párových hodnot bodů: (y, x ), (y, x ), (y 3, x 3 ),..., (y n, x n ) je úkolem jednoduché regrese nalézt regresní funkc, která nejlépe vysthuje polohu daných bodů, tj. nalézt odhady neznámých parametrů regresní funkce (specálně přímky). Odhady b, b 0 neznámých parametrů β 0, β získáme metodou nejmenších čtverců tak, že nalezneme hodnoty b, b 0, pro které nabývá své mnmální hodnoty rezduální součet čtverců odchylek hodnot závsle proměnné od teoretcké hodnoty. Data pro regresní analýzu jsou obvykle výsledkem náhodného výběru, proto také výsledek jednoduché lneární regresní analýzy odhady neznámých parametrů β 0, β, tj. regresní koefcenty b, b 0, budou náhodné velčny. Př každém dalším náhodném výběru dat bude výsledek, tj. odhad b, b 0, obecně jný. Má proto smysl hovořt o statstckých charakterstkách těchto odhadnutých parametrů, jako např. střední hodnota, rozptyl, apod. Dále jsme zavedl pojem charakterzující přléhavost dat k regresnímu modelu - koefcent determnace, který nabývá hodnoty z ntervalu [0,] a určuje tu část celkové varablty pozorovaných hodnot, kterou lze vysvětlt daným regresním modelem. Po vynásobení koefcentu determnace stem obdržíme, kolk procent celkové varablty je vysvětltelných regresním modelem. SAMOSTATNÉ ÚKOLY 3 Řešte ručním výpočtem a zkontrolujte výsledky řešením v Excelu. 3. Personální ředtel frmy shromáždl údaje o věku (X) a době pracovní neschopnost (Y) dvacet náhodně vybraných stálých zaměstnanců. Zjštěné údaje jsou zaznamenány v tabulce. X Y X Y Načrtněte bodový graf a najděte rovnc regresní funkce vyjadřující danou závslost. Zhodnoťte výstžnost (přléhavost) regresní funkce vzhledem k datům. 3. Bylo sledováno, jak souvsí množství vadných výrobků (v % z vyrobených výrobků) s výkonem soustružníka (v % z předepsané normy). Bylo vybráno deset pracovníků, naměřené údaje jsou uvedeny v tabulce. Výkon Vadné výrobky 5, 3,9 3,5,4,04,,4,4,5

49 Jaroslav Ramík, Statstka 49 Stanovte regresní model a určete přléhavost regresní přímky k datům. Tabulka zachycuje stáří (v letech) osm vybraných strojů v potravnářském závodě a týdenní náklady (v Kč) na provoz těchto strojů. Stáří stroje Náklady a. Odhadněte parametry lneární regresní funkce, která by měla vysthovat průběh závslost nákladů na stáří. b. Jaké týdenní náklady můžeme očekávat u stroje starého 4 roky? c. Určete koefcent determnace R a nterpretujte jej.

50 Jaroslav Ramík, Statstka 50 ŘEŠENÍ A ODPOVĚDI

51 Jaroslav Ramík, Statstka 5 4 REGRESNÍ ANALÝZA JEDNOROZMĚRNÁ: INTERVALY SPOLEHLIVOSTI TESTY HYPOTÉZ, NELINEÁRNÍ REGRESE CÍLE KAPITOLY Po úspěšném a aktvním absolvování této KAPITOLY Budete umět: stanovt ntervaly spolehlvost regresních koefcentů, určt, zda jsou regresní koefcenty statstcky významné nebo nevýznamné, objasnt, zda je koefcent determnace (korelace) statstcky významný, transformovat některé důležté nelneární regresní modely na modely lneární, aplkovat nelneární regresní model na typcké případy z ekonomcké oblast, použít k řešení nelneárních regresních modelů Excel. Budete umět Získáte: schopnost dentfkovat a analyzovat problémy, které lze řešt s využtím jednoduché nelneární regresní analýzy. Získáte Budete schopn: Řešt konkrétní praktcké úlohy jednoduché nelneární regresní analýzy zejména s využtím Excelu.. Budete schopn RYCHLÝ NÁHLED DO PROBLEMATIKY KAPITOLY Tato kaptola vám rozšíří znalost v jednorozměrné regresní analýze. Za předpokladů jednorozměrného klasckého regresního modelu se budete zabývat stanovením ntervalů spolehlvost a dále testy hypotéz regresních koefcentů a testem nulovost koefcentu determnace. Další odstavce se zabývají jednorozměrnou nelneární regresí. Nejprve budou vyšetřovány regresní funkce, které lze s pomocí vhodné transformace převést na funkce lneární dále parabolcká regresní funkce a nakonec nelneární regresní funkce tzv. Tornquustova typu. Pro výpočet parametrů těchto funkcí se používá metoda vybraných bodů s pomocí Excelu. Rychlý náhled ČAS POTŘEBNÝ KE STUDIU Čas ke zvládnutí problematky této kaptoly včetně výpočetních dovedností s pomocí Excelu je přblžně 3-4 hodny. KLÍČOVÁ SLOVA KAPITOLY Jednoduchá regresní analýza, nterval spolehlvost regresního koefcentu, test hypotézy nulo- Klíčová slova

52 Jaroslav Ramík, Statstka 5 vost regresního koefcentu, klascký jednoduchý nelneární model, lnearzovatelné regresní funkce, parabolcká regrese, Törnqustovy funkce, metoda vybraných bodů PRŮVODCE STUDIEM 4 V této kaptole s rozšíříte znalost v jednorozměrné regresní analýze. V návaznost na jednorozměrný klascký regresní model se budete zabývat ntervaly spolehlvost a testy hypotéz regresních koefcentů a také testem koefcentu determnace. Poté se začnete zabývat jednorozměrnou nelneární regresí. Nejprve budou vyšetřovány ty regresní funkce, které lze s pomocí vhodné transformace převést na funkce lneární. Následuje parabolcká regresní funkce a nakonec nelneární funkce tzv. Törnquustova typu. Pro výpočet parametrů těchto funkcí, jež mají uplatnění především v marketngu, poznáte novu metodu tzv. metodu vybraných bodů, která zde nahradí známou metodu nejmenších čtverců s využtím Excelu. 4. Intervaly spolehlvost Jsou-l splněny předpoklady klasckého lneárního modelu (3.9), tj. modelu y = β 0+ β x + ε, =,,...,n, potom pro rozdělení odhadů regresních koefcentů b 0, b jakožto náhodných velčn platí toto: Regresní koefcent b j má normální rozdělení pravděpodobnost se střední hodnotou β j a rozptylem σ h j, kde j = 0 nebo, čísla h j jsou defnována následujícím vztahy: x x ( x) h 0 =, (4.) n n h =. (4.) n x ( x ) V klasckém lneárním modelu předpokládáme, že náhodné složky mají konstantní rozptyl σ, jeho hodnotu však neznáme. Neznámý rozptyl σ můžeme nahradt jeho bodovým odhadem S R sr =, (4.3) n který nazýváme rezduální rozptyl. Jak je vdět, v rezduálním rozptylu vystupuje v čtatel rezduální součet čtverců (3.6) dělený číslem n-, což je počet stupňů volnost, tj. rozsah dat n mínus počet regresních parametrů v modelu:. Odmocnnu rezduálního rozptylu s R nazýváme směrodatná chyba. Oboustranný nterval spolehlvost pro regresní koefcent b j, př zadaném koefcentu spolehlvost ( - α), je následující nterval: [b j t -α/ (n-) s R h j, b j + t -α/ (n-) s R hj ], j = 0 nebo. (4.4) Klascký lneární regresní model Rozptyly regresních koefcentů Rozptyl náhodné složky Rezduální rozptyl Směrodatná chyba Intervaly spolehlvost b j Přpomínáme, že zde t -α/ (n-) je příslušný kvantl Studentova t-rozdělení, podrobnost vz [KvMeB], h j jsou dány vztahy (4.), (4.). Bodový odhad regresních koefcentů b j neříká nc o eventuální varabltě tohoto koefcentu. Tuto nformac doplňuje směrodatná chyba (4.3) a zejména nterval spolehlvost (4.4), který nformuje, v jakém rozmezí se regresní koefcent může pohybovat v rámc zadané spolehlvost.

53 Jaroslav Ramík, Statstka 53 Odhadnutý lneární regresní model (3.), který má tvar y = b 0 + b x + e, (4.5) resp. regresní funkce Y = b 0 + b x, (4.6) má praktcký význam zejména př odhadu chování modelu v případě, že nezávsle proměnná nabývá nějakou v datech se nevyskytující hodnotu, označme j např. x 0. Model (4.5), resp. regresní funkce (4.6), pak slouží k předpověd (predkc, prognóze, extrapolac) hodnoty závsle proměnné. Bodový odhad předpověd získáme dosazením x 0 do (4.r), resp. (4.6), neboť predkovaná hodnota chyby (rezdua) e je 0, tedy Y 0 = b 0 + b x 0. (4.7) Informac o tom, v jakém rozmezí se predkovaná hodnota závsle proměnné y může pohybovat, poskytne oboustranný nterval spolehlvost: [Y 0 t -α/ (n-) s R H, Y 0 + t -α/ (n-) s R H ], (4.8) ( nx ) 0 x x ( ) x kde H = + +. Ostatní symboly v (4.8) mají stejný význam, jako n n v ntervalu (4.4). 4. Testy hypotéz j Metodou nejmenších čtverců lze zjstt, zda regresní koefcenty b j jsou nenulová čísla, musíme mít však stále na pamět, že se jedná o realzace náhodných velčn, a tudíž má smysl testovat, zda naše původní parametry β jsou přesto nulové. Za předpokladů klasckého lneárního modelu je možno testovat nulovou hypotézu: H 0 : β = 0, j = 0 nebo (4.9) j prot oboustranné alternatvní hypotéze H : β 0, j = 0 nebo. (4.0) j Př tomto testu použjeme testové krtérum b j T =, (4.) S R h j n které má př platnost H 0 t-rozdělení s n- stupn volnost, S R je rezduální součet čtverců, h j je dáno vztahy (4.), (4.), přčemž j = 0 nebo. Nulová hypotéza Testové krtérum Na hladně významnost α (vz [KvMeB]) je krtcký obor vymezen nerovností T > t α ( n ), / kde t α / ( n ) je příslušný kvantl Studentova t-rozdělení, který lze nalézt v tabulkách, nebo v Excelu pomocí funkce TINV. Přjmete-l např. na dané hladně významnost α nulovou hypotézu H 0 : β = 0, pak to znamená, že y nezávsí na x, jnak řečeno, pro lbovolnou hodnotu nezávsle proměnné x nabývá závsle proměnná y neustále stejné hodnoty β 0. Vypočítaná hodnota koefcentu determnace je praktcky vždy kladná. Musíme však mít stále na pamět, že u hodnot vstupujících do výpočtu koefcentu determnace se jedná o realzace náhodných velčn, a tudíž má smysl testovat, zda teoretcký koefcent determnace R není přesto

54 Jaroslav Ramík, Statstka 54 nulový. Za předpokladů klasckého lneárního modelu je možno testovat nulovou hypotézu: H 0 : R = 0, prot oboustranné alternatvní hypotéze H : R 0. Př tomto testu použjeme testové krtérum R ( n ) T =, (4.*) R které má př platnost H 0 t-rozdělení s n- stupn volnost, R je vypočítaný koefcent determnace. Test nulovost koefcentu determnace Na hladně významnost α (vz [KvMeB]) je krtcký obor vymezen nerovností T > t α ( n ), kde t α ( n ) je příslušný kvantl Studentova t-rozdělení, který lze nalézt v tabulkách, nebo v Excelu pomocí funkce TINV. 4.3 Nelneární regresní analýza V tomto odstavc s povšmneme jednoduchého regresního modelu s nelneární regresní funkcí, který se však dá pouhou substtucí na lneární model převést. Konkrétně se jedná o dvě regresní funkce zmíněné jž v kaptole 3: Nelneeární regresní funkce regresní mocnnná funkce: f ( x ) = β x, (4.) regresní exponencální funkce: β 0 x f x ) =β 0 β (. (4.3) Regresní model s regresní funkcí (4.) má tvar: y = β β 0 x +ε, (4.4) avšak namísto něj uvažujeme model, jež vznkne logartmováním (4.), kde položíme y= f ( x ), tj. ln y= lnβ 0 + β ln x+ ε, přtom ln označuje přrozený logartmus o základu e =,78... Jestlže nyní položíte substtuce y = ln y, x = ln x, (4.5) β0 = lnβ 0, β = β, (4.6) pro transformac (4.5) původních dat y, x, obdržíte čárkovaný jednoduchý lneární regresní model y = β 0 + β x + ε, (4.7) jehož parametry β 0, β (regresní koefcenty) lze odhadnout metodou nejmenších čtverců aplkovanou na lneární model (4.7), a obdržíte tak jejch odhady b 0, b. Z použtím vztahů (4.5) a (4.6) dostanete nazpět odhady b 0, b původního nelneárního regresního modelu (4.): b0 b = e, b = b. 0 Analogckým postupem lze lnearzovat jednoduchý nelneární regresní model s exponencální regresní funkcí (4.3), která je v ekonom známa jako Cobb-Douglasova jednofaktorová produkční funkce: x y=β 0 β + ε, (4.8) který substtucem y = ln y, x = x, (4.9) β0 = lnβ 0, β = lnβ, (4.0) Substtuce Produkční funkce

55 Jaroslav Ramík, Statstka 55 lze rovněž transformovat na čárkovaný lneární model (4.7), jehož parametry β 0, β odhadneme metodou nejmenších čtverců, a obdržíme tak jejch odhady b 0, b. Z použtím vztahů (4.0) vypočteme nazpět odhady b 0, b původního nelneárního regresního modelu (4.8): b0 b b0 = e, b = e. (4.) Je však třeba upozornt, že na ntervalové odhady, resp. testy hypotéz, regresních koefcentů b 0, b lze použít postup z počátku této kaptoly pouze tehdy, když transformovaná, tj. čárkovaná data y, x, splňují podmínky klasckého regresního modelu z kaptoly 3. Meze ntervalových odhadů, tedy krajní body ntervalů spolehlvost pak vypočítáme s použtím zpětných transformací (4.). Dalším užtečným nelneárním regresním funkcem s uplatněním především v marketngu a výzkumu trhu (logstcké funkce, Gompertzovy funkce, aj.) se budete zabývat v kaptole věnované analýze časových řad. Tam se budete zabývat problémem výběru vhodného typu regresní funkce. V následujících odstavcích se ještě věnujeme známé parabolcké regresní funkc a dále Törnqustovým funkcím, které nelze převést jednoduše na lneární tvar, jak tomu bylo v tomto odstavc. 4.4 Parabolcká regrese V kaptole 3.. jsme označl parabolckou regresní funkc (3.4) za regresní funkc, kterou lze substtucí x = x převést na lneární tvar. V tomto případě se však jednalo pouze o specální tvar paraboly (s vrcholem na ose y) se dvěma parametry. Obecný tvar paraboly však má parametry tř a vypadá takto: f ( x ) = β 0+ βx+ βx. (4.) Jednoduchý regresní model s parabolckou regresní funkcí pak má tvar y = β 0+ βx+ βx + ε. (4.3) Máme-l tedy k dspozc data, tj, dvojce hodnot (y, x ), (y, x ), (y 3, x 3 ),..., (y n, x n ), pak lze odhady b 0, b, b regresních parametrů β 0, β, β získat metodou nejmenších čtverců, přčemž je zapotřebí řešt soustavu 3 normálních rovnc o 3 neznámých: Parabola = nb0+ b x+ b x x = b0 x + b x + b x + 3 x = b0 x b x + b y, (4.4) y, 3 4 y x. Uvědomte s, že neznámé jsou v této soustavě rovnc b 0, b, b, zatímco y, x jsou známé hodnoty, které se dosadí do sum v soustavě (4.4). Tuto soustavu 3 lneárních rovnc o 3 neznámých je snadné vyřešt např. známou Gaussovou elmnační metodou. Číselný příklad uvedeme v následující část věnované řešeným příkladům. 4.5 Törnqustovy funkce Zejména v marketngu se využívají Törnqustovy regresní funkce (též Törnqustovy křvky), což jsou regresní funkce s více parametry, které podle použtí rozdělujeme na tř typy: Törnqustovy křvky I. typu vyjadřují závslost poptávky po spotřebním zboží f ( x ) na výš příjmů x ekonomckých subjektů (např. rodn). Tyto křvky mají tvar: β0x f ( x ) =. (4.5) x + β Törnqustovy regresní funkce I. typu

56 Jaroslav Ramík, Statstka 56 Křvky tohoto typu se používají například př plánování a prognózování ve spotřebním průmyslu. Regresní funkce (4.5) slouží k modelování poptávky po zboží nezbytného charakteru (mléko, pečvo, obuv, apod.). Př modelování poptávky po zboží relatvně nezbytného charakteru (elektrospotřebče, maso a uzenny, apod.) se používají Törnqustovy křvky II. typu, které mají tvar: β0( x β ) f ( x ) =. (4.6) x+ β Törnqustovy křvky III. typu se používají př modelování poptávky po zboží zbytného charakteru (auta, šperky, umělecká díla, apod.). Tyto regresní funkce se třem parametry mají tvar: β0x( x β ) f ( x ) =. (4.7) x+ β Odhady regresních parametrů funkcí (4.5) - (4.7) lze získat opět metodou nejmenších čtverců, avšak s použtím PC a Excelu, neboť soustava 3 normálních rovnc o 3 neznámých je nelneární, a proto se k řešení používají terační numercké metody. Pro ruční výpočet můžeme alternatvně využít metodu vybraných bodů. II. typu III. typu Metoda vybraných bodů Tornqustova křvka I. typu f(x) 0,8 0,6 0,4 0, x Obr. 4.. Törnqustova křvka I. typu, β = β = β 0 = Tornqustova křvka II. typu f(x) 0,8 0,6 0,4 0, x Obr. 4.. Törnqustova křvka II. typu, β = β = β 0 =

57 Jaroslav Ramík, Statstka 57 Tornqustova křvka III. typu f(x) 0,8 0,6 0,4 0, x Obr Törnqustova křvka III. typu, β = β =, β 80 0 = 4.6 Metoda vybraných bodů Ukážeme s zde jnou metodu výpočtu neznámých parametrů, která sce nevede z teoretckého pohledu k nejlepším odhadům, avšak její výhoda spočívá ve výpočetní nenáročnost umožňující ruční výpočet. Tato metoda se nazývá metoda vybraných bodů a spočívá v tom, že z daných údajů (Y, x ) vybereme 3 charakterstcké hodnoty - body, kterým necháme Törnqustovu křvku procházet, jným slovy, položíme emprcké hodnoty rovny hodnotám teoretckým. Jestlže charakterstcké hodnoty poptávky Y, Y, Y3 odpovídají hodnotám výše příjmů x, x, x3, pak ze vztahu (4.6) obdržíte soustavu 3 rovnc o 3 neznámých b 0, b, b : b0( x b ) b0( x b ) b0( x3 b ) Y =, Y =, Y3 =, (4.8) x + b x+ b x3+ b jejchž řešením např. postupným dosazováním získáme odhady neznámých parametrů b, b, b. 0 ŘEŠENÝ PŘÍKLAD 4- Data v tabulce představují ceny brožovaných knh a k nm příslušné počty jejch stran. a. Určete lneární regresní model popsující závslost ceny knh na počtu stran. b. Určete nterval, ve kterém bude s pravděpodobností 95% ležet regresní koefcent b. c. Na hladně významnost 5% testujte, zda je regresní koefcent b statstcky významný. d. Vypočtěte koefcent determnace a na hladně významnost 5% testujte, zda je statstcky významný. e. V jakém rozmezí se bude pohybovat cena knhy s 50 stranam? Uvažujte hladnu významnost 0,0.

58 Jaroslav Ramík, Statstka 58 Měření Počet stran Cena knhy Řešení příkladu a. Koefcenty regresní přímky Y = b 0 + b x určíte pomocí vztahů (3.3): x y x y 035, 7 8, 9 94, 7 436, 73 b = = = = , 57 8, , 5, x x b 0 = y b x = 94, 7 0, 7 8, 9= 37, 8. Hledaná regresní přímka má tvar Y = 37,8 + 0,7x. b. Úkolem je najít 95% oboustranný nterval spolehlvost pro koefcent b. Obecný tvar tohoto ntervalu je následující (vz (4.4)): [b t -α/ (n-) s R h, b + t -α/ (n-) s R h ], S R kde s R je odmocnna z rezduálního rozptylu sr =, h je defnováno vztahem (4.). n x y x x y Y ( y Y ) ( y y) ,8 39,48 993, ,3 5,54 998, ,4,99 60, ,8 0,58 7, ,8 6,86 54, ,8,4 704, ,0 3,96 7,98 Součet , ,43 Průměr 8,9 94,7 003,57 035,7 Nejprve se vypočítá rezduální součet čtverců S R (v tabulce výpočtů je to hodnota v předposledním sloupc dole): 7 R = = S ( y Y ) = 56, 83. Teoretcké hodnoty Y obdržíme postupným dosazováním hodnot x do rovnce regresní přímky. Hodnoty Y, jednotlví sčítanc součet S R jsou u veden v tabulce. Nyní můžeme vypočítat hodnotu rezduálního rozptylu s R. 56, 83 s R = = 303, 37. Potom R = R 7 s s = 303, 37 = 7, 4. Dále stanovíme hodnotu h. n h n x x = ( ) 7 = = 734 = 0, V tabulkách Studentova rozdělení nalezneme ( α/) = 97,5% kvantl t-rozdělení o n = 7 = 5 stupních volnost, tj. t 0, 975( 5 ) =, 57. Dosazením výše vypočítaných hodnot do vztahu pro nterval spolehlvost určíme jeho pra-

59 Jaroslav Ramík, Statstka 59 vou a levou stranu: L = 0, 7, 57 7, 4 0, = 0, 4. P = 0, 7+, 57 7, 4 0, = 0, 98. Regresní koefcent b bude s 95%-ní pravděpodobností ležet v ntervalu [0,4; 0,98]. c. Ačkolv hodnota koefcentu b = 0,7, nesmíte zapomínat na to, že pracujete s náhodným výběrem a že teoretcká hodnota parametru β přesto může být nulová. Bude se proto testovat nulová hypotéza H 0 : β = 0 prot oboustranné alternatvní hypotéze H : β 0. K ověření nulové hypotézy vypočítáme hodnotu testového krtéra (4.) b 0, 7 0, 7 T =. = = = 6, 35. S R n h 56, 8 0, 0, V tabulkách t-rozdělení nalezneme t 0,975 (5) =,57. Protože 6,35 >,57, zamítáme nulovou hypotézu ve prospěch hypotézy alternatvní, což znamená, že na zvolené hladně významnost je parametr β nenulový a tedy statstcky významný. d. Koefcent determnace R S R 56, 83 vypočítáme podle vztahu R = = = 0, 89. S 3405, 43 Testové krtérum stanovíte podle vztahu (4.*) R ( n ) 0, T = = = 6, 35. R 0, 89 Protože 6,35 >,57, zamítá se nulová hypotéza ve prospěch hypotézy alternatvní, což znamená, že na zvolené hladně významnost je koefcent determnace R nenulový a tedy statstcky významný. e. Máte stanovt 99% nterval spolehlvost pro predkovanou hodnotu Y, je-l x 0 = 50. Podle (4.8) je tvar tohoto ntervalu [Y 0 t -α/ (n-) s R H, Y 0 + t -α/ (n-) s R H ], kde Y 0 = b 0 + b x = 37,8 + 0,7 50 =,8, t -α/ (n ) = 4,03, s R = 7,4, ( ) ( ) = nx 0 x H + + = + + = + + = n ( ) n x x = + 94, =, 3. 7 Potom meze hledaného ntervalu jsou: L =, 8 4, 03 7, 4, 3= 06, 06. P =, 8+ 4, 03 7, 4, 3= 39, 56. Cena knhy se bude s 99%-ní pravděpodobností pohybovat v ntervalu [06,06;39,56]. Nakonec s ukážeme řešení pomocí Excelu. Na tomto místě to bude další možnost řešení úlohy jednoduché ( vícenásobné) regrese s využtím menu: Nástroje Analýza dat... Regrese. Data jsou uspořádána ve worksheetu ve sloupcích: y

60 Jaroslav Ramík, Statstka 60 Otevře se okno regrese, které vyplníte takto: A B C Počet stran Cena knhy Po potvrzení OK obdržíte: VÝSLEDEK Regresní statstka Násobné R 0,94 Hodnota spolehlvost R 0,887 Nastavená hodnota spolehlvost R 0,864 Chyba stř. hodnoty 7,46 Pozorování 7 ANOVA Rozdíl SS MS F Významnost F Regrese 888,84 888,84 39,9608 0,0055 Rezdua 5 56, ,37 Celkem ,43 Koefcenty Chyba stř. hodnotyt stat Hodnota P Dolní 95% Horní 95% Dolní 99,0% Horní 99,0% Hrance 38,059,90 3,40 0,09 9,94 66,85-7,06 83,80 Počet stran 0,697 0,37 6,6 0,00 0,4 0,983 0,48,46 V první část výstupu jsou popsky s nepřesným překlady do češtny, uvádíme proto jejch správné významy: Násobné R = R - koefcent korelace Hodnota spolehlvost R = R - koefcent determnace Nastavená hodnota spolehlvost R = R adj - upravený koefcent determnace Chyba stř. hodnoty = s - směrodatná chyba (odhad směrodatné odchylky náhod. složky) V této část výstupu je důležtá druhá hodnota koefcent determnace R = 0,887, který odpovídá ručně získanému výsledku z část d. Druhá tabulka ve výstupu ANOVA není v pravém slova smyslu metoda ANOVA, jak jsme se jí zabýval v kaptolách a, jde tu o analog využívající podobnost vztahů (.5) a (3.7). Analogcky jako v metodě ANOVA je zde výsledek F-testu statstcké významnost celého regresního modelu: Významnost F = 0,0055. Tato hodnota je menší než 0,05 a proto je celý regresní model statstcky významný.

61 Jaroslav Ramík, Statstka 6 Ve třetí poslední tabulce jsou uvedeny relevantní nformace k vypočítanému regresnímu modelu. Nejprve jsou uvedeny odhady regresních koefcentů: Hrance = úrovňová konstanta = b 0 Počet stran = sklon regresní přímky = koefcent u nezávsle proměnné počet stran = b Ve sloupc Hodnota P jsou uvedeny p-hodnoty (sgnfkance) testů nulovost příslušných regresních koefcentů: Pro regresní koefcent b 0 je tato hodnota 0,09 < 0,05 - b 0 je statstcky významný tj. β 0 0. Pro regresní koefcent b je tato hodnota 0,00 < 0,05 b je statstcky významný tj. β 0. Intervaly spolehlvost regresních koefcentů jsou uvedeny ve sloupcích: Dolní 95%, Horní 95%, resp. Dolní 99,0%, Horní 99,0%. Konkrétně, 95%-ní nterval spolehlvost koefcentu β je [0,4 ; 0,983], což je stejný výsledek, jaký jsme obdržel předtím ručním výpočtem. * ŘEŠENÝ PŘÍKLAD 4- Př sledování závslost vlastních nákladů na skladování zahrnující ztráty způsobené zastavením výroby z nedostatku součástek (Y) na velkost dodávek (X) v 8 obuvnckých závodech jsme obdržel následující údaje - vz. tabulka. a. Nalezněte regresní funkc popsující závslost Y na X a určete její rovnc. b. Stanovte optmální velkost dodávky. Podnk Dodávka Náklady Řešení příkladu Jak z průběhu bodového dagramu, tak rozboru emprckých údajů plyne, že závslost mez velkostí dodávek a náklady na skladování dobře vysthuje parabolcká regresní funkce f(x) = β 0 +β x +β x. Náklady na skladování mají zpočátku klesající tendenc- malá dodávka způsobuje vysoké náklady na převzetí přpadající na jednu součástku a způsobuje výpadky ve výrobě. Tuto tendenc pozděj vystřídá vzestup přílš velká dodávka zvyšuje stav zásob, prodlužuje skladovací dobu a vyvolává nutnost úvěrového krytí vz Obr. 4.4.

62 Jaroslav Ramík, Statstka Regresní parabola y = 0,07x -,8479x + 7,7 R = 0, Obr Parabolcká regrese Náklady Polynomcký (Náklady) Odhady hodnot parametrů parabolcké regrese obdržíme řešením soustavy normálních rovnc y = nb0 + b x + b x yx = b0 x + b x + 3 y x = b0 x + b x + b b x 3 x Dosazením hodnot ze součtového řádku tabulky do těchto rovnc dostaneme: 806= 8b b b 468= 966b b b 3308= 55534b b b. Řešením této soustavy rovnc (např. Cramerovým pravdlem) získáme regresní koefcenty b 0 = 7,7; b = -,8479; b = 0,07. Hledaná parabola má tvar Y = 7, 7, 8479x+ 0, 07x. x y 3 4 x x x x y x y Součet b. Optmální velkost objednávky zjstíme jako mnmum funkce.

63 Jaroslav Ramík, Statstka 63 Y = 7, 7, 8479x+ 0, 07x tak, že položíme její první dervac rovnu nule, tj. Y = -, ,0454x = 0, tudíž x = 6, 7. Optmální velkost dodávky je 6 nebo 63 kusů. Nakonec provedeme výpočet pomocí Excelu s využtím funkce Přdat spojnc trendu v bodovém grafu. Po zobrazení dat pomocí grafu XY bodový poklepete pravým tlačítkem myš, zvolíte položku Typ trendu a rergrese: Polynomcký (stupeň ), Dále otevřete záložku Možnost, kde zaklknete: Zobrazt rovnc regrese (rovnce regresní přímky) a současně zaklknete Zobrazt hodnotu spolehlvost R (hodnotu koefcentu determnace R ). Potvrdíte OK. Obdržíte výsledek téměř takový, jaký je na následujícím obrázku. K původním bodům se zobrazí regresní parabola, dále rovnce regresní paraboly a hodnotu koefcentu determnace R. Výsledek je stejný, jako př ručním výpočtu, vz výše Regresní parabola y = 0,07x -,8479x + 7,7 R = 0, Náklady Polynomcký (Náklady) Obr Parabolcká regrese * ŘEŠENÝ PŘÍKLAD 4-3 V jsté frmě zkoumal, jak závsí vlastní náklady na jednotku produkce (Y) na objemu produkce (X). Následující tabulka uvádí zjštěné údaje v různých obdobích. a. Najděte regresní hyperbolcký model popsující danou závslost. b. Pomocí koefcentu determnace zhodnoťte přléhavost regresní funkce k datům. Období Objem produkce 0,5 0,7 0,9,4,9 3, 4, 4,8 6,9 7,9 8,8 9, 0, Náklady / jednotka Řešení příkladu a. Dosadíte potřebné údaje do normálních rovnc, které získáte z hyperbolcké regresní funkce

64 Jaroslav Ramík, Statstka 64 (3.5) tak, že k nalezení mnma součtu čtverců odchylek: F ( b 0, b ) = y ( b0 + b ) se anulují x F F parcální dervace, tj. položíte = 0 a = 0. Tím obdržíte následující normální rovnce: b b y = n b0 + b y b0 + x x x b = x a obdržíme soustavu rovnc o neznámých 574= 3 b 0 + b 7, 3 8, 9= b 7, 3+ b 8, Řešením této soustavy získáte odhady regresních parametrů: b 0 = 3,3; b = 4,7. Hledaná regresní hyperbola má tvar: 4, 7 Y = 3, 3+. x 0 x y /x / x y /x Y ( Y y) ( y y) 0,5 456,00 4,00 9,00 43,74 973,96 7,4 0,7 97,43,04 44,9 30, , ,85 3 0,9 06,,3 8,89 4, ,06 7,4 4,4 65 0,7 0,5 7,86 56,68 67,36 98,97 5,9 8 0,53 0,8 6, 6,33,56 9,49 6 3, 79 0,3 0,0 4,69 70,4 566,44 770,73 7 4, 57 0,4 0,06 3,57 54, ,89 406,5 8 4,8 54 0, 0,04,5 48, , ,73 9 6,9 40 0,4 0,0 5,80 34, , ,97 0 7,9 35 0,3 0,0 4,43 30,50 804, ,77 8,8 30 0, 0,0 3,4 7,7 876,09 895,57 9, 3 0, 0,0,50 6,66 895,4 969,69 3 0, 4 0,0 0,0,39 4,58 93,5 466,3 Součet 60, ,3 8,33 8,9 037,0 0600,97 Průměr 4,65,08 0,55 0,64 39,40 b. Nejdříve vypočítáte teoretcké hodnoty Y postupným dosazením hodnot x do rovnce regresní hyperboly 4, 7 4, 7 Y = 3, 3+ = 3, 3+ = 43, 74. x 0, 5 Všechny hodnoty Y jsou uvedeny v tabulce. Dále vypočítáte součty S T, S y

65 Jaroslav Ramík, Statstka 65 S 3 T = = ( Y y ) = 037, 0. = ( 43, 74, 08 ) + ( 30, 05, 08 ) + K+ ( 4, 58, 08 ) = S 3 y = = ( y y ) = ( 456, 08 ) + ( 97, 08 ) + K+ ( 4, 08 ) = 060, 97. Hodnoty jednotlvých sčítanců součtů S T, S y jsou uvedeny v tabulce. Koefcent determnace R vypočítáte podle vztahu (3.8). ST 037, 0 R = = = 0, 99. S 060, 97 y Hodnota koefcentu determnace 0,99 je vysoká, což znamená, že daným regresním modelem s vysvětlující proměnnou objem produkce je vysvětleno 99% varablty znaku Y. Pouze % chování proměnné Y je ovlvněno jným faktory. * ŘEŠENÝ PŘÍKLAD 4-4 Data v tabulce ukazují poptávku po určtém druhu zboží (v ts. ks) př různých cenách (v Kč). Popšte závslost poptávky na ceně mocnnnou regresní funkcí. Řešení příkladu Pozorování Cena 8, Poptávka Úkolem je nalézt odhady parametrů β, β 0 regresní funkce β x Y =. 0 β Použjete lnearzující transformace, a to tak, že obě strany rovnce zlogartmujete a použjete vhodnou substtuc ( vz odstavec 4.3), čímž získáte rovnc Y = β + x, 0 β kde Y = lny, x = lnx, β 0 = lnβ0, β = β, což je rovnce regresní přímky. Regresní koefcenty b, b určíme pomocí známých vztahů takto: 0 x y x y 7, 49 4, 39 48, 0, 86 b = = = = 0, 6 x x 0, 7 4, 39 4, 39, 43 b = y b x = 48, ( 0, 6 4, 39 ) = ,

66 Jaroslav Ramík, Statstka 66 x y x y x y x 8,5 00,4 5,30,34 4, ,69 4,94 8,3 3, ,5 4,38 9,8 0, ,9 3,8 9,77 6, ,30 3,74 9,80 8, ,5,89 5,96 30,49 Průměr 4,39 4,8 7,49 0,70 Odhady b 0, b původního modelu snadno vypočítáte zpětnou transformací Proto 0 b = b, b0 = e. b b =, 6; b 897, = Hledaná mocnnná regresní funkce má tvar Y = 897, 85 x 0,6. Nakonec provedeme výpočet pomocí Excelu s využtím funkce Přdat spojnc trendu v bodovém grafu. Po zobrazení dat pomocí grafu XY bodový poklepete pravým tlačítkem myš, zvolíte položku Typ trendu a rergrese: Mocnnný, Dále otevřete záložku Možnost, kde zaklknete: Zobrazt rovnc regrese (rovnce regresní přímky) a současně zaklknete Zobrazt hodnotu spolehlvost R (hodnotu koefcentu determnace R ). Potvrdíte OK. Obdržíte výsledek, jaký je na následujícím obrázku. K původním bodům se zobrazí regresní mocnnná funkce, dále její rovnce a hodnotu koefcentu determnace R. Výsledek je poněkud odlšný od výsledku, který jsme získal př ručním výpočtu, vz výše. Tato odlšnost je způsobena tím, že Excel počítá koefcenty přímo metodou nejmenších čtverců bez použtí lnearzace s logartmckou transformací. Metoda použta Excelem je přesnější než metoda lnearzace a proto bychom j dal př aplkac přednost. Metoda lnearzace je zase výpočetně jednodušší, je j možno provést ručně, v době počítačů však tato výhoda ztrácí na významu. Mocnnná regrese y = 005,9x -0,63 R = 0, Poptávka 50 Mocnnný (Poptávka) Obr Mocnnná regrese

67 Jaroslav Ramík, Statstka 67 * ŘEŠENÝ PŘÍKLAD 4-5 Tabulka uvádí stáří pletacích strojů (X) v letech a náklady na jejch údržbu (Y) v ts. Kč. Popšte závslost Y na X exponencální regresní funkcí. Měření Stáří 4 0,8 3 7,5 8,4 4,8 4,5 5,6 7,3,5 3,,5 Náklady 47, ,4, ,5 5 30,6 Řešení příkladu Úkolem je nalézt odhady regresních parametrů exponencální regresní funkce x y β 0 β =. Pomocí logartmcké transformace převedeme tuto funkc na funkc lneární: lny = lnβ 0 + xlnβ. Použtím substtuce y = lny, x = x, β = obdržíte regresní přímku 0 = lnβ0, β lnβ y β 0 + β x. = Odhady parametrů β 0, β této přímky určíme použtím známých vztahů x y x y 34, 8 9, 34 3, 5 4, 45 b = = = = 04, x x 8, 59 9, , b = y b x = 3, 5 ( 04, 9, 34 ), = Regresní koefcenty původní funkce snadno vypočítátme zpětnou transformací: b b 0 = 0 b = e = 6, 96; b = e, 5. Hledaná exponencální regresní funkce má tvar: x 0, 4x y= 6, 96 5, = 6, 96 e. x = x y y x y x 4 47,5 3,86 54,04 96,00 0,8 8,08,66 0, ,30 6,90 9,00 4 7,5 7,83,3 56,5 5 8,4 3,09 5,96 70,56 6 4,8 76,4 4,34 64,3 9,04 7 4,5,5,53,39 0,5 8 5,6 76 4,33 67,55 43,36 9 7,3 94,5 4,55 78,7 99,9 0,5 5 3, 37,03 3,5

68 Jaroslav Ramík, Statstka 68 3, 30,6 3,4 45,4 74,4,5,48 3,7,5 Průměr 9,34 3,5 34,80 8,59 Náklady na údržbu Stáří stroje Obr Exponencální regrese Nakonec provedeme výpočet pomocí Excelu s využtím funkce Přdat spojnc trendu v bodovém grafu. Po zobrazení dat pomocí grafu XY bodový poklepete pravým tlačítkem myš, zvolíte položku Typ trendu a rergrese: Exponencální, Dále otevřete záložku Možnost, kde zaklknete: Zobrazt rovnc regrese (rovnce regresní přímky) a současně zaklknete Zobrazt hodnotu spolehlvost R (hodnotu koefcentu determnace R ). Potvrdíte OK. Obdržíte výsledek, jaký je na následujícím obrázku. K původním bodům se zobrazí regresní exponencální funkce, dále její rovnce a hodnotu koefcentu determnace R. Výsledek je praktcky stejný jako výsledek, který jsme získal př ručním výpočtu, vz výše Exponencální regrese y = 6,9473e 0,407x R = 0,987 Náklady Exponencální (Náklady) * SHRNUTÍ KAPITOLY V této kaptole jste s dále rozšířl znalost v jednorozměrné regresní analýze. V návaznost na jednorozměrný klascký regresní model jste se zabýval ntervaly spolehlvost a testy hypotéz regresních koefcentů a také testem koefcentu determnace. Dále jste se zabýval jednorozměrnou nelneární regresí. Byly jednak vyšetřovány regresní funkce, které lze s pomocí vhodné logartmcké transformace převést na funkce lneární, dále pak byla vyšetřována parabolcká regresní funkce a nakonec nelneární funkce Tornquustova typu, jímž se modelují poptávkové funkce pomocí výše příjmů. Pro výpočet parametrů těchto funkcí jste poznal novu metodu vybraných bodů, která zde nahradla známou metodu nejmenších čtverců.

69 Jaroslav Ramík, Statstka 69 SAMOSTATNÉ ÚKOLY 4 Řešte ručním výpočtem a zkontrolujte výsledky řešením v Excelu. 4. Tabulka zachycuje stáří (v letech) osm vybraných strojů v potravnářském závodě a týdenní náklady (v Kč) na provoz těchto strojů. Stáří stroje Náklady d. Odhadněte parametry regresní funkce f(x)=β 0 +β lnx, která by měla vysthovat průběh závslost nákladů na stáří. e. Jaké týdenní náklady můžeme očekávat u stroje starého 4 roky? f. Určete koefcent determnce a nterpretujte jej. 4. V tensovém zápase má významný vlv na vítězství hráče úspěšnost jeho prvního podání. Data v tabulce představují počet úspěšných prvních podání (X) a počet vyhraných bodů př úspěšném prvním podání (Y) deset vybraných hráčů z předních míst žebříčku ATP. X Y a. Zvolte nejprve lneární a potom parabolcký typ regresní funkce popsující závslost Y na X. b. Určete regresní parametry obou zvolených regresních funkcí. c. Stanovte 95% nterval spolehlvost pro regresní koefcent b. d. Zhodnoťte výstžnost obou zvolených regresních funkcí. Která z nch lépe vysthuje data?

70 Jaroslav Ramík, Statstka 70 ŘEŠENÍ A ODPOVĚDI 4. 4.

71 Jaroslav Ramík, Statstka 7 5 REGRESNÍ ANALÝZA - VÍCEROZMĚRNÁ CÍLE KAPITOLY Po úspěšném a aktvním absolvování této KAPITOLY Budete umět: porozumět rozdílu mez jednorozměrnou a vícerozměrnou regresní analýzou, objasnt význam regresního modelu, regresních koefcentů, vysvětlujících (nezávslých) proměnných a vysvětlované (závslé) proměnné, vysvětlt význam koefcentu determnace a koefcentu korelace pro přléhavost dat k regresnímu modelu, stanovt statstckou významnost regresního modelu jako celku a taktéž statstckou významnost jednotlvých regresních koefcentů, aplkovat regresní model pro prognózování hodnoty závslé proměnné prostřednctvím bodového ntervalového odhadu. Budete umět Získáte: schopnost dentfkovat a analyzovat problémy, na které lze použít vícerozměrnou regresní analýzu. Získáte Budete schopn: řešt konkrétní praktcké úlohy vícerozměrné regresní analýzy s využtím funkcí Excelu, a to buď pomocí matcových operací nebo pomocí funkce Regrese v menu Nástroje, Analýza dat. Budete schopn RYCHLÝ NÁHLED DO PROBLEMATIKY KAPITOLY V této kaptole navážete na jednoduchou regres vyšetřovanou v předchozí kaptole. Nyní budeme předpokládat, že vysvětlovaná proměnná závsí na několka (více než jedné) vysvětlujících proměnných. Vícenásobný lneární regresní model je zobecněním jednoduchého lneárního regresního modelu. Lneární regresní model bude rozšířen na vícenásobný regresní model lneární v parametrech, který předpokládá lneární vztah pouze v regresních koefcentech, nkolv nutně v nezávsle proměnných. Odhady regresních koefcentů se stanoví opět metodou nejmenších čtverců, přtom lze využít matcové symbolky, která usnadňuje prác s vektory a matcem. Podobně jako v případě jednoduché regrese budou formulovány předpoklady klasckého regresního modelu, přčemž obdržíte analogcké výsledky pro ntervaly spolehlvost regresních koefcentů a odpovídající testy hypotéz jako v případě jednoduché regrese. Rychlý náhled ČAS POTŘEBNÝ KE STUDIU Čas ke zvládnutí problematky této kaptoly včetně výpočetních dovedností s pomocí Excelu je přblžně - 3 hodny.

72 Jaroslav Ramík, Statstka 7 KLÍČOVÁ SLOVA KAPITOLY Vícerozměrná regresní analýza, regresní koefcenty, koefcent determnace, upravený koefcent determnace, F-test statstcké významnost modelu, t-testy statstcké významnost ndvduálních regresních koefcentů, ntervaly spolehlvost regresních koefcentů, ntervalový odhad prognózy. Klíčová slova PRŮVODCE STUDIEM 5 Nejprve budeme předpokládat, že vysvětlovaná proměnná Y závsí na několka (konkrétně k) vysvětlujících proměnných X, X,..., X k. Zkonstruujeme vícenásobný lneární regresní model, který předpokládá lneární vztah pouze v regresních koefcentech, (nkolv nutně v nezávsle proměnných uvědomte s ten rozdíl!). Odhady regresních koefcentů se stanoví opět metodou nejmenších čtverců, přtom lze využít matcové symbolky, která usnadňuje prác s vektory a matcem. Podobně jako v případě jednoduché regrese budou dále formulovány předpoklady klasckého regresního modelu, přčemž obdržíte analogcké výsledky pro ntervaly spolehlvost regresních koefcentů a odpovídající testy hypotéz jako v případě jednoduché regrese. 5. Vícerozměrná regresní analýza Na rozdíl od předchozích dvou kaptol, kde jsme předpokládal, že vysvětlovaná proměnná Y závsí na jedné vysvětlující proměnné X, budeme nyní předpokládat, že vysvětlujících proměnných je několk (tj. alespoň ), řekněme k, kde k, přtom k je celé číslo. Vysvětlující statstcké znaky (proměnné) označíme X, X,...,X k, -tému pozorování (-té realzac) hodnot vysvětlujících znaků x, x,..., xk odpovídá hodnota vysvětlovaného znaku y. Vícenásobný lneární regresní model je zobecněním jednoduchého lneárního regresního modelu (4.9) a má následující tvar: y = β0 + βx + βx βk xk + ε, =,,...,n. (5.) Jak jste vděl v předchozí kaptole př aplkac metody lnearzace, bylo pro použtí metody nejmenších čtverců podstatné, že regresní funkce byla lneární v parametrech β, nkolv v proměnné x. Tohoto důležtého faktu využjeme nyní a formulujeme poněkud obecnější model, než (5.), totž vícenásobný regresní model lneární v parametrech. Ten vypadá takto y = β0 + β f ( x, x,..., xk ) + β f ( x, x,..., xk ) βk f k ( x, x,..., xk ) + ε, =,,...,n. (5.) Rozdíl mez JRA a VRA Lneární model Lneární model v parametrech kde f j( x, x,..., xk ), j =,,...,k, jsou funkce proměnných x, x,..., xk, nezávslé na parametrech β. 5. Metoda nejmenších čtverců Odhady regresních koefcentů b 0, b,..., bk lze stanovt metodou nejmenších čtverců, která spočívá v mnmalzac součtu kvadrátů (tj. druhých mocnn) odchylek skutečných hodnot dat y od teoretckých hodnot Y = b0 + b f( x, x,..., xk ) bk f k ( x, x,..., xk ). Podobně, jako u jednoduchého modelu, vypočteme odhady ze soustavy normálních rovnc: Metoda nejmenších čtverců

73 Jaroslav Ramík, Statstka 73 S R S = 0, R S R = 0,..., = 0. (5.3) b0 b bk V (5.3) se jedná o parcální dervace funkce S R podle proměnných b. Označení = f x, x,..., x ), =,,...,k, j =,,...,n, (5.4) Fj ( j j jk umožní využít matcovou symbolku. Soustavu rovnc (5.) lze matcově zapsat takto: y = Fβ+ ε, (5.5) kde matce: F L Fk = F L Fk F se nazývá matce regresorů, M M M M F n L Fkn y y y = je vektor pozorování vysvětlované proměnné Y, M y n β0 b0 β = β, resp. b = b, je vektor regresních koefcentů, resp. vektor jejch odhadů. M M β k b k Dále ε ε = ε, je vektor náhodných složek. M ε n Př výpočtu vektoru odhadů b regresních koefcentů metodou nejmenších čtverců obdržíte soustavu normálních lneárních rovnc, které lze matcově vyjádřt. Pozor, používáte přtom pravdla pro sečítání a násobení matc - pravdlo řádek krát sloupec. Toho lze dosáhnout tak, že regresní rovnc y = F.b, vynásobíte zleva transponovanou matcí F T, takže obdržíte F T y = F T F.b, (5.6) a za předpokladu, že matce F T F je regulární, a tedy exstuje k ní matce nverzní (F T F) -, lze nalézt řešení soustavy, tj. vektor odhadů regresních koefcentů modelu (5.5), a to po vynásobení (5.6) zleva matcí (F T F) -, ve tvaru: b = (F T F) - F T y. (5.7) Ve specálním případě jednoduché lneární regrese je k =, pak matce regresorů a další prvky z (5.6) mají tvar: x F x = M M, F T F = n x, F T y = x x y, x y x n a soustava normálních rovnc (5.6) je následující: n x x x b 0 = b y, (5.8) x y Matcová symbolka Matce regresorů Vektor regresních koefcentů Vektor náhodných složek Specální případ

74 Jaroslav Ramík, Statstka 74 což je tvar ekvvalentní rovncím (3.), (3.3). 5.3 Náhodný vektor a jeho charakterstky Nyní ještě rozšíříme pojmy střední hodnoty a rozptylu používané doposud pro náhodnou velčnu (skalár), a to pro náhodný vektor: X X = X, (5.9) M X n kde složky X jsou náhodné velčny. Střední hodnota E(X) vektorové náhodné velčny X je vektor středních hodnot jednotlvých složek, tj.: E( X ) E(X) = E( X ). (5.0) M E( X n ) Rozptyl (varance) Var(X) vektorové náhodné velčny X je matce: Var(X) = E((X- E(X)) T (X - E(X))), (5.) Náhodný vektor Střední hodnota náhodného vektoru kde čárkou označujeme transponovanou matc (vektor). Jstě jste s všml, že rozptyl náhodného vektoru (5.) je čtvercová matce typu (n n). Rozptyl náhodného vektoru 5.4 Klascký lneární model O klasckém (vícerozměrném) lneárním regresním modelu hovoříme tehdy, když matce regresorů má nejjednodušší tvar, tj. když je matce tvořena daným hodnotam pozorování vysvětlujících proměnných: F =, =,,...,k, j =,,...,n. (5.) j x j V tom případě má matce regresorů tvar: x L xk = x L xk F. (5.3) M M M M xn L xkn KLRM U klasckého lneárního modelu požadujeme splnění podmínek. až 3. z mnulé kaptoly, přtom u těchto podmínek nebylo důležté, zda jde o jednoduchý nebo vícerozměrný regresní model:. Hodnoty vysvětlujících proměnných X, X,...,X k, tvořící matc regresorů F podle (5.3) se volí předem, nejsou to tedy náhodné velčny.. Rezduum ε v modelu (3.5) má normální rozdělení pravděpodobnost s nulovou střední hodnotou a (neznámým) rozptylem σ, tj.: Normalta

75 Jaroslav Ramík, Statstka 75 E(ε) = 0, (5.4) Var(ε) = σ I, (5.5) kde symbol I označuje jednotkovou matc. Vztah (5.5) zahrnuje zároveň podmínku 3. z klasckého lneárního modelu, vz kaptola 3.5, neboť na dagonále matce Var(ε) jsou rozptyly σ jednotlvých složek náhodného vektoru ε a mmo dagonálu vystupují nulové kovarance těchto složek. V tom případě hovoříme o homoskedastctě. V opačném případě hovoříme o přítomnost heteroskedastcty. 3. Vysvětlující proměnné X, X,, X k nejsou kolneární, tj sloupcové vektory matce regresorů (5.3) jsou nekorelované. V opačném případě hovoříme o přítomnost multkolnearty. Homoskedastcta Heteroskedatcta Multkolnearta 5.5 Míry varablty a koefcent determnace Podobně jako u jednoduché regrese, zajímáme se nyní o celkovou varabltu vysvětlované proměnné, kterou charakterzuje celkový součet čtverců: S y = n ( y y) =. (5.6) Část celkové varablty vysvětlenou regresním modelem charakterzuje teoretcký součet čtverců: S T = n ( Y y) =, (5.7) kde Y = b 0 + b f( x, x,..., xk ) bk f k ( x, x,..., xk ), b jsou odhady regresních parametrů získané MNČ. Nevysvětlenou část celkové varablty představuje rezduální součet čtverců: kde e n S R = ( ) = y Y, (5.8) = y Y je rezduum, tj. odhad náhodné složky ε. Mez jednotlvým součty čtverců platí základní vztah: S y = S T + S R. (5.9) Obdobně, jako v případě jednoduché regrese, zavedeme analogcký pojem, charakterzující přléhavost dat k regresnímu modelu, koefcent determnace, který defnujeme vztahem: ST SR R = =. (5.0) S S y y Koefcent determnace nabývá hodnoty z ntervalu [0,] a určuje tu část celkové varablty pozorovaných hodnot y, kterou lze vysvětlt daným regresním modelem. Jnak řečeno, po vynásobení koefcentu determnace stem obdržíme, kolk procent celkové varablty je vysvětltelných regresním modelem. Nevychýlený odhad koefcentu determnace R adj, který nazýváme korgovaný (upravený) koefcent determnace, defnujeme takto: n R adj = ( R ), (5.) n p kde p = k+ označuje počet parametrů v regresním modelu (5.). Celková varablta Rezduum Koefcent determnace Upravený (korgovaný) koefcent determnace

76 Jaroslav Ramík, Statstka Intervaly spolehlvost a testy hypotéz Tento odstavec je přrozeným rozšířením kaptoly 4 pro jednoduchý klascký lneární model, tj. model (3.9) se dvěma parametry β 0,β. Nyní máme analogcký model, avšak s k+ parametry β 0, β,..., β k. Jsou-l splněny předpoklady klasckého lneárního modelu (5.5), tj. modelu: y = β 0 + βx+ β x βk xk + ε, =,,...,n, (5.) potom pro rozdělení odhadů regresních koefcentů b 0, b,..., b k, jakožto náhodných velčn, platí toto: Regresní koefcent b j má normální rozdělení pravděpodobnost se střední hodnotou β j a rozptylem σ h jj, kde j = 0,,...,k, čísla h jj jsou dagonálním prvky matce: H = (F T F) -, (5.3) kde matce F je defnována vztahem (5.3). V klasckém lneárním modelu předpokládáme, že rezduální složky mají konstantní rozptyl σ, jeho hodnotu však zpravdla neznáme. Neznámý rozptyl σ můžeme nahradt jeho bodovým odhadem: SR sr =, (5.4) n p který nazýváme v souladu s (5.) rezduální rozptyl. V rezduálním rozptylu vystupuje v čtatel rezduální součet čtverců (5.8) dělený číslem n-p, což je počet stupňů volnost, tj. rozsah dat n mínus počet regresních koefcentů v modelu: p = k+. Odmocnnu rezduálního rozptylu s R nazýváme směrodatná chyba. Oboustranný nterval spolehlvost pro regresní koefcent b j, př zadaném koefcentu spolehlvost ( - α), je následující nterval: [b j t -α/ (n-p) SRh jj, b j + t -α/ (n-p) n p SRh jj ], j = 0,,...,k. (5.5) n p Zde t -α/ (n-p) je příslušný kvantl Studentova t-rozdělení, h jj dagonální prvky matce (5.3). Interval (4.3) je specálním případem ntervalu (5.5) v případě k =. Rezduální rozptyl Směrodatná chyba Interval spolehlvost Bodový odhad regresních koefcentů b j, vypočtený metodou nejmenších čtverců, doplňuje nterval spolehlvost (5.5), který nformuje, v jakém rozmezí se regresní koefcent může pohybovat v rámc zadané spolehlvost v případě jného náhodného výběru dat (ze stejného základního souboru). Odhadnutý lneární regresní model (3.9), který má tvar: y = b0 + b x+ b x bk xk + e, (5.6) kde e je rezduum, tj. odhad náhodné složky ε, resp. regresní funkce: Y = b 0 + b x + b x b k x k, (5.7) má praktcký význam zejména př odhadu chování modelu pro nezávsle proměnné nevyskytující se v datech, např. hodnoty x 0, x 0,..., x 0k. Model (5.6), resp. regresní funkce (5.7), pak slouží k predkc hodnoty závsle proměnné. Bodový odhad předpověd získáme dosazením x 0 = (x 0, x 0,..., x 0k ) do (5.7): Y 0 = b 0+ b x 0+ b x b k x 0k. (5.8) Informac o tom, v jakém rozmezí se predkovaná hodnota vysvětlované proměnné může pohybovat, poskytuje oboustranný nterval spolehlvost:

77 Jaroslav Ramík, Statstka 77 T [Y 0 t -α/ (n-p) s R + x0 Hx 0, Y 0 + t -α/ (n- p) s R + x0 Hx 0 ], (5.9) kde H = (F T F) - a matce F je defnována vztahem (5.3). Ostatní symboly v (5.9) mají stejný význam, jako v ntervalu spolehlvost (5.5). 5.7 Indvduální t-testy o hodnotách regresních koefcentů Tento odstavec je rozšířením kaptoly 4. pro vícerozměrný lneární regresní model. Zjstíme-l metodou nejmenších čtverců, že regresní koefcenty b j jsou nějaká nenulová čísla, musíme mít stále na pamět, že se jedná o realzace náhodných velčn, a tudíž má smysl testovat, zda naše původní parametry β j nemohou být přesto nulové. Za předpokladů klasckého lneárního modelu je možno pro j = 0,,...,k testovat nulovou hypotézu: H 0 : β j = 0, (5.30) prot oboustranné alternatvní hypotéze: H : β j 0. (5.3) Př tomto testu použjeme testové krtérum: b j t=, (5.3) SR h jj n p které má př platnost H 0 t-rozdělení s n-p stupn volnost, S R je rezduální součet čtverců, h jj jsou dagonální prvky matce H z (5.3), přčemž j = 0,,...,k, p = k+. Na hladně významnost α je krtcký obor vymezen nerovností: t > t n ) α / ( p, / ( n p kde t α ) je příslušný kvantl Studentova t-rozdělení, vz funkc v Excelu TINV, Nemůžeme-l např. na dané hladně významnost α zamítnout nulovou hypotézu H 0 : β j = 0, pak to znamená, že y nezávsí na x j, jnak řečeno, pro lbovolnou hodnotu vysvětlující proměnné x j nabývá vysvětlovaná proměnná y stále stejné hodnoty. 5.8 F-test hypotézy o hodnotách regresních koefcentů V mnulém odstavc jste ndvduálním t-testy zjšťoval vlv jednotlvých vysvětlujících proměnných na vysvětlovanou proměnnou. V tomto odstavc se budeme zabývat testem, který najednou odhalí, zda vůbec exstuje nějaká vysvětlující proměnná, která má na vysvětlovanou proměnnou nějaký vlv. Testuje se nulová hypotéza: H 0 : β β =... = β 0, (5.33) = k = prot alternatvní hypotéze, že pro alespoň jeden regresní koefcent platí β 0. Testové krtérum: ST T = p SR (5.34) n p má Fsherovo rozdělení F s (p-) a (n-p) stupn volnost. Na hladně významnost α je krtcký obor vymezen nerovností: T > F α ( p, n ), (5.35) p ( p, n p kde F α ) je příslušný kvantl rozdělení. Pokud hodnota testového krtéra padne do krtckého oboru, tedy pokud platí (5.35), potom H 0 zamítáme, což znamená, že některá z vysvětlujících proměnných má statstcky významný efekt na vysvětlovanou proměnnou y. T j

78 Jaroslav Ramík, Statstka 78 Pokud však nulovou hypotézu nelze na dané hladně významnost zamítnout, pak vysvětlující proměnné x nemají statstcky významný efekt na y. ŘEŠENÝ PŘÍKLAD 5- Př zjšťování vlvů na pracovní neschopnost zaměstnanců 0 podnků byly získány následující údaje: Průměrný věk (roky) Podíl žen v počtu pracovníků Pracovní neschopnost (%) (%) , , , , , ,4 38, , , ,7 a. Odhadněte parametry lneární regresní funkce popsující závslost pracovní neschopnost na průměrném věku zaměstnanců a na podílu žen mez zaměstnanc. b. Pomocí koefcentu determnace charakterzujte přléhavost daného regresního modelu k datům. c. Jak se změní pracovní neschopnost zaměstnanců, zvýší-l se jejch průměrný věk o roky př stejném podílu žen? d. Určete 95% ntervaly spolehlvost pro regresní koefcenty b 0, b, b. e. Na hladně významnost α = 0,0 testujte hypotézu β = β = 0. Řešení příkladu a. Naším úkolem je nalézt regresní koefcenty b 0, b, b regresní funkce Y = b 0 + b X + b X, kde X je průměrný věk zaměstnanců, X je podíl žen v počtu zaměstnanců. Regresní koefcenty b 0, b, b vypočítáme pomocí metody nejmenších čtverců. Využjeme přtom nejprve matcové symbolky, kterou jsme použl v textu.

79 Jaroslav Ramík, Statstka , , ,8 b , F = y = b = b ,4. 38,6 b , , ,7 Vektor b vypočítáme pomocí vztahu (5.7). Matce F T F a F T y mají obecně tvar: n x x y F T F = x x x x, F T y = x x x x x y. x y Hodnoty potřebné k výpočtu těchto matc jsou uvedeny v následující tabulce: Pozorování X X Y X X X X X Y X Y , ,8 4, , ,, , ,6 448, , , 64, , ,5, , ,8 59,8 7 38, ,8 35, , ,0 6, , ,6 95, , ,7 78,6 Σ , , 374,7 Potom , F T F = F T y = 07, ,7 K matc F T F musíme vypočítat matc nverzní: 4, , 0, 0 (F T F ) - = 03, 0, 005 0, 00. 0, 0 0, 00 0, 00 Vektor b je výsledkem součnu matc (F T F ) - a F T y: 6,59 (F T F ) - F T y = 0,8. 0,09 Hledaná regresní funkce má tvar: Y = 6,59 + 0,8x + 0,09x.

80 Jaroslav Ramík, Statstka 80 b. K tomu, abychom vypočítal determnační koefcent, musíme znát hodnotu teoretckého součtu čtverců S T a celkového součtu čtverců S y. Tyto součty vypočítáme podle vztahů (5.7), (5.6). Pro výpočet teoretckého součtu musíme pro každé x, x, =,,0, znát teoretckou hodnotu Y, =,,0, např. Y vypočítáme takto: Y = 6,59 + 0,8x + 0,09x = 6,59 + 0, ,09 55 = 5,0. X X y Y ( y y) ( Y y) ,4 5,0,664 3, ,7,3 5,808 0, ,6 7,00 0,60 5, ,8,77,76 0, , 0,47 9,060, ,4 3,40 0,084 0, ,6,3,80 0, ,5 3,85 0,5 0, ,3,78 0,036, ,7 4,,58,0 Součet , 3,0 43,489 36,87 Tato hodnota udává, jaká by měla být teoretcky pracovní neschopnost př průměrném věku zaměstnanců téměř 37 let a podílu žen v počtu pracovníků 55%. Protože však jde o stochastckou závslost lší se tato hodnota od skutečně zjštěné hodnoty y = 4,4. Všechny teoretcké hodnoty Y jsou uvedeny v následující tabulce. Jednotlví sčítanc hodnoty součtů S y a S T jsou rovněž uveden v tabulce. Koefcent determnace vypočítáme dosazením do vztahu (3.0): ST 36,87 R = = = 0,848. S 43,49 y Tato hodnota znamená, že pomocí regresní funkce Y = 6,59 + 0,8x + 0,09x je vysvětleno 84,8% celkové varablty proměnné Y. c. Velkost změny znaku Y je př změně znaku X o jednotku rovna b. Má-l se tedy zvýšt průměrný věk o roky př nezměněné zaměstnanost žen X, zvýší se pracovní neschopnost o b, tj. o 0,36%. d. Obecný tvar těchto ntervalů je následující (vz (3.5)): S [b t -α/ (n-p) R h S, b + t -α/ (n-p) R h ], n p n p kde S R je rezduální součet čtverců, t -α/ (n-p) je kvantl t-rozdělení o n-p stupních volnost, p je počet parametrů regresní funkce, h prvek matce H = ( F F). Hodnotu S R vypočítáme ze vztahu: S R = S y S T = 43,49 36,87 = 6,6. V tabulce t-rozdělení nalezneme (-α/) = 97,5% kvantl t-rozdělení o n-p = 0-3 = 7 stupních volnost: t,365, 0,975 (7) = h 00 = 4,355; h = 0,005; h = 0,00, H = {h j },,j = 0,,. Dosazením výše vypočítaných hodnot do vztahu pro nterval spolehlvost určíme jeho pravou a levou krajní hodnotu L a P: Pro b 0, tj. = 0:

81 Jaroslav Ramík, Statstka 8 6,6 4,355 L = 6,59,365 =,79, 7 6,6 4,355 P = 6,59+,365 =, % nterval spolehlvost pro regresní koefcent b 0 je [,79;,39]. Pro b, tj. = : 6,6 0,005 L = 0,8,365 = 0,06, 7 6,6 0,005 P = 0,8+,365 = 0, % nterval spolehlvost pro regresní koefcent b je [0,06; 0,344]. Pro b, tj. = : 6,6 0,00 L = 0,09,365 = 0,07, 7 6,6 0,00 P = 0,09+,365 = 0, % nterval spolehlvost pro regresní koefcent b je [0,07; 0,63]. e. Pro ověření hypotézy použjeme F-test. Budeme testovat nulovou hypotézu: H 0 : β = β = 0 prot alternatvní hypotéze H : alespoň jedno β je různé od nuly. K ověření nulové hypotézy použjeme testové krtérum (3.34): ST 36,87 p F = = = 9,49. SR 6,6 n p 7 V tabulce F-rozdělení najdeme (-α)% kvantl F-rozdělení o p- a n-p stupních volnost: F - 0,0 (,7) = 9,55. Protože je 9,49 > 9,55, zamítáme nulovou hypotézu ve prospěch alternatvní hypotézy, což znamená, že regresní parametry jsou vesměs nenulové, a tudíž exstuje statstcky významná závslost Y na X a nebo X. Řešení v Excelu.... * ŘEŠENÝ PŘÍKLAD 5- Následující tabulka obsahuje údaje o tržbách, velkost výdajů na reklamu a o počtu obchodních zástupců pro frem zabývajících se nákupem a prodejem: Reklamní výdaje Obchodní zástupc Objem prodeje (ml. Kč) (ts. Kč)

82 Jaroslav Ramík, Statstka a. Popšte závslost objemu produkce na reklamních výdajích a na počtu obchodních zástupců dvourozměrný lneárním regresním modelem. b. F-testem posuďte významnost tohoto regresního modelu. Uvažujte hladnu významnost α = 0,0. c. Na hladně významnost α = 0,0 testujte ndvduální významnost regresního parametru β. d. Jaký objem produkce lze očekávat, vydá-l frma na reklamu 450 ts. Kč a současně bude mít 50 obchodních zástupců? Určete bodový ntervalový odhad objemu produkce na hladně významnost α = 0,05. Řešení příkladu K řešení úkolů a. až c. použjeme Excelu: * SHRNUTÍ KAPITOLY V této kaptole jsme navázal na jednoduchou regres vyšetřovanou v předchozí kaptole. Nyní jsme předpokládal, že vysvětlovaná proměnná Y závsí na více (konkrétně k) vysvětlujících proměnných, (k ). Vícenásobný lneární regresní model je zobecněním jednoduchého lneárního regresního modelu (3.9). Tento model jsme zobecnl na vícenásobný regresní model lneární v parametrech (5.), který předpokládá lneární vztah pouze v parametrech β, nkolv nutně v nezávsle proměnných x j. Odhady regresních koefcentů b 0, b,..., bk jsme stanovl metodou nejmenších čtverců, která spočívá v mnmalzac součtu kvadrátů odchylek skutečných hodnot dat y od teoretckých hodnot poskytovaných modelem. Přtom jsme využl matcové symbolky, která usnadňuje prác s vektory a matcem. Podobně jako v případě jednoduché regrese jsme formuloval předpoklady klasckého regresního modelu, přčemž jsme obdržel analogcké výsledky pro ntervaly spolehlvost regresních koefcentů a odpovídající testy hypotéz. j SAMOSTATNÉ ÚKOLY 5

83 Jaroslav Ramík, Statstka 83 Řešte s pomocí Excelu. 5. Frma sledovala, jak jsou její tržby ovlvněny výdaj na reklamu v různých sdělovacích prostředcích. Výsledky průzkumu jsou uvedeny v následující tabulce. Rádo, TV (ts. Kč) Novny, časopsy (ts. Kč) Tržby (ts. Kč) a. Určete jednoduchý lneární regresní model popsující závslost obratu na velkost prostředků vydaných na reklamu v novnách a časopsech. b. Určete dvourozměrný lneární regresní model popsující závslost obratu na velkost prostředků vydaných na reklamu v novnách a časopsech a na velkost prostředků vydaných na reklamu v rozhlase a v televz. c. Pomocí F testu rozhodněte, je-l vhodné k popsu závslost používat zvolený vícenásobný lneární model. Uvažujte hladnu významnost α = 0,05. d. Přspělo významně zavedení další vysvětlující proměnné k zlepšení výstžnost modelu? e. Jaký obrat je možné očekávat, vydá-l se na reklamu v tsku 3 ts. Kč a na reklamu v rozhlase a televz 47 ts. Kč? Proveďte bodový ntervalový odhad. Volte hladnu významnost 0,. 5. Meznárodní organzace WHO zjstla údaje o dětské úmrtnost (v promle) - DÚ, gramotnost žen (v procentech) - GŽ a HDP na hlavu (v dolarech) - HDP u 64 rozvojových zemí:

84 Jaroslav Ramík, Statstka 84 DÚ GŽ HDP DÚ GŽ HDP a. Určete lneární regresní model popsující závslost dětské úmrtnost na gramotnost žen a HDP v rozvojových zemích. b. Pomocí F testu rozhodněte, je-l vhodné k popsu závslost používat zvolený vícenásobný lneární model. Uvažujte hladnu významnost α = 0,05. c. Jsou regresní koefcenty modelu statstcky významné? Stanovte jejch ntervaly spolehlvost pro hladnu významnost α = 0,0. d. Pomocí koefcentu determnace určete přléhavost dat k modelu. e. Jak se změní dětská úmrtnost př zvýšení HDP o 000 USD př stejném stupn negramotnost žen? Naopak: jak se změní dětská úmrtnost př zvýšení gramotnost žen o procento př stejné úrovn HDP?

85 Jaroslav Ramík, Statstka 85 ŘEŠENÍ A ODPOVĚDI 5. 5.

86 Jaroslav Ramík, Statstka 86 6 REGRESNÍ ANALÝZA VÍCEROZMĚRNÁ: MULTIKOLINEA- RITA, HETEROSKEDASTICITA, AUTOKORELACE CÍLE KAPITOLY Po úspěšném a aktvním absolvování této KAPITOLY Budete umět: rozlšt stuace, kdy jednotlvé předpoklady klasckého nejsou splněny, objasnt význam jednotlvých předpokladů klasckého vícerozměrného lneárního regresního modelu, vysvětlt co to je multkolearta, jaké jsou její důsledky, jak se dentfkuje a jak j lze odstrant, vysvětlt co to je heteroskedastcta, jaké jsou její důsledky, jak se dentfkuje a jak j lze odstrant, vysvětlt co to je autokorelace a čím bývá způsobena. Budete umět Získáte: schopnost dentfkovat, analyzovat a odstraňovat problémy, které způsobuje nesplnění hlavních předpokladů klasckého vícerozměrného lneárního regresního modelu, Získáte Budete schopn: Řešt konkrétní praktcké úlohy s multkolneartou, heteroskedastctou a autkorelací zejména s využtím funkcí Excelu. Budete schopn RYCHLÝ NÁHLED DO PROBLEMATIKY KAPITOLY V této kaptole se naučíte dentfkovat, analyzovat a odstraňovat problémy, které způsobuje nesplnění hlavních předpokladů klasckého vícerozměrného lneárního regresního modelu: multkolnearta, heteroskedastcta a autkorelace. Rychlý náhled ČAS POTŘEBNÝ KE STUDIU Čas ke zvládnutí problematky této kaptoly včetně výpočetních dovedností s pomocí Excelu je přblžně - 3 hodny. KLÍČOVÁ SLOVA KAPITOLY Předpoklady klasckého vícerozměrného lneárního regresního modelu, multkolnearta, heteroskedastcta a autkorelace. Klíčová slova

87 Jaroslav Ramík, Statstka 87 PRŮVODCE STUDIEM 6 V této kaptole se naučíte dentfkovat, analyzovat a odstraňovat problémy, které způsobuje nesplnění hlavních předpokladů klasckého vícerozměrného lneárního regresního modelu formulované v kaptole 5.4.: multkolnearta, heteroskedastcta a autkorelace. Začneme od posledního předpokladu 3: Vysvětlující proměnné X, X,, X k nejsou kolneární, tj. sloupcové vektory matce regresorů (5.3) jsou nekorelované. V opačném případě hovoříme o přítomnost multkolnearty. 6. Co je multkolnearta? j j Multkolneartou tedy rozumíme vzájemnou statstckou závslost, tj. korelac, mez vysvětlujícím proměnným ve vícenásobném lneárním regresním modelu: y = β 0 + β x + β x βk x k + ε. (6.) Informac o této vzájemné závslost poskytuje matce výběrových korelačních koefcentů: r L r k R = r L r k. (6.) M M M M rk rk L Zřejmě je matce (6.) symetrcká, tj. r = r pro všechna,j. Pokud jsou všechny dvojce vysvětlujících proměnných vzájemně nekorelované, potom platí, že r r = 0, tj. R = I, čl R je j = j jednotkovou matcí. Uvědomte s, že na dagonále matce R musejí být všechny prvky rovny, neboť korelace vektoru dat se sebou samým je vždy rovna! Jsou-l však alespoň některé nedagonální prvky matce R nenulové, hovoříme o multkolneartě. Matce R pak není jednotkovou matcí a její determnant je menší než. Je-l multkolnearta vysoká, hovoříme o škodlvé multkolneartě, pak se determnant matce R blíží k nule. V tom případě dává metoda nejmenších čtverců odhady regresních koefcentů s šrokým ntervaly spolehlvost, takže výsledky jsou praktcky neupotřebtelné. Multkolnearta škodlvá multkolnearta Na to, kdy je multkolnearta škodlvá, exstují různé názory, opírající se víceméně o zkušenost. Někteří autoř považují za škodlvou multkolneartu, když alespoň jeden nedagonální prvek matce R je větší než 0,8. Zjstí-l se škodlvá multkolnearta, je možno postupovat v zásadě dvojím způsobem. Buď vysvětlující proměnnou, která je zdrojem multkolnearty, vypustíme z modelu, nebo doplníme data, eventuálně získáme nový vzorek dat. Škodlvá multkolnearta je totž často důsledkem špatného vzorku dat. Projevuje se obvykle vysokým koefcentem determnace (blízkým k ) a zároveň jsou ndvduální koefcenty statstcky nevýznamné (t-test), model jako celek je naopak statstcky významný (F-test), vz kap. 5.7 a 5.8. Celou záležtost lustrujeme na příkladu. ŘEŠENÝ PŘÍKLAD 6-

88 Jaroslav Ramík, Statstka 88 V následující tabulce jsou uvedeny měsíční výdaje, měsíční příjmy a majetek (v Kč) u 0 českých rodn. Proveďte regresní analýzu měsíčních výdajů rodn v závslost na měsíčních příjmech a majetku. Vysvětlete dosažené výsledky pomocí jednorozměrné regrese. Y vydaje X prjmy X majetek Tab. 6.. Výdaje, příjmy a majetek rodn Řešení příkladu Data z Ta. 6. uložíme v excelovské tabulce. Známým postupem v menu: Nástroje Analýza dat... Regrese získáme po vyplnění příslušných políček tento výsledek: VÝSLEDEK Regresní statstka Násobné R 0,98 Hodnota spolehlvost R 0,96 Nastavená hodnota spolehlvost 0,95 R Chyba stř. hodnoty 83,660 Pozorování 0 ANOVA Rozdíl SS MS F Významnost F Regrese,3E ,806,06E-05 Rezdua ,9 Celkem 9,8E+08 Koefcenty Chyba stř. hodnotyt stat Hodnota P Dolní 95% Horní 95% Hrance 943,676 83,579 3,536 0,00 974,940 49,43 X prjmy 0,569 0,847 0,67 0,53 -,433,57 X majetek -0,006 0,083-0,07 0,946-0,03 0,9 V tomto výstupu se vyskytují zdánlvě paradoxní výsledky. Z Tabulky ANOVA vyplývá, že regresní model y = 943, ,569x - 0,006x + ε je jako celek statstcky významný (F-test), zatímco ndvduální regresní koefcenty u proměnných příjmy resp. majetek jsou statstcky nevýznamné, neboť obě odpovídající p-hodnoty (sgnfkance) jsou větší než 0,05 (0,67 resp. 0,946). Koefcent determnace R = 0,96 je vysoký blízký k, což svědčí o vysoké přléhavost dat k modelu. Navíc je u regresního koefcentu u proměnné x záporné znaménko, což je evdentně v rozporu s ntucí, která říká: čím je větší majetek, tím je vyšší spotřeba rodny. Tento zdánlvý rozpor je způsoben kolneartou regresorů, o čemž svědčí jejch korelační matce, 000 0, 999 R =, 0, 999, 000 kterou lze snadno zjstt tak, že vypočítáte r = r= 0, 9990 pomocí excelovské funkce =CORREL(B4:B3;C4:C3), za předpokladu, že data pro x jsou uložena v oblast B4:B3, data pro x jsou uložena v oblast C4:C3. Vysvětlující proměnné x a x jsou ko-

89 Jaroslav Ramík, Statstka 89 lneární, neboť koefcent korelace r = r= 0, 9990 je blízký k. Vypustíme-l nyní jednu z vysvětlujících proměnných, např. x majetek, a provedeme-l (jednoduchou) regres x na y, obdržíme s analogckým využtím Excelu tento výsledek: VÝSLEDEK Regresní statstka Násobné R 0,98 Hodnota spolehlvost R 0,96 Nastavená hodnota spolehlvost 0,957 R Chyba stř. hodnoty 779,60 Pozorování 0 ANOVA Rozdíl SS MS F Významnost F Regrese,3E+08,3E+08 0,8679 5,7575E-07 Rezdua ,9 Celkem 9,8E+08 Koefcenty Chyba stř. hodnotyt stat Hodnota P Dolní 95% Horní 95% Hrance 934, ,658 3,83 0,005 59, ,38 X prjmy 0,509 0,036 4,43 0,000 0,47 0,59 Vdíte, že v novém regresním modelu je regresní koefcent statstcky významný neboť odpovídající p-hodnota (sgnfkance) je menší než 0,05 (0,000...), což je ve shodě s tabulkou ANOVA. Podobně, vypustíme-l nyní vysvětlující proměnnou x příjem, a provedeme-l (jednoduchou) regres x na y, obdržíme s analogckým využtím Excelu tento výsledek: VÝSLEDEK Regresní statstka Násobné R 0,97964 Hodnota spolehlvost R 0, Nastavená hodnota spolehlvost 0, R Chyba stř. hodnoty 803,604 Pozorování 0 ANOVA Rozdíl SS MS F Významnost F Regrese,3E+08,3E+08 90,357 7,3766E-07 Rezdua ,8 Celkem 9,8E+08 Koefcenty Chyba stř. hodnotyt stat Hodnota P Dolní 95% Horní 95% Hrance 880,67 798,404 3,608 0, ,503 47,750 X majetek 0,050 0,004 3,793 0,000 0,04 0,058 Opět vdíte, že v novém regresním modelu je regresní koefcent statstcky významný, neboť odpovídající p-hodnota (sgnfkance) je menší než 0,05 (0,000...), což je ve shodě s tabulkou ANOVA. Navíc je znaménko u regresního koefcentu 0,050 kladné, což je v souhlasu s ntucí, že totž velkost spotřeby je přímo úměrná velkost majetku. * 6. Co je heteroskedastcta? Další důležtou vlastností klasckého lneárního regresního modelu je homoskedastcta. Jde o vlastnost (5.5), která spočívá v tom, že rozptyl poruchy ε v populačním lneárním regresním modelu je konstantní, tj. v modelu y = β0 + βx + βx βk xk + ε, =,,...,n, (5.) platí podmínka Var(ε) = σ I, (5.5) kde symbol I označuje jednotkovou matc. Homoskedastcta

90 Jaroslav Ramík, Statstka 90 Podmínku (5.5) je možné ekvvalentně vyjádřt také takto E(ε ) = σ, =,,...,n, (6.3) kde E je známý operátor střední hodnoty. Pokud podmínka (5.5) není splněna, potom hovoříme o heteroskedastctě. Příkladem heteroskedastcty v případě jednorozměrného lneárního regresního modelu je na Obr. 6.. Je zřejmé, že rozptyl hodnoty y se s zvětšuje s rostoucí hodnotou x. Heteroskedastcta 30 Data a regresní přímka 5 0 yt t Obr. 6.. Případ heteroskedastcty v regresním modelu Heteroskedastcta může být způsobena různým příčnam. Častou příčnou heteroskedastcty je fakt, že př postupném sběru dat se technka sběru postupně zlepšuje a chyba se proto zmenšuje. Naopak se chyba zvětšuje s přítomnost odlehlých hodnot. Dalším zdrojem heteroskedastcty je nesprávná specfkace modelu, např. tím, že jsou opomnuty důležté vysvětlující proměnné regresního modelu. Přítomnost heteroskedastcty v regresním modelu je slně nežádoucí, a to zejménaz těchto důvodů: Přítomnost heteroskedastcty způsobuje neplatnost odhadů rozptylů regresních koefcentů a tudíž také odhadů jejích ntervalů spolehlvost a testů hypotéz o jejích statstcké významnost atd., vz kap Prognózy s využtím regresního modelu obsahujícího heteroskedastctu jsou nespolehlvé a dokonce nerealstcké. 6.. Jak zjšťovat heteroskedastctu? Jak poznáme, že v regresním modelu, který jsme sestavl na základě nějakých dat, je přítomna heteroskedastcta? Podobně jako v případě multkolnearty neexstují přesná pravdla, jak detekovat přítomnost heteroskedastctu, pouze pár heurstckých zásad. Velm často poznáme přítomnost heteroskedastcty z věcné povahy problému. Například je známo, že s rostoucím věkem zaměstnanců se zvětšuje rozptyl jejch platů. Ať je typ závslost platu na věku lneární nebo ne, bude v modelu přítomna heteroskedastcta. Pokud však nemáme podobné předběžné emprcké nformace o povaze problému, předpokládáme, že heteroskedastcta není přítomna, že tudíž je rozptyl náhodné složky modelu konstatntní. Takové tvrzení pak můžeme podrobt zkoumání např. grafcké analýze nebo statstckému testu rezduí e. S oběma postupy se zde seznámíte. Grafcká analýza Zobrazíme s závslost kvadrátu rezduí e na teoretcké hodnotě Y. Na Obr. 6.3 jsou zobrazeny Povaha problému Grafcká analýza

91 Jaroslav Ramík, Statstka 9 4 důležté případy tvaru, které mohou nastat, kde Y = b 0 + b f( x, x,..., xk ) bk f k ( x, x,..., xk ), (6.4) b jsou odhady regresních parametrů získané MNČ, e = y Y (6.5) je rezduum, tj. odhad náhodné složky ε. e e e Závslost e na Y a) Y b) Y c) Y Obr Závslost e na Y Na Obr. 6.3 a) hodnota e v zásadě nezávsí na Y, což naznačuje, že náhodná složka je konstatntní a tudíž heteroskedastcta není přítomna. Na druhou stranu Obr. 6.3 b) a c) hodnota v zřejmě závsí na Y, což naznačuje přítomnost heteroskedastcty. Konkrétní tvar závslost vám dobře potvrdí zobrazení bodového dagramu závslost y na vybrané datové hodnoty j-té vysvětlující proměnné x j. e Testy heteroskedastcty Detekce heteroskedastcty s pomocí statstckého testu hypotézy je obvykle založena na nulové hypotéze, že rozptyly náhodné složky ε jsou konstantní, přčemž se analyzují jejch odhady, tj. rezdua e. V lteratuře můžete nalézt podrobné testy heteroskedastcty s názvy jako Parkův test, Glejserův test, Goldfeld-Quandtův test aj., vz např. [Gujarat]. Tyto statstcké testy lze provádět pomocí specalzovaných statstíckých programů, např. SPSS, v Excelu specalzované funkce na tyto testy bohužel chybí. My s zde proto ukážeme tzv. Bartletův test heteroskedastcty, který představuje zjednodušený Goldfeld-Quandtův test a lze k jeho provedení využít funkce Excelu. Bartleyův test Test vychází z rozdělení dat podle velkost (některé) vysvětlující proměnné označíme j X - do dvou částí: x xˆ a x > xˆ, přtom jsou data uspořádána podle X, xˆ je medán z x. Testy heteroskedastcty Bartleyův test Testuje se hypotéza o rovnost rozptylů rezduí v obou částech (v Excelu: Analýza dat, Dvouvýběrový F-test pro rozptyl, ) Pokud se hypotéza o rovnost rozptylu rezduí v obou částech zamítá, potom se hypotéza o konstantnost rozptylu náhodné složky, nebol hypotéza o přítomnost heteroskedastcty, přjímá (a obráceně). Použtí Bartleyova testu s ukážeme na příkladu. Ještě předtím se budeme zabývat otázkou, jak odstrant zjštěnou heteraskedastctu, tj. jak modfkovat původní model tak, aby heteraskedastctu neobsahoval.

92 Jaroslav Ramík, Statstka Jak odstraňovat heteroskedastctu? Nejznámější metodou k odstranění heteroskedastcty je metoda vážených nejmenších čtverců MVNČ. V MVNČ předpokládáme určtý typ nekonstantního chování rozptylu náhodné složky. Předpoklad : Rozptyl náhodné složky je přímo úměrný kvadrátu vysvětlující proměnné x, tj. E(ε ) = σ x, =,,...,n. (6.6) Transformovaný regresní model získáme tak, že regresní rovnc y = β 0 + βx + ε, =,,...,n, (6.7) vydělíme hodnotou x, čímž obdržíme y β0 ε = + β+ = β0 + β+ δ, =,,...,n, (6.8) x x x x kde pro novou náhodnou chybu δ platí po dosazení z (6.6) ε E ( δ ) = E( ) = σ, =,,...,n. (6.9) x y Provedením transformace y =, x =, =,,...,n. (6.0) x x obdržíme z (6.8) nový regresní model y = β + β0x + δ, =,,...,n. (6.) což je nový lneární regresní model podle (6.9) však bez heteroskedastcty. Uvažoval jsme jednoduchý regresní model, avšak rozšíření výše uvedeného postupu na vícerozměrný regresní model je snadné. Předpoklad modfkujeme tak, že rozptyl náhodné složky je přímo úměrný kvadrátu vysvětlující proměnné x j, tj. E(ε ) = σ, =,,...,n. (6.6) x j Namísto modelu (6.7) uvažujeme model y = β 0 + βx+ βx ε, =,,...,n. (6.7*) Pro nový vícerozměrný regresní model použjeme namísto transformace (6.0) nová transformovaná data y xk y =, xj =, xk =, k j, =,,...,n. (6.0*) x x x j j j Metoda vážených nejmenších čtverců Předpoklad : Rozptyl náhodné složky je přímo úměrný vysvětlující proměnné x, tj. E(ε ) = σ x, =,,...,n. (6.) Transformovaný regresní model získáme tak, že regresní rovnc y = β 0 + βx + ε, =,,...,n, (6.3) vydělíme hodnotou y β x, čímž obdržíme ε β x + = β0 x 0 = + + β x x x x + ϑ, =,,...,n, (6.4) kde pro novou náhodnou chybu δ platí po dosazení z (6.) ε E ( ϑ ) = E( ) = σ, =,,...,n. (6.5) x Provedením transformace y,, x x x x y = x = =, =,,...,n. (6.6) obdržíme z (6.6) nový regresní model y = β 0 x + βx + ϑ, =,,...,n. (6.7) což je nový lneární regresní model bez úrovňové konstanty podle (6.5) však bez heteroskedas-

93 Jaroslav Ramík, Statstka 93 tcty. Rozšíření na vícerozměrný regresní model je možné udělat analogcky jako v případě Předpokladu. Odstranění heteroskedastcty s praktcky vyzkoušíte v následujícím řešeném příkladu. ŘEŠENÝ PŘÍKLAD 6- V následující tabulce jsou uvedeny příjmy a spotřební výdaje 30 rodn v ts. Kč/rok. Vytvořte lneární regresní model závslost výdajů na příjmech, grafcky a statstckým testem zjstěte přítomnost heteroskedastcty. Z původního modelu pak heteroskedastctu odstraňte pomocí MVNČ. Použjte přtom Excel. č.rodny Výdaje Příjmy č.rodny Výdaje Příjmy Řešení příkladu V Excelu vytvoříme z daných údajů graf: XY bodový a pomocí pravého tlačítka ncujeme nabídku s volbou Přdat spojnc trendu... V podnabídce Možnost zaklkneme položky: Zvolt rovnc regrese a Zvolt koefcent spolehlvost (tj. koefcent determnace). Obdržíme výsledek, z něhož vyplývá lneární regresní model: y = 9,9 + 0,64.x + ε vz následující graf.

94 Jaroslav Ramík, Statstka 94 Závslost spotřebních výdajů na příjmech rodn 40 y = 0,5908x + 6,75 R = 0, Dále vedle sloupce y vytvoříme pomocí vzorce regresní rovnce sloupec teoretckých hodnot Y. Další sloupec vytvoříme jako rozdíl sloupců y a Y, což bude sloupec rezduí. Poslední sloupec bude druhá mocnna rezduí. Společně pak vytvoříme XY bodový graf mez Y a e. Výsledkem je následující graf, který napovídá přítomnost heteroskedastcty, neboť body v grafu netvoří pás rovnoběžný s vodorovnou osou, jako na Obr. 6.3 a), ale spíše kužel, jako na Obr. 6.3 b). Závslost e na Y 3500, ,00 500,00 000,00 500,00 000,00 500,00 0, Obr Příklad: Kužel závslost e na Y K exaktnímu prokázání heteroskedastcty použjeme Bartleyův test. Podle rostoucích hodnot X Příjmů seřadíme hodnoty rezduí a z nch vytvoříme dva stejně velké soubory e a e:

95 Jaroslav Ramík, Statstka 95 Příjmy e Příjmy e 80, , , , , ,9 00 -, , , ,05 0-0, ,8 5 4, ,37 0-4,46 5 3,5 5-0, , , , ,78 40,4 45 -,8 45 0, , , , , , ,08 Budeme testovat, zda rozptyly obou souborů jsou stejné pomocí F-testu z Excelu: V menu: Nástroje Analýza dat Dvouvýběrový F-test pro rozptyl zadáme umístění oblastí sloupců e a e, eventuální popsky a oblast výstupu. Obdržíme výstup: Dvouvýběrový F-test pro rozptyl Soubor Soubor Stř. hodnota 0,3665-0,3665 Rozptyl 35, ,779 Pozorování 5 5 Rozdíl 4 4 F 0,04564 P(F<=f) () 3,89E-07 F krt () 0,406 V tomto výstupu je důležtá P-hodnota: P(F<=f) () = 3,89 E-07 = 0, < 0,05. Na hladně α = 0,05 proto nulovou hypotézu H o : Rozptyly obou uvažovaných souborů jsou stejné zamítáme. Uvažované soubory mají různý rozptyl, což znamená, že rozptyl náhodné složky regresního modelu není konstantní, nebol že heteroskedastcta je v modelu přítomna. Nakonec ukážeme, jak přítomnou heteroskedastctu odstrant. V Obr. 6.4 se body grafu nacházejí v lneárním kuželu, proto zvolíme pro transformac Předpoklad. y Transformace podle (6.6): y =, x =, x = x, =,,...,30. x x obdržíme nový regresní model y = 6, 75x + 0, 59 x + ϑ, =,,..., 30, který je bez heteroskedastcty.

96 Jaroslav Ramík, Statstka 96 č.rodny y x x č.rodny y x x 7,379 0, 8, ,57 0,075 3,46 6,500 0,00 0, ,000 0,067 5, ,593 0,08 9,0 8 7,670 0,077 3, ,68 0,095 0, ,360 0,065 5,49 5 7, 0,09 0, ,087 0,074 3,60 6 7,833 0,093 0,74,596 0,067 4,83 7 8,595 0,088,40 3,88 0,066 5,66 8 8,09 0,085,83 3,80 0,064 5,65 9 8,050 0,089,80 4 8,68 0,06 6,5 0 7,906 0,05 9, ,794 0,073 3,784 7, 0,098 0,47 6 9,778 0,070 4,38 8,696 0,079, ,960 0,07 4,4 3 9,6 0,08,47 8 3,997 0,06 6,43 4 9,73 0,078, ,034 0,066 5,66 5 8,969 0,083, ,55 0,059 7,09 * 6.3 Co je autokorelace? Autokorelace je korelace mez pozorováním uspořádaným v čase (data jsou časové řady) nebo v prostoru (data jsou průřezová, tj. v jednom časovém okamžku/ntervalu). Říkáme, že v regresním modelu není přítomná autokorelace, jestlže náhodné velčny jsou vzájemně nekorelované, symbolcky to lze vyjádřt takto E(ε. ε j ) = 0, j,,j =,,...,n. (6.8) Jestlže naopak exstuje dvojce ndexů j, přčemž platí E(ε. ε j ) 0, řekneme, že v regresním modelu je přítomna autokorelace. Autokorelace se nejčastěj vyskytuje v regresních modelech založených na datech ve formě časových řad. Potom ndexy, (resp. j) představují časové okamžky t. Časovým řadám a jejch analýze se budou věnovat následující kaptoly 8 až, kde bude podrobněj pojednáno také o autokorelac. Následující Obr. 6.5 dává příklad dvou regresních modelů dat, z nchž jeden je správně specfkován (nelneární regresní model černá křvka), druhý je nesprávně specfkován (lneární regresní křvka červená přímka). Nesprávná specfkace modelu zapříčíňuje, že rezdua jsou vzájemně korelována, což se projevuje tak, že datové body leží vždy ve větší oblast podél vodorovné osy na jedné straně regresní křvky, zatímco v případě nekorelovaných rezduí leží datové body rovnoměrně po obou stranách regresní křvky v celé oblast vodorovné osy (tj. nezávsle proměnné). Autokorelace Nesprávná specfkace modelu

97 Jaroslav Ramík, Statstka 97 Špatná specfkace modelu Správná specfkace modelu Obr Autokorelace: špatná a správná specfkace modelu SHRNUTÍ KAPITOLY V této kaptole jste se naučl dentfkovat, analyzovat a odstraňovat problémy, které způsobuje nesplnění hlavních předpokladů klasckého vícerozměrného lneárního regresního modelu: multkolnearta a heteroskedastcta. Dozvěděl jste se také, co je autkorelace, kterou se budete zabývat pozděj v kaptolách o analýze časových řad. SAMOSTATNÉ ÚKOLY 6 Řešte pomocí Excelu. 6. V následující tabulce jsou uvedeny hodnoty obratu, výdajů na vědu a výzkum (VaV) a zsku za 8 průmyslových odvětví v USA v roce 990. Vytvořte lneární regresní model závslost zsku na obratu a výdajích na VaV. Zjstěte, zda je v modelu přítomna multkolnearta a heteroskedastcta. Použjte postupy, které jste se naučl v této kaptole. Obrat VaV Zsk 6375,3 6,5 85, 66,4 9,9 569,5 4655, 78,3 76,8 869, 58,4 88, 6408,3 494,7 5,9 3405,6 083,0 375,9 3507,7 60,6 884, 4095,4 4,7 4645,7 7076,6 509, 5036,4 8055,8 660, 3869,9 9594,0 398,6 4487,8 034, 595,3 078,9 64,3 607,5 8787,3 35,7 4454, 6438,8 4649,9 363,8 976,4 7505,8 30,7 9774,5 3064,5 703,8 66, ,0 958, 845,4

98 Jaroslav Ramík, Statstka 98 ŘEŠENÍ A ODPOVĚDI 6.

99 Jaroslav Ramík, Statstka 99 7 FIKTIVNÍ PROMĚNNÉ CÍLE KAPITOLY Po úspěšném a aktvním absolvování této KAPITOLY Budete umět: porozumět rozdílu mez kvaltatvním a fktvním proměnným v regresní analýze, objasnt dva typy konstrukce fktvních proměnných u kvaltatvních proměnných s několka hodnotícím kategorem, vysvětlt nterpretac regresních koefcentů v regresním modelu u fktvních proměnných, aplkovat fktvní proměnné k analýze sezónních časových řad, použít regresní model bez úrovňové konstanty v regresních modelech s fktvním vysvětlujícím proměnným. Budete umět Získáte: schopnost dentfkovat a analyzovat problémy, které lze řešt s využtím fktvních vysvětlujících proměnných ve vícerozměrné regresní analýze. Získáte Budete schopn: Řešt praktcké úlohy regresní analýzy s použtím fktvních vysvětlujících proměnných, přtom zejména s využtím funkcí Excelu. Budete schopn RYCHLÝ NÁHLED DO PROBLEMATIKY KAPITOLY Jedním ze způsobů jak kvantfkovat přítomnost nebo nepřítomnost nějaké vlastnost je konstrukce nových proměnných, které toto vyjadřují pomocí čísel nebo 0, přtom ndkuje přítomnost a 0 nepřítomnost vlastnost. Tyto proměnné, které se nazývají fktvní proměnné (anglcky dummy varables), mají časté použtí př analýze ekonomckých problémů závslost mez ekonomckým velčnam. V této kaptole se naučíte použít fktvní vysvětlující proměnné ve vícerozměrných regresních modelech. Rychlý náhled ČAS POTŘEBNÝ KE STUDIU Čas ke zvládnutí problematky této kaptoly včetně výpočetních dovedností s pomocí Excelu je přblžně - 3 hodny. KLÍČOVÁ SLOVA KAPITOLY Fktvní proměnná, dummy proměnná, regresní model, analýza rozptylu, ANOVA, nezávslé proměnná, závsle proměnná, determnační koefcent, korelační koefcent, časová řada, sezónní Klíčová slova

100 Jaroslav Ramík, Statstka 00 složka. PRŮVODCE STUDIEM 7 Fktvní proměnné lze zavést do regresního modelu stejně snadno, jako jakékolv jné kvanttatvní proměnné, které jsme např. použl v předchozí kaptole o vícenásobné regresní analýze. V této kaptole s ukážeme, jak vytvořt regresní model, který obsahuje výlučně fktvní vysvětlující proměnné, jak tento model souvsí s dříve použtou metodou ANOVA, a také jak využít model, který je kombnací fktvních a obvyklých kvanttatvních vysvětlujících proměnných. Dále ukážeme, jak lze fktvní proměnné výhodně použít pro sezónní data k dentfkac jednotlvých sezón a analýze problému závslostí mez ekonomckým velčnam. 7. Co jsou fktvní proměnné? V regresní analýze je závsle proměnná (krtérum) ovlvňována často nejen kvanttatvním proměnným (regresory) jako například příjem rodn, ceny výrobků, náklady podnků atd., ale také proměnným, které mají kvaltatvní povahu, jako jsou pohlaví zákazníků, jejch národnost, vzdělání, regon apod. Tyto proměnné obvykle představují přítomnost nebo naopak nepřítomnost nějaké kvalty nebo vlastnost, jako jsou v případě pohlaví zákazníků muž nebo žena, v případě národnost Čech nebo Slovák, v případě vzdělání základní (Z), středoškolské (S) nebo vysokoškolské (V) apod. Jedním ze způsobů jak kvantfkovat takové vlastnost je konstrukce nových proměnných, které vyjadřují přítomnost nebo nepřítomnost příslušné vlastnost pomocí čísel nebo 0, přtom ndkuje přítomnost a 0 nepřítomnost vlastnost. Tyto proměnné se nazývají fktvní proměnné (anglcky dummy varables). Fktvní proměnné lze zavést do regresního modelu stejně snadno, jako jakékolv jné kvanttatvní proměnné, které jsme např. použl v předchozí kaptole. Můžeme však vytvořt regresní model, který obsahuje výlučně fktvní vysvětlující proměnné. S nm jste se vlastně jž setkal v. a. kaptole v rámc ANOVA. 7. Fktvní proměnné a ANOVA Nejprve budeme vyšetřovat stuac pouze s kvaltatvní vysvětlující proměnnou, která nabývá K hodnot (kategorí) Z 0, Z, Z,...,Z K-. Tuto kvaltatvní proměnnou nahradíme K- fktvním vysvětlujícím proměnným : d,..., d K-, defnovaným takto: d = pokud kvaltatvní proměnná nabývá hodnoty Z, = 0 jnak. d = pokud kvaltatvní proměnná nabývá hodnoty Z, = 0 jnak.... d K- = pokud kvaltatvní proměnná nabývá hodnoty Z K-, = 0 jnak. Kvaltatvní vysvětlující proměnná Budeme uvažovat regresní model y = β 0 + β d + β d β K- d K-, + ε (7.) s vysvětlovanou proměnnou y představující vysvětlovanou (závsle) proměnnou a K- fktvním vysvětlujícím proměnným: d,..., d K-, ε je náhodná složka. Všml jste s as, že k vyjádření K kategorí jsme použl K- fktvních proměnných. Možná vás napadla otázka: proč jsme nepoužl též proměnnou d 0 pro kategor Z 0 podobně jako pro ostatní kategore? Pokud kvaltatvní proměnná nabývá hodnoty Z 0, potom podle defnce všechny zavedené fktvní proměnné : d,..., d K-, nabývají hodnoty 0, a tudíž je v regresním modelu (7.)

101 Jaroslav Ramík, Statstka 0 stuace popsána rovncí y = β 0 + ε. (7.) Průměrná hodnota vysvětlované proměnné y je tedy vyjádřena regresní úrovňovou konstantou β 0. Poznámka. Kdybychom však postupoval tak, že bychom použl proměnnou d 0 pro kategor Z 0, podobně jako pro ostatní kategore, pak by došlo k stuac perfektní kolnearty mez vysvětlujícím fktvním proměnným, což je nežádoucí stuace popsaná v předchozí kaptole. V tomto případě bychom mohl použít regresní analýzu s modelem bez úrovňové konstanty, tj. regresní model y = β 0 d 0 + β d + β d β K- d K-, + ε. (7.3) K tomuto regresnímu modelu se vrátíme ještě v subkaptole 7.4, která se bude zabývat použtím fktvních proměnných u sezónních dat. Souvslost s ANOVA Ke stanovení odhadů regresních koefcentů modelu (7.), eventuálně model (7.3), použjeme metodu nejmenších čtverců, tedy vícerozměrnou regresní analýzu z kaptoly 5. Stejně tak můžete k řešení výchozí stuace použít jednofaktorovou ANOVA, přtom nezávslým faktorem bude uvažovaná kvaltatvní proměnná s K kategorem. Vztah mez metodou ANOVA a metodou regresní analýzy vysvětlíme na konkrétním příkladu, který budeme řešt s pomocí Excelu. ŘEŠENÝ PŘÍKLAD 7- Analyzujte závslost výdajů rodn na letní dovolenou na vzdělání rodčů (nejvyšší vzdělání alespoň jednoho z rodčů je základní - ZŠ, středoškolské - SŠ, vysokoškolské - VŠ). Použjte metodu ANOVA a poté vícerozměrnou regresní analýzu. Srovnejte oba výsledky. Data za 5 rodn jsou uvedena v následující tabulce. Přtom Y představují výdaje rodny na letní dovolenou, d = jestlže rodče mají vzdělání SŠ, 0 jnak, d = jestlže rodče mají vzdělání VŠ, 0 jnak. Výdaje rodna na dovolenou

102 Jaroslav Ramík, Statstka 0. Řešení příkladu y - výdaje na dov. d - SŠ d - VŠ Budeme uvažovat regresní model y = β 0 + β d + β d + ε s vysvětlovanou proměnnou y představující výdaje rodny na letní dovolenou a dvěma fktvním proměnným: d - rodče mají vzdělání SŠ, d - rodče mají vzdělání VŠ. Všmněte s, že k vyjádření K = 3 kategorí (ZŠ, SŠ, VŠ) jsme použl fktvní proměnné. K výpočtu regresních koefcentů použjeme Excelu. V hlavním menu otevřeme postupně položky: Nástroje Analýza dat... Regrese Data uložíme ve worksheetu v pol s adresou a:c6 (vz níže), zadávací okno vyplníme takto: Zadáme OK. Ve výstupu dostaneme jak výsledek metody ANOVA, tak výsledek regresní analýzy. V první tabulce výstupu: Regresní statstka nás zajímá druhá hodnota koefcent determnace (Hodnota spolehlvost R), tj. R = 0,953. Ve druhé tabulce ANOVA (vz níže) jednotlvé položky mají následující význam: Regrese = mezskupnový

103 Jaroslav Ramík, Statstka 03 Rezdua = vntroskupnový Celkem = celkový SS = Součet čtverců (Sum of Squares) Rozdíl = stupeň volnost (DF Degree of Freedom) MS = Průměr čtverců (Mean Square) F = testové krtérum =,34 Významnost F = Sgnfkance (p-hodnota) = 0, < 0,05 = α Faktor vzdělání vyjádřený kategorem ZŠ, SŠ, VŠ je tudíž statstcky významný. Poměr determnace P = 0,953 se vypočte jako podíl mezskupnového a celkového součtu čtverců (vypočtěte, konfrontujte s kaptolou!!!). Vdíte, že R = P, tedy v případě fktvních proměnných je koefcent determnace defnovaný v regresní analýze totožný s poměrem determnace z ANOVA. Odtud plyne, že také koefcent korelace je totožný s poměrem korelace z ANOVA. Přléhavost dat k regresní rovně je tedy totéž, co těsnost závslost s níž jste se setkal v metodě ANOVA. Poslední tabulka výstupu přnáší hodnoty odhadů regresních koefcentů: Hrance = b 0 = 7,8, SŠ = b = 6,, VŠ = b = 49,6. Ve sloupc Hodnota P (sgnfkance) jsou všechna čísla mnohem menší, než běžná hladna významnost α =0,05, tedy hodnoty regresních koefcentů jsou statstcky významné. Přtom hodnota b 0 = 7,8 představuje průměrné výdaje rodny, kde rodče mají pouze základní vzdělání, b = 6, představuje průměrný nárůst výdajů na letní dovolenou př nárůstu fktvní proměnné d z 0 na, tedy průměrné výdaje rodny, kde rodče mají středoškolské vzdělání, jsou b 0 + b = 34,0 ts. Kč. Hodnota regresního koefcentu b = 49,6 představuje průměrný nárůst výdajů na letní dovolenou př nárůstu fktvní proměnné d z 0 na, tedy průměrné výdaje rodny, kde rodče mají vysokoškolské vzdělání, jsou b 0 + b = 67,4 ts. Kč. Poslední dva sloupce tabulky udávají dolní a horní hranc 95%-ního ntervalu spolehlvost pro příslušný regresní koefcent. *

104 Jaroslav Ramík, Statstka Společné fktvní a kvanttatvní proměnné Nyní budeme vyšetřovat stuac, která se v ekonomcké oblast často vyskytuje: současně se vyskytují jak s fktvní vysvětlující proměnné (nabývají pouze hodnot 0 a ), tak kvanttatvní vysvětlující proměnné (mohou nabývat lbovolných číselných hodnot). Pro jednoduchost se v následujícím textu omezíme na přítomnost pouze jedné kvanttatvní proměnné, případ přítomnost více kvanttatvních proměnných je analogcký. Uvažujme tedy regresní model y = β 0 + β d + β d β K- d K-, + b K x K, + ε (7.4) s vysvětlovanou proměnnou y, K- fktvním vysvětlujícím proměnným: d,..., d K- a kvanttatvní vysvětlující proměnnou x K, přtom ε je náhodná složka. Pro lustrac budeme uvažovat následující příklad, který je rozšířením příkladu z předchozí subkaptoly. Fktvní a kvanttatvní proměnné ŘEŠENÝ PŘÍKLAD 7- Analyzujte závslost výdajů rodn na letní dovolenou na vzdělání rodčů (nejvyšší vzdělání alespoň jednoho z rodčů je základní - ZŠ, středoškolské - SŠ, vysokoškolské - VŠ), jakož na příjmech rodn. Data za 5 rodn jsou uvedena v následující tabulce. Přtom y představují výdaje rodn na letní dovolenou, x představují roční příjem rodn (obojí v Kč), dále uvažujeme dvě fktvní proměnné: d = jestlže rodče mají vzdělání SŠ, 0 jnak, d = jestlže rodče mají vzdělání VŠ, 0 jnak. Výdaje rodna na dovolenou. Řešení příkladu y - výdaje na dov. d - SŠ d - VŠ x - příjmy Budeme uvažovat regresní model y = β 0 + β d + β d + β 3 x + ε s vysvětlovanou proměnnou y představující výdaje rodny na letní dovolenou, dvěma fktvním proměnným: d - rodče mají vzdělání SŠ, d - rodče mají vzdělání VŠ a jednou kvanttatvní vysvětlující proměnnou x. V hlavním menu otevřeme postupně položky: Nástroje Analýza dat... Regrese Data uložíme ve worksheetu v pol s adresou a:d6 (vz níže), zadávací okno vyplníme takto:

105 Jaroslav Ramík, Statstka 05 Zadáme OK. V první tabulce výstupu: Regresní statstka nás zajímá druhá hodnota koefcent determnace (Hodnota spolehlvost R), tj. R = 0,96. Přléhavost dat k regresní nadrovně je 96%. Druhá tabulka ANOVA (vz níže) však jž nemá význam klascké metody ANOVA jako v příkladu 7.. Dále se jí nebudeme zabývat. Poslední tabulka výstupu přnáší hodnoty odhadů regresních koefcentů: Hrance = b 0 = -,86, d-sš = b = -0,68, d-vš = b = 4,47, x-příjmy = b 3 = 0,7, vz následující tabulka: VÝSLEDEK Regresní statstka Násobné R 0,99866 Hodnota spolehlvost R 0, Nastavená hodnota spolehlvost R 0, Chyba stř. hodnoty, Pozorování 5 ANOVA Rozdíl SS MS F Významnost F Regrese ,687 9, 054,6605 8,7968E-4 Rezdua 3,5064,37 Celkem 4 670, Koefcenty Chyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95% Hrance -,860,694-4,774 0,00-8,789-6,93 d - SŠ -0,680,708-0,398 0,698-4,439 3,079 d - VŠ 4,47 3,956,30 0,8-4,36 3,79 x - příjmy 0,7 0,05,78 0,000 0,40 0,05 Ve sloupc Hodnota P (sgnfkance) jsou u koefcentů b (0,698) a b (0,8) hodnoty sgnfkance větší, než běžná hladna významnost α =0,05, tedy hodnoty těchto regresních koefcentů nejsou statstcky významné (nulovou hypotézu, že b = 0 přjímáme) a nemají proto na vysvětlovanou proměnnou (tj. výdaje na dovolenou) vlv. Ukazuje se, že mnohem významnější vlv má vysvětlující proměnná x, u které je regresní koefcent b 3 (0,7) statstcky významný, stejně jako koefcent b 0 (-,86). Přtom hodnota b 0 = -,86 představuje teoretckou hodnotu výdajů na dovolenou v (nerealstckém) případě nulových příjmů rodny. Ve srovnání s příkladem 7., kde jsme použl stejná data ochuzená o údaje o příjmech rodn, jsme obdržel velm odlšný výsledek. Tento výsledek však není s předchozím v rozporu, jak by se mohlo zdát. K původním datům jsme totž

106 Jaroslav Ramík, Statstka 06 přdal data nová, která jsme použl pro naš analýzu a přtom se ukázalo, že pak výdaje na dovolenou nezávsí na vzdělání rodn, nýbrž závsí na příjmech rodn, které jsou pro danou závslost mnohem významnější. * 7.4 Fktvní proměnné v sezónních modelech Mnoho ekonomckých údajů se nachází ve formě tzv. časových řad, kdy údaje jsou uspořádány podle sledované rostoucí časové posloupnost. Může se např. jednat o denní (měsíční, roční) hodnoty tržeb v jstém supermarketu. V těchto časových řadách se často projevují tzv. sezónní vlvy, které se pravdelně opakují v jstých obdobích, např. v letní (zmní) sezónu, o Vánocích, Velkonocích apod. Během uvažovaných sezón se chování hodnot sledovaného znaku odlšuje od běžného chování ve zbytku sledovaného období, zaznamenáváme v chování tzv. sezónní složku. Podrobněj se budeme analýzou časových řad zabývat v následujících kaptolách tohoto textu. Na tomto místě uvedeme na příkladu stuac, kdy je možné k analýze časové řady se sezónním složkam využít s výhodou fktvních proměnných, které dentfkují tyto sezónní složky a umožňují tak odstranění sezónnost k lepšímu pochopení chování sledovaného ukazatele. V prax jsou důležté časové řady, jako např. míra nezaměstnanost, spotřebtelský cenový ndex (CPI), ndex průmyslové výroby aj., publkovány ve formě časových řad očštěných od sezónnost. Pro lustrac technky fktvních proměnných budeme uvažovat příklad měsíčních tržeb za prodej lednček v jstém supermarketu. Sezónam zde budou 4 čtvrtletí roku, proto budeme uvažovat regresní model se 4 fktvním proměnným bez úrovňové konstanty. Tento postup jsme zvoll proto, abychom ukázal druhou možnost volby počtu fktvních vysvětlujících proměnných, vz subkaptolu 7. (a Poznámku tam uvedenou), kde jsme použl metodu, která by vedla v tomto případě ke 3 fktvním proměnným, avšak s úrovňovou konstantou. Zde tedy uvádíme druhý způsob řešení: se 4 fktvním proměnným avšak bez úrovňové konstanty. Budeme uvažovat následující regresní model y = β 0 d 0 +β d + β d +β 3d 3, + ε, (7.5) kde y je vysvětlovaná proměnná měsíční prodej lednček, d, =0,,,3, jsou fktvní proměnné pro první, druhé, třetí a čtvrté čtvrtletí roku. Data prodejů za 3 po sobě jdoucích měsíců (v ts. Kč) jsou uvedena v následující tabulce. Sezónní modely Příklad: Prodej lednček y - tržby d0 d d d3 y - tržby d0 d d d Uvedeme řešení pomocí Excelu. V hlavním menu otevřeme postupně položky: Řešení v Excelu

107 Jaroslav Ramík, Statstka 07 Nástroje Analýza dat... Regrese Data uložíme ve worksheetu v pol s adresou a:e33 (vz níže), zadávací okno vyplníme takto: Všmněte s, že jsme zaklkl položku Konstanta je nula. Tato volba umožňuje řešení regresního modelu bez úrovňové konstanty. Po zadání OK obdržíme řešení, vz následující tabulka. Odhady regresních koefcentů, které jsou všechny statstcky významné (vz sloupec Hodnota P, jde o velm malá čísla), má regresní nadrovna rovnc y =,3d ,50d + 569,75d +60,00d 3. (7.6) Regresní koefcenty v (7.6) představují průměrné hodnoty prodejů v jednotlvých čtvrtletích. Zvolíme-l jako výchozí úroveň hodnoty prodejů v. čtvrtletí, potom sezónní faktor S -tého čtvrtletí obdržíme jako rozdíl mez b a b 0, tj. S = b - b 0. V našem příkladu je S 0 = 0, S = 45,38, S = 47,63, S 3 = -6,3. Další použtí fktvních proměnných s ukážeme v kaptole o sezónních modelech časových řad. VÝSLEDEK Regresní statstka Násobné R 0,7944 Hodnota spolehlvost R 0,53797 Nastavená hodnota spolehlvost R 0,44598 Chyba stř. hodnoty 69,6785 Pozorování 3 ANOVA Rozdíl SS MS F Významnost F Regrese , ,0007 Rezdua ,8 Celkem 3 Koefcenty Chyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95% Hrance 0 #N/A #N/A #N/A #N/A d0,3 0,37,5E-8 099,4 345,0 d 467,50 4,464,94E-0 344,65 590,385 d 569,75 6,6668 3,8E- 446,865 69,635 d3 60,00 9,3364 9,8E-8 037,5 8,885 SHRNUTÍ KAPITOLY Jedním ze způsobů jak kvantfkovat přítomnost nebo nepřítomnost nějaké vlastnost je konstrukce nových proměnných, které toto vyjadřují pomocí čísel nebo 0, přtom ndkuje pří-

Zobrazit více