Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Lucie Dřizgová. Multikolinearita
|
|
- František Dušek
- před 7 lety
- Počet zobrazení:
Transkript
1 Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Lucie Dřizgová Multikolinearita Katedra pravděpodobnosti a matematické statistiky Vedoucí diplomové práce: Doc. RNDr. Karel Zvára, CSc. Studijní program: Matematika Studijní obor: Pravděpodobnost, matematická statistika a ekonometrie Studijní plán: Ekonometrie
2 i Poděkování Děkuji vedoucímu své diplomové práce Doc. RNDr. Karlu Zvárovi, CSc. za cenné rady a připomínky, které mi pomohly k vylepšení textu. Čestné prohlášení Prohlašuji, že jsem svoji práci napsala samostatně a výhradně s použitím citovaných pramenů. Souhlasím se zapůjčováním práce. V Praze dne 16. dubna 2010 Lucie Dřizgová
3 ii Abstrakt Název práce: Multikolinearita Autor: Lucie Dřizgová Katedra: Katedra pravděpodobnosti a matematické statistiky Vedoucí diplomové práce: Doc. RNDr. Karel Zvára, CSc. vedoucího: karel.zvara@mff.cuni.cz Abstrakt: V naší práci jsme se komplexně zabývali problémem multikolinearity od metod pro diagnostiku multikolinearity až po metody určené pro překonání problémů multikolinearitou způsobených. Teoreticky jsme porovnali klasickou metodu nejmenších čtverců s alternativními metodami regresí na hlavních komponentách, regresí pomocí parciálních nejmenších čtverců a hřebenovou regresí. V závěrečné sekci jsme ukázali použití všech metod na praktickém příkladu zpracovaném v programu R. Klíčová slova: Multikolinearita, regrese na hlavních komponentách, parciální nejmenší čtverce, hřebenová regrese. Abstract Title: Multicollinearity Author: Lucie Dřizgová Department: Department of Probability and Mathematical Statistics Supervisor: Doc. RNDr. Karel Zvára, CSc. Supervisor s address: karel.zvara@mff.cuni.cz Abstract: In our work, we explored multicollinearity problem from a complex point of view from diagnostic methods to the solving of the problems which are caused by the multicollinearity. We compared the Least Squares method with some alternative methods Principal Component Regression, Partial Least Squares Regression and Ridge Regression on the theoretical basis. In the last section, we demonstrated all methods on practical example computed in the program R. Key words: Multicollinearity, Principal Component Regression, Partial Least Squares, Ridge Regression.
4 Obsah 1 Úvod 2 2 Problém multikolinearity 4 3 Diagnostika multikolinearity 9 4 Metoda nejmenších čtverců 14 5 Regrese na hlavních komponentách 16 6 Metoda parciálních nejmenších čtverců 21 7 Hřebenová regrese 24 8 Zpracování dat Úpravy a popisné statistiky dat Rozdělení dat na trénovací a testovací Diagnostika multikolinearity Metoda nejmenších čtverců Regrese na hlavních komponentách Metoda parciálních nejmenších čtverců Hřebenová regrese Porovnání předpovědí pro testovací data Závěr 51 Literatura 52 1
5 Kapitola 1 Úvod V klasickém lineárním regresním modelu předpokládáme několik základních vlastností. Jednou z nich je lineární nezávislost vysvětlujících proměnných. Pokud dojde k porušení tohoto předpokladu a vysvětlující proměnné budou lineárně závislé, pak některé regresní parametry nebudou odhadnutelné. V případě, že vysvětlující proměnné budou téměř lineárně závislé, mohou mít odhady parametrů modelu metodou nejmenších čtverců značný rozptyl a být numericky nestabilní (při malé změně v hodnotách vysvětlujících proměnných se velmi změní odhad parametru), což snižuje oprávněnost jejich použití. Právě problematickou situací, kdy máme vysvětlující proměnné vzájemně téměř lineárně závislé, se budeme v naší práci zabývat a ukážeme si metody, které si s multikolinearitou vysvětlujících proměnných poradí těmi jsou například regrese na hlavních komponentách (Principal Component Regression), regrese parciálních nejmenších čtverců (Partial Least Squares Regression) a hřebenová regrese (Ridge Regression). Jako první se uvažované metody začaly široce uplatňovat v chemometrii, v oboru zabývajícím se aplikacemi statistických metod na analýzu chemických dat. Jak upozorňují Franková a Friedman v [8], odhady pomocí metody parciálních nejmenších čtverců, regrese na hlavních komponentách nebo hřebenové regrese jsou výhodně aplikovány v analýze dat z potravinových výzkumů, z experimentů analytické chemie nebo z environmentálních studií. Jedním z důvodů je fakt, že díky vysokým cenám jednotlivých experimentů zde často dochází k situacím, kdy měřených veličin ovlivňujících pokus bylo mnohem více než počet pozorování. Využití těchto metod se samozřejmě neomezuje jen na analýzy dat zmíněných výše. Stone a Brooks v článku [19] zkoumají počet nehod v Minnesotě, Kidwellová a Brownová v článku [11] pomocí hřebenové regrese analyzují data o spokojenosti v manželství. My si v naší práci ukážeme použití těchto metod na reálných datech výnosnosti 2
6 KAPITOLA 1. ÚVOD 3 poboček sázkové kanceláře Chance. V jednotlivých kapitolách nejprve zavedeme značení používané v celé práci a popíšeme si důsledky multikolinearity. Poté si poradíme s diagnostikou multikolinearity. Dále se budeme postupně zaobírat regresí na hlavních komponentách, metodou parciálních nejmenších čtverců a hřebenovou regresí a jednotlivé metody srovnáme s metodou nejmenších čtverců. Ve výkladu budeme občas přecházet mezi náhodnými proměnnými a mezi naměřenými hodnotami proměnných, jako tomu často bývá u technické literatury, ze které jsme vycházeli. Věřím, že pro čtenáře nebude problém se ve výkladu orientovat. K metodám používaným pro regresi na téměř lineárně závislých datech existuje mnoho literatury. Citujeme ji obvykle přímo u popisovaných metod. Základní myšlenky všech metod jsou uvedeny v článcích Stone a Brooks [19], Franková a Friedman [8] nebo knize Rao, Toutenburg, Shalabh, Heumann [17]. Pro rozšíření naší práce mohou sloužit články Sundberg [21] a Stone a Brooks [19], kde autoři rozebírají spojité rozšíření předchozích metod, tzv. spojitou regresi CR (Continuum Regression), která zahrnuje všechny metody jako speciální (limitní) případy. K rozšíření může dále sloužit i článek Garthwaite [9], ve kterém je popsána metoda odhadů pomocí parciálních nejmenších čtverců aplikovaná na modely s více vysvětlovanými proměnnými.
7 Kapitola 2 Problém multikolinearity Zajímáme se o závislost vysvětlované proměnné (závisle proměnné) na skupině vysvětlujících proměnných (nezávisle proměnných, regresorů) snažíme se odhadnout vektor středních hodnot vysvětlované proměnné pomocí vysvětlujících proměnných. Máme k dispozici n pozorování (ẋ (i), ẏ (i)), i = 1,..., n. Značíme ẋ (i) = (ẋ 1 (i), ẋ 2 (i),..., ẋ p (i)) naměřené hodnoty p vysvětlujících proměnných pro pozorování i a ẏ (i) je naměřená hodnota vysvětlované proměnné pro pozorování i. Naměřené hodnoty vysvětlujících proměnných standardizujeme kde x j = 1 n x j (i) = ẋj(i) x j s xj, (2.1) n ẋ j (i), s xj = 1 n 1 i=1 n [ẋ j (i) x j ] 2. (2.2) i=1 Hodnoty vysvětlované proměnné pouze centrujeme y (i) = ẏ (i) ȳ, (2.3) ȳ = 1 n n ẏ (i). (2.4) i=1 Veličiny x j (i) bývají v některých odborných textech označovány jako tzv. z-skóry a mohou být definovány s hodnotou n namísto n 1 ve vzorci pro s xj. V dalším textu budeme (pokud nebude výslovně uvedeno jinak) pracovat s písmeny bez tečky, které označují hodnoty transformovaných proměnných, X označuje matici hodnot vysvětlovaných proměnných po standardizaci, y označuje centrované hodnoty vysvětlované proměnné. 4
8 KAPITOLA 2. PROBLÉM MULTIKOLINEARITY 5 V celé naší práci uvažujeme normální lineární model s plnou hodností (tj. matice X má plnou sloupcovou hodnost) y = Xβ + ε, (2.5) kde hodnoty vysvětlujících proměnných tvoří matici X rozměrů n p x 1 (1)... x p (1) X =..... (2.6) x 1 (n)... x p (n) a vektory y = y (1). y (n), β = β 1. β p, 1 = 1. 1, ε = ε 1. ε n (2.7) označují (po řadě) hodnoty vysvětlované proměnné (n 1), vektor příslušných regresních parametrů (p 1), vektor jedniček (n 1) a vektor chybových členů (n 1). O vektoru chybových členů ε předpokládáme, že se jedná o realizaci náhodného vektoru s rozdělením ε N ( 0, σ 2 I n ), (2.8) kde I n značí jednotkovou matici (n n) a σ 2 je neznámý parametr. Dále zavedeme značení R XX = 1 n 1 X X (2.9) pro výběrovou korelační matici vysvětlujících proměnných a r Xy = 1 X y (2.10) n 1 s y pro vektor výběrových korelačních koeficientů mezi vektorem y a maticí X, kde definujeme s y jako s y = 1 n [ẏ (i) ȳ] 2. (2.11) n 1 i=1 Z předpokladu, že matice X má plnou hodnost, vyplývá, že i matice X X má plnou hodnost a matice X X i R XX jsou tedy regulární a pozitivně definitní matice.
9 KAPITOLA 2. PROBLÉM MULTIKOLINEARITY 6 Odhad b OLS metodou nejmenších čtverců je řešení soustavy normálních rovnic (viz např. Anděl [2] na straně 80), tj. X Xb OLS = X y b OLS = (X X) 1 X y (2.12) a pomocí výběrové korelační matice vysvětlujících proměnných (2.9) a výběrového korelačního koeficientu mezi vektorem y a maticí X (2.10) jej můžeme vyjádřit jako (n 1) R XX b OLS = (n 1) s y r Xy R XX b OLS = s y r Xy b OLS = R 1 XX s yr Xy. (2.13) Podle Gaussovy-Markovovy věty (důkaz např. Anděl [2] věta 9.2 na straně 194) dostaneme, že b OLS je nejlepší (myšleno odhad s nejmenším rozptylem) nestranný lineární odhad parametru β v normálním lineárním modelu (2.5). Pro rozptyl odhadu b OLS platí vztah ( ) Var (b OLS ) = Var (X X) 1 X y = (X X) 1 X Var (y) X (X X) 1 = σ 2 (X X) 1 X X (X X) 1 = σ 2 (X X) 1. (2.14) Nyní na chvíli odbočme a porovnejme výše uvedené s regresním modelem bez standardizace prvků matice Ẋ a bez centrování ẏ ẏ = 1 β 0 + Ẋ β + ε. (2.15) Upravíme pravou stranu rovnice tak, že dostáváme závislost ẏ na standardizovaných hodnotách vysvětlujících proměnných s upravenými regresními koeficienty (s koeficienty bez tečky pro standardizované hodnoty vysvětlujících proměnných) jako ẏ = 1 ( β 0 + ) p x i βi + i=1 p i=1 (ẋ i x i ) β i s xi s xi + ε = 1β 0 + Xβ + ε. (2.16) Pro tento model budou normální rovnice vypadat následovně ( ) ( ) ( ) 1 b (1, X) 0 1 = b X ẏ (2.17) X
10 KAPITOLA 2. PROBLÉM MULTIKOLINEARITY 7 a s využitím vztahu 1 X = 0 (a tedy i X ẏ = X (y + ȳ1) = X y) je můžeme dále upravit jako ( ) ( ) ( ) X b 0 nȳ X 1 X = X b X ẏ ( ) ( ) ( ) n 0 b 0 nȳ 0 X = X b X. (2.18) y Soustava (2.18) se rozpadá na dvě nezávislé části z první části nb 0 = nȳ, (2.19) vidíme, že odhad b 0 = ȳ. Z druhé části dostáváme normální rovnice X Xb = X y, (2.20) které odpovídají jak normálním rovnicím v modelu (2.5), tak i normálním rovnicím v modelu bez centrování hodnot vysvětlované proměnné (neboť platí X ẏ = X y) a jejich řešení nesouvisí s řešením (2.19). Z (2.16) (2.20) vidíme, že absolutní člen je v modelu (2.5) pouze skrytý (odhadovaný jako průměr hodnot vysvětlované proměnné). Musíme tedy uvažovat, že v modelu je vlastně p+1 odhadovaných parametrů, a zohlednit tento fakt zejména u stupňů volnosti při statistických testech. U příkladu budeme postupovat tedy tak, že absolutní člen v modelu ponecháme (bude stejně odhadován jako nula) a získáme tak správné stupně volnosti ve výstupu programu R. Vraťme se zpět k původnímu výkladu. Vzhledem k tomu, že matice X X je pozitivně definitní matice hodnosti p, existuje spektrální rozklad matice X X jako (viz např. Zvára [25], věta A.3, strana 226) X X = QΛ 2 Q, (2.21) kde Λ 2 je diagonální matice s vlastními čísly λ 2 1,..., λ 2 p na diagonále a matice Q je matice vlastních vektorů matice X X. Všechna vlastní čísla λ 2 i, i = 1,... p, této pozitivně definitní matice jsou kladná (např. Anděl [2] v kapitole A.2 na straně 321) a můžeme bez újmy na obecnosti předpokládat, že platí λ 2 1 λ λ 2 p. (2.22) Spektrální rozklad matice X X můžeme přepsat jako X X = p λ 2 i q i q i, (2.23) i=1
11 KAPITOLA 2. PROBLÉM MULTIKOLINEARITY 8 kde q i jsou příslušné vlastní vektory matice X X, i = 1,... p (sloupce matice Q). Pro inverzní matici (připomeňme, že X X je regulární) platí (X X) 1 = p 1 q i q i (2.24) i=1 λ 2 i a rozptyl odhadu v rovnici (2.14) pak můžeme vyjádřit jako Var (b OLS ) = σ 2 p 1 q i q i. (2.25) λ 2 i=1 i Vzhledem k tomu, že q i jsou ortonormální vektory q iq i = 1, pak i matice q i q i má omezené prvky, neboť všechny souřadnice ortonormálního vektoru musí být v absolutní hodnotě menší než 1. Ze vztahu (2.25) a z omezenosti prvků q i q i nahlédneme, jaký efekt budou mít malá vlastní čísla matice X X na rozptyl odhadu b OLS. Alespoň jeden diagonální prvek matice q i q i je nenulový (neboť musí platit q iq i = 1) a pokud se bude vlastní číslo λ 2 i blížit nule, tak pak se bude i-tý diagonální prvek matice Var (b OLS ) blížit nekonečnu. Pro další výklad se nám bude hodit rozklad matice X podle singulárních hodnot (Singular Value Decomposition, viz např. Zvára [25], věta A.4, strana 226) X = UΛQ, (2.26) kde Λ je diagonální matice, která má na diagonále singulární čísla matice X, λ 1... λ p > 0, U je ortonormální matice, jejíž sloupce jsou tvořeny levými singulárními vektory matice X příslušejícími singulárním číslům λ i, i = 1,... p, a Q je ortonormální matice, jejíž sloupce jsou tvořeny pravými singulárními vektory matice X příslušejícími singulárním číslům λ i, i = 1,... p. Pro matici pravých singulárních vektorů jsme použili záměrně stejné označení jako pro matici vlastních vektorů matice X X, neboť díky ortonormalitě matice U platí X X = (UΛQ ) (UΛQ ) = QΛ U U ΛQ = QΛ ΛQ = QΛ 2 Q. (2.27) Podobně matice Λ je matice, která má na diagonále odmocniny z vlastních čísel matice X X.
12 Kapitola 3 Diagnostika multikolinearity V kapitole 2 jsme naznačili důsledky multikolinearity a nyní se budeme věnovat tomu, jak ji rozpoznat a jak zjistit, které vysvětlující proměnné problémy s multikolinearitou způsobují. Multikolinearitu chápeme ve shodě s článkem Farrara a Glaubera [6] jako odchýlení od ortogonality v množině vysvětlujících proměnných. Pomocí této definice můžeme formulovat statistickou hypotézu a testovat přítomnost multikolinearity. K dispozici máme n realizací vysvětlujících proměnných obsažených v matici X. Označme R XX determinant výběrové korelační matice R XX vysvětlujících proměnných a označme r ij, i, j = 1,... p, prvky matice R XX. Předpokládáme, že matice X má plnou hodnost, a jak už jsme si uvedli v kapitole 2, je matice R XX pozitivně definitní. Potom můžeme použít tvrzení (např. v knize Anděl [2], vzorec (A.7), str. 324) R XX r 11 r r pp. (3.1) Vzhledem k tomu, že se jedná o determinant normalizované (výběrové korelační) matice (všechny diagonální prvky r ii = 1, i = 1,... p) a vzhledem k tomu, že determinant pozitivně definitní matice je vždy kladné číslo, platí pro něj 0 < R XX 1. (3.2) Dokážeme si, že determinant matice R XX má hodnotu R XX = 1 právě tehdy, když jsou sloupce matice X ortonormální. Jestliže matice X má ortonormální sloupce, pak R XX je jednotková matice a tedy její determinant má hodnotu jedna, R XX = 1. Důkaz opačné implikace vychází z nerovnosti mezi aritmetickým a geometrickým průměrem a ze spektrálního rozkladu (2.24). Matice R XX má na diagonále samé jedničky a její stopa je rovna p. 9
13 KAPITOLA 3. DIAGNOSTIKA MULTIKOLINEARITY 10 Zároveň pro ni platí tr (R XX ) = tr ( QΛ 2 Q ) p = λ 2 i. (3.3) i=1 Aritmetický průměr z kladných čísel λ 2 i, i = 1,...p, je podle nerovnosti mezi aritmetickým a geometrickým průměrem větší nebo roven geometrickému průměru, pro který platí p RXX = p QΛ 2 Q = p Λ 2 = p λ λ 2 p, (3.4) a rovnost nastává právě tehdy, když všechna vlastní čísla matice R XX jsou stejná (a tudíž rovna jedné), λ 2 1 =... = λ 2 p = 1, tj. když matice R XX je jednotková a tedy matice X má ortonormální sloupce. Vidíme tedy, že determinant výběrové korelační matice může být dobrým indikátorem přítomnosti multikolinearity. Předpokládejme na chvíli, že vysvětlující proměnné, jejichž realizace máme k dispozici, mají sdružené normální rozdělení. Připomeňme, že n značí počet pozorování a p značí počet vysvětlujících proměnných. Testujeme hypotézu, že populační korelační matice vysvětlujících proměnných je jednotková, tedy že všechny vysvětlující proměnné jsou stochasticky nezávislé. K testování využijeme výběrovou korelační matici R XX. Jak uvádějí Farrar a Glauber v [6] nebo Hebák a Hustopecký v knize [10] (na straně 310), za platnosti nulové hypotézy platí, že statistika χ 2 R XX (ν) = (n 1 16 ) (2p + 5) ln R XX (3.5) má přibližně rozdělení χ 2 (ν) s ν = 1 2 p (p 1) stupni volnosti, kde ν je počet prvků nad diagonálou, neboli počet výběrových korelačních koeficientů pro dvojice různých vysvětlujících proměnných. Pokud hodnota statistiky χ 2 R XX (ν) překročí (1 α) procentní kvantil χ 2 (ν) rozdělení, považujeme multikolinearitu v našich datech za podstatnou (zamítáme nulovou hypotézu na hladině α %). Nyní se podívejme, na které odhady regresních koeficientů vysvětlujících proměnných má multikolinearita velký vliv. Nechť nás zajímá (bez újmy na obecnosti) např. první vysvětlující proměnná. Rozdělíme matici X na dvě
14 KAPITOLA 3. DIAGNOSTIKA MULTIKOLINEARITY 11 části na sloupec odpovídající realizacím první proměnné x 1 a na podmatici odpovídající realizacím ostatních vysvětlujících proměnných, kterou označíme X 1. Potom výběrová korelační matice bude mít tvar ( ) 1 r X R XX = 1 x 1, (3.6) r X 1 x 1 R X 1 X 1 kde R X 1 X 1 značí výběrovou korelační matici vysvětlujících proměnných bez první proměnné a r X 1 x 1 představuje vektor výběrových korelačních koeficientů mezi první proměnnou a ostatními proměnnými. Označíme r ij, i, j = 1,... p, prvky inverzní matice R 1 XX k výběrové korelační matici. Pro diagonální prvek r 11 inverzní matice k výběrové korelační matici (3.6) platí vztah (viz Anděl [2], str. 323) r 11 = (1 r X 1 x 1 R 1 X 1 X 1 r X 1 x 1 ) 1. (3.7) Pokud r X 1 x 1 = 0, tak r 11 = 1. Prvek r 11 můžeme přepsat jako r 11 1 = ( 1 r X 1 x 1 R 1 X 1 X 1 r X 1 x 1 ) 1 1 = ( 1 r 2 X 1 x 1 ) 1 1 = r2 X 1 x 1 1 r 2 X 1 x 1, (3.8) kde r X 1 x 1 je výběrový koeficient mnohonásobné korelace mezi proměnnou x 1 a ostatními vysvětlujícími proměnnými, jak je definován např. v knize Anděl [2] v kapitole 6.3 na straně 96. Můžeme tedy přejít ke statistickému testu. Opět předpokládejme, že vysvětlující proměnné, jejichž realizace máme k dispozici, mají sdružené normální rozdělení. Jestliže pro nějaké i, i = 1,..., p, je populační koeficient mnohonásobné korelace nulový, ρ X i x i = 0, a n > p + 1, má statistika ω i = n p 1 p r 2 X i x i 1 r 2 X i x i (3.9) (přesně) F rozdělení s p a n p 1 stupni volnosti, jak uvádí v knize Anděl [2] věta 6.4 na straně 96 nebo Farrar a Glauber v článku [6]. Tento test není nic jiného než test hypotézy o podmodelu (model: i-tá vysvětlující proměnná závisí na ostatních vysvětlujících proměnných, podmodel: i-tá proměnná závisí pouze na konstantním členu, tj. vůbec nezávisí na ostatních vysvětlujících proměnných) a platí, že čtverec výběrového koeficientu mnohonásobné korelace r 2 X i x i je totéž co koeficient determinace R 2 i v regresním modelu závislosti
15 KAPITOLA 3. DIAGNOSTIKA MULTIKOLINEARITY 12 první vysvětlující proměnné na ostatních vysvětlujících proměnných. Definici R 2 můžeme najít např. v knize Zvára [25] v kapitole 3.5 na stranách 36-37, nebo v knize Anděl [2] na straně 83. Statistiku ω i tedy můžeme přepsat jako ω i = n p 1 Ri 2. (3.10) p 1 Ri 2 S tím již úzce souvisí další indikátor multikolinearity tzv. inflační faktor označovaný zkratkou VIF (Variance Inflation Factor), který definujeme jako V IF i = 1. (3.11) 1 Ri 2 Rozptyl odhadu regresních parametrů podle (2.14) rozepíšeme jako Var (b OLS (i)) = σ 2 r ii = σ R 2 i = σ 2 V IF i (3.12) a inflační faktor tedy můžeme interpretovat jako hodnotu, kolikrát se zhorší rozptyl odhadu regresního koeficientu pro i-tou proměnnou v důsledku korelovanosti této vysvětlující proměnné s ostatními vysvětlujícími proměnnými. Jestliže jsou vysvětlující proměnné vzájemně lineárně nezávislé, je koeficient determinace Ri 2 ve vzorci (3.12) nulový a tedy rozptyl odhadu koeficientu b OLS (i) je σ 2. Pokud se koeficient determinace ve vzorci (3.12) blíží 1, zhoršuje nám vzájemný vztah mezi vysvětlujícími proměnnými rozptyl odhadu b OLS (i). Jak uvádí Hebák a Hustopecký [10] (str. 309), pokud je inflační faktor větší než 5 až 10, považujeme inflační číslo za vysoké a vliv multikolinearity na rozptyl odhadu regresních koeficientů za podstatný. Zajímáme-li se o to, jaká je závislost mezi i-tou a j-tou proměnnou s vyloučením vlivu ostatních proměnných, budou nás zajímat výběrové koeficienty parciální korelace. Tyto dostaneme tak, že transformujeme prvky inverzní matice k výběrové korelační matici na výběrové koeficienty parciální korelace, jak uvádí Anděl [2] v kapitole 6.4 na straně 97, a výběrové koeficienty parciální korelace budou rovny r ij = rij, i, j = 1,... p. (3.13) r ii rjj Opět předpokládáme, že vysvětlující proměnné, jejichž realizace máme k dispozici, mají sdružené normální rozdělení. Jestliže platí, že populační koeficient parciální korelace ρ ij = 0 a n > p + 2, má statistika t ij = r ij 1 r 2 ij n p 2 (3.14)
16 KAPITOLA 3. DIAGNOSTIKA MULTIKOLINEARITY 13 Studentovo rozdělení o n p 2 stupních volnosti. Pro všechny uvedené statistické testy jsme předpokládali, že vysvětlující proměnné, jejichž realizace máme k dispozici, mají sdružené normální rozdělení. Farrar a Glauber v článku [6] doporučují se na tyto indikátory multikolinearity podívat i bez splnění tohoto předpokladu. Jiný přístup k odhalení multikolinearity uvádí např. Zvára [25] v kapitole 11.2 na stranách a Naes a Mevik v článku [15]. Vycházejí přitom z vlivu multikolinearity na hodnoty vlastních čísel matice X X. Definujeme indexy podmíněnosti matice X X jako poměry největšího vlastního čísla matice X X ku ostatním vlastním číslům ξ i = λ2 1 = λ 2 i ( λ1 λ i ) 2, 1 < i p, (3.15) a číslo podmíněnosti η p matice X jako poměr odmocnin největšího a nejmenšího vlastního čísla matice X X η p = ξ p = λ 1 λ p. (3.16) Pokud je číslo podmíněnosti matice X velké, naznačuje to přítomnost multikolinearity. V knize Hebák a Hustopecký [10] (příklad na str. 311) můžeme najít doporučení, že pokud η p přesáhne hodnotu 30, η p > 30, pak vliv multikolinearity na kvalitu odhadu regresních koeficientů považujeme za vážný.
17 Kapitola 4 Metoda nejmenších čtverců Popis normálního lineárního modelu a odvození odhadů parametrů pomocí metody nejmenších čtverců (Ordinary Least Squares) jsme si ukázali v kapitole 2, případně jej můžeme nalézt např. v knize Anděl [2] v kapitole 5 od strany 79 nebo v knize Zvára [25] od strany 20. Zde ještě doplníme odvození střední kvadratické chyby odhadu střední hodnoty vysvětlované proměnné. Tento odhad označíme ŷ s dolním indexem podle metody, kterou jsme jej vytvořili. Střední kvadratickou chybu odhadu T parametru θ si definujeme jako (např. v knize Hebák a Hustopecký [10] na str. 79 nebo Anděl [2] na str. 35) MSE (T) = E ( (T θ) (T θ) ) = Var(T) + (ET θ) (ET θ) = Var(T) + (bias(t)) (bias(t)), (4.1) kde první člen představuje rozptyl odhadu T a druhý člen kvadrát vychýlení odhadu T. Střední kvadratickou chybu odhadu b OLS jsme si vlastně již odvodili ve vzorci (2.14) (odhad je nestranný). Máme-li odhad b OLS vektoru regresních parametrů β v modelu (2.5), potom pro odhad ŷ OLS střední hodnoty vysvětlované proměnné platí vztah ŷ OLS = Xb OLS. (4.2) Protože v modelu (2.5) je b OLS nejlepší nestranný lineární odhad parametru β, pak i ŷ OLS je nejlepší nestranný lineární odhad střední hodnoty vysvětlované proměnné Xβ. Nestrannost odhadu znamená, že vychýlení odhadu je nulové, tj. bias (ŷ OLS ) = 0. Střední kvadratickou chybu odhadu ŷ OLS 14
18 KAPITOLA 4. METODA NEJMENŠÍCH ČTVERCŮ 15 můžeme pomocí rovnice (2.14) zapsat jako MSE (ŷ OLS ) = Var (ŷ OLS ) + (bias (ŷ OLS )) (bias (ŷ OLS )) = Var (ŷ OLS ) + 0 = Var (Xb OLS ) = XVar (b OLS ) X = σ 2 X (X X) 1 X. (4.3) Použijeme značení zavedené pro spektrální rozklad matice X X v (2.24) a pro rozklad matice X podle singulárních hodnot v (2.26) a dostáváme ( p ) MSE (ŷ OLS ) = σ 2 1 X q i q i X = σ 2 p i=1 i=1 λ 2 i 1 Xq i q ix λ 2 i = σ 2 UU, (4.4) z čehož můžeme snadno nahlédnout, že multikolinearita nemá vliv na rozptyl (respektive střední kvadratickou chybu) odhadu střední hodnoty vektoru y. Dále se tedy budeme zabývat vlivem multikolinearity na odhad regresních koeficientů β. V případě, že některá vlastní čísla matice X X jsou velmi malá, může být z hlediska střední kvadratické chyby výhodnější použít vychýlený odhad parametru β a právě těmto možnostem se budeme věnovat v následujících kapitolách.
19 Kapitola 5 Regrese na hlavních komponentách Metodou hlavních komponent (Principal Component Analysis) hledáme k nových regresorů t 1, t 2,..., t k, k p, které vystihují podstatnou část variability vysvětlujících proměnných (informace z vysvětlujících proměnných) a které budou vzájemně ortogonální. Zpravidla chceme zredukovat počet nových regresorů na méně než byl počet původních vysvětlujících proměnných p a zároveň zachytit co největší množství informace z původních vysvětlujících proměnných. Nové regresory (v metodě hlavních komponent nazývané hlavní komponenty) následně použijeme v lineárním modelu pro odhad střední hodnoty vysvětlované proměnné. V závěru kapitoly si popíšeme metody pro volbu vhodného počtu hlavních komponent. Cílem metody hlavních komponent je nalézt nové regresory jako lineární kombinace původních vysvětlujících proměnných, které jsou vzájemně ortogonální a vysvětlují maximum celkového rozptylu původních vysvětlujících proměnných. Získáme je postupně tak, že první hlavní komponenta vystihuje co nejvíce celkové variability vysvětlujících proměnných. Druhá komponenta bude ortogonální na první komponentu a vystihuje maximum zbývající variabity vysvětlujících proměnných (část variability vysvětlujících proměnných, která nebyla vysvětlena první hlavní komponentou), atd., vždy každá další komponenta je ortogonální s předchozími komponentami a vystihuje maximální množství variability neobsažené v předchozích komponentách. V praxi máme realizace vysvětlujících proměnných v matici X a konstruujeme výběrové hlavní komponenty. Hledáme vektory koeficientů c i, c ic i = 1, lineárních kombinací sloupců matice X takové, aby pro výběrové hlavní komponenty t i = Xc i platila ortogonalita t it j = 0, i < j, (5.1) 16
20 KAPITOLA 5. REGRESE NA HLAVNÍCH KOMPONENTÁCH 17 a zároveň aby kvadrát euklidovské normy výběrové hlavní komponenty t i (vektoru pozorování odhadnuté i-té hlavní komponenty) t i 2 2 = c ix Xc i (5.2) byl maximální. Podmínku ortogonality (5.1) můžeme rozepsat jako c ix Xc j = 0, i < j c ir XX c j = 0, i < j. (5.3) Použijeme-li značení zavedené v rovnici (2.24) (spektrální rozklad matice X X), pak z extremálních vlastností vlastních čísel vyplývá (viz Hebák a Hustopecký [10], str. 374), že optimální volba je c i = q i. Tedy optimální první výběrová hlavní komponenta t i je získána jako lineární kombinace pozorování původních vysvětlujících proměnných (obsažených v matici X) a prvního vlastního vektoru matice X X, tedy q 1 (q 1 značí vlastní vektor matice X X odpovídající největšímu vlastnímu číslu λ 2 1) a zapíšeme ji jako t 1 = Xq 1. (5.4) Analogicky druhá výběrová hlavní komponenta bude t 2 = Xq 2, atd. Tak nahradíme matici X maticí ortogonálních výběrových hlavních komponent T = (t 1,..., t p ) (n p), která má ve sloupcích jednotlivé výběrové komponenty t i s vlastnostmi popsanými výše, a maticově ji zapíšeme jako T = XQ, (5.5) kde Q je ortonormální transformační matice, jejíž sloupce tvoří vlastní vektory matice X X. Matice Q se při této příležitosti někdy nazývá matice zátěží (z anglického Loadings Matrix). Využijeme rozklad matice X podle singulárních hodnot (2.26) a snadno dostaneme Tedy platí T = XQ = UΛQ Q = UΛ. (5.6) T 2 2 = T T = ΛU UΛ = Λ 2. (5.7)
21 KAPITOLA 5. REGRESE NA HLAVNÍCH KOMPONENTÁCH 18 Jinými slovy, euklidovská norma na druhou (což je pro nenáhodný centrovaný vektor analogie rozptylu) výběrové hlavní komponenty t i je rovna vlastnímu číslu λ 2 i. Dokud předpokládáme k = p, můžeme lineární model (2.5) přepsat jako y = Xβ + ε = TQ β + ε = Tβ + ε. (5.8) Odhad parametru β metodou nejmenších čtverců v modelu (5.8) označíme b P CR a získáme jej jako a platí pro něj b P CR = (T T) 1 T y (5.9) b P CR = (T T) 1 T y = (Q X XQ) 1 Q X y = Q 1 (X X) 1 Q 1 Q X y = Q b OLS. (5.10) Rozptyl tohoto odhadu dostáváme z (5.7) a z (5.9) jako ( ) Var (b P CR ) = Var (T T) 1 T y = σ 2 (T T) 1 = σ 2 ( Λ 2) 1, (5.11) tedy rozptyly odhadů regresních koeficientů můžeme zapsat jako Var (b P CR (i)) = σ2. (5.12) λ 2 i Dodejme ještě, že odhad střední hodnoty vysvětlované proměnné pomocí regrese na p výběrových hlavních komponentách označíme ŷ P CR a spočteme jej jako ŷ P CR = Tb P CR, (5.13) což v případě, že matice T má ve sloupcích p výběrových hlavních komponent, není nic jiného než odhad střední hodnoty vysvětlované proměnné
22 KAPITOLA 5. REGRESE NA HLAVNÍCH KOMPONENTÁCH 19 metodou nejmenších čtverců ŷ P CR = T (T T) 1 T y = XQ (Q X XQ) 1 Q X y = XQQ 1 (X X) 1 Q 1 Q X y = X (X X) 1 X y = ŷ OLS. (5.14) Přejděme nyní k redukci počtu použitých výběrových hlavních komponent. Označíme Q = (Q k, Q p k ), kde matice Q k = (q 1,..., q k ) (p k) má ve sloupcích prvních k vlastních vektorů matice X X odpovídajících k největším vlastním číslům λ 2 1,..., λ 2 k a matice Q p k = (q k+1,..., q p ) (p (p k)) má ve sloupcích vlastní vektory q k+1,..., q p matice X X odpovídající vlastním číslům λ 2 k+1,..., λ2 p. Podobně rozdělíme matici T = (T k, T p k ) na matici T k = (t 1,..., t k ) (n k), která má ve sloupcích prvních k výběrových hlavních komponent, a na matici T p k = (t k+1,..., t p ) (n (p k)), která má ve sloupcích zbylých p k výběrových hlavních komponent. Dále zavedeme Λ 2 k jako čtvercovou podmatici (k k) matice Λ 2, která má na diagonále prvních k vlastních čísel matice X X, λ 2 1,..., λ 2 k. Odhad parametru β k = (β 1,... β k ) metodou nejmenších čtverců v modelu regrese na prvních k výběrových hlavních komponentách získáme jako b P CRk = (T kt k ) 1 T ky, (5.15) což díky tomu, že výběrové hlavní komponenty jsou na sebe kolmé, neznamená nic jiného, než že b P CRk tvoří prvních k složek vektoru b P CR. Rozptyl si podle (5.11) snadno odvodíme jako b P CRk Var (b P CRk ) = σ 2 ( Λ 2 k) 1. (5.16) Přejdeme-li k odhadu střední hodnoty vysvětlované proměnné v modelu regrese na prvních k výběrových hlavních komponentách, získáme tento odhad jako ŷ P CRk = T k b P CRk = T k (T kt k ) 1 T ky (5.17) a jeho rozptyl snadno dostaneme ze vzorců (5.17) a (5.16) jako Var (ŷ P CRk ) = σ 2 k λ 2 i=1 i 1 Xq i q ix. (5.18)
23 KAPITOLA 5. REGRESE NA HLAVNÍCH KOMPONENTÁCH 20 Vychýlení tohoto odhadu spočteme podle věty 7.1 o vychýlení odhadů, platíli širší model, v knize Zvára [25] na stranách 82 až 83, nebo jednoduše pomocí (4.1), (5.10) a z nestrannosti odhadu střední hodnoty y metodou nejmenších čtverců dostáváme bias (ŷ P CRk ) = E (T k b P CRk ) Xβ = T k E (b P CRk ) Xβ = T k E (Q kb OLS ) Xβ = T k Q kβ Xβ = XQ k Q kβ XQQ β p = Xq i q iβ. (5.19) i=k+1 Použít pro odhad střední hodnoty vysvětlované proměnné regresi na k prvních výběrových hlavních komponentách místo odhadu metodou nejmenších čtverců se nám vyplatí v případě, že matice rozdílu MSE (ŷ OLS ) MSE (ŷ P CRk ) > 0 (5.20) bude pozitivně definitní matice. To nastane v případě, že matice ( p p ) ( p 1 Xq i q ix Xq i q iβ Xq i q iβ) (5.21) σ 2 λ 2 i=k+1 i i=k+1 i=k+1 bude pozitivně definitní. Volba vhodného počtu výběrových hlavních komponent k se v praxi provádí pomocí křížového ověření. Popis metody a doporučení, jakým způsobem vybírat počet nových regresorů k v modelu regrese na výběrových hlavních komponentách a regrese pomocí parciálních nejmenších čtverců můžeme nalézt v článku [14]. V tomto článku Mevik a Cederkvist považují za nejvhodnější metodu Leave One Out, případně metodu desetisložkového křížového ověření. V kapitole 8 věnované praktickým příkladům zpracovaným v programu R proto budeme používat metodu křížového ověření Leave One Out. Data si rozdělíme na dvě části i-té pozorování ponecháme stranou a všechna ostatní pozorování použijeme pro odhad parametrů modelů s různým počtem hlavních komponent. Potom spočteme předpovědi modelů pro vynechané i- té pozorování ŷ i a spočteme kvadrát chyby předpovědi pro toto pozorování (ŷ i y i ) 2. Vše provedeme postupně pro jednotlivá pozorování a podle střední kvadratické chyby předpovědí (pro vynechaná pozorování) jednotlivých modelů vybereme model s nejmenší střední kvadratickou chybou předpovědí.
24 Kapitola 6 Metoda parciálních nejmenších čtverců Přestože je multikolinearita vlastnost vysvětlujících proměnných, následující metoda se s ní bude vyrovnávat i s přihlédnutím k hodnotám vysvětlované proměnné. Postupná konstrukce výběrových hlavních komponent je velmi blízká hledání nových regresorů v následující metodě při odhadech regresních parametrů pomocí parciálních nejmenších čtverců (Partial Least Squares Regression). U regrese na výběrových hlavních komponentách jsme hledali koeficienty lineární kombinace c i, c ic i = 1, sloupců matice X takové, aby pro nové ortogonální regresory t i = Xc i platilo, že vystihují maximum (výběrové) variability vysvětlujících proměnných. To nám ovšem nezaručí, že nové prediktory budou vhodné i pro odhad střední hodnoty vysvětlované proměnné. U metody parciálních nejmenších čtverců proto nové regresory hledáme s přihlédnutím k hodnotám vysvětlované proměnné a doufáme, že tak získáme lepší odhad střední hodnoty vysvětlované proměnné (lepší ve smyslu menší střední kvadratické chyby). Cílem metody parciálních nejmenších čtverců je nalézt nové regresory f 1, f 2,..., f k, k p, jako lineární kombinace původních hodnot vysvětlujících proměnných (sloupců matice X) které jsou vzájemně ortogonální (stejně jako (5.1)) f i = Xc i, (6.1) f if j = 0, i < j, (6.2) a jsou užitečné pro odhad střední hodnoty vysvětlované proměnné. Postupujeme tak, jak je uvedeno v článku Garthwaite [9] (v kapitole 2 na stranách 123 až 124) a ještě lépe vysvětleno v knize Rao, Toutenburg, Shalabh, Heumann [17] (v kapitole na stranách 84-87). 21
25 KAPITOLA 6. METODA PARCIÁLNÍCH NEJMENŠÍCH ČTVERCŮ 22 Nové regresory vytváříme postupně, nejprve se podívejme na f 1. Vycházíme z myšlenky, že z hodnot každé jednotlivé vysvětlující proměnné chceme získat maximální možnou informaci pro odhad střední hodnoty vysvětlované proměnné. První nový odhadnutý regresor získáme jako f 1 = p w 1j b OLS1j x 1j, (6.3) j=1 kde w 1i jsou váhy (mohou být stanoveny různě podle zvoleného druhu metody parciálních nejmenších čtverců a nejčastěji používané váhy jsou w ij = 1 p ), x 1j = x j je vektor pozorování j-té vysvětlující proměnné (j-tý sloupec matice X) a b OLS1j je regresní koeficient z lineární regrese y na hodnotách jediné vysvětlující proměnné x j. Jinými slovy: nový regresor jsme získali jako váženou lineární kombinaci (nejčastěji průměr) p odhadů střední hodnoty vysvětlované proměnné z modelů lineární regrese y na hodnotách jediné vysvětlující proměnné x j. Druhý nový regresor získáme tak, že využijeme odhadu zbývající informace z matice X a vektoru y po odečtení informace vysvětlené prvním novým regresorem f 1. Do druhého kroku vstupujeme s proměnnými x 2j, které se rovnají vektoru reziduí z regrese x 1j (= x j ) na f 1. Namísto hodnot vysvětlované proměnné y do druhého kroku vstupuje vektor reziduí z regrese y na f 1, který označíme y 2. Dále postupujeme podobně jako pro první nový regresor regresí y 2 na x 2j odhadneme b OLS2j a druhý regresor se bude rovnat f 2 = p w 2j b OLS2j x 2j. (6.4) j=1 Další nové regresory sestrojíme analogickým postupem. Namísto vektoru y i použijeme vektor y i+1, který je roven reziduím z regrese y i na f i a jako nové hodnoty vysvětlující proměnné x i+1j, j = 1,... p, použijeme vektory reziduí z regrese x ij na f i. Vzhledem k tomu, že vektor reziduí je v klasickém lineárním modelu nekorelovaný s prediktory (např. věta 2.2 o reziduích v knize Zvára [25] na straně 14), je splněna podmínka ortogonality nových regresorů. A díky ortogonalitě nových regresorů jsme podobně jako v kapitole 5 odstranili problémy způsobené multikolinearitou. Postupem výše jsme vytvořili p nových regresorů, které uspořádáme jako sloupce do matice F. Dále již postupujeme analogicky jako v kapitole 5. Model regrese pomocí parciálních nejmenších čtverců můžeme zapsat jako y = Fβ + ε (6.5)
26 KAPITOLA 6. METODA PARCIÁLNÍCH NEJMENŠÍCH ČTVERCŮ 23 a odhad parametru β metodou nejmenších čtverců v modelu (6.5) označíme b P LS a získáme jej jako b P LS = (F F) 1 F y. (6.6) Odhad střední hodnoty vysvětlované proměnné označíme ŷ P LS a spočteme jej jako ŷ P LS = F b P LS. (6.7) Nyní podobně jako u regrese na výběrových hlavních komponentách budeme hledat l, l < p, menší počet nových regresorů. Při odhadu pomocí parciálních nejmenších čtverců obvykle potřebujeme menší počet nových regresorů l, než potřebujeme u regrese na výběrových hlavních komponentách. Vyplývá to ze způsobu, jakým byly tyto regresory sestrojeny. Výběrové hlavní komponenty byly konstruovány nezávisle na hodnotách vysvětlované proměnné a tedy jich obvykle potřebujeme větší nebo stejný počet pro vyjádření vztahu s vysvětlovanou proměnnou než je tomu u umělých regresorů získaných metodou parciálních nejmenších čtverců. Optimální počet nových regresorů dostaneme pomocí křížového ověření, jak bylo popsáno v závěru kapitoly 5. Na závěr uvedeme literaturu rozšiřující uvedený text. V článku [1] Abdi popisuje situaci, kdy máme více než jednu vysvětlovanou proměnnou. V článku [4] Butler a Denham odhalují podstatu zmenšení rozptylu odhadu pomocí parciálních nejmenších čtverců a zaobírají se situací, kdy odhady pomocí parciálních nejmenších čtverců fungují špatně.
27 Kapitola 7 Hřebenová regrese Hřebenová regrese (Ridge Regression) je metoda odvozená od metody nejmenších čtverců. Od regrese na hlavních komponentách a regrese metodou parciálních nejmenších čtverců se liší tím, že nespočívá na principu transformace vysvětlujících proměnných na nové proměnné. Je založená na jednoduché myšlence, že pokud máme problémy s hledáním inverzní matice k matici X X, zkusíme nepatrně změnit její diagonální prvky (přičteme kladnou hodnotu δ ke každému diagonálnímu prvku matice X X) a výpočet inverzní matice pak bude numericky stabilnější. Odhad parametrů v modelu hřebenové regrese můžeme vyjádřit jako b RR = (X X + δi p ) 1 X y, (7.1) kde δ > 0 je parametr hřebenové regrese a I p označuje jednotkovou matici rozměrů p p. Ze vzorce (7.1) snadno můžeme nahlédnout, že pokud by δ bylo nulové, δ = 0, odhad b RR bude roven odhadu pomocí metody nejmenších čtverců. Pokud δ, pak pro odhad b RR platí b RR 0. Vyjádříme vzájemný vztah odhadu metodou nejmenších čtverců (2.12) a odhadu pomocí hřebenové regrese (7.1) a dostáváme b RR = (X X + δi p ) 1 X y = (X X + δi p ) 1 X X (X X) 1 X y = (X X + δi p ) 1 X Xb OLS. (7.2) Odhad parametrů v modelu hřebenové regrese je vychýlený. Jeho střední kvadratickou chybu odvodíme podle vzorce (4.1) jako MSE (b RR ) = Var (b RR ) + bias (b RR ) bias (b RR ), (7.3) 24
28 KAPITOLA 7. HŘEBENOVÁ REGRESE 25 kde jednotlivé členy jsou rozptyl ( ) Var (b RR ) = Var (X X + δi p ) 1 X y a vychýlení = (X X + δi p ) 1 X Var (y) X (X X + δi p ) 1 = σ 2 (X X + δi p ) 1 X X (X X + δi p ) 1 (7.4) bias (b RR ) = E (b RR ) β = (X X + δi p ) 1 X Ey β = (X X + δi p ) 1 X Xβ β = (X X + δi p ) 1 (X Xβ X Xβ δi p β) = (X X + δi p ) 1 ( δi p β) Po dosazení do vzorce (7.3) dostáváme = δ (X X + δi p ) 1 β. (7.5) MSE (b RR ) = σ 2 (X X + δi p ) 1 X X (X X + δi p ) δ 2 (X X + δi p ) 1 ββ (X X + δi p ) 1 = (X X + δi p ) 1 ( σ 2 X X + δ 2 ββ ) (X X + δi p ) 1. (7.6) Porovnáme odhad metodou nejmenších čtverců (2.12) s odhadem pomocí hřebenové regrese (7.1). Pokud bude matice rozdílu MSE (b OLS ) MSE (b RR ) > 0 (7.7) pozitivně definitní, bude výhodnější využít odhad metodou hřebenové regrese. V opačném případě je z hlediska střední kvadratické chyby vhodnější použít odhad metodou nejmenších čtverců. Výraz (7.7) rozepíšeme podle (2.14) a využijeme fakt, že odhad b OLS je nestranný (vychýlení odhadu bias (b OLS ) = 0, tedy MSE (b OLS ) = Var (b OLS )) a dále s využitím přepisu Var (b OLS ) na Var (b OLS ) = σ 2 (X X) 1 = σ 2 (X X + δi p ) 1 (X X + δi p ) (X X) 1 (X X + δi p ) (X X + δi p ) 1 = σ 2 (X X + δi p ) 1 ( I p + δ (X X) 1) (X X + δi p ) (X X + δi p ) 1 = σ 2 (X X + δi p ) 1 ( X X + 2δI p + δ 2 (X X) 1) (X X + δi p ) 1 (7.8)
29 KAPITOLA 7. HŘEBENOVÁ REGRESE 26 dostáváme MSE (b OLS ) MSE (b RR ) = Var (b OLS ) ( Var (b RR ) + bias (b RR ) bias (b RR ) ) = (X X + δi p ) 1 ( σ 2 X X + 2δσ 2 I p + δ 2 σ 2 (X X) 1) (X X + δi p ) 1 (X X + δi p ) 1 ( σ 2 X X + δ 2 ββ ) (X X + δi p ) 1 = (X X + δi p ) 1 ( 2δσ 2 I p + δ 2 σ 2 (X X) 1 δ 2 ββ ) (X X + δi p ) 1 (7.9) Výraz (7.9) je pozitivně definitní, pokud 2δσ 2 I p + δ 2 σ 2 (X X) 1 δ 2 ββ (7.10) je pozitivně definitní. Dospěli jsme tedy k tomu, co uvádí Theobald [23] ve větě 2 na straně 105 (7.10) je pozitivně definitní, pokud 2σ 2 I p δββ (7.11) je pozitivně definitní (neboť δ 2 σ 2 (X X) 1 je pozitivně definitní). Doplňme ještě, že odhad ŷ RR v lineárním modelu hřebenové regrese můžeme zapsat jako ŷ RR = Xb RR. (7.12) Střední čtvercovou chybu odhadu ŷ RR odhadneme z (7.12) a (7.6) jako MSE (ŷ RR ) = XMSE (b RR ) X. (7.13) Existuje několik způsobů, jak zvolit hodnotu parametru δ. V knihovně MASS programu R máme v současné době k dispozici tři metody modified HKB estimator, modified L-W estimator a smallest value of GCV. Hodnoty spočtené těmito metodami se mohou vzájemně značně lišit. Navíc je zde uvažovaná jiná parametrizace matice Ẋ, a to její z-skóry s hodnotou n namísto n 1 ve vzorci (2.1) a s hodnotou n na diagonále. Odhady parametru δ v naší parametrizaci dostaneme jako 1/n-násobek odhadů výše. Proto je lepší brát tyto hodnoty pouze jako orientační a hodnotu parametru δ zvolit podle grafu tzv. hřebenových stop (Ridge traces), což je graf hodnot odhadů jednotlivých regresních parametrů b RR (i), i = 1,... p, v závislosti na hodnotách parametru δ. Snažíme se podle grafu zvolit takové nejmenší δ, pro které jsou odhady parametru β stabilní. Základní informace o hřebenové regresi jsme čerpali z knih Zvára [25] kapitola 11.5 na stranách a Zvára [26] kapitola 9.3 na stranách , přednášek Stuetzle [20] a článku Vinod [24] na stranách V přednáškách Stuetzle [20] můžeme nalézt popis optimalizační úlohy s omezeními a
30 KAPITOLA 7. HŘEBENOVÁ REGRESE 27 řešení Lagrangeovy rovnice pro hřebenovou regresi. V článku Vinod [24] je uvedena Bayesovská interpretace hřebenové regrese, diskuse k použití standardizace dat a další možná rozšíření zobecněná hřebenová regrese (Generalized Ridge Regression), iterativní zobecněná hřebenová regrese (Iterative Generalized Ridge Regression) a Steinův-Rulův odhad (Stein-Rule Estimator). Vysvětlení geometrie hřebenových stop (Ridge Traces) můžeme nalézt v článku Swindel [22] na stranách
31 Kapitola 8 Zpracování dat Metody představené v předchozích kapitolách si ilustrujeme na příkladu. K dispozici máme data o pobočkách sázkové kanceláře Chance z období čtvrtého čtvrtletí roku 2008 až třetího čtvrtletí roku Budeme hledat model závislosti výnosnosti pobočky na otevírací době jednotlivých poboček a na veřejně dostupných informacích (např. geografických a demografických) o městě, ve kterém je pobočka umístěna. Jako kritérium výnosnosti pobočky jsme si stanovili objem vsazených peněz na dané pobočce tento objem bude naší vysvětlovanou proměnnou. Přehled proměnných obsažených v původním datovém souboru, který jsme dostali ke zpracování, můžeme najít v seminární práci [12] v kapitole 3 na straně 9. Data obsahovala údaje o pobočkách město, okres, kraj, otevírací doba, počet dní, kdy měla pobočka otevřeno a údaje, které zřejmě zpracovatelé seminární práce doplnili sami počet obyvatel v obci, rozloha obce, průměrný plat v kraji v roce 2004 a 2009, průměrný plat v okrese v roce Vzhledem k tomu, že tyto doplněné údaje nemají velkou podrobnost (vztahují se ke kraji nebo okresu), rozhodli jsme se doplnit data o podrobnější údaje z veřejně dostupných zdrojů. Zdrojem nových dat pro nás byl Český statistický úřad a využili jsme veřejně přístupných dat uvedených na jeho internetových stránkách [5]. Nahradili jsme údaje o nezaměstnanosti v kraji a dlouhodobé nezaměstnanosti v kraji údaji o nezaměstnanosti v obci v roce 2008 (v procentech) a údaji o nezaměstnanosti delší než dvanáct měsíců v obci v roce 2008 (v procentech). Ponechat jsme se rozhodli průměrnou mzdu v okresech z roku 2005, neboť novější údaje o mzdě v okresech nejsou na stránkách ČSÚ k dispozici. Vzhledem k podobné náročnosti (a jistotě správnosti údajů, které jsme nalezli sami), jsme nahradili i původní údaje o počtu obyvatel v obci a rozloze obce údaji z roku Jako nové proměnné jsme doplnili údaje ze sčítání lidu z roku 2001 o vzdělání lidí v okresech 28
32 KAPITOLA 8. ZPRACOVÁNÍ DAT 29 základní vzdělání a středoškolské vzdělání v procentech. Jako středoškolské vzdělání uvádíme středoškolské vzdělání spolu se středoškolským vzděláním s maturitou. Nahrazením údajů o krajích nebo okresech údaji o konkrétních obcích jsme chtěli dosáhnout lepší možnosti rozlišovat mezi pobočkami. Datový soubor ovšem obsahuje velmi málo konkrétních údajů o konkrétní pobočce. Například je z pohledu dat nemožné rozlišit pobočky ve větších městech, neboť údaje o městech (počet obyvatel, nezaměstnanost, atd.) mají uvedeny stejné. Datový soubor nerozlišuje jednotlivé městské části, ale pouze města. 8.1 Úpravy a popisné statistiky dat Ke každé z 410 poboček uvažujeme následující údaje: Proměnná Vysvětlení vsazeno vsazená částka za sledované období (vysvětlovaná) bar umístění pobočky (sběrny) v baru tymova pobočku neprovozuje přímo Chance synot ivt v pobočce se nachází terminál konkurenční sázkové kanceláře Synot sazka ivt v pobočce se nachází terminál konkurenční sázkové kanceláře Sazka online pobočka má pevné připojení na internet pocet ve meste počet poboček v daném městě pocet dni otevreno počet dní v roce, kdy měla pobočka otevřeno otevreno po pa součet otevíracích dob od pondělí do pátku otevreno so ne součet otevíracích dob v sobotu a neděli pocet obyvatel obec 2008 počet obyvatel obce v roce 2008 nezamestnanost obec 2008 nezaměstnaní v obci v roce 2008, procenta nezamestnanost 12M obec 2008 nezaměstnaní déle než 12 měsíců v obci v roce 2008, procenta prumerny plat okres 2005 průměrný plat v okrese v roce 2005 zakladni vzdelani okres 2001 lidé se základním vzděláním v okrese v roce 2001, procenta stredni vzdelani okres 2001 lidé se středoškolským vzděláním v okrese v roce 2001, procenta rozloha obec 2008 rozloha obce v roce 2008 Prohlédněme si naše data. Podíváme se na krabicové grafy hodnot proměnné vsazeno v závislosti na hodnotách diskrétních proměnných (obrá-
33 KAPITOLA 8. ZPRACOVÁNÍ DAT 30 Krabicový graf vsazeno vs. bar Krabicový graf vsazeno vs. synot_ivt vsazeno 0e+00 4e+06 8e vsazeno 0e+00 4e+06 8e bar synot_ivt Krabicový graf vsazeno vs. sazka_ivt Krabicový graf vsazeno vs. tymova vsazeno 0e+00 4e+06 8e vsazeno 0e+00 4e+06 8e sazka_ivt tymova Krabicový graf vsazeno vs. online vsazeno 0e+00 4e+06 8e online Obrázek 8.1: Závislost vsazených částek na hodnotách diskrétních proměnných. zek 8.1) a na bodové grafy dvojic spojitých proměnných (obrázky 8.2 a 8.3). Vzhledem k velkému rozpětí hodnot u proměnných udávajících počet obyvatel v obci v roce 2008 a rozlohu obce jsme se rozhodli tyto proměnné transformovat logaritmickou transformací. Podobně transformujeme samotnou vysvětlovanou proměnnou jako vysvětlovanou proměnnou tedy uvažujeme logaritmus vsazených částek. Ostatní proměnné jsme ponechali bez transformace a popisné statistiky celého souboru můžeme vidět v tabulce 8.1. Vzhledem k tomu, že máme k dispozici spojité vysvětlující proměnné a diskrétní vysvětlující proměnné, které mohou nabývat pouze dvou hodnot 0 a 1 (bar, tymova, synot ivt, sazka ivt, online), oddělíme přístup k těmto dvěma skupinám vysvětlujících proměnných. Budeme se zabývat zvlášť spojitými
34 KAPITOLA 8. ZPRACOVÁNÍ DAT 31 Párové grafy proměnných 1. část e e+00 vsazeno pocet_ve_meste pocet_dni_otevreno otevreno_po_pa 5 otevreno_so_ne 0e+00 4e+06 8e Obrázek 8.2: Bodové grafy dvojic proměnných, 1. část. Párové grafy proměnných 2. část e vsazeno 14 0 pocet_obyvatel_obec_ nezamestnanost_obec_ nezamestnanost_12m_obec_ prumerny_plat_okres_ zakladni_vzdelani_okres_ tredni_vzdelani_okres_200 0 rozloha_obec_2008 0e+00 6e Obrázek 8.3: Bodové grafy dvojic proměnných, 2. část.
35 KAPITOLA 8. ZPRACOVÁNÍ DAT 32 Min. 1st Qu. Median Mean 3rd Qu. Max. bar synot ivt sazka ivt tymova online pocet ve meste pocet dni otevreno otevreno po pa otevreno so ne log.pocet obyvatel obec nezamestnanost obec nezamestnanost 12M obec prumerny plat okres zakladni vzdelani okres stredni vzdelani okres log.rozloha obec Tabulka 8.1: Popisné statistiky vysvětlujících proměnných (po případné transformaci). vysvětlujícími proměnnými v jejich případě budeme postupovat stejně jako jsme uvedli v teoretických částech naší práce a poté k nim dodatečně přidáme (centrované) diskrétní proměnné. Tedy např. u metody regrese na hlavních komponentách nejprve (pouze) ze spojitých proměnných zkonstruujeme výběrové hlavní komponenty, vybereme vhodný počet výběrových hlavních komponent a poté jako regresory v metodě nejmenších čtverců použijeme vybrané hlavní komponenty a centrované hodnoty pěti diskrétních proměnných vyjmenovaných výše. 8.2 Rozdělení dat na trénovací a testovací Kromě interpretace závislosti hodnot vysvětlované proměnné na hodnotách vysvětlujících proměnných, jsme se rozhodli podívat i na předpovědi hodnot vysvětlované proměnné (ač tyto hodnoty nesouvisí s tématem multikolinearity, o kterém je naše práce). Proto jsme na začátku rozdělili data do dvou disjunktních skupin trénovací a testovací. Rozdělení do skupin jsme generovali náhodně tak, aby v testovací skupině bylo přibližně 25 % dat a v trénovací skupině bylo přibližně 75 % dat. Jednotlivé modely jsme nejprve tvořili a interpretovali na trénovací množině dat. V samotném závěru každé sekce jsme do již připravených modelů (modelů s odhadnutými regresními koeficienty) dosadili údaje z testovací skupiny dat, porovnali předpovědi vysvětlované proměnné se skutečně napo-
Testování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
Testování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
Úlohy nejmenších čtverců
Úlohy nejmenších čtverců Petr Tichý 7. listopadu 2012 1 Problémy nejmenších čtverců Ax b Řešení Ax = b nemusí existovat, a pokud existuje, nemusí být jednoznačné. Často má smysl hledat x tak, že Ax b.
AVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
AVDAT Mnohorozměrné metody metody redukce dimenze
AVDAT Mnohorozměrné metody metody redukce dimenze Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování vlastní čísla a vlastní vektory A je čtvercová matice řádu n. Pak
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel
Regresní analýza Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 1 / 23
Regresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
AVDAT Geometrie metody nejmenších čtverců
AVDAT Geometrie metody nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model klasický lineární regresní model odhad parametrů MNČ y = Xβ + ε, ε
0.1 Úvod do lineární algebry
Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Lineární rovnice o 2 neznámých Definice 011 Lineární rovnice o dvou neznámých x, y je rovnice, která může být vyjádřena ve tvaru ax + by = c, kde
9 Kolmost vektorových podprostorů
9 Kolmost vektorových podprostorů Od kolmosti dvou vektorů nyní přejdeme ke kolmosti dvou vektorových podprostorů. Budeme se zabývat otázkou, kdy jsou dva vektorové podprostory na sebe kolmé a jak to poznáme.
MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým
AVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
7. Analýza rozptylu.
7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y, Y,..., Y n a
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ
11 Analýza hlavních komponet
11 Analýza hlavních komponet Tato úloha provádí transformaci měřených dat na menší počet tzv. fiktivních dat tak, aby většina informace obsažená v původních datech zůstala zachována. Jedná se tedy o úlohu
0.1 Úvod do lineární algebry
Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Vektory Definice 011 Vektorem aritmetického prostorur n budeme rozumět uspořádanou n-tici reálných čísel x 1, x 2,, x n Definice 012 Definice sčítání
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová
Testování předpokladů pro metodu chain-ladder Seminář z aktuárských věd 4. 11. 2016 Petra Španihelová Obsah Datová struktura Posouzení dat Předpoklady metody chain-ladder dle T. Macka Běžná lineární regrese
Matematické modelování Náhled do ekonometrie. Lukáš Frýd
Matematické modelování Náhled do ekonometrie Lukáš Frýd Výnos akcie vs. Výnos celého trhu - CAPM model r it = r ft + β 1. (r mt r ft ) r it r ft = α 0 + β 1. (r mt r ft ) + ε it Ekonomický (finanční model)
Aplikovaná numerická matematika - ANM
Aplikovaná numerická matematika - ANM 3 Řešení soustav lineárních rovnic iterační metody doc Ing Róbert Lórencz, CSc České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových
Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic
Přednáška třetí (a pravděpodobně i čtvrtá) aneb Úvod do lineární algebry Matice a soustavy rovnic Lineární rovnice o 2 neznámých Lineární rovnice o 2 neznámých Lineární rovnice o dvou neznámých x, y je
Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace
Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi
(Cramerovo pravidlo, determinanty, inverzní matice)
KMA/MAT1 Přednáška a cvičení, Lineární algebra 2 Řešení soustav lineárních rovnic se čtvercovou maticí soustavy (Cramerovo pravidlo, determinanty, inverzní matice) 16 a 21 října 2014 V dnešní přednášce
Aplikovaná numerická matematika
Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních
příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.
Několik řešených příkladů do Matematiky Vektory V tomto textu je spočteno několik ukázkových příkladů které vám snad pomohou při řešení příkladů do cvičení. V textu se objeví i pár detailů které jsem nestihl
odpovídá jedna a jen jedna hodnota jiných
8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě
vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).
Řešené příklady z lineární algebry - část 6 Typové příklady s řešením Příklad 6.: Kvadratickou formu κ(x) = x x 6x 6x x + 8x x 8x x vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých
AVDAT Výběr regresorů v mnohorozměrné regresi
AVDAT Výběr regresorů v mnohorozměrné regresi Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Výběr správného lineárního modelu y = Xβ + ε, ale v matici X typu n (p + 1) je
Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup
Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
Kanonická korelační analýza
Kanonická korelační analýza Kanonická korelační analýza je vícerozměrná metoda, která se používá ke zkoumání závislosti mezi dvěma skupinami proměnných. První ze skupin se považuje za soubor nezávisle
Statistika (KMI/PSTAT)
Statistika (KMI/PSTAT) Cvičení dvanácté aneb Regrese a korelace Statistika (KMI/PSTAT) 1 / 18 V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. Statistika (KMI/PSTAT)
8 Coxův model proporcionálních rizik I
8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná
z = a bi. z + v = (a + bi) + (c + di) = (a + c) + (b + d)i. z v = (a + bi) (c + di) = (a c) + (b d)i. z v = (a + bi) (c + di) = (ac bd) + (bc + ad)i.
KOMLEXNÍ ČÍSLA C = {a + bi; a, b R}, kde i 2 = 1 Číslo komplexně sdružené k z = a + bi je číslo z = a bi. Operace s komplexními čísly: z = a + bi, kde a, b R v = c + di, kde c, d R Sčítání Odčítání Násobení
Odhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
Lineární algebra : Skalární součin a ortogonalita
Lineární algebra : Skalární součin a ortogonalita (15. přednáška) František Štampach, Karel Klouda LS 2013/2014 vytvořeno: 30. dubna 2014, 09:00 1 2 15.1 Prehilhertovy prostory Definice 1. Buď V LP nad
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
Bodové a intervalové odhady parametrů v regresním modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model Mějme lineární regresní model (LRM) Y = Xβ + e, kde y 1 e 1 β y 2 Y =., e
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie LS 2014/15 Cvičení 7: Autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Autokorelace - teorie Zopakujte si G-M
1 Řešení soustav lineárních rovnic
1 Řešení soustav lineárních rovnic 1.1 Lineární rovnice Lineární rovnicí o n neznámých x 1,x 2,..., x n s reálnými koeficienty rozumíme rovnici ve tvaru a 1 x 1 + a 2 x 2 +... + a n x n = b, (1) kde koeficienty
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY
VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY Jan Krejčí 31. srpna 2006 jkrejci@physics.ujep.cz http://physics.ujep.cz/~jkrejci Obsah 1 Přímé metody řešení soustav lineárních rovnic 3 1.1 Gaussova eliminace...............................
Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.
Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít
11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.
11 cvičení z PSI 12-16 prosince 2016 111 (Test dobré shody - geometrické rozdělení Realizací náhodné veličiny X jsme dostali následující četnosti výsledků: hodnota 0 1 2 3 4 5 6 pozorovaná četnost 29 15
1 Linearní prostory nad komplexními čísly
1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)
Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:
3 Maticový počet 3.1 Zavedení pojmu matice Maticí typu (m, n, kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: a 11 a 12... a 1k... a 1n a 21 a 22...
2 Vektorové normy. Základy numerické matematiky - NMNM201. Definice 1 (Norma). Norma je funkcionál splňující pro libovolné vektory x a y a pro
Cvičení 1 Základy numerické matematiky - NMNM201 1 Základní pojmy opakování Definice 1 (Norma). Norma je funkcionál splňující pro libovolné vektory x a y a pro libovolný skalár α C následující podmínky:
Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s
Kapitola 13 Kvadratické formy Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru f(x 1,..., x n ) = a ij x i x j, kde koeficienty a ij T. j=i Kvadratická forma v n proměnných
POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.
POLYNOMICKÁ REGRESE Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. y = b 0 + b 1 x + b 2 x 2 + + b n x n kde b i jsou neznámé parametry,
Lineární algebra : Skalární součin a ortogonalita
Lineární algebra : Skalární součin a ortogonalita (15. přednáška) František Štampach, Karel Klouda frantisek.stampach@fit.cvut.cz, karel.klouda@fit.cvut.cz Katedra aplikované matematiky Fakulta informačních
Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.
4 Afinita Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe. Poznámka. Vzájemně jednoznačným zobrazením rozumíme zobrazení,
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
1 Projekce a projektory
Cvičení 3 - zadání a řešení úloh Základy numerické matematiky - NMNM20 Verze z 5. října 208 Projekce a projektory Opakování ortogonální projekce Definice (Ortogonální projekce). Uvažujme V vektorový prostor
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
5. Lokální, vázané a globální extrémy
5 Lokální, vázané a globální extrémy Studijní text Lokální extrémy 5 Lokální, vázané a globální extrémy Definice 51 Řekneme, že f : R n R má v bodě a Df: 1 lokální maximum, když Ka, δ Df tak, že x Ka,
EUKLIDOVSKÉ PROSTORY
EUKLIDOVSKÉ PROSTORY Necht L je lineární vektorový prostor nad tělesem reálných čísel R. Zobrazení (.,.) : L L R splňující vlastnosti 1. (x, x) 0 x L, (x, x) = 0 x = 0, 2. (x, y) = (y, x) x, y L, 3. (λx,
a vlastních vektorů Příklad: Stanovte taková čísla λ, pro která má homogenní soustava Av = λv nenulové (A λ i I) v = 0.
Výpočet vlastních čísel a vlastních vektorů S pojmem vlastního čísla jsme se již setkali například u iteračních metod pro řešení soustavy lineárních algebraických rovnic. Velikosti vlastních čísel iterační
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
3 Bodové odhady a jejich vlastnosti
3 Bodové odhady a jejich vlastnosti 3.1 Statistika (Skripta str. 77) Výběr pořizujeme proto, abychom se (více) dověděli o souboru, ze kterého jsme výběr pořídili. Zde se soustředíme na situaci, kdy známe
6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
Pravděpodobnost a aplikovaná statistika
Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti
Jednofaktorová analýza rozptylu
Jednofaktorová analýza rozptylu David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5 7 8 2015 Tato
Lineární algebra : Metrická geometrie
Lineární algebra : Metrická geometrie (16. přednáška) František Štampach, Karel Klouda LS 2013/2014 vytvořeno: 6. května 2014, 10:42 1 2 Úvod Zatím jsme se lineární geometrii věnovali v kapitole o lineárních
1 Soustavy lineárních rovnic
1 Soustavy lineárních rovnic 1.1 Základní pojmy Budeme uvažovat soustavu m lineárních rovnic o n neznámých s koeficienty z tělesa T (potom hovoříme o soustavě m lineárních rovnic o n neznámých nad tělesem
Základy maticového počtu Matice, determinant, definitnost
Základy maticového počtu Matice, determinant, definitnost Petr Liška Masarykova univerzita 18.9.2014 Matice a vektory Matice Matice typu m n je pravoúhlé (nebo obdélníkové) schéma, které má m řádků a n
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Dnešní látka Opakování: normy vektorů a matic, podmíněnost matic Jacobiova iterační metoda Gaussova-Seidelova iterační metoda
Předmět: MA 4 Dnešní látka Opakování: normy vektorů a matic, podmíněnost matic Jacobiova iterační metoda Gaussova-Seidelova iterační metoda Četba: Text o lineární algebře v Příručce přežití na webových
Odhady Parametrů Lineární Regrese
Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2015 Ing. Petra Hlaváčková, Ph.D.
1 Determinanty a inverzní matice
Determinanty a inverzní matice Definice Necht A = (a ij ) je matice typu (n, n), n 2 Subdeterminantem A ij matice A příslušným pozici (i, j) nazýváme determinant matice, která vznikne z A vypuštěním i-tého
LWS při heteroskedasticitě
Stochastické modelování v ekonomii a financích Petr Jonáš 7. prosince 2009 Obsah 1 2 3 4 5 47 1 Předpoklad 1: Y i = X i β 0 + e i i = 1,..., n. (X i, e i) je posloupnost nezávislých nestejně rozdělených
5EN306 Aplikované kvantitativní metody I
5EN306 Aplikované kvantitativní metody I Přednáška 5 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam
Soustavy linea rnı ch rovnic
[1] Soustavy lineárních rovnic vlastnosti množin řešení metody hledání řešení nejednoznačnost zápisu řešení a) soustavy, 10, b) P. Olšák, FEL ČVUT, c) P. Olšák 2010, d) BI-LIN, e) L, f) 2009/2010, g)l.
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel
Analýza rozptylu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO Brno) Analýza rozptylu 1 / 30 Analýza
Singulární rozklad. Petr Tichý. 31. října 2013
Singulární rozklad Petr Tichý 31. října 2013 1 Outline 1 Úvod a motivace 2 Zavedení singulárního rozkladu a jeho vlastnosti 3 Výpočet a náklady na výpočet singulárního rozkladu 4 Moor-Penroseova pseudoinverze
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1
Stavový model a Kalmanův filtr
Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,
Regresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním
Teorie náhodných matic aneb tak trochu jiná statistika
Teorie náhodných matic aneb tak trochu jiná statistika B. Vlková 1, M.Berg 2, B. Martínek 3, O. Švec 4, M. Neumann 5 Gymnázium Uničov 1, Gymnázium Václava Hraběte Hořovice 2, Mendelovo gymnázium Opava
6 Skalární součin. u v = (u 1 v 1 ) 2 +(u 2 v 2 ) 2 +(u 3 v 3 ) 2
6 Skalární součin Skalární součin 1 je operace, která dvěma vektorům (je to tedy binární operace) přiřazuje skalár (v našem případě jde o reálné číslo, obecně se jedná o prvek nějakého tělesa T ). Dovoluje
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní
..08 8cv7.tex 7. cvičení - transformace náhodné veličiny Definice pojmů a základní vzorce Je-li X náhodná veličina a h : R R je měřitelná funkce, pak náhodnou veličinu Y, která je definovaná vztahem X
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,
Arnoldiho a Lanczosova metoda
Arnoldiho a Lanczosova metoda 1 Částečný problém vlastních čísel Ne vždy je potřeba (a někdy to není ani technicky možné) nalézt celé spektrum dané matice (velké řídké matice). Úloze, ve které chceme aproximovat
Interpolace, ortogonální polynomy, Gaussova kvadratura
Interpolace, ortogonální polynomy, Gaussova kvadratura Petr Tichý 20. listopadu 2013 1 Úloha Lagrangeovy interpolace Dán omezený uzavřený interval [a, b] a v něm n + 1 různých bodů x 0, x 1,..., x n. Nechť
Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.
1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,
Soustavy lineárních diferenciálních rovnic I. řádu s konstantními koeficienty
Soustavy lineárních diferenciálních rovnic I řádu s konstantními koeficienty Definice a) Soustava tvaru x = ax + a y + az + f() t y = ax + a y + az + f () t z = a x + a y + a z + f () t se nazývá soustava