Regresní a korelační analýza

Podobné dokumenty

KGG/STG Statistika pro geografy

Testování hypotéz o parametrech regresního modelu

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Testování hypotéz o parametrech regresního modelu

6. T e s t o v á n í h y p o t é z

Regresní analýza. Statistika II. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

Dynamické metody pro predikci rizika

Kontingenční tabulky, korelační koeficienty

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Kontingenční tabulky, korelační koeficienty

Tématické celky { kontrolní otázky.

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

1. Pravděpodobnost a statistika (MP leden 2010)

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Jazyk matematiky Matematická logika Množinové operace Zobrazení Rozšířená číslená osa

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

odpovídá jedna a jen jedna hodnota jiných

Pro bodový odhad při základním krigování by soustava rovnic v maticovém tvaru vypadala následovně:

(Auto)korelační funkce Statistické vyhodnocování exp. dat M. Čada ~ cada

Rozptyl. Pozn.: rozptyl je nezávislý na posunu hustoty pravděpodobnosti na ose x, protože Var(X) mi určuje jen šířku rozdělení.

Matice. Přednáška MATEMATIKA č. 2. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

AVDAT Klasický lineární model, metoda nejmenších

Regresní analýza 1. Regresní analýza

Součin matice A a čísla α definujeme jako matici αa = (d ij ) typu m n, kde d ij = αa ij pro libovolné indexy i, j.

Euklidovský prostor Stručnější verze

4ST201 STATISTIKA CVIČENÍ Č. 8

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Modely diskrétní náhodné veličiny. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

MATEMATIKA III V PŘÍKLADECH

Bodové a intervalové odhady parametrů v regresním modelu

Skalár- veličina určená jedním číselným údajem čas, hmotnost (porovnej životní úroveň, hospodaření firmy, naše poloha podle GPS )

Matematická statistika

4EK211 Základy ekonometrie

LINEÁRNÍ REGRESE. Lineární regresní model

Měření závislosti statistických dat

Poznámky k předmětu Aplikovaná statistika, 9.téma

Korelační a regresní analýza

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

FAKULTA STAVEBNÍ MATEMATIKA II MODUL 2 STUDIJNÍ OPORY PRO STUDIJNÍ PROGRAMY S KOMBINOVANOU FORMOU STUDIA

Literatura učebnice z minulého semestru Jarošová, Pecáková sbírka příkladů pro statistiku B (2000 a novější)

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Diskrétní rozdělení Náhodná veličina má diskrétní rozdělení pravděpodobnosti, jestliže existuje seznam hodnot

STP022 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA

Zpracování a vyhodnocování analytických dat

Funkce zadané implicitně

Statistika II. Jiří Neubauer

Lineární Regrese Hašovací Funkce

Zápočtová písemka z Matematiky III (BA04) skupina A

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

4EK211 Základy ekonometrie

2. Je dáno jevové pole (Ω;A) a na něm nezáporná normovaná funkce. Definujte distrubuční funkci náhodného vektoru.

4EK211 Základy ekonometrie

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE

Regresní a korelační analýza

2. RBF neuronové sítě

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Statistická analýza jednorozměrných dat

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

Regresní a korelační analýza

Základy teorie odhadu parametrů bodový odhad

NÁHODNÝ VEKTOR. 4. cvičení

Skalární součin je nástroj, jak měřit velikost vektorů a úhly mezi vektory v reálných a komplexních vektorových prostorech.

You created this PDF from an application that is not licensed to print to novapdf printer (

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Téma je podrobně zpracováno ve skriptech [1], kapitola

FAKULTA STAVEBNÍ VUT V BRNĚ PŘIJÍMACÍ ŘÍZENÍ DO MNSP STAVEBNÍ INŽENÝRSTVÍ PRO AKADEMICKÝ ROK

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.)

PRAVDĚPODOBNOST A STATISTIKA

10. N á h o d n ý v e k t o r

4EK211 Základy ekonometrie

5. Maticová algebra, typy matic, inverzní matice, determinant.

Základy matematiky kombinované studium /06

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

Tomáš Karel LS 2012/2013

MATEMATIKA IV - PARCIÁLNÍ DIFERENCIÁLNÍ ROVNICE - ZÁPISKY Z. Obsah. 1. Parciální diferenciální rovnice obecně. 2. Kvaazilineární rovnice prvního řádu

4EK211 Základy ekonometrie

Regresní a korelační analýza

Drsná matematika IV 7. přednáška Jak na statistiku?

Mária Sadloňová. Fajn MATIKA. 150 řešených příkladů (vzorek)

Vícerozměrná rozdělení

Matice se v některých publikacích uvádějí v hranatých závorkách, v jiných v kulatých závorkách. My se budeme držet zápisu s kulatými závorkami.

Regresní analýza. Eva Jarošová

Ekonometrie. Jiří Neubauer

9. Úvod do teorie PDR

Učební texty k státní bakalářské zkoušce Matematika Matice. študenti MFF 15. augusta 2008

Soustavy lineárních rovnic

Výběrové charakteristiky a jejich rozdělení

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Kapitola 11: Lineární diferenciální rovnice 1/15

Charakterizace rozdělení

2.8 ZÁKLADY VYTVÁŘENÍ TESTOVÝCH SYSTÉMŮ

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

3. Polynomy Verze 338.

Transkript:

Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz

Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu) této závislosti pomocí vhodné funkce vystihnout pomocí regresní funkce průběh (trend) závislosti mezi X a Y na základě znalosti dvojic empirických hodnot [x i, y i ], kde i = 1, 2,..., n.

Regresní analýza Hledáme regresní funkci Y = f (X, β 0, β 1,..., β p ) = E(Y X ), kde β j, j = 0, 1,..., p jsou regresní parametry. Regresní funkce charakterizuje závislost podmíněných středních hodnot náhodné veličiny Y na hodnotách náhodné veličiny X. Na Y působí kromě X i další vlivy, proto se budou empirické hodnoty y i více či méně lišit od teoretické hodnoty Y i, tj. platí Lineární regresní funkce má tvar y i = Y i + ɛ i, i = 1, 2,..., n. Y = β 0 f 0 (X ) + β 1 f 1 (X ) + + β p f p (X ), kde f j (X ), j = 0, 1,..., p se nazývají regresory (obvykle f 0 (X ) = 1 konstanta), počet regresorů je obecně c = p + 1.

Regresní analýza Některé typy lineárních regresních funkcí: přímková regrese Y = β 0 + β 1 X, hyperbolická regrese Y = β 0 + β1 X, logaritmická regrese Y = β 0 + β 1 ln X, parabolická regrese Y = β 0 + β 1 X + β 2 X 2 polynomická regrese Y = β 0 + β 1 X + + β p X p Některé typy nelineárních regresních funkcí: exponenciální regrese Y = β 0 β X 1, mocninná regrese Y = β 0 X β1.

Regresní analýza Označíme-li odhady parametrů β 0, β 1,..., β p jako b 0, b 1,..., b p, dostaneme odhady lineárních regresních modelů ve tvaru ŷ = f (x, b 0, b 1,..., b p ), nazveme je výběrová regresní funkce. (např. pro přímkovou regresi má výběrová regresní funkce tvar ŷ = b 0 + b 1 x) S využitím této výběrové regresní funkce, tzv. vyrovnané hodnoty, můžeme vztah y = Y + ɛ vyjádřit ve tvaru y = ŷ + e, kde e = y ŷ je tzv. reziduum, resp. ve tvaru y i = ŷ i + e i, i = 1,..., n, kde e i = y i ŷ i je reziduum pro i-té měření.

Klasický regresní model Nejjednodušší z lineárních regresních modelů je tzv. klasický regresní model hodnoty X jsou volené - nastavované (X není náhodná veličina), regresní funkce je lineární vzhledem k parametrům, soustava normálních rovnic má právě 1 řešení matice hodnot regresorů f j (x), j = 0, 1, 2,..., p, má hodnost p + 1 sloupce matice hodnot regresorů jsou lineárně nezávislé náhodné složky ɛ i jsou nezávislé a mají normální rozdělení N(0, σ 2 ) E(ɛ i ) = 0, D(ɛ i ) = σ 2, i = 1, 2,..., n. Poznámka: z předpokladu o rozdělení náhodných složek ɛ i vyplývá, že v klasickém regresním modelu mají pozorované hodnoty y i vysvětlované proměnné Y normální rozdělení se středními hodnotami µ i = E(y i x i ) s rozptylem σ 2 = D(ɛ i ) = D(y i x i ), hodnoty y i jsou navzájem nezávislé.

Odhady regresních parametrů Cílem metod určení parametrů je odhad parametrů zvolené regresní funkce tak, aby se hodnoty ŷ i (tzv. vyrovnané hodnoty) náhodné veličiny Y ležící na této regresní funkci co nejtěsněji přimykaly pozorovaným (empirickým) hodnotám y i pro dané hodnoty x i náhodné veličiny X.

Odhady regresních parametrů Základní metodou určení parametrů regresní funkce je metoda nejmenších čtverců (MNČ). Tato metoda vychází z požadavku, aby součet čtverců odchylek empirických hodnot y i a vyrovnaných hodnot ŷ i (reziduí) reziduální součet čtverců S R byl minimální, tj. min S r = min (y i ŷ i ) 2 = min ei 2. Z matematiky je známo, že nutnou podmínkou pro existenci extrému funkce 2 a více proměnných je nulovost prvních parciálních derivací, tj. S R β 0 = S R β 1 = = S R β p = 0, podmínku postačující pro minimum nemusíme vyšetřovat, neboť funkce S R je ryze konvexní. Dostáváme p + 1 rovnic (tzv. normálních rovnic), jejichž řešením obdržíme odhady parametrů regresní funkce b 0 = ˆβ 0, b 1 = ˆβ 1,..., b p = ˆβ p.

Odhady regresních parametrů Regresní funkce určená metodou nejmenších čtverců má tyto vlastnosti: n (y i ŷ i ) = 0 prochází vždy bodem [x, y] odhad regresní funkce MNČ je nejlepším nestranným odhadem

Odhady regresních parametrů Regresní přímka: ŷ = b 0 + b 1 x S r = (y i ŷ i ) 2 = (y i (b 0 + b 1 x i )) 2 = S r b 0 = 2 S r b 1 = 2 (y i b 0 b 1 x i ) 2 (y i b 0 b 1 x i )( 1) = 0 (y i b 0 b 1 x i )( x i ) = 0 dostáváme soustavu normálních rovnic b 0 n + b 1 x i = b 0 x i + b 1 x 2 i = y i x i y i

Odhady regresních parametrů Soustavu vyřešíme např. Cramerovým pravidlem a dostaneme odhady parametrů n b 0 = y n i x i 2 n x n i x iy i n n x i 2 ( n x ) 2 i b 1 = n n x iy i n x n i y i n n x i 2 ( n x ) 2 i

Odhady regresních parametrů maticové vyjádření Regresní model je možné zapsat ve tvaru Y = Xβ + ɛ kde Y = (Y 1, Y 2... Y n ), β = (β 0, β 1,..., β p ), ɛ = (ɛ 1, ɛ 2,..., ɛ n ), f 0 (x 1 ) f 1 (x 1 )... f p (x 1 ) f 0 (x 2 ) f 1 (x 2 )... f p (x 2 ) X =.... f 0 (x n ) f 1 (x n )... f p (x n ) je matice regresorů. V případě přímkové regrese je matice regresorů rovna 1 x 1 1 x 2 X =.. 1 x n

Odhady regresních parametrů maticové vyjádření Odhady parametrů získané MNČ mají tvar b = (X X) 1 X Y

Odhady b 0, b 1,..., b p parametrů β 0, β 1,..., β p získané MNČ jsou jejich nestranné odhady, tedy platí E(b j ) = β j pro j = 0, 1,..., p. Představu o tom, jaké chyby můžeme při bodových odhadech očekávat, poskytují směrodatné odchylky směrodatné chyby těchto bodových odhadů s(b j ). K jejich určení potřebujeme znát rozptyl náhodných složek D(ɛ i ) = σ 2, který je neznámý. Odhadneme jej pomocí reziduálního rozptylu sr 2 = S R n c = 1 (y i ŷ i ) 2, n c kde c je počet neznámých (odhadovaných) regresních parametrů, S R je reziduální součet čtverců. Maticově S R = Y Y b X Y.

Pro regresní přímku je potom S r = (y i b 0 b 1 x) = = ( sr 2 = 1 yi 2 b 0 n 2 y 2 i b 0 y i b 1 y i b 1 ) x i y i. x i y i,

Intervalové odhady Regresní analýza Jsou-li splněny předpoklady klasického regresního modelu, mají potom regresní koeficienty b j normální rozdělení, tedy platí kde rozptyly D(b j ) jsou rovny b j N(β j, D(b j )), D(b 0 ) = σ 2 h 00, D(b 1 ) = σ 2 h 11,..., D(b p ) = σ 2 h pp, pričemž h 00, h 11,..., h pp jsou prvky na hlavní diagonále matice H = (X X) 1. Rozptyly odhadů regresních parametrů musíme odhadnout ˆD(b j ) = sr 2 h jj s(b j ) = sr 2 h jj

Intervalové odhady Regresní analýza Pro regresní přímku ŷ = b 0 + b 1 x dostaneme n s(b 0 ) = s x i 2 R n n x i 2 ( n x i n s(b 1 ) = s R n n x i 2 ( n x i ) 2 ) 2

Intervaly spolehlivosti pro regresní parametry β j Východiskem pro konstrukci intervalů spolehlivosti parametrů β j při platnosti předpokladů klasického regresního modelu jsou statistiky t j = b j β j s(b j ) t(n c) pro j = 0, 1,... p, kde b j je bodový odhad parametru β j, s(b j ) je směrodatná chyba tohoto odhadu. Oboustranný interval spolehlivosti má potom tvar b j t 1 α/2 (n c) s(b j ) < β j < b j + t 1 α/2 (n c) s(b j ). Pokud tento interval pro určitý parametr obsahuje nulu, lze usoudit na hladině významnosti α, že tento parametr je statisticky nevýznamný.

Testy hypotéz o významnosti regresních parametrů β Statisticky významným parametrem β j se rozumí nenulový parametr, proto budeme testovat Testovým kritériem je statistika H : β j = 0 A : β j 0. t j = b j β j s(b j ), kritický obor je W α : t j t 1 α/2 (n c)

Intervalové odhady pro regresní funkci Intervaly spolehlivosti pro regresní funkci Y i (podmíněné střední hodnoty) jsou založené na tom, že při platnosti předpokladů klasického regresního modelu jsou statistiky t i = ŷi Y i s(ŷ i ) t(n c) pro i = 1, 2,..., n, kde ŷ i je bodový odhad podmíněné střední hodnoty Y i pro hodnotu x i, s(ŷ i ) je směrodatná chyba (odchylka) bodového odhadu ŷ i. Odtud lze klasicky odvodit vztah pro oboustranný intervalový odhad. ŷ i t 1 α/2 (n c) s(ŷ i ) < Y i < ŷ i + t 1 α/2 (n c) s(ŷ i ).

Intervalové odhady pro regresní funkci Rozptyl vyrovnaných hodnot je D(ŷ i ) = σ 2 x ihx i. kde x i = (1, f 1 (x i ), f 2 (x i ),..., f p (x i )) je vektor hodnot regresorů pro hodnotu x i. Pro rozptyl resp. směrodatnou chybu odhadu podmíněné střední hodnoty Y i, tj. pro s 2 (ŷ i ) platí s 2 (ŷ i ) = s 2 Rx ihx i s(ŷ i ) = s R x i Hx i.

Intervalové odhady pro regresní funkci Pro regresní přímku ŷ = b 0 + b 1 x dostáváme s(ŷ i ) = s R x i Hx i = s R 1 n + ( x i n x 2 i P n ) 2 xi n (P n xi)2 n

Intervalové odhady pro individuální předpovědi Pro rozptyl individuálních hodnot platí, že je o σ 2 větší než rozptyl vyrovnaných hodnot, tedy platí D(ŷ i0 ) = σ 2 + σ 2 x ihx i = σ 2 (1 + x ihx i ). Při určování odhadů individuálních hodnot Y i0 při určování odhadů individuálních hodnot ŷ i0 ve tvaru s 2 (ŷ i0 ) = σ 2 R(1 + x ihx i ) s(ŷ i0 ) = s R 1 + x i Hx i. Interval spolehlivosti pro individuální předpověď Y i0 je ŷ i0 t 1 α/2 (n c) s(ŷ i0 ) < Y i0 < ŷ i0 + t 1 α/2 (n c) s(ŷ i0 )

Intervalové odhady pro individuální předpovědi Pro regresní přímku ŷ = b 0 + b 1 x dostáváme s(ŷ i0 ) = s R 1 + x i Hx i = s R 1 + 1 n + ( x i n x 2 i P n ) 2 xi n (P n xi)2 n

Test o významnosti regresního modelu Zřejmě platí, že y i y = (y i ŷ i ) + (ŷ i y). Lze ukázat, že také platí (y i y) 2 = (y i ŷ i ) 2 + (ŷ i y) 2 S Y = S R + S T, kde celkový součet čtverců S Y = y y ny 2 S Y = (y i y) 2 = n s 2 (y), kde s 2 (y) = 1 n (y i y) 2 reziduální součet čtverců S R = y y b X y S R = (y i ŷ i ) 2 = (n c) sr(y), 2 kde sr(y) 2 = 1 n c teoretický součet čtverců S T = b X y ny 2 S T = (ŷ i y) 2 = n s 2 (ŷ), kde s 2 (ŷ) = 1 n (y i ŷ i ) 2 (ŷ i y) 2

Test o významnosti regresního modelu Pro regresní přímku ŷ = b 0 + b 1 x dostáváme S R = = S T = (y i ŷ i ) 2 = y 2 i b 0 (y i b 0 b 1 x i ) 2 = = y i b 1 (ŷ i ŷ i ) 2 = = b 0 y i + b 1 x i y i ( b 0 + b 1 x i 1 n ( ) 2 x i y i 1 y i n S Y = S R + S T = = y 2 i ( ) 2 1 y i n y 2 i ) = =

Test o významnosti regresního modelu teoretický součet čtverců S T je ta část celkového součtu čtverců S Y, která je vysvětlená zvolenou regresní funkcí reziduální součet čtverců S R je ta část celkového součtu čtverců S Y, která zvolenou regresní funkcí vysvětlená není

Test o významnosti regresního modelu Test o významnosti modelu celkový F -test H : β 0 = k, k 0, β 1 = β 2 = = β p = 0 A : β j 0 pro alespoň jedno j = 1, 2,..., p Testové kritérium je statistika F = S T (y) c 1 S R (y) n c F (c 1, n c), kde c = p + 1 je počet odhadovaných parametrů. Kritický obor je W α : F > F 1 α (c 1, n c).

Test o významnosti regresního modelu Jsou-li celkový F -test i všechny t-testy jsou statisticky významné, model se považuje za vhodný k vystižení variability proměnné Y (to však ještě neznamená, že je model správně navržen). Jsou-li celkový F -test i všechny t-testy jsou statisticky nevýznamné, model se považuje za nevhodný, protože nevystihuje variabilitu proměnné Y. Je-li celkový F -test statisticky významný, ale některé t-testy vychází nevýznamné, model se považuje za vhodný, ale provádí se zpravidla vypuštění nevýznamných parametrů. Je-li celkový F -test statisticky významný, ale všechny t-testy vychází nevýznamné paradox: formálně model jako celek vyhovuje, ale žádný člen modelu sám o sobě významný není jde o důsledek tzv. multikolinearity, tj. lineární závislosti mezi jednotlivými regresory.

Regresní analýza Těsností závislosti rozumíme stupeň, s jakým se zkoumaná závislost blíží k funkční závislosti. Vztah mezi proměnnými X a Y může mít různou intenzitu, od úplné nezávislosti až po pevnou (funkční) závislost. Představu o síle závislosti můžeme získat z bodového diagramu (podle rozložení bodů okolo regresní křivky) pomoci měr těsnosti závislosti

Regresní analýza Poměr determinace p 2 yx (viz ANOVA) p 2 yx = S M(y) S C (y), p2 yx 0, 1 udává, jaké procento variability proměnné Y je vysvětlené proměnnou X (jaké procento meziskupinové variability se podílí na celkové variabilitě). Tento poměr není závislý na zvolené regresní funkci, ale vyžaduje roztříděná data (korelační tabulka).

Regresní analýza Index determinace i 2 yx i 2 yx = S T (y) S Y (y), i 2 yx 0, 1 udává, jaké procento variability proměnné Y lze vysvětlit zvoleným regresním modelem. Tento poměr vychází ze zvolené regresní funkce. V případě, kdy regresní funkce je přímka, použijeme název koeficient determinace a značíme jej r 2 yx.

Regresní analýza Čím více se i 2 blíží k 1, tím považujeme danou závislost za silnější, a tedy dobře vystiženou použitou regresní funkcí; naopak čím více se bude blížit k 0, tím považujeme danou závislost za slabší a regresní funkci za méně výstižnou. Nízká hodnota i 2 ještě nemusí znamenat nízký stupeň závislosti mezi proměnnými, ale může to signalizovat chybnou volbu regresní funkce. Kritéria vhodnosti použité regresní funkce pro popis závislosti: čím je i 2 blíže k 1, tím vhodnější je použitý model obecně platí i 2 p 2, potom čím je i 2 blíže p 2 tím je použitý model lepší

Regresní analýza i 2 yx představuje výběrový index determinace, který lze použít jako odhad teoretického indexu determinace I 2 yx (Î 2 yx = i 2 yx). Tento odhad je asymptoticky nestranný, navíc ale tento odhad pro malé výběry nadhodnocuje skutečnou těsnost závislosti, záleží i na počtu parametrů regresní funkce. Provádíme proto korekci tento odhad je již nestranný. i 2 kor = 1 (1 i 2 ) n 1 n c,

Regresní analýza Regresní model obsahující více než jednu vysvětlující proměnnou se nazývá model vícenásobné regrese. Omezíme se na model regrese se dvěma nezávisle proměnnými. Nechť Y i = β 0 + β 1 x i + β 2 z i + ɛ i, i = 1,..., n. Matice regresorů má tvar 1 x 1 z 1 1 x 2 z 2 X =.... 1 x n z n

Regresní analýza Odhady určíme podle vztahu b = (X X) 1 X Y, s 2 R = 1 n c (Y Y b X Y), kde Y = (Y 1, Y 2,..., Y n ). Testy hypotéz o významnosti regresních koeficientů a celkového modelu se provádějí podobně jako u lineární regrese s jednou vysvětlující proměnou.

Regresní analýza Korelační koeficient Koeficient mnohonásobné korelace V regresní analýze jsme se doposud zabývali jednostrannými závislostmi a popisovali jsme formu závislosti vysvětlované proměnné Y na vysvětlující (ale nenáhodné, pevné, nastavené) proměnné X. Oboustrannými závislostmi mezi náhodnými veličinami X a Y se věnuje korelační analýza.

Korelační koeficient Regresní analýza Korelační koeficient Koeficient mnohonásobné korelace Definice Korelační koeficient náhodných veličin X a Y je definován vztahem ρ(x, Y ) = C(X, Y ) = C(X, Y ) D(X ) D(Y ) σ(x )σ(y ). Pro korelační koeficient platí: 1 ρ(x, Y ) 1, jestliže jsou X a Y nezávislé, pak ρ(x, Y ) = 0, ρ(x, Y ) = 1 právě když Y = ax + b, kde a > 0, ρ(x, Y ) = 1 právě když Y = ax + b, kde a < 0.

Dvourozměrné normální rozdělení Korelační koeficient Koeficient mnohonásobné korelace Definice Má-li náhodný vektor X = (X, Y ) sdruženou hustotu pravděpodobnosti 1 f (x, y) = p 2πσ 1σ 2 1 ρ 2 j 1 (x µ1) 2 exp + 2(1 ρ 2 ) σ 2 1 (y µ2)2 σ 2 2 «ff 2ρ(x µ1)(y µ2) σ 1σ 2 pro x, y R, pak říkáme, že má dvourozměrné normální rozdělení s parametry µ 1, µ 2, σ 1, σ 2, ρ. Věta Nechť X = (X, Y ) má dvourozměrné normální rozdělení s parametry µ 1, µ 2, σ 1, σ 2, ρ, potom X N(µ 1, σ 2 1 ) a Y N(µ 2, σ 2 2 ), ρ je korelační koeficient X a Y.

Dvourozměrné normální rozdělení Korelační koeficient Koeficient mnohonásobné korelace Obrázek: Graf dvourozměrného normálního rozdělení

Korelační koeficient Regresní analýza Korelační koeficient Koeficient mnohonásobné korelace Empirickým protějškem korelačního koeficientu ρ výběrový korelační koeficient (koeficient korelace) r r = s xy s x s y, kde s xy = 1 n 1 n (x i x)(y i y) je výběrová kovariance, s x a s y jsou výběrové směrodatné odchylky. Korelační koeficient r lze vyjádřit ve tvaru r = n n x iy i n x n i y i n n x i 2 ( n x i ) 2 n n y i 2 ( n y i ) 2

Korelační koeficient Regresní analýza Korelační koeficient Koeficient mnohonásobné korelace Koeficient determinace je pro závislost popsanou regresní přímkou zvláštním případem indexu determinace, tedy platí ryx 2 = S T S Y. Tato míra těsnosti závislosti má zcela stejné vlastnosti jako iyx. 2 Výběrový koeficient determinace ryx 2 lze použít jako odhad teoretického koeficientu determinace ρ 2 v základním souboru. Úpravou získáme nestranný odhad ρ 2. r 2 kor = 1 (1 r 2 ) n 1 n 2

Korelační koeficient Koeficient mnohonásobné korelace Test významnosti korelačního koeficientu Testové kritérium je statistika Kritický obor je dán t = H : ρ = 0 A : ρ 0 r 1 r 2 n 2 t(n 2). W α : t > t 1 α/2 (n 2). Pokud hodnota testového kritéria padne do kritického oboru, podařila se prokázat lineární závislost mezi sledovanými proměnnými.

Korelační koeficient Koeficient mnohonásobné korelace Koeficient mnohonásobné korelace Koeficient mnohonásobné korelace vyjadřuje společné působení nezávisle proměnných X 1, X 2,... X k na závisle proměnnou Y a určuje spolehlivost regresního odhadu. Výběrový koeficient mnohonásobné korelace pro případ regrese se dvěma nezávisle proměnnými (Y i = β 0 + β 1 x i + β 2 z i + ɛ i ) je roven r y,xz = ryx 2 + ryz 2 + 2r yx r yz r xz 1 rxz 2, kde r yx je výběrový korelační koeficient mezi hodnotami y i a x i, r yz je výběrový korelační koeficient mezi y i a z i a r yx je výběrový korelační koeficient mezi x i a z i. Jeho druhou mocninou je index determinace.

Regresní analýza užívá řadu dalších funkcí, které nejsou lineární vzhledem k parametrům nelineární regresní modely: nelineární regresní funkce, které lze linearizovat, např. regresní exponenciální funkce Y = β 0β1 X ; Y = β 0e β 1X regresní mocninná funkce Y = β 0X β 1 Törnquistova křivka I Y = β 0X β 1 +X nelineární regresní funkce, které nelze linearizovat, např. regresní exponenciální funkce Y = β 0β1 X + β 2; Y = β 0e β1x + β 2 regresní mocninná funkce Y = β 0X β 1 + β2 Törnquistovy křivka II a III Y = β 0(X β 1 ) β 2 ; Y = β 0X (X β 1 ) +X β 2 +X Odhad parametrů těchto a dalších nelineárních regresních funkcí nelze provádět metodou nejmenších čtverců. Postupuje se tak, že se nejprve najde vhodný tzv. počáteční odhad, který se dále numerickými (iteračními) metodami postupně zlepšuje.

Linearizující transformace Linearizující transformace spočívá v tom, že se vhodnou transformací převede nelineární funkce Y na lineární funkci Y. Parametry lineární funkce Y se odhadnou metodou nejmenších čtverců a zpětnou transformací obdržíme odhady parametrů původní funkce Y. Příklad 1: transformace: ln ŷ = ln b 0 + x ln b 1 lineární model: y = b 0 + b 1 x substituce: y = ln ŷ, x = x b 0 = ln b 0 b 0 = e b 0 b 1 = ln b 1 b 1 = e b 1 Y = β 0 β X 1 ŷ = b 0 b x 1

Linearizující transformace Příklad 2: Y = transformace: 1 ŷ = b1+x b 0x = b1 lineární model: y = b0 + b 1 x substituce: y = 1 ŷ, x = 1 x b0 = 1 b 0 b 0 = 1 b0 b1 = b1 b 0 b 1 = b 0 b1 β 0X β 1 + X ŷ = b 0x b 1 + x b 0 1 x + 1 b 0

Poznánka: Je třeba si uvědomit, že vlastnosti, které platí pro odhad regresní funkce získaný klasickou metodou nejmenších čtverců, platí pouze pro transformovanou funkci. Důsledkem toho je, že odhady jednotlivých regresních koeficientů užitého modelu nesplňují podmínku nestrannosti. V případě, že linearizující transformace není možná, je třeba použít jiných metod, např. metodu vybraných bodů apod.