Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup



Podobné dokumenty
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Měření závislosti statistických dat

You created this PDF from an application that is not licensed to print to novapdf printer (

odpovídá jedna a jen jedna hodnota jiných

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Úvodem Dříve les než stromy 3 Operace s maticemi

Regresní a korelační analýza

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

Statistická analýza jednorozměrných dat

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Regresní analýza 1. Regresní analýza

Regresní a korelační analýza

Regresní a korelační analýza

Statistika (KMI/PSTAT)

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty

Regresní analýza. Eva Jarošová

LINEÁRNÍ REGRESE. Lineární regresní model

Testování hypotéz o parametrech regresního modelu

Regresní a korelační analýza

Testování hypotéz o parametrech regresního modelu

Korelační a regresní analýza

Tomáš Karel LS 2012/2013

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

INDUKTIVNÍ STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

10. Předpovídání - aplikace regresní úlohy

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

KGG/STG Statistika pro geografy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Bodové a intervalové odhady parametrů v regresním modelu

Regresní a korelační analýza

Cvičení ze statistiky - 3. Filip Děchtěrenko

5EN306 Aplikované kvantitativní metody I

6. Lineární regresní modely

AVDAT Nelineární regresní model

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Aplikovaná numerická matematika

Pravděpodobnost a aplikovaná statistika

5EN306 Aplikované kvantitativní metody I

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

MATEMATIKA III V PŘÍKLADECH

Aplikovaná matematika I

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Odhady Parametrů Lineární Regrese

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

AVDAT Klasický lineární model, metoda nejmenších

Mnohorozměrná statistická data

AVDAT Náhodný vektor, mnohorozměrné rozdělení

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

STATISTIKA I Metodický list č. 1 Název tématického celku:

Mnohorozměrná statistická data

4EK211 Základy ekonometrie

Pravděpodobnost a matematická statistika

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

=10 =80 - =

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

UNIVERZITA PARDUBICE

Pravděpodobnost a statistika I KMA/K413

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Chyby nepřímých měření

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KGG/STG Statistika pro geografy

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Inovace bakalářského studijního oboru Aplikovaná chemie

Téma 22. Ondřej Nývlt

VÝUKA: Biostatistika základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

NÁHODNÝ VEKTOR. 4. cvičení

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

4EK211 Základy ekonometrie

Časové řady, typy trendových funkcí a odhady trendů

Informační technologie a statistika 1

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Aplikovaná statistika v R - cvičení 3

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Chyby měření 210DPSM

Časové řady, typy trendových funkcí a odhady trendů

Technická univerzita v Liberci

AVDAT Geometrie metody nejmenších čtverců

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Ilustrační příklad odhadu LRM v SW Gretl

Transkript:

Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009 1/14

Obsah Závislost statistických znaků Regresní a korelační analýza Regresní analýza Metoda nejmenších čtverců Korelační analýza 2/14

Závislost statistických znaků Pohledy na typy závislostí Dle typu vazby bezprostřední kauzální závislost zprostředkovaná kauzální závislost náhodná souvislost Dle typu statistických znaků závislost dvou alternativních statistických znaků asociační tabulky závislost dvou nominálních statistických znaků kontingenční tabulky závislost dvou diskrétních (intervalově setříděných) numerických statistických znaků korelační tabulky závislost spojitého numerického znaku na alternativním/nominálním znaku rozkladové tabulky závislost alternatiho/nominálního znaku na spojitých numerických i nominálních statistických znacích diskriminační analýza,... závislost skupiny spojitých numerických znaků na skupině jiných spojitých numerických znaků regresní a korelační analýza... 3/14

Závislost statistických znaků (proměnných) Směr závislosti/souvislosti Jednostranná závislost jedna skupina proměnných závisí na jiných nezávislé a závislé proměnné Oboustranná závislost dá se předpokládat souvislost proměnných, nedá se však určit, co je příčina a co je následek vysvětlující a vysvětlované proměnné vysvětlující: snadno měřitelné, dopředu známé,... vysvětlované: hůře měřitelné, měřitelné až následně,... exogenní a endogenní proměnné exogenní: proměnné mimo systém, vysvětlují chování systému,... endogenní: proměnné daného systém, popisují chování systému,... 4/14

Závislost statistických znaků (proměnných) I Logická/věcná síla závislosti 5/14 Pevná (funkční) závislost konkrétním l hodnotám jedné skupiny proměnných (x1i, x 2i,..., x li ) odpovídá právě q-tice hodnot druhé skupiny proměnných (y 1i, y 2i,..., y qi) závislost mezi nimi lze vyjádřit beze zbytku funkčním předpisem (y 1i, y 2i,..., y qi) = f (x 1i, x 2i,..., x li ), kde f je vícerozměrná funkce l proměnných funkční závislost důsledek lze jednoznačně určit jednou, nebo několika málo příčinami neexistují žádné další neznámé a/nebo náhodné vlivy Volná (stochastická) závislost, konkrétním l hodnotám jedné skupiny proměnných (x1i, x 2i,..., x li ) může odpovídat více q-tic hodnot druhé skupiny proměnných (y 1i, y 2i,..., y qi) Změny hodnot jedné skupiny proměnných jsou doprovázeny změnami: podmíněných průměrů druhé skupiny proměnných korelační závislost podmíněného pravděpodobnostního rozdělení druhé skupiny proměnných statistická závislost

Závislost statistických znaků (proměnných) II Logická/věcná síla závislosti Důsledek je určen velkým počtem příčin, které: nelze přesně (funkčně) postihnout a/nebo všechny nejsou známé a/nebo působí náhodné vlivy 6/14

Regresní a korelační analýza Regresní analýza: slouží k popisu závislosti dvou a více numerických proměnných hledáme matematický model regresní funkci, která by měla: vyjadřovat charakter závislosti a co nejvěrněji zobrazovat průběh změn podmíněných průměrů závisle proměnné/proměnných, vysvětlovat složku hodnoty závisle proměnné/proměnných která je funkcí nezávisle proměnné/proměnných (deterministická složka) druhá (nevysvětlená) složka je výsledkem dalších (vedlejších a náhodných) vlivů (náhodná složka) slouží k odhadu hodnot nebo středních hodnot proměnné/proměnných podmíněných hodnotami jedné či většího počtu vysvětlujících proměnných odpovídá na otázku: Jak vypadá závislost mezi proměnnými? Korelační analýza: slouží k vyjádření síly závislosti/těsnosti dvou a více numerických proměnných, respektive porovnání vhodnosti různých regresních modelů odpovídá na otázku: Jak silná je závislost mezi proměnnými, respektive jak moc odpovídá model skutečnosti? 7/14

Regresní analýza Dělení dle počtu závislých a nezávislých proměnných Jednoduchá regresní analýza, slouží k popisu závislosti dvou numerických proměnných hledáme matematický model regresní funkci y = f (x) funkce f (tj. model závislosti) je nejčastěji: lineární, polynomiální (kvadratická, kubická), hyperbolická, exponenciální, mocninná, odmocninná, logaritmická,... Vícenásobná regresní analýza, slouží k popisu závislosti jedné numerické proměnné na skupině jiných numerických proměnných hledáme matematický model regresní funkci y = f (x 1, x 2,..., x l ) tj. model závislosti je nejčastěji tzv.: adititivní, multiplikativní, model s interakcemi,... Vícerozměrná regresní analýza, slouží k popisu závislosti skupiny více numerických proměnných na skupině jiných numerických proměnných hledáme matematický model regresní funkci (y 1, y 2,..., y q) = f (x 1, x 2,..., x l ) Ani se neptejte :-o. 8/14

Volba regresního modelu Apriorní volba regresního modelu/modelů volba druhu souvislosti/závislosti (závislé-nezávislé, vysvětlované-vysvětlující,... ) výběr modelu dle věcné souvislosti (volba funkce), respektive analytické řešení problému (např. diferenciální rovnice, apod.) inspirace daty (korelační pole,... ) Posteriorní volba regresního modelu ověřování předpokladů pro použití modelu a odhad jeho parametrů síla těsnosti (korelační analýza) interpretovatelnost výsledků 9/14

Konstrukce regresního modelu Způsob odhadů regresních koeficientů 10/14 Příklady modelů y = β0 + β 1x, lineární regrese y = β0 + β 1x 1 + β 2x 2 + + β l x l, adititvní model x, x1, x 2,... x l, y proměnné modelu; β, β 1, β 2,... β l parametry modelu tzv. regresní koeficienty Souvislost modelu a reality model: y = f (x) neznáme regresní koeficienty realita yi = f (x i) + ε i, pro i = 1,..., n regresní koeficienty nastaveny tak, aby co nejlépe odpovídaly realitě, ale i tak zůstává nevysvětlená chyba ε odhad dle modelu: ŷ = f (x) na základě odhadnutých koeficientů vypočteny hodnoty, které by měly odpovídat jak modelu tak reálné situaci Způsoby odhadu regresních koeficientů metoda nejmenších čtverců iterační metody metoda maximální věrohodnosti metoda vybraných bodů...

Metoda nejmenších čtverců MNČ I Demonstrace pro jednoduchou regresi Myšlenka MNČ Součet druhých mocnin reziduí je pro danou regresní funkci f a data minimální n (y i ŷ i) 2 = min i=1 11/14 kde [x i ; y i ], pro i = 1,..., n jsou empirické (naměřené) hodnoty nezávislé a závislé proměnné, ŷ i je hodnota teoretická/vypočtená ŷ i = f (x i ) zkráceně ŷ(x i ), Poznámky k MNČ Podmínku výše lze splnit vhodnou volbou regresních koeficientů βj, pro j = 0,..., r. n i=1 (yi ŷi)2 je tedy funkcí (r + 1) proměnných označme ji S(β 0, β 1,..., β r ). Je-li funkce f z pohledu regresních koeficientů lineárně separabilní, nebo dá-li se transformací na takovou funkci převést, lze tyto koeficienty získat jednoznačně pomocí prostředků matematické analýzy: S = 0, pro j = 0,..., r; β j

Metoda nejmenších čtverců MNČ II Demonstrace pro jednoduchou regresi řešení soustavy (r + 1) lineárních rovnic o (r + 1) neznámých, které má pro alespoň (r + 1) dvojic [x i ; y i ] s různými x i jednoznačné řešení; Za předpokladu, že model obsahuje absolutní člen, se odchylky teoretických a empirických hodnot (tj. reziduí) se v součtu vynulují : n i=1 (yi ŷi) = 0; Sledují-li proměnné X a Y normální rozdělení, jsou odhady regresních koeficientů získané MNČ shodné s odhady získanými metodou maximální věrohodnosti. 12/14

Korelace a kovariace I Posouzení lineární závislosti dvou numerických proměnných Variabilita jednotlivých proměnných X a Y : rozptyl proměnné X : σ 2 x = 1 n (x i x) 2, n i=1 rozptyl proměnné Y : σ 2 y = 1 n (y i ȳ) 2. n i=1 Společná variabilita proměnných X a Y : kovariance proměnných X a Y : cov yx = cov xy = 1 n n (x i x)(y i ȳ) i=1 cov xx = σx 2, covyy = σ2 y cov yx R (lineární) korelace proměnných X a Y (korelační koeficient, koeficient korelace): r yx = r xy = covyx σ xσ y 13/14

Korelace a kovariace II Posouzení lineární závislosti dvou numerických proměnných xy xȳ r yx = σ x σ y n n i=1 r yx = x i y i n i=1 x n i i=1 y i [ n n i=1 x2 i ( n i=1 x ) ] 2 i [n n i=1 y i 2 ( n i=1 y ) ] 2 i r yx 1; 1 r yx > 0 pozitivní (lineární) korelační závislost r yx < 0 negativní (lineární) korelační závislost r yx = 0 (lineární) nekorelovanost r yx = 1 matematická/funkční závislost r yx slovní hodnocení v biologii r yx = 0 (lineární) korelační nezávislost r yx < 0,3 nízký stupeň korelační závislosti 0,3 r yx < 0,5 mírný stupeň korelační závislosti 0,5 r yx < 0,7 střední stupeň korelační závislosti 0,7 r yx < 0,9 vysoký stupeň korelační závislosti 0,9 r yx < 1 velmi vysoký stupeň korelační závislosti r yx = 1 matematická/funkční závislost Nejen hodnota r yx, ale i rozsah souboru (n), vypovídá o síle závislosti! 14/14