Regresní a korelační analýza
|
|
- Viktor Matějka
- před 6 lety
- Počet zobrazení:
Transkript
1 Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
2 Metoda nejmenších čtverců Přímým měřením získáme N dvojic veličin [x i, y i ], které v kartézské soustavě os x, y můžeme znázornit jako bodový graf. Předpokládejme, že mezi x a y existuje funkční vztah y = f(x) známého tvaru. Pokud by při měření nevznikaly náhodné chyby, pak by všechny body [x i, y i ] ležely na křivce y = f(x). Ve skutečnosti však platí y i = f(x i ) + ε i, kde ε i je náhodná chyba i- tého měření. Body [x i, y i ] jsou rozptýleny kolem hledané regresní křivky, která má být co nejvěrnějším obrazem funkce y = f(x). Hledáme tedy takové parametry a, b, c, (tzv. regresní koeficienty) daného typu funkce y = f(x; a, b, c, ), aby se její průběh co nejvíce přimykal k zadaným bodům [x i, y i ].
3 Metoda nejmenších čtverců
4 Hledáme kritérium přiléhavosti regresní křivky k experimentálním bodům. Nejvěrohodnější je tzv. reziduální (zbytkový) součet čtverců. N S = resid. i=1 Metoda nejmenších čtverců y i f x i 2
5 =LINREGRESE OOa Calc i MS Excel nabízí několik funkcí počítajících parametry lineární regrese. Nejlepší je =LINREGRESE(DataY;DataX;Typ;Parametr). Lineární funkce: y = ax + b Výstup funkce LINREGRESE: (odhad parametru a) (odhad parametru b) (odhad chyby parametru a) (odhad chyby parametru b) (koeficient determinace*) (chyba odhadu) F (F-statistika**) df (počet stupňů volnosti) S t - S r (rozdíl celkové a reziduální S r (reziduální suma čtverců odchylek*) sumy čtverců odchylek*)
6 Kvalita regresního modelu Kvalita zvoleného regresního modelu (tj. vhodnost vybrané regresní funkce a odhad jejích výběrových regresních koeficientů) se testuje. Výchozí veličinou je při tom reziduální součet čtverců S resid. (červeně), pomocnou celkový součet čtverců S t (modře). S resid. = N S = t i=1 N i=1 y i f x i 2 N y i 1 N i=1 2 y i Koeficient determinace r 2 = 1 S resid. S t r 2 > 0,95 se často považuje za dobré kritérium pro přijetí zvoleného modelu
7 Korelační analýza Při korelační analýze prověřujeme existenci závislosti mezi x a y a těsnost této závislosti. Budeme předpokládat lineární závislost mezi dvěma veličinami. Pearsonův korelační koeficient Při testování existence lineárního vztahu mezi proměnnými se používá odmocnina z koeficientu determinace r 2, která se nazývá (Pearsonův) korelační koeficient r. Korelační koeficient se počítá pomocí funkce =CORREL() nebo ze vztahu: r= N i=1 N i=1 x i x y 1 y x i x 2 N i=1 y i y 2
8 Pearsonův korelační koeficient Korelační koeficient může nabývat hodnot od -1 do 1. Čím více se r blíží 1, tím těsnější je závislost. Je-li r = 1, body x,y, leží na přímce, je-li r = 0, mezi body není žádný lineární vztah. Je-li r > 0, s rostoucím x roste i y, je-li r < 0, s rostoucím x naopak y klesá. Zdůrazněme, že korelační koeficient detekuje lineární závislost.
9 Záludnosti korelačního koeficientu 1) Je citlivý na odlehlé hodnoty.
10 Záludnosti korelačního koeficientu 2) Detekuje pouze lineární závislost. 3) Korelace neznamená příčinnou souvislost.
11 Test korelačního koeficientu Ukázali jsme, že korelační koeficient popisuje těsnost korelace mezi proměnnými x a y. Pokusme se nyní zjistit, jestli mezi proměnnými existuje vůbec nějaká (byť velmi slabá) souvislost. Na začátku předpokládáme, že je korelační koeficient nulový (lineární závislost mezi x a y neexistuje). Testovací kritérium: t= r 1 r 2 N 2 Kritickou hodnotou t 1-α (N-2) jsou kvantily Studentova rozdělení s N-2 stupni volnosti pro zvolenou hladinu významnosti a, které najdeme ve statistických tabulkách nebo vypočítáme pomocí funkce =T.INV.T2(α,N-2) nebo =TINV(α,N-2).
12 Vícenásobná lineární regrese Popisuje závislost více než dvou číselných proměnných z nichž: více je nezávislých (vysvětlující proměnné značíme je x 1, x 2,..., x n ) a jen jedna je závislá (vysvětlovaná proměnná y). Předpokládáme lineární závislost typu: y = a 1 x 1 + a 2 x a n x n + b + e deterministická složka náhodná složka (nepopsané vlivy) Řeší se metodou nejmenších čtverců. Řešením jsou odhady koeficientů a 1 až a n a b. Korelace mezi nezávislými (vysvětlujícími) proměnnými nesmí být příliš silná (r ij > 0,8). V případě silné korelace se jedna z nezávislých silně korelujících proměnných vyřadí.
13 Korelační matice Korelační matice obsahuje párové korelační koeficienty všech dvojic proměnných. Lze ji vypočítat pomocí funce =correl() x 1 =CORREL(A$2:A$9;$A$2:$A$9) x 1 x 2 x 3 y x 2 =CORREL(A$2:A$9;$B$2:$B$9) rozkopírovat do sloupců =CORREL(A$2:A$9;$C$2:$C$9) x 3 y =CORREL(A$2:A$9;$D$2:$D$9) Předpokládáme, že proměnné jsou ve sloupcích A až D. Alternativou je použití: Nástroje Doplňky Analýza Analýza dat Korelace Korelační matice je symetrická podle diagonály a v hlavní diagonále má jedničky.
14 = LINREGRESE =LINREGRESE(DataY;DataX;Typ;Parametr). Lineární funkce: y = a 1 x 1 + a 2 x a n x n + b Výstup funkce LINREGRESE: odhad a n... odhad a 1 odhad b odhad chyby a n odhad chyby a 1 odhad chyby b koeficient chyba odhadu determinace*) F (F-statistika) df (počet stupňů volnosti) S t - S r (rozdíl S r (reziduálná celkové a suma čtverců reziduální sumy odchylek) čtverců odchylek) Podrobnější výstup poskytují Analytické nástroje Excelu: Data Analýza Analýza dat Regrese
15 Volba vhodného modelu Platí, že čím více parametrů má regresní rovnice, tím menší je suma čtverců odchylek. Nelze říct, že čím víc parametrů, tím lepší model - pokud je parametrů modelu stejně jako experimentálních bodů, je suma čtverců odchylek nulová.
16 Volba vhodného modelu Kritériem pro rozhodnutí, zda nějaký parametr vylepšil model je test nulové hypotézy: H 0 : složitější model nepřináší zlepšení Testovací kritérium F vypočítáme podle vztahu: F = S r 1 S r 2 p 2 p 1 S r 2 n p 2 H 0 zamítáme, pokud platí: F > F 1- (p 2 - p 1 ; n - p 2 ). S R (1) je reziduální součet čtverců jednoduššího modelu, S R (2) reziduální součet čtverců složitějšího modelu, n je počet pozorování, p 1 počet koeficientů jednoduššího modelu a p 2 počet koeficientů složitějšího modelu.
17 Vícenásobný korelační koeficient Předpokládejme vícerozměrný náhodný vektor x, kde složka x 1 je vysvětlovaná proměnná a ostatní složky x 2,..., x m jsou vysvětlující proměnné. Vícenásobný korelační koeficient r 1(2,...,m) definuje míru lineární stochastické závislosti mezi náhodnou veličinou x 1 a nejlepší lineární kombinací složek x 2,..., x m náhodného vektoru. Vícenásobný korelační koeficient r 1(2,...,m) lze vypočítat za vztahu r 1 2,.., m = 1 det R det R 11 kde R je korelační matice, ve které r ij jsou párové korelační koeficienty mezi proměnnými i a j a R ij je matice vzniklá vypuštěním i-tého řádku a j-tého sloupce z korelační matice R. Vícenásobný korelační koeficient vrací funkce =LINREGRESE(), ve výstupní matici je jeho druhá mocnina ve třetím řádku a prvním sloupci.
18 Testování vícenásobného korelačního koeficientu Předpokládejme, že vektor x má normální rozdělení a všechny jeho složky mají také normální rozdělení. Pak platí, že náhodná veličina F r = n m r 2 1 2,.., m 2 m 1 1 r 1 2,..,m má F-rozdělení s m - 1 a n - m stupni volnosti (m je počet složek náhodného vektoru, n je počet změřených m-tic). Tabulkovou hodnotu F-rozdělení vypočítáme v Excelu pomocí funkce =FINV(prst;volnost1;volnost2), kde prst je hladina významnosti (např. 0,05), volnost1 je m - 1 a volnost2 je n - m. Pokud hodnota F r větší než krtitická hodnota F-rozdělení, můžeme nulovou hypotézu (r 1(2,...,m) je nulový) na dané hladině významnosti zamítnout.
19 Parciální korelační koeficienty Parciální korelační koeficient umožňuje sledovat vztah mezi dvěma složkami při zkonstantnění ostatních složek. r 1i 2,.., m = 1 i det R 1i det R 11 det R ii kde R ij je matice vzniklá vypuštěním i-tého řádku a j-tého sloupce z korelační matice R.
20 Parciální korelační koeficienty 2 nezávisle proměnné V případě máme jen 2 vysvětlující proměnné (1. proměnná je vysvětlovaná a 2. a 3. vysvětlující), jsou determinanty submatic 2x2 triviální a parciální korelační koeficienty lze spočítat ze vztahů: r 12 3 = r 12 r 13 r 23 1 r r 2 13 r 13 2 = r 13 r 12 r 23 1 r r 2 12
21 Test parciálního korelačního koeficientu Ukázali jsme, že korelační koeficient popisuje těsnost korelace mezi proměnnými x a y. Pokusme se nyní zjistit, jestli mezi proměnnými existuje vůbec nějaká (byť velmi slabá) souvislost. H 0 : Korelační koeficient je nulový (lineární závislost mezi x a y neexistuje). H 1 : Korelační koeficient je nenulový (závislost mezi x a y existuje). Testovací kritérium: Kritický obor: t > t 1-α (n-2) t= r 1i 2,..., m n r 1i 2,..., m kde t 1-α (n-2) jsou kvantily Studentova rozdělení s n-2 stupni volnosti pro zvolenou hladinu významnosti a, které najdeme ve statistických tabulkách nebo vypočítáme pomocí funkce =TINV(α,n-2).
22 Příklad Mějme experimentální data podle následující tabulky. x 1 je vysvětlovaná proměnná, x 2 a x 3 jsou vysvětlující proměnné. x 1 222,7 210,9 355,9 314,2 244,1 294,4 142,2 153,5 319,1 91,7 x 2 48,8 21,6 76,5 79,0 33,3 59,4 8,9 26,5 76,3 2,2 x 3 14,0 10,6 15,5 17,4 13,2 11,4 4,3 7,8 10,5 10,2 Nejprve vypočítáme korelační matici R - buď pomocí nástroje pro analýzu dat korelace nebo pomocí funkce =CORREL(): x 1 x 2 x 3 x 1 1,000 0,948 0,684 x 2 0,948 1,000 0,702 x 3 0,684 0,702 1,000
23 Příklad - korelační koeficienty Z korelační matice R vybereme potřebné submatice a pomocí funkce =DETERMINANT() vypočítáme jejich determinanty. det R 11 = 0,5076; det R 12 = 0,4677; det R 13 = -0,0189; det R 22 = 0,5324; det R 33 = 0,1021; det R = 0,0515. r = 1 2 det R 12 det R 11 det R 22 = r 13 2 = 1 3 det R 13 det R 11 det R 33 = r 1 23 = 1 det R det R 11 = 0,4677 0,5076.0,5324 =0,900 0,0189 0,5076.0,1021 =0, ,0515 0,5076 =0,948 Zatímco r 12 i r 13 jsou průkazné na hladině a = 0,05. r 12(3) = 0,900 je průkazný na hladině a = 0,01, r 13(2) = 0,083 není průkazný na hladině a = 0,05. r 1(23) = 0,948 je průkazný na hladině a = 0,01.
24 Příklad - vícenásobná regrese Zpracujeme data pomocí funkce =LINREGRESE(). Výstupní tabulka funkce: Regresní rovnice má tvar: x 1 = 2.78x x Porovnáním parametrů rovnice v prvním řádku a jejich směrodatných odchylek ve druhém řádku vidíme, že směrnice závislosti na x 2 je významně různá od nuly, zatímco směrnice u x 3 může být nulová. Zjistili jsme totéž, co z parciálních korelačních koeficientů - totiž že x 1 závisí na x 2 a nezávisí na x 3.
25 Příklad - vícenásobná regrese Vyzkoušejme, jestli by model, ve kterém x 1 závisí na pouze x 2 a nezávisí na x 3 nebyl stejně dobrý jako model se dvěmi vysvětlujícími proměnnými. Zpracujeme data pomocí funkce =LINREGRESE(). Výstupní tabulka funkce: S r 1 S r p F = 2 p = S r n p =0.047 F 0.95 (3-2; 10-3) = Regresní rovnice x 1 = 2.86x tedy není horší než x 1 = 2.78x x
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Testování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
Testování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
Testování statistických hypotéz
Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,
Statistika (KMI/PSTAT)
Statistika (KMI/PSTAT) Cvičení dvanácté aneb Regrese a korelace Statistika (KMI/PSTAT) 1 / 18 V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. Statistika (KMI/PSTAT)
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními
Regresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =
Příklad 1 Metodou nejmenších čtverců nalezněte odhad lineární regresní funkce popisující závislost mezi výnosy pšenice a množstvím použitého hnojiva na základě hodnot výběrového souboru uvedeného v tabulce.
You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik
Stručný úvod do testování statistických hypotéz
Stručný úvod do testování statistických hypotéz 1. Formulujeme hypotézu (předpokládáme, že pozorovaný jev je pouze náhodný). 2. Zvolíme hladinu významnosti testu a, tj. riziko, s nímž jsme ochotni se smířit.
Korelační a regresní analýza
Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná
INDUKTIVNÍ STATISTIKA
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ
Inovace bakalářského studijního oboru Aplikovaná chemie
http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)
Testy statistických hypotéz
Testy statistických hypotéz Statistická hypotéza je jakýkoliv předpoklad o rozdělení pravděpodobnosti jedné nebo několika náhodných veličin. Na základě náhodného výběru, který je reprezentativním vzorkem
LINEÁRNÍ REGRESE. Lineární regresní model
LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)
odpovídá jedna a jen jedna hodnota jiných
8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr
Bodové a intervalové odhady parametrů v regresním modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model Mějme lineární regresní model (LRM) Y = Xβ + e, kde y 1 e 1 β y 2 Y =., e
Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:
Regrese 28. listopadu 2013 Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly: 1. Ukázat, že data jsou opravdu závislá. 2. Provést regresi. 3. Ukázat, že zvolená křivka
MÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
Neparametrické metody
Neparametrické metody Dosud jsme se zabývali statistickými metodami, které zahrnovaly předpoklady o rozdělení dat. Zpravidla jsme předpokládali normální rozdělení. Např. Grubbsův test odlehlých hodnot
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ
Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.
Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,
676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup
Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009
Korelace. Komentované řešení pomocí MS Excel
Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne
POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.
POLYNOMICKÁ REGRESE Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. y = b 0 + b 1 x + b 2 x 2 + + b n x n kde b i jsou neznámé parametry,
Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.
1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu
AVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více
10 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 10.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěma, případně
Aplikovaná matematika I
Metoda nejmenších čtverců Aplikovaná matematika I Dana Říhová Mendelu Brno c Dana Říhová (Mendelu Brno) Metoda nejmenších čtverců 1 / 8 Obsah 1 Formulace problému 2 Princip metody nejmenších čtverců 3
Regresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty
Neparametrické testy (motto: Hypotézy jsou lešením, které se staví před budovu a pak se strhává, je-li budova postavena. Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie LS 2014/15 Cvičení 7: Autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Autokorelace - teorie Zopakujte si G-M
MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ
MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ v praxi u jednoho prvku souboru se často zkoumá více veličin, které mohou na sobě různě záviset jednorozměrný výběrový soubor VSS X vícerozměrným výběrovým souborem VSS
4ST201 STATISTIKA CVIČENÍ Č. 10
4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA
Regrese používáme tehd, jestliže je vsvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA Specifikace modelu = a + bx a závisle proměnná b x vsvětlující proměnná Cíl analýz Odhadnout hodnot
4EK211 Základy ekonometrie
4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb
Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2015 Ing. Petra Hlaváčková, Ph.D.
Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.
Analýza rozptylu Analýza rozptylu umožňuje ověřit významnost rozdílu mezi výběrovými průměry většího počtu náhodných výběrů, umožňuje posoudit vliv různých faktorů. Podle počtu analyzovaných faktorů rozlišujeme
6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13
Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test
4EK211 Základy ekonometrie
4EK11 Základy ekonometrie Autokorelace Cvičení 5 Zuzana Dlouhá Gauss-Markovy předpoklady Náhodná složka: Gauss-Markovy předpoklady 1. E(u) = náhodné vlivy se vzájemně vynulují. E(uu T ) = σ I n konečný
Aplikovaná statistika v R - cvičení 3
Aplikovaná statistika v R - cvičení 3 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.8.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 1 / 10 Lineární
SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík
SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách
Matematické modelování Náhled do ekonometrie. Lukáš Frýd
Matematické modelování Náhled do ekonometrie Lukáš Frýd Výnos akcie vs. Výnos celého trhu - CAPM model r it = r ft + β 1. (r mt r ft ) r it r ft = α 0 + β 1. (r mt r ft ) + ε it Ekonomický (finanční model)
Plánování experimentu
Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )
Příklad č. 1 Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Zadání : Stanovení manganu ve vodách se provádí oxidací jodistanem v kyselém prostředí až na manganistan. (1) Sestrojte
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1
Cvičící Kuba Kubina Kubinčák Body u závěrečného testu
1. Příklad U 12 studentů jsme sledovali počet dosažených bodů na závěrečném testu (od 0 do 60). Vždy 4 z těchto studentů chodili k jednomu ze 3 cvičících panu Kubovi, panu Kubinovi, nebo panu Kubinčákovi.
V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více
9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie LS 2014/15 Cvičení 4: Statistické vlastnosti MNČ LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE Upřesnění k pojmům a značení
{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků
Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a
Téma 9: Vícenásobná regrese
Téma 9: Vícenásobná regrese 1) Vytvoření modelu V menu Statistika zvolíme nabídku Vícerozměrná regrese. Aktivujeme kartu Detailní nastavení viz obr.1. Nastavíme Proměnné tak, že v příslušném okně viz.
(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.
Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou
Ilustrační příklad odhadu LRM v SW Gretl
Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná
12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
Měření závislosti statistických dat
5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě
Lineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel
Analýza rozptylu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO Brno) Analýza rozptylu 1 / 30 Analýza
Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické
Testování hypotéz a měření asociace mezi proměnnými
Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,
Test dobré shody v KONTINGENČNÍCH TABULKÁCH
Test dobré shody v KONTINGENČNÍCH TABULKÁCH Opakování: Mějme náhodné veličiny X a Y uspořádané do kontingenční tabulky. Řekli jsme, že nulovou hypotézu H 0 : veličiny X, Y jsou nezávislé zamítneme, když
Pearsonův korelační koeficient
I I.I Pearsonův korelační koeficient Úvod Předpokládejme, že náhodně vybereme n objektů (nebo osob) ze zkoumané populace. Často se stává, že na každém z objektů měříme ne pouze jednu, ale několik kvantitativních
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
KORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B
TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,
Bodové a intervalové odhady parametrů v regresním modelu
Bodové a intervalové odhady parametrů v regresním modelu 1 Odhady parametrů 11 Bodové odhady Mějme lineární regresní model (LRM) kde Y = y 1 y 2 y n, e = e 1 e 2 e n Y = Xβ + e, x 11 x 1k, X =, β = x n1
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů
STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů 1) Test na velikost rozptylu Test na velikost rozptylu STATISTICA nemá. 2) Test na velikost střední hodnoty V menu Statistika zvolíme nabídku Základní
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
4EK211 Základy ekonometrie
4EK211 Základy ekonometrie ZS 2014/15 Cvičení 5: Vícenásobná regrese, multikolinearita LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Jednoduchá
Odhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
Kanonická korelační analýza
Kanonická korelační analýza Kanonická korelační analýza je vícerozměrná metoda, která se používá ke zkoumání závislosti mezi dvěma skupinami proměnných. První ze skupin se považuje za soubor nezávisle
Neparametrické testy
Neparametrické testy Dosud jsme se zabývali statistickými metodami, které zahrnovaly předpoklady o rozdělení dat. Zpravidla jsme předpokládali normální (Gaussovo) rozdělení. Například: Grubbsův test odlehlých
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 15. licenční studium INTERAKTIVNÍ STATISTICKÁ ANALÝZA DAT Semestrální práce ANOVA 2015
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce ANALÝZA
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 3.3 v analýze dat Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Pro