ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Podobné dokumenty
REGRESNÍ ANALÝZA. 13. cvičení

Regresní a korelační analýza

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

Bodové a intervalové odhady parametrů v regresním modelu

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

Statistika (KMI/PSTAT)

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

PRAVDĚPODOBNOST A STATISTIKA

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Regresní a korelační analýza

Testování hypotéz o parametrech regresního modelu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

AVDAT Geometrie metody nejmenších čtverců

Testování hypotéz o parametrech regresního modelu

AVDAT Nelineární regresní model

Regresní analýza 1. Regresní analýza

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

Regresní a korelační analýza

Regresní a korelační analýza

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Korelační a regresní analýza

Regresní a korelační analýza

10. Předpovídání - aplikace regresní úlohy

AVDAT Klasický lineární model, metoda nejmenších

You created this PDF from an application that is not licensed to print to novapdf printer (

LINEÁRNÍ REGRESE. Lineární regresní model

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

4EK211 Základy ekonometrie

=10 =80 - =

PRAVDĚPODOBNOST A STATISTIKA

Tomáš Karel LS 2012/2013

Normální (Gaussovo) rozdělení

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

odpovídá jedna a jen jedna hodnota jiných

4EK211 Základy ekonometrie

Regresní a korelační analýza

Otto DVOŘÁK 1 NEJISTOTA STANOVENÍ TEPLOTY VZNÍCENÍ HOŘLAVÝCH PLYNŮ A PAR PARABOLICKOU METODOU PODLE ČSN EN 14522

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

Odhad parametrů N(µ, σ 2 )

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky

Analýza závislosti veličin sledovaných v rámci TBD

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

STATISTICKÉ ODHADY Odhady populačních charakteristik

6 LINEÁRNÍ REGRESNÍ MODELY

Bodové a intervalové odhady parametrů v regresním modelu

KGG/STG Statistika pro geografy

You created this PDF from an application that is not licensed to print to novapdf printer (

Normální (Gaussovo) rozdělení

Odhad parametrů N(µ, σ 2 )

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

Regresní analýza. Eva Jarošová

PRAVDĚPODOBNOST A STATISTIKA

Odhady Parametrů Lineární Regrese

Statistická analýza jednorozměrných dat

4EK211 Základy ekonometrie

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Aplikovaná statistika v R - cvičení 3

Ilustrační příklad odhadu LRM v SW Gretl

Plánování experimentu

Vztah mezi počtem květů a celkovou biomasou rostliny CELKE EM. slá pro KVETU = závi

Lineární regrese. Komentované řešení pomocí MS Excel

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

PRAVDĚPODOBNOST A STATISTIKA

INDUKTIVNÍ STATISTIKA

Úvod do analýzy rozptylu

Jednofaktorová analýza rozptylu

Testování statistických hypotéz

KGG/STG Statistika pro geografy

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

5EN306 Aplikované kvantitativní metody I

Měření závislosti statistických dat

Inovace bakalářského studijního oboru Aplikovaná chemie

Testy statistických hypotéz

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Náhodné veličiny, náhodné chyby

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Matematika I, část I. Rovnici (1) nazýváme vektorovou rovnicí roviny ABC. Rovina ABC prochází bodem A a říkáme, že má zaměření u, v. X=A+r.u+s.

MODELOVÁNÍ A SIMULACE

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

Matematika I A ukázkový test 1 pro 2018/2019

Statistická analýza jednorozměrných dat

Přednáška č. 11 Analýza rozptylu při dvojném třídění

6. Lineární regresní modely

STATISTIKA (pro navazující magisterské studium)

Aplikovaná matematika I

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Náhodným vektorem rozumíme sloupcový vektor složený z náhodných veličin X = (X 1, X 2,

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Porovnání dvou výběrů

Transkript:

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacn_a_regresn_analyza jsme řešl rozdíl mez korelační a regresní analýzou. Budeme se teď věnovat pouze lneárnímu vztahu dvou velčn, protože je nejjednodušší a velm často jej lze použít aspoň přblžně. Dále přjmeme předpoklad, že sledované velčny jsou normální. V dalším textu se budeme zabývat specálním případem REGRESNÍ ANALÝZY - metodou lneární regrese.

Základy lneární regrese Regrese je velm často užívaná statstcká metoda, která se zabývá problémem vysvětlení změn jedné velčny závslostí na jedné nebo více jných velčnách. Uvažujme nejjednodušší případ, kdy vysvětlujeme velčnu Y lneární závslostí na jedné velčně X.

Lneární regrese Vdíme, že s rostoucí hodnotou velčny x se zhruba lneárně mění hodnota Y, body na obrázku kolísají kolem myšlené přímky, kterou bychom mohl naměřeným body proložt. Hodnoty velčny Y můžeme vyjádřt jako součet dvou složek: Y = β 0 + β 1 x + ε, kde = 1,2,,n (1) β 0, β 1 jsou neznámé koefcenty určující lneární závslost ε náhodná kolísání způsobená nepřesností měření, bologckou varabltou a dalším rušvým faktory Pokud střední hodnoty náhodného kolísání jsou nulové, pak E(ε ) = 0 a rovnc (1) můžeme přepsat E(Y X = x ) = E(Y ) = β 0 + β 1 x (2) čl střední hodnoty náhodných velčn Y za podmínky, že velčna X má hodnotu x, leží na přímce dané rov. (2).

Lneární regrese Rovnce (1) a (2) formulují lneární regresní model jako vyjádření naší představy o závslost velčny Y na velčně X. - X je vysvětlující proměnná (regresor) - Y je vysvětlovaná proměnná. Neznámé koefcenty β 0, β 1 jsou parametry regresního modelu a říkáme jm regresní koefcenty. Odhad regresních koefcentů β 0 a β 1 z dat je jednou ze základních úloh regresní analýzy: potřebujeme nalézt takové hodnoty b 0, b 1, které by určovaly přímku Ŷ = b 0 + b 1 x 1 co nejlépe prokládající naměřená data. Hodnoty b 0, b 1 jsou pak odhady regresních koefcentů β 0, β 1 Ŷ je odhadem E( Y x = x ) Co nejlepší proložení může být formulováno různým způsoby, nejčastěj se užívá metoda nejmenších čtverců (MNČ) (vz dále).

Lneární regrese - metoda nejmenších čtverců MNČ znamená, že hledáme takové hodnoty b 0 (úsek, který vytíná přímka na ose Y) a b 1 (směrnce přímky), aby součet čtverců odchylek pozorovaných hodnot Y od hodnot Ŷ S e byl co nejmenší: S e n = 1 2 ( ˆ ) 2 Y Y = ( Y b b x ) mn = n = 1 0 1 Metodu nejmenších čtverců vysvětluje následující obrázek. Řešíme úlohu, jak volt hodnoty b 0 a b 1, aby součet ploch vyznačených čtverců byl co nejmenší.

Nulová hypotéza Dokazovaná hypotéza o lneární závslost obou velčn, jejímž modelem je regresní přímka, stojí prot nulové hypotéze, která říká, že mez velčnam neexstuje žádný vztah a jejch uspořádání lze vysvětlt pouhou náhodou. Hypotézu nezávslost velčn H 0 modeluje přímka rovnoběžná s osou x protínající osu y ve střední hodnotě a procházející bodem y [ x, y] Pokud bude statstcký test významný, zamítáme hypotézu H 0 a přjímáme hypotézu o lneární závslost obou velčn. Prncp testu spočívá v porovnání velkost regresního a rezduálního rozptylu. Regresní rozptyl je vypočten pomocí vzdáleností od přímky H 0 k regresní přímce, rezduální rozptyl pomocí vzdáleností od regresní přímky k naměřeným hodnotám - vz obrázek.

Lneární regrese Y vysvětlovaná proměnná pro výpočet Rezduálního rozptylu H 0 pro výpočet Regresního rozptylu regresní přímka X - vysvětlující proměnná

LINEÁRNÍ REGRESNÍ MODEL - příklad r. 1886 Francs Galton vytvořl model závslost výšky prvorozených synů na výšce jejch otců v této prác použl termín REGRESE začal se používat jako název metody Testujeme hypotézu H 0 : výška syna nezávsí na výšce otce prot hypotéze H 1 : výška syna je lneárně závslá na výšce otce cílem je zjstt, zda rozdíly mez modely je možno vysvětlt pomocí náhody Mějme dva matematcké modely (v našem případě dvě přímky): první přímka vyjadřuje nezávslost, je rovnoběžná s osou X (H 0 ) druhou přímku (H 1 ) zkonstruujeme pomocí MNČ tak, aby svslé vzdálenost pozorovaných hodnot byly od přímky co nejmenší (svslé proto, že za závslou považujeme velčnu Y)

Model lneární regrese - vztah výšky otce a syna x - nezávsle proměnná y - závsle proměnná jednotlvá pozorování rezduum odchylka od modelu y + β x + = β 0 1 ε Výška syna y 160 170 180 190 0 160 165 170 175 180 185 190 195 Výška otce x

y = α + β x + y.x y.x ε Lneární regrese mnmalzujeme otec syn =otec+zkreslení Co se stane když zaměním x a y? x = α + β y + x.y mnmalzujeme x.y syn otec =syn+zkreslení Můžeme předpokládat kauzaltu? Jakou? ε Výška syna 160 170 180 190 y x 160 165 170 175 180 185 190 195 Výška otce

LINEÁRNÍ REGRESNÍ MODEL Cílem regresního modelu je porovnat rozdíl mez - modelem hypotetckého rozdělení H 0 : výška syna nezávsí na výšce otce - a modelem H A : výška syna je lneárně závslá na výšce otce. H 0 jsme stanovl jako přímku Y = b 0 (b 1 = 0) H A je regresní přímka Y = β 0 + β 1 x + ε Součet čtverců odchylek závsle proměnné Y od jejího odhadu můžeme rozdělt na dvě část: 1. varabltu vysvětlenou regresním modelem (rozdíl mez H A a H 0 ) 2. a na část, kterou model nevysvětluje, která zbývá, tedy je resduální (rozdíl mez H A a naměřeným hodnotam - tedy ε) Analogcky jako u analýzy rozptylu bude testovací statstka podíl součtu čtverců odchylek dělených počtem stupňů volnost.

LINEÁRNÍ REGRESNÍ MODEL Testovací statstka se vypočte jako podíl - čtverců očekávaných odchylek H A - H 0 dělený počtem stupňů volnost - a čtverců rezduálního rozptylu dělený počtem stupňů volnost. F S S 2 reg. p 1 S Srez. n p = 2 počet stupňů volnost v čtatel vypočteme jako počet parametrů regresního modelu mínus počet parametrů odhadovaných u H 0 (p - 1) počet stupňů volnost ve jmenovatel jako počet naměřených hodnot mínus počet parametrů regresního modelu (n - p) n počet měření p počet parametrů regresní přímky: p = 2 1 počet odhadovaných parametrů hypotézy H 0

Zobrazení vztahu dvou nezávslých spojtých velčn Dvojce náhodných SPOJITÝCH VELIČIN X a Y. Jejch sdružené rozložení má dvourozměrnou hustotu f(x,y)

Sdružená hustota dvou závslých velčn

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN Třírozměrný graf sdružené hustoty (sdruženého rozložení) dvou velčn na předchozím obrázku vyjadřuje závslost obou náhodných velčn. Průmětu jedné velčny do rovny říkáme margnální hustota. Rozložení jedné velčny např. X pouze u těch objektů, pro které platí Y = y (druhá velčna = konstantě) je tzv. podmíněném rozložení a můžeme s ho představt jako řez celkovým rozložením v bodu Y = y. Tyto podmíněné funkce hustoty jsou na rozdíl od margnální hustoty obvykle užší a to tím více, čím pevnější je vazba mez X a Y.