Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Podobné dokumenty
Testy. Pavel Provinský. 19. listopadu 2013

INDUKTIVNÍ STATISTIKA

Regresní a korelační analýza

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

Stavový model a Kalmanův filtr

LINEÁRNÍ REGRESE. Lineární regresní model

Regresní a korelační analýza

Regresní analýza 1. Regresní analýza

= = 2368

Regresní a korelační analýza

12. cvičení z PST. 20. prosince 2017

Regresní a korelační analýza

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Odhady - Sdružené rozdělení pravděpodobnosti

Testování statistických hypotéz

Bodové odhady parametrů a výstupů

TECHNICKÁ UNIVERZITA V LIBERCI

Odhad parametrů N(µ, σ 2 )

Tomáš Karel LS 2012/2013

PRAVDĚPODOBNOST A STATISTIKA

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Pravděpodobnost a matematická statistika

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

5 Parametrické testy hypotéz

2 ) 4, Φ 1 (1 0,005)

Vícerozměrná rozdělení

PRAVDĚPODOBNOST A STATISTIKA

Téma 9: Vícenásobná regrese

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Korelační a regresní analýza

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Lineární regrese. Komentované řešení pomocí MS Excel

Bodové a intervalové odhady parametrů v regresním modelu

Odhad parametrů N(µ, σ 2 )

ANALYTICKÁ GEOMETRIE V ROVINĚ

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

VZOROVÝ TEST PRO 3. ROČNÍK (3. A, 5. C)

Lingebraické kapitolky - Analytická geometrie

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Charakteristika datového souboru

4EK211 Základy ekonometrie

Příklad 1. Řešení 1a. Řešení 1b ŘEŠENÉ PŘÍKLADY Z M1B ČÁST 5

Cvičení ze statistiky - 8. Filip Děchtěrenko

4EK211 Základy ekonometrie

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Parametrická rovnice přímky v rovině

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Interpolace pomocí splajnu

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

ANALYTICKÁ GEOMETRIE LINEÁRNÍCH ÚTVARŮ V ROVINĚ

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Konvexnost, konkávnost

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

10. cvičení - LS 2017

Příklady na testy hypotéz o parametrech normálního rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Inovace bakalářského studijního oboru Aplikovaná chemie

You created this PDF from an application that is not licensed to print to novapdf printer (

Bodové a intervalové odhady parametrů v regresním modelu

Plánování experimentu

CVIČNÝ TEST 5. OBSAH I. Cvičný test 2. Mgr. Václav Zemek. II. Autorské řešení 6 III. Klíč 17 IV. Záznamový list 19

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Funkce jedné reálné proměnné. lineární kvadratická racionální exponenciální logaritmická s absolutní hodnotou

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

Věta 12.3 : Věta 12.4 (princip superpozice) : [MA1-18:P12.7] rovnice typu y (n) + p n 1 (x)y (n 1) p 1 (x)y + p 0 (x)y = q(x) (6)

Tomáš Karel LS 2012/2013

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Testy nezávislosti kardinálních veličin

Lineární funkce, rovnice a nerovnice

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

KGG/STG Statistika pro geografy

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

8 Střední hodnota a rozptyl

Statistická analýza jednorozměrných dat

Hledáme lokální extrémy funkce vzhledem k množině, která je popsána jednou či několika rovnicemi, vazebními podmínkami. Pokud jsou podmínky

Neparametrické metody

Normální (Gaussovo) rozdělení

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Transkript:

Regrese 28. listopadu 2013 Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly: 1. Ukázat, že data jsou opravdu závislá. 2. Provést regresi. 3. Ukázat, že zvolená křivka je pro data opravdu vhodná. Těmto třem úkolům se budeme postupně věnovat. Korelační koeficient Pro porozumění dalšímu textu musíme znát pojem regresní koeficient, který udává sílu lineární závislosti mezi dvěmi veličinami. Jak si příslušný vzorec snadno zapamatovat? Již na střední škole jsme se naučili vzorec pro výpočet úhlu mezi dvěma vektory: cos α = u v u v. Kosinus úhlu je jedna pro vektory ukazující stejným směrem, tj. v případě, že jeden vektor je kladným násobkem druhého. Kosinus úhlu je mínus jedna pro vektory ukazující směrem opačným, tj. v případě, že jeden vektor je záporným násobkem druhého. Tato skutečnost platí pro vektory o dvou, třech, nebo třeba tisíci položkách. Nyní stačí vzít za vektor u data x, od nichž odečtu jejich střední hodnotu a podobně pro vektor v. Tedy: u = x x, v = y y. Za korelační koeficient r mezi veličinami x a y pak prohlásíme právě onen kosinus úhlu. Tedy: r = u v u v = (x x) (y y). 2 (x x)2 (y y) Korelační koeficient tedy nabývá hodnot mezi 1 a -1. Na následujících obrázcích máme korelační koeficienty pro některé případy veličin x a y: 1

2

Závislost či nezávislost dat Prokládat daty jakoukoliv křivku má smysl pouze v případě, že jsou data závislá. My budeme daty prokládat přímku, proto budeme ověřovat závislost lineární. O té nám mnoho říká již korelační koeficient, ten ale nezohledňuje množství dat. Je něco jiného r = 0, 5 pro tři body a pro 1000 bodů. Proto provedeme test (ne)závislosti dat. Testů, které se k tomuto používají, je celá řada, my se naučíme test Pearsonův. Pearsonův test nezávislosti Nulová hypotéza: Data x a y jsou lineárně nezávislá. Směrování testu: Test je oboustranný. Testová statistika: t = r 1 r 2 n 2 kde r je regresní koeficient a n počet změřených bodů.. Rozdělení statistiky: Studentovo s n 2 stupni volnosti - St (n 2)., Příklad Naměřili jsme tato data: x 3 5 8 9 11 14 y 115 112 123 128 131 144 Jsou tato data lineárně závislá? Provedeme Pearsonův test na hladině významnosti α = 5%. Nejprve spočteme korelační koeficient: r = 0, 9619. Dosadíme do testové statistiky: t = r 1 r 2 n 2 = 0, 9619 1 0,9619 2 6 2 = 7, 0365. V tabulkách Studentova rozdělené se 4 stupni volnosti najdeme kvantily, které odříznou 2,5% vlevo a 2,5% vpravo: t 0,025 (4) = 2, 776, t 0,975 (4) = 2, 776. Obor přijetí je mezi těmito kvantily. Statistika ale padla do kritického oboru, proto nulovou hypotézu na hladině významnosti 5% zamítáme: Data x a y jsou lineárně lineárně závislá a pravděpodobnost, že se v tomto mýlíme, je menší než 5%. Příklad Testujte stejné zadání pomocí Matlabu. Hladinu významnosti volte α = 5%. 3

Je potřeba mít nainstalovaný statistický balíček. Pokud jej nemáte, najděte si na stránkách Ivana Nagyho (http://www.fd.cvut.cz/personal/nagyivan/) v části PRP materiál Úvod do Matlabu a postupujte podle kapitolky 1.8. Pomocí příkazu hlp, volba 5, zjistíme, že test nezávislosti má tvar: struc=cor_test(x,y,alt,method). Dosadíme: struc=cor_test([3,5,8,9,11,14],[115,112,123,128,131,144], <>, p ) Zápis <> znamená, že se jedná o oboustranný test, volba p, že se jedná o Pearsonův test. Funkce nám vypíše kromě jiného hodnotu statistiky t = 7.0349 (mírně odlišná díky našemu zaokrouhlování) a zejména p-hodnotu 0.0022. P-hodnota je menší, než naše zvolená hladina významnosti 5%, proto nulovou hypotézu zamítáme: Data x a y jsou lineárně lineárně závislá a pravděpodobnost, že se v tomto mýlíme, je 0,22%. Poznámka Tento závěr testu je pro nás žádoucí. Ověříme tím totiž na příslušné hladině významnosti, resp. s příslušnou p-hodnotou, že data jsou opravdu lineárně závislá a že má smysl pokračovat lineární regresí. Metoda nejmenších čtverců Dříve, než s našimi daty provedeme lineární regresi, ukážeme si, jak se příslušné vzorce odvozují metodou nejmenších čtverců. Užitečné je to v tom, že stejnou metodou můžeme odvodit vzorce pro výpočet parametrů pro libovolnou křivku. Např. parabolu, exponencielu, logaritmus, nějakou s-křivku, atd. Myšlenka je následující: Body, které sedí na přímce, splňují rovnici: y n = A x n + B. Reálná data ale obvykle přesně na přímce nesedí, ale jsou rozmístěna v okolí přímky. To popíšeme tak, že y n vzniká nejen vlivem x n, ale i vlivem náhodné veličiny e n : y n = A x n + B + e n. Náhodné odchylky e n jsou na obrázku vyznačeny červeně: 4

Data (modré hvězdičky) známe, ale onu správnou přímku (modrá čára) neznáme. Z důvodů, které jsou skryty hlouběji v teorii, tipujeme, že ona správná přímka bude právě ta, pro niž bude součet čtverců odchylek e n nejmenší. 1 Odtud název metody metoda nejmenších čtverců. O tom, že to není hloupá myšlenka, nás přesvědčí další obrázek, kde jsme se pokusili proložit daty zcela špatnou přímku a vidíme, že chyby e n (a tudíž i jejich čtverce) jsou podstatně větší. Nyní z principu nejmenších čtverců odvodíme vzorce pro parametry A a B regresní přímky y n = A x n + B. Součet čtverců chyb e n si označíme S: S = e 2 n. Chyby e n si můžeme vyjádřit za pomoci dat takto: e n = y n A x n B. S je tedy funkcí dvou neznámých parametrů A a B. Hodnoty x n a y n známe z měření. S (A, B) = (y n A x n B) 2. S chceme mít co nejmenší. Minimum této funkce najdeme tak, že zjistíme, kde jsou obě parciální derivace nulové: Spočteme derivace: S A = 0, S B = 0. S A = 2 (y n A x n B) ( x n ) = = 2 x n y n + 2A x 2 n + 2B x n = 0, 1 Nebudeme tu řešit, proč zrovna druhá mocnina a ne třeba čtvrtá či proč ne absolutní hodnota. 5

S B = 2 (y n A x n B) ( 1) = = 2 y n + 2A x n + 2B 1 = = 2 y n + 2A x n + 2Bn = 0. Máme tedy dvě rovnice pro dvě neznámé: A x 2 n + B x n = x n y n, A x n + Bn = y n. Odtud již snadno vyjádříme A i B: A = B = xn yn n x n y n ( x n ) 2 n, x 2 n xn xn y n x 2 n ( x n ) 2 n x 2 n yn. Příklad Metodou nejmenších čtverců odvoďte vzorec pro bodový odhad pro parametr A, pokud víte, že veličiny x a y spolu souvisí přímou úměrností y n = A x n + e n. V tomto případě víme, že přímka musí procházet nulou. Nemůžeme tedy použít vzorec odvozený výše, kde je B obecné, ale musíme si vzorec odvodit: Součet čtverců chyb e n si označíme S: S = e 2 n. Chyby e n si můžeme vyjádřit za pomoci dat takto: e n = y n A x n. S je tedy funkcí neznámého parametru A. Hodnoty x n a y n známe z měření. S (A) = (y n A x n ) 2. S chceme mít co nejmenší. Minimum této funkce najdeme tak, že zjistíme, kde je derivace nulová: 2 2 Pokud máme více parametrů, používáme parciální derivace. Pokud je parametr jediný, použijeme derivaci obyčejnou. Spočteme derivaci: ds da = 0. ds da = 2 (y n A x n ) ( x n ) = = ( 2xn y n + 2Ax 2 n) = 6

= 2 x n y n + 2A x 2 n = 0. Vyjádříme A: A = xn y n x 2 n. Lineární regrese Nyní již máme vše připraveno. Ověřili jsme, že data jsou opravdu lineárně závislá, rozvážíme si, zda hledaná lineární závislost je přímá úměra y n = A x n nebo obecná přímka y n = A x n + B a dosadíme do příslušných vzorců. Vzorce, které jsme zde uvedli, jsou pro bodový odhad. To znamená, že nám dají tu nejpravděpodobnější hodnotu parametrů s tím, že ty skutečně správné hodnoty jsou nejspíše trošku jinde. Bodovým odhadem můžeme odhadovat i výstupní veličinu y. To uděláme velmi jednoduše tak, že dosadíme příslušné x do rovnice se spočtenými parametry, ale bez šumu. Kromě bodových odhadů můžeme mít i odhady intervalové, kdy pro parametry i výstup získáme příslušné intervaly spolehlivosti. Vzorce pro intervalový odhad ani jejich odvození zde uvádět nebudeme. Příklad Zjistěte bodové odhady parametrů přímky z následujících dat. Spočtěte i bodový odhad výstupu pro x = 10. x 3 5 8 9 11 14 y 115 112 123 128 131 144 Pro tato data jsme již ověřili lineární závislost, můžeme proto rovnou přistoupit k lineární regresi. Jako model volíme obecnou přímku y n = A x n + B + e n. Dosadíme do vzorce: A = B = xn yn n x n y n ( x n ) 2 n = 2, 8109, x 2 n xn xn y n x 2 n yn ( x n ) 2 n = 102, 0756. x 2 n Tyto výsledky jsem si poctivě spočetl dle těchto vzorců v Matlabu, mohl jsem ale rovnou použít funkci ze statistického balíčku lin_reg(x,y). Bodový odhad výstupu pro x = 10 spočtu dosazením: y = A x + B = A 10 + B = 130, 1849. Výsledky i regresní přímku jsem vykreslil: 7

Ověření vhodnosti regresní křivky Často jsme v situaci, kdy nevíme, jakou přesně křivkou máme data proložit. Pomoci nám může teorie, důležité je také data vykreslit a vidět. Zda byla vybraná křivka opravdu vhodná, můžeme zjistit pohledem, nebo můžeme provést test pořadové nezávislosti pro rezidua (chyby) e n. Test pořadové nezávislosti reziduí Následující obrázek nám ilustruje, že pokud křivku nezvolíme dobře, bude sérií reziduí se stejným znaménkem příliš málo a test pořadové nezávislosti neprojde. V tomto případě, pro 41 dat, máme jen tři série znamének. Kladnou, zápornou a kladnou. Dosadíme do příslušné statistiky: z = 2b (n 2) 2 3 (41 2) = = 5, 2178. n 1 41 1 Test je levostranný, provedeme jej na hladině významnosti 1%. Příslušný kvantil najdeme v tabulce: z 0,01 = z 0,99 = 2, 326. Obor přijetí je tedy 2, 326, ). Statistika padla do kritického oboru, proto hypotézu, že data jsou pořadově nezávislá, respektive, že odchylky od přímky jsou pouze náhodné, respektive, že naše přímka je vhodnou regresní 8

křivkou, zamítáme. Pravděpodobnost, že se v tomto mýlíme, je menší než 1%. Příklad Ověřte, že přímka, kterou jste spočetli lineární regresí v minulém příkladě je pro data opravdu vhodnou křivkou. Nejsnazší je vyjít z obrázku a vyznačit si znaménka reziduí: Získáme tuto posloupnost znamének: +, -, -, +, -, +. Máme tedy pět sérií: b = 5. Počet dat je: n = 6. Dosadíme do příslušné statistiky pro test pořadové nezávislosti: z = 2b (n 2) n 1 = 2, 6833. Test je levostranný, provedeme jej na hladině významnosti 5%. Příslušný kvantil najdeme v tabulce: z 0,05 = z 0,95 = 1, 645. Obor přijetí je tedy 1, 645, ). Statistika padla do oboru přijetí, proto hypotézu, že data jsou pořadově nezávislá, respektive, že odchylky od přímky jsou pouze náhodné, respektive, že naše přímka je vhodnou regresní křivkou, nezamítáme. Převod nelineární regrese na lineární Často potřebujeme daty prokládat jinou křivku než přímku. Můžeme si pro ten či onen případ odvodit příslušné vzorce metodou nejmenších čtverců, často se ale volí jiný postup, a nelineární případ se převede na lineární: Příkladem může být nepřímá úměrnost: y = k x. Pokud místo dat x vezmu jejich převrácenou hodnotu X = 1 x, získávám rovnici přímé úměrnosti: y = k X. Nyní mohu použít vzorec, který jsme si již odvodili. 9

Jiným příkladem může být exponenciála: y = b e ax. Rovnici zlogaritmujeme: ln y = ln b e ax = ln b + ln e ax = ln b + ax ln e = ax + ln b. Pokud místo hodnot y vezmu Y = ln y a konstantu ln b si označím B, dostávám obecnou lineární závislost Y = ax + B. Použiji standardní vzorce a spočtu konstanty a a B. Konstantu malé b spočtu z velkého B snadno: ln b = B b = e B. 10