K čemu slouží regrese?

Podobné dokumenty
Lekce 2 Jednoduchý lineární regresní model

} kvantitativní znaky. korelace, regrese. Prof. RNDr. Jana Zvárov. Obecné principy

Závislost slovních znaků

9. Měření závislostí ve statistice Pevná a volná závislost

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

8. Analýza rozptylu.

Metody zkoumání závislosti numerických proměnných

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

Přednáška II. Lukáš Frýd

PRAVDĚPODOBNOST A STATISTIKA

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Odhady parametrů 1. Odhady parametrů

3. Lineární diferenciální rovnice úvod do teorie

Pravděpodobnost a aplikovaná statistika

, jsou naměřené a vypočtené hodnoty závisle

IAJCE Přednáška č. 12

Úloha III.S... limitní

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Pravděpodobnostní model doby setrvání ministra školství ve funkci

Intervalové odhady parametrů některých rozdělení.

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Tento projekt je spolufinancován Evropským sociálním fondem a Státním rozpočtem ČR InoBio CZ.1.07/2.2.00/

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

jsou reálná a m, n jsou čísla přirozená.

REGRESNÍ DIAGNOSTIKA. Regresní diagnostika

V. Normální rozdělení

NEPARAMETRICKÉ METODY

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Přednáška I. Lukáš Frýd

PRAVDĚPODOBNOST A STATISTIKA

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

Petr Šedivý Šedivá matematika

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

Náhodný výběr 1. Náhodný výběr

Analýza a zpracování signálů. 3. Číselné řady, jejich vlastnosti a základní operace, náhodné signály

Pevnost a životnost - Hru III 1. PEVNOST a ŽIVOTNOST. Hru III. Milan Růžička, Josef Jurenka, Zbyněk Hrubý.

Statistika pro metrologii

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

12. N á h o d n ý v ý b ě r

Intervalové odhady parametrů

KONEČNĚ ROZDĚLENÁ ZPOŽDĚNÍ. POLYNOMICKY ROZDĚLENÉ ZPOŽDĚNÍ.

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

P2: Statistické zpracování dat

f x a x DSM2 Cv 9 Vytvořující funkce Vytvořující funkcí nekonečné posloupnosti a0, a1,, a n , reálných čísel míníme formální nekonečnou řadu ( )

Číselné charakteristiky náhodných veličin

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika

Úvod do korelační a regresní analýzy

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

Deskriptivní statistika 1

9. Měření závislostí ve statistice Pevná a volná závislost

1. Základy měření neelektrických veličin

Matematika I, část II

Přednášky část 7 Statistické metody vyhodnocování dat

6. FUNKCE A POSLOUPNOSTI

Úloha II.S... odhadnutelná

3. DIFERENCIÁLNÍ ROVNICE

Sekvenční logické obvody(lso)

PRAVDĚPODOBNOST A STATISTIKA

2. Finanční rozhodování firmy (řízení investic a inovací)

Dynamická pevnost a životnost Statistika

1. Číselné obory, dělitelnost, výrazy

MATICOVÉ HRY MATICOVÝCH HER

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

DIFERENCIÁLNÍ POČET FUNKCE JEDNÉ PROMĚNNÉ. 1) Pojem funkce, graf funkce

Základní požadavky a pravidla měření

Lineární a adaptivní zpracování dat. 9. Modely časových řad II.

Kvantová a statistická fyzika 2 (Termodynamika a statistická fyzika)

2. Náhodná veličina. je konečná nebo spočetná množina;

Generování dvojrozměrných rozdělení pomocí copulí

Lineární a adaptivní zpracování dat. 8. Modely časových řad I.

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

PODNIKOVÁ EKONOMIKA A MANAGEMENT (2-letý) (písemný test, varianta B)

POLYNOM. 1) Základní pojmy. Polynomem stupně n nazveme funkci tvaru. a se nazývají koeficienty polynomu. 0, n N. Čísla. kde

5. Lineární diferenciální rovnice n-tého řádu

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

VaR analýza citlivosti, korekce

Přijímací řízení akademický rok 2012/2013 Kompletní znění testových otázek matematické myšlení

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V

DURACE A INVESTIČNÍ HORIZONT PŘI INVESTOVÁNÍ DO DLUHOPISŮ

S polynomy jste se seznámili již v Matematice 1. Připomeňme definici polynomické

Popisná statistika. Zdeněk Janák 9. prosince 2007

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

8. Odhady parametrů rozdělení pravděpodobnosti

Geometrická optika. Zákon odrazu a lomu světla

OVMT Přesnost měření a teorie chyb

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

1 Základy Z-transformace. pro aplikace v oblasti

11. Časové řady Pojem a klasifikace časových řad

UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Algoritmus

7. Analytická geometrie

4. B o d o v é o d h a d y p a r a m e t r ů

Transkript:

REGRESE

K čemu slouží regrese? C = Ca + c. Y C = 00 + 0,6. Y + e Budeme zjišťovat jak jeda proměá (ezávislá) Ovlivňuje jiou proměou (závislou) C Y 950 1000 910 150 1130 1500 1150 1750 1475 000 1550 50 1800 500 C 000 1800 1600 1400 100 1000 800 600 400 00 0 0 500 1000 1500 000 500 3000 Pozor a aplikaci regrese!!! Striktí podmík Růzé metod Y Např. problém kauzalit vztahů Y = C + I + G + NX

Úvod Pokoušíme se zjistit příčié/kauzalí souvislosti Spotřebu ovlivňuje velikost důchodu C = Ca + c. Y Ivestice ovlivňuje velikost úrokové mír I = Ia bi Eport ovlivňuje reálý měový kurz a zahraičí HDP Nejsou vztah vcucaé z prstů Chceme zjistit zda-li mezi proměými eistují kokrétí vztah Například jak proměá/proměé (i, Y, R..) Ovlivňuje jiou proměou (C,I,EX) Detailě pochopit vztah mezi ezávislou/mi a závislou proměou A pokud možo vše popsat matematickou fukcí Q =0-0,54P +0,1P +0,Y Jsme schopi dobře určit ěkteré proměé (příjem, hodota majetku atd.) Jak ale určit zda-li půjčit/epůjčit peíze? A které proměé ejvíce ovliví bakrot klieta?

Determiistický model Jedozačě eistující vztah Pravděpodobost =1 Spořeí (fií sazba, poplatk) Kč = β 0 + β 1. 1 - závislá proměá (vsvětlovaá proměá) - ezávislá proměá (vsvětlující proměá) β- parametr (β 0 absolutí čle, β 1 sklo) čas Stochastický model Do modelu vstupuje ejistota (další euvažovaé vliv) Například i chb v měřeí = β 0 + β 1. 1 + ε ε- áhodá chba (áhodá veličia proto má pravděpodobostí rozděleí) Jedostraá závislost regresí aalýz Vzájemá závislost (lieárí) korelačí aalýza C = Ca + c. Y

Cíl saha pozat a popsat příčié vztah mezi proměými Výos pole a možství hojiva Uvažujeme eisteci lieárího vztahu (úvaha zemědělců) více hojiva větší výos Jak ověřit teto vztah? = β 0 + β 1. 1 Dotážeme se všech zemědělců v ČR? Získáme statistický soubor Pozorováím () statistických jedotek (sledujeme 100 zemědělců) saha ab dat bla prostorově, časově a věcě vmezea Pozorováím určité statistické jedotk (HDP) v () časových itervalech Saha se co ejvíce přiblížit(aproimovat) empirickou regresí fukci A hpotetickou regresí fukci Co ejlépe b měla vjadřovat charakter závislosti (lieárí, logaritmická atd.) Hledáme průběh závislosti (lieárí, elieárí) Itezitu závislosti (silá/těsá)

Saha se co ejvíce přiblížit(aproimovat) empirickou regresí fukci A hpotetickou regresí fukci Co ejlépe b měla vjadřovat charakter závislosti (lieárí, logaritmická atd.) Hledáme průběh závislosti (lieárí, elieárí) Itezitu závislosti (silá/těsá) Nelieárí Závislost a její itezita Nelieárí závislost silá Lieárí závislost slabá Lieárí závislost silá

Příklad Máme pole a chceme zjistit co ovlivňuje výos z pole Mšleka možství hojiva výos = β 0 + β 1.hojivo +ε = β 0 + β 1. 1 + ε = β 0 + β 1. 1 výos- závislá proměá hojivo možství hojiva ezávislá proměá ε- ostatí faktor Provedeme () áhodých výběrů oslovíme zemědělců A zjistíme kolik hojili a jaký měli výos výos = 5 + 1,5.hojivo + e Sklo 1,5 Kdž ebudeme hojit výos=5 Kdž se změí možství hojiva o 1 Zvýší se výos o 1,5.1=1,5 Změa hojiva o výos=.1,5=3 e- bod eleží a čárkovaé přímce Eistují další faktor kromě hojiva Ovlivňující výos výos 5 hojivo

Jedoduchý lieárí regresí model Máme pouze jedu ezávisle proměou Vztah mezi závisle proměou () a ezávisle proměou () je lieárí M získáme ějaká data a (empirické/výběrové hodot) co se aměřilo Cílem je ajít případý vztah mezi a a popsat jej Výos pole a možství hojiva M víme, že zde eistuje lieárí vztah čím více hojiva tím větší výos Ale evíme, jak přesě má daý vztah vpadat Teoretická (hpotetická) regresí fukce epozorovatelá (η) ideálí regresí fukce Teoretický vztah většiou ezáme = β 0 + β 1. 1 Empirická regresí fukce je Odhad teoretické regresí fukce výos hojivo

Teoretická a empirická regresí fukce Pro každé pozorováí (i), i = η i + ε i η i = β 0 + β 1. i i = β 0 + β 1. i + ε i Při eeisteci chb (ε) Model determiistický (pevá závislost) η- předpis kd je přiřazeo přesě =. i - i-tá empirická hodota vsvětlovaé proměé (výos pole) η i - i-tá hodota teoretické regresí fukce (ezám) ε i - odchlka (áhodá chba) i od η i Odchlka e i -reziduum rozdíl mezi empirickou regresí fukcí a empirickou hodotou Na působí další áhodé proměé ež pouze () Na pozorováí působí áhodé chb (epřesé váh) i Empirická regresí fukce ε i e i Reziduum je odhadem áhodé chb (dopustili jsme se dalších chb) ε i Teoretická regresí fukce e i

Hledáí kokrétího tvaru regresí fukce Červeé bod začí empirické (apozorovaé) hodot Musíme ajít vhodou přímku i = η i + ε i i = β 0 + β 1. i + ε i Každou empirickou hodotu i ahradíme Y i = b 0 + b 1. i určitou vrovaou hodotou Y i Která bude ležet a zvoleé empirické (výběrové) regresí přímce 5 Y 6 3 4 Y 5 6 1 4 =Y 4 Y Y 3 Y 1

Problém je, že takových přímek může eistovat ekoečě moho Musíme ajít kritérium ejlépe vstihe daou závislost Zeleé šipk představují odchlku skutečé hodot od vrovaé hodot Kdž už musí eistovat odchlk ideálí b blo jejich vzájemé vkompezováí i Y i = e i = 0 Kladé a záporé odchlk Se požerou 5 Y 6 Y 7 e i -reziduum Rozdíl mezi empirickou regresí fukcí a empirickou hodotou 1 Y 3 Y 3 4 4 =Y 4 Y 5 6 7 Y 1

Součet čtverců odchlek empirických hodot i od hodot teoretických η i bl miimálí Metoda ejmeších čtverců (MNČ, OLS) i = η i + ε i e i = 0 Q = ε i = ( i η i ) mi 5 Y 6 Y 7 Reziduum e je odhadem ε A Y je odhadem η Musí platit, že: Q = e i = ( i Y i ) mi 1 Y 3 Y 3 4 Y 5 4 =Y 4 6 7 Y 1

Přímková regrese i = η i + ε i η = β 0 + β 1. Q = ε i = ( i η i ) mi Y = b 0 + b 1. b 0 je odhad β 0 Q = ( i β 0 β 1 i ) Q mi b 1 je odhad β 1 Q β 0 = 0 Q β 1 = 0 Q = ( i b 0 b 1 i ) = ( 1 b 0 b 1 1 ) +( b 0 b 1 ) Q b 0 =. 1 b 0 b 1 1. 1 +. b 0 b 1. 1 = 0 Q b 0 =. i b 0 b 1 i. ( 1) = 0 Q b 1 =. 1 b 0 b 1 1. 1 +. b 0 b 1. = 0 Q b 1 =. i b 0 b 1 i. ( i ) = 0

Q = Q b 0 =. Q b 1 =. ε i = ( i η i ) mi Q = i b 0 b 1 i. ( 1) = 0 i b 0 b 1 i. ( i ) = 0 ( i β 0 β 1 i ) Q b 0 =. 1 b 0 b 1 1. 1 +. b 0 b 1. 1 = 0 Q b 1 =. 1 b 0 b 1 1. 1 +. b 0 b 1. = 0 Normálí rovice i =. b 0 +b 1 i b 0 = i i i i i i i i i. i = b 0 i i + b 1 i i b 1 = i i i i i i i i i i i

E Y X = +. b ( ) Y = + b. ( ) Y = b 0 + b 1. Regresí koeficiet (výběrový regresí koeficiet) Směrice (sklo) regresí přímk Průměrá změa závisle proměé Při jedotkové změě ezávisle proměé b = s s b = cov(, ) Var() Může abýt libovolých hodot!!! Jedodušší postup pro přímkovou regresi!!!! b 0 = b 1 Přímková regrese je lieárí regresí fukce (lieárí v parametrech) Obráceě emusí platit!!! cov(, ) > 0 cov(, ) < 0 cov, = 0 Lieárí ezávislost

Liearizace modelu Liearita v parametrech l = lb 0 + b 1 l OK = b 0 b 1 Neí OK ) Vzpomeňte a matice Lieárí algebra pro praktičost je výhodější mít lieárí model Některé elieárí model se dají liearizovat Liearizující trasformace Q = 5 lp lq = 100 0,04P lq = 7 0,01lP = b 0 b 1 l = lb 0 + b 1 l = b 0 b 1 l = lb 0 b 1 l

Další tp regresích fukcí Parabolická regrese η = β 0 + β 1. + β. Neí víceásobá regrese!!! Aplikujeme MNČ Iterpretace výsledků ei = i b0 b1i

Polomická regrese Lieárí v parametrech Nelieárí v η = β 0 + β 1. + β. + + β p. p Hperbolická regrese Logaritmická regrese η = β 0 + β 1 Lieárí v parametrech Nelieárí v η = β 0 + β 1 log Iterpretace výsledků

Epoeciálí regrese Nelieárí v parametrech Nelze použít MNČ η = β 0. β 1 Logaritmická trasformace zlogaritmujeme (liearizujeme) Iterpretace výsledků log η = log β 0 +. log β 1

Zdálivá regrese (spurious regressio) Někd astae situace, že regresí model vkazuje vsoké R Přesto se jedá o esmslý vztah Váha dětí a zalost gramatik Čím jsou děti těžší, tím mají lepší gramatiku Zapomíáme a stáří dětí!!! Vzájemý vztah přes třetí proměou Možost eistece krátkodobého vztahu apř. stochastický tred atd. Dávat si a zdálivou regresi VELKÝ pozor Zájemci si mohou vhledat termí koitegrace časových řad

Iterpolačí a etrapolačí odhad Vziklý model musíme testovat Iterpolačí odhad Do vziklého modelu dosazujeme vsvětlující proměé z oblasti měřeí výos = 5 + 1,5.hojivo + u Etrapolačí odhad Do vziklého modelu dosazujeme hodot mimo iterval měřeí Máme hodot z itervalu (0;1000) A chceme predikovat chováí pro hodot z itervalu (1000;1500)

Kvalita regresí fukce a itezita závislosti Zjistíme případý vztah lieárí/elieárí Přímková regrese, parabolická atd. Je však daý model kvalití? Regresí model bude tím lepší čím více budou empirické hodot vsvětlovaé proměé soustředě (alepa) kolem odhaduté regresí fukce Cílem kapitol je objasit si ástroje a měřeí kvalit regresího modelu

Ide korelace Empirický rozptl (ER) Teoretický rozptl (TR) Residuálí rozptl (RR) s ( Y) s = 1. s Y = 1. = 1. ( i ) (Y i ) ( i Y i ) Při použití MNČ platí mezi rozptl vztah: Y 6 s = s Y + s ( Y) 6

Empirický rozptl (ER) Teoretický rozptl (TR) Residuálí rozptl (RR) s = 1. ( i ) s Y = 1. (Y i ) s ( Y) = 1. ( i Y i ) s = s Y + s ( Y) Fukčí závislost s = s Y Všech empirické hodot ( i ) jsou zároveň vrovaými hodotami (Y i ) čím lepší závislosti, tím více se ER a TR blíží Úplá ezávislost s = s ( Y) Y 6 Empirický rozptl shodý s reziduálím čím horší závislost, tím se ER a RR blíží 6 Hodoceí stochastického modelu Zvoleý model bude tím kvalitější Čím bude podíl teoretického rozptlu Na celkovém rozptlu větší!!! s Y s Tím silější bude závislost a

s = 1. ( i ) s Y = 1. (Y i ) Ide determiace R I = s Y s s = s Y + s ( Y) Ide abývá hodot 0-1 R =1 představuje fukčí závislost R =0 představuje ezávislost Vásobeo 100 udává v % tu část rozptlu kterou se podařilo vsvětlit regresí fukcí R = "vsvětleý rozptl" celkový rozptl 0 1,,4 3,6 4,8 5 3,5,75 Y i = + 0,3. i s Y s = 1 s ( Y) s Relativí část, která se epodařila vsvětlit modelem I = s Y s Ide korelace

Ide determiace <0,1> Fukčí závislost R=1 Nezávislost R=0 I = s Y s Převedeím a % - vjadřuje tu část rozptlu vsvětlovaé proměé () kterou se podařilo vsvětlit pomocí regresí fukce R=0,8 100.0,8=80% 80% hodot se ám podařilo vsvětlit pomocí kokrétího tpu reg. fce Ide korelace I = s Y s

Koeficiet korelace Zvláští případ ideu korelace Měří těsost závislosti daé LINEÁRNÍ regresí fukce I = s Y r - koeficiet korelace s - kovariace s (, )- rozptl s Koeficiet korelace <-1,1> r =-1 Nepřímá lieárí závislost r =1 Přímá lieárí závislost r =0 lieárí ezávislost 180 160 140 10 100 80 60 40 0 0-0 -40 r = r = s s. s -60-0 4 6 8 10 1 14 16 18 0 4 0 50 1 51,9 57, 3 65,3 4 75,6 5 87,5 6 100,4 7 113,7 8 16,8 9 139,1 10 150 11 158,9 1 165, 13 168,3 14 167,6 15 16,5 16 15,4 17 136,7 18 114,8 19 86,1 0 50 1 5,9-46,8 0,1 3 + + 50 r = 0,0 r =0 Nemusí zameat ezávislost Může se jedat o silou závislost Ale NELINEÁRNÍ!!!

l 6 = 5 l = l5 l r = 1 0 - -4 Prom 5 4 3 1 0-1 -0 0 0 40 60 80 100 10 140 Prom1 1 5 1,5 3 0,555555556 4 0,315 5 0, 6 0,138888889 7 0,10040816 8 0,07815 9 0,06178395 10 0,05 11 0,0413314 1 0,0347 13 0,09585799 14 0,0551004 15 0,0 16 0,0195315 17 0,017301038 18 0,01543099 19 0,013850416 0 0,015-6 -8 r = 0,3-10 -1 0 1 3 4 5 6 l