Metody zkoumání závislosti numerických proměnných



Podobné dokumenty
PRAVDĚPODOBNOST A STATISTIKA

, jsou naměřené a vypočtené hodnoty závisle

Úvod do korelační a regresní analýzy

9. Měření závislostí ve statistice Pevná a volná závislost

Metody statistické analýzy. doc. Ing. Dagmar Blatná, CSc.

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

a další charakteristikou je četnost výběrového souboru n.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Testování statistických hypotéz

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

Spolehlivost a diagnostika

Regresní a korelační analýza

Lineární regrese ( ) 2

KVALITA REGRESNÍHO MODELU Radek Fajfr

Generování dvojrozměrných rozdělení pomocí copulí

1. Základy měření neelektrických veličin

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

Jednoduchá lineární regrese

11. Časové řady Pojem a klasifikace časových řad

Úvod do teorie měření

PRAVDĚPODOBNOST A STATISTIKA

8 NELINEÁRNÍ REGRESNÍ MODELY

Intervalové odhady parametrů některých rozdělení.

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

Měření závislostí. Statistická závislost číselných znaků

PRAVDĚPODOBNOST A STATISTIKA

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

Mendelova univerzita v Brně Statistika projekt

Statistika - vícerozměrné metody

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

11. Regresní analýza. Čas ke studiu kapitoly: 60 minut. Cíl VÝKLAD Úvod

8. Analýza rozptylu.

Odhady parametrů 1. Odhady parametrů

Statistická analýza dat

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

14. Korelace Teoretické základy korelace Způsoby měření závislostí pro různé typy dat

Aktivita 1 Seminář základů statistiky a workshop (Prof. Ing. Milan Palát, CSc., Ing. Kristina Somerlíková, Ph.D.)

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Chyby přímých měření. Úvod

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY. Přírodovědecká fakulta ANALÝZA DAT. 2. upravené vydání. Josef Tvrdík

APLIKOVANÁ STATISTIKA

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Výsledky této ásti regresní analýzy jsou asto na výstupu z poítae prezentovány ve form tabulky analýzy rozptylu.

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

PRAVDĚPODOBNOST A STATISTIKA

Doc. Ing. Dagmar Blatná, CSc.

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Přednáška V. Úvod do teorie odhadu. Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs.

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

3. Lineární diferenciální rovnice úvod do teorie

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a aplikovaná statistika

Deskriptivní statistika 1

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

TECHNICKÁ UNIVERZITA V LIBERCI

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

SP2 Korelační analýza. Korelační analýza. Libor Žák

12. Neparametrické hypotézy

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT. Josef Tvrdík

Model poptávky po železniční osobní dopravě Českých drah, a. s. na tuzemském přepravním trhu

jsou varianty znaku) b) při intervalovém třídění (hodnoty x

14. B o d o v é o d h a d y p a r a m e t r ů

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Přednáška č. 2 náhodné veličiny

v. Úkolem regrese (vyrovnání) argumentu y je nalézt vhodnou regresní funkci Y f (x)

11. Popisná statistika

UNIVERZITA JANA EVANGELISTY PURKYNĚ V ÚSTÍ NAD LABEM PEDAGOGICKÁ FAKULTA Katedra tělesné výchovy

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

[ jednotky ] Chyby měření

Optimalizace portfolia

NEPARAMETRICKÉ METODY

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

APLIKACE REGRESNÍ ANALÝZY NA VÝPOČET BODU ZVRATU

} kvantitativní znaky

V. Normální rozdělení

REGRESNÍ ANALÝZA. 13. cvičení

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA STAVEBNÍ KATEDRA SPECIÁLNÍ GEODÉZIE DIPLOMOVÁ PRÁCE

Pravděpodobnostní modely

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

S1P Popisná statistika. Popisná statistika. Libor Žák

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

9. Měření závislostí ve statistice Pevná a volná závislost

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

IAJCE Přednáška č. 12

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

REGRESNÍ DIAGNOSTIKA. Regresní diagnostika

P1: Úvod do experimentálních metod

Pravděpodobnost a aplikovaná statistika

Závislost slovních znaků

Transkript:

Metody zkoumáí závslost umerckých proměých závslost pevá (fukčí) změě jedoho zaku jedozačě odpovídá změa druhého zaku (podle ějakého fukčího vztahu) (matematka, fyzka... statstcká (volá) změám jedé velčy odpovídají změy druhé velčy tak, že určté hodotě jedoho zaku může odpovídat více hodot zaku druhého, což je způsobeo tím, že současě působí řada áhodých vlvů statstcká (volá) závslost vyjadřuje obecou tedec změ - ejčastěj závslost jedostraá jede zak vystupuje jako příča (ezávsle proměá).. x a druhý zak jako ásledek (závsle proměá) začíme y

grafcké zobrazeí závslost dvou proměých - bodový dagram 140 180 160 10 140 100 10 80 100 80 60 60 40 40 0 0 0 0 0 0 10 0 5 10 15 z bodového dagramu můžeme posoudt průběh závslost - leárí, eleárí kladá, záporá sílu této závslost - tj. stupeň kolísáí hodot kolem čáry vyjadřující průběh závslost

Regresí aalýza popsujeme průběh statstcké závslost odhadujeme hodoty závsle proměé Y odpovídající daé hodotě jedé ebo více ezávsle proměých X. jedoduchá (párová) RA: Y... závsle proměá (vysvětlovaá proměá) X.. ezávsle proměá (vysvětlující proměá) y f ( x) vícerozměrá RA: Y. závsle proměá (vysvětlovaá proměá) X X X...ezávsle proměé (vysvětlující proměé),..., k 1, y f ( x1, x,..., x k )

Postup (kroky) RA: 1. volba typu regresí fukce (alezeí regresího modelu). odhad parametrů regresího modelu 3. testováí hypotéz o těchto parametrech (ověřeí výzamost parametrů regresího modelu) 4. ověřeí vhodost zvoleého regresího modelu (posouzeí kvalty regresího modelu).

Jedoduchá (párová) regresí aalýza Volba typu regresí fukce (alezeí regresího modelu) úkolem je alézt vhodou aalytckou fukc, která ejlépe vysthe průběh závslost závsle proměé Y a ezávsle proměé X vhodou aalytckou fukc volíme a základě: věcě-logckého rozboru zkoumaých závslostí grafckého zázorěí pomocí MS krterí "prcp parsmoe"

Odhad parametrů regresího modelu TEORETICKÝ REGRESNÍ MODEL y Y 1,,..., ZS... teoretcká (hypotetcká) regresí fukce Y f ( x,,,..., ) 0 1 k 0, 1,..., k jsou ezámé regresí parametry ezámá áhodá složka 0 0 determstcký model stochastcký model

VS... výběrová (emprcká) regresí fukce - je odhadem regresí fukce závslost v ZS yˆ f ( x, b, b,..., b ) 0 1 b0, b1,..., b výběrové regresí koefcety (odhady k regresích parametrů y y e e rezduum (je odhadem áhodé složky) e ˆ y y Předpoklady o áhodé složce Rozděleí áhodých složek je ormálí E D ( ) 0 ( ) kost. cov(, j) 0 k N(0, ) kovarace všech dvojc áhodé složky jsou ulové

regresí fukce leárí v parametrech parametry odvozujeme metodou ejmeších čtverců MNČ PŘÍKLADY přímka Y b0 b1x parabola Y b0 b1 x b x hyperbola Y b b / x 0 1 log.fukce Y b b l x 0 1 fukce eleárí v parametrech elze použít přímo MNČ 1 Y b. b Y b x x 0 1 0. b

základí metoda k odvozeí parametrů leárích regresích modelů: Metoda ejmeších čtverců (MNČ) Leárí fukce - přímka (přímková regrese) Y 0 1 x teoretcká regresí přímka ŷ b0 b1x výběrová regresí přímka Cílem je ajít přímku, která ejlépe popsuje průběh závslost, tj. přímku, která je zjštěým hodotám ejblíže ( y y ) e 0 ( y yˆ ) e m. 1 1 1 1

MNČ ( ˆ ) m. 1 1 ( 0 1 ) m. 1 S y y e S y b b x Úkolem je ajít hodoty parametrů přímky Mmalzujeme rezduálí součet čtverců S b0, b1 S b 0 S b 1 y b b x 0 0 1 x y b0 x b1 x 0

Řešeím soustavy dvou rovc dostaeme odhady parametrů přímky b b y x x y 1 yx x ( x) b0, b1 b yx = výběrový regresí koefcet je bodový odhad parametru 1 teoretcké regresí přímky, tj. směrce teoretcké regresí přímky) je směrcí výběrové regresí přímky ŷ b0 b1x b yx vyjadřuje průměrou změu závsle proměé Y př jedotkové změě ezávsle proměé X b y x y x x 0 x ( x) b0 y byxx

Výpočet parametrů b, yx b 0 z euspořádaých údajů x y x y x y x 1 y 1 x 1 y 1 x 1 y 1 x y x y x y.................... b yx y x x y ( ) x x b0 y byxx x y x y x y x y x y x y

Příklad: Sledujeme závslost spotřeby vody a počtu čleů u souboru17 domácost x y x y x y 1 1 80 1 6400 80 1 40 1 1600 40 3 1 60 1 3600 60 4 70 4 4900 140............ 15 4 15 16 3104 608 16 5 30 5 5900 1150 17 5 168 5 84 840 50 194 176 58334 6534 b b yx b yx b y x x y x ( x ) 17.6534 50.194 17.176 50 0 y x y x x 194.176 6534.50 17.176 50 0 x ( x ) yˆ 4,4 30,4x 30,4 4,4

yˆ 4,4 30,4x

Testy hypotéz o parametrech regresí fukce Idvduálí t-testy H : 0 H : 0 0 j 1 j Testové krtérum t b s b j j t( p) krtcký obor Iterpretace v případě přímkové regrese: pro přímku t ( ) t t ( p) t t ( p) Zamítutí hypotézy o ulové hodotě regresího parametru 1 zameá přjetí předpokladu, že středí hodota vysvětlovaé proměé y se změí o kostatu b yx př jedotkové změě vysvětlující proměé x. Zamítutí hypotézy o ulové hodotě regresího parametru 0 zameá přjetí předpokladu, že regresí přímka prochází počátkem (ulou). 1

Výstup EXCEL Koefcety Chyba stř. hodoty t Stat Hodota P Hrace 4,4 18,35 1,3 0,1 Soubor X 30,4 5,70 5,30 0,00 Varable DF Parameter Estmate Parameter Estmates Stadard Error t Value Pr > t Itercept 1 4.3577 18.34863 1.3 0.063 b 1 30.3984 5.7058 5.30 <.0001 yˆ 4,4 30,4x 0,975 t (15),131

Y f ( x,,,..., ) 0 1 Regresí odhady Výběrové regresí koefcety b jsou bodové odhady teoretckých regresích parametrů Regresím odhadem chápeme výpočet hodoty závsle proměé y odpovídající určté hodotě ezávsle proměé x (tz. dosadíme hodotu x do vypočteé výběrové regresí fukce). Např. v ašem příkladě odhad průměré spotřeby domácost, která má 3 čley, získáme dosazeím x = 3 do vypočteé regresí rovce yˆ 4,4 30,4x k ˆy yˆ f ( x, b, b,..., b ) 4,4 0 1 k 30,4. 3 114,96

Odhady parametrů regresí fukce Y f ( x,,,..., ) 0 1 yˆ f ( x, b, b,..., b ) 0 1 k k Můžeme vypočítat tervalové odhady regresích parametrů, které jsou kostruováy kolem vypočteých bodových odhadů parametrů (oboustraé tervaly spolehlvost) P ( bj t / sb j bj t1 / 1 j bj s ) 1 tervalový odhad pro všechy hodoty výběrové regresí fukce, tj pro jedotlvé body yˆ Iterval kolem vypočítaé regresí fukce tvoří tzv. pás spolehlvost, který eí ve všech bodech stejě šroký (ejužší je v bodě, který má souřadce ( x, y )

Predkce v regres Je odhad hodoty závsle proměé y pro hodotu ezávsle proměé x, která eí z oboru hodot, z chž byla regresí fukce spočítáa. Např. odhad spotřeby domácost, která by měla 8 čleů vypočítáme ˆy 4,4 30,4.8 66,16 Predkčí Itervalové odhady opět tvoří pás spolehlvost kolem regresí fukce, který je ale šrší ež pás spolehlvost pro tervalové odhady hodot ležících a regresí fukc.

Posouzeí kvalty regresí fukce regresí fukce je tím vhodější, čím jsou apozorovaé hodoty více soustředěy kolem regresí čáry. - emprcké (zjštěé) hodoty závsle proměé yˆ y - vyrovaé hodoty (hodoty ležící a regresí čáře) - celkový součet čtverců (charakterzuje celkovou varabltu) Q ( y y) teoretcký součet čtverců charakterzuje část varablty závsle proměé y zachyceou (vysvětleou) regresí fukcí rezduálí součet čtverců charakterzuje část varablty závsle proměé y, kterou elze vysvětlt regresí fukcí platí 1 Q Q Q T R Q ( y y) T 1 Q ( y y ) R 1

Celkový F - test H :... 0 H : o H 0 0 1 m 1 0 Testové krterum F QT p 1 QR F ( p 1); ( p) p krtcký obor F F1 ( p 1); ( p)

Míra těsost závslost je dex determace, I R Q Q T 1 I I 1 ( y yˆ ) ( y yˆ ) 0... ezávslost y a x 1... determstcká závslost 0,1 dex determace vyjádřeý v % udává, jakou část rozptylu závsle proměé y lze vysvětlt zvoleou regresí fukcí. I Pokud se blíží hodota jedé, lze usuzovat, že byla použta vhodá regresí fukce a že mez y a x exstuje slá závslost. I Pokud se blíží hodota ule, pak usuzujeme, buď že byla použta evhodá regresí fukce ebo že mez y a x exstuje je slabá závslost.

Pro posouzeí, která fukce je vhodější se používá upraveý dex determace (R-sq. Adjusted) I 1 upr 1 (1 I ) p

ANOVA V ašem příkladě Rozdíl SS MS F Výzamost F Regrese 1 6465,19 6465,19 8,1 8,856E-05 Rezdua 15 14117,8 941,15 Celkem 16 4058,47 Source DF Sum of Squares Aalyss of Varace Mea Square F Value Pr > F Model 1 6465 6465 8.1 <.0001 Error 15 14117 941.151 Corrected Total 16 4058 6465 R 0,651 F 0,95 (1;15) 4,54 4058

Odhady parametrů regresích fukcí eleárích v parametrech Příklady: Y Y = 0 1 x expoecálí fukce Y = 0 x 1 mocá fukce (Cobb-Douglassova 1 0 1 x Törqustova křvka produkčí fukce) elze použít MNČ k odhadu parametrů regresí fukce Postup odhadu parametrů: 1. Najdeme vhodý tzv. počátečí odhad. te postupě zlepšujeme teračím postupy tak dlouho, až dostaeme odhad s požadovaou přesostí

ad 1. Metody počátečích odhadů: learzující trasformace metoda aprorí formace metoda vybraých bodů metoda learzující trasformace model s eleárí regresí fukcí převedeme trasformací a model leárí a odhady jeho parametrů získáme MNČ metoda aprorí formace jako počátečí odhady použjeme hodoty parametrů doporučovaé teorí ebo hodoty zámé z předchozího šetřeí (výpočtu) metoda vybraých bodů vybereme tolk bodů, kolk parametrů má zvoleá regresí fukce. Souřadce těchto bodů dosadí me do rovce regresí fukce. Získáme soustavu eleárích rovc, jejchž řešeím jsou hledaé počátečí odhady parametrů.

Ad. Metody postupého zlepšováí počátečích odhadů teračí postupy: apř. Gauss-Newtoův, Marquardtův apod. Prcp: v každém kroku se počítá součet čtverců rezduí S 1 ( y yˆ ) 1 e postup kočí, když S - S -1 <