Smíšené regresní modely a možnosti jejich využití. Karel Drápela

Podobné dokumenty
LINEÁRNÍ REGRESE. Lineární regresní model

6. Lineární regresní modely

Prostorová variabilita

Inovace bakalářského studijního oboru Aplikovaná chemie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

PRAVDĚPODOBNOST A STATISTIKA

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

5EN306 Aplikované kvantitativní metody I

LINEÁRNÍ MODELY. Zdeňka Veselá

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

6. Lineární regresní modely

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

odpovídá jedna a jen jedna hodnota jiných

Regresní a korelační analýza

6. Lineární regresní modely

Regresní a korelační analýza

Regresní analýza. Eva Jarošová

Kalibrace a limity její přesnosti

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Regresní a korelační analýza

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Statistická analýza jednorozměrných dat

4EK211 Základy ekonometrie

Statistika (KMI/PSTAT)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Regresní a korelační analýza

INDUKTIVNÍ STATISTIKA

Tomáš Karel LS 2012/2013

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Úvodem Dříve les než stromy 3 Operace s maticemi

Regresní a korelační analýza

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Kalibrace a limity její přesnosti

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Plánování experimentu

Téma 9: Vícenásobná regrese

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Technická univerzita v Liberci

Aplikovaná statistika v R - cvičení 2

Korelační a regresní analýza

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Úloha 1: Lineární kalibrace

Modely přidané hodnoty škol

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Aplikovaná statistika v R - cvičení 3

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

7 Regresní modely v analýze přežití

Semestrální práce. 2. semestr

Tomáš Karel LS 2012/2013

Regresní analýza 1. Regresní analýza

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

kovů v sedimentech řeky Moravy

6. Lineární regresní modely

Bodové a intervalové odhady parametrů v regresním modelu

10. Předpovídání - aplikace regresní úlohy

KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015

Statistická analýza jednorozměrných dat

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Statistická analýza jednorozměrných dat

Předpověď plemenné hodnoty Něco málo z praxe. Zdeňka Veselá

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Přednáška IX. Analýza rozptylu (ANOVA)

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Kontingenční tabulky, korelační koeficienty

Základy teorie pravděpodobnosti

Analýza rozptylu. opakovaná měření faktoriální analýza rozptylu analýza kovariance vícerozměrná analýza rozptylu

Normální (Gaussovo) rozdělení

Pokročilé neparametrické metody. Klára Kubošová

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Číselné charakteristiky

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Univerzita Pardubice 8. licenční studium chemometrie

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

KGG/STG Statistika pro geografy

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

6. Lineární regresní modely

Ilustrační příklad odhadu LRM v SW Gretl

UNIVERZITA PARDUBICE

Zobecněná analýza rozptylu, více faktorů a proměnných

Vícerozměrné statistické metody

Tvorba nelineárních regresních modelů v analýze dat

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

UNIVERZITA PARDUBICE

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Transkript:

Smíšené regresní modely a možnosti jejich využití Karel Drápela

Regresní modely Základní úloha regresní analýzy nalezení vhodného modelu studované závislosti vyjádření reálného tvaru závislosti minimalizace nevysvětlené variability Využití regresní analýzy model vztahu mezi vysvětlující a vysvětlovanou proměnnou predikce hodnot pro určité období do budoucna, Vybrané podmínky MNČ data jsou nezávislá, pro každou hodnotu x je variabilita y stejná (homoskedasticita)

Strukturace dat Hlavní příčiny strukturace dat časové hledisko (opakovaná měření) prostorová agregace (shluky) hierarchická struktura dat Hlavní problémy data nejsou vzájemně nezávislá data vykazují korelační strukturu (data uvnitř skupin jsou si navzájem podobnější než data mezi skupinami ) výsledkem použití klasické MNČ je nadhodnocení nevysvětlené variability

Příklad strukturovaných dat

Globální model

Globální model y = 0 + 1 x

Lokální modely i =1 y = 01 + 11 x i =2 y = 02 + 12 x

Lokální vs. globální model

Lokální vs. globální model i =1 y = 01 + 11 x y = 0 + 1 x i =2 y = 02 + 12 x

Nevýhody lokálního a globálního modelu Globální model ignoruje strukturu dat a všechna data považuje za vzájemně nezávislá pracuje se všemi daty najednou vysoká variabilita a široké odhady parametrů Lokální modely parametry modelu platí jen pro určitou skupinu obtížná možnost zobecnění v případě velkého počtu skupin nutnost počítat velké množství modelů s mnoha parametry

Model se smíšenými parametry nazývá se také víceúrovňový nebo hierarchický (mixed model, multilevel model, hierarchical model) smíšený model parametry modelu jsou dvojího druhu pevné (fixed) a náhodné (random) pevné parametry jsou společné všem skupinám, náhodné vyjadřují odchylky jednotlivých skupin od pevných ( globálních ) parametrů je to kompromis mezi globálním a lokálním modelem každá skupina může mít vlastní model, ale tyto modely jsou určitým způsobem svázány s globálním modelem, takže jejich parametry nemohou nabývat zcela libovolných hodnot jako u lokálních modelů

Základní struktura smíšeného modelu model se rozdělí na tolik úrovní, s kolika stupni strukturace dat uvažujeme základní model má 2 úrovně např. strom - plocha, jedinec druh, apod. i počet skupin (úroveň2) i = 1,2,, m k počet jedinců v rámci skupiny (úroveň 1) k = 1,2,., n i y ik měřená hodnota na k-tém jedinci v rámci i-té skupiny i=1 i=2

Základní struktura smíšeného modelu Model úrovně 1 y ik = β 0i + β 1i x ik + ik ik N(0, 2 ) y = β 01 + β 11 x y = β 02 + β 12 x Model úrovně 1 popisuje vztah mezi y a x v rámci skupin Model úrovně 2 β 0i = + β 0 + u 0i β 1i = + β 1 + u 1i 2 u 0i 0 τ0 τ01 N, 2 u 1i 0 τ01 τ1 Model úrovně 2 uvolňuje parametry 0i a 1i. Náhodné parametry u 0i a u 1i představují odchylku parametrů 0i a 1i od globálních parametrů 0 a 1. Tato odchylka ovšem nemůže být libovolná, ale je dána rozdělením náhodných parametrů

Základní struktura smíšeného modelu Vytvoření smíšeného modelu y = (β 0 + u 0i )+(β 1 + u 1i ) x abs.člen směrnice y = (β 0 + u 01 )+(β 1 + u 11 ) x y = β 0 + β 1 x Pevné parametry: β 0, β 1, 2, 02, 12, 01 Náhodné parametry: ik, u 0i, u 1i y = β 0 + β 1 x ik + u 0i + u 1i x ik + ik y = (β 0 + u 02 )+(β 1 + u 12 ) x část modelu s pevnými parametry část modelu s náhodnými parametry

Srovnání lokálních a smíšených modelů Lokální model parametry modelu jsou interpretovány jako pevné nejvhodnější pokud srovnání modelů jednotlivých skupin je cílem výzkumu vhodný pokud proměnná definující strukturu dat je zároveň hlavním zkoumaným prediktorem vhodný pro velmi malý počet skupin vyžaduje výpočet velkého množství parametrů (zvláště v případě modelů počítaných pro mnoho skupin) v případě výpočtu velkého počtu parametrů existuje tendence ke zvyšování variability odhadů parametrů Smíšený model parametry modelu jsou interpretovány buď jako pevné nebo jako náhodné nejvhodnější, pokud cílem výzkumu není model pro určitou skupinu, ale charakteristika rozdělení parametrů modelu vhodný pokud proměnná definující strukturu dat je především třídící proměnnou vhodný pro vysoký počet skupin počet počítaných parametrů nezávisí na počtu skupin v případě velmi malého počtu skupin mohou nastat problémy s odhadem parametrů rozdělení náhodných faktorů

Tvorba smíšeného modelu Je nutné vytvořit 4 základní stupně modelů a testovat jejich přínos : Název Model Význam globální model model průměru model s náhodným abs. členem model s náhodným abs. i regresním členem y ik = β 0 + β 1 x ik + ik základní model, který ignoruje případnou strukturu v datech, nutný pro testování přínosu smíšeného modelu L1: y ik = β 0i + ik model bez prediktoru, potřebný pro odhad 2 a L2: β 0i = β 0 + u 0i 2 ( ik N(0, 2 ); u 0i N(0, 2 )) 1. srovnáním s globálním modelem se testuje L1: y ik = β 0i +β 1 x ik + ik významnost struktury v datech L2: β 0i = β 0 + u 0i 2. srovnáním s modelem průměru se testuje význam prediktoru 1. úrovně L1: y ik = β 0i +β 1 x ik + ik L2: β 0i = β 0 + u 0i β 1i = β 1 + u 1i základní model pro testování významu prediktorů 2. úrovně (proměnné společné pro všechny jedince 1. úrovně)

Tvorba smíšeného modelu V dalším kroku se přidávají prediktory 2. úrovně ( proměnné, které jsou měřeny na úrovni skupin a jsou pro všechny jedince 1. úrovně stejné, např. věk v rámci zkusné plochy stejnověkého porostu). Prediktory 2. úrovně jsou používány k odhadu parametrů na úrovni skupin. Prediktory 2. úrovně mohou být doplněny do modelu jak pro abs. člen, tak pro směrnici, tak pro oba členy modelu.

Kalibrace smíšených modelů Kalibrovaná predikce (parametrizace) pokud je vytvořen smíšený model s potřebnými prediktory na všech úrovních modelu, je možná kalibrovaná parametrizace modelu pro nová měření na základě velmi málo měřených hodnot vysvětlované proměnné používá se metoda BLUP (best linear unbiased predictor) pokud hodnoty vysvětlované proměnné nejsou měřeny, model se chová jako model s pevnými efekty (využívá pouze pevných hodnot parametrů použitých prediktorů)

Výšková funkce

Kalibrace smíšených modelů

Kalibrace smíšených modelů - náhodný výběr stromů (P1)

Kalibrace smíšených modelů míry shody s lokálním modelem (náhodný výběr stromů, P1)

Kalibrace smíšených modelů - náhodný výběr stromů (P56)

Kalibrace smíšených modelů míry shody s lokálním modelem (náhodný výběr stromů, P56)

Kalibrace smíšených modelů výběr podle kvantilů (P1)

Kalibrace smíšených modelů míry shody s lokálním modelem (výběr stromů podle 20% intervalů, P1)

Kalibrace smíšených modelů výběr podle kvantilů (P56)

Kalibrace smíšených modelů míry shody s lokálním modelem (výběr stromů podle 20% intervalů, P56)