Smíšené regresní modely a možnosti jejich využití Karel Drápela
Regresní modely Základní úloha regresní analýzy nalezení vhodného modelu studované závislosti vyjádření reálného tvaru závislosti minimalizace nevysvětlené variability Využití regresní analýzy model vztahu mezi vysvětlující a vysvětlovanou proměnnou predikce hodnot pro určité období do budoucna, Vybrané podmínky MNČ data jsou nezávislá, pro každou hodnotu x je variabilita y stejná (homoskedasticita)
Strukturace dat Hlavní příčiny strukturace dat časové hledisko (opakovaná měření) prostorová agregace (shluky) hierarchická struktura dat Hlavní problémy data nejsou vzájemně nezávislá data vykazují korelační strukturu (data uvnitř skupin jsou si navzájem podobnější než data mezi skupinami ) výsledkem použití klasické MNČ je nadhodnocení nevysvětlené variability
Příklad strukturovaných dat
Globální model
Globální model y = 0 + 1 x
Lokální modely i =1 y = 01 + 11 x i =2 y = 02 + 12 x
Lokální vs. globální model
Lokální vs. globální model i =1 y = 01 + 11 x y = 0 + 1 x i =2 y = 02 + 12 x
Nevýhody lokálního a globálního modelu Globální model ignoruje strukturu dat a všechna data považuje za vzájemně nezávislá pracuje se všemi daty najednou vysoká variabilita a široké odhady parametrů Lokální modely parametry modelu platí jen pro určitou skupinu obtížná možnost zobecnění v případě velkého počtu skupin nutnost počítat velké množství modelů s mnoha parametry
Model se smíšenými parametry nazývá se také víceúrovňový nebo hierarchický (mixed model, multilevel model, hierarchical model) smíšený model parametry modelu jsou dvojího druhu pevné (fixed) a náhodné (random) pevné parametry jsou společné všem skupinám, náhodné vyjadřují odchylky jednotlivých skupin od pevných ( globálních ) parametrů je to kompromis mezi globálním a lokálním modelem každá skupina může mít vlastní model, ale tyto modely jsou určitým způsobem svázány s globálním modelem, takže jejich parametry nemohou nabývat zcela libovolných hodnot jako u lokálních modelů
Základní struktura smíšeného modelu model se rozdělí na tolik úrovní, s kolika stupni strukturace dat uvažujeme základní model má 2 úrovně např. strom - plocha, jedinec druh, apod. i počet skupin (úroveň2) i = 1,2,, m k počet jedinců v rámci skupiny (úroveň 1) k = 1,2,., n i y ik měřená hodnota na k-tém jedinci v rámci i-té skupiny i=1 i=2
Základní struktura smíšeného modelu Model úrovně 1 y ik = β 0i + β 1i x ik + ik ik N(0, 2 ) y = β 01 + β 11 x y = β 02 + β 12 x Model úrovně 1 popisuje vztah mezi y a x v rámci skupin Model úrovně 2 β 0i = + β 0 + u 0i β 1i = + β 1 + u 1i 2 u 0i 0 τ0 τ01 N, 2 u 1i 0 τ01 τ1 Model úrovně 2 uvolňuje parametry 0i a 1i. Náhodné parametry u 0i a u 1i představují odchylku parametrů 0i a 1i od globálních parametrů 0 a 1. Tato odchylka ovšem nemůže být libovolná, ale je dána rozdělením náhodných parametrů
Základní struktura smíšeného modelu Vytvoření smíšeného modelu y = (β 0 + u 0i )+(β 1 + u 1i ) x abs.člen směrnice y = (β 0 + u 01 )+(β 1 + u 11 ) x y = β 0 + β 1 x Pevné parametry: β 0, β 1, 2, 02, 12, 01 Náhodné parametry: ik, u 0i, u 1i y = β 0 + β 1 x ik + u 0i + u 1i x ik + ik y = (β 0 + u 02 )+(β 1 + u 12 ) x část modelu s pevnými parametry část modelu s náhodnými parametry
Srovnání lokálních a smíšených modelů Lokální model parametry modelu jsou interpretovány jako pevné nejvhodnější pokud srovnání modelů jednotlivých skupin je cílem výzkumu vhodný pokud proměnná definující strukturu dat je zároveň hlavním zkoumaným prediktorem vhodný pro velmi malý počet skupin vyžaduje výpočet velkého množství parametrů (zvláště v případě modelů počítaných pro mnoho skupin) v případě výpočtu velkého počtu parametrů existuje tendence ke zvyšování variability odhadů parametrů Smíšený model parametry modelu jsou interpretovány buď jako pevné nebo jako náhodné nejvhodnější, pokud cílem výzkumu není model pro určitou skupinu, ale charakteristika rozdělení parametrů modelu vhodný pokud proměnná definující strukturu dat je především třídící proměnnou vhodný pro vysoký počet skupin počet počítaných parametrů nezávisí na počtu skupin v případě velmi malého počtu skupin mohou nastat problémy s odhadem parametrů rozdělení náhodných faktorů
Tvorba smíšeného modelu Je nutné vytvořit 4 základní stupně modelů a testovat jejich přínos : Název Model Význam globální model model průměru model s náhodným abs. členem model s náhodným abs. i regresním členem y ik = β 0 + β 1 x ik + ik základní model, který ignoruje případnou strukturu v datech, nutný pro testování přínosu smíšeného modelu L1: y ik = β 0i + ik model bez prediktoru, potřebný pro odhad 2 a L2: β 0i = β 0 + u 0i 2 ( ik N(0, 2 ); u 0i N(0, 2 )) 1. srovnáním s globálním modelem se testuje L1: y ik = β 0i +β 1 x ik + ik významnost struktury v datech L2: β 0i = β 0 + u 0i 2. srovnáním s modelem průměru se testuje význam prediktoru 1. úrovně L1: y ik = β 0i +β 1 x ik + ik L2: β 0i = β 0 + u 0i β 1i = β 1 + u 1i základní model pro testování významu prediktorů 2. úrovně (proměnné společné pro všechny jedince 1. úrovně)
Tvorba smíšeného modelu V dalším kroku se přidávají prediktory 2. úrovně ( proměnné, které jsou měřeny na úrovni skupin a jsou pro všechny jedince 1. úrovně stejné, např. věk v rámci zkusné plochy stejnověkého porostu). Prediktory 2. úrovně jsou používány k odhadu parametrů na úrovni skupin. Prediktory 2. úrovně mohou být doplněny do modelu jak pro abs. člen, tak pro směrnici, tak pro oba členy modelu.
Kalibrace smíšených modelů Kalibrovaná predikce (parametrizace) pokud je vytvořen smíšený model s potřebnými prediktory na všech úrovních modelu, je možná kalibrovaná parametrizace modelu pro nová měření na základě velmi málo měřených hodnot vysvětlované proměnné používá se metoda BLUP (best linear unbiased predictor) pokud hodnoty vysvětlované proměnné nejsou měřeny, model se chová jako model s pevnými efekty (využívá pouze pevných hodnot parametrů použitých prediktorů)
Výšková funkce
Kalibrace smíšených modelů
Kalibrace smíšených modelů - náhodný výběr stromů (P1)
Kalibrace smíšených modelů míry shody s lokálním modelem (náhodný výběr stromů, P1)
Kalibrace smíšených modelů - náhodný výběr stromů (P56)
Kalibrace smíšených modelů míry shody s lokálním modelem (náhodný výběr stromů, P56)
Kalibrace smíšených modelů výběr podle kvantilů (P1)
Kalibrace smíšených modelů míry shody s lokálním modelem (výběr stromů podle 20% intervalů, P1)
Kalibrace smíšených modelů výběr podle kvantilů (P56)
Kalibrace smíšených modelů míry shody s lokálním modelem (výběr stromů podle 20% intervalů, P56)