LINEÁRNÍ MODELY. Zdeňka Veselá

Podobné dokumenty
Předpověď plemenné hodnoty Něco málo z praxe. Zdeňka Veselá

BLUP. Zdeňka Veselá

AVDAT Klasický lineární model, metoda nejmenších

Popis modelu pro odhady PH mléčné užitkovosti

Zdeňka Veselá Tel.: Výzkumný ústav živočišné výroby, v.v.i.

Testování hypotéz o parametrech regresního modelu

Popis modelu pro odhady PH mléčné užitkovosti

AVDAT Geometrie metody nejmenších čtverců

Testování hypotéz o parametrech regresního modelu

Bodové a intervalové odhady parametrů v regresním modelu

Statistická analýza jednorozměrných dat

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Odhady Parametrů Lineární Regrese

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Hodnocení plemenných + chovných + užitkových prasat

Statistická analýza jednorozměrných dat

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Hodnocení plemenných + chovných + užitkových prasat

Katedra speciální zootechniky, FAPPZ ČZU Praha

PRAVDĚPODOBNOST A STATISTIKA

Klasická a robustní ortogonální regrese mezi složkami kompozice

5EN306 Aplikované kvantitativní metody I

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Základní principy šlechtění a hodnocení skotu v ČR

7. Analýza rozptylu.

AVDAT Mnohorozměrné metody, metody klasifikace

Jednofaktorová analýza rozptylu

8 Odhad plemenné hodnoty (OPH)

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní analýza 1. Regresní analýza

Odhad plemenné hodnoty

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Úvodem Dříve les než stromy 3 Operace s maticemi

Odhad parametrů N(µ, σ 2 )

PRAVDĚPODOBNOST A STATISTIKA

Základy genetiky populací

Přednáška IX. Analýza rozptylu (ANOVA)

4EK211 Základy ekonometrie

4. Aplikace matematiky v ekonomii

Statistická analýza dat

Jednofaktorová analýza rozptylu

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

Value at Risk. Karolína Maňáková

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

STATISTICKÉ ODHADY Odhady populačních charakteristik

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Regresní a korelační analýza

odpovídá jedna a jen jedna hodnota jiných

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

MATEMATICKÁ STATISTIKA - XP01MST

Základní statistické metody v rizikovém inženýrství

AVDAT Náhodný vektor, mnohorozměrné rozdělení

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Základy navrhování průmyslových experimentů DOE

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

4EK211 Základy ekonometrie

Tomáš Karel LS 2012/2013

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Zdeňka Veselá Tel.: Výzkumný ústav živočišné výroby, v.v.i.

Téma 22. Ondřej Nývlt

dat Robust ledna 2018

Fakulta stavební GEOSTATISTIKA. Martin Dzurov, Kristýna Kitzbergerová, Lucie Šindelářová

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Selekce. Zdeňka Veselá

6. Lineární regresní modely

Design Experimentu a Statistika - AGA46E

Proč nový systém odhadu plemenných hodnot?

Lineární a logistická regrese

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

1. Přednáška. Ing. Miroslav Šulai, MBA

Vícerozměrné regulační diagramy. Josef Křepela, Jiří Michálek OSSM

Regresní a korelační analýza

Optimalizace provozních podmínek. Eva Jarošová

VÝZKUMNÝ ÚSTAV ŽIVOČIŠNÉ VÝROBY,

Experiment s dlouhodobou selekcí krav na ukazatele produkce a zdravotního stavu v Norsku Ing. Pavel Bucek, Českomoravská společnost chovatelů, a.s.

Inovace bakalářského studijního oboru Aplikovaná chemie

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Aplikovaná numerická matematika

Teorie náhodných matic aneb tak trochu jiná statistika

Bodové a intervalové odhady parametrů v regresním modelu

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

4EK211 Základy ekonometrie

Design of experiment Návrh experimentu

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Regresní analýza. Eva Jarošová

Normální (Gaussovo) rozdělení

6. Lineární regresní modely

Tomáš Karel LS 2012/2013

Transkript:

LINEÁRNÍ MODELY Zdeňka Veselá vesela.zdenka@vuzv.cz

Genetika kvantitativních vlastností Jednotlivé geny nejsou zjistitelné ani měřitelné Efekty většího počtu genů poskytují variabilitu, kterou lze většinou definovat normálním rozdělením. Základem kvantitativní genetiky je mendelistická teorie dědičnosti, ale vlastní analýzy jsou založené na statistických metodách.

Analýza variance Základní princip Fisher (1918) Členění variance (proměnlivosti) na její komponenty Tři hlavní funkce: Odhad fixních efektů Předpověď náhodných efektů Kvantitativní genetika Testování hypotéz o příčinách variance Analýza experimentů

Analýza variance Různé metody podle struktury dat V genetice kvantitativních vlastností hospodářských zvířat pracujeme s nevybalancovanou strukturou dat Matematicky složité Vyžaduje řešení velkého počtu rovnic (statisíců i milionů), které mohou být přehledným způsobem znázorněny maticovým zápisem Metoda nejmenších čtverců Další metody: metoda maximální věrohodnosti (ML), Bayesovská analýza (Gibbsův výběr)

Lineární modely Modely využívané v kvantitativně genetických analýzách jsou ve většině případů lineární. y ij = µ + t i + e ij

Lineární modely Modely využívané v kvantitativně genetických analýzách jsou ve většině případů lineární. y ij = µ + t i + e ij Pozorovaná proměnná j-tého jedince v i-tém stádě

Lineární modely Modely využívané v kvantitativně genetických analýzách jsou ve většině případů lineární. y ij = µ + t i + e ij Průměr populace

Lineární modely Modely využívané v kvantitativně genetických analýzách jsou ve většině případů lineární. y ij = µ + t i + e ij Fixní efekt např. úroveň stáda

Lineární modely Modely využívané v kvantitativně genetických analýzách jsou ve většině případů lineární. y ij = µ + t i + e ij Náhodná reziduální chyba specifická pro i-té stádo a j-tého jedince

Lineární modely Regresní modely Modely s fixními efekty Modely s náhodnými efekty Modely se smíšenými efekty Nejčastější případ při předpovědi PH Zahrnují jak pevné, tak náhodné efekty

Maticový zápis lineárního modelu Model s fixními efekty y ijk = µ + a i + b j + e ijk skalární zápis y = Xb + e maticový zápis

Maticový zápis lineárního modelu Model s fixními efekty y ijk = µ + a i + b j + e ijk skalární zápis y = Xb + e maticový zápis y - Vektor pozorovaných hodnot (vektor dat)

Maticový zápis lineárního modelu Model s fixními efekty y ijk = µ + a i + b j + e ijk skalární zápis y = Xb + e maticový zápis X incidenční (strukturní, designová) matice

Maticový zápis lineárního modelu Model s fixními efekty y ijk = µ + a i + b j + e ijk skalární zápis y = Xb + e maticový zápis b vektor odhadovaných parametrů

Maticový zápis lineárního modelu Model s fixními efekty y ijk = µ + a i + b j + e ijk skalární zápis y = Xb + e maticový zápis e vektor náhodných reziduálních chyb normální rozdělení s průměrem 0 a variancí σ 2 e tj. e ~ N(0,I σ 2 e)

Příklad vybalancovaná struktura dat Máme 18 dojnic, u kterých analyzujeme roční produkci mléčných bílkovin. Dojnice do experimentu vybíráme tak, abychom měli vybalancovanou strukturu dat. Sledujeme 2 efekty: Období otelení (zimní a 1 / letní a 2 ) Věk při prvním otelení (20 27 měsíců b 1, 28 34 měsíců b 2, nad 35 měsíců b 3 )

Příklad vybalancovaná struktura dat Věk při prvním otelení (měsíce) 20-27 28-34 Nad 35 Průměry b 1 b 2 b 3 144 143 145 Období otelení Letní a 1 Zimní a 2 Průměry 160 136 151 150 135 148 115 109 103 126 163 145 105 118 148

Příklad vybalancovaná struktura dat Věk při prvním otelení (měsíce) 20-27 28-34 Nad 35 Věk b 1 B 2 b 3 144 143 145 Období otelení Období Letní a 1 Zimní a 2 160 136 151 150 135 148 115 109 103 126 163 145 105 118 148

Příklad vybalancovaná struktura dat Věk při prvním otelení (měsíce) 20-27 28-34 Nad 35 Věk b 1 B 2 b 3 144 143 145 Období otelení Období Letní a 1 Zimní a 2 160 136 151 150 135 148 115 109 103 126 163 145 105 118 148

Příklad nevybalancovaná struktura dat Věk při prvním otelení (měsíce) 20-27 28-34 Nad 35 b 1 b 2 b 3 144 152 148 Období otelení Letní a 1 Zimní a 2 152 105 108 158 118

Příklad nevybalancovaná struktura dat Běžná situace při populačně genetických analýzách a předpovědích plemenné hodnoty Vybalancovaný případ je speciálním případem nevybalancovaného, nikoliv naopak. Metodiku pro hodnocení vybalancovaných dat nelze použít na data nevybalancovaná.

Příklad nevybalancovaná struktura dat y ijk = µ + a i + b j + e ijk skalární zápis y = Xb + e maticový zápis Věk při prvním otelení (měsíce) 20-27 28-34 Nad 35 y = Xb + e b 1 b 2 b 3 144 152 148 Období otelení Letní a 1 Zimní a 2 152 105 108 158 y = X b + e 118

Příklad nevybalancovaná struktura dat y ijk = µ + a i + b j + e ijk skalární zápis y = Xb + e maticový zápis Věk při prvním otelení (měsíce) 20-27 28-34 Nad 35 y = Xb + e b 1 b 2 b 3 144 152 148 Období otelení Letní a 1 Zimní a 2 152 105 108 158 y = X b + e 118 y vektor pozorovaných hodnot (dat)

Příklad nevybalancovaná struktura dat y ijk = µ + a i + b j + e ijk skalární zápis y = Xb + e maticový zápis Věk při prvním otelení (měsíce) 20-27 28-34 Nad 35 y = Xb + e b 1 b 2 b 3 144 152 148 Období otelení Letní a 1 Zimní a 2 152 105 108 158 y = X b + e 118 X - incidenční (strukturní, designová) matice Uvádí, které fixní efekty jsou obsaženy v hodnotě y.

Příklad nevybalancovaná struktura dat y ijk = µ + a i + b j + e ijk skalární zápis y = Xb + e maticový zápis Věk při prvním otelení (měsíce) 20-27 28-34 Nad 35 y = Xb + e b 1 b 2 b 3 144 152 148 Období otelení Letní a 1 Zimní a 2 152 105 108 158 y = X b + e 118 b vektor odhadovaných parametrů

Příklad nevybalancovaná struktura dat y ijk = µ + a i + b j + e ijk skalární zápis y = Xb + e maticový zápis Věk při prvním otelení (měsíce) 20-27 28-34 Nad 35 y = Xb + e b 1 b 2 b 3 144 152 148 Období otelení Letní a 1 Zimní a 2 152 105 108 158 y = X b + e 118 e vektor náhodných reziduálních efektů

Příklad nevybalancovaná struktura dat Důležité je definovat a vytvořit designovou matici X V praxi při velkém počtu pozorování může nabývat obřích rozměrů Pro úplné definování modelu je třeba zahrnou náhodné efekty pomocí rozptylové (variančně-kovarianční) matice

Příklad nevybalancovaná struktura dat Rozptylová variančně-kovarianční matice pro náhodný efekt e ijk Víme, že σ e 2 = 30 Předpokládáme, že kovariance mezi reziduálními efekty je 0 Rozptylová matice je vždy symetrická. Symbolem V označujeme obecně variančně kovarianční matici Pozorování y neobsahuje kromě e žádné jiné náhodné efekty

Metoda nejmenších čtverců Odhad efektů b Součet čtverců odchylek pozorování od odhadnutých středních hodnot podskupin buněk (Xb) je minimální Tj., že (y XB)`(y XB) odpovídá minimu Odhady získané metodou nejmenších čtverců jsou nelepší lineární nevychýlené odhady (BLUE Best Linear Unbiased Estimation)

Metoda nejmenších čtverců X`V -1 Xb = X`V -1 y Zobecněné nejmenší čtverce GLS Generalized least squares V rozptylová matice V našem případě V = I σ 2, tj. matice neobsahuje žádné mimodiagonální prvky, dochází ke zjednodušení rovnice: X`Xb = X`y BLUE Best Linear Unbiased Estimation OLS Ordinary least square

Zobecněné nejmenší čtverce Otec Otec 1 Otec 2 Otec3 Místo pevného efektu věk při otelení analyzujeme náhodný efekt otce β 1 β 2 β 3 144 152 148 Získáváme model se smíšenými efekty Období otelení Letní a 1 Zimní a 2 152 105 108 158 y ijk = µ + a i + β j + e ijk 118 Na rozdíl od fixních efektů, u náhodných víme, že pocházejí z náhodného rozdělení s nulovým průměrem a známou variancí σ β 2

Zobecněné nejmenší čtverce y ijk = µ + a i + β j + e ijk skalární zápis y = Xb + Za + e maticový zápis Otec Otec 1 Otec 2 Otec 3 β 1 β 2 β 3 144 152 148 Období otelení Letní a 1 Zimní a 2 152 105 108 158 y = X Z a + e 118

Příště: BLUP