Ortogonální regrese pro 3-složkové kompoziční data využitím lineárních modelů Eva Fišerová a Karel Hron Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci Robust 01
Cíle přednášky ukázat principy modelování lineárního vztahu mezi složkami kompozic ukázat základní statistické inference pro odhadnutou přímku E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 / 34
Obsah 1 Motivace Regrese mezi složkami kompozičních dat 3 Statistické inference 4 Příklad E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 3 / 34
Motivace: Analýza věkové struktury populace zemí OSN Věkové kategorie: x 1 mladší 15 let x 15 60 let x 3 starší 60 let Data ze statistického oddělení OSN obsahují populační strukturu 196 členských zemí Hrubá data zcela zavádějící, nebot jednotlivé státy mají různý počet obyvatel převedení dat na poměry - lze vidět relativní příspěvek jednotlivých věkových skupin na celkový počet obyvatel = kompoziční data E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 4 / 34
Vizualizace 3-složkových kompozičních dat: ternární diagram x 1 mladší 15 let x 15 60 let x 3 starší 60 let Konstrukce: rovnoramenný trojúhelník X 1 X X 3 x = (x 1, x, x 3 ) zobrazena ve vzdálenosti x 1 od strany protilehlé k vrcholu X 1, atd. x 3 x 1 x E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 5 / 34
Metodologie při regresní analýze složek kompozičních dat Výběrový prostor simplex S 3 3-složkové kompozice ilr transformace Euklidovský reálný prostor R regrese pro náhodné proměnné zpětná transformace Simplex E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 6 / 34
Ilr transformace: S 3 R Ternární diagram Původní 3-složkové kompozice vyjádříme v ortonormálních souřadnicích, např. x 3 z 1 = x 1 ln, 3 x x 3 z = 1 ln x x 3. x 1 x E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 7 / 34
Ilr transformace: S 3 R Původní 3-složkové kompozice vyjádříme v ortonormálních souřadnicích, např. x z 1 = 1 ln, 3 x x 3 z = 1 ln x x 3. Nyní lze provést regresi z 0.5 0.0 0.5 1.0 1.5 1.0 0.5 0.0 0.5 z 1 E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 8 / 34
Ilr transformace: S 3 R Původní 3-složkové kompozice vyjádříme v ortonormálních souřadnicích, např. x z 1 = 1 ln, 3 x x 3 z = 1 ln x x 3. Nyní lze provést regresi z 0.5 0.0 0.5 1.0 1.5 1.0 0.5 0.0 0.5 z 1 E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 9 / 34
Regresní analýza mezi ilr souřadnicemi (z 1, z ) Chyby měření v obou proměnných Nelze užít metodu nejmenších čtverců Řešení: Ortogonální regrese (metoda úplných nejmeších čtverců (TLS), kalibrační problém, modelování s chybami v proměnných) E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 10 / 34
Nejjednodušší úloha ortogonální regrese Princip: najít přímku z = β 1 + β z 1 tak, aby součet čtverců vzdáleností napozorovaných bodů od této přímky byl minimální. Matematicky: n i=1 min (z i β 1 β z 1i ) β 1,β β + 1 Ortogonální regrese: chyby měřeny kolmo k hledané přímce Metoda nejmenších čtverců: chyby měřeny rovnoběžně s osou z E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 11 / 34
Standardní řešení pro ortogonální regresi - ML Metoda maximální věrohodnosti (Kendall a Stuart, 1967) absolutní člen: β1 = z β z 1, směrnice: β = s z s z 1 + (s z s z 1 ) + 4s z 1 z s z1 z. z 1 výběrový průměr, s z 1 výběrový rozptyl, s z1 z výběrová kovariance Odhady stejné jako metodou ortogonálních nejmenších čtverců Odhad směrnice je totožný se směrem první hlavní komponenty metody PCA (Jackson a Dunlevy, 1988) E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 1 / 34
Standardní řešení pro ortogonální regresi - SVD Singulární rozklad matice (1 n, z 1, z ) Odhad X {}}{ ( 1 n, z 1, z ) = UDV }{{} T U ortonormální matice vl. vektorů T T, V ortonormální matice vl. vektorů T T, D diagonální matice singulárních hodnot - odmocněná vl. čísel matice T T. β = (X X λ 3I ) 1 X z, λ 3 je nejmenší singulární hodnota ze singulárního rozkladu matice (1 n, z 1, z ) formule je často numericky nestabilní (Markovsky a Huffel, 007) E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 13 / 34
Proložení dat přímkou pomocí lineárního modelu s podmínkami typu II Podmínky typu II (Kubáček et al., 1995) omezení na regresní parametry omezení na další neznámé parametry nelineární podmínky typu II Statistický model ( ) ( Z 1 µ = + ε, ν = β Z ν) 1 1 + β µ, var(ε) = σ I. µ...... neznámá bezchybná hodnota souřadnice z 1, ν...... neznámá bezchybná hodnota souřadnice z, β 1, β... neznámý úsek a směrnice ortogonální regresní přímky. E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 14 / 34
Odhad ortogonální regresní přímky MNČ v linearizovaném modelu nejlepší nestranný lineární odhad (BLUE) úsek β1 směrnice β střední hodnoty µ a ν varianční matice odhadů µ, ν a ( β 1, β ) kovarianční matice odhadů µ a ν kovarianční matice odhadů ( µ, ν ) a ( β 1, β ) nestranný odhad σ Všechny výsledky závisí na volbě přibližných hodnot pro linearizaci = nutno řešit iteračně E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 15 / 34
BLUE parametrů µ, ν, β 1 a β µ = Z 1 + [ ν = Z [ β (0) β (0) β (0) ] + 1 M (0) [ Z ν (0) β (0) 1 [ ] M (0) Z ν (0) β (0) + 1 ( Z 1 µ (0))], (1) ( Z 1 µ (0))], () ) ( ) ( β1 β (0) ( n, 1 µ (0) ) 1 = 1 β β (0) + [ ] µ (0) [ ] 1, µ (0) µ (0) [ 1 Z ν (0) β (0) ( Z1 µ (0))] [ ] [ µ (0) Z ν (0) β (0) ( Z1 µ (0))], (3) β (0) 1, β(0), µ(0), ν (0) přibližné hodnoty E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 16 / 34
Iterační algoritmus pro odhad ortogonální regresní přímky 1 Stanovení počátečních hodnot: parametry β (0) 1, β(0) ortogonální regresní přímky a bezchybné údaje µ (0), ν (0) tak, že ν (0) = β (0) 1 1 + β(0) µ(0). Výpočet odhadů β 1, β, µ a ν pro body (z 1k, z k ), k = 1,..., n. 3 Stanovení nových počátečních hodnot podle schématu: ν (0) = ν + ( β β (0) )( µ µ(0) ), µ (0) = µ, β (0) 1 = β 1, β (0) = β. 4 Kroky -4 opakujeme dokud posloupnost odhadů konverguje. E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 17 / 34
Iterační algoritmus pro odhad ortogonální regresní přímky 1 Stanovení počátečních hodnot: parametry β (0) 1, β(0) ortogonální regresní přímky a bezchybné údaje µ (0), ν (0) tak, že ν (0) = β (0) 1 1 + β(0) µ(0). Výpočet odhadů β 1, β, µ a ν pro body (z 1k, z k ), k = 1,..., n. 3 Stanovení nových počátečních hodnot podle schématu: ν (0) = ν + ( β β (0) )( µ µ(0) ), µ (0) = µ, β (0) 1 = β 1, β (0) = β. 4 Kroky -4 opakujeme dokud posloupnost odhadů konverguje. E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 17 / 34
Iterační algoritmus pro odhad ortogonální regresní přímky 1 Stanovení počátečních hodnot: parametry β (0) 1, β(0) ortogonální regresní přímky a bezchybné údaje µ (0), ν (0) tak, že ν (0) = β (0) 1 1 + β(0) µ(0). Výpočet odhadů β 1, β, µ a ν pro body (z 1k, z k ), k = 1,..., n. 3 Stanovení nových počátečních hodnot podle schématu: ν (0) = ν + ( β β (0) )( µ µ(0) ), µ (0) = µ, β (0) 1 = β 1, β (0) = β. 4 Kroky -4 opakujeme dokud posloupnost odhadů konverguje. E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 17 / 34
Iterační algoritmus pro odhad ortogonální regresní přímky 1 Stanovení počátečních hodnot: parametry β (0) 1, β(0) ortogonální regresní přímky a bezchybné údaje µ (0), ν (0) tak, že ν (0) = β (0) 1 1 + β(0) µ(0). Výpočet odhadů β 1, β, µ a ν pro body (z 1k, z k ), k = 1,..., n. 3 Stanovení nových počátečních hodnot podle schématu: ν (0) = ν + ( β β (0) )( µ µ(0) ), µ (0) = µ, β (0) 1 = β 1, β (0) = β. 4 Kroky -4 opakujeme dokud posloupnost odhadů konverguje. E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 17 / 34
Vlastnosti iteračního algoritmu konverguje velmi rychle po několika málo iteracích Jestliže iterační algoritmus konverguje, konverguje k maximálně věrohodným odhadů ortogonální regresní přímky (Donevska et. al, 011) Iterační procedura zaručuje, že výsledné odhady splňují podmínku ν = β 1 1 + β µ Numericky nestabilní, jestliže přímka má tendenci být kolmá k ose z 1 rotace proměnných (z 1, z ) E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 18 / 34
Statistické inference pro ortogonální regresní přímku Předpoklad: normální rozdělení (Z 1, Z ) N n [ (µ, ν ), σ I ] ekvivalentní s požadavkem, aby 3-složková kompozice měla normální nebo lognormální rozdělení na simplexu (Aitchison a Shen, 1980; Mateu-Figueras a Pawlowsky-Glahn, 008). E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 19 / 34
Statistické inference pro ortogonální regresní přímku Obvykle prováděny pro směrnici přímky pro velké výběry nalezeny intervaly spolehlivosti a testová statistika - založeny na ML (Kendall a Stuart, 1967) intervaly spolehlivosti při velkých i malých výběrech - založeny na PCA (Jolicoeur, 1968) testová statistika při velkém výběru - založena na PCA (Jackson and Dunlevy, 1988) E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 0 / 34
Statistické inference užitím lineárního modelu Lze provést libovolné standardní inference pro regresní přímku intervaly spolehlivosti pro úsek a směrnici testování hypotéz o úseku a směrnici pás spolehlivosti pro ortogonální regresní přímku elipsy spolehlivosti pro bezchybné hodnoty Odhad ortogonální regresní přímky Elipsy spolehlivosti pro bezchybné hodnoty Pás spolehlivosti pro přímku transformace podle rotace (z 1, z ) jednoznačná zpětná transformace na simplex E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 1 / 34
Analýza věkové struktury populace zemí OSN Složky kompozic x1 mladší 15 let x 15 60 let x3 starší 60 let x 3 x 1 x E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 / 34
Analýza věkové struktury populace zemí OSN Složky kompozic x1 mladší 15 let x 15 60 let x3 starší 60 let x 3 Ilr transformace do ortonormálních souřadnic z 1 = 3 ln x 1 x x 3, z = 1 ln x x 3. x 1 x E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 3 / 34
Analýza věkové struktury populace zemí OSN Složky kompozic x1 mladší 15 let x 15 60 let x3 starší 60 let Ilr transformace do ortonormálních souřadnic x z 1 = 1 ln, 3 x x 3 z = 1 ln x x 3. z 0.5 0.0 0.5 1.0 1.5 1.0 0.5 0.0 0.5 z 1 E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 4 / 34
Analýza věkové struktury populace zemí OSN Složky kompozic x1 mladší 15 let x 15 60 let x3 starší 60 let Ilr transformace do ortonormálních souřadnic x z 1 = 1 ln, 3 x x 3 z = 1 ln x x 3. Ortogonální regresní přímka z = 0.773 + 0.94z 1 z 0.5 0.0 0.5 1.0 1.5 1.0 0.5 0.0 0.5 z 1 E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 5 / 34
Kompoziční regresní přímka x 3 x 1 x E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 6 / 34
Složky kompoziční regresní přímky y 1 mladiství y střední generace y 3 senioři Očekávané podíly věkových skupin při přechodu od států s převažující mladistvou populací k zemím s převažujícími seniory E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 7 / 34
Odhad ortogonální regresní přímky: iterační algoritmus Kritérium konvergence: β i β i 1 E < 10 9 13 iterací Odhad regresní přímky: z = 0.773 + 0.94z 1 Směrodatné odchylky odhadů: 0.014, 0.07 Testy významnosti regresních parametrů: p-value<< 0.0001 Shapiro-Wilkův test normality: p-value=0.845 E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 8 / 34
95% pásy spolehlivosti pro ortogonální regresní přímku každý bod samostatně z 0.5 0.0 0.5 1.0 1.5 1.0 0.5 0.0 0.5 z 1 E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 9 / 34
95% pásy spolehlivosti pro ortogonální regresní přímku každý bod samostatně sdružený pás spolehlivosti Pásy spolehlivosti velmi úzké a skoro splývají = Vysoká přesnost určení ortogonální regresní přímky. z 0.5 0.0 0.5 1.0 1.5 1.0 0.5 0.0 0.5 z 1 E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 30 / 34
95% pásy spolehlivosti pro kompoziční regresní přímku x 3 x 1 x E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 31 / 34
Srovnání různých přístupů k ortogonální regresi 95% interval spolehlivosti pro směrnici přímky Metoda Interval spolehlivosti Délka intervalu Linearní model (0.8695, 0.9774) 0.1079 Ortogonální regrese (ML) (0.8703, 0.9797) 0.1094 Ortogonální regrese (PCA) (0.8698, 0.980) 0.1105 Intervaly skoro splývají - velký výběr (196 pozorování) E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 3 / 34
Závěr Ortogonální regrese je vhodná technika pro analýzu vztahu mezi složkami kompozičních dat postup: ilr transformace + ortogonální regrese Modelovat ve smyslu ortogonální regrese lze i využitím teorie lineárních modelů. E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 33 / 34
Základní literatura Fišerová, E., Hron, K. (010) Total least squares solution for compositional data using linear models. Journal of Applied Statistics, 37:7 1137 115. Fišerová, E., Hron, K. (01) Statistical inference in orthogonal regression for three-part compositional data using linear models using a linear model with type-ii constraints. Communications in Statistics - Theory and Methods. 41 (13-14), 367-385. Kendall, M.G., Stuart, A. (1967) The advanced theory of statistics, vol. Charles Griffin, London. Kubáček, L., Kubáčková, L., Volaufová, J. (1995) Statistical models with linear structures. Veda, Bratislava. Jolicoeur, P. (1968) Interval estimation of the slope of the major axis of a bivariate normal distribution in the case of a small sample. Biometrics, 4, 679 68. Jackson, J.D. and Dunlevy, J.A. (1988) Orthogonal least squares and the interchangeability of alternative proxy variables in the social sciences. Journal of the Royal Statistical Society. Series D 37, No. 1, 7 14. E. Fišerová a K. Hron (UP Olomouc) OR pro 3-složkové kompoziční data Robust 01 34 / 34