Alternativní přístup k analýze vícefaktorových dat

Podobné dokumenty
Robust 2014, ledna 2014, Jetřichovice

Aplikace T -prostorů při modelování kompozičních časových řad

kompoziční data s aplikací v metabolomice

Předzpracování kompozičních dat

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Statistick anal 0 5za kompozi 0 0n ͺch tabulek

Klasická a robustní ortogonální regrese mezi složkami kompozice

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Imputace nulovy ch hodnot v metabolomice

Úvod do lineární algebry

Lineární algebra : Skalární součin a ortogonalita

1 Projekce a projektory

Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika)

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

KMA/GPM Barycentrické souřadnice a

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Lineární algebra - I. část (vektory, matice a jejich využití)

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

ALGEBRA. Téma 5: Vektorové prostory

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Základní pojmy teorie množin Vektorové prostory

Základy navrhování průmyslových experimentů DOE

Matice. Předpokládejme, že A = (a ij ) je matice typu m n: diagonálou jsou rovny nule.

0.1 Úvod do lineární algebry

Základy matematiky pro FEK

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Rovnovážné modely v teorii portfolia

Dá se ukázat, že vzdálenost dvou bodů má tyto vlastnosti: 2.2 Vektor, souřadnice vektoru a algebraické operace s vektory

Lineární algebra : Skalární součin a ortogonalita

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

0.1 Úvod do lineární algebry

Úvod do kvantového počítání

Matematika I 12a Euklidovská geometrie

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

Simulace (nejen) fyzikálních jevů na počítači

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

DEFINICE Z LINEÁRNÍ ALGEBRY

6. Vektorový počet Studijní text. 6. Vektorový počet

MENDELOVA UNIVERZITA V BRNĚ LDF MT MATEMATIKA VEKTORY, MATICE

1 Determinanty a inverzní matice

Kapitola 11: Vektory a matice:

MENDELOVA UNIVERZITA V BRNĚ LDF MT MATEMATIKA VEKTORY, MATICE

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s


A0B01LAA Lineární algebra a aplikace (příklady na cvičení- řešení)

Skalární součin dovoluje zavedení metriky v afinním bodovém prostoru, tj. umožňuje nám určovat vzdálenosti, odchylky, obsahy a objemy.

Operace s maticemi

a + b + c = 2 b + c = 1 a b = a 1 2a 1 + a a 3 + a 5 + 2a 2 + a 2 + a

Lineární a logistická regrese

Teorie. Hinty. kunck6am

6. ANALYTICKÁ GEOMETRIE

2 Hlavní charakteristiky v analýze přežití

VEKTORY. Obrázek 1: Jediný vektor. Souřadnice vektoru jsou jeho průměty do souřadných os x a y u dvojrozměrného vektoru, AB = B A

6 Skalární součin. u v = (u 1 v 1 ) 2 +(u 2 v 2 ) 2 +(u 3 v 3 ) 2

IB112 Základy matematiky

Matematická analýza ve Vesmíru. Jiří Bouchala

7 Regresní modely v analýze přežití

Fisherův exaktní test

Teorie. Hinty. kunck6am

Algoritmus pro hledání vlastních čísel kvaternionových matic

Symetrické a kvadratické formy

CVIČNÝ TEST 37. OBSAH I. Cvičný test 2. Mgr. Tomáš Kotler. II. Autorské řešení 5 III. Klíč 13 IV. Záznamový list 15

9 Kolmost vektorových podprostorů

Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.

Základy matematiky pro FEK

α 1 α 2 + α 3 = 0 2α 1 + α 2 + α 3 = 0

19 Eukleidovský bodový prostor

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

Korelační analýza pro kompoziční data

1 Připomenutí vybraných pojmů

Kapitola 11: Vektory a matice 1/19

8. Základy lomové mechaniky. Únava a lomová mechanika Pavel Hutař, Luboš Náhlík

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

Vektorový prostor. Př.1. R 2 ; R 3 ; R n Dvě operace v R n : u + v = (u 1 + v 1,...u n + v n ), V (E 3 )...množina vektorů v E 3,

Kapitola 12: Soustavy diferenciálních rovnic 1. řádu

6.1 Vektorový prostor

Definice 28 (Ortogonální doplněk vektorového podprostoru). V k V n ; V k V. (Pech:AGLÚ/str D.5.1)

ODHADY NÁVRATOVÝCH HODNOT

Transformace souřadnic

(Cramerovo pravidlo, determinanty, inverzní matice)

0.1 Funkce a její vlastnosti

Matematika (KMI/PMATE)

Formální konceptuální analýza

( ) ( ) Nezávislé jevy I. Předpoklady: 9204

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Bakalářská matematika I

8 Coxův model proporcionálních rizik I

Matematika vzorce. Ing. Petr Šídlo. verze

Interpolace, ortogonální polynomy, Gaussova kvadratura

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

MODELU A KOMPOZIČNÍHO MODELU PŘI ANALÝZE DAT

11 Vzdálenost podprostorů

Matematická analýza pro informatiky I.

Odpřednesenou látku naleznete v kapitole 3.3 skript Diskrétní matematika.

METODA ROZHOVORU V RÁMCI DOPRAVNĚPSYCHOLOGICKÉHO VYŠETŘENÍ. Bc. Kateřina Böhmová

Soustavy lineárních rovnic

5. cvičení z Matematiky 2

Transkript:

Alternativní přístup k analýze vícefaktorových dat Kamila Fačevicová 1, Peter Filzmoser 2, Karel Hron 1 1 Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta Univerzity Palackého v Olomouci, 2 Institute of Statistics and Mathematical Methods in Economics, Vienna University of Technology kamila.facevicova@gmail.com

Motivace Vektorová kompoziční data Kompoziční krychle

Motivace Struktura zaměstnanosti ve 42 zemích v roce 2015. Např. pro Českou republiku (v tis.): x = Žena Muž ( FT PT FT PT FT PT 104.756 17.128 1618.415 90.505 317.031 56.355 169.851 11.165 2127.849 22.759 467.212 38.208 15 24 25 54 55+ ) Zdroj: http://stats.oecd.org

Struktura zaměstnanosti v ČR Věková struktura zaměstnanců v České republice v roce 2015: 15-24 25-54 55+ x věk = (0.09, 0.62, 0.29) vektorová kompoziční data

Vektorová kompoziční data Kompoziční data, standardně definovaná jako D-složkový vektor kladných hodnot x = (x 1,..., x D ), se vyznačují vlastností, že veškerá relevantní informace je obsažena v poměrech mezi složkami: (5, 10) (100, 105). Výběrovým prostorem je D-rozměrný simplex namísto celého R D : S D = {(x 1,..., x D ) R D, x i > 0, i, D x i = κ}. Data se řídí Aitchisonovou geometríı namísto Euclidovské: i=1 x y = C(x 1 y 1,..., x D y D ) a α x = C(x α 1,..., x α D ), x, y A = 1 D i<j ln x i x j ln y i y j.

Vektorová kompoziční data Vzhledem k relativní povaze dat není vhodné použití standardních metod. Data nejprve vyjádříme v reálných souřadnicích a následně je analyzujeme pomocí standardních (klasických/robustních) analytických metod.

Vektorová kompoziční data Vzhledem k relativní povaze dat není vhodné použití standardních metod. Data nejprve vyjádříme v reálných souřadnicích a následně je analyzujeme pomocí standardních (klasických/robustních) analytických metod. Isometrické log-ratio (ilr) souřadnice ilr(x) = ( x, e 1 A,..., x, e D 1 A ) představují isometrický isomorfismus mezi S D a R D ilr(x y) = ilr(x) + ilr(x), ilr(α x) = α ilr(x), neexistuje žádná standardní báze. x, y A = ilr(x), ilr(x),

Vektorová kompoziční data Pomocí postupného binárního dělení získáme systém D 1 log-kontrastů ξ i = (ξ i1,..., ξ id ) s prvky ξ i+ = 1 u uv u + v, ortonormálních vektorů ξ i = 1 v uv u + v a ξ i0 = 0, a ilr souřadnic - bilancí D z i = ξ ij ln x j = j=1 e i = exp(ξ i ) uv u + v ln (x j 1 x j2 x ju ) 1/u (x k1 x k2 x kv ) 1/v. i x 1 x 2 x 3 u v 1 + - - 1 2 2 + - 1 1 ξ 1 = ξ 2 = ( ) 2 3, 1 23, 2 1 23 2 ( ) 0, 12, 12 z 1 = z 2 = 23 x ln 1 x2 x 3 12 ln x 2 x3

Struktura zaměstnanosti Věková struktura zaměstnanců v České republice v roce 2015: 15-24 25-54 55+ x věk = (0.09, 0.62, 0.29) i 15-24 25-54 55+ u v 1 + - - 1 2 2 + - 1 1 z věk 1 = z věk 2 = 2 ( ) 3 ln x1 x2 x 3 = 1.25 ( 1.53) ( ) 1 2 ln x2 x 3 = 0.55 (0.78)

Struktura zaměstnanosti Věková struktura zaměstnanců v České republice v roce 2015, podle jejich pohlaví a věku: x = Žena Muž ( 15 24 25 54 55+ ) 0.04 0.40 0.14 0.05 0.23 0.14 kompoziční tabulky

Struktura zaměstnanosti Věková struktura zaměstnanců v České republice v roce 2015, podle jejich pohlaví, věku a typu prac. poměru: x = Žena Muž ( FT PT FT PT FT PT 0.021 0.003 0.321 0.018 0.063 0.011 0.034 0.002 0.422 0.005 0.093 0.008 15 24 25 54 55+ ) kompoziční krychle

Kompoziční krychle Kompoziční krychle x 111 x 1J1 x 11K x 1JK x =.......... x I 11 x IJ1 x I 1K x IJK, kde x ijk > 0, i, j, k, představuje třífaktorové zobecnění I J K-složkových kompozičních dat, Výběrovým prostorem je I J K-složkový simplex I S IJK = x = (x,j,k 111,..., x IJK ) x ijk > 0, i, j, k; x ijk = κ. i,j,k=1 Základní operace Aitchisonovy geometrie je potřeba modifikovat x y = (x ijk y ijk ) I,J,K i,j,k=1 a α x = (x α ijk) I,J,K i,j,k=1,

Souřadnicová reprezentace CoDa krychĺı Souřadnicový systém navržený pro vektorová kompoziční data (bilance) nerespektuje trojrozměrnou povahu krychĺı, možnost jejich rozkladu na část nezávislou a části interakční alternativní souřadnicový systém.

Souřadnicová reprezentace CoDa krychĺı - konstrukce 1. Definice PBD pro celé řádky, sloupce a řezy, 2. výpočet log-kontrastů ξ i, 3. výpočet dalších log-kontrastů pomocí Hadamardova součinu dvojic a trojic log-kontrastů z různých PBD, 4. normování nových log-kontrastů, 5. výpočet IJK 1 ortonormálních souřadnic s využitím vztahu z i = D ξ ij ln x j. j=1

Souřadnicová reprezentace CoDa krychĺı Takto získaný systém je tvořen třemi skupinami souřadnic popisujícími: bilance mezi úrovněmi jednotlivých faktorů např. zi r stjk = ln [g(x j 1..) g(x js.. )] 1/s s+t [g(x k1..) g(x k t.)] 1/t interakce mezi dvojicemi faktorů interakce mezi všemi faktory např. z rc = A D ln g(x A)g(x D ) A + B + C + D g(x B )g(x C ) např. z rcs = K ln g(x A )g(x D )g(x F )g(x G ) g(x B )g(x C )g(x E )g(x H )

Struktura zaměstnanosti x = ( 0.021 0.003 0.321 0.018 0.063 0.011 0.034 0.002 0.422 0.005 0.093 0.008 ) i Ženy Muži s t 1 + - 1 1 j Full time Part time u v 1 + - 1 1 k 15-24 25-54 55+ m n 1 + - - 1 2 2 + - 1 1

Struktura zaměstnanosti Bilance - pohlaví z1 r = ( ) 3 ln g(x1..) g(x 2..) = 0.31 (0.18) Bilance - typ z1 c = ( ) 3 ln g(x.1.) g(x.2.) = 4.67 (2.70) Bilance - věk ( z1 s = 8 3 ln z s 2 = 2 ln g(x..1) g(x..2)g(x..3) ) = 2.50 (-1.53) ( ) g(x..2) g(x..3) = 1.10 (0.78)

Employment structure Interakce - pohlaví, typ ( ) z1 rc = 3 4 ln g(x11.)g(x 22.) g(x 12.)g(x 21.) = 0.97 (-1.12) Interakce - pohlaví, věk ( 1 = 2 3 ln z rs g(x 1.1) g(x 2.2)g(x 2.3) g(x 2.1) g(x 1.2)g(x 1.3) ) = 0.25 (-0.30) ( ) z2 rs = 1 2 ln g(x1.2)g(x 2.3) g(x 2.2)g(x 1.3) = 0.38 (0.54) Interakce - typ, věk ( 1 = 2 3 ln z cs z cs g(x.11) g(x.22)g(x.23) g(x.21) g(x.12)g(x.13) ) = 0.51 (-0.63) ( ) 2 = 1 2 ln g(x.12)g(x.23) g(x.13)g(x.22) = 1.12 (1.59)

Employment structure Plná interakce ( z1 rcs 1 = 6 ln ) x111x 221 x122x 123 x212x 213 x 211x 121 x112x 113 x222x 223 = 0.12 (0.30) ( ) z2 rcs 1 = 8 ln x 112x 222x 123x 213 x 122x 212x 113x 223 = 0.30 (-0.86)

Struktura zaměstnanosti Celkově jsme měli k dispozici údaje o 42 zemích. Data jsou nyní připravena k analýze pomocí standardních analytických metod.

Struktura zaměstnanosti Při tradiční analýze souboru původních tabulek můžeme využít např. log-lineárních modelů. Tyto modely jsou však spíše konstruované pro analýzu jedné tabulky ne celého výběru. Zahrneme-li do analýzy čtvrtý faktor (stát), je výsledný model velmi ovlivněn různými velikostmi států, které zastírají efekt sledovaných faktorů.

References Agresti A (2002) Categorical data analysis. John Wiley & Sons, Inc., New Jersey. Aitchison J (1986) The statistical analysis of compositional data. Chapman and Hall, London. Egozcue JJ, Pawlowsky-Glahn V (2005) Groups of parts and their balances in compositional data analysis. Math Geol 37:795 828. Fačevicová K, Hron K, Todorov V, Templ M (2016) Compositional tables analysis in coordinates. Scandinavian Journal of Statistics, 43(4): 962 977. Fačevicová K, Hron K, Todorov V, Templ M (2016) General approach to coordinate representation of compositional tables. Under review.