Předzpracování kompozičních dat

Podobné dokumenty
Aplikace T -prostorů při modelování kompozičních časových řad

Imputace nulovy ch hodnot v metabolomice

Alternativní přístup k analýze vícefaktorových dat

Robust 2014, ledna 2014, Jetřichovice

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

kompoziční data s aplikací v metabolomice

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Klasická a robustní ortogonální regrese mezi složkami kompozice

Statistick anal 0 5za kompozi 0 0n ͺch tabulek

Modelování sesuvu svahu v Halenkovicích pomocí metody kriging

8 Coxův model proporcionálních rizik I

odlehlých hodnot pomocí algoritmu k-means

Bayesovský p ístup k t-test m v kompozi ní analýze metabolomických dat

Základní pojmy teorie množin Vektorové prostory

A. (2011) Compositional data analysis: Theory and applications. Wiley, Chichester: Fišerová, E., Hron, K. On interpretation of orthonormal

7 Regresní modely v analýze přežití

VĚTY Z LINEÁRNÍ ALGEBRY

AVDAT Geometrie metody nejmenších čtverců

Lineární a logistická regrese

Matematika I 12a Euklidovská geometrie

Faculty of 1000 Biology award.

Robustní statistické metody

AVDAT Mnohorozměrné metody metody redukce dimenze

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika)

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Aplikace 2: Hledání informativních příznaků pro rozpoznávání

Algoritmy pro shlukování prostorových dat

Matematika B101MA1, B101MA2

Úvodem Dříve les než stromy 3 Operace s maticemi

Vektorový prostor. Př.1. R 2 ; R 3 ; R n Dvě operace v R n : u + v = (u 1 + v 1,...u n + v n ), V (E 3 )...množina vektorů v E 3,

x 2 = a 2 + tv 2 tedy (a 1, a 2 ) T + [(v 1, v 2 )] T A + V Příklad. U = R n neprázdná množina řešení soustavy Ax = b.

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

BAKALÁŘSKÁ PRÁCE. Vývoj složení hrubého domácího produktu v České republice UNIVERZITA PALACKÉHO V OLOMOUCI

u Pacova Metoda pro validaci koncentrace přízemního ozónu kontinuálně měřené na Atmosférické 1 / 23sta

Uni- and multi-dimensional parametric tests for comparison of sample results

5EN306 Aplikované kvantitativní metody I

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

AVDAT Nelineární regresní model

6.1 Vektorový prostor

1 Báze a dimenze vektorového prostoru 1

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

23. Matematická statistika

Matematika 2 pro PEF PaE

dat Robust ledna 2018

Metody zvýrazňování obrazu III. Vícepásmová zvýraznění. Spektrální příznaky. Příznakový prostor. Podstata vícepásmových zvýraznění

ANALYTICKÁ GEOMETRIE V ROVINĚ

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

0.1 Úvod do lineární algebry

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

MODELU A KOMPOZIČNÍHO MODELU PŘI ANALÝZE DAT

Klasifikační metody pro genetická data: regularizace a robustnost

Robustní odhady statistických parametrů

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

Chybějící atributy a postupy pro jejich náhradu

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Soustavy lineárních rovnic

Korelační analýza pro kompoziční data

4EK211 Základy ekonometrie

Numerické metody a programování

Státní závěrečná zkouška z oboru Matematika a její použití v přírodních vědách

2 Hlavní charakteristiky v analýze přežití

Mnohorozměrná statistická data

Prostorová variabilita

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

Numerické metody a programování. Lekce 8

Mnohorozměrná statistická data

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Analýza dat v GIS. Dotazy na databáze. Překrytí Overlay Mapová algebra Vzdálenostní funkce. Funkce souvislosti Interpolační funkce Topografické funkce

Formální konceptuální analýza

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Kvaterniony, duální kvaterniony a jejich aplikace

AVDAT Klasický lineární model, metoda nejmenších

Lineární algebra : Skalární součin a ortogonalita

verze 1.3 kde ρ(, ) je vzdálenost dvou bodů v R r. Redukovaným ε-ovým okolím nazveme ε-ové okolí bodu x 0 mimo tohoto bodu, tedy množinu

Základy počtu pravděpodobnosti a metod matematické statistiky

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Vyhněte se katastrofám pomocí výpočetní matematiky

3.2. ANALYTICKÁ GEOMETRIE ROVINY

Aproximace posuvů [ N ],[G] Pro každý prvek se musí nalézt vztahy

Statistické vyhodnocování experimentálních dat. Mgr. Martin Čada, Ph.D.

Chyby měření 210DPSM

Statistická analýza dat

přesnost (reprodukovatelnost) správnost (skutečná hodnota)? Skutečná hodnota použití různých metod

2 Vektorové normy. Základy numerické matematiky - NMNM201. Definice 1 (Norma). Norma je funkcionál splňující pro libovolné vektory x a y a pro

AB = 3 CB B A = 3 (B C) C = 1 (4B A) C = 4; k ]

Drsná matematika I 13. přednáška Kvadriky a projektivní rozšíření

11 Analýza hlavních komponet

VI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku

Matice. Předpokládejme, že A = (a ij ) je matice typu m n: diagonálou jsou rovny nule.

Matematika B101MA1, B101MA2

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

1 Topologie roviny a prostoru

Matice. Přednáška MATEMATIKA č. 2. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Transkript:

Předzpracování kompozičních dat Karel Hron Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta Univerzity Palackého, Olomouc Robust 2012, Němčičky, 10. září 2012 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 1 / 29

Úvod Poděkování: P. Filzmoser (TU Wien), M. Templ (TU Wien), J.A. Martín-Fernández (University of Girona), E. Fišerová (UP Olomouc) 1 Kompoziční data a jejich geometrie 2 Imputační metody pro kompozice 3 Nahrazení nulových hodnot v kompozičních datech Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 2 / 29

Kompoziční data a jejich geometrie Kompoziční data = D-rozměrné vektory, jejichž složky kvantitativně popisují části nějakého celku, nesoucí výhradně relativní ínformaci (Pawlowsky-Glahn a Buccianti, 2011) Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 3 / 29

Kompoziční data a jejich geometrie Kompoziční data = D-rozměrné vektory, jejichž složky kvantitativně popisují části nějakého celku, nesoucí výhradně relativní ínformaci (Pawlowsky-Glahn a Buccianti, 2011) obvyklé jednotky měření: procenta, mg/kg (konstantní součet složek), mg na litr (součet není konstantní) Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 3 / 29

Kompoziční data a jejich geometrie Kompoziční data = D-rozměrné vektory, jejichž složky kvantitativně popisují části nějakého celku, nesoucí výhradně relativní ínformaci (Pawlowsky-Glahn a Buccianti, 2011) obvyklé jednotky měření: procenta, mg/kg (konstantní součet složek), mg na litr (součet není konstantní) příklady: geochemická data - proporcionální zastoupení minerálů v hornině; koncentrace fenolických kyselin ve víně (mg/l); výdaje domácností na konečnou spotřebu (jídlo, ubytování, ošacení) a další Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 3 / 29

Kompoziční data a jejich geometrie Kompoziční data = D-rozměrné vektory, jejichž složky kvantitativně popisují části nějakého celku, nesoucí výhradně relativní ínformaci (Pawlowsky-Glahn a Buccianti, 2011) obvyklé jednotky měření: procenta, mg/kg (konstantní součet složek), mg na litr (součet není konstantní) příklady: geochemická data - proporcionální zastoupení minerálů v hornině; koncentrace fenolických kyselin ve víně (mg/l); výdaje domácností na konečnou spotřebu (jídlo, ubytování, ošacení) a další problém zpracování dat s konstantním součtem byl v minulosti řešen pomocí standardních statistických metod, tedy za předpokladu euklidovské geometrie v reálném prostoru konstantní součet složek (1, 100) = vhodná reprezentace kompozic Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 3 / 29

Kompoziční data a jejich geometrie Geometrické aspekty analýzy kompozičních dat simplex = výběrový prostor reprezentací kompozic předpoklady relevantní analýzy kompozic: invariantnost na změnu škály, podkompoziční soudržnost, respektování relativní škály Aitchisonova geometrie (EVP dimenze D 1) drtivá většina statistických metod konstruována za předpokladu euklidovské geometrie (Eaton, 1983) Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 4 / 29

Kompoziční data a jejich geometrie Geometrické aspekty analýzy kompozičních dat simplex = výběrový prostor reprezentací kompozic předpoklady relevantní analýzy kompozic: invariantnost na změnu škály, podkompoziční soudržnost, respektování relativní škály Aitchisonova geometrie (EVP dimenze D 1) drtivá většina statistických metod konstruována za předpokladu euklidovské geometrie (Eaton, 1983) vyjádřit kompoziční data v souřadnicích vzhledem k ortonormální bázi na simplexu statistická analýza, interpretace (bilance) log-ratio analýza kompozičních dat (Aitchison, 1986; Egozcue a kol., 2003) - alr, clr, ilr transformace Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 4 / 29

Kompoziční data a jejich geometrie Příklad: Vegetační struktura v 11 bioregionech (Olomoucký kraj, původní data v hektarech) 1 2 3 4 5 6 7 8 9 10 11 x1 19.80 237.80 3.00 229.10 649.70 1090.70 159.30 562.30 1557.45 59.70 237.80 x2 47.90 0.60 1.60 70.30 31.70 29.80 0.50 0.40 53.59 0.80 0.60 x3 43.40 111.50 4.90 331.90 3198.40 758.90 3297.90 302.20 747.79 13.30 108.90 bioregion prostěj. litovel. svitav. drahan. šumper. n.-jes. jesen. vidnav. hranic. podbes. kojetín. mapový zdroj: Statistická ročenka Olomouckého kraje Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 5 / 29

Kompoziční data a jejich geometrie Příklad: Vegetační struktura v 11 bioregionech (Olomoucký kraj, původní data v hektarech) 1 2 3 4 5 6 7 8 9 10 11 x1 19.80 237.80 3.00 229.10 649.70 1090.70 159.30 562.30 1557.45 59.70 237.80 x2 47.90 0.60 1.60 70.30 31.70 29.80 0.50 0.40 53.59 0.80 0.60 x3 43.40 111.50 4.90 331.90 3198.40 758.90 3297.90 302.20 747.79 13.30 108.90 bioregion prostěj. litovel. svitav. drahan. šumper. n.-jes. jesen. vidnav. hranic. podbes. kojetín. mapový zdroj: Statistická ročenka Olomouckého kraje Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 5 / 29

Kompoziční data a jejich geometrie Příklad: Vegetační struktura v 11 bioregionech (Olomoucký kraj, původní data v hektarech) x 1 x 2 x 3 1 19.80 47.90 43.40 2 237.80 0.60 111.50 3 3.00 1.60 4.90 4 229.10 70.30 331.90 5 649.70 31.70 3198.40 6 1090.70 29.80 758.90 7 159.30 0.50 3297.90 8 562.30 0.40 302.20 9 1557.45 53.59 747.79 10 59.70 0.80 13.30 11 237.80 0.60 108.90 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 6 / 29

Kompoziční data a jejich geometrie Příklad: Vegetační struktura v 11 bioregionech (Olomoucký kraj, původní data v hektarech) 0 10 20 30 40 50 60 70 x 1 x 2 x 3 1 19.80 47.90 43.40 2 237.80 0.60 111.50 3 3.00 1.60 4.90 4 229.10 70.30 331.90 5 649.70 31.70 3198.40 6 1090.70 29.80 758.90 7 159.30 0.50 3297.90 8 562.30 0.40 302.20 9 1557.45 53.59 747.79 10 59.70 0.80 13.30 11 237.80 0.60 108.90 0 10 20 30 40 50 60 70 dubohabriny kroviny mezofilní trávníky 0 500 1000 1500 0 500 1500 2500 0 500 1000 1500 0 500 1500 2500 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 6 / 29

Kompoziční data a jejich geometrie Příklad: Vegetační struktura v 11 bioregionech (v procentech) x 1 x 2 x 3 1 17.82 43.11 39.06 2 67.96 0.17 31.87 3 31.58 16.84 51.58 4 36.29 11.14 52.57 5 16.75 0.82 82.44 6 58.03 1.59 40.38 7 4.61 0.01 95.38 8 65.01 0.05 34.94 9 66.03 2.27 31.70 10 80.89 1.08 18.02 11 68.47 0.17 31.36 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 7 / 29

Kompoziční data a jejich geometrie Příklad: Vegetační struktura v 11 bioregionech (v procentech) mezofilní trávníky x 1 x 2 x 3 1 17.82 43.11 39.06 2 67.96 0.17 31.87 3 31.58 16.84 51.58 4 36.29 11.14 52.57 5 16.75 0.82 82.44 6 58.03 1.59 40.38 7 4.61 0.01 95.38 8 65.01 0.05 34.94 9 66.03 2.27 31.70 10 80.89 1.08 18.02 11 68.47 0.17 31.36 10 dubohabriny 0.8 6 8 12 9 1 0.6 0.4 0.2 5 4 3 7 0.8 0.6 0.4 0.2 0.2 1 0.4 0.6 0.8 kroviny Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 7 / 29

Kompoziční data a jejich geometrie Ortonormální souřadnice a jejich interpretace D-složková kompozice x = (x 1,..., x D ) souřadnice (bilance) z = (z 1,..., z D 1 ) jediná ortonormální souřadnice (z 1 ) obsahuje všechnu relativní informaci (vysvětluje všechny podíly) o jedné složce nechť x 1 je takovou složkou z k = s rozptyly var(z k ) = D k D k + 1 ln 1 D k + 1 D p=k+1 x k D k D j=k+1 x k ( var ln x ) k x p 1 2(D k)(d k + 1), k = 1,..., D 1. (1) D D p=k+1 q=k+1 ( var ln x ) p x q Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 8 / 29

Kompoziční data a jejich geometrie Ortonormální souřadnice a jejich interpretace konstrukce jiné ortonormální báze, kde první souřadnice vysvětluje danou kompoziční složku (x 1 v předchozím snímku): (x 1,..., x D ) (x l, x 1,..., x l 1, x l+1,..., x D ) =: (x (l) 1, x (l) 2,..., x (l) l, x (l) l+1,..., x (l) D ); D k D j=k+1 x (l) z (l) D k k = D k + 1 ln x (l) k zřejmě z (1) k = z k z (1) pro k = 1,..., D 1 j, k = 1,..., D 1, (2) Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 9 / 29

Kompoziční data a jejich geometrie Ortonormální souřadnice a jejich interpretace konstrukce jiné ortonormální báze, kde první souřadnice vysvětluje danou kompoziční složku (x 1 v předchozím snímku): (x 1,..., x D ) (x l, x 1,..., x l 1, x l+1,..., x D ) =: (x (l) 1, x (l) 2,..., x (l) l, x (l) l+1,..., x (l) D ); D k D j=k+1 x (l) z (l) D k k = D k + 1 ln x (l) k j, k = 1,..., D 1, (2) zřejmě z (1) k = z k z (1) pro k = 1,..., D 1 takové souřadnice jsou zejména užitečné, když se zajímáme o jedinou kompoziční složku (imputace chybějících hodnot) Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 9 / 29

Kompoziční data a jejich geometrie Příklad: Vegetační struktura v 11 bioregionech (v ortonormálních souřadnicích) mezofilní trávníky 7 0.2 5 0.2 0.8 0.4 0.4 4 3 0.6 6 8 12 9 1 0.6 0.4 1 0.6 0.8 10 0.2 0.8 dubohabriny kroviny Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 10 / 29

Kompoziční data a jejich geometrie Příklad: Vegetační struktura v 11 bioregionech (v ortonormálních souřadnicích) obdržíme dvě souřadnice; např. zvolíme mezofilní trávníky 7 z 1 = 2 x 1 ln, 3 x2 x 3 0.2 5 0.8 0.2 z 2 = 1 2 ln x 2 x 3. 6 8 12 9 1 0.6 0.4 4 3 0.6 0.4 1 0.4 0.6 odhalení skutečné struktury dat 0.8 10 0.2 0.8 dvě přirozené odlehlé hodnoty (5, 7) dubohabriny kroviny Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 11 / 29

Kompoziční data a jejich geometrie Příklad: Vegetační struktura v 11 bioregionech (v ortonormálních souřadnicích) obdržíme dvě souřadnice; např. zvolíme 2 x z 1 = 1 ln, 3 x2 x 3 z 2 = 1 2 ln x 2 x 3. odhalení skutečné struktury dat dvě přirozené odlehlé hodnoty (5, 7) z 2 6 5 4 3 2 1 0 1 3 4 9 10 6 5 11 2 7 0 1 2 3 z 1 8 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 12 / 29

Imputační metody pro kompozice Kompoziční data a chybějící informace chybějící hodnoty se vyskytují v mnoha reálných (kompozičních) datových souborech většinu statistických metod nelze aplikovat přímo na data s chybějícími hodnotami prosté vynechání pozorování s chybějícími hodnotami by způsobilo ztrátu informace Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 13 / 29

Imputační metody pro kompozice Kompoziční data a chybějící informace chybějící hodnoty se vyskytují v mnoha reálných (kompozičních) datových souborech většinu statistických metod nelze aplikovat přímo na data s chybějícími hodnotami prosté vynechání pozorování s chybějícími hodnotami by způsobilo ztrátu informace doplnit chybějící údaje vhodnými hodnotami a pokračovat se ve statistické analýze Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 13 / 29

Imputační metody pro kompozice Kompoziční data a chybějící informace chybějící hodnoty se vyskytují v mnoha reálných (kompozičních) datových souborech většinu statistických metod nelze aplikovat přímo na data s chybějícími hodnotami prosté vynechání pozorování s chybějícími hodnotami by způsobilo ztrátu informace doplnit chybějící údaje vhodnými hodnotami a pokračovat se ve statistické analýze potřeba speciálního přístupu k imputaci kompozičních dat (jediná relevantní informace je obsažena v podílech) při výskytu odlehlých hodnot selhávají klasické imputační metody užití robustních metod Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 13 / 29

Imputační metody pro kompozice Imputace pomocí k nejbližších sousedů Když imputujeme jednu chybějící hodnotu užijeme Aitchisonovu vzdálenost d A (x, y) = D D i=1 j=1 (ln(x i/x j ) ln(y i /x j )) 2 k nalezení k nejbližších sousedů upravíme odpovídající hodnoty vzhledem k celkové velikosti složek Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 14 / 29

Imputační metody pro kompozice Imputace pomocí k nejbližších sousedů Když imputujeme jednu chybějící hodnotu užijeme Aitchisonovu vzdálenost d A (x, y) = D D i=1 j=1 (ln(x i/x j ) ln(y i /x j )) 2 k nalezení k nejbližších sousedů upravíme odpovídající hodnoty vzhledem k celkové velikosti složek nejbližší soused 80 30 50 100 hodnota k imputaci 20 NA 12.5 25 upravíme 30 vzhledem k informaci v ostatních složkách Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 14 / 29

Imputační metody pro kompozice Imputace pomocí k nejbližších sousedů Když imputujeme jednu chybějící hodnotu užijeme Aitchisonovu vzdálenost d A (x, y) = D D i=1 j=1 (ln(x i/x j ) ln(y i /x j )) 2 k nalezení k nejbližších sousedů upravíme odpovídající hodnoty vzhledem k celkové velikosti složek nejbližší soused 80 30 50 100 hodnota k imputaci 20 NA 12.5 25 upravíme 30 vzhledem k informaci v ostatních složkách imputace pomocí metody k nejbližších sousedů nebere plně do úvahy vztahy mezi kompozičními složkami modelová imputace Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 14 / 29

Imputační metody pro kompozice Iterativní modelová imputace inicializace chybějících hodnot výsledky metody k nejbližších sousedů uspořádat kompoziční složky podle klesajícího počtu jejich chybějících hodnot do dosažení konvergence: pro l = 1,..., D provést ilr transformaci (2) dat provést robustní (klasickou) regresi z (l) 1 na z (l) 2,..., z(l) D 1 nahradit (původně) chybějící hodnoty a zpětná transformace dat přeuspořádat složky dle původního pořadí obvykle zlepšuje výsledky metody k nejbližších sousedů Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 15 / 29

Imputační metody pro kompozice Příklad: Vegetační struktura v 11 bioregionech x 1 x 2 x 3 1 19.80 47.90 43.40 2 237.80 0.60 111.50 3 3.00 1.60 4.90 4 229.10 70.30 331.90 5 649.70 31.70 3198.40 6 1090.70 29.80 758.90 7 159.30 0.50 3297.90 8 562.30 0.40 302.20 9 1557.45 53.59 747.79 10 59.70 0.80 13.30 11 237.80 0.60 108.90 z 2 6 5 4 3 2 1 0 1 3 4 5 7 9 10 6 11 2 8 0 1 2 3 z 1 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 16 / 29

Imputační metody pro kompozice Příklad: Vegetační struktura v 11 bioregionech (NA) x 1 x 2 x 3 1 19.80 47.90 43.40 2 237.80 0.60 NA 3 3.00 1.60 4.90 4 229.10 70.30 331.90 5 649.70 31.70 3198.40 6 NA 29.80 758.90 7 159.30 0.50 3297.90 8 562.30 0.40 302.20 9 1557.45 53.59 747.79 10 59.70 0.80 13.30 11 237.80 0.60 108.90 z 2 6 5 4 3 2 1 0 1 3 4 5 7 9 10 6 11 2 8 0 1 2 3 z 1 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 17 / 29

Imputační metody pro kompozice Příklad: imputace pomocí k nejbližších sousedů x 1 x 2 x 3 1 19.80 47.90 43.40 2 237.80 0.60 128.03 3 3.00 1.60 4.90 4 229.10 70.30 331.90 5 649.70 31.70 3198.40 6 1532.807 29.80 758.90 7 159.30 0.50 3297.90 8 562.30 0.40 302.20 9 1557.45 53.59 747.79 10 59.70 0.80 13.30 11 237.80 0.60 108.90 z 2 6 5 4 3 2 1 0 1 3 4 5 7 9 10 6 6 211 8 0 1 2 3 z 1 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 18 / 29

Imputační metody pro kompozice Příklad: imputace pomocí robustního iterativního postupu x 1 x 2 x 3 1 19.80 47.90 43.40 2 237.80 0.60 117.55 3 3.00 1.60 4.90 4 229.10 70.30 331.90 5 649.70 31.70 3198.40 6 940.54 29.80 758.90 7 159.30 0.50 3297.90 8 562.30 0.40 302.20 9 1557.45 53.59 747.79 10 59.70 0.80 13.30 11 237.80 0.60 108.90 z 2 6 5 4 3 2 1 0 1 3 4 5 7 9 10 66 6 11 2 8 0 1 2 3 z 1 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 19 / 29

Imputační metody pro kompozice Příklad: Imputace pomocí klasického iterativního postupu x 1 x 2 x 3 1 19.80 47.90 43.40 2 237.80 0.60 289.99 3 3.00 1.60 4.90 4 229.10 70.30 331.90 5 649.70 31.70 3198.40 6 767.96 29.80 758.90 7 159.30 0.50 3297.90 8 562.30 0.40 302.20 9 1557.45 53.59 747.79 10 59.70 0.80 13.30 11 237.80 0.60 108.90 z 2 6 5 4 3 2 1 0 1 3 4 5 7 9 10 6 66 6 2 11 2 8 0 1 2 3 z 1 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 20 / 29

Imputační metody pro kompozice Příklad: Robustní (LTS) regrese z 1 na z 2 z 2 6 5 4 3 2 1 0 1 3 4 5 7 9 10 6 11 2 8 10 dubohabriny 0.8 6 8 12 9 1 0.6 0.4 mezofilní trávníky 7 0.2 5 4 3 0.8 0.6 0.4 0.2 0.2 1 0.4 0.6 0.8 kroviny 0 1 2 3 z 1 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 21 / 29

Imputační metody pro kompozice Příklad: Problém klasické regrese z 2 6 5 4 3 2 1 0 1 3 4 5 7 9 10 6 11 2 8 10 dubohabriny 0.8 6 8 12 9 1 0.6 0.4 mezofilní trávníky 7 0.2 5 4 3 0.8 0.6 0.4 0.2 0.2 1 0.4 0.6 0.8 kroviny 0 1 2 3 z 1 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 22 / 29

Nahrazení nulových hodnot v kompozičních datech Výskyt nul v kompozičních datech log-ratio analýza kompozičních dat nemůže být použita pro kompozice s nulovými hodnotami složek přirozený požadavek, protože u kompozice je veškerá relevantní informace obsažena v podílech mezi kompozičními složkami Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 23 / 29

Nahrazení nulových hodnot v kompozičních datech Výskyt nul v kompozičních datech log-ratio analýza kompozičních dat nemůže být použita pro kompozice s nulovými hodnotami složek přirozený požadavek, protože u kompozice je veškerá relevantní informace obsažena v podílech mezi kompozičními složkami dva základní typy nul: strukturní nuly - výsledek nějakého strukturního procesu (výdaje za alkohol v domácnostech abstinentů), řešení: několik přistupů, např. analýza podkompozic, další výzkum nutný nuly vzniklé zaokrouhlením - výsledek nepřesného měření stopových prvků v kompozici (geochemická měření, environmentální data), řešení: nahradit malou nenulovou hodnotou (např. 2/3 detekčního limitu nebo užít nějaký parametrický přístup) Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 23 / 29

Nahrazení nulových hodnot v kompozičních datech Modelové nahrazení zaokroulovacích nul algoritmus modelové imutace doplněný o tobitovou regresi (inicializace = 2/3 detekčního limitu) pro l = 1,..., D, i = 1,..., n, Z (l) = [z (l) 1, Z(l) 1 ]: ψ (l) D 1 i1 = D ln e (l) i1 D 1 D ẑ (l) i1 j=2 x (l) ij = z(l)t i, 1 ˆβ (l) ˆσ (l) φ souř. pro detekční limit e (l) i1 Φ ( ψ (l) (l) i1 z(l)t i, 1 ˆβ ˆσ (l) ( ψ (l) (l) i1 z(l)t i, 1 ˆβ ˆσ (l) ) e il; ), (3) náhrada neznámých hodnot v z (l) 1 podmíněnou střední hodnotou E[z (l) 1 Z(l) 1, z(l) 1 < ψ (l) 1 ] Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 24 / 29

Nahrazení nulových hodnot v kompozičních datech Příklad: Výskyt nulové hodnoty (DL=0.1) x 1 x 2 x 3 1 19.80 47.90 43.40 2 237.80 0.60 111.50 3 3.00 1.60 4.90 4 229.10 70.30 331.90 5 649.70 31.70 3198.40 6 1090.70 29.80 758.90 7 159.30 0.50 3297.90 8 562.30 0.40 302.20 9 1557.45 53.59 747.79 10 59.70 0.80 13.30 11 237.80 0.60 108.90 12 69.00 0.10 0.00 0.8 + dubohabriny 10 6 8 12 9 1 0.6 0.4 mezofilní trávníky 7 0.2 5 4 3 0.8 0.6 0.4 0.2 0.2 1 0.4 0.6 0.8 kroviny ždánicko-litenčický bioregion Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 25 / 29

Nahrazení nulových hodnot v kompozičních datech Příklad: Nahrazení nulové hodnoty (DL=0.1) x 1 x 2 x 3 1 19.80 47.90 43.40 2 237.80 0.60 111.50 3 3.00 1.60 4.90 4 229.10 70.30 331.90 5 649.70 31.70 3198.40 6 1090.70 29.80 758.90 7 159.30 0.50 3297.90 8 562.30 0.40 302.20 9 1557.45 53.59 747.79 10 59.70 0.80 13.30 11 237.80 0.60 108.90 12 69.00 0.10 0.0427 z 2 6 5 4 3 2 1 0 1 3 4 5 7 9 10 6 11 2 8 12 0 1 2 3 4 5 z 1 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 26 / 29

Nahrazení nulových hodnot v kompozičních datech Závěr kompozice vyžadují specifický přístup k předzpracování datového souboru Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 27 / 29

Nahrazení nulových hodnot v kompozičních datech Závěr kompozice vyžadují specifický přístup k předzpracování datového souboru představené metody překonávají existující metody ve většině datových konfigurací (např. u imputace NA testováno s více než 20 imputačními technikami při různých mechanismech (MCAR, MAR)) Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 27 / 29

Nahrazení nulových hodnot v kompozičních datech Závěr kompozice vyžadují specifický přístup k předzpracování datového souboru představené metody překonávají existující metody ve většině datových konfigurací (např. u imputace NA testováno s více než 20 imputačními technikami při různých mechanismech (MCAR, MAR)) k dispozici v R-knihovně robcompositions; tato prezentace na http://compositions.sweb.cz/ Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 27 / 29

Nahrazení nulových hodnot v kompozičních datech Závěr kompozice vyžadují specifický přístup k předzpracování datového souboru představené metody překonávají existující metody ve většině datových konfigurací (např. u imputace NA testováno s více než 20 imputačními technikami při různých mechanismech (MCAR, MAR)) k dispozici v R-knihovně robcompositions; tato prezentace na http://compositions.sweb.cz/ v přípravě: algoritmus pro práci se strukturními nulami Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 27 / 29

Nahrazení nulových hodnot v kompozičních datech Literatura (kompoziční data) Aitchison, J. (1986) The statistical analysis of compositional data. Chapman and Hall, London. Eaton, M. (1983) Multivariate statistics. A vector space approach. John Wiley and Sons, New York. Egozcue, J.J., Pawlowsky-Glahn, V., Mateu-Figueras, G., Barceló-Vidal, C. (2003) Isometric logratio transformations for compositional data analysis. Mathematical Geology, 35 (3), 279 300. Pawlowsky-Glahn, V., Buccianti, A., eds. (2011) Compositional data analysis: Theory and applications. Wiley, Chichester. Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 28 / 29

Nahrazení nulových hodnot v kompozičních datech Literatura (téma prezentace) Fišerová, E., Hron, K. (2011) On interpretation of orthonormal coordinates for compositional data. Mathematical Geosciences, 43 (4), 455-468. Hron, K., Templ, M., Filzmoser, P. (2010) Imputation of missing values for compositional data using classical and robust methods. Computational Statistics and Data Analysis, 54 (12), 3095-3107 Martín-Fernández, J.A., Hron, K., Templ, M., Filzmoser, P., Palarea-Albaladejo, J. (2012) Model-based replacement of rounded zeros in compositional data: Classical and robust approaches. Computational Statistics and Data Analysis, 56 (9), 2688-2704 Karel Hron (UP) Předzpracování kompozičních dat Robust 2012 29 / 29