České Vysoké Učení Technické v Praze Fakulta stavební GEOSTATISTIKA Martin Dzurov, Kristýna Kitzbergerová, Lucie Šindelářová Studijní program: Geoinformatika Vedoucí projektu: Dr. RNDr. Jana Nosková Praha, Říjen 2010
Obsah 1 Úvod 1 2 Design a formulace modelu 1 3 Gaussův model 2 3.1 Kovarianční funkce a variogram................. 3 3.1.1 Matérnova funkce..................... 5 3.1.2 Exponenciální funkce................... 5 3.2 Nugget efekt............................ 5 4 Cross-validace 5 5 Ordinary Kriging 6 Seznam Literatury 13 i
Seznam obrázků 1 Rozmístění měřených bodů.................... 9 2 Variogramy............................ 10 3 Pravidelná mřížka, na které bude proveden výpočet metodou OK................................. 10 4 Predikce nadmořských výšek pomocí OK ze 100 náhodně vybraných bodů........................... 11 5 Predikce nadmořské výšky pomocí OK ze všech hodnot měření 11 6 Variance odhadnutých nadmořských výšek ze 100 náhodně vybraných bodů........................... 12 7 Variance odhadnutých nadmořských výšek ze všech hodnot měření............................... 12 ii
1 Úvod Geostatistika je odvětví prostorové statistiky s konečným počtem měřených dat s prostorovým rozmístěním. Příkladem těchto dat může být topologické měření nadmořských výšek, měření znečištění v síti o konečném počtu monitorovacích stanic, určování vlastností zemin ze vzorků, množství odchyceného hmyzu na různých místech a mnoho dalších. Z předchozího odstavce tedy plyne, že prostorová statistika je používána k popisu širokého spektra statistických modelů a metod určených k analýze prostorově určených dat, které mají následující vlastnosti: 1. hodnoty Y i : i = 1,..., n jsou pozorovány na diskrétní sadě bodů o souřadnicích x i s prostorovým rozložením 2. každá pozorovaná hodnota Y i je bud přímo měřená nebo je statisticky spjata s hodnotou spojitého prostorového fenoménu S(x) na odpovídajících bodech x i Sadu geostatistických dat označíme (x i, Y i ) : i = 1,..., n x i prostorové určení, typicky 2D rozměr Y i naměřená hodnota na bodě o souřadnici x i Rozložení měřených dat je dáno bud deterministicky, tzn. body x i tvoří pravidelnou mřížku napříč celým územím zájmu, nebo stochastickým nezávislým procesem, který generuje měření Y i. Každá hodnota Y i je poté realizací náhodné proměnné, jejíž rozdělení je závislé na hodnotě x i. 2 Design a formulace modelu Abychom mohli navrhnout správný model, musíme si nejprve položit několik otázek: 1. Na kolika různých místech musíme provést měření? 2. Jak tyto body rozmístit po území zájmu? Odpověd na první otázku většinou závisí na časové náročnosti měření a také celkové ceně. Na druhou otázku můžeme odpovědět pouze tak, že body bud rozmístíme kompletně náhodně, a nebo zvolíme pravidelný design. Formulaci modelu lze nejlépe ukázat na jednoduchém příkladu měření nadmořských výšek. Položme si tedy další otázku: Jak můžeme použít měřené 1
nadmořské výšky pro konstrukci našeho nejlepšího odhadu v celém území zájmu? Náš model potřebuje zahrnout stochastický prostorově spojitý proces S(x) pracující s reálnými hodnotami a který reprezentuje měřenou elevaci jako funkci souřadnic x. Požadované vlastnosti S(x) (spojitost, diferencovatelnost, vícenásobná diferencovatelnost,... ) závisí na charakteristice terénu. Nejjednodušším statistickým modelem je Gaussův model, který je definován následovně označme sadu geostatistických dat (x i, Y i ) : i = 1,..., n, kde x i je prostorová souřadnice a Y i je naměřená hodnota na bodě x i. Pro stacionární Gaussův model dále předpokládáme 1. {S(x) : x R 2 } je Gaussův proces se střední hodnotou µ, variancí σ 2 = Var{S(x)} a korelační funkcí ϱ(u) = Corr{S(x), S (x)}, kde u = x x a značí vzdálenost 2. za podmínky {S(x) : x R 2 } jsou y i realizována vzájemně nezávislými náhodnými proměnnými Y i s normálním rozdělením s podmíněnou střední hodnotou E [Y i S( )] = S(x i ) a podmíněnou variancí τ 2 Jiný způsob definice můžeme chápat následovně: Y i = S(x i ) + Z i : i = 1,..., n (1) kde {S(x) : x R 2 } je definováno jako bod 1 výše a Z i jsou vzájemně nezávislé náhodné proměnné s rozdělením N(0, τ 2 ). Aby definice byla úplná, korelační funkce ϱ(u) musí být pozitivně definitní, což zajistí, že jakákoliv lineární kombinace m i=1 a i S(x i ) bude mít kladnou varianci. Reálná měření nelze ovšem vždy popsat jen Gaussovým rozdělením a je nutno tento model rozšířit. Jedno z nejjednodušších způsobů jak rozšířit Gaussův model je zavést předpoklad, že model má po aplikaci transformace stále Gaussovo rozdělení. Dalším rozšířením základního modelu může být povolení prostorové variace střední hodnoty, např. nahrazení konstanty µ lineárním regresním modelem pro podmíněnou očekávanou hodnotou Y i, která je dána S(x i ). Třetí možností je povolit, aby S(x) mělo nestacionární strukturu kovariance. 3 Gaussův model Gaussovy stochastické procesy jsou široce používány v praxi jako modely pro geostatistická data. Tyto modely jsou použity jako vyhovující teoretické modely, která zaznamenávají širokou škálu prostorového chování podle specifikace jejich struktury korelace. Rozsah Gaussova modelu může být rozšířen 2
pomocí transformace původních dat. Gaussův model je také využíván pro metody geostatistické predikce jako je simple kriging, ordinary kriging nebo universal kriking. 3.1 Kovarianční funkce a variogram Gaussův prostorový proces {S(x) : x R 2 } je stochastický proces s vlastností, že libovolná sada bodů x 1,..., x n, kde x i R 2, má spojitou distribuci a S(x) = {S(x 1 ),..., S(x n )} je Gaussovo rozdělení s více proměnnými. Každý takový proces je plně specifikován funkcí střední hodnoty µ(x) = E [S(x)] a kovarianční funkcí γ(x, x ) = Cov{S(x), S(x )}. V takových procesech nyní předpokládejme sadu bodů x 1,..., x n a definovaný proces S(x) = {S(x 1 ),..., S(x n )}. Zapišme nyní µ S jako vektor s n elementy µ(x i ) a G jako n n matici s elementy G ij = γ(x i, x j ). Proces S(x) nyní odpovídá Gaussově distribuci s více proměnnými se střední hodnotou µ S a kovarianční maticí G. Nyní zvolíme T = n i=1 a is(x i ), kde T má Gaussovo rozdělení se střední hodnotou a variancí σ 2 T = µ T = n i=1 n a i µ(x i ) (2) i=1 n a i a j G ij = a Ga (3) j=1 kde a = (a 1,..., a n ) a musí platit a Ga 0. Tato podmínka, která musí být splněna pro libovolnou volbu n, (x 1,..., x n ) a (a 1,..., a n ), podmiňuje, že G je pozitivně definitní matice a odpovídající γ( ) je pozitivně definitní funkce. Každá funkce γ( ), která je pozitivně definitní je poté kovarianční funkcí pro Gaussův prostorový proces. Prostorový Gaussův proces nazveme stacionární, pokud µ(x) = µ, tedy konstantní pro všechna x a γ(x, x ) = γ(u), kde u = x x, z čehož plyne, že kovariance závisí pouze na vektoru vzdáleností mezi x a x. Řekněme, že stacionární proces je izotropní, pokud γ(u) = γ( u ), kde ( ) značí eukleidovskou vzdálenost, tzn. že kovariance mezi hodnotami S(x) na dvou různých místech závisí pouze na vzdálenosti mezi nimi. Variance stacionárního procesu je konstantní, tedy σ 2 = γ(0). Nyní definujme korelační funkci jako ρ(u) = γ(u)/σ 2. Stejně jako kovarianční funkce, je i korelační funkce symetrická v u, platí tedy ρ( u) = ρ(u) a z toho plyne fakt, že pro libovolné u, Corr{S(x), S(x u)} = Corr{S(x u), S(u)} = Corr{S(x), S(x + u)}. 3
Variogram stochastického prostorového procesu S(x) je funkce V (x, x ) = 1 2 Var{S(x) S(x )} (4) Platí V (x, x ) = 1 2 [Var{S(x)} + Var{S(x )} 2Cov{S(x), S(x )}]. V případě stacionarity se vzorec zjednoduší na funkci s proměnnou u = x x. Variogram je poté ekvivalentní kovarianční funkci γ(u) = Cov{S(x), S(x u)} Tato ekvivalence je vyjádřena vztahem V (u) = γ(0) γ(u) = σ 2 {1 ρ(u)} Hlavní výhodou variogramu je vlastnost, že je výborným nástrojem pro analýzu dat, zvláště pak pro data, která jsou nerovnoměrně rozmístěna. Nyní předpokládejme, že máme data (x i, y i ) : i = 1,..., n generována stacionárním procesem Y i = S(x i ) + Z i (5) kde Z i jsou vzájemně nezávislé proměnné s normálním rozdělením se střední hodnotou 0 a variancí τ 2. Nyní definujme variogram pro tento stacionární proces V Y (u) = τ 2 + σ 2 {1 ρ(u)} (6) Typicky je ρ(u) monotonně klesající funkce s vlastností, že ρ(0) = 1 a ρ(u) = 0, když u, z čehož plyne, že variogram pro geostatistická data je monotonně rostoucí funkce s následujícími vlastnostmi: rozdíl τ 2 odpovídá tzv. nuggetu asymptota τ 2 + σ 2 odpovídá varianci a je nazývána sill pokud je ρ(u) = 0 pro u větší než nějaká konečná hodnota, nazývá se tato hodnota range variogramu. Vlastnost funkce, že je pozitivně definitní je nutná a nezbytná podmínka pro definici parametrických funkcí, které určují třídu kovariančních funkcí. Avšak dokázat tuto vlastnost přímo není snadné. Proto je vhodné mít skupinu dostupných funkcí, o kterých je známo, že jsou pozitivně definitní a jsou dostatečně flexibilní, aby je bylo možné aplikovat na různá geostatistická data. 4
3.1.1 Matérnova funkce Nejběžnější forma empirického chování pro stacionární kovarianční strukturu geodat je, že korelace mezi S(x) a S(x ) klesá s rostoucí vzdáleností u = x x. Hledáme tedy funkci, která má podobné chování. Takovou funkcí je Matérnova funkce, jejíž definice je však příliš složitá pro účely této práce. 3.1.2 Exponenciální funkce Speciálním případem Matérnovy funkce je exponenciální funkce, která je definována následovně ϱ(u) = exp{ (u/φ) κ } (7) Stejně jako Matérnova funkce, má i tato funkce parametr měřítka φ > 0, parametr tvaru κ, který je v tomto případě ohraničen 0 < κ 2 a generuje korelační funkci, která monotónně klesá v u. Stejně jako u Matérnovy funkce, závisí vztah skutečného rozsahu a φ na hodnotě κ. Tato funkce je však méně flexibilní v tom smyslu, že Gaussův proces S(x) je spojitý, ale není diferencovatelný pro všechna 0 < κ < 2. Je diferencovatelný pro κ = 2, tedy pro maximální platnou hodnotu κ. Tento extrémní případ, kdy κ = 2, může generovat velmi nevhodně kovarianční strukturu. Proces S(x) s těmito korelačními funkcemi pak má tu vlastnost, že jeho realizace na libovolném malém intervalu určuje realizaci na celé reálné ose. 3.2 Nugget efekt Pojem Nugget efekt vyjadřuje nespojitost na počátku variogramu, což můžeme interpretovat jako varianci chyby měření τ 2 nebo také podmíněnou varianci každé měřené hodnoty Y i daného procesu S(x i ). Nugget efekt je definován takto { 1 : x = x Corr{Y (x), Y (x )} = σ 2 ϱ( x x )/(σ 2 + τ 2 ) : x x (8) kde ϱ( ) je (spojitá) korelační funkce S(x) a značí vzdálenost. 4 Cross-validace Cross-validace je jednoduchý způsob, jak porovnat různé předpoklady, např. o modelu (typ variogramu a jeho parametry, velikost nejbližšího okolí použitého pro následnou interpolaci), o datech (detekce odlehlých hodnot nebo anomálií). 5
V procesu cross-validace je každá hodnota z(x α ), na které se cross-validace provádí, odstraněna z množiny dat a hodnota v tomto bodě z (x α ) je poté odhadnuta pomocí zbývajících n 1 hodnot. Rozdíl mezi hodnotou naměřenou a hodnotou určenou odhadem poté ukazuje, jak dobře zvolený model odpovídá skutečným naměřeným hodnotám. z(x α ) z (x α ) (9) Pokud je aritmetický průměr chyby cross-validace blízký nule, pak lze tvrdit, že se nejedná o zjevné zkreslení, avšak pokud je tento průměr značně kladný nebo záporný, lze předpokládat, že došlo k systematickému nadhodnocení nebo podhodnocení. 1 n n (z(x α ) z (x α )) = 0 (10) α=1 Pokud se následující rovná jedné, pak lze tvrdit, že se aktuální chyba odhadu rovná v průměru chybě zvoleného modelu. Pokud je tato podmínka splněna, lze zvolený model a jeho parametry považovat za adekvátní. σ α 1 n n (z(x α ) z (x α )) 2 = 1 (11) α=1 je směrodatná odchylka reprezentující chybu odhadu modelu σ 2 α 5 Ordinary Kriging Metoda Ordinary Kriging (OK) je nejrozšířenější metodou typu kriging. Slouží k odhadu hodnoty na bodě nebo na celém regionu, pro který známe variogram, za použití dat v blízkém okolí tohoto bodu. Přejeme-li si odhadnout hodnotu v místě x 0, kde nemáme provedeno měření, získáme tuto hodnotu lineární kombinací hodnot ze sousedních bodů a vah, které jsou těmto bodům přidělené: n ẑ(x 0 ) = w α z(x α ), α=1 n w α = 1 (12) α=1 6
Je však nutné dodržet několik předpokladů: pozitivní semidefinitnost Matice A je pozitivně semidefinitní, pokud její kvadratická forma je pozitivně semidefinitní: x T Ax 0, x 0 (13) Best Linear Unbiased Predictor (BLUP) nejlepší lineární nestranný prediktor ĥ0 = n α=1 w αh α + w 0 je lineární prediktor podle definice } ĥ0 je nestranný prediktor, pokud platí E {ĥ0 h 0 = 0 } ĥ0 je nejlepší, pokud platí E { ĥ0 h 0 2 je minimální Minimalizací tedy získáme systém rovnic pro metodu kriging: γ(x 1 x 1 ) γ(x 1 x n ) 1 w 1 γ(x 1 x 0 )....... =. γ(x n x 1 ) γ(x n x n ) 1 w n γ(x n x 0 ) } 1 γ(x n x n ) {{ 0 }} λ {{ } } 1 {{ } C n w n d n (14) C n w n vyjadřuje kovarianci mezi naměřenými daty obsahuje váhy přiřazené měřením λ je Langrangův multiplikátor d n vyjadřuje kovarianci mezi měřenými hodnotami a hodnotami odhadnutými Neznámou v tomto případě je matice vah, kterou snadno vypočítáme a dosadíme do rovnice č. 12. w n = Cn 1 d n (15) Variance odhadnutých hodnot je pak dána následovně: σ 2 = λ γ(x 0 x 0 ) + n w n γ(x α x 0 ) (16) α=1 7
Ordinary Kriging je tzv. přesný interpolátor, to znamená, že pokud hodnota x 0 je identická s místem, kde bylo provedeno měření, bude vyinterpolovaná hodnota identická s hodnotou naměřenou: ẑ(x 0 ) = z(x α ), x 0 = x α (17) Metodu kriging lze použít jako interpolační metodu pro odhad hodnot na pravidelné mřížce pomocí nepravidelně rozmístěných dat. Tuto metodu jsme využili i pro interpolaci výšek ČR. Datový soubor použitý k výpočtu obsahuje 797 měřených nadmořských výšek. Původní souřadnice bodů byly udány v systému S-JTSK a bylo nutné je převést do matematického systému, a proto dostáváme záporné souřadnice. Nejmenší x-souřadnice je 902215 m a největší -433083 m. Nejmenší y-souřadnice je -1212091 m a největší 935732. Nejmenší vzdálenost mezi dvěma body činí 1.2 km a největší je 488 km. Nejmenší hodnota nadmořské výšky činí 205 m, nejvyšší hodnota je 1602 m, průměrná nadmořská výška je 679.5 m a medián 641 m. Graf na obrázku č. 1 zobrazuje 2D polohu bodů s barevným rozlišením hodnot atributu (nadmořských výšek) rozdělených do několika tříd, dále graf hodnot atributu v souřadnicích X a Y a poslední z grafů zobrazuje histogram souboru dat. Na obrázku č. 2 je vykreslen variogram pro daná data. Obrázek č. 3 zobrazuje pravidelnou mřížku, na které budou odhadnuty hodnot nadmořských výšek, červené body zobrazují 100 náhodně vybraných bodů, na kterých známe hodnotu hledaného atributu. Celý výpočet bude proveden uvnitř polygonu, který lemuje hranice území ČR. Výsledný graf vyinterpolovaných nadmořských výšek je zobrazen na obrázku č.4, varianci interpolace zobrazuje obrázek č. 6. Výsledek interpolace za použití pouze 100 náhodně vybraných bodů pro interpolaci a za použití celého souboru měření. Stejné porovnání lze provést na grafech č. 6 a č. 7 s variancí určené nadmořské výšky. 8
Obrázek 1: Rozmístění měřených bodů 9
Obrázek 2: Variogramy Obrázek 3: Pravidelná mřížka, na které bude proveden výpočet metodou OK 10
Obrázek 4: Predikce nadmořských výšek pomocí OK ze 100 náhodně vybraných bodů Obrázek 5: Predikce nadmořské výšky pomocí OK ze všech hodnot měření 11
Obrázek 6: Variance odhadnutých nadmořských výšek ze 100 náhodně vybraných bodů Obrázek 7: Variance odhadnutých nadmořských výšek ze všech hodnot měření 12
Reference [1] Peter J. Diggle and Paulo J. Ribeiro Jr. Model-based Geostatistics. Springer, 2007. [2] Hans Wackernagel. Multivariate Geostatistics An Introduction with Applications. Springer, third edition, 2003. 13