Prostorová analýza a prediktivní modelování INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
Prostorová analýza - Jak jsou data rozložen ená v prostoru? Prostorová analýza : Hledá a popisuje různé vzory v geografickém prostoru Snaží se porozumět prostorovým jevům
Co nás n s zajímá? Jak se pozorování mění v prostoru? Co způsobuje tuto změnu v prostoru? Kolik pozorování (např. lokalit) potřebujeme, abychom dokázali popsat prostorovou variabilitu? Jaká bude hodnota proměnné na novám místě? Jaká je nejistota našeho odhadu (predikce)? T. Hengl (2007) A Practical Guide to Geostatistical Mapping of Environmental Variables
Typy prostorové distribuce Random Regular Clustered
Interpolace x Extrapolace Interpolace - pro známé území (oblast o které máme informace) nejsou potřeba žádné další informace o podmínkách daného území parametry modelu jsou voleny libovolně či empiricky neodhaduje se predikční chyba většinou nejsou kladeny žádné statistické předpoklady Extrapolace použití modelu na nové území potřebujeme další informace o podmínkách daného území složitější modely odhad chyby predikce statistické předpoklady sada parametrických i neparametrických metod
Interpolace x Extrapolace Interpolace rovnoměrn rné vzorkování Interpolace nerovnoměrn rné vzorkování Extrapolace prediktivní modelování?
Prediktivní modelování důležitá součást studia jevů ve všech vědních oblastech slouží ke zkoumání nových jevů, jejich změn či srovnání se současným stavem zasahuje do rozmanitých oblastí od pravděpodobnostního rozšíření biologických druhů, zjištění reakce pacientů na určitou léčbu až po klimatické modely nebo změny ve znečistění ovzduší prostorové prediktivní modelování - tvorba predikčních modelů na základě informací o prostředí
Modelovací přístupy Jednoduchá ordinace matice Y nebo X (PCA, CA, ENFA, vzdálenosti) Ordinace y (jedna osa) pod omezením X Regrese, klasifikace (GLM, GAM, Klasifikační a regresní stromy, Diskriminační analýza) Y nebo X y X Ordinace Y pod omezením X RDA a CCA Y X
Co všechno můžeme modelovat? 1) konkrétní hodnoty (koncentrace, početnosti ) 2) pravděpodobnosti 3) presence/absence (výskyt/ne-výskyt druhu ) 4) nejvíce pravděpodobná entita (vegetační mapy )
The WAM model provides global to regional scale spectral wind-generated wave prediction. WAM receives inputs from gridded 2D surface wind fields, 2D oceanic current fields, and 2D initial mean water depths to produce wave energy spectra at specified gridpoints, as well as mean and peak wave directions and frequencies at all gridpoints. http://www.dis.anl.gov/projects/diops.html, Distributed Integrated Ocean Prediction System (DIOPS)
the suitability of the African environment to elephant habitation and the severity of human constraints that limit elephant habitation. www.esri.com, GIS in Africa
A tropical storm as simulated in a global climate model. Shown are surface temperature (shading), pressure and winds. Bottom: the same storm case, but as simulated with the hurricane prediction model. Shown are surface winds and precipitation on the inner grid of the hurricane model. The vector spacing illustrates the resolution of the two models (250 km for the global model vs. 18 km for the hurricane model). http://www.gfdl.noaa.gov/global-warming-and-hurricanes-figures
Predictive modelling of potential distribution of plant associations in the Czech Republic Klára Kubošová 1, Ondřej Hájek 2, Milan Chytrý 2, and Miroslav Svoboda 3 1 Research Centre for Environmental Chemistry and Toxicology, Kamenice 126/3, CZ 625 00 Brno 2 Department of Botany, Masaryk University, Kotlářská 2, CZ-611 37 Brno, Czech Republic 3 Faculty of Medicine, Masaryk University, Komenského nám. 2, CZ-662 43 Brno, Czech Republic
Charakteristika datového souboru data z České republiky 37 asociací určitý počet fytogeografických snímků-podle společného výskytu druhů vysvětlující proměnné: nadmořská výška, acidita půdy, průměrná teplota (červnová, lednová, roční), srážky, souřadnice geografický informační systém ArcGIS - 37 685 čtverců, 1,5 km 2, průměry hodnot za každý čtverec Cílem studie bylo vytvořit mapky potencionálního rozšíření každé rostlinné asociace v závislosti na parametrech prostředí
The locations of the vegetation sampling sites Source dataset: Czech National Phytosociological Database (http://www.sci.muni.cz/botany/database.htm)
Classification methods for association of Aphano arvensis-matricarietum chamomillae
Srovnání jednotlivých modelů pro vybrané rostlinné asociace Associations GLM accuracy CART accuracy CHAID accuracy MLP accuracy RBF accuracy Setario viridis-fumarietum 87,1 76,50 74,19 65,03 64,38 Euphorbio exiguae-melandrietum noctiflori 85,4 77,50 78,25 64,39 64,15 Vaccinio-Callunetum vulgaris 84,1 79,59 76,53 64,81 66,05 Angelico sylvestris-cirsietum palustris 82,3 66,67 50,00 61,56 62,10 Chaerophyllo hirsuti-filipenduletum ulmariae Echinochloo crus-gali-setarietum pumilae Filipendulo ulmariae-geranietum palustris Aphano arvensis-matricarietum chamomillae Ranunculo bulbosi-arrhenatheretum elatioris 82,2 80,98 50,00 64,41 62,71 79,6 54,28 62,85 59,59 60,96 64,8 62,30 67,20 36,30 53,08 62,4 76,60 68,80 50,00 33,73 57,6 75,40 59,80 45,80 50,38 Poo-Trisetetum flavescentis 56,9 65,00 66,10 41,10 47,85
Výsledky I Neuronové sítě (MLP,RBF) Větší predikční síla v případech nesplnění distribučních předpokladů pro regresi a nelineární vztahy Prediktory mohou být jak kontinuální tak spojité Lze spočítat pravděpodobnost výskytu Není vhodná pro malý počet vzorků a nevyvážené kategorie V našem případě nedávala správné výsledky Ordinační techniky CCA Složitější na výpočet Vzdálenost od centroidu Může být velmi zkresleno překryvem asociací V našem případě ordinační osy nevyčerpávaly dostatek variability v datech pro použití této techniky
Výsledky II Regrese (GLM a GAM) Lze jednoduše implementovat do GISu Pro každou asociaci regresní rovnice Lze spočítat pravděpodobnost výskytu Regresní techniky dávaly nejlepší výsledky při srovnání s reálným výskytem Předpoklad binomické distribuce závisle proměnné Není vhodná, máme-li velké množství kategoriálních prediktorů Klasifikační stromy (CART and CHAID) Výsledky nejsou kontinuální pravděpodobnosti, závisí na počtu koncových uzlů stromu Větší predikční síla v případech nesplnění distribučních předpokladů pro regresi a nelineární vztahy Prediktory mohou být jak kontinuální tak spojité
Potential distribution maps of Aphano arvensis - Matricarietum chamomillae in the Czech Republic
Classification tree CART Classification tree CHAID Regression technique GLM Regression technique GAM
Prostorové modelování pozaďových koncentrací PAHs, PCBs, DDX a HCB v půdě na území ČR Kubošová K., Komprda J., Jarkovský J.
Prostorové modelování pozaďových koncentrací PAHs, PCBs, DDX a HCB v půdě na území ČR Cíl predikce pozaďových koncentrací v půdě bez hot spots koncentrace zlogaritmovány (Ln) a odstraněny odlehlé hodnoty Použití Random Forests pro regresi a regresních stromů (CART) regresní techniky vhodné pro nelineární vztahy a při větším počtu kategoriálních prediktorů Celkový počet lokalit PAHs 103 lokalit PCBs 200 lokalit DDX 133 lokalit HCB 232 lokalit Prediktory kultura (lesní půda, orná půda, trvalé trav. porosty), typ půdy, organický uhlík, nadmořská výška, vzdálenost od zastavěné plochy, vzdálenost od průmyslu
Příspěvek jednotlivých proměnných pro HCB, sumpcbs, sumddx, sumpahs 1,0 Významnost proměnných 0,9 0,8 0,7 Importance 0,6 0,5 0,4 0,3 0,2 0,1 0,0 organicky uhlik vzd_prumysl nadm_vyska1 vzd_zastavene Kultura MKSP HCB 73,7% sumpcb 66,4% sumddx 68% sumpahs 56% Procenta u látek znamenají variabilitu vyčerpanou modelem (RF) pro koncentrace látek za použití daných prediktorů
Příspěvek jednotlivých proměnných pro HCB, sumpcbs, sumddx, sumpahs PCB kultura(100),vzdálenost od zastavěné plochy (72), vzdálenost od průmyslu (74) Depozice na jehličnany, otevřené systémy HCB vzdálenost od zastavěné plochy (100), vzdálenost od průmyslu (95) Chem. meziprodukty, spalování DDX kultura (100), organický uhlík (65) Zemědělské aplikace, bioakumulace PAH vzdálenost od průmyslu (100), organický uhlík, MKSP Spalování,?, málo vyčerpané variability Viz. Regresní stromy
80 70 Histogram ln PCBs 71 Regresní strom pro PCBs ( n = 186) počet pozorování 60 50 40 30 50 N=186 N=14 Odlehlé 33 hodnoty 66.5% vyčerpané variability (krosvalidace 61,9% - 69,0%) 20 10 0 14 11 8 6 5 0 1 0 0 1-4 -3-2 -1 0 1 2 3 4 5 6 7 8 9 kategorie ID=2 N=110 Mu=1,113122 Var=1,170439 ID=1 N=186 Mu=1,497123 Var=1,255013 kultura = Trv alé trav.porosty, Orná pùda Lesní půda ID=3 N=76 Mu=2,052913 Var=0,855097 ID=4 N=33 Mu=1,807691 Var=0,715921 průmysl <= 1470,299098 > 1470,299098 ID=5 N=77 Mu=0,815450 Var=1,069869 organický uhlík <= 2,450833 > 2,450833 ID=10 N=66 Mu=1,864722 Var=0,697985 ID=11 N=10 Mu=3,294968 Var=0,115593 = Fluvizem, Glej, Luvizem, Typy půd (MKSP) Hnedozem, Kambizem, nadmořská výška Pararendzina, Pseudoglej, Cernice Mesta, Podzol, Cernozem <= 187,500000 > 187,500000 ID=6 N=28 ID=7 N=49 ID=12 N=4 ID=13 N=62 Mu=1,255405 Var=1,020413 Mu=0,564047 Var=0,924320 Mu=3,197603 Var=0,553653 Mu=1,778730 Var=0,585284 <= 2922,135363 > 2922,135363 ID=8 N=19 ID=9 N=30 Mu=0,983052 Var=1,334494 průmysl Mu=0,298677 Var=0,482932 <= 0,246750 > 0,246750 ID=14 N=18 ID=15 N=44 Mu=1,293071 Var=0,313663 organický uhlík Mu=1,977409 Var=0,560438
hot spots Počet lokalit = 186 Median = 4.26, 25%-75% = (2.1-9.69), 5%-95% = (0.518-49.07) koncentrace PCBs 50 45 40 35 30 25 20 15 10 5 0
Regresní strom pro HCB ( n = 223) 100 Histogram ln HCB 105 73.3% vyčerpané variability (krosvalidace 69,9% - 77,5%) počet pozorování 80 60 40 20 0 N = 223 58 N = 9 Odlehlé hodnoty 29 ID=1 N=223 19 Mu=0,870861 8 Var=1,100627 1 2 1 3 0 2 2 0 2-4 -3-2 -1 0 1 2 3 4 5 6 7 8 9 10 organický uhlík kategorie <= 0,585539 > 0,585539 ID=2 N=83 ID=3 N=140 Mu=0,343832 Var=1,828543 Mu=1,183313 Var=0,406778 Vzdálenost od prumyslu <= 1174,751769 > 1174,751769 ID=4 N=42 ID=5 N=41 Mu=0,949894 Var=1,476460 Mu=-0,277012 Var=1,427497 kultura organický uhlík = Orná půda, Trvalé tr. p. = Lesní půda <= 0,120500 > 0,120500 ID=6 N=15 ID=7 N=27 ID=8 N=4 ID=9 N=37 Mu=1,775460 Mu=0,491246 Mu=-1,927509 Mu=-0,098580 Var=0,909695 Var=1,202327 Var=0,195472 Var=1,234349 kultura = Lesní půda = Orná půda, Trvalé trav.porosty ID=10 N=16 ID=11 N=124 Mu=0,551884 Var=0,382540 Mu=1,264788 Var=0,351822 nadmořská výška <= 246,500000 > 246,500000 ID=12 N=22 ID=13 N=102 Mu=0,833352 Var=0,630361 Mu=1,357843 Var=0,242939 nadmořská výška <= 471,500000 > 471,500000 ID=14 N=84 ID=15 N=18 Mu=1,416938 Var=0,216613 Mu=1,082065 Var=0,273442
hot spots 14 12 Počet lokalit = 232 Median = 1.02, 25%-75% = (0-3.5), 5%-95% = (0-9.22) koncentrace HCB 10 8 6 4 2 0
Regresní strom pro DDX ( n = 127) 50 45 Histogram ln DDX 46 počet pozorování 40 35 30 25 20 15 N = 127 19 37 14 N=6 Odlehlé hodnoty 61.2% vyčerpané variability (krosvalidace 51,4% - 62,5%) 10 5 0 8 ID=1 N=127 Mu=3.272515 1 2 3 2 0 1 Var=0.623749-2 -1 0 1 2 3 4 5 6 7 8 9 MKSP kategorie = Fluv izem, Hnedozem, Pseudoglej = Glej, Kambizem, Luv izem, Cernozem ID=2 N=50 ID=3 N=77 Mu=3.005303 Mu=3.446029 Var =0.523631 Var=0.612288 kultura kultura esní půda, trvalé trav. porosty ID=4 N=7 orná půda ID=5 N=43 lesní půda ID=8 N=9 orná půda, trvalé trav. porosty ID=9 N=68 Mu=2.243217 Mu=3.129364 Mu=2.882959 Mu=3.520553 Var=0.273860 Var=0.454355 Var=0.235822 Var=0.548422 v zdálenost od zastav ěné plochy <= 364 m > 364 m ID=6 N=15 ID=7 N=28 nadmořská výška <= 350 m n.m. > 350 m n. m. ID=10 N=31 ID=11 N=37 Mu=3.468068 Mu =2.94 7915 Mu=3.331552 Mu=3.678905 Var=0.317783 Var=0.433137 Var=0.352094 Var=0.657908 nadmořská výška <= 450 m n. m. > 450 m n. m. ID=12 N=17 ID=13 N=20 Mu=4.007039 Var=0.343289 Mu=3.399991 Var=0.286021
hot spots Počet lokalit = 127 koncentrace DDX 140 120 100 80 60 40 20 0-20 Median = 19.8,25%-75% = (10.467-39.05), 5%-95% = (2.24-116.5)
Závěry I. Prediktivní modelování koncentrací Dle modelu je distribuce polutantů závislá na vlastnostech prostředí jako důsledek jejich perzistence Výsledky regresních stromů jsou dobře interpretovatelné a v souladu s teoretickými předpoklady Největší shody mezi predikovanými a reálnými koncentracemi bylo dosaženo u HCB (73,7%) a PCB (69%), které se ukázaly také jako nejstabilnější; mohlo by to naznačovat jejich převažující původ v lokálně ohraničených a bodových zdrojích na rozdíl od PAHs a DDX
Závěry II. Nejmenší predikční síla modelu u PAHs je zřejmě způsobena jejich pokračující plošnou emisí, nízkým počtem lokalit (103) nepostihující celý gradient prostředí a nedostatečnými prediktory (možné zlepšení přidáním dalších prediktorů lépe charakterizujícími jejich antropogenní původ- hustota osídlení, plynofikace) Predikce DDx je nejméně stabilní zřejmě v důsledku jejich plošného rozšíření, avšak je zde závislost na kultuře a typu půdy pravděpodobně jako důsledek zemědělských aplikací Všechny modely mohou být zkresleny v důsledku nerovnoměrného vzorkování a nejednotné metodiky, vzniklé především sloučením dat z různých projektů a také dostupnými prediktory
Rozvoj studijního oboru Matematická biologie PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia matematická biologie a státním rozpočtem České republiky INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ