Validační techniky Klára Kubošová
Validace modelů k objektivnějšímu a méně zkreslenému odhadu celkové chyby modelu pro výběr mezi různými modely stability modelu jeho obecné platnosti složitost modelu výběru proměnných do modelu!vybrat nejjednodušší model, vysvětlující největší množství informace! Validační techniky analytické, zahrnující například informační kritéria (AIC, BIC) Založené na opakovaném použití pozorování (krosvalidace, jednoduché rozdělení, bootstrap, jacknifing)
Složitost modelu Hastie et al., 2009
Analytické validační techniky S množstvím proměnných přidávaných do modelu, můžeme sice zvýšit jeho přesnost, ale tím také roste nebezpečí nadhodnocení modelu Informační kritéria penalizují počet proměnných v modelu Výsledek je kompromisem mezi složitostí modelu a jeho přesností Informační kritéria se používají nejčastěji pro parametrickou regresi, kdy se vybírá optimální model z modelů, obsahující různý počet vysvětlujících proměnných; jsou však použitelné i pro neparametrické techniky
Informační kritéria AIC - Akaikovo informační kritérium (Akaike, 1974) AIC = 2k 2ln( L) BIC Bayesovo informační kritérium (Schwarz, 1978) někdy také jako Schwarzovo kritérium (SBC, SBIC) BIC = 2ln L + k ln( n) kde k je počet parametrů modelu, L variabilita vyčerpaná modelem (většinou maximálně věrohodný odhad) a n počet pozorování u BIC je penalizace přidaných proměnných větší než u AIC
Validační techniky II - resampling metody jednoduché rozdělení, krosvalidace, bootstrap - techniky založeny na opakovaném použití pozorování Jednoduché rozdělení (simple spliting) rozdělení na testovací a trénovací soubor (split-sample,hold-out či simple splitting) pouze jeden podsoubor (testovací) je použit k odhadu celkové chyby (generalization error) je potřeba větší počet pozorování, aby při dělení nedošlo ke ztrátám informace Pokud by se následně vyměnily testovací a trénovací soubor, šlo by již o krosvalidaci pro k = 2. Pokročilé neparametrické metody
Křížové ověřování - krosvalidace pozorování jsou rozdělena do k nezávislých podsouborů (obvykle k=10) jeden podsoubor se vždy použije pro testování (pozorování nejsou použity při tvorbě modelu) a všech ostatních k-1 skupin pro tvorbu modelu celkem je vytvořeno k modelů otestovaných na k testovacích souborech Z výsledků testovacích souborů můžeme učit stabilitu metody (spočítat např. průměr a směrodatnou odchylku přesnosti na testovacím souboru) a její predikční schopnost Výhoda krosvalidace - používáme pro otestování vždy nezávislý datový soubor
krosvalidace Hastie et al., 2009
Křížové ověřování (krosvalidace) Rozdělení datového souboru do k skupin (zde k=5) testovací trénovací trénovací trénovací trénovací trénovací testovací trénovací trénovací trénovací trénovací trénovací testovací trénovací trénovací trénovací trénovací trénovací testovací trénovací trénovací trénovací trénovací trénovací testovací
Křížové ověřování - krosvalidace Pokud se počet krosvalidačních podsouborů rovná počtu pozorování, pak se jedná o "leave-one-out" (LOO) krosvalidaci LOO krosvalidace byla navržena pro velmi malé datové soubory Je vhodná pro odhad obecné chyby v modelu pro spojité funkce, jako je střední kvadratická chyba není optimální pro nespojité odhady chyby např. počet chybně zařazených pozorování LOO krosvalidace je v lineárních modelech asymptoticky ekvivalentní k AIC zatímco leave-v-out krosvalidace k BIC Krosvalidace je velmi často používána k určení optimální velikosti při tvorbě rozhodovacích stromů Pro výběr podmnožiny proměnných v lineární regrese má 10-fold a 5- fold krosvalidace lepší výsledky než LOO
Bootstrap založen na náhodných výběrech s opakováním z původního výběru Soubor se v každém kroku náhodně rozdělí na testovací a trénovací, jako procento z celkového souboru Testovací soubory však nejsou nezávislé jako u krosvalidace Při každém novém náhodném výběru se vychází vždy ze všech dat Vzorky se tedy v jednotlivých testovacích souborech mohou opakovat Výhodou je možnost použití i pro menší datové soubory V moha případech funguje bootstrap lépe než krosvalidace pro rozhodovací stromy, dávají horší výsledky odhady jsou příliš optimistické použití v Random forest a baggingu se používají k tvorbě lesa, k odhadu celkové chyby, v kombinaci s randomizací k odhadu významnosti proměnných u neuronových sítí je bootstrap používán pro výpočet intervalů spolehlivosti jejich výsledků
Pokročilé neparametrické metody Případové studie použití neparametrických metod
Prediktivní modelování potencionálního rozšíření rostlinných společenstev Pokročilé neparametrické metody
Prediktivní modelování rozšíření rostlinných asociací Pokročilé neparametrické metody Cílem studie bylo zjistit potenciální distribuci rostlinných asociací, srovnat různé modelovací techniky a vybrat nejvhodnější metodu pro predikci prostorové distribuce asociací na území České republiky
Prediktivní modelování potencionálního rozšíření rostlinných asociací v ČR Pokročilé neparametrické metody 37 asociací 5822 fytocenologických snímků-podle společného výskytu druhů vysvětlující proměnné: nadmořská výška, acidifikace, průměrná teplota (červnová, lednová, roční), srážky, Presenčně/absenční odpověď byla získána položením sledované asociace proti všem ostatním snímkům z databáze (tj. z ostatních asociací), takto jsme postupovali pro každou asociaci. 37 685 čtverců, 2x2 km, průměry hodnot za každý čtverec-geografický informační systém ArcGIS
Rozmístění fytocenologických snímků Zdroj dat: České národní fytocenologická databáze (Přírodovědecká fakulta, MU) (http://www.sci.muni.cz/botany/database.htm) Pokročilé neparametrické metody
Vybrané metody ordinační metoda - Canonical Correspondence Analysis (CCA) Regresní binomické rozdělení Generalized Linear Models (GLM) Klasifikační kategoriální proměnná klasifikační stromy - CART, CHAID neural network - Multilayer Perceptron (MLP), Radial Basis Function (RBF) Soubor náhodně rozdělen na testovací a trénovací soubor
Výsledky výsledky modelů byly otestovány na nezávislém datovém souboru (celková přesnost, Kappa) Pro každou rostlinnou asociaci byly vytvořeny různé modely Byla zjištěna shoda predikovaných a pozorovaných vzorků Pro 28 rostlinných asociací byla vytvořena mapa jejího potenciálního rozšíření
Mapa potenciálního rozšíření Aphano arvensis-matricarietum chamomillae Pokročilé neparametrické metody
Výsledky srovnání metod Associations GLM accuracy CART accuracy CHAID accuracy MLP accuracy RBF accuracy Setario viridis-fumarietum 82.0 76.2 73.0 64.2 63.6 Euphorbio exiguae-melandrietum noctiflori 81.0 74.7 77.1 63.2 63.0 Vaccinio-Callunetum vulgaris 79.5 76.8 75.3 64.1 64.9 Angelico sylvestris-cirsietum palustris 83.2 63.9 48.8 60.4 60.9 Chaerophyllo hirsuti-filipenduletum ulmariae 81.9 78.2 48.8 62.8 61.1 Echinochloo crus-gali-setarietum pumilae 78.2 51.5 61.7 58.4 59.8 Filipendulo ulmariae-geranietum palustris 72.9 59.5 66.0 35.1 51.9 Aphano arvensis-matricarietum chamomillae 78.7 72.7 69.6 58.8 32.5 Ranunculo bulbosi-arrhenatheretum elatioris 67.1 68.8 58.6 44.6 49.2 Poo-Trisetetum flavescentis 66.4 62.2 64.9 39.9 46.7
Výsledky srovnání metod I Regrese - GLM Nejvyšší shoda mezi pozorovanými a odhadnutými hodnotami Lze jednoduše implementovat do GISu Pro každou asociaci regresní rovnice Lze spočítat pravděpodobnost výskytu Klasifikační stromy (CART a CHAID) Výsledky nejsou kontinuální pravděpodobnosti, závisí na počtu koncových uzlů stromu Větší predikční síla v případech nesplnění distribučních předpokladů pro regresi a nelineární vztahy Neuronové sítě (MLP,RBF) Větší predikční síla v případech nesplnění distribučních předpokladů pro regresi a nelineární vztahy Prediktory mohou být jak kontinuální tak spojité Lze spočítat pravděpodobnost výskytu Není vhodná pro malý počet vzorků a nevyvážené kategorie Ordinační techniky CCA Složitější na výpočet Vzdálenost od centroidu osy nevyčerpávaly dostatek variability v datech pro použití této techniky
Výběr indikačních taxonů makrozoobentosu pro říční habitaty Pokročilé neparametrické metody Cíle studie: stanovit preference taxonů k abioticky definovaným říčním habitatům pomocí dvou metod dále schopnost taxonů odlišit mezi jednotlivými typy habitatů a tím zjistit i vhodnost habitatů, definovaných na základě hydraulických podmínek. Výsledky metody Random Forests srovnat s metodou Indicator Value Analysis (IndVal)
Habitatové typy Habitat H1 peřeje Habitat H2 - příbřežní tišiny Habitat H3 tůně 58 vzorků 87 taxonů makrozoobentosu Habitat H4 - boční ramena
Výsledky překryv říčních habitatů Habitat Random Forests Prediction Success Total Cases Percent Correct pools rapids bank calm pools 27 70.4 19 3 4 1 rapids 40 65 12 26 1 1 bank calm 25 40 5 3 10 7 side arm 15 93.3 0 0 1 14 107 67.2 36 32 16 23 side arm S-POOL M-POOL CH-RNRF CH-POOL Map of proximities CH-POOL CH-RNRF M-POOL S-POOL Překryv jednotlivých habiatů Nejlépe definované habitaty z hlediska taxonů byly peřeje (OA = 87%) a boční ramena (OA = 90%). Naopak tůně (OA = 53%) a příbřežní tišiny (OA = 54%) byly odlišitelné hůře, vzhledem k jejich překryvu s ostatními habitaty. Pokročilé neparametrické metody
Preference taxonu k typu habitatu I Pokročilé neparametrické metody
Preference taxonu k typu habitatu II Pokročilé neparametrické metody
Závěry I Pro každý taxon byla zjištěna míra preference ke každému typu habitatu bylo velmi málo taxonů preferující příbřežní tišiny a boční ramena - tyto habitaty byly definovány převážně negativně indikačními taxony většina taxonů nebyla specifická pro jeden habitat Bylo vybráno 50, které byly určeny jako indikační jednou z těchto metod metody se shodovaly v 75% vybraných taxonů, přičemž u prvních 20 nejvýznamnějších taxonů se metody shodovaly již na 85%.
Závěry II Dalším závěrem studie bylo zhodnocení účinnosti metody RF pro výběr proměnných na biologických datech Oproti IndVal metoda RandomForest poskytuje další informace a výhod Pomocí RF lze určit i negativně indikační taxony, Metoda RF je odolná proti odlehlým hodnotám RF používají pouze ty vzorky k určení habitatu, které jsou pro daný habitat nejpravděpodobnější Model poskytuje vyčerpanou variabilitu pro každý habitat odráží míru vazby taxonů k habitatům Lze použít různé typy proměnných Vhodná a zajímavá metoda Nevýhodou je pak náročné testování parametrů v modelu
Prostorový distribuční model koncentrací perzistentních organických polutantů v půdě Pokročilé neparametrické metody Cíle studie Identifikace zdrojů variability v hodnotách kontaminantů půd a modelování obsahu kontaminantů v půdách ČR shrnutí vlivu prostorové informace a charakteristik lokalit (fyzikálně chemické charakteristiky půd, nadmořská výška, pedologické charakteristiky, informace získané analýzou GIS vrstev apod.) na hladiny kontaminantů v půdách Vytvoření modelů vysvětlujících úrovně kontaminace Vytvoření distribučních map koncentrací POPs v půdě - Využití map k výpočtu těkání a predikce rizik
Datový soubor predikce pozaďových koncentrací v půdě bez hot spots Data z několika projektů (v letech 2005-2007) poskytnutých pracovišti RECETOX, UKZUZ, AOPK Použité analýzy: regresní stromy (CART) Prediktory Antropogenní aktivita vzdálenost od průmyslu; obydlených ploch a silnic; třída silnic; staré zátěže; velikost zastavěné plochy Klimatické parametry nadmořská výška, průměrná roční teplota, roční srážky Vlastnosti půdy půdní typ, obsah organického uhlíku, charakter půdy, využití krajiny (land cover)
Významnost parametrů prostředí PCBs (N=219) DDT (N=180) PAHs (N=218) HCB (N=192) 0 0.5 1 0 0.5 1 0 0.5 1 0 0.5 1 altitude temperature precipitation orgcarbon soil type landuse char. of soil size of pop. ar. dist. pop. area dist. industry dist. road class road NOx SO2 PM risk Pokročilé neparametrické metody
Regresní strom pro PCBs Pastures, Natural grassland, Moors and heathland, Fruit trees, Peatbogs N = 95 M = 2.3 <=785 Size of pop. area >785 N = 219 M = 3.7 Land cover Green urban areas, arable land, Broad-leaved and Coniferous forest, Transitional woodland shrub N = 124 M = 5.2 <= 26.7 % Corg > 26.7 % Natural grassland, Moors, heathland, Peatbogs N = 45 M = 1.3 ID = 3 N = 68 M = 1.6 Land cover N = 23 M = 2.4 ID = 2 N = 27 M = 5.6 ID = 1 Pastures, Fruit trees N = 98 M = 4.3 <= 408 Size of pop. area >408 N = 53 M = 3.4 N = 45 M = 5.8 ID = 5 Altitude <=521 m asl >521 m asl N = 26 M = 10.6 ID = 4 N = 43 M = 2.9 ID = 6 N = 10 M = 6.2 ID = 7 68.6% explained variability (crossvalidation 61,9% - 69,0%)
Regresní strom pro HCB arable land N = 192 M = 1.2 Character of soil grassland, anthropogenic, forest and peaty soil <=176 N = 38 M =3.2 N = 154 M = 0.9 Anthrosols, Risk >176 Cambisols Soil type Fluvisols, Arenosols, Podzols, except arenic N = 27 M = 2.4 ID = 1 N = 11 M = 6.6 ID = 2 N = 99 M = 0.8 N = 55 M = 1.4 Size of pop. area <=691 >691 <=869m asl Altitude >869m asl Luvisols and Stagnosols N = 7 M = 0.2 ID = 4 N = 71 M = 0.6 Soil type Anthrosols, Cambisols N = 64 M = 0.7 ID = 5 <=365m asl (grassland) N = 28 M = 1.3 ID = 3 N = 26 M = 1.3 ID = 7 N = 39 M = 1.6 Altitude (character of soil) N = 13 M = 2.6 ID = 8 N = 16 M = 0.8 ID = 6 >365m asl (Forest soil) 76.2% explained variability (crossvalidation 72,9% - 77,5%)
Predikované koncentrace POPs Predicted concentrations of PCBs in soil Predicted concentrations of PAHs in soil Predicted concentrations of DDT in soil Predicted concentrations of HCB in soil
Závěry Pro HCB, PCBs, PAHs a DDTs byly vytvořeny distribuční mapy koncentrací POPs v půdě k výpočtu celkové kontaminace, těkání nebo rizik Dle modelu je distribuce polutantů závislá na vlastnostech prostředí jako důsledek jejich perzistence Výsledky regresních stromů jsou dobře interpretovatelné a v souladu s teoretickými předpoklady Největší shody mezi predikovanými a reálnými koncentracemi bylo dosaženo u HCB (73,7%) a PCBs (69%), které se ukázaly také jako nejstabilnější; mohlo by to naznačovat jejich převažující původ v lokálně ohraničených a bodových zdrojích na rozdíl od PAHs a DDTs Při použití lesů se zvýšila přesnost predikce o 3%-5%, pattern však zůstal zachovaný
Poděkování Rozvoj studijního oboru Matematická biologie PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia Matematické biologie a státním rozpočtem České republiky