Pokročilé neparametrické metody

Podobné dokumenty
Typy a zdroje kontaminace půd

Prostorová analýza a prediktivní modelování INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ

Pokročilé neparametrické metody. Klára Kubošová

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pokročilé neparametrické metody. Klára Kubošová

Rozhodovací stromy a lesy

ANALÝZA A KLASIFIKACE DAT

Pokročilé neparametrické metody. Klára Kubošová

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Úvodem Dříve les než stromy 3 Operace s maticemi

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

Neuronové časové řady (ANN-TS)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Kalibrace a limity její přesnosti

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Inovace bakalářského studijního oboru Aplikovaná chemie

VALIDACE GEOCHEMICKÝCH MODELŮ POROVNÁNÍM VÝSLEDKŮ TEORETICKÝCH VÝPOČTŮ S VÝSLEDKY MINERALOGICKÝCH A CHEMICKÝCH ZKOUŠEK.

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

LINEÁRNÍ REGRESE. Lineární regresní model

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Prostorová variabilita

Kapacita jako náhodná veličina a její měření. Ing. Igor Mikolášek, Ing. Martin Bambušek Centrum dopravního výzkumu, v. v. i.

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Regresní analýza. Eva Jarošová

Aplikovaná statistika v R - cvičení 2

PRAVDĚPODOBNOST A STATISTIKA

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Tomáš Karel LS 2012/2013

Možnosti modelování lesní vegetační stupňovitosti pomocí geoinformačních analýz

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

SROVNÁNÍ ČASOVÝCH ŘAD VZORKOVÁNÍ POPS V OVZDUŠÍ A STANOVENÍ DLOUHODOBÝCH TRENDŮ. Jiří Kalina. Podpořeno grantem z Islandu, Lichtenštejnska a Norska

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Statistická analýza dat

2019/03/31 17:38 1/2 Klasifikační a regresní stromy

6. Lineární regresní modely

6. Lineární regresní modely

10. Předpovídání - aplikace regresní úlohy

Regresní a korelační analýza

Lineární regrese. Komentované řešení pomocí MS Excel

Plánování experimentu

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

StatSoft Úvod do neuronových sítí

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

You created this PDF from an application that is not licensed to print to novapdf printer (

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

http: //meloun.upce.cz,

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Rozvoj metodiky tvorby map znečištění. Jan Horálek Pavel Kurfürst, Nina Benešová, Roman Juras, Jana Ďoubalová

Regresní a korelační analýza

4EK211 Základy ekonometrie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní a korelační analýza

IBM SPSS Neural Networks

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Tvorba nelineárních regresních modelů v analýze dat

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Metody in silico. stanovení výpočtem

Regresní a korelační analýza

STATISTICKÉ ODHADY Odhady populačních charakteristik

Neuronové sítě v DPZ

6. Lineární regresní modely

Korelační a regresní analýza

UNIVERZITA PARDUBICE

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

Aplikovaná statistika v R - cvičení 3

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Tomáš Karel LS 2012/2013

analýzy dat v oboru Matematická biologie

Klasická a robustní ortogonální regrese mezi složkami kompozice

Úloha 1: Lineární kalibrace

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Kalibrace a limity její přesnosti

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

AVDAT Klasický lineární model, metoda nejmenších

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

Moderní systémy pro získávání znalostí z informací a dat

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Kalibrace a limity její přesnosti

Analýza dat na PC I.

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Transkript:

Validační techniky Klára Kubošová

Validace modelů k objektivnějšímu a méně zkreslenému odhadu celkové chyby modelu pro výběr mezi různými modely stability modelu jeho obecné platnosti složitost modelu výběru proměnných do modelu!vybrat nejjednodušší model, vysvětlující největší množství informace! Validační techniky analytické, zahrnující například informační kritéria (AIC, BIC) Založené na opakovaném použití pozorování (krosvalidace, jednoduché rozdělení, bootstrap, jacknifing)

Složitost modelu Hastie et al., 2009

Analytické validační techniky S množstvím proměnných přidávaných do modelu, můžeme sice zvýšit jeho přesnost, ale tím také roste nebezpečí nadhodnocení modelu Informační kritéria penalizují počet proměnných v modelu Výsledek je kompromisem mezi složitostí modelu a jeho přesností Informační kritéria se používají nejčastěji pro parametrickou regresi, kdy se vybírá optimální model z modelů, obsahující různý počet vysvětlujících proměnných; jsou však použitelné i pro neparametrické techniky

Informační kritéria AIC - Akaikovo informační kritérium (Akaike, 1974) AIC = 2k 2ln( L) BIC Bayesovo informační kritérium (Schwarz, 1978) někdy také jako Schwarzovo kritérium (SBC, SBIC) BIC = 2ln L + k ln( n) kde k je počet parametrů modelu, L variabilita vyčerpaná modelem (většinou maximálně věrohodný odhad) a n počet pozorování u BIC je penalizace přidaných proměnných větší než u AIC

Validační techniky II - resampling metody jednoduché rozdělení, krosvalidace, bootstrap - techniky založeny na opakovaném použití pozorování Jednoduché rozdělení (simple spliting) rozdělení na testovací a trénovací soubor (split-sample,hold-out či simple splitting) pouze jeden podsoubor (testovací) je použit k odhadu celkové chyby (generalization error) je potřeba větší počet pozorování, aby při dělení nedošlo ke ztrátám informace Pokud by se následně vyměnily testovací a trénovací soubor, šlo by již o krosvalidaci pro k = 2. Pokročilé neparametrické metody

Křížové ověřování - krosvalidace pozorování jsou rozdělena do k nezávislých podsouborů (obvykle k=10) jeden podsoubor se vždy použije pro testování (pozorování nejsou použity při tvorbě modelu) a všech ostatních k-1 skupin pro tvorbu modelu celkem je vytvořeno k modelů otestovaných na k testovacích souborech Z výsledků testovacích souborů můžeme učit stabilitu metody (spočítat např. průměr a směrodatnou odchylku přesnosti na testovacím souboru) a její predikční schopnost Výhoda krosvalidace - používáme pro otestování vždy nezávislý datový soubor

krosvalidace Hastie et al., 2009

Křížové ověřování (krosvalidace) Rozdělení datového souboru do k skupin (zde k=5) testovací trénovací trénovací trénovací trénovací trénovací testovací trénovací trénovací trénovací trénovací trénovací testovací trénovací trénovací trénovací trénovací trénovací testovací trénovací trénovací trénovací trénovací trénovací testovací

Křížové ověřování - krosvalidace Pokud se počet krosvalidačních podsouborů rovná počtu pozorování, pak se jedná o "leave-one-out" (LOO) krosvalidaci LOO krosvalidace byla navržena pro velmi malé datové soubory Je vhodná pro odhad obecné chyby v modelu pro spojité funkce, jako je střední kvadratická chyba není optimální pro nespojité odhady chyby např. počet chybně zařazených pozorování LOO krosvalidace je v lineárních modelech asymptoticky ekvivalentní k AIC zatímco leave-v-out krosvalidace k BIC Krosvalidace je velmi často používána k určení optimální velikosti při tvorbě rozhodovacích stromů Pro výběr podmnožiny proměnných v lineární regrese má 10-fold a 5- fold krosvalidace lepší výsledky než LOO

Bootstrap založen na náhodných výběrech s opakováním z původního výběru Soubor se v každém kroku náhodně rozdělí na testovací a trénovací, jako procento z celkového souboru Testovací soubory však nejsou nezávislé jako u krosvalidace Při každém novém náhodném výběru se vychází vždy ze všech dat Vzorky se tedy v jednotlivých testovacích souborech mohou opakovat Výhodou je možnost použití i pro menší datové soubory V moha případech funguje bootstrap lépe než krosvalidace pro rozhodovací stromy, dávají horší výsledky odhady jsou příliš optimistické použití v Random forest a baggingu se používají k tvorbě lesa, k odhadu celkové chyby, v kombinaci s randomizací k odhadu významnosti proměnných u neuronových sítí je bootstrap používán pro výpočet intervalů spolehlivosti jejich výsledků

Pokročilé neparametrické metody Případové studie použití neparametrických metod

Prediktivní modelování potencionálního rozšíření rostlinných společenstev Pokročilé neparametrické metody

Prediktivní modelování rozšíření rostlinných asociací Pokročilé neparametrické metody Cílem studie bylo zjistit potenciální distribuci rostlinných asociací, srovnat různé modelovací techniky a vybrat nejvhodnější metodu pro predikci prostorové distribuce asociací na území České republiky

Prediktivní modelování potencionálního rozšíření rostlinných asociací v ČR Pokročilé neparametrické metody 37 asociací 5822 fytocenologických snímků-podle společného výskytu druhů vysvětlující proměnné: nadmořská výška, acidifikace, průměrná teplota (červnová, lednová, roční), srážky, Presenčně/absenční odpověď byla získána položením sledované asociace proti všem ostatním snímkům z databáze (tj. z ostatních asociací), takto jsme postupovali pro každou asociaci. 37 685 čtverců, 2x2 km, průměry hodnot za každý čtverec-geografický informační systém ArcGIS

Rozmístění fytocenologických snímků Zdroj dat: České národní fytocenologická databáze (Přírodovědecká fakulta, MU) (http://www.sci.muni.cz/botany/database.htm) Pokročilé neparametrické metody

Vybrané metody ordinační metoda - Canonical Correspondence Analysis (CCA) Regresní binomické rozdělení Generalized Linear Models (GLM) Klasifikační kategoriální proměnná klasifikační stromy - CART, CHAID neural network - Multilayer Perceptron (MLP), Radial Basis Function (RBF) Soubor náhodně rozdělen na testovací a trénovací soubor

Výsledky výsledky modelů byly otestovány na nezávislém datovém souboru (celková přesnost, Kappa) Pro každou rostlinnou asociaci byly vytvořeny různé modely Byla zjištěna shoda predikovaných a pozorovaných vzorků Pro 28 rostlinných asociací byla vytvořena mapa jejího potenciálního rozšíření

Mapa potenciálního rozšíření Aphano arvensis-matricarietum chamomillae Pokročilé neparametrické metody

Výsledky srovnání metod Associations GLM accuracy CART accuracy CHAID accuracy MLP accuracy RBF accuracy Setario viridis-fumarietum 82.0 76.2 73.0 64.2 63.6 Euphorbio exiguae-melandrietum noctiflori 81.0 74.7 77.1 63.2 63.0 Vaccinio-Callunetum vulgaris 79.5 76.8 75.3 64.1 64.9 Angelico sylvestris-cirsietum palustris 83.2 63.9 48.8 60.4 60.9 Chaerophyllo hirsuti-filipenduletum ulmariae 81.9 78.2 48.8 62.8 61.1 Echinochloo crus-gali-setarietum pumilae 78.2 51.5 61.7 58.4 59.8 Filipendulo ulmariae-geranietum palustris 72.9 59.5 66.0 35.1 51.9 Aphano arvensis-matricarietum chamomillae 78.7 72.7 69.6 58.8 32.5 Ranunculo bulbosi-arrhenatheretum elatioris 67.1 68.8 58.6 44.6 49.2 Poo-Trisetetum flavescentis 66.4 62.2 64.9 39.9 46.7

Výsledky srovnání metod I Regrese - GLM Nejvyšší shoda mezi pozorovanými a odhadnutými hodnotami Lze jednoduše implementovat do GISu Pro každou asociaci regresní rovnice Lze spočítat pravděpodobnost výskytu Klasifikační stromy (CART a CHAID) Výsledky nejsou kontinuální pravděpodobnosti, závisí na počtu koncových uzlů stromu Větší predikční síla v případech nesplnění distribučních předpokladů pro regresi a nelineární vztahy Neuronové sítě (MLP,RBF) Větší predikční síla v případech nesplnění distribučních předpokladů pro regresi a nelineární vztahy Prediktory mohou být jak kontinuální tak spojité Lze spočítat pravděpodobnost výskytu Není vhodná pro malý počet vzorků a nevyvážené kategorie Ordinační techniky CCA Složitější na výpočet Vzdálenost od centroidu osy nevyčerpávaly dostatek variability v datech pro použití této techniky

Výběr indikačních taxonů makrozoobentosu pro říční habitaty Pokročilé neparametrické metody Cíle studie: stanovit preference taxonů k abioticky definovaným říčním habitatům pomocí dvou metod dále schopnost taxonů odlišit mezi jednotlivými typy habitatů a tím zjistit i vhodnost habitatů, definovaných na základě hydraulických podmínek. Výsledky metody Random Forests srovnat s metodou Indicator Value Analysis (IndVal)

Habitatové typy Habitat H1 peřeje Habitat H2 - příbřežní tišiny Habitat H3 tůně 58 vzorků 87 taxonů makrozoobentosu Habitat H4 - boční ramena

Výsledky překryv říčních habitatů Habitat Random Forests Prediction Success Total Cases Percent Correct pools rapids bank calm pools 27 70.4 19 3 4 1 rapids 40 65 12 26 1 1 bank calm 25 40 5 3 10 7 side arm 15 93.3 0 0 1 14 107 67.2 36 32 16 23 side arm S-POOL M-POOL CH-RNRF CH-POOL Map of proximities CH-POOL CH-RNRF M-POOL S-POOL Překryv jednotlivých habiatů Nejlépe definované habitaty z hlediska taxonů byly peřeje (OA = 87%) a boční ramena (OA = 90%). Naopak tůně (OA = 53%) a příbřežní tišiny (OA = 54%) byly odlišitelné hůře, vzhledem k jejich překryvu s ostatními habitaty. Pokročilé neparametrické metody

Preference taxonu k typu habitatu I Pokročilé neparametrické metody

Preference taxonu k typu habitatu II Pokročilé neparametrické metody

Závěry I Pro každý taxon byla zjištěna míra preference ke každému typu habitatu bylo velmi málo taxonů preferující příbřežní tišiny a boční ramena - tyto habitaty byly definovány převážně negativně indikačními taxony většina taxonů nebyla specifická pro jeden habitat Bylo vybráno 50, které byly určeny jako indikační jednou z těchto metod metody se shodovaly v 75% vybraných taxonů, přičemž u prvních 20 nejvýznamnějších taxonů se metody shodovaly již na 85%.

Závěry II Dalším závěrem studie bylo zhodnocení účinnosti metody RF pro výběr proměnných na biologických datech Oproti IndVal metoda RandomForest poskytuje další informace a výhod Pomocí RF lze určit i negativně indikační taxony, Metoda RF je odolná proti odlehlým hodnotám RF používají pouze ty vzorky k určení habitatu, které jsou pro daný habitat nejpravděpodobnější Model poskytuje vyčerpanou variabilitu pro každý habitat odráží míru vazby taxonů k habitatům Lze použít různé typy proměnných Vhodná a zajímavá metoda Nevýhodou je pak náročné testování parametrů v modelu

Prostorový distribuční model koncentrací perzistentních organických polutantů v půdě Pokročilé neparametrické metody Cíle studie Identifikace zdrojů variability v hodnotách kontaminantů půd a modelování obsahu kontaminantů v půdách ČR shrnutí vlivu prostorové informace a charakteristik lokalit (fyzikálně chemické charakteristiky půd, nadmořská výška, pedologické charakteristiky, informace získané analýzou GIS vrstev apod.) na hladiny kontaminantů v půdách Vytvoření modelů vysvětlujících úrovně kontaminace Vytvoření distribučních map koncentrací POPs v půdě - Využití map k výpočtu těkání a predikce rizik

Datový soubor predikce pozaďových koncentrací v půdě bez hot spots Data z několika projektů (v letech 2005-2007) poskytnutých pracovišti RECETOX, UKZUZ, AOPK Použité analýzy: regresní stromy (CART) Prediktory Antropogenní aktivita vzdálenost od průmyslu; obydlených ploch a silnic; třída silnic; staré zátěže; velikost zastavěné plochy Klimatické parametry nadmořská výška, průměrná roční teplota, roční srážky Vlastnosti půdy půdní typ, obsah organického uhlíku, charakter půdy, využití krajiny (land cover)

Významnost parametrů prostředí PCBs (N=219) DDT (N=180) PAHs (N=218) HCB (N=192) 0 0.5 1 0 0.5 1 0 0.5 1 0 0.5 1 altitude temperature precipitation orgcarbon soil type landuse char. of soil size of pop. ar. dist. pop. area dist. industry dist. road class road NOx SO2 PM risk Pokročilé neparametrické metody

Regresní strom pro PCBs Pastures, Natural grassland, Moors and heathland, Fruit trees, Peatbogs N = 95 M = 2.3 <=785 Size of pop. area >785 N = 219 M = 3.7 Land cover Green urban areas, arable land, Broad-leaved and Coniferous forest, Transitional woodland shrub N = 124 M = 5.2 <= 26.7 % Corg > 26.7 % Natural grassland, Moors, heathland, Peatbogs N = 45 M = 1.3 ID = 3 N = 68 M = 1.6 Land cover N = 23 M = 2.4 ID = 2 N = 27 M = 5.6 ID = 1 Pastures, Fruit trees N = 98 M = 4.3 <= 408 Size of pop. area >408 N = 53 M = 3.4 N = 45 M = 5.8 ID = 5 Altitude <=521 m asl >521 m asl N = 26 M = 10.6 ID = 4 N = 43 M = 2.9 ID = 6 N = 10 M = 6.2 ID = 7 68.6% explained variability (crossvalidation 61,9% - 69,0%)

Regresní strom pro HCB arable land N = 192 M = 1.2 Character of soil grassland, anthropogenic, forest and peaty soil <=176 N = 38 M =3.2 N = 154 M = 0.9 Anthrosols, Risk >176 Cambisols Soil type Fluvisols, Arenosols, Podzols, except arenic N = 27 M = 2.4 ID = 1 N = 11 M = 6.6 ID = 2 N = 99 M = 0.8 N = 55 M = 1.4 Size of pop. area <=691 >691 <=869m asl Altitude >869m asl Luvisols and Stagnosols N = 7 M = 0.2 ID = 4 N = 71 M = 0.6 Soil type Anthrosols, Cambisols N = 64 M = 0.7 ID = 5 <=365m asl (grassland) N = 28 M = 1.3 ID = 3 N = 26 M = 1.3 ID = 7 N = 39 M = 1.6 Altitude (character of soil) N = 13 M = 2.6 ID = 8 N = 16 M = 0.8 ID = 6 >365m asl (Forest soil) 76.2% explained variability (crossvalidation 72,9% - 77,5%)

Predikované koncentrace POPs Predicted concentrations of PCBs in soil Predicted concentrations of PAHs in soil Predicted concentrations of DDT in soil Predicted concentrations of HCB in soil

Závěry Pro HCB, PCBs, PAHs a DDTs byly vytvořeny distribuční mapy koncentrací POPs v půdě k výpočtu celkové kontaminace, těkání nebo rizik Dle modelu je distribuce polutantů závislá na vlastnostech prostředí jako důsledek jejich perzistence Výsledky regresních stromů jsou dobře interpretovatelné a v souladu s teoretickými předpoklady Největší shody mezi predikovanými a reálnými koncentracemi bylo dosaženo u HCB (73,7%) a PCBs (69%), které se ukázaly také jako nejstabilnější; mohlo by to naznačovat jejich převažující původ v lokálně ohraničených a bodových zdrojích na rozdíl od PAHs a DDTs Při použití lesů se zvýšila přesnost predikce o 3%-5%, pattern však zůstal zachovaný

Poděkování Rozvoj studijního oboru Matematická biologie PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia Matematické biologie a státním rozpočtem České republiky