Pokročilé neparametrické metody
|
|
- Daniel Mach
- před 7 lety
- Počet zobrazení:
Transkript
1 Validační techniky Klára Kubošová
2 Validace modelů k objektivnějšímu a méně zkreslenému odhadu celkové chyby modelu pro výběr mezi různými modely stability modelu jeho obecné platnosti složitost modelu výběru proměnných do modelu!vybrat nejjednodušší model, vysvětlující největší množství informace! Validační techniky analytické, zahrnující například informační kritéria (AIC, BIC) Založené na opakovaném použití pozorování (krosvalidace, jednoduché rozdělení, bootstrap, jacknifing)
3 Složitost modelu Hastie et al., 2009
4 Analytické validační techniky S množstvím proměnných přidávaných do modelu, můžeme sice zvýšit jeho přesnost, ale tím také roste nebezpečí nadhodnocení modelu Informační kritéria penalizují počet proměnných v modelu Výsledek je kompromisem mezi složitostí modelu a jeho přesností Informační kritéria se používají nejčastěji pro parametrickou regresi, kdy se vybírá optimální model z modelů, obsahující různý počet vysvětlujících proměnných; jsou však použitelné i pro neparametrické techniky
5 Informační kritéria AIC - Akaikovo informační kritérium (Akaike, 1974) AIC = 2k 2ln( L) BIC Bayesovo informační kritérium (Schwarz, 1978) někdy také jako Schwarzovo kritérium (SBC, SBIC) BIC = 2ln L + k ln( n) kde k je počet parametrů modelu, L variabilita vyčerpaná modelem (většinou maximálně věrohodný odhad) a n počet pozorování u BIC je penalizace přidaných proměnných větší než u AIC
6 Validační techniky II - resampling metody jednoduché rozdělení, krosvalidace, bootstrap - techniky založeny na opakovaném použití pozorování Jednoduché rozdělení (simple spliting) rozdělení na testovací a trénovací soubor (split-sample,hold-out či simple splitting) pouze jeden podsoubor (testovací) je použit k odhadu celkové chyby (generalization error) je potřeba větší počet pozorování, aby při dělení nedošlo ke ztrátám informace Pokud by se následně vyměnily testovací a trénovací soubor, šlo by již o krosvalidaci pro k = 2. Pokročilé neparametrické metody
7 Křížové ověřování - krosvalidace pozorování jsou rozdělena do k nezávislých podsouborů (obvykle k=10) jeden podsoubor se vždy použije pro testování (pozorování nejsou použity při tvorbě modelu) a všech ostatních k-1 skupin pro tvorbu modelu celkem je vytvořeno k modelů otestovaných na k testovacích souborech Z výsledků testovacích souborů můžeme učit stabilitu metody (spočítat např. průměr a směrodatnou odchylku přesnosti na testovacím souboru) a její predikční schopnost Výhoda krosvalidace - používáme pro otestování vždy nezávislý datový soubor
8 krosvalidace Hastie et al., 2009
9 Křížové ověřování (krosvalidace) Rozdělení datového souboru do k skupin (zde k=5) testovací trénovací trénovací trénovací trénovací trénovací testovací trénovací trénovací trénovací trénovací trénovací testovací trénovací trénovací trénovací trénovací trénovací testovací trénovací trénovací trénovací trénovací trénovací testovací
10 Křížové ověřování - krosvalidace Pokud se počet krosvalidačních podsouborů rovná počtu pozorování, pak se jedná o "leave-one-out" (LOO) krosvalidaci LOO krosvalidace byla navržena pro velmi malé datové soubory Je vhodná pro odhad obecné chyby v modelu pro spojité funkce, jako je střední kvadratická chyba není optimální pro nespojité odhady chyby např. počet chybně zařazených pozorování LOO krosvalidace je v lineárních modelech asymptoticky ekvivalentní k AIC zatímco leave-v-out krosvalidace k BIC Krosvalidace je velmi často používána k určení optimální velikosti při tvorbě rozhodovacích stromů Pro výběr podmnožiny proměnných v lineární regrese má 10-fold a 5- fold krosvalidace lepší výsledky než LOO
11 Bootstrap založen na náhodných výběrech s opakováním z původního výběru Soubor se v každém kroku náhodně rozdělí na testovací a trénovací, jako procento z celkového souboru Testovací soubory však nejsou nezávislé jako u krosvalidace Při každém novém náhodném výběru se vychází vždy ze všech dat Vzorky se tedy v jednotlivých testovacích souborech mohou opakovat Výhodou je možnost použití i pro menší datové soubory V moha případech funguje bootstrap lépe než krosvalidace pro rozhodovací stromy, dávají horší výsledky odhady jsou příliš optimistické použití v Random forest a baggingu se používají k tvorbě lesa, k odhadu celkové chyby, v kombinaci s randomizací k odhadu významnosti proměnných u neuronových sítí je bootstrap používán pro výpočet intervalů spolehlivosti jejich výsledků
12 Pokročilé neparametrické metody Případové studie použití neparametrických metod
13 Prediktivní modelování potencionálního rozšíření rostlinných společenstev Pokročilé neparametrické metody
14 Prediktivní modelování rozšíření rostlinných asociací Pokročilé neparametrické metody Cílem studie bylo zjistit potenciální distribuci rostlinných asociací, srovnat různé modelovací techniky a vybrat nejvhodnější metodu pro predikci prostorové distribuce asociací na území České republiky
15 Prediktivní modelování potencionálního rozšíření rostlinných asociací v ČR Pokročilé neparametrické metody 37 asociací 5822 fytocenologických snímků-podle společného výskytu druhů vysvětlující proměnné: nadmořská výška, acidifikace, průměrná teplota (červnová, lednová, roční), srážky, Presenčně/absenční odpověď byla získána položením sledované asociace proti všem ostatním snímkům z databáze (tj. z ostatních asociací), takto jsme postupovali pro každou asociaci čtverců, 2x2 km, průměry hodnot za každý čtverec-geografický informační systém ArcGIS
16 Rozmístění fytocenologických snímků Zdroj dat: České národní fytocenologická databáze (Přírodovědecká fakulta, MU) ( Pokročilé neparametrické metody
17 Vybrané metody ordinační metoda - Canonical Correspondence Analysis (CCA) Regresní binomické rozdělení Generalized Linear Models (GLM) Klasifikační kategoriální proměnná klasifikační stromy - CART, CHAID neural network - Multilayer Perceptron (MLP), Radial Basis Function (RBF) Soubor náhodně rozdělen na testovací a trénovací soubor
18 Výsledky výsledky modelů byly otestovány na nezávislém datovém souboru (celková přesnost, Kappa) Pro každou rostlinnou asociaci byly vytvořeny různé modely Byla zjištěna shoda predikovaných a pozorovaných vzorků Pro 28 rostlinných asociací byla vytvořena mapa jejího potenciálního rozšíření
19 Mapa potenciálního rozšíření Aphano arvensis-matricarietum chamomillae Pokročilé neparametrické metody
20 Výsledky srovnání metod Associations GLM accuracy CART accuracy CHAID accuracy MLP accuracy RBF accuracy Setario viridis-fumarietum Euphorbio exiguae-melandrietum noctiflori Vaccinio-Callunetum vulgaris Angelico sylvestris-cirsietum palustris Chaerophyllo hirsuti-filipenduletum ulmariae Echinochloo crus-gali-setarietum pumilae Filipendulo ulmariae-geranietum palustris Aphano arvensis-matricarietum chamomillae Ranunculo bulbosi-arrhenatheretum elatioris Poo-Trisetetum flavescentis
21 Výsledky srovnání metod I Regrese - GLM Nejvyšší shoda mezi pozorovanými a odhadnutými hodnotami Lze jednoduše implementovat do GISu Pro každou asociaci regresní rovnice Lze spočítat pravděpodobnost výskytu Klasifikační stromy (CART a CHAID) Výsledky nejsou kontinuální pravděpodobnosti, závisí na počtu koncových uzlů stromu Větší predikční síla v případech nesplnění distribučních předpokladů pro regresi a nelineární vztahy Neuronové sítě (MLP,RBF) Větší predikční síla v případech nesplnění distribučních předpokladů pro regresi a nelineární vztahy Prediktory mohou být jak kontinuální tak spojité Lze spočítat pravděpodobnost výskytu Není vhodná pro malý počet vzorků a nevyvážené kategorie Ordinační techniky CCA Složitější na výpočet Vzdálenost od centroidu osy nevyčerpávaly dostatek variability v datech pro použití této techniky
22
23 Výběr indikačních taxonů makrozoobentosu pro říční habitaty Pokročilé neparametrické metody Cíle studie: stanovit preference taxonů k abioticky definovaným říčním habitatům pomocí dvou metod dále schopnost taxonů odlišit mezi jednotlivými typy habitatů a tím zjistit i vhodnost habitatů, definovaných na základě hydraulických podmínek. Výsledky metody Random Forests srovnat s metodou Indicator Value Analysis (IndVal)
24 Habitatové typy Habitat H1 peřeje Habitat H2 - příbřežní tišiny Habitat H3 tůně 58 vzorků 87 taxonů makrozoobentosu Habitat H4 - boční ramena
25 Výsledky překryv říčních habitatů Habitat Random Forests Prediction Success Total Cases Percent Correct pools rapids bank calm pools rapids bank calm side arm side arm S-POOL M-POOL CH-RNRF CH-POOL Map of proximities CH-POOL CH-RNRF M-POOL S-POOL Překryv jednotlivých habiatů Nejlépe definované habitaty z hlediska taxonů byly peřeje (OA = 87%) a boční ramena (OA = 90%). Naopak tůně (OA = 53%) a příbřežní tišiny (OA = 54%) byly odlišitelné hůře, vzhledem k jejich překryvu s ostatními habitaty. Pokročilé neparametrické metody
26 Preference taxonu k typu habitatu I Pokročilé neparametrické metody
27 Preference taxonu k typu habitatu II Pokročilé neparametrické metody
28 Závěry I Pro každý taxon byla zjištěna míra preference ke každému typu habitatu bylo velmi málo taxonů preferující příbřežní tišiny a boční ramena - tyto habitaty byly definovány převážně negativně indikačními taxony většina taxonů nebyla specifická pro jeden habitat Bylo vybráno 50, které byly určeny jako indikační jednou z těchto metod metody se shodovaly v 75% vybraných taxonů, přičemž u prvních 20 nejvýznamnějších taxonů se metody shodovaly již na 85%.
29 Závěry II Dalším závěrem studie bylo zhodnocení účinnosti metody RF pro výběr proměnných na biologických datech Oproti IndVal metoda RandomForest poskytuje další informace a výhod Pomocí RF lze určit i negativně indikační taxony, Metoda RF je odolná proti odlehlým hodnotám RF používají pouze ty vzorky k určení habitatu, které jsou pro daný habitat nejpravděpodobnější Model poskytuje vyčerpanou variabilitu pro každý habitat odráží míru vazby taxonů k habitatům Lze použít různé typy proměnných Vhodná a zajímavá metoda Nevýhodou je pak náročné testování parametrů v modelu
30
31 Prostorový distribuční model koncentrací perzistentních organických polutantů v půdě Pokročilé neparametrické metody Cíle studie Identifikace zdrojů variability v hodnotách kontaminantů půd a modelování obsahu kontaminantů v půdách ČR shrnutí vlivu prostorové informace a charakteristik lokalit (fyzikálně chemické charakteristiky půd, nadmořská výška, pedologické charakteristiky, informace získané analýzou GIS vrstev apod.) na hladiny kontaminantů v půdách Vytvoření modelů vysvětlujících úrovně kontaminace Vytvoření distribučních map koncentrací POPs v půdě - Využití map k výpočtu těkání a predikce rizik
32 Datový soubor predikce pozaďových koncentrací v půdě bez hot spots Data z několika projektů (v letech ) poskytnutých pracovišti RECETOX, UKZUZ, AOPK Použité analýzy: regresní stromy (CART) Prediktory Antropogenní aktivita vzdálenost od průmyslu; obydlených ploch a silnic; třída silnic; staré zátěže; velikost zastavěné plochy Klimatické parametry nadmořská výška, průměrná roční teplota, roční srážky Vlastnosti půdy půdní typ, obsah organického uhlíku, charakter půdy, využití krajiny (land cover)
33 Významnost parametrů prostředí PCBs (N=219) DDT (N=180) PAHs (N=218) HCB (N=192) altitude temperature precipitation orgcarbon soil type landuse char. of soil size of pop. ar. dist. pop. area dist. industry dist. road class road NOx SO2 PM risk Pokročilé neparametrické metody
34 Regresní strom pro PCBs Pastures, Natural grassland, Moors and heathland, Fruit trees, Peatbogs N = 95 M = 2.3 <=785 Size of pop. area >785 N = 219 M = 3.7 Land cover Green urban areas, arable land, Broad-leaved and Coniferous forest, Transitional woodland shrub N = 124 M = 5.2 <= 26.7 % Corg > 26.7 % Natural grassland, Moors, heathland, Peatbogs N = 45 M = 1.3 ID = 3 N = 68 M = 1.6 Land cover N = 23 M = 2.4 ID = 2 N = 27 M = 5.6 ID = 1 Pastures, Fruit trees N = 98 M = 4.3 <= 408 Size of pop. area >408 N = 53 M = 3.4 N = 45 M = 5.8 ID = 5 Altitude <=521 m asl >521 m asl N = 26 M = 10.6 ID = 4 N = 43 M = 2.9 ID = 6 N = 10 M = 6.2 ID = % explained variability (crossvalidation 61,9% - 69,0%)
35 Regresní strom pro HCB arable land N = 192 M = 1.2 Character of soil grassland, anthropogenic, forest and peaty soil <=176 N = 38 M =3.2 N = 154 M = 0.9 Anthrosols, Risk >176 Cambisols Soil type Fluvisols, Arenosols, Podzols, except arenic N = 27 M = 2.4 ID = 1 N = 11 M = 6.6 ID = 2 N = 99 M = 0.8 N = 55 M = 1.4 Size of pop. area <=691 >691 <=869m asl Altitude >869m asl Luvisols and Stagnosols N = 7 M = 0.2 ID = 4 N = 71 M = 0.6 Soil type Anthrosols, Cambisols N = 64 M = 0.7 ID = 5 <=365m asl (grassland) N = 28 M = 1.3 ID = 3 N = 26 M = 1.3 ID = 7 N = 39 M = 1.6 Altitude (character of soil) N = 13 M = 2.6 ID = 8 N = 16 M = 0.8 ID = 6 >365m asl (Forest soil) 76.2% explained variability (crossvalidation 72,9% - 77,5%)
36 Predikované koncentrace POPs Predicted concentrations of PCBs in soil Predicted concentrations of PAHs in soil Predicted concentrations of DDT in soil Predicted concentrations of HCB in soil
37 Závěry Pro HCB, PCBs, PAHs a DDTs byly vytvořeny distribuční mapy koncentrací POPs v půdě k výpočtu celkové kontaminace, těkání nebo rizik Dle modelu je distribuce polutantů závislá na vlastnostech prostředí jako důsledek jejich perzistence Výsledky regresních stromů jsou dobře interpretovatelné a v souladu s teoretickými předpoklady Největší shody mezi predikovanými a reálnými koncentracemi bylo dosaženo u HCB (73,7%) a PCBs (69%), které se ukázaly také jako nejstabilnější; mohlo by to naznačovat jejich převažující původ v lokálně ohraničených a bodových zdrojích na rozdíl od PAHs a DDTs Při použití lesů se zvýšila přesnost predikce o 3%-5%, pattern však zůstal zachovaný
38
39 Poděkování Rozvoj studijního oboru Matematická biologie PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/ Víceoborová inovace studia Matematické biologie a státním rozpočtem České republiky
Typy a zdroje kontaminace půd
Faktory ovlivňující difuzní kontaminaci lesních půd Milan SÁŇKA Masarykova univerzita, Přírodovědecká fakulta Centrum pro výzkum toxických látek v prostředí - RECETOX, sanka@recetox.muni.cz Typy a zdroje
VíceProstorová analýza a prediktivní modelování INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
Prostorová analýza a prediktivní modelování INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Prostorová analýza - Jak jsou data rozložen ená v prostoru? Prostorová analýza : Hledá a popisuje různé vzory v geografickém
VícePokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
VícePokročilé neparametrické metody. Klára Kubošová
Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení
VíceRozhodovací stromy a lesy
Rozhodovací stromy a lesy Klára Komprdová Leden 2012 Příprava a vydání této publikace byly podporovány projektem ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia Matematické biologie a státním
VíceANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT RNDr. Eva Janoušová INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ HODNOCENÍ ÚSPĚŠNOSTI KLASIFIKACE A SROVNÁNÍ KLASIFIKÁTORŮ ÚVOD Vstupní data Subjekt Objem hipokampu Objem komor Skutečnost
VícePokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Klasifikační a regresní lesy Pokročilé neparametrické metody Klasifikační a regresní lesy Klasifikační les Klasifikační les je klasifikační model vytvořený
VíceObsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
VíceProjekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
VíceÚvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
Více1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
VíceSmíšené regresní modely a možnosti jejich využití. Karel Drápela
Smíšené regresní modely a možnosti jejich využití Karel Drápela Regresní modely Základní úloha regresní analýzy nalezení vhodného modelu studované závislosti vyjádření reálného tvaru závislosti minimalizace
VíceNeuronové časové řady (ANN-TS)
Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci
VíceSTATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)
STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a
VíceGrafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan
1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce
VícePřednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy
Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VíceKalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Kalibrace a limity její přesnosti Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015
VíceHodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/
Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117 O čem se bude mluvit? Čtyřpolní tabulky Osnova prezentace Čtyřpolní tabulky 1. přístupy
VíceInovace bakalářského studijního oboru Aplikovaná chemie
http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)
VíceVALIDACE GEOCHEMICKÝCH MODELŮ POROVNÁNÍM VÝSLEDKŮ TEORETICKÝCH VÝPOČTŮ S VÝSLEDKY MINERALOGICKÝCH A CHEMICKÝCH ZKOUŠEK.
VALIDACE GEOCHEMICKÝCH MODELŮ POROVNÁNÍM VÝSLEDKŮ TEORETICKÝCH VÝPOČTŮ S VÝSLEDKY MINERALOGICKÝCH A CHEMICKÝCH ZKOUŠEK. František Eichler 1), Jan Holeček 2) 1) Jáchymovská 282/4, 460 10,Liberec 10 Františkov,
VíceKVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:
KVALITA DAT Správnost výsledku použití GIS ovlivňuje: POUŽITÁ APLIKACE Kvalita dat v databázi Kvalita modelu, tj. teoretického popisu krajinných objektů a jevů Způsob použití funkcí GIS při přepisu modelu
VíceUniverzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie
Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.3 Tvorba nelineárních regresních modelů v analýze dat Semestrální
VíceAnalýza dat pomocí systému Weka, Rapid miner a Enterprise miner
Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování
VíceLINEÁRNÍ REGRESE. Lineární regresní model
LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)
VíceELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev
3 2 6 6 5 2 ELLENBERGOVY INDIKAČNÍ HODNOTY ELLENBERGOVY INDIKAČNÍ HODNOTY (EIH) optima druhů rostlin na gradientu ţivin, vlhkosti, půdní reakce, kontinentality, teploty, světla a salinity (salinita se
VíceIng. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
VíceProstorová variabilita
Prostorová variabilita prostorová závislost (autokorelace) reprezentuje korelaci mezi hodnotami určité náhodné proměnné v místě i a hodnotami téže proměnné v jiném místě j; prostorová heterogenita je strukturální
VíceKapacita jako náhodná veličina a její měření. Ing. Igor Mikolášek, Ing. Martin Bambušek Centrum dopravního výzkumu, v. v. i.
Kapacita jako náhodná veličina a její měření Ing. Igor Mikolášek, Ing. Martin Bambušek Centrum dopravního výzkumu, v. v. i. Obsah Kapacita pozemních komunikací Funkce přežití Kaplan-Meier a parametrické
VíceELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev
3 2 6 6 5 2 ELLENBERGOVY INDIKAČNÍ HODNOTY ELLENBERGOVY INDIKAČNÍ HODNOTY (EIH) optima druhů rostlin na gradientu živin, vlhkosti, půdní reakce, kontinentality, teploty, světla a salinity (salinita se
VíceRegresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
VíceAplikovaná statistika v R - cvičení 2
Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18 Přehled Rkových
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
VíceTestování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
VíceTestování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
VíceUniverzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 3.3 v analýze dat Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Pro
VíceTomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
VíceMožnosti modelování lesní vegetační stupňovitosti pomocí geoinformačních analýz
25. 10. 2012, Praha Ing. Petr Vahalík Ústav geoinformačních technologií Možnosti modelování lesní vegetační stupňovitosti pomocí geoinformačních analýz 21. konference GIS Esri v ČR Lesní vegetační stupně
VíceKorelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceSROVNÁNÍ ČASOVÝCH ŘAD VZORKOVÁNÍ POPS V OVZDUŠÍ A STANOVENÍ DLOUHODOBÝCH TRENDŮ. Jiří Kalina. Podpořeno grantem z Islandu, Lichtenštejnska a Norska
SROVNÁNÍ ČASOVÝCH ŘAD VZORKOVÁNÍ POPS V OVZDUŠÍ A STANOVENÍ DLOUHODOBÝCH TRENDŮ Jiří Kalina Podpořeno grantem z Islandu, Lichtenštejnska a Norska Srovnání časových řad aktivního a pasivního vzorkování
VíceAlgoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně
Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších
VíceStatistická analýza dat
Statistická analýza dat Jméno: Podpis: Cvičení Zkouška (písemná + ústní) 25 Celkem 50 Známka Pokyny k vypracování: doba řešení je 120min, jasně zodpovězte pokud možno všechny otázky ze zadání, pracujte
Více2019/03/31 17:38 1/2 Klasifikační a regresní stromy
2019/03/31 17:38 1/2 Klasifikační a regresní stromy Table of Contents Klasifikační a regresní stromy... 1 rpart (library rpart)... 1 draw.tree (library maptree)... 3 plotcp a rsq.rpart (library rpart)...
Více6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
Více6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
Více10. Předpovídání - aplikace regresní úlohy
10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceLineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
VícePlánování experimentu
Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces
VíceRegrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA
Regrese používáme tehd, jestliže je vsvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA Specifikace modelu = a + bx a závisle proměnná b x vsvětlující proměnná Cíl analýz Odhadnout hodnot
VíceStatSoft Úvod do neuronových sítí
StatSoft Úvod do neuronových sítí Vzhledem k vzrůstající popularitě neuronových sítí jsme se rozhodli Vám je v tomto článku představit a říci si něco o jejich využití. Co si tedy představit pod pojmem
VíceStatistika. Regresní a korelační analýza Úvod do problému. Roman Biskup
Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009
VíceYou created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik
VíceProblematika analýzy rozptylu. Ing. Michael Rost, Ph.D.
Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít
Vícehttp: //meloun.upce.cz,
Porovnání rozlišovací schopnosti regresní analýzy spekter a spolehlivosti Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565,
VíceUNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce KALIBRACE
VíceRozvoj metodiky tvorby map znečištění. Jan Horálek Pavel Kurfürst, Nina Benešová, Roman Juras, Jana Ďoubalová
Rozvoj metodiky tvorby map znečištění Jan Horálek Pavel Kurfürst, Nina Benešová, Roman Juras, Jana Ďoubalová 1. Stávající metodika mapování a její použití 2. Rozvoj mapování NO 2 pomocí LC a dopravních
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Více4EK211 Základy ekonometrie
4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceIBM SPSS Neural Networks
IBM Software IBM SPSS Neural Networks Nové nástroje pro tvorbu prediktivních modelů Aby mohla Vaše organizace zlepšit rozhodovaní ve všech procesních postupech, potřebuje odhalit vztahy a souvislosti v
VíceSTATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7
Inovace předmětu STATISTIKA Obsah 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7 1 1. Inovace předmětu STATISTIKA Předmět Statistika se na bakalářském oboru
VíceTvorba nelineárních regresních modelů v analýze dat
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Tvorba nelineárních regresních modelů v analýze dat Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza
VíceTestování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test
Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu
VíceSemestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat
Semestrální práce 1 3.3 Tvorba nelineárních regresních modelů v analýze dat Ing. Ján Lengyel, CSc. Centrální analytická laboratoř Ústav jaderného výzkumu Řež, a. s. Husinec Řež 130 250 68 Řež V Řeži, únor
VíceMetody in silico. stanovení výpočtem
Metody in silico stanovení výpočtem Inovace a rozšíření výuky zaměřené na problematiku životního prostředí na PřF MU (CZ.1.07/2.2.00/15.0213) spolufinancován Evropským sociálním fondem a státním rozpočtem
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceSTATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
VíceNeuronové sítě v DPZ
Univerzita J. E. Purkyně v Ústí nad Labem Fakulta životního prostředí Neuronové sítě v DPZ Seminární práce z předmětu Dálkový průzkum Země Vypracovali: Jan Lantora Rok: 2006 Zuzana Vašková Neuronové sítě
Více6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
VíceKorelační a regresní analýza
Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná
VíceUNIVERZITA PARDUBICE
UNIVERZITA PARDUBICE Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie na téma Tvorba nelineárních regresních modelů v analýze dat Vedoucí licenčního studia Prof. RNDr.
VíceAnalytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality
Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality RNDr. Alena Mikušková FN Brno Pracoviště dětské medicíny, OKB amikuskova@fnbrno.cz Analytické znaky laboratorní metody
VíceAplikovaná statistika v R - cvičení 3
Aplikovaná statistika v R - cvičení 3 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.8.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 1 / 10 Lineární
VíceUrčujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
VíceTomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Víceanalýzy dat v oboru Matematická biologie
INSTITUT BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Komplexní přístup k výuce analýzy dat v oboru Matematická biologie Tomáš Pavlík, Daniel Schwarz, Jiří Jarkovský,
VíceKlasická a robustní ortogonální regrese mezi složkami kompozice
Klasická a robustní ortogonální regrese mezi složkami kompozice K. Hrůzová, V. Todorov, K. Hron, P. Filzmoser 13. září 2016 Kompoziční data kladná reálná čísla nesoucí pouze relativní informaci, x = (x
VíceÚloha 1: Lineární kalibrace
Úloha 1: Lineární kalibrace U pacientů s podezřením na rakovinu prostaty byl metodou GC/MS měřen obsah sarkosinu v moči. Pro kvantitativní stanovení bylo nutné změřit řadu kalibračních roztoků o různé
VícePRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1
PRAVDĚPODOBNOST A STATISTIKA Neparametrické testy hypotéz čast 1 Neparametrické testy hypotéz - úvod Neparametrické testy statistických hypotéz se používají v případech, kdy neznáme rozdělení pozorované
VíceK možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder
K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami Josef Keder Motivace Předpověď budoucí úrovně znečištění ovzduší s předstihem v řádu alespoň několika hodin má význam
VíceKalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium GALILEO a limity její přesnosti Seminární práce Monika Vejpustková leden 2016 OBSAH Úloha 1. Lineární kalibrace...
VíceLEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR
LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR Ve většině případů pracujeme s výběrovým souborem a výběrové výsledky zobecňujeme na základní soubor. Smysluplné
VíceKALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie KALIBRACE A LIMITY JEJÍ PŘESNOSTI Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2016
VíceAVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
VíceSTATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT
STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT (NE)VÝHODY STATISTIKY OTÁZKY si klást ještě před odběrem a podle nich naplánovat design, metodiku odběru (experimentální vs.
VíceModerní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
VíceStrukturální regresní modely. určitý nadhled nad rozličnými typy modelů
Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci
VíceKalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Kalibrace a limity její přesnosti Zdravotní ústav se sídlem v Ostravě
VíceAnalýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
VíceTLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ
TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ 1 Vlastnosti tloušťkové struktury porostu tloušťky mají vyšší variabilitu než výšky světlomilné dřeviny mají křivku početností tlouštěk špičatější a s menší
VíceStanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )
Příklad č. 1 Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Zadání : Stanovení manganu ve vodách se provádí oxidací jodistanem v kyselém prostředí až na manganistan. (1) Sestrojte
Více