Pokročilé neparametrické metody. Klára Kubošová

Podobné dokumenty
Úvodem Dříve les než stromy 3 Operace s maticemi

Pokročilé neparametrické metody. Klára Kubošová

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Pokročilé neparametrické metody. Klára Kubošová

Tabulka 1. Výběr z datové tabulky

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

KLASIFIKAČNÍ A REGRESNÍ LESY

Strojové učení Marta Vomlelová

Připomeň: Shluková analýza

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT

Přednáška 13 Redukce dimenzionality

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Statistická analýza dat

2019/03/31 17:38 1/2 Klasifikační a regresní stromy

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

StatSoft Úvod do neuronových sítí

x T 1 matici & S 1 kovarianční matici &

UČENÍ BEZ UČITELE. Václav Hlaváč

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

6. Lineární regresní modely

Statistická analýza jednorozměrných dat

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Analýza dat na PC I.

Získávání znalostí z dat

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Otázky ke státní závěrečné zkoušce

České vysoké učení technické v Praze Fakulta jaderná a fyzikálně inženýrská OKRUHY. ke státním závěrečným zkouškám BAKALÁŘSKÉ STUDIUM

Neuronové časové řady (ANN-TS)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost, náhoda, kostky

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

Aplikovaná statistika v R - cvičení 3

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

Měření závislosti statistických dat

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Asociační i jiná. Pravidla. (Ch )

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

U Úvod do modelování a simulace systémů

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

10. Předpovídání - aplikace regresní úlohy

Moderní systémy pro získávání znalostí z informací a dat

Úvod do zpracování signálů

You created this PDF from an application that is not licensed to print to novapdf printer (

4EK311 Operační výzkum. 1. Úvod do operačního výzkumu

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Pravděpodobnost, náhoda, kostky

SOUHRNNÝ PŘEHLED nově vytvořených / inovovaných materiálů v sadě

Vytěžování znalostí z dat

STATISTICKÉ PROGRAMY

Statistická šetření - PROČ? Žádná věda není skutečnou vědou, není-li podložena matematickými principy. (L.da Vinci)

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

STATISTIKA LS Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D.

Teorie systémů TES 1. Úvod

IBM SPSS Decision Trees

EXPERIMENTÁLNÍ MECHANIKA 1. Jan Krystek

Diferenciální rovnice a jejich aplikace. (Brkos 2011) Diferenciální rovnice a jejich aplikace 1 / 36

Úvod do optimalizace, metody hladké optimalizace

Základní pojmy; algoritmizace úlohy Osnova kurzu

Úvod do modelování a simulace. Ing. Michal Dorda, Ph.D.

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Popisná statistika - úvod

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Trénování sítě pomocí učení s učitelem

Vícerozměrné statistické metody

Cvičná bakalářská zkouška, 1. varianta

Metodologie pedagogického výzkumu II

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

7. Rozdělení pravděpodobnosti ve statistice

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Strojové učení se zaměřením na vliv vstupních dat

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

IBM SPSS Modeler Professional

STATISTICA Data Miner

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Ing. Michael Rost, Ph.D.

PROČ ROSTLINA KVETE Při opylení

AVDAT Mnohorozměrné metody, metody klasifikace

Strojové učení Marta Vomlelová

Modelování a simulace Lukáš Otte

Odhad cen ojetých vozů pomocí rozhodovacích stromů

O kurzu MSTU Témata probíraná v MSTU

Předzpracování dat. Lenka Vysloužilová

Kybernetika a umělá inteligence, cvičení 10/11

Transkript:

Pokročilé neparametrické metody Klára Kubošová

Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační a regresní stromy typu CART Další typy stromů (MARS, PRIM, CHAID) Náhodné lesy - Bagging, Boosting, Arcing, Random forest Měření přesnosti modelů Validační techniky Příklady použití neparametrických metod průběžné testy z probírané látky (každou druhou hodinu) Ukončení písemná zkouška (příklady; minimum 60% bodů) + ústní zkouška

Úvod do neparametrických metod Princip rozhodovacích stromů Pokročilé neparametrické metody

Rozdělení modelů Popisuje budoucí stav systému nebo jeho podmínek? ANO Dynamické modely - závislé na čase - spojité, diskrétní NE Statické modely - nezávislé na čase Popisují prostorovou strukturu? ANO Prostorově heterogenní - diskrétní, spojité NE Prostorově homogenní modely Zahrnuje náhodnou složku? ANO Stochastické modely NE Deterministické modely

Typy proměnných Kvalitativní (kategoriální) lze pouze určit, zda jsou dvě hodnoty stejné nebo se liší typ půdy, barvy, typ habitatu Semikvantitativní (ordinální) Lze určit rovněž pořadí hodnot abundanční třídy, řády toku, teplota po stupních Kvantitativní (spojité) lze provádět všechny matematické operace Intervalové, poměrové Výška, váha, počty druhů binární lze ji považovat za kvantitativní, semikvantitativní i kvalitativní proměnnou výskyt/ nevýskyt druhu, odpověď pacientů na léčbu, výsledky dotazníků typu ANO/NE Pokročilé neparametrické metody

Typy proměnných Ze statistického hlediska závisle proměnná (vysvětlovaná) proměnná, jejíž hodnoty chceme vysvětlit a/nebo předpovědět pomocí jiných proměnných, na kterých závisí vysvětlující proměnné, nezávisle proměnné, prediktory proměnné, pomocí nichž se snažíme vysvětlit závisle proměnnou Vztah lineární, nelineární Y X Pokročilé neparametrické metody

Rozdělení metod Parametrické x Neparametrické Parametrické předpoklady o rozdělení dat Klasické lineární modely, zobecněné lineární modely, lineární diskriminační analýza Neparametrické nemají předpoklady o rozložení dat Rozhodovací stromy, lesy, neuronové sítě Semiparametrické Zobecněné aditivní modely, metoda podpůrných vektorů Regresní x Klasifikační Regresní - modelujeme závislost spojité závisle proměnné na jedné či více nezávislých proměnných Klasifikační - modelujeme závislost kategoriální závisle proměnné na jedné či více nezávislých proměnných Lineární x Nelineární Jednorozměrné x Vícerozměrné Pokročilé neparametrické metody

Ordinační techniky nepřímé -PCA, CA Regrese a klasifikace (vícerozměrná) X nebo Y Y X Ordinační techniky přímé RDA a CCA Regrese, klasifikace (jednorozměrná) Y X Y X

Srovnání vlastností metod KLM - Klasický lineární model, GLM Zobecněné lineární modely, GAM Zobecněné aditivní modely, LDA Lineární diskriminační analýza, CART- Klasifikační a regresní stromy, RF Random forest, SVM Metoda podpůrných vektorů, NNs Neuronové sítě, Naivní bayes. Naivní bayesovský klasifikátor, k-nn metoda nejbližšího souseda

Z jiného pohledu - živočichové x rostliny x proměnné prostředí x x Procesově orientované modely (deterministické) Stochastické modely Procesově orientované modely (deterministické) Stochastické modely, interpolační

Proces modelování I Design vzorkování a zpracování dat (z literatury, předešlých experimentů) Terénní sběr dat a laboratorní analýzy Analýza datového souboru a tvorba modelu Kalibrace a validace modelu Interpretace modelu, jeho srovnání s realitou použití modelu

Proces modelování II Pokročilé neparametrické metody

Kvalitní datový soubor Dostatečně velký Reprezentativní Získán konzistentní metodologií Se signifikantní přesností Nezávislý

Regresní a klasifikační stromy (rozhodovací stromy, Decision Trees)

Regresní a klasifikační stromy (Regression, classification trees) Jsou nejméně formální a nejméně parametrickou skupinou statistických modelů Model popisuje vzájemné vztahy mezi pozorovanými veličinami

Struktura stromu Stromy se skládají z: kořene, uzlů neterminálních uzlů, listů - terminálních uzlů. V každém neterminálním uzlu se strom větví Binární stromy z jednoho uzlu vyrůstají právě dvě větve Nebinární stromy z jednoho uzlu vyrůstají dvě a více větví Pokročilé neparametrické metody

Struktura stromu Koren (root) uzel (nodum) uzel (nodum) uzel (nodum) list (leaf) list (leaf) list (leaf) list (leaf) list (leaf) list (leaf) list (leaf)

Typy Stromů Klasifikační (rozhodovací) strom modelujeme závislost kategoriální závisle proměnné na jedné či více nezávislých proměnných, prediktorech (kategoriálních, spojitých) Regresní strom - modelujeme závislost spojité závisle proměnné na jedné či více nezávislých proměnných, prediktorech (kategoriálních, spojitých)

Úlohy - příklady Klasifikační: Spamy určení, který doručený e-mail je spam a který není spam. Kosatce třídění kostaců do jednotlivých druhů na základě velikosti jejich okvětních a kališních lístků Regresní: Ozón modelování množství ozonu v závislosti na nadmořské výšce, teplotě a rychlosti větru Pokročilé neparametrické metody

Co je to klasifikační strom? Breiman (1984) Patří mezi neparametrické metody (metody strojového učení, machine learning) Lineární hierarchický klasifikátor Klasifikují vzorky do konečného (malého) předem daného počtu tříd Je to posloupnost rozhodnutí, jejímž výsledkem je zařazení objektu do jedné ze skupin na základě vlastnosti zkoumaného objektu V každém uzlu je určena veličina, podle které dělíme datový soubor a hranice, která určuje, kde se dělení má provést (je-li veličina spojitá) Kořen obsahuje celý datový soubor Z každého uzlu vyrůstají dvě (binární strom) nebo více větví Každý list představuje některou ze skupin (úrovně kategoriální závisle proměnné).... Příklad: Botanický klíč

Botanický klíč určení skupin Klíč ke Květeně České republiky, str.48 Rostliny ANO Rozmnozeni vytrusy Kapradorosty jehlice, rozmnozonaci organy vsisce ANO nahosemenne... ANO krytosemnne jednodelozne ANO... krytosemenne dvoudelozne vice pestiku ANO... krytosemenne dvoudelozne 1pestik atd. ANO... krytosemenne dvoudelozne 1pestik, volne C listky krytosemnne dvoudelozne 1pestik, srostle Clistky

K čemu budeme klasifikační stromy využívat? zajímá nás struktura těchto dat, postižení vzájemných vztahů explaratorní technika klasifikace dosud neznámých případů

Jinak řečeno. Každé pozorování patří do jedné z tříd C 1,,C k, K 2 Pozorování podle hodnot prediktorů postupuje od kořenového uzlu přes větvení v neterminálních uzlech k některému terminálnímu uzlu (listu) Množina všech listů určuje disjunktní rozklad prostoru hodnot prediktorů Terminálnímu uzlu a zároveň pozorováním, která do něj patří je přiřazena některá z tříd C 1,,C k.

IRIS data 150 případů, vždy 50 případů ve skupině 3 skupiny druhy kosatců: Setosa, Versicolour, Virginica 4 prediktory: sepal length, sepal width, petal length, petal width Zdroj příkladu: Yu-Shan Shih - Tree-structured methods

IRIS data - stromy Pokročilé neparametrické metody