Připomeň: Shluková analýza
|
|
- Štěpánka Štěpánková
- před 5 lety
- Počet zobrazení:
Transkript
1 Připomeň: Shluková analýza Data Návrh kategorií X Y= 1, 2,..., K resp. i jejich počet K = co je s čím blízké + jak moc Neposkytne pravidlo pro zařazování
2 Připomeň: Klasifikace Data (X,Y) X... prediktory (sloupce matice) Y... zařazení do kategorií 1, 2,..., K Předem známe Cíl definici kategorií Y jejich počet Zařazovací pravidlo klasifikátor Predikce kategorie Y pro nový objekt (popsaný X)
3 Klasifikační a regresní stromy CART (Breiman, Friedman, Olshen, and Stone. (1984) :Classification and Regression TrCARTees.) Uzly (nodes) Listy (leafs)
4 Klasifikační a regresní stromy CART (Breiman, Friedman, Olshen, and Stone. (1984) :Classification and Regression TrCARTees.) Uzly (nodes) Listy (leafs) Predikce Pravděpodobnost Y=1 (=ANO) % pozorování, spadlých do tohoto uzlu
5 CART co dělají Rozřežou prostor na listy = 'homogenní' kvádry + hierarchicky zachytí postup řezání Kritérium optimality: snížení znečištění uzlů ~ analogie s Divisivní Cluster Analýzou
6 CART dle typu závislého znaku Klasifikační strom Regresní strom Y je kategoriální Y je kardinální Predikce kategorie Predikce číslo Míra znečištění Entropie Gini Y ordinální nutno zadat vzdálenosti Míra znečištění (jako v regresi) RSS= y i y 2
7 CART specialita Oddělují jen rovně = žádné (latentní) rotace +Interpretovatelnost -- Suboptimalita
8 CART srovnání s LDA
9 Vlastnosti CART PLUSy Snadná interpretace Umí všechny typy prediktorů (naráz) Umí všechny typy závislých Zvládá hodně proměnných Nepředpokládá normalitu ani jiné rozdělení prediktorů Robustní vůči monotónní trafo prediktorů MÍNUSy Subo ptimalita Řeže jen rovně Jen dvě větve z 1 uzlu LZE snadno přefitovat pruning
10 Pěstování CART 1) Min počet případů (a) v listu cca 50 (b) v uzlu, který se může dělit cca 200 2) Prořez ( Pruning) Complexity plot 3) Výběr alternativních prediktorů 4) Doladění cut-offů interpretabilita
11 Pěstování CART 2 neprořezaný titan.0 <- rpart(survived ~., data=ptitanic))
12 Pěstování CART 2 neprořezaný Přefitovaný nestabilní hledá podružnosti nutno prořezat
13 Pěstování CART 3 prořez dle CP Dle parametru komplexity v cross validaci se zkoumá relativní chyba predikce při použití stromu dané velikosti měřeno parametrem komplexity CP CP ekvivalentní s počtem listů počtem větvení přehlednější je graf
14 Pěstování CART 4 prořez dle CP CP nsplit rel error xerror xstd Parametr komplexity Počet větvení Rel. Chyba predikce na trénovací množině Rel. Chyba predikce v cross validaci Std. Dev of xerror
15 Pěstování CART 4 prořez dle CP CP nsplit rel error xerror xstd Součtem vznikne hranice pro minimum horní mez pro odhad min(xerror)
16 Pěstování CART 5 prořez dle CP Dle parametru Complexity Pravidlo: min +1 SD Min počet uzlů, který bude pod čárou cíl = co nejjednodušší strom min chyba Čára = min(xerror)+ xstd
17 Pěstování CART 6 prořezaný titan.1<-rpart(survived ~., data=ptitanic, cp=.02)
18 Pěstování CART 6 prořezaný titan.1<-rpart(survived ~., data=ptitanic, cp=.02) jen 4% pozorování
19 Výběr alternativních prediktorů Zlepšení nehomogenity uzlu (Primary splits >> Improve) ukazuje relat. významnost prediktorů (zda) lze nalézt náhradní (s lepší interpretací) Náhradní (Surrogate) prediktory Pro případ missingů u řádných prediktorů
20 Výběr alternativních prediktorů 2 Node number 1: 1309 observations, complexity param=0.424 predicted class=died expected loss=0.382 P(node) =1 class counts: probabilities: left son=2 (843 obs) right son=3 (466 obs) Primary splits: sex splits as RL, improve= , (0 missing) pclass splits as RRL, improve= , (0 missing) parch < 0.5 to the left, improve= , (0 missing) age < 8.5 to the right, improve= , (263 missing) sibsp < 0.5 to the left, improve= , (0 missing) Surrogate splits: parch < 0.5 to the left, agree=0.674, adj=0.084, (0 split)
21 Výběr alternativních prediktorů 2 Node number 1: 1309 observations, complexity param=0.424 predicted class=died expected loss=0.382 P(node) =1 class counts: probabilities: Sex nahradit nelze left son=2 (843 obs) right son=3 (466 obs) Primary splits: sex splits as RL, improve= , (0 missing) pclass splits as RRL, improve= , (0 missing) parch < 0.5 to the left, improve= , (0 missing) age < 8.5 to the right, improve= , (263 missing) sibsp < 0.5 to the left, improve= , (0 missing) Surrogate splits: parch < 0.5 to the left, agree=0.674, adj=0.084, (0 split)
22 Výběr alternativních prediktorů 2 Node number 1: 1309 observations, complexity param=0.424 predicted class=died expected loss=0.382 P(node) =1 class counts: probabilities: left son=2 (843 obs) right son=3 (466 obs) Primary splits: sex splits as RL, improve= , (0 missing) pclass splits as RRL, improve= , (0 missing) parch < 0.5 to the left, improve= , (0 missing) age < 8.5 to the right, improve= , (263 missing) sibsp < 0.5 to the left, improve= , (0 missing) Surrogate splits: parch < 0.5 to the left, agree=0.674, adj=0.084, (0 split)
23 Doladění prahů a kategorizací Navržené cut-offy prediktorů mohou být nesmyslné (neinterpretovatelné) Zadaná kategorizace nemusí být vhodná? zda je lze posunout / překategorizovat 2 metody 1) nahradit prediktor identifikátorem překročení zvoleného prahu + ohodnotit nový strom 2) zkoumat závislost nečistoty uzlu na Cut-offu
24 Doladění prahů a kategorizací 2 IF věk >18 1 ELSE...0 Změna stromu: Věk úplně zmizel dělí se jiný uzel tento uzel se dělil minule
25 Doladění prahů a kategorizací 2 IF věk >18 1 ELSE...0 jen 3% pozorovani
26 CART relat. vs. absol. četnosti
27 Hodnocení CART Matice záměn (Confusion matrix) Odvozené míry Acc Celková správnost Err Relat. Chyba = 1- Acc TPR (senzitivita) = TP / N 1 FPR (nespecificita) = FP / N 0
28 Hodnocení CART 2: Matice záměn R code CMat<table(true=ptitanic$survived, predicted=predict(titan.1, PREDICTED type='class')) TRUE died survived Sum died survived ALL 1309
29 Hodnocení CART 3: Míry R code (acc.1<-sum(diag(cm.1))/sum(cm.1)) # (err.1<-1-acc.1) # (tpr.1<-cm.1[2,2]/sum(cm.1[2,])) # (fpr.1<-cm.1[1,2]/sum(cm.1[1,])) # 0.161
30 Hodnocení CART 4: Porovnávání modelů Error Rate (Expected Loss) model how to calculate Error Rate NULL (pařez) 38% 2 listy (dle pohlaví) 19% * 64% + 27%*36% 22% 4 listy (prořezaný) 17%*61% + 5%* 2% + 11%*2% %* 36% 20% 5 listů (změna cut-offu) 19%*64% + 14%*2% + 11%*1%+ 45%*14% + 7%*19% 20%
31 Použití CART 1) Interpretace CART jako model diskriminace 2) Predikce 1) Samotný strom zařazuje dle prediktorů 2) Zlepšení predikční schopnosti 1)(regresní) náhodné lesy 2) boosting
Pokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Klasifikační a regresní lesy Pokročilé neparametrické metody Klasifikační a regresní lesy Klasifikační les Klasifikační les je klasifikační model vytvořený
VícePokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.
VíceINTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2
INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2 Name: Petr Bělohlávek School year: 2015/2016 Provide answers for the exercises 1. (a) - (c), 2.(c), 2.(d.1-2), 2.(e.1-2) For each exercise,
VícePokročilé neparametrické metody. Klára Kubošová
Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení
VíceProjekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
VíceANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT RNDr. Eva Janoušová INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ HODNOCENÍ ÚSPĚŠNOSTI KLASIFIKACE A SROVNÁNÍ KLASIFIKÁTORŮ ÚVOD Vstupní data Subjekt Objem hipokampu Objem komor Skutečnost
VíceÚvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
Více5EN306 Aplikované kvantitativní metody I
5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
Více2019/03/31 17:38 1/2 Klasifikační a regresní stromy
2019/03/31 17:38 1/2 Klasifikační a regresní stromy Table of Contents Klasifikační a regresní stromy... 1 rpart (library rpart)... 1 draw.tree (library maptree)... 3 plotcp a rsq.rpart (library rpart)...
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 6 1/25 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceDATA MINING KLASIFIKACE DMINA LS 2009/2010
DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných
VíceLineární a logistická regrese
Lineární a logistická regrese Martin Branda Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Výpočetní prostředky finanční a pojistné matematiky
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
VíceÚKOL 2 1886 22 5,77 5,00 5 2,531,003,056 -,869,113
ÚKOL 2 Jméno a příjmení: UČO: Imatrik. ročník: Úkol 2.1: V souboru EVS99_cvicny.sav zjistěte, zdali rozložení názoru na to, kdo by měl být odpovědný za zajištění bydlení (proměnná q54h), je normální. Řešte
VíceIBM SPSS Decision Trees
IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích
VíceGrafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan
1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce
VíceObsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
VíceZměkčování hranic v klasifikačních stromech
Změkčování hranic v klasifikačních stromech Jakub Dvořák Seminář strojového učení a modelování 24.5.2012 Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment
VíceRegresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
VíceAnalýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
VíceStatistická analýza dat
Statistická analýza dat Jméno: Podpis: Cvičení Zkouška (písemná + ústní) 25 Celkem 50 Známka Pokyny k vypracování: doba řešení je 120min, jasně zodpovězte pokud možno všechny otázky ze zadání, pracujte
VíceRozhodovací stromy a lesy
Rozhodovací stromy a lesy Klára Komprdová Leden 2012 Příprava a vydání této publikace byly podporovány projektem ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia Matematické biologie a státním
VíceOdhad cen ojetých vozů pomocí rozhodovacích stromů
Odhad cen ojetých vozů pomocí rozhodovacích stromů Marta Žambochová ABSTRAKT Příspěvek se zabývá srovnáním vybraných algoritmů pro sestrojování rozhodovacích stromů, a to jak regresních, tak klasifikačních.
VíceUniverzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie
Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.3 Tvorba nelineárních regresních modelů v analýze dat Semestrální
Více5EN306 Aplikované kvantitativní metody I
5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam
VíceAnalytické procedury v systému LISp-Miner
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální
VíceZpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.
SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné
VícePřednáška 4: Rozhodovací stromy a jejich regresní varianty
České vysoké učení technické v Praze Fakulta informačních technologií Katedra teoretické informatiky Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti MI-ADM Algoritmy data miningu (2010/2011)
VíceDiskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky
Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
VíceDálkový průzkum Země. Klasifikace obrazu
Dálkový průzkum Země Klasifikace obrazu Neřízená klasifikace v IDRISI Modul CLUSTER (Image Processing / Hard Classifiers) využívá techniku histogramových vrcholů pásma pro klasifikaci výsledný obraz volba
VíceInovace bakalářského studijního oboru Aplikovaná chemie
http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)
VíceVytěžování znalostí z dat
Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální
VíceHodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/
Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117 O čem se bude mluvit? Čtyřpolní tabulky Osnova prezentace Čtyřpolní tabulky 1. přístupy
VíceProfilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
VíceStatistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Regresní analýza doplnění základů Vzhledem k požadavku Vašich kolegů zařazuji doplňující partii o regresní
Více5.1 Rozhodovací stromy
5.1 Rozhodovací stromy 5.1.1 Základní algoritmus Způsob reprezentování znalostí v podobě rozhodovacích stromů je dobře znám z řady oblastí. Vzpomeňme jen nejrůznějších klíčů k určování různých živočichů
VíceKontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu
Více4EK211 Základy ekonometrie
4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
VíceDSA, První krok: máme dokázat, že pro left = right vrátí volání f(array, elem, left, right)
Indukcí dokažte následující výrok: pokud lef t a right jsou parametry funkce f a platí left right, pak volání f(array, left, right) vrátí minimální hodnotu z hodnot všech prvků v poli array na indexech
VíceAleh Masaila. Regresní stromy
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Aleh Masaila Regresní stromy Katedra pravděpodobnosti a matematické statistiky Vedoucí diplomové práce: Studijní program: Studijní
VíceCvičení 12: Binární logistická regrese
Cvičení 12: Binární logistická regrese Příklad: V roce 2014 konalo státní závěrečné zkoušky bakalářského studia na jisté fakultě 167 studentů. U každého studenta bylo zaznamenáno jeho pohlaví (0 žena,
VíceVícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod
PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal
VíceSemestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat
Semestrální práce 1 3.3 Tvorba nelineárních regresních modelů v analýze dat Ing. Ján Lengyel, CSc. Centrální analytická laboratoř Ústav jaderného výzkumu Řež, a. s. Husinec Řež 130 250 68 Řež V Řeži, únor
VíceKorelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
VíceMěření závislosti statistických dat
5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě
VícePSY117/454 Statistická analýza dat v psychologii Přednáška 10
PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot
VíceJana Vránová, 3. lékařská fakulta, UK Praha
Jana Vránová, 3. lékařská fakulta, UK Praha Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně
VíceKLASIFIKAČNÍ A REGRESNÍ LESY
ROBUST 2004 c JČMF 2004 KLASIFIKAČNÍ A REGRESNÍ LESY Jan Klaschka, Emil Kotrč Klíčová slova: Klasifikační stromy, klasifikační lesy, bagging, boosting, arcing, Random Forests. Abstrakt: Klasifikační les
VíceAVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
VíceM cvičení : GLM04b (Vztah mezi Poissonovým a
RNDr. Marie Forbelská, Ph.D. 1 M7222 4. cvičení : GLM04b (Vztah mezi Poissonovým a binomických rozdělením) Připomeňme, že pomocí Poissonova rozdělení P o(λ) lze dobře aproximovat binomické rozdělení Bi(n,
VíceCredit scoring. Libor Vajbar Analytik řízení rizik. 18. dubna 2013. Brno
Credit scoring Libor Vajbar Analytik řízení rizik 18. dubna 2013 Brno 1 PROFIL SPOLEČNOSTI Home Credit a.s. přední poskytovatel spotřebitelského financování Úvěrové produkty nákup na splátky u obchodních
VíceProstorová variabilita
Prostorová variabilita prostorová závislost (autokorelace) reprezentuje korelaci mezi hodnotami určité náhodné proměnné v místě i a hodnotami téže proměnné v jiném místě j; prostorová heterogenita je strukturální
VíceLineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
VíceSTATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT
STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT (NE)VÝHODY STATISTIKY OTÁZKY si klást ještě před odběrem a podle nich naplánovat design, metodiku odběru (experimentální vs.
VíceStatistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická
VíceStrojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
Vícehttp: //meloun.upce.cz,
Porovnání rozlišovací schopnosti regresní analýzy spekter a spolehlivosti Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565,
VíceRegrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA
Regrese používáme tehd, jestliže je vsvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA Specifikace modelu = a + bx a závisle proměnná b x vsvětlující proměnná Cíl analýz Odhadnout hodnot
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
VíceUniverzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 3.3 v analýze dat Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Pro
VíceAVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
VíceVysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky
Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného
VíceYou created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik
VíceTestování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? 2 Osnova Úvod různé klasifikační modely a jejich kvalita Hodnotící míry (kriteria kvality) pro zvolený model. Postup vyhodnocování
VíceStatistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Úvodem Modelování vztahů mezi vysvětlující a vysvětlovanou (závisle) proměnnou patří mezi základní aktivity,
VíceADDS cviceni. Pavlina Kuranova
ADDS cviceni Pavlina Kuranova Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých pozorování (oba výběry spojeny do jednoho celku)
VíceCvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD
Cvičení 11 Klasifikace Jan Přikryl ČVUT FD 14. března 2018 Příklad 1 Data z akciového trhu Nejprve prozkoumáme data z akciových trhů, konkrétně denní vývoj indexu S&P v letech 2001 2005. Načteme a zobrazíme
VíceStatistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Cíle kurzu: seznámit posluchače s vybranými statistickými metodami, které jsou aplikovatelné v ekonomických
VíceStromy. Karel Richta a kol. Katedra počítačů Fakulta elektrotechnická České vysoké učení technické v Praze Karel Richta a kol.
Stromy Karel Richta a kol. Katedra počítačů Fakulta elektrotechnická České vysoké učení technické v Praze Karel Richta a kol., 2018, B6B36DSA 01/2018, Lekce 9 https://cw.fel.cvut.cz/wiki/courses/b6b36dsa/start
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceSmíšené regresní modely a možnosti jejich využití. Karel Drápela
Smíšené regresní modely a možnosti jejich využití Karel Drápela Regresní modely Základní úloha regresní analýzy nalezení vhodného modelu studované závislosti vyjádření reálného tvaru závislosti minimalizace
VíceJana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
Více2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,
VíceLINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica
LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
VíceZkušenosti s použitím metod Counterfactual Impact Evaluation při evaluaci ESF v České republice. Jan Brůha IREAS
Zkušenosti s použitím metod Counterfactual Impact Evaluation při evaluaci ESF v České republice Jan Brůha IREAS Pilotní projekt použití CIE pro hodnocení ESF OPLZZ V současné době byly použity tři metody
VíceAplikovaná statistika v R - cvičení 3
Aplikovaná statistika v R - cvičení 3 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.8.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 1 / 10 Lineární
VíceELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev
3 2 6 6 5 2 ELLENBERGOVY INDIKAČNÍ HODNOTY ELLENBERGOVY INDIKAČNÍ HODNOTY (EIH) optima druhů rostlin na gradientu ţivin, vlhkosti, půdní reakce, kontinentality, teploty, světla a salinity (salinita se
VíceALGORITMIZACE 2010/03 STROMY, BINÁRNÍ STROMY VZTAH STROMŮ A REKURZE ZÁSOBNÍK IMPLEMENTUJE REKURZI PROHLEDÁVÁNÍ S NÁVRATEM (BACKTRACK)
ALGORITMIZACE 2010/03 STROMY, BINÁRNÍ STROMY VZTAH STROMŮ A REKURZE ZÁSOBNÍK IMPLEMENTUJE REKURZI PROHLEDÁVÁNÍ S NÁVRATEM (BACKTRACK) Strom / tree uzel, vrchol / node, vertex hrana / edge vnitřní uzel
VíceZadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:
Predikce Text o predikci pro upřesnění pro ty, které zajímá, kde se v EViews všechna ta čísla berou. Ruční výpočty u průběžného testu nebudou potřeba. Co bude v závěrečném testu, to nevím. Ale přečíst
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 10. Mgr. David Fiedor 27. dubna 2015 Nelineární závislost - korelační poměr užití v případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí
VíceVYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství
1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 6 Jak analyzovat kategoriální a binární
VíceELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev
3 2 6 6 5 2 ELLENBERGOVY INDIKAČNÍ HODNOTY ELLENBERGOVY INDIKAČNÍ HODNOTY (EIH) optima druhů rostlin na gradientu živin, vlhkosti, půdní reakce, kontinentality, teploty, světla a salinity (salinita se
VíceKatedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
VíceKORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
VíceVyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 21. září 2018 Jiří Dvorský (VŠB TUO) Vyhledávání 242 / 433 Osnova přednášky
VíceTestování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
VíceTestování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
VíceObsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
VíceNázev testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)
VYBRANÉ TESTY NEPARAMETRICKÝCH HYPOTÉZ TESTY DOBRÉ SHODY Název testu Předpoklady testu Testová statistika Nulové rozdělení test dobré shody Očekávané četnosti, alespoň 80% očekávaných četností >5 ( ) (p
VíceZáklady vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
VíceVelmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF)
Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF) Systém WEKA, implementovaný v jazyce Java, lze získat nejlépe z následující URL: . Dále
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
VícePlánování experimentu
SEMESTRÁLNÍ PRÁCE Plánování experimentu 05/06 Ing. Petr Eliáš 1. NÁVRH NOVÉHO VALIVÉHO LOŽISKA 1.1 Zadání Při návrhu nového valivého ložiska se v prvotní fázi uvažovalo pouze o změně designu věnečku (parametr
Více