Přednáška 4: Rozhodovací stromy a jejich regresní varianty

Rozměr: px
Začít zobrazení ze stránky:

Download "Přednáška 4: Rozhodovací stromy a jejich regresní varianty"

Transkript

1 České vysoké učení technické v Praze Fakulta informačních technologií Katedra teoretické informatiky Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti MI-ADM Algoritmy data miningu (2010/2011) Přednáška 4: Rozhodovací stromy a jejich regresní varianty Pavel Kordík, FIT, Czech Technical University in Prague 1

2 10 Příklad rozhodovacího stromu Tid Refund Marital Status Taxable Income Cheat Attributy 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes Refund Yes No NO MarSt Single, Divorced TaxInc < 80K > 80K Married NO 9 No Married 75K No 10 No Single 90K Yes NO YES Trénovací data Model: rozhodovací strom

3 10 Použití modelu Testovací Data Refund Marital Status Taxable Income Cheat Refund No Married 80K? Yes No NO Single, Divorced MarSt Married V tomto případě nepodvádí TaxInc NO < 80K > 80K NO YES

4 Jak strom vytvořit? Ručně nebo algoritmem pro indukci rozhodovacích stromů Existují desítky příbuzných algoritmů, často navzájem dost podobných Zde pouze naznačíme vlastnosti několika z nich (často používaných a/nebo zajímavých) CHAID CART ID3 a C5 QUEST GUIDE MARS TreeNet 4

5 Myšlenka rozhodovacích stromů Rozděl a panuj: vhodně rozdělím zkoumané objekty do skupin... a v každé skupině opět postupuji stejně (rekurze)... dokud nedojdu k malým skupinkám, na něž stačí zcela jednoduchý model. rozdělení na podskupiny má přinést informační zisk, snížit entropii (implementováno např. v dnes užívaných algoritmech ID3, C4.5 a C5). 5

6 Jak zkonstruovat strom nad databází? Přístup shora dolů Projdi trénovací databázi a najdi nejlepší atribut pro rozdělení kořenu Rozděl databázi podle hodnoty atributu Rekurzivně zpracuj každou část

7 Algoritmus BuildTree(Node t, Training database D, Split Selection Method S) (1) Apply S to D to find splitting criterion (2) if (t is not a leaf node) (3) Create children nodes of t (4) Partition D into children partitions (5) Recurse on each partition (6) endif

8 Upřesnění algorimu Tři problémy, které je třeba nějak vyřešit: Mechanizmus dělení (CART, C4.5, QUEST, CHAID, CRUISE, ) Regularizace (direct stopping rule, test dataset pruning, cost-complexity pruning, statistical tests, bootstrapping) Přístup k datům (CLOUDS, SLIQ, SPRINT, RainForest, BOAT, UnPivot operator) Ačkoli už rozhodovací stromy existují dlouho, ještě se v těchto oblastech aktivně bádá Ramakrishnan and Gehrke. Database Management Systems, 3 rd Edition.

9 Jak zvolit "nejlepší" atribut? Rozdělme množinu S na podmnožiny S 1,S 2,...,S n na základě hodnot diskrétního atributu at. Měření množství informace uvnitř S i def. pomocí entropie (Shanon) H(S i ) = -(p i+ )*log p i+ - (p i- )*log p i-, kde (p i+ ) je pravděpodobnost, že libovolný příklad v S i je pozitivní; hodnota (p i+ ) se odhaduje jako odpovídající frekvence. Celková entropie H(S,at) tohoto systému je E(S,at) = n i=1 P(S i ) * E(S i ), kde P(S i ) je pravděpodobnost události S i, tj. poměr S i / S. 9

10 Výpočet entropií 10

11 Základní algoritmus ID3 Realizuje prohledávání prostoru všech možných stromů: shora dolů s použitím hladové strategie Volba atributu pro větvení na zákl. charakterizace (ne)homogenity vzniklého pokrytí : informační zisk (gain) odhaduje předpokládané snížení entropie pro pokrytí vzniklé použitím hodnot odpovídajícího atributu 11

12 Algoritmus CHAID úvod CHi-squared Automatic Interaction Detector Jeden z nejrozšířenějších rozhodovacích stromů v komerční oblasti (vedle QUEST a C4.5 / C5) Kass, Gordon V. (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, Vol. 29, pp Založeno na autorově disertaci na University of Witwatersrand (Jihoafrická rep.) Předchůdci: AID Morgan a Sonquist, 1963; THAID Morgan a Messenger,

13 Algoritmus CHAID: idea Začíná se u celého souboru Postupné větvení / štěpení souboru (přípustné je rozdělení na libovolný počet větví vycházejících z jednoho uzlu) Algoritmus je rekurzivní každý uzel se dělí podle stejného předpisu Zastaví se, pokud neexistuje statisticky signifikantní rozdělení => vzniká list Obvykle je navíc podmínka minimálního počtu případů v uzlu a/nebo v listu, příp. maximální hloubky stromu Používá kontingenční tabulky 13

14 Kontingenční tabulka - připomenutí Data (n) contingency table n ij = # of times( i,j)occurred ni + nij = n + n = = j nij = j = ij nij i # of times i # of times j = dataset size occurred occurred j\i 1 2 r 1 n 11 n 12 n 1r 2 n 21 n 22 n 2r s M M M O M n s1 n s2 n sr Kordik, CTU Prague, FIT, MI-PDD 14

15 CHAID: postup v uzlu Pro všechny atributy Vytvoř kontingenční tabulku výstup x atribut (rozměr k x l) Pro všechny dvojice hodnot atributu spočti chí-kvadrátový test podtabulky (k x 2) Podobné (=ne signifikantně odlišné) dvojice postupně spojuj (počínaje nejnižšími hodnotami chí-kvardrátu) a přepočítávej výchozí kontingenční tabulku. Zastav se, když signifikance všech zbylých podtabulek je vyšší než stanovená hodnota. Zapamatuj si spojené kategorie a signifikanci chí-kvadrátu výsledné tabulky s redukovanou dimenzionalitou Vyber atribut, kde je tato signifikance nejnižší Pokud jsou splněny podmínky štěpení, rozděl případy v uzlu podle již spojených kategorií 15

16 CHAID: závěr Chybějící hodnoty: lze je považovat za zvláštní kategorii mimo systém a CHAID je zvládá Vznikají-li však tím, že se nedozvíme hodnotu, která v realitě existuje a mohla by teoreticky být zjištěna, doporučuji zvážit jejich předchozí nahrazení odhadem (zjištěným např. opět pomocí rozhodovacího stromu); náhrada průměrem je méně vhodná Exhaustive CHAID provádí podrobnější prohledávání + adjustaci signifikancí při většinou stále únosné rychlosti počítání Zdroj: Biggs,D., de Ville,B, Suen,E.: A method of choosing multiway partitions for classification and decision trees. J. of Appl. Stat., 18/1,

17 CART / C&RT Classification And Regression Tree Algoritmus je založen na počítání míry diverzity ( nečistoty ) uzlu Používa se Giniho míra diverzity (byla popsána) div Gini = 1 Σp i 2 kde p i jsou relativní četnosti v uzlech 17

18 CART / C&RT (pokrač.) Jen binární stromy Umožňuje zadání matice ztrát: 1 Σl ij p i p j Obvykle aplikujeme prořezávání (pruning) Strom necháme vyrůst do maximální šíře To však vede k přeučení Proto zpětně odstraníme listy a větve, které podle vhodně zvoleného statistického kriteria nelze považovat za významné (většinou se používá cross-validation) Surogáty náhradní dělení pro případ chybějící hodnoty v prediktoru Breiman, L., Friedman, J. H., Olshen, R. A., Stone, C. J.: Classication and Regression Trees. Wadsworth, 1984 CART je Salford Systems, proto AT a Statistica užívají C&RT; existují i další komerční klony s jinými jmény 18

19 ID3, C4.5, C5 (See5) Už jsme vysvětlovali Místo Giniho míry užívají entropii a informační zisk Binární stromy Zabudovaný algoritmus pro zjednodušení množiny odvozených pravidel lepší interpretovatelnost Ross Quinlan: Induction of decision trees (1986); týž: C4.5: Programs for Machine Learning, (1993); týž: C5.0 Decision Tree Software (1999) 19

20 QUEST Quick, Unbiased and Efficient Statistical Tree Loh, W.-Y. and Shih, Y.-S. (1997), Split selection methods for classification trees, Statistica Sinica, vol. 7, pp Výběr štěpící proměnné na základě statistického testu nezávislosti atribut x výstup => mírně suboptimální, ale rychlé, navíc výběr štěpící proměnné je nevychýlený Jen nominální výstup (=závisle proměnná) Binární strom, pruning Používá se imputace chybějících hodnot Portrét: Wei-Yin Loh 20

21 GUIDE Generalized, Unbiased, Interaction Detection and Estimation Loh, W.-Y. (2002), Regression trees with unbiased variable selection and interaction detection, Statistica Sinica, vol. 12, Kromě po částech konstantní aproximace nabízí i po částech polynomiální kříženec regresního stromu a mnohorozměrné regrese vhodné pro data, u kterých může být na místě jistá míra spojitosti aproximace, ale není to nutné všude ke stažení na 21

22 MARS Friedman, Jerome H. (1991): Multivariate Adaptive Regression Splines, Annals of Statistics, Vol 19, 1-141, Metoda blízce příbuzná rozhodovacím stromům; lze si ji představit jako jakýsi rozklad aproximační funkce do elementárních stromů s jedním štěpením a s lineární namísto konstantní aproximací v obou polopřímkách Spliny = spojité po částech polynomické funkce; zde se obvykle používají lineární spliny a jejich interakce (tenzorové součiny) Jednotlivé polynomy se na hranicích napojují tak, aby se dosáhlo spojitosti Vhodné vyžadujeme-li spojitost (např. časové řady) 22

23 TreeNet, rozhodovací lesy Friedman, J. H. (1999): Greedy Function Approximation: A Gradient Boosting Machine, Technical report, Dept. of Statistics, Stanford Univ. Namísto jednoho velkého stromu les malých Výsledná predikce vzniká váženým součtem predikcí jednotlivých složek Analogie Taylorova rozvoje: rozvoj do stromů Špatně interpretovatelné (černá skříňka), ale robustní a přesné; nižší nároky na kvalitu a přípravu dat než neuronová síť nebo boosting běžných stromů Komerční, 23

24 Závěrečné porovnání Model C5.0 CHAID QUEST C&R Tree Dělení Vícenásobné Vícenásobné Binární Binární Zvládá spojitý výstup? Zvládá spojité vstupy? Kritérium výběru atributu Kritérium prořezávání Interaktivní tvorba stromu Ne Ano Ne Ano Ano Ne Ano Ano Informační zisk Limit chyby Chi-kvadrát F test pro spojité proměnné Hlídá přeučení statistické Regularizace složitosti Ne Ano Ano Ano Gini index (čistota rozdělení, variabilita) Regularizace složitosti 24

25 Binární nebo obecné stromy? Binární stromy Např. CART, C5, QUEST Z uzlu vždy 2 větve Rychlejší výpočet (méně možností) Je třeba mít více uzlů Zpravidla přesnější => Data Mining, klasifikace Obecné stromy Např. CHAID, Exhaustive CHAID Počet větví libovolný Interpretovatelnost člověkem je lepší Strom je menší Zpravidla logičtější => segmentace, mrktg. 25

26 Vizualizace rozhodovacího stromu Credit ranking (1=default) Node 0 Category % n Bad 52, Good 47, Total (100,00) 323 Paid Weekly/Monthly Adj. P-value=0,0000, Chi-square=179,6665, df=1 Weekly pay Node 1 Category % n Bad 86, Good 13,33 22 Total (51,08) 165 Social Class Adj. P-value=0,0004, Chi-square=20,3674, df=2 Monthly salary Node 2 Category % n Bad 15,82 25 Good 84, Total (48,92) 158 Age Categorical Adj. P-value=0,0000, Chi-square=58,7255, df=1 Management;Professional Clerical;Skilled Manual Unskilled Young (< 25) Middle (25-35);Old ( > 35) Node 3 Category % n Bad 71,11 32 Good 28,89 13 Total (13,93) 45 Node 4 Category % n Bad 97,56 80 Good 2,44 2 Total (25,39) 82 Node 5 Category % n Bad 81,58 31 Good 18,42 7 Total (11,76) 38 Node 6 Category % n Bad 48,98 24 Good 51,02 25 Total (15,17) 49 Node 7 Category % n Bad 0,92 1 Good 99, Total (33,75)

27 Klasifikační stromy: Vizualizace viz scrvizclasstree.m 27

28 Klasifikační stromy: Chyba vs. ohebnost modelu Parametr splitmin určuje ohebnost modelu. Je to minimální počet trénovacích případů v uzlu, aby jej algoritmus ještě mohl dále dělit Jaký další parametr stromu by mohl hrát podobnou roli? 28

29 Klasifikační stromy: Chyba vs. ohebnost modelu II Závislost chyby stromu na parametru splitmin viz scrclasstterrortree.m Jak to, že trénovací chyba pro splitmin = 2 je nulová? 29

30 Stromy: Prořezávání Snižuje složitost modelu, odstraňuje zbytečné větve, zlepšuje generalizaci scrvizclasstree.m model=prune(model) view(model) 30

31 Regresní stromy: Jak se liší od klasifikačních? KT=130 KT=120 KT=150 KT=140 Místo nominální veličiny (chřipka, nachl., hypoch.) modelují spojitou veličinu, např. krevní tlak (KT). Hodnota bývá průměr příslušných tr. případů. 31

32 Regresní stromy: Predikce scrvizregrtree.m 32

33 Regresní stromy Chyba vs. ohebnost modelu Závislost chyby stromu na parametru splitmin scrregrtterrortree.m 33

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 6 1/25 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.

Více

IBM SPSS Decision Trees

IBM SPSS Decision Trees IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích

Více

Připomeň: Shluková analýza

Připomeň: Shluková analýza Připomeň: Shluková analýza Data Návrh kategorií X Y= 1, 2,..., K resp. i jejich počet K = co je s čím blízké + jak moc Neposkytne pravidlo pro zařazování Připomeň: Klasifikace Data (X,Y) X... prediktory

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

5.1 Rozhodovací stromy

5.1 Rozhodovací stromy 5.1 Rozhodovací stromy 5.1.1 Základní algoritmus Způsob reprezentování znalostí v podobě rozhodovacích stromů je dobře znám z řady oblastí. Vzpomeňme jen nejrůznějších klíčů k určování různých živočichů

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

Odhad cen ojetých vozů pomocí rozhodovacích stromů

Odhad cen ojetých vozů pomocí rozhodovacích stromů Odhad cen ojetých vozů pomocí rozhodovacích stromů Marta Žambochová ABSTRAKT Příspěvek se zabývá srovnáním vybraných algoritmů pro sestrojování rozhodovacích stromů, a to jak regresních, tak klasifikačních.

Více

KLASIFIKAČNÍ A REGRESNÍ LESY

KLASIFIKAČNÍ A REGRESNÍ LESY ROBUST 2004 c JČMF 2004 KLASIFIKAČNÍ A REGRESNÍ LESY Jan Klaschka, Emil Kotrč Klíčová slova: Klasifikační stromy, klasifikační lesy, bagging, boosting, arcing, Random Forests. Abstrakt: Klasifikační les

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Kontingenční tabulky. (Analýza kategoriálních dat)

Kontingenční tabulky. (Analýza kategoriálních dat) Kontingenční tabulky (Analýza kategoriálních dat) Agenda Standardní analýzy dat v kontingenčních tabulkách úvod, KT, míry diverzity nominálních veličin, některá rozdělení chí kvadrát testy, analýza reziduí,

Více

DATA MINING KLASIFIKACE DMINA LS 2009/2010

DATA MINING KLASIFIKACE DMINA LS 2009/2010 DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných

Více

Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF)

Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF) Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF) Systém WEKA, implementovaný v jazyce Java, lze získat nejlépe z následující URL: . Dále

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 9 1/16 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 3 1/29 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Cíle kurzu: seznámit posluchače s vybranými statistickými metodami, které jsou aplikovatelné v ekonomických

Více

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a

Více

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Vytěžování Dat Přednáška 12 Kombinování modelů Miroslav Čepek Pavel Kordík a Jan Černý (FIT) Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL)

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Rozhodovací stromy Marta Žambochová

Rozhodovací stromy Marta Žambochová Rozhodovací stromy Marta Žambochová Obsah: 1 Úvod... Algoritmy ro vytváření rozhodovacích stromů... 3.1 Algoritmus CART... 3.1.1 lasifikační stromy... 3.1. Regresní stromy... 4. Algoritmus ID3... 4.3 Algoritmus

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Projekt LISp-Miner. M. Šimůnek

Projekt LISp-Miner.   M. Šimůnek Projekt LISp-Miner http://lispminer.vse.cz M. Šimůnek Obsah Systém LISp-Miner Vývoj systému v dlouhém období ETree-Miner Project LISp-Miner 2 Systém LISp-Miner Metoda GUHA (od roku 1966) předchozí implementace

Více

Analytické procedury v systému LISp-Miner

Analytické procedury v systému LISp-Miner Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální

Více

Předzpracování dat. Lenka Vysloužilová

Předzpracování dat. Lenka Vysloužilová Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání

Více

Příklad: Test nezávislosti kategoriálních znaků

Příklad: Test nezávislosti kategoriálních znaků Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a

Více

Rozhodovací stromy a lesy

Rozhodovací stromy a lesy Rozhodovací stromy a lesy Klára Komprdová Leden 2012 Příprava a vydání této publikace byly podporovány projektem ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia Matematické biologie a státním

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Klasifikační metody pro genetická data: regularizace a robustnost

Klasifikační metody pro genetická data: regularizace a robustnost Odd medicínské informatiky a biostatistiky Ústav informatiky AV ČR, vvi Práce vznikla za finanční podpory Nadačního fondu Neuron na podporu vědy Klasifikační metody pro genetická data Regularizovaná klasifikační

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Klasická a robustní ortogonální regrese mezi složkami kompozice

Klasická a robustní ortogonální regrese mezi složkami kompozice Klasická a robustní ortogonální regrese mezi složkami kompozice K. Hrůzová, V. Todorov, K. Hron, P. Filzmoser 13. září 2016 Kompoziční data kladná reálná čísla nesoucí pouze relativní informaci, x = (x

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Klasifikační a regresní lesy Pokročilé neparametrické metody Klasifikační a regresní lesy Klasifikační les Klasifikační les je klasifikační model vytvořený

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního

Více

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6 1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6

Více

Rozhodovací stromy a jejich konstrukce z dat

Rozhodovací stromy a jejich konstrukce z dat Příklad počítačová hra. Můžeme počítač naučit rozlišovat přátelské a přátelské roboty? Rozhodovací stromy a jejich konstruk z dat Učení s učitelem: u některých už víme, jakou mají povahu (klasifika) Neparametrická

Více

Rekurzivní algoritmy

Rekurzivní algoritmy Rekurzivní algoritmy prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy (BI-EFA) ZS

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

PROHLEDÁVÁNÍ GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

PROHLEDÁVÁNÍ GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze PROHLEDÁVÁNÍ GRAFŮ Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze BI-GRA, LS 2010/2011, Lekce 4 Evropský sociální fond Praha & EU: Investujeme do

Více

Rozhodovací stromy a jejich konstrukce z dat

Rozhodovací stromy a jejich konstrukce z dat Rozhodovací stromy a jejich konstrukce z dat Příklad počítačová hra. Můžeme počítač naučit rozlišovat přátelské a nepřátelské roboty? Učení s učitelem: u některých už víme, jakou mají povahu (klasifikace)

Více

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Uni- and multi-dimensional parametric tests for comparison of sample results

Uni- and multi-dimensional parametric tests for comparison of sample results Uni- and multi-dimensional parametric tests for comparison of sample results Jedno- a více-rozměrné parametrické testy k porovnání výsledků Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Universita

Více

2019/03/31 17:38 1/2 Klasifikační a regresní stromy

2019/03/31 17:38 1/2 Klasifikační a regresní stromy 2019/03/31 17:38 1/2 Klasifikační a regresní stromy Table of Contents Klasifikační a regresní stromy... 1 rpart (library rpart)... 1 draw.tree (library maptree)... 3 plotcp a rsq.rpart (library rpart)...

Více

12. Globální metody MI-PAA

12. Globální metody MI-PAA Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 MI-PAA EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou

Více

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování

Více

UNIVERZITA PARDUBICE KLASIFIKAČNÍ ÚLOHY PRO DATA MINING. Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky.

UNIVERZITA PARDUBICE KLASIFIKAČNÍ ÚLOHY PRO DATA MINING. Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky. UNIVERZITA PARDUBICE Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky KLASIFIKAČNÍ ÚLOHY PRO DATA MINING Petra Jandová Bakalářská práce 2013 PROHLÁŠENÍ Prohlašuji, že jsem tuto

Více

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru Vytěžování dat, cvičení 2: Úvod do RapidMineru Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Fakulta elektrotechnická, ČVUT 1 / 23 Úvod do RapidMineru Dnes vám ukážeme jeden z mnoha

Více

Fisherův exaktní test

Fisherův exaktní test Katedra pravděpodobnosti a matematické statistiky Karel Kozmík Fisherův exaktní test 4. prosince 2017 Motivace Máme kontingenční tabulku 2x2 a předpokládáme, že četnosti vznikly z pozorování s multinomickým

Více

Dynamické programování

Dynamické programování Dynamické programování prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy (BI-EFA)

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.

Více

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi Evoluční algoritmy Použítí evoluční principů, založených na metodách optimalizace funkcí a umělé inteligenci, pro hledání řešení nějaké úlohy. Populace množina jedinců, potenciálních řešení Fitness function

Více

Základní datové struktury III: Stromy, haldy

Základní datové struktury III: Stromy, haldy Základní datové struktury III: Stromy, haldy prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní

Více

Lukáš Brodský www.gisat.cz. Praha 2008. Osnova. Objektový přístup Verze 4, 5, 6 / 7 Developer7 -funkčnost, nové vlastnosti HW

Lukáš Brodský www.gisat.cz. Praha 2008. Osnova. Objektový přístup Verze 4, 5, 6 / 7 Developer7 -funkčnost, nové vlastnosti HW Nové možnosti objektověorientované klasifikace v Definiens Lukáš Brodský www.gisat.cz GISAT Praha 2008 Osnova Objektový přístup Verze 4, 5, 6 / 7 Developer7 -funkčnost, nové vlastnosti HW Objektový přístup

Více

Katedra kybernetiky, FEL, ČVUT v Praze.

Katedra kybernetiky, FEL, ČVUT v Praze. Symbolické metody učení z příkladů Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz pplán přednášky Zaměření 1: učení z příkladů motivace, formulace problému, prediktivní a deskriptivní

Více

NG C Implementace plně rekurentní

NG C Implementace plně rekurentní NG C Implementace plně rekurentní neuronové sítě v systému Mathematica Zdeněk Buk, Miroslav Šnorek {bukz1 snorek}@fel.cvut.cz Neural Computing Group Department of Computer Science and Engineering, Faculty

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Statistická analýza dat

Statistická analýza dat Statistická analýza dat Jméno: Podpis: Cvičení Zkouška (písemná + ústní) 25 Celkem 50 Známka Pokyny k vypracování: doba řešení je 120min, jasně zodpovězte pokud možno všechny otázky ze zadání, pracujte

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze NP-ÚPLNÉ PROBLÉMY Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze BI-GRA, LS 2010/2011, Lekce 13 Evropský sociální fond Praha & EU: Investujeme do

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Analýza dat z dotazníkových šetření

Analýza dat z dotazníkových šetření Analýza dat z dotazníkových šetření Cvičení 6. Rozsah výběru Př. Určete minimální rozsah výběru pro proměnnou věk v souboru dovolena, jestliže 95% interval spolehlivost průměru proměnné nemá být širší

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Změkčování hranic v klasifikačních stromech

Změkčování hranic v klasifikačních stromech Změkčování hranic v klasifikačních stromech Jakub Dvořák Seminář strojového učení a modelování 24.5.2012 Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment

Více

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.

Více

Aproximace funkcí. Numerické metody 6. května FJFI ČVUT v Praze

Aproximace funkcí. Numerické metody 6. května FJFI ČVUT v Praze Aproximace funkcí Numerické metody 6. května 2018 FJFI ČVUT v Praze 1 Úvod Dělení Interpolace 1D Více dimenzí Minimalizace Důvody 1 Dělení Dělení - Získané data zadané data 2 Dělení - Získané data Obecně

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

4ST201 STATISTIKA CVIČENÍ Č. 10

4ST201 STATISTIKA CVIČENÍ Č. 10 4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte

Více

Získávání znalostí z dat

Získávání znalostí z dat Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace

Více

Teorie systémů TES 1. Úvod

Teorie systémů TES 1. Úvod Evropský sociální fond. Praha & EU: Investujeme do vaší budoucnosti. Teorie systémů TES 1. Úvod ZS 2011/2012 prof. Ing. Petr Moos, CSc. Ústav informatiky a telekomunikací Fakulta dopravní ČVUT v Praze

Více

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky Drahomír Novák Jan Eliáš 2012 Spolehlivost konstrukcí, Drahomír Novák & Jan Eliáš 1 část 5 Aproximační techniky 2012 Spolehlivost

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7 Inovace předmětu STATISTIKA Obsah 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7 1 1. Inovace předmětu STATISTIKA Předmět Statistika se na bakalářském oboru

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/32 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Prohledávání do šířky = algoritmus vlny

Prohledávání do šířky = algoritmus vlny Prohledávání do šířky = algoritmus vlny - souběžně zkoušet všechny možné varianty pokračování výpočtu, dokud nenajdeme řešení úlohy průchod stromem všech možných cest výpočtu do šířky, po vrstvách (v každé

Více

Stromy, haldy, prioritní fronty

Stromy, haldy, prioritní fronty Stromy, haldy, prioritní fronty prof. Ing. Pavel Tvrdík CSc. Katedra počítačů FEL České vysoké učení technické DSA, ZS 2008/9, Přednáška 6 http://service.felk.cvut.cz/courses/x36dsa/ prof. Pavel Tvrdík

Více

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 1: Visualizace MI-PDD, 09/2011 MI-POA Evropský sociální fond

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Rozhodovací stromy. Úloha klasifikace objektů do tříd. Top down induction of decision trees (TDIDT) - metoda divide and conquer (rozděl a panuj)

Rozhodovací stromy. Úloha klasifikace objektů do tříd. Top down induction of decision trees (TDIDT) - metoda divide and conquer (rozděl a panuj) Rozhodovací stromy Úloha klasifikace objektů do tříd. Top dow iductio of decisio trees (TDIDT) - metoda divide ad coquer (rozděl a pauj) metoda specializace v prostoru hypotéz stromů (postup shora dolů,

Více

MODELOVÁNÍ SPOKOJENOSTI OBČANŮ VE VZTAHU K REGIONÁLNÍMU ROZVOJI A KVALITĚ ŽIVOTA

MODELOVÁNÍ SPOKOJENOSTI OBČANŮ VE VZTAHU K REGIONÁLNÍMU ROZVOJI A KVALITĚ ŽIVOTA MODELOVÁNÍ SPOKOJENOSTI OBČANŮ VE VZTAHU K REGIONÁLNÍMU ROZVOJI A KVALITĚ ŽIVOTA Miloslava Kašparová, Jiří Křupka, Jaromír Pírko Univerzita Pardubice, Fakulta ekonomicko-správní, Ústav systémového inženýrství

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

A-PDF Split DEMO : Purchase from to remove the watermark

A-PDF Split DEMO : Purchase from  to remove the watermark A-PDF Split DEMO : Purchase from www.a-pdf.com to remove the watermark KDE STUDENTI HLEDAJÍ INFORMACE Marta Žambochová Adresa: FSE UJEP, KMS, Moskevská 54, CZ-400 96, Ústí nad Labem E-mail: marta.zambochova@ujep.cz

Více

UČENÍ BEZ UČITELE. Václav Hlaváč

UČENÍ BEZ UČITELE. Václav Hlaváč UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení

Více

Aleh Masaila. Regresní stromy

Aleh Masaila. Regresní stromy Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Aleh Masaila Regresní stromy Katedra pravděpodobnosti a matematické statistiky Vedoucí diplomové práce: Studijní program: Studijní

Více

Evolučníalgoritmy. Dále rozšiřována, zde uvedeme notaci a algoritmy vznikléna katedře mechaniky, Fakulty stavební ČVUT. Moderní metody optimalizace 1

Evolučníalgoritmy. Dále rozšiřována, zde uvedeme notaci a algoritmy vznikléna katedře mechaniky, Fakulty stavební ČVUT. Moderní metody optimalizace 1 Evolučníalgoritmy Kategorie vytvořená v 90. letech, aby se sjednotily jednotlivémetody, kterévyužívaly evoluční principy, tzn. Genetickéalgoritmy, Evolučnístrategie a Evoluční programování (v těchto přednáškách

Více

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu

Více

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Metoda backward výběru proměnných v lineární regresi a její vlastnosti Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda

Více

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy Dichotomická proměnná (0-1) Spojitá proměnná STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Ověření variability Předpoklady Testy, resp. intervalové odhad Test o rozptylu

Více