jedna hrana pro každou možnou hodnotu tohoto atributu; listy jsou označeny předpokládanou hodnotou cílového atributu Atribut Outlook
|
|
- Simona Vlčková
- před 7 lety
- Počet zobrazení:
Transkript
1 Rozhodovací stromy
2 Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak Atribut hodnota cílového atributu Hodnota atributu No Yes No Yes Rozhodovací strom pro daný cílový atribut G je kořenový strom tvořený z kořene a vnitřních uzlů označených atributem; ze kterého vede jedna hrana pro každou možnou hodnotu tohoto atributu; listy jsou označeny předpokládanou hodnotou cílového atributu G za předpokladu, že ostatní atributy nabývají hodnot na cestě od kořene do listu. Pokud se některé atributy na cestě nevyskytují, na jejich hodnotě nezáleží.
3 Základ algoritmu tvorby rozhodovacího stromu z dat je následující: 1. vyber atribut; vytvoř z něj uzel a rozděl data podle hodnoty tohoto atributu 2. pro každou hodnotu atributu vytvoř podstrom z dat s odpovídající hodnotou 3. pokud data obsahují jen jednu hodnotu cílové třídy či pokud došly atributy k dělení, vytvoř list s hodnotou nejčetnější cílové třídy. Otázkou je, jak vybírat atribut k dělení.
4 Entropie Po míře entropie rozdělení hodnot daného atributu A (tj. míře nejistoty, negativní míře informace) chceme, aby: byla nula, pokud jsou všechny hodnoty cílové třídy stejné byla největší, pokud je stejně hodnot všech cílových tříd (tj. nevíme nic) aby rozhodnutí ve dvou krocích vedlo ke stejnému výsledku jako rozhodnutí naráz, tj. E([2, 3, 4]) = E([2, 7]) E([3, 4]) Toto splňuje pouze entropie E([p 1,..., p n ]) = n i=1 p i log p i, logaritmus se bere většinou dvojkový. Pozn. nemusíme normalizovat, pak dostaneme entropii násobenou součetem všech p i.
5 Pokud chceme uvést, přes který atribut entropii počítáme, používáme dolní index, např. E Xj, resp. E G pro cílový atribut.
6 Entropie pro dvouhodnotový atribut Entropie vodorovná osa: p i, svislá: entropie.
7 ID3 algorithmus Uzel, který dáme do kořene (pod)stromu, vybíráme podle maximálního informačního zisku (information gain), definovaného pro množinu dat data a atribut X j jako: data Xj=x Gain(data, X j ) = E G (data) j E G (data Xj =x x j X j data j ) kde data Xj =x j je podmnožina data, kde atribut X j má hodnotu x j, entropie je definovaná E G (data) = data G=g g G data log 2 data G=g data = G p i log 2 p i i=1 kde p i je počet dat v data patřící do třídy g i dělený celkovým počtem dat v data.
8 Algoritmus ID3 algorithm(data, G cíl, Attributes vstup. atributy) Vytvoř kořen root Pokud mají všechna data stejné g, označ kořen g a konec, Pokud došly Attributes, označ root nejčastější hodnotou g v data a konec jinak X j = atribut z Attributes s maximálním Gain(data, X j ) označ root atributem X j pro každou hodnotu x j atributu X j, přidej větev pod root, odpovídající testu X j = x j data Xj =x j = podmnožina data, kde X j = x j Je li data Xj =x j prázdné, přidej list označený nejčastější hodnotou g v data a konec jinak přidej podstrom ID3(data Xj =x j, G, Attributes \ {X j }) vrať root
9 Chyba predikce na trénovacích datech na nových datech (při nasazení v reálu) Occamova břitva preferujeme jednodušší model (jsou li srovnatelně dobré) penalizujeme složité modely Snažím se strom zmenšit (prořezat) bez velkého zhoršení chyby.
10 Prořezávání postprunning nejdřív vytvoříme strom, pak ho prořezáváme; preprunning ukončit tvoření stromu dříve, než dojdeme na konec. I když pre prunning vypadá lákavěji (než zbytečně tvořit dál a prořezávat), častěji se používá postprunning, protože nezamítne kombinaci atributů, z nichž žádný jednotlivec není užitečný, ale jako celek užiteční jsou. Není jasné, jestli lze nalézt preprunning strategii, která by byla stejně dobrá, jako postprunning.
11 Odhad chyby reduced error prunning nechám trochu dat na prořezávání, ale bohužel učím strom na méně datech. odhadovat chybu na základě trénovacích dat použito v C4.5, motivováno statistikou. optimalizovat penalizovanou míru chyby (CART).
12 Odhad chyby z trénovacích dat Uvažujme list l, v něm je N l příkladů, v datech je Err l příkladů chybných (tj. různých od nejčetnější třídy) ˆf l = Err l N l je pozorovaná frekvence chyby, předpokládáme, že N l instancí bylo generováno Bernoulliho procesem s parametrem q l (=správná (true) pravděpodobnost chyby), vzhledem k tomu, že odhad je založen na trénovacích datech, děláme pesimistický odhad a místo výpočtu konfidenčního intervalu bereme jako odhad horní hranici tohoto intervalu.
13 V C4.5 je default hladina významnosti (confidence level) α = 0.25 hledáme z tak, aby: err ˆ l = P q l ˆf l ql (1 q l ) N l > z = α Pro α = 0.25 je z = 0.69, nižší α vede k drastičtějšímu prořezání. z použijeme pro výpočet pesimistického odhadu frekvence chyby err ˆ l ˆf l + z2 ˆf 2N l + z l N l ˆf l 2 N l + z2 4Nl 2 Nebo přibližně: 1 + z2 N l ˆfl (1 ˆf l ) err ˆ l ˆf l + zσ l ˆf l + z N l
14 Prořezávání Postprunning uvažuje dvě operace, subtree replacement vyberu podstrom a nahradím ho listem; to určitě sníží přesnost na trénovacích datech, ale může to zlepšit predikci na nezávislých testovacích datech. Postupujeme od listů ke kořeni, v každém uzlu buď podstrom nahradíme, nebo necháme. subtree raising komplexnější a je otázkou, je li třeba. Ale je použité v C4.5. Jde o vynechání jednoho uzlu, nahrazení ho jeho podstromem a překlasifikováním příkladů, které patřily do zbylých podstromů. V praxi se to zkouší jen pro nejnavštěvovanější větev.
15 Numerické atributy yes no yes yes yes no no,yes yes,yes no yes yes no U tohoto atributu připadá v úvahu 11 dělicích bodů, ale pokud neuvažujeme dělení mezi dvěma stejnými hodnotami cílového atributu, tak jen 9. Pro každý řez zvlášť můžeme zjistit informační zisk, např. pro řez v 71.5 dostaneme E([9, 5]) E([4, 2], [5, 3]) = E([9, 5]) ( 6 14 = bitů. E([4, 2]) E([5, 3])) Testů podle numerického atributu může být na cestě z kořene do listu víc narozdíl od diskrétního atributu, kde rovnou dělíme podle všech možných hodnot.
16 Penalizace mnohahodnotových atributů Dělení dle identifikačního kódu záznamu vede k nulové entropii, ale nezobecňuje. Pro výběr dělení užijeme Gain ratio= Gain(data,X j) E(X j ) tj. penalizujeme započítáním informace obsažené v samotném dělení podle atributu, bez ohledu na cílovou třídu. Např. ID kód pro N příkladů bude mít informaci obsaženou v atributu: E([1, 1,..., 1]) = ( 1 log 1 ) N = log N. N N Nebo jednoduše dovolíme jen binární dělení(cart); připouští li atribut další dělení, pokračuje do podstomů. V praxi se navíc přidávají at toc testy na vyhození ID, i když vyjde nejlepší, a na omezení přílišné závislosti na entropii atributu tím, že vyberu maxmální gain ratio jen tehdy, pokud je i information gain aspoň tak dobrý jako průměrný information gain přes všechny testované atributy. C4.5 navíc nevybere atribut, který má skoro jen jednu hodnotu vyžaduje aspoň dvě hodnoty s aspoň dvěma příklady s tím, že ta druhá dvojka se dá nastavit a měla by se zvětšit, máme li hodně dat s velkým šumem.
17 Binární řez pro kategoriální atributy Pro q hodnot 2 q 1 možných dělení, ALE pro 0 1 výstup stačí setřídit hodnoty atributu dle klesající proporce těch s cílem 1 vyzkoušet všechny řezy, tj. q 1. Pro kvantitativní výstup setřídit kategorie dle klesajícího průměru cíle a totéž.
18 Chybějící hodnoty Ignorovat celou instanci často nemůžeme, protože by nám nezbyla žádná data. Navíc, pokud chybějící atribut nenese informaci pro rozhodování, tak je tahle instance stejně dobrá jako všechny ostatní. Pokud fakt, že údaj chybí, není náhodný, pak je vhodné chybění hodnoty považovat za další možnou hodnotu atributu.např. plat neuvedou ti, kdo ho mají hodně malý či hodně velký. Pokud ale samotný fakt chybění nenese informaci (např. neměřil porouchaný teploměr), pak je lépe nakládat jinak. Možné řešení je rozdělení instance na kousky (numericky vážit podle počtu trénovacích instancí jdoucích jedotlivými větvemi), dojít k listům, a váženě zkombinovat predikce na listech. Podobně používáme váhy pro výpočet informačního zisku a informač. poměru a pro dělení instancí podle chybějícího att.
19 Různé míry pro větvení stromu entropie K k=1 ˆp m,k log ˆp m,k chyba predikce 1 N m i Rm I(y i = k(m)) = 1 ˆp m,km Gini k =k ˆp m,k ˆp m,k = K k=1 ˆp m,k(1 ˆp m,k ) Interpretace Gini: předpovídám pravděpodobnosti, pak je trénovací chyba Gini Gini je součet rozptylů jednotlivých tříd k při 0 1 kódování Příklad: Je dělení (300,100) a (100,300) lepší či horší než (200,400) a (200,0)?
20 Miry pro vyber vetveni stromu misclas. error entropie GINI
21 Různá cena chyby Raději predikuji infarkt i tomu, kdo ho nedostane, než nevarovat toho, kdo ho dostane. L kk matice ceny za chybnou klasifikaci k jakožto k pro vícekategoriální klasifikaci modifikujeme Gini = k =k L kk ˆp mk ˆp mk pro dvouhodnotovou vážíme prvky třídy k L kk krát v listu pak klasifikujeme k(m) = argmin k l L lk ˆp ml.
22 Cena za pozorování Gain 2 (S, X j ) Cost(X j ) učení robota, nakolik objekty mohou být uchopeny Schlimmer 1990, Tan 1993 nebo 2 Gain(S,X j) 1 (Cost(X j ) + 1) w Nunez 1988 medicínská diagnostika. Nunez 1991 srovnává oba přístupy na různých příkladech.
23 Složitost algoritmu Mějme N instancí o p atributech. Předpokládejme hloubku stromu O(logN), tj. že zůstává rozumně hustý. Vytvoření stromu potřebuje O(p N logn) času. (Na každé hloubce se každá instance vyskytne právě jednou, je logn hloubek, v každém uzlu zkoušíme p atributů. Složitost subtree replacement je O(N), složitost subtree raising je O(N(logN) 2 ). Celková složitost tvorby stromů je O(pNlogN) + O(N(logN) 2 ).
24 Pravidla ze stromů Ze stromu můžeme vytvořit pravidla napsáním pravidla pro každý list. Ta pravidla ale můžeme ještě zlepšit tím, že uvažujeme každý atribut v každém pravidle a zjistíme, jestli jeho vynecháním pravidlo nezlepšíme (tj. nezlepšíme chybu na validačních datech resp. pesimistický odhad chyby na trénovacích datech). To funguje celkem dobře, ale dlouho, protože pro každý atribut musíme projít všechny trénovací příklady. Algoritmy tvořící pravidla přímo bývají rychlejší. Výsledná pravidla setřídíme podle klesající úspěšnosti.
25 Stromy pro numerickou predikci Listy stromů obsahují numerické hodnoty, rovné průměru trénovacích příkladů v listu. pro výběr atributu k dělení zkoušíme všechny řezy, vybíráme maximální zlepšení střední kvadratické chyby. Tyto stromy se nazývají také regresní stromy, protože statistici nazývají regrese proces pro predikci numerických hodnot. Můžeme i kombinovat regresní přímku a rozhodovací strom tím, že v každém uzlu bude regresní přímka takový strom se nazývá model tree.
26 CART Hledá proměnnou j a bod řezu s na oblasti R 1 ( j, s) = {X X j s} a R 2 ( j, s) = {X X j > s} takové, aby minimalizovaly [ min j,s = min c1 ] (y i c 1 ) 2 + min c2 (y i c 2 ) 2 x i R 1 ( j,s) x i R 2 ( j,s) vnitřní minima jsou průměry, tj. ĉ 1 = avg(y i x i R 1 ( j, s)).
27 Prořezávání v CART Naučme strom T 0 až k listům s málo (5 ti) záznamy. Vytvoříme hierarchii podstromů T T 0 postupným sléváním listů dohromady. Listy stromu T o velikosti T indexujeme m, list m pokrývá oblast R m, definujeme: ĉ m = 1 N m Q m (T) = 1 N m x i R m y i, x i R m (y i ĉ m ) 2.
28 Definujeme kriterium k optimalizaci: C α (T) = T m=1 N m Q m (T) + α T. Vyjdeme z T 0, postupně slijeme vždy dva listy, které způsobí nejmenší nárůst m N m Q m (T), až nám zbyde jen kořen. Dá se ukázat, že tato posloupnost obsahuje T α optimální stromy pro daná α. α = 0 neprořezáváme, necháme T 0, pro α = necháme jen kořen, vhodné α zvolíme na základě krosvalidace, ˆα minimalizuje krosvalidační chybu RSS, vydáme model Tˆα.
DATA MINING KLASIFIKACE DMINA LS 2009/2010
DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.
VíceInstance based learning
Učení založené na instancích Instance based learning Charakteristika IBL (nejbližších sousedů) Tyto metody nepředpokládají určitý model nejsou strukturované a typicky nejsou příliš užitečné pro porozumění
VíceStrukturální regresní modely. určitý nadhled nad rozličnými typy modelů
Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci
VíceNávrh Designu: Radek Mařík
1. 7. Najděte nejdelší rostoucí podposloupnost dané posloupnosti. Použijte metodu dynamického programování, napište tabulku průběžných délek částečných výsledků a tabulku předchůdců. a) 5 8 11 13 9 4 1
VíceRozhodovací stromy a lesy
Rozhodovací stromy a lesy Klára Komprdová Leden 2012 Příprava a vydání této publikace byly podporovány projektem ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia Matematické biologie a státním
VíceBinární vyhledávací stromy pokročilé partie
Binární vyhledávací stromy pokročilé partie KMI/ALS lekce Jan Konečný 30.9.204 Literatura Cormen Thomas H., Introduction to Algorithms, 2nd edition MIT Press, 200. ISBN 0-262-5396-8 6, 3, A Knuth Donald
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VícePokročilé neparametrické metody. Klára Kubošová
Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
VíceObsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
VíceSelect sort: krok 1: krok 2: krok 3: atd. celkem porovnání. výběr nejmenšího klíče z n prvků vyžaduje 1 porovnání
Select sort: krok 1: výběr klíče z n prvků vyžaduje 1 porovnání krok 2: výběr klíče z 1 prvků vyžaduje 2 porovnání krok 3: výběr klíče z 2 prvků vyžaduje 3 porovnání atd. celkem porovnání Zlepšení = použít
VícePředzpracování dat. Lenka Vysloužilová
Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání
VíceNPRG030 Programování I, 2018/19 1 / :03:07
NPRG030 Programování I, 2018/19 1 / 20 3. 12. 2018 09:03:07 Vnitřní třídění Zadání: Uspořádejte pole délky N podle hodnot prvků Měřítko efektivity: * počet porovnání * počet přesunů NPRG030 Programování
VíceZáklady navrhování průmyslových experimentů DOE
Základy navrhování průmyslových experimentů DOE cílová hodnota V. Vícefaktoriální experimenty Gejza Dohnal střední hodnota cílová hodnota Vícefaktoriální návrhy experimentů počet faktorů: počet úrovní:
VíceZměkčování hranic v klasifikačních stromech
Změkčování hranic v klasifikačních stromech Jakub Dvořák Seminář strojového učení a modelování 24.5.2012 Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment
VíceProjekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
VíceStrojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
VíceStatistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
VíceVelmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF)
Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF) Systém WEKA, implementovaný v jazyce Java, lze získat nejlépe z následující URL: . Dále
VíceOdhady Parametrů Lineární Regrese
Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké
VícePolynomy. Mgr. Veronika Švandová a Mgr. Zdeněk Kříž, Ph. D. 1.1 Teorie Zavedení polynomů Operace s polynomy...
Polynomy Obsah Mgr. Veronika Švandová a Mgr. Zdeněk Kříž, Ph. D. 1 Základní vlastnosti polynomů 2 1.1 Teorie........................................... 2 1.1.1 Zavedení polynomů................................
VíceFaculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague
1 / 23 Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 2 / 23 biologové často potřebují najít často se opakující sekvence DNA tyto sekvence bývají relativně krátké,
VíceIntervalová data a výpočet některých statistik
Intervalová data a výpočet některých statistik Milan Hladík 1 Michal Černý 2 1 Katedra aplikované matematiky Matematicko-fyzikální fakulta Univerzita Karlova 2 Katedra ekonometrie Fakulta informatiky a
VíceTestování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace
VíceAplikovaná numerická matematika
Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních
VíceAsociační i jiná. Pravidla. (Ch )
Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo
VícePravděpodobně skoro správné. PAC učení 1
Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceAlgoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu
VícePřipomeň: Shluková analýza
Připomeň: Shluková analýza Data Návrh kategorií X Y= 1, 2,..., K resp. i jejich počet K = co je s čím blízké + jak moc Neposkytne pravidlo pro zařazování Připomeň: Klasifikace Data (X,Y) X... prediktory
VíceHodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/
Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117 O čem se bude mluvit? Čtyřpolní tabulky Osnova prezentace Čtyřpolní tabulky 1. přístupy
VíceTestování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? 2 Osnova Úvod různé klasifikační modely a jejich kvalita Hodnotící míry (kriteria kvality) pro zvolený model. Postup vyhodnocování
VíceTestování modelů a jejich výsledků. tomu, co jsme se naučili?
Testování modelů a jejich výsledků Jak moc můžeme věřit tomu, co jsme se naučili? Osnova Úvod Trénovací, Testovací a Validační datové soubory Práce s nebalancovanými daty; ladění parametrů Křížová validace
VíceCVIČNÝ TEST 5. OBSAH I. Cvičný test 2. Mgr. Václav Zemek. II. Autorské řešení 6 III. Klíč 17 IV. Záznamový list 19
CVIČNÝ TEST 5 Mgr. Václav Zemek OBSAH I. Cvičný test 2 II. Autorské řešení 6 III. Klíč 17 IV. Záznamový list 19 I. CVIČNÝ TEST 1 Zjednodušte výraz (2x 5) 2 (2x 5) (2x + 5) + 20x. 2 Určete nejmenší trojciferné
VíceAlgoritmus pro hledání nejkratší cesty orientovaným grafem
1.1 Úvod Algoritmus pro hledání nejkratší cesty orientovaným grafem Naprogramoval jsem v Matlabu funkci, která dokáže určit nejkratší cestu v orientovaném grafu mezi libovolnými dvěma vrcholy. Nastudoval
Vícebin arn ı vyhled av an ı a bst Karel Hor ak, Petr Ryˇsav y 23. bˇrezna 2016 Katedra poˇ c ıtaˇ c u, FEL, ˇ CVUT
binární vyhledávání a bst Karel Horák, Petr Ryšavý 23. března 2016 Katedra počítačů, FEL, ČVUT Příklad 1 Naimplementujte binární vyhledávání. Upravte metodu BinarySearch::binarySearch. 1 Příklad 2 Mysĺım
VícePřednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
VíceKatedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
VíceMÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
Více8 Coxův model proporcionálních rizik I
8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
VíceNeuronové časové řady (ANN-TS)
Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci
VíceJana Vránová, 3. lékařská fakulta, UK Praha
Jana Vránová, 3. lékařská fakulta, UK Praha Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně
VíceTestování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
VíceRegrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA
Regrese používáme tehd, jestliže je vsvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA Specifikace modelu = a + bx a závisle proměnná b x vsvětlující proměnná Cíl analýz Odhadnout hodnot
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceUČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
Více= - rovnost dvou výrazů, za x můžeme dosazovat různá čísla, tím měníme
- FUNKCE A ROVNICE Následující základní znalosti je nezbytně nutné umět od okamžiku probrání až do konce kapitoly (většinou do napsání čtvrtletní písemné práce, na výjimky z tohoto pravidla bude upozorněno).
VíceTestování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
Více2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení
2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků
Více1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
Více4EK211 Základy ekonometrie
4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb
VíceOdhad parametrů N(µ, σ 2 )
Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceZpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.
Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen
VíceRozhodovací stromy a jejich konstrukce z dat
Rozhodovací stromy a jejich konstrukce z dat Příklad počítačová hra. Můžeme počítač naučit rozlišovat přátelské a nepřátelské roboty? Učení s učitelem: u některých už víme, jakou mají povahu (klasifikace)
VíceNáhodné chyby přímých měření
Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
VíceRozhodovací stromy a jejich konstrukce z dat
Příklad počítačová hra. Můžeme počítač naučit rozlišovat přátelské a přátelské roboty? Rozhodovací stromy a jejich konstruk z dat Učení s učitelem: u některých už víme, jakou mají povahu (klasifika) Neparametrická
VíceÚvod do teorie informace
PEF MZLU v Brně 24. září 2007 Úvod Výměna informací s okolím nám umožňuje udržovat vlastní existenci. Proces zpracování informací je trvalý, nepřetržitý, ale ovlivnitelný. Zabezpečení informací je spojeno
VíceAVDAT Nelineární regresní model
AVDAT Nelineární regresní model Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Nelineární regresní model Ey i = f (x i, β) kde x i je k-členný vektor vysvětlujících proměnných
Více3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA
Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 MI-PAA EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI
VíceTeorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy
Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy Lukáš Havrlant Univerzita Palackého 10. ledna 2014 Primární zdroj Jiří Adámek: Foundations of Coding. Strany 137 160. Na webu ke stažení, heslo:
VíceAnalýza dat pomocí systému Weka, Rapid miner a Enterprise miner
Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování
VíceVytěžování znalostí z dat
Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální
Více676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
VíceTvorba asociačních pravidel a hledání. položek
Tvorba asociačních pravidel a hledání častých skupin položek 1 Osnova Asociace Transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla Aplikace 2 Asociace Nechť I je množina položek.
VíceRozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně
Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný
VíceÚvod do teorie odhadu. Ing. Michael Rost, Ph.D.
Úvod do teorie odhadu Ing. Michael Rost, Ph.D. Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceAleh Masaila. Regresní stromy
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Aleh Masaila Regresní stromy Katedra pravděpodobnosti a matematické statistiky Vedoucí diplomové práce: Studijní program: Studijní
Více1 Projekce a projektory
Cvičení 3 - zadání a řešení úloh Základy numerické matematiky - NMNM20 Verze z 5. října 208 Projekce a projektory Opakování ortogonální projekce Definice (Ortogonální projekce). Uvažujme V vektorový prostor
Více11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.
11 cvičení z PSI 12-16 prosince 2016 111 (Test dobré shody - geometrické rozdělení Realizací náhodné veličiny X jsme dostali následující četnosti výsledků: hodnota 0 1 2 3 4 5 6 pozorovaná četnost 29 15
VíceDigitální učební materiál
Digitální učební materiál Číslo projektu: CZ.1.07/1.5.00/34.0548 Název školy: Gymnázium, Trutnov, Jiráskovo náměstí 325 Název materiálu: VY_32_INOVACE_148_IVT Autor: Ing. Pavel Bezděk Tematický okruh:
VíceCvičení ze statistiky - 3. Filip Děchtěrenko
Cvičení ze statistiky - 3 Filip Děchtěrenko Minule bylo.. Dokončili jsme základní statistiky, typy proměnných a začali analýzu kvalitativních dat Tyhle termíny by měly být známé: Histogram, krabicový graf
VícePokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační
VíceModely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT
PEF ČZU Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT Okruhy SZB č. 5 Zdroje: Demel, J., Operační výzkum Jablonský J., Operační výzkum Šubrt, T., Langrová, P., Projektové řízení I. a různá internetová
VíceČasové řady, typy trendových funkcí a odhady trendů
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Stochastický proces Posloupnost náhodných veličin {Y t, t = 0, ±1, ±2 } se nazývá stochastický proces
VíceCvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD
Cvičení 11 Klasifikace Jan Přikryl ČVUT FD 14. března 2018 Příklad 1 Data z akciového trhu Nejprve prozkoumáme data z akciových trhů, konkrétně denní vývoj indexu S&P v letech 2001 2005. Načteme a zobrazíme
VíceIntervalové stromy. Představme si, že máme posloupnost celých čísel p 0, p 1,... p N 1, se kterou budeme. 1. Změna jednoho čísla v posloupnosti.
Intervalové stromy Představme si, že máme posloupnost celých čísel p 0, p 1,... p N 1, se kterou budeme průběžně provádět tyto dvě operace: 1. Změna jednoho čísla v posloupnosti. 2. Zjištění součtu čísel
VíceZavedení a vlastnosti reálných čísel
Zavedení a vlastnosti reálných čísel jsou základním kamenem matematické analýzy. Konstrukce reálných čísel sice není náplní matematické analýzy, ale množina reálných čísel R je pro matematickou analýzu
Vícejevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.
Parametrické metody odhadů z neúplných výběrů 2 1 Metoda maximální věrohodnosti pro cenzorované výběry 11 Náhodné cenzorování Při sledování složitých reálných systémů často nemáme možnost uspořádat experiment
VíceLineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
VíceČasová a prostorová složitost algoritmů
.. Časová a prostorová složitost algoritmů Programovací techniky doc. Ing. Jiří Rybička, Dr. ústav informatiky PEF MENDELU v Brně rybicka@mendelu.cz Hodnocení algoritmů Programovací techniky Časová a prostorová
Vícegrupa těleso podgrupa konečné těleso polynomy komutativní generovaná prvkem, cyklická, řád prvku charakteristika tělesa
grupa komutativní podgrupa těleso generovaná prvkem, cyklická, řád prvku Malá Fermatova věta konečné těleso charakteristika tělesa polynomy ireducibilní prvky, primitivní prvky definice: G, je grupa kde
VíceModely Herbrandovské interpretace
Modely Herbrandovské interpretace Petr Štěpánek S využitím materialu Krysztofa R. Apta 2006 Logické programování 8 1 Uvedli jsme termové interpretace a termové modely pro logické programy a také nejmenší
Více3. Vícevrstvé dopředné sítě
3. Vícevrstvé dopředné sítě! Jsou tvořeny jednou nebo více vrstvami neuronů (perceptronů). Výstup jedné vrstvy je přitom připojen na vstup následující vrstvy a signál se v pracovní fázi sítě šíří pouze
VíceData v počítači. Informační data. Logické hodnoty. Znakové hodnoty
Data v počítači Informační data (elementární datové typy) Logické hodnoty Znaky Čísla v pevné řádové čárce (celá čísla) v pohyblivé (plovoucí) řád. čárce (reálná čísla) Povelová data (instrukce programu)
VíceDiagnostika regrese pomocí grafu 7krát jinak
StatSoft Diagnostika regrese pomocí grafu 7krát jinak V tomto článečku si uděláme exkurzi do teorie regresní analýzy a detailně se podíváme na jeden jediný diagnostický graf. Jedná se o graf Předpovědi
VíceNÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:
NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného
VíceUkážeme si lineární algoritmus, který pro pevné k rozhodne, zda vstupní. stromový rozklad. Poznamenejme, že je-li k součástí vstupu, pak rozhodnout
Ukážeme si lineární algoritmus, který pro pevné k rozhodne, zda vstupní graf má stromovou šířku nejvýše k, a je-li tomu tak, také vrátí příslušný stromový rozklad. Poznamenejme, že je-li k součástí vstupu,
VíceKapitola 1. Logistická regrese. 1.1 Model
Kapitola Logistická regrese Předpokládám, že už jsme zavedli základní pojmy jako rysy a že už máme nějaké značení Velkost trenovacich dat a pocet parametru Motivační povídání... jeden z nejpoužívanějších
VíceNáhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.
1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,
Více