Odhad cen ojetých vozů pomocí rozhodovacích stromů

Rozměr: px
Začít zobrazení ze stránky:

Download "Odhad cen ojetých vozů pomocí rozhodovacích stromů"

Transkript

1 Odhad cen ojetých vozů pomocí rozhodovacích stromů Marta Žambochová ABSTRAKT Příspěvek se zabývá srovnáním vybraných algoritmů pro sestrojování rozhodovacích stromů, a to jak regresních, tak klasifikačních. Dále článek obsahuje popis zpracování údajů o ojetých automobilech získaných z různých autobazarů v ČR. Ke zpracování jsou pouţity vybrané algoritmy pro tvorbu rozhodovacích stromů v dosaţitelném softwaru. KLÍČOVÁ SLOVA Klasifikační stromy, regresní stromy, atributy ojetých automobilů, kategorie cen ojetých automobilů ABSTRACT This paper deals with the comparison of chosen algorithms in a decision tree construction. It includes an analysis of research data connected with second-hand cars. We apply chosen methods available in the software for the data analysis. KEY WORDS Classification tree, regression tree, second-hand car attributes, second-hand car categories of prices ÚVOD Stromová struktura je oblíbeným prostředkem prezentace informací v různých oblastech běţného ţivota. Pro svoji jednoduchost a přehlednost našla své uplatnění i v oblasti analýzy dat. Velmi rozšířenou skupinou stromů jsou různé typy rozhodovacích stromů. Tento druh stromů je zvláště vhodným nástrojem pro klasifikaci a predikci. Rozhodovací stromy se stávají velmi populárním nástrojem v různých manaţerských úlohách (podrobněji popsáno například v [1], [2], [6], [9]). Rozhodovací stromy jsou struktury, které rekurzivně rozdělují zkoumaná data dle určitých rozhodovacích kritérií. Máme-li strom s jedním listem, hledáme otázku (podmínku větvení), která nejlépe rozděluje prostor zkoumaných dat do podmnoţin, tj. maximalizuje kritérium kvality dělení (tzv. splitting criterium). Takto nám vznikne strom s více listy. Nyní pro kaţdý nový list hledáme otázku, která mnoţinu prediktorů náleţící tomuto listu co nejlépe dělí do podmnoţin. Proces dělení se zastaví, pokud bude splněno kritérium pro zastavení (tzv. stopping rule). Omezení obsaţená v kritériu pro zastavení mohou být např. hloubka stromu, počet listů stromu, či stupeň homogennosti mnoţin dat v listech. Dalším krokem algoritmů je prořezávání stromu (prunning). Je nutno určit správnou velikost stromu (příliš malé stromy dostatečně nevystihují všechny zákonitosti v datech, příliš veliké stromy zahrnují do popisu i nahodilé vlastnosti dat). CÍL A METODIKA Pro vytváření rozhodovacích stromů bylo vyvinuto velké mnoţství algoritmů. My jsme pouţili metody zaloţené na algoritmech CART, ID3, C4.5 a QUEST.

2 Algoritmus CART Algoritmus poprvé popsali jeho autoři Breiman, Freidman, Olshen a Stone v roce 1984 ve článku Classification and Regression trees. Algoritmus je popsán například v [8]. Algoritmus je pouţitelný v případě, ţe máme jednu nebo více vysvětlujících proměnných. Tyto proměnné mohou být buď spojité nebo kategoriální (ordinální i nominální). Dále máme jednu vysvětlovanou proměnnou, která také můţe být kategoriální (nominální i ordinální) nebo spojitá. Výsledkem algoritmu jsou binární stromy, protoţe jsou zde přípustné pouze otázky (podmínky dělení), na které je moţno odpovědět ano/ne (Je věk menší neţ 30 let? Je pohlaví muţské?) V kaţdém kroku algoritmus prochází všechna moţná dělení pomocí všech přípustných hodnot všech vysvětlujících proměnných a hledá nejlepší z těchto dělení. Měřítkem, které dělení je lepší, je zvýšení čistoty dat. To znamená, ţe jedno dělení je lepší neţ druhé, pokud jeho uskutečněním obdrţíme dva homogennější (vzhledem k vysvětlované proměnné) soubory dat neţ uskutečněním druhého dělení. Algoritmus dělení je různý pro klasifikační stromy a pro stromy regresní. Klasifikační stromy pouţíváme v případě, ţe je vysvětlovaná proměnná kategoriální. To znamená, ţe se soubor původních dat snaţíme v závislosti na vysvětlujících proměnných rozdělit do skupin, přičemţ, v ideálním případě, kaţdá skupina má přiřazení ke stejné kategorii vysvětlované proměnné. Homogenita uzlů-potomků je měřena pomocí tzv. funkce znečištění (impurity function) i(t). Maximální homogenita vzniklých dvou potomků je počítána jako maximální změna (sníţení) znečištění i(t). it it r Eit d kde t r je rodičovský uzel, t d je uzel-potomek. Pro pravého potomka t p, pravděpodobnost pravého potomka P p a levého potomka t l, pravděpodobnost levého potomka P l pak dosazením do vzorce pro hodnotu dostáváme. i t i t P i t P i t r l l p p Algoritmus CART řeší pro kaţdý uzel maximalizační problém pro funkci i(t) přes všechna moţná dělení uzlu, to znamená, ţe hledá dělení, které přináší maximální zlepšení homogenity dat. Funkci i(t) je moţno definovat různými způsoby. Mezi dva nejrozšířenější patří tzv. Giniho index a pravidlo Twoing. Giniho index hledá v trénovacích datech největší třídu vysvětlované proměnné a odděluje ji od ostatních dat. Giniho index dobře funguje pro znečištěná data. Vytváření stromů s pomocí Twoing pravidla je pomalejší neţ za pouţití Giniho indexu. Výhodou ovšem je, ţe vytváříme více vybalancované stromy. Regresní stromy se pouţívají v případě, ţe vysvětlovaná proměnná není kategoriální. Kaţdá její hodnota můţe být v obecnosti různá. V tomto případě algoritmus hledá nejlepší dělení na základě minimalizace součtu rozptylů v rámci jednotlivých dvou vzniklých uzlů-potomků. Algoritmus pracuje na základě algoritmu minimalizace součtu čtverců. Algoritmus ID3 Další z uţívaných algoritmů je algoritmus ID3 (Iterative Dichotomizer 3). Poprvé jej jeho autor Quinlan, J. R. popsal v roce Algoritmus je popsán například v [4]. Tento algoritmus opět pracuje na principu induktivního vytváření stromu odshora dolů. Je zaloţen na principu tzv. Ockhamovy břitvy (jsou-li dva modely srovnatelně dobré, pak se preferuje

3 jednodušší model a sloţitější je znevýhodněn). Algoritmus je pouţitelný v případech, ţe všechny proměnné jsou kategoriální. Je určený především pro vytváření menších stromů. Algoritmus opět začíná s jediným uzlem kořenem stromu, jemuţ náleţí všechny datové objekty. V kaţdém kroku je pro kaţdý listový uzel, který dosud neobsahuje homogenní data, hledáno co nejlepší dělení, pomocí něhoţ vzniknou další listové uzly. V tomto algoritmu je pro dělení vybrána jedna z vysvětlujících proměnných a dělení je provedeno na tolik uzlů-potomků, kolik má tato proměnná kategorií. Jako testová je vybírána taková proměnná, jejíţ míra charakterizující homogenitu dat je minimální. Tato míra homogenity se nazývá entropie. Entropie je definována pro kaţdou ze vznikajících větví předpisem: n bc nbc E b log 2 c nb nb kde b je vznikající větev, c je třída vysvětlující proměnné, n b je počet objektů ve větvi b, n cb je počet objektů třídy c ve větvi b. Pro minimalizaci se pak pouţívá průměrná entropie přes všechny větve dělení daného uzlu pro danou proměnnou, která je definována předpisem: nb E Eb b nt kde n t je celkový počet objektů ve všech větvích. Pokud existuje dělení pomocí nějaké proměnné, které má hodnotu entropie 0, bude tento krok budování stromu poslední a proces dělení končí. Algoritmus C4.5 Algoritmus popsal jeho autor Quinlan, J. R. v roce 1993 v materiálu [5]. Je zaloţen na principu algoritmu ID3, ale má několik vylepšení, která jsou zvláště potřebná pro softwarovou implementaci. Mezi tato vylepšení patří moţnost vyuţití algoritmu pro spojité proměnné, pro data s chybějícími údaji, ale i další. Kromě obecné entropie je zde vyuţívána i podmíněná entropie, která je definována předpisem: nbx nbx E( x T ) log 2 nb nb Na základě těchto dvou entropií je dále definován zisk, který se snaţíme maximalizovat přes různá dělení proměnných dle hodnot x. Zisk je definován následným předpisem: Zisk ( A, x) E A E( x A) kde A je vybraná proměnná, E A její entropie, x hodnota. Algoritmus QUEST Tato metoda je popsána ve článku [3]. Algoritmus je pouţitelný pouze pro nominální vysvětlovanou proměnnou. Obdobně, jako v případu CART, jsou vytvářeny pouze binární stromy. Na rozdíl od metody CART, která výběr proměnné pro štěpení uzlu a výběr dělícího bodu provádí v průběhu budování stromu současně, provádí metoda QUEST toto odděleně. Metoda QUEST (for Quick, Unbiased, Efficient, Statistical Tree) odstraňuje některé nevýhody algoritmů pouţívajících vyčerpávající hledání (např. CART), jako je náročnost zpracování či sníţení obecnosti výsledku. Tato metoda je vylepšením algoritmu FACT, který popsali autoři Loh, W.-Y. a Vanichsetakul, N. v roce V prvním kroku algoritmus převede všechny kategoriální vysvětlující proměnné na ordinální pomocí CRIMCOORD transformace.

4 Dále v kaţdém listovém uzlu, je pro kaţdou proměnnou prováděna analýza rozptylu (ANOVA F-test). Pokud největší ze vzniklých F-statistik je větší neţ předem daná hodnota F 0, pak příslušná proměnná je vybrána pro dělení uzlu. Pokud tomu tak není, je pro všechny proměnné proveden Levenův F-test. Pokud je největší Levenova F-statistika větší neţ F 0, pak je příslušná proměnná vybrána pro dělení uzlu. Pokud tomu tak není (není ţádní ANOVA F- statistika ani Levenova F-statistika větší neţ hodnota F 0, je pro dělení vybrána proměnná s největší ANOVA F-statistikou. Pro dělení uzlu je tedy vybrána ta vysvětlující proměnná, která je se vysvětlovanou proměnnou nejvíce asociována. Pro hledání dělícího bodu pro vybranou vysvětlující proměnnou je vyuţívána kvadratická diskriminační analýza (QDA), na rozdíl od algoritmu FACT, kde je vyuţívána lineární diskriminační analýza (LDA). Tento postup je rekurzivně opakován aţ do zastavení (na základě kritéria pro zastavení). Data o ojetých automobilech Studovaná data obsahují údaje o několika stech aut značky Škoda prodávaných ve vybraných autobazarech v rámci ČR v květnu O automobilech byly sledovány základní údaje potřebné pro prodej/koupi ojetých aut, jako je model auta, typ karoserie, druh paliva, síla motoru, rok výroby, ujeté kilometry, výbava (airbag, ABS, ASR, elektrické otevírání oken, klimatizace, autorádio apod.) a cena prodávaného auta. Cena automobilu byla stanovena jako vysvětlovaná proměnná. Poloţka nebyla vyuţita přímo v primární podobě, ale byla z ní vytvořena kategoriální veličina obsahující čtyři kategorie od nejlevnějších po nejdraţší auta. Data byla zpracována pomocí různých metod pro vytváření rozhodovacích stromů jednak v komerčním software STATISTICA a jednak ve freeware software WEKA (Waikato Environment for Knowledge Analysis The University of Waikato Hamilton, New Zealand). Ve statistickém software STATISTICA jsme pouţili různé moţnosti sestrojení rozhodovacího stromu, vypovídajícího o struktuře sledovaného vzorku automobilů. Jednak jsme vytvořili klasifikační strom pomocí algoritmu C&RT vyčerpávajícího prohledávání, jednak pomocí metody zaloţené na principu QUEST (tab. 1). Dále jsme vytvořili strom pomocí standardní metody C&RT z modulu Data-Mining, včetně V-fold Crossvalidation metody na výběr nejoptimálnějšího stromu (obr. 1) (viz [10], [11]). Software WEKA nabízí celou škálu metod na tvorbu rozhodovacích stromů (viz [12]). My jsme pouţili pouze některé z nich, a to Id3 (metoda vytvářející neprořezaný strom pomocí algoritmu ID3), J48 (metoda vytvářející strom pomocí algoritmu zaloţeného na základě C4.5; obr.2 a obr.3), SimpleCart (metoda zaloţená na základě algoritmu CART s vyuţitím prořezávání na základě minimalizace cost-complexity ). VÝSLEDKY Výsledné stromy vytvořené různými metodami v software STATISTICA se poněkud liší. Z hlediska chybně předikovaných hodnot v rámci trénovacích dat dopadl nejlépe standardní C&RT (32 chybných predikcí) poněkud hůře v tomto příkladu dopadl způsob zaloţený na principu vyčerpávajícího C&RT (38 chybných predikcí) a nejhůře QUEST (49 chybných predikcí). Provedením kříţové validace (V-fold Crossvalidation) jsme obdrţeli následující hodnoty: Global CV cost = 0,12709; s.d. CV cost = 0, (vyčerpávající C&RT) Global CV cost = 0, 16388; s.d. CV cost = 0, (QUEST) Global CV cost = 0,123746; s.d. CV cost = 0, (standard C&RT) Z tohoto hlediska se tedy jeví jako nejoptimálnější strom vytvořený posledním způsobem.

5 Node. Left branch Right branch n in cls n in cls n in cls levné n in cls drahé Predict. Tab. 1: Popis stromové struktury vzniklé pomocí metody zaloţené na principu QUEST Split A,C,B,F,G,H,I,J,K,M,N,Q,S,T,U,V,X VÝKON 81,85,96,103,110, levne VÝKON 37,44,47,55,66,74,81,85,92,96,103,110, drahé 2002 ROK ABS levne drahé ROK KAROS. kombi, sedan, pickup CENTRAL levne drahé Tree 4 layout for KATEGORIE Num. of non-terminal nodes: 5, Num. of terminal nodes: 6 ID=1 N=299 ID=2 N=174 MODEL = Fabia Sedan, Superb, Fabia, Octavia, Felicia Combi, Fabia Combi, Octavia Combi = Other(s) ID=3 N=125 levne ID=4 N=87 VÝKON = 37, 44, 40, 92, 55, 50 = Other(s) ID=5 N=87 ID=18 N=16 VÝKON = 55, 47 = Other(s) ID=19 N=109 levne ID=10 N=21 ROK <= 1999, > 1999, ID=11 N=66 ID=12 N=10 drahé VÝKON = 103, 85, 132, 96, 110 = Other(s) ID=13 N=56 Obr. 1: Strom vytvořený metodou standard C&RT z modulu Data-Mining Výsledné stromy vytvořené různými metodami v software WEKA se liší. Z hlediska chybně předikovaných hodnot v rámci trénovacích dat dopadla nejlépe metoda Id3 (22 chybných predikcí), hůře metoda Simple cart (30 chybných predikcí) a nejhůř metoda J48 (37 chybných predikcí). Pro posouzení kvality metody pouţívá software WEKA několik typů chyb, my jsme se zaměřili na dvě základní, RAE (relative absolute error) a RMSE (Root

6 mean squared error). Srovnání pouţitých tří metod pomocí těchto typů chyb dopadlo obdobně jako srovnání pomocí chybných predikcí. Z tohoto hlediska se tedy jeví jako nejoptimálnější strom vytvořený pomocí metody Id3. Obr. 2: Strom vytvořený metodou J48 v rámci software WEKA ABS = 0 AIRBAG1X = 0 VÝKON = 37: levne (0.0) VÝKON = 40: levne (59.0/2.0) VÝKON = 44: levne (0.0) VÝKON = 47: draţší (12.0/2.0) VÝKON = 50 MODEL = Octavia_Combi: levne (0.0) MODEL = Fabia_Combi: levne (0.0)... Obr.3: Strom vytvořený metodou J48 v rámci software WEKA převedený na pravidla (část) ZÁVĚR Nejrychleji v rámci software STATISTICA se vytvořil strom pomocí metody na základě QUEST, nejpomaleji strom pomocí metody vyčerpávajícího C&RT. Pokud jsme rozhodovací strom převedli na pravidla, pak jsme se dostali k závěru, ţe největší vliv (ze sledovaných hledisek) na cenovou kategorii má model automobilu (standard C&RT) nebo typ automobilu (vyčerpávající C&RT, QUEST). Dále pak výkon motoru a rok výroby. Jednotlivé prvky výbavy jsou aţ doplňkovými faktory ovlivňujícími cenovou kategorii. Všechny pouţité metody v rámci software WEKA byly mnohem rychlejší neţ metody v rámci software STATISTICA. Z námi sledovaných tří metod byla znatelně nejpomalejší metoda SimpleCart. Rozhodovací stromy vytvořené pomocí různých metod v rámci software WEKA se znatelně liší i pokud je převedeme na pravidla. U stromu vzniklého pomocí metod Simple Cart a Id3 má obdobně jako u metod z software STATISTICA největší vliv (ze sledovaných hledisek) na cenovou kategorii má typ automobilu, výkon motoru a rok výroby. Jednotlivé prvky výbavy jsou aţ doplňkovými faktory ovlivňujícími cenovou kategorii. Na rozdíl od toho u stromu vzniklého pomocí metody J48 jsou nejdůleţitější jednotlivé sloţky

7 výbavy (zvláště ABS a airback, ale i ASR) a teprve za nimi následuje rok výroby, model automobilu či výkon motoru. Výhodou software WEKA je kromě rychlosti algoritmů i existence výstupu ve formě rozhodovacích pravidel. Pro další vyuţití stromů je důleţitá jednoduchost aplikování vzniklého stromu pro predikci cenové kategorie pro další soubor aut bez udání této veličiny. Další výhodou je práce s grafickým znázorněním stromu, kdy si strom můţeme rozbalit do čitelnější podoby či sbalit do prostorově menší podoby. Naopak nevýhodou je způsob větvení v případě, ţe více hodnotám vysvětlující proměnné přísluší stejná hodnota vysvětlované proměnné. Místo jedné vícenásobné větve software WEKA vytváří tolik větví, kolik různých hodnot vysvětlující proměnné (viz obr. 2), coţ vede k mírné nepřehlednosti, hlavně v případě tisku stromu. Kaţdý z pouţitých softwarových produktů vyuţívá jiných metodik při hodnocení kvality modelu v rámci kříţové validace, proto jsou modely vytvořené různými systémy hůře srovnatelné. LITERATURA [1] Antoch, J., Klasifikace a regresní stromy, Sborník ROBUST 88 [2] Berikov, V., Litvinenko, A.: Methods for statistical data analysis with decision trees, [3] Loh, W.-Y. and Shih, Y.-S., Split selection methods for classification trees, Statistica Sinica, vol. 7, , 1997 [4] Quinlan, J.R., Induction of Decision Trees, Machine Learning, vol. 1, num. 1, , 1986 [5] Quinlan, J.R., C4.5: Programs for Machine Learning (Morgan Kaufmann Series in Machina Learning), 1993 [6] Savický, P., Klaschka, J., a Antoch J.: Optimální klasifikační stromy, Sborník ROBUST 2000, , 2000 [7] SPSS-white paper- AnswerTree Algorithm Summary [8] Timofeev, R.: Classification and Regression Trees (CART) Theory and Applications, CASE - Center of Applied Statistics and Economics, Humboldt University, Berlin, 2004 [9] Ţambochová, M.: Pouţití stromů ve statistice, Sborník Ekonomika, regiony a jejich výhledy, , 2006 [10] Classification Trees: [11] Classification and Regression Trees (C&RT): [12] KONTAKT RNDr. Marta Ţambochová Univerzita J. E. Purkyně, Fakulta sociálně ekonomická, katedra matematiky a statistiky Moskevská 54, Ústí nad Labem, zambochova@fse.ujep.cz

Rozhodovací stromy Marta Žambochová

Rozhodovací stromy Marta Žambochová Rozhodovací stromy Marta Žambochová Obsah: 1 Úvod... Algoritmy ro vytváření rozhodovacích stromů... 3.1 Algoritmus CART... 3.1.1 lasifikační stromy... 3.1. Regresní stromy... 4. Algoritmus ID3... 4.3 Algoritmus

Více

Připomeň: Shluková analýza

Připomeň: Shluková analýza Připomeň: Shluková analýza Data Návrh kategorií X Y= 1, 2,..., K resp. i jejich počet K = co je s čím blízké + jak moc Neposkytne pravidlo pro zařazování Připomeň: Klasifikace Data (X,Y) X... prediktory

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.

Více

IBM SPSS Decision Trees

IBM SPSS Decision Trees IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích

Více

KLASIFIKAČNÍ A REGRESNÍ LESY

KLASIFIKAČNÍ A REGRESNÍ LESY ROBUST 2004 c JČMF 2004 KLASIFIKAČNÍ A REGRESNÍ LESY Jan Klaschka, Emil Kotrč Klíčová slova: Klasifikační stromy, klasifikační lesy, bagging, boosting, arcing, Random Forests. Abstrakt: Klasifikační les

Více

Rozhodovací stromy a lesy

Rozhodovací stromy a lesy Rozhodovací stromy a lesy Klára Komprdová Leden 2012 Příprava a vydání této publikace byly podporovány projektem ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia Matematické biologie a státním

Více

DATA MINING KLASIFIKACE DMINA LS 2009/2010

DATA MINING KLASIFIKACE DMINA LS 2009/2010 DATA MINING KLASIFIKACE DMINA LS 2009/2010 Osnova co je to klasifikace typy klasifikátoru typy výstupu jednoduchý klasifikátor (1R) rozhodovací stromy Klasifikace (ohodnocení) zařazuje data do předdefinovaných

Více

Přednáška 4: Rozhodovací stromy a jejich regresní varianty

Přednáška 4: Rozhodovací stromy a jejich regresní varianty České vysoké učení technické v Praze Fakulta informačních technologií Katedra teoretické informatiky Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti MI-ADM Algoritmy data miningu (2010/2011)

Více

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování

Více

5.1 Rozhodovací stromy

5.1 Rozhodovací stromy 5.1 Rozhodovací stromy 5.1.1 Základní algoritmus Způsob reprezentování znalostí v podobě rozhodovacích stromů je dobře znám z řady oblastí. Vzpomeňme jen nejrůznějších klíčů k určování různých živočichů

Více

A-PDF Split DEMO : Purchase from to remove the watermark

A-PDF Split DEMO : Purchase from  to remove the watermark A-PDF Split DEMO : Purchase from www.a-pdf.com to remove the watermark KDE STUDENTI HLEDAJÍ INFORMACE Marta Žambochová Adresa: FSE UJEP, KMS, Moskevská 54, CZ-400 96, Ústí nad Labem E-mail: marta.zambochova@ujep.cz

Více

Informační Bulletin. České statistické společnosti číslo 3, ročník 19, 1. července 2008 JAK NA ROZHODOVACÍ STROMY. Marta Žambochová.

Informační Bulletin. České statistické společnosti číslo 3, ročník 19, 1. července 2008 JAK NA ROZHODOVACÍ STROMY. Marta Žambochová. Informační Bulletin STAT IST ČESKÁ ICKÁ SPOLEČNOST * České statistické společnosti číslo 3, ročník 19, 1. července 2008 JAK NA ROZHODOVACÍ STROMY Marta Žambochová Abstract: The tree structure is a popular

Více

KLASIFIKACE TYPŮ LIDÍ Z HLEDISKA OCHOTY ZAČÍT PODNIKAT

KLASIFIKACE TYPŮ LIDÍ Z HLEDISKA OCHOTY ZAČÍT PODNIKAT KLASIFIKACE TYPŮ LIDÍ Z HLEDISKA OCHOTY ZAČÍT PODNIKAT Marta Žambochová, Kamila Tišlerová 1. Úvod Ve výzkumu byly sledovány dvě formy podnikání, a to klasická forma vlastního podnikání a franšízing. V

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF)

Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF) Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF) Systém WEKA, implementovaný v jazyce Java, lze získat nejlépe z následující URL: . Dále

Více

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev 3 2 6 6 5 2 ELLENBERGOVY INDIKAČNÍ HODNOTY ELLENBERGOVY INDIKAČNÍ HODNOTY (EIH) optima druhů rostlin na gradientu ţivin, vlhkosti, půdní reakce, kontinentality, teploty, světla a salinity (salinita se

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 6 1/25 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

10. Předpovídání - aplikace regresní úlohy

10. Předpovídání - aplikace regresní úlohy 10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

Strojové učení se zaměřením na vliv vstupních dat

Strojové učení se zaměřením na vliv vstupních dat Strojové učení se zaměřením na vliv vstupních dat Irina Perfilieva, Petr Hurtík, Marek Vajgl Centre of excellence IT4Innovations Division of the University of Ostrava Institute for Research and Applications

Více

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

Smíšené regresní modely a možnosti jejich využití. Karel Drápela Smíšené regresní modely a možnosti jejich využití Karel Drápela Regresní modely Základní úloha regresní analýzy nalezení vhodného modelu studované závislosti vyjádření reálného tvaru závislosti minimalizace

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Statistická analýza dat

Statistická analýza dat Statistická analýza dat Jméno: Podpis: Cvičení Zkouška (písemná + ústní) 25 Celkem 50 Známka Pokyny k vypracování: doba řešení je 120min, jasně zodpovězte pokud možno všechny otázky ze zadání, pracujte

Více

Škoda Fabia Style 1,2 TSI 66k. (ESP), protiprokluzový systém kol. Škoda Fabia Style 1,2 TSI 81k. vyr. 2017, kombi/5, benzin 81 kw

Škoda Fabia Style 1,2 TSI 66k. (ESP), protiprokluzový systém kol. Škoda Fabia Style 1,2 TSI 81k. vyr. 2017, kombi/5, benzin 81 kw Nové osobní a terénní vozy 29 vozů ihned k vyzkoušení a odběru Citigo Style 1,0 MPI 44 Fabia Style 1,2 TSI 66k Fabia Ambition 1,2 TSI vyr. 2017, hatchback/5, benzin 44 kw vyr. 2017, hatchback/5, benzin

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat Zkouška ISR 2013 přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat 1. Rozdílné principy u induktivního a deduktivního

Více

Binární vyhledávací strom pomocí směrníků Miroslav Hostaša L06620

Binární vyhledávací strom pomocí směrníků Miroslav Hostaša L06620 Binární vyhledávací strom pomocí směrníků Miroslav Hostaša L06620 1. Vymezení pojmů Strom: Strom je takové uspořádání prvků - vrcholů, ve kterém lze rozeznat předchůdce - rodiče a následovníky - syny.

Více

Stromy, haldy, prioritní fronty

Stromy, haldy, prioritní fronty Stromy, haldy, prioritní fronty prof. Ing. Pavel Tvrdík CSc. Katedra počítačů FEL České vysoké učení technické DSA, ZS 2008/9, Přednáška 6 http://service.felk.cvut.cz/courses/x36dsa/ prof. Pavel Tvrdík

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

INDUKTIVNÍ A DEDUKTIVNÍ PŘÍSTUPY VE VÝUCE MATEMATIKY NA SŠ INDUCTIVE AND DEDUCTIVE METHODS IN TEACHING OF MATHEMATICS AT SECONDARY SCHOOL

INDUKTIVNÍ A DEDUKTIVNÍ PŘÍSTUPY VE VÝUCE MATEMATIKY NA SŠ INDUCTIVE AND DEDUCTIVE METHODS IN TEACHING OF MATHEMATICS AT SECONDARY SCHOOL INDUKTIVNÍ A DEDUKTIVNÍ PŘÍSTUPY VE VÝUCE MATEMATIKY NA SŠ INDUCTIVE AND DEDUCTIVE METHODS IN TEACHING OF MATHEMATICS AT SECONDARY SCHOOL Jiří Břehovský Fakulta výrobních technologií a managementu (FVTM),

Více

Pravděpodobně skoro správné. PAC učení 1

Pravděpodobně skoro správné. PAC učení 1 Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného

Více

Základní datové struktury III: Stromy, haldy

Základní datové struktury III: Stromy, haldy Základní datové struktury III: Stromy, haldy prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní

Více

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,

Více

2019/03/31 17:38 1/2 Klasifikační a regresní stromy

2019/03/31 17:38 1/2 Klasifikační a regresní stromy 2019/03/31 17:38 1/2 Klasifikační a regresní stromy Table of Contents Klasifikační a regresní stromy... 1 rpart (library rpart)... 1 draw.tree (library maptree)... 3 plotcp a rsq.rpart (library rpart)...

Více

Prostorová variabilita

Prostorová variabilita Prostorová variabilita prostorová závislost (autokorelace) reprezentuje korelaci mezi hodnotami určité náhodné proměnné v místě i a hodnotami téže proměnné v jiném místě j; prostorová heterogenita je strukturální

Více

Modifikace algoritmu FEKM

Modifikace algoritmu FEKM Modifikace algoritmu FEKM Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 9. 14. září 2012 Němčičky Motivace Potřeba metod

Více

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA 7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA Oblasti využití statistiky v medicíně Zvládání variability Variabilita: biologická, podmínek, měřících přístrojů - hodnocení variability, variabilita náhodná x nenáhodná

Více

4ST201 STATISTIKA CVIČENÍ Č. 10

4ST201 STATISTIKA CVIČENÍ Č. 10 4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte

Více

Škoda Fabia Combi MC 1,0TSI/70 kw,nový VŮZ. vyr. 2018, kombi/5, benzin 70 kw. manuální převodovka, 4x airbag, ABS, stabilizace podvozku (ESP), aut.

Škoda Fabia Combi MC 1,0TSI/70 kw,nový VŮZ. vyr. 2018, kombi/5, benzin 70 kw. manuální převodovka, 4x airbag, ABS, stabilizace podvozku (ESP), aut. Ojeté vozy 29 prověřených vozů k otestování a nákupu Citigo 1,0/44 Fabia Combi MC 1,0TSI/70 kw,nový VŮZ vyr. 2018, hatchback/5, benzin 44 kw vyr. 2018, kombi/5, benzin 70 kw man. klimatizace, alu kola,

Více

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů AGENDA Definice kvality DRG systému Statistické metody hodnocení kvality DRG klasifikace Identifikace nenáhodného rozložení případů Využití regresní analýzy nákladů při hledání důvodů v rozdílných nákladech

Více

PREDIKCE DÉLKY KOLONY V KŘIŽOVATCE PREDICTION OF THE LENGTH OF THE COLUMN IN THE INTERSECTION

PREDIKCE DÉLKY KOLONY V KŘIŽOVATCE PREDICTION OF THE LENGTH OF THE COLUMN IN THE INTERSECTION PREDIKCE DÉLKY KOLONY V KŘIŽOVATCE PREDICTION OF THE LENGTH OF THE COLUMN IN THE INTERSECTION Lucie Váňová 1 Anotace: Článek pojednává o předpovídání délky kolony v křižovatce. Tato úloha je řešena v programu

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie Predikce Multikolinearita Cvičení 4 Zuzana Dlouhá Aplikace EM predikce obecně ekonomické prognózování, předpověď, předvídání hlavním cílem je odhad hodnot vysvětlované proměnné

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1

Více

Číselné charakteristiky

Číselné charakteristiky . Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch

Více

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Metoda backward výběru proměnných v lineární regresi a její vlastnosti Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Cíle kurzu: seznámit posluchače s vybranými statistickými metodami, které jsou aplikovatelné v ekonomických

Více

Základy umělé inteligence

Základy umělé inteligence Základy umělé inteligence Automatické řešení úloh Základy umělé inteligence - prohledávání. Vlasta Radová, ZČU, katedra kybernetiky 1 Formalizace úlohy UI chápe řešení úloh jako proces hledání řešení v

Více

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.3 Tvorba nelineárních regresních modelů v analýze dat Semestrální

Více

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.

Více

Plánování experimentu

Plánování experimentu Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces

Více

STUDIJNÍ OPORY S PŘEVAŽUJÍCÍMI DISTANČNÍMI PRVKY PRO VÝUKU STATISTIKY PRVNÍ ZKUŠENOSTI. Pavel Praks, Zdeněk Boháč

STUDIJNÍ OPORY S PŘEVAŽUJÍCÍMI DISTANČNÍMI PRVKY PRO VÝUKU STATISTIKY PRVNÍ ZKUŠENOSTI. Pavel Praks, Zdeněk Boháč STUDIJNÍ OPORY S PŘEVAŽUJÍCÍMI DISTANČNÍMI PRVKY PRO VÝUKU STATISTIKY PRVNÍ ZKUŠENOSTI Pavel Praks, Zdeněk Boháč Katedra matematiky a deskriptivní geometrie, VŠB - Technická univerzita Ostrava 17. listopadu

Více

Kontingenční tabulky. (Analýza kategoriálních dat)

Kontingenční tabulky. (Analýza kategoriálních dat) Kontingenční tabulky (Analýza kategoriálních dat) Agenda Standardní analýzy dat v kontingenčních tabulkách úvod, KT, míry diverzity nominálních veličin, některá rozdělení chí kvadrát testy, analýza reziduí,

Více

Škoda Fabia Style 1,2 TSI 66. Škoda Fabia Combi Style 1,2 T. vyr. 2016, kombi/5, benzin 81 kw

Škoda Fabia Style 1,2 TSI 66. Škoda Fabia Combi Style 1,2 T. vyr. 2016, kombi/5, benzin 81 kw Nové vozy Škoda 20 vozů ihned k vyzkoušení a odběru Škoda Fabia Style 1,2 TSI 66 Škoda Fabia Style 1,2 TSI 66 Škoda Fabia Active 1,2 TSI 66 vyr. 2016, hatchback/5, benzin 66 kw vyr. 2016, hatchback/5,

Více

Karta předmětu prezenční studium

Karta předmětu prezenční studium Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 545-0250 Garantující institut: Garant předmětu: Ekonomická statistika Institut ekonomiky a systémů řízení RNDr. Radmila Sousedíková, Ph.D.

Více

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

Předzpracování dat. Lenka Vysloužilová

Předzpracování dat. Lenka Vysloužilová Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání

Více

jedna hrana pro každou možnou hodnotu tohoto atributu; listy jsou označeny předpokládanou hodnotou cílového atributu Atribut Outlook

jedna hrana pro každou možnou hodnotu tohoto atributu; listy jsou označeny předpokládanou hodnotou cílového atributu Atribut Outlook Rozhodovací stromy Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak Atribut hodnota cílového atributu Hodnota atributu No Yes No Yes Rozhodovací strom pro daný cílový atribut G je

Více

Metody inventarizace a hodnocení biodiverzity stromové složky

Metody inventarizace a hodnocení biodiverzity stromové složky ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE Fakulta lesnická a dřevařská Metody inventarizace a hodnocení biodiverzity stromové složky Methods for inventory and biodiversity evaluation of tree layer SBORNÍK ZE

Více

Inovace bakalářského studijního oboru Aplikovaná chemie

Inovace bakalářského studijního oboru Aplikovaná chemie http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION

Více

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI Elektronická sbírka příkladů k předmětům zaměřeným na aplikovanou statistiku

Více

Ctislav Fiala: Optimalizace a multikriteriální hodnocení funkční způsobilosti pozemních staveb

Ctislav Fiala: Optimalizace a multikriteriální hodnocení funkční způsobilosti pozemních staveb 16 Optimální hodnoty svázaných energií stropních konstrukcí (Graf. 6) zde je rozdíl materiálových konstant, tedy svázaných energií v 1 kg materiálu vložek nejmarkantnější, u polystyrénu je téměř 40krát

Více

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3,

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK211 Základy ekonometrie Predikce Multikolinearita Cvičení 4 Zuzana Dlouhá Aplikace EM predikce obecně ekonomické prognózování, předpověď, předvídání hlavním cílem je odhad hodnot vysvětlované proměnné

Více

Plánování experimentu

Plánování experimentu SEMESTRÁLNÍ PRÁCE Plánování experimentu 05/06 Ing. Petr Eliáš 1. NÁVRH NOVÉHO VALIVÉHO LOŽISKA 1.1 Zadání Při návrhu nového valivého ložiska se v prvotní fázi uvažovalo pouze o změně designu věnečku (parametr

Více

APROXIMACE KŘIVEK V MATLABU NEWTONŮV INTERPOLAČNÍ POLYNOM CURVE FITTING IN MATLAB NEWTON INTERPOLATION POLYNOMIAL

APROXIMACE KŘIVEK V MATLABU NEWTONŮV INTERPOLAČNÍ POLYNOM CURVE FITTING IN MATLAB NEWTON INTERPOLATION POLYNOMIAL APROXIMACE KŘIVEK V MATLABU NEWTONŮV INTERPOLAČNÍ POLYNOM CURVE FITTING IN MATLAB NEWTON INTERPOLATION POLYNOMIAL Jiří Kulička 1 Anotace: Článek se zabývá odvozením, algoritmizací a popisem konstrukce

Více

Změkčování hranic v klasifikačních stromech

Změkčování hranic v klasifikačních stromech Změkčování hranic v klasifikačních stromech Jakub Dvořák Seminář strojového učení a modelování 24.5.2012 Obsah Klasifikační stromy Změkčování hran Ranking, ROC křivka a AUC Metody změkčování Experiment

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

Univerzita Pardubice. Fakulta ekonomicko-správní

Univerzita Pardubice. Fakulta ekonomicko-správní Univerzita Pardubice Fakulta ekonomicko-správní Model pro ohodnocení ojetého vozidla Bc. Ivo Brett Diplomová práce 2008 2 3 SOUHRN Diplomová práce se zabývá problematikou stanovení ceny ojetých vozidel.

Více

Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy

Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy Stromy úvod Stromy Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy Neorientovaný strom Orientovaný strom Kořenový orientovaný

Více

Algoritmus. Cílem kapitoly je seznámit žáky se základy algoritmu, s jeho tvorbou a způsoby zápisu.

Algoritmus. Cílem kapitoly je seznámit žáky se základy algoritmu, s jeho tvorbou a způsoby zápisu. Algoritmus Cílem kapitoly je seznámit žáky se základy algoritmu, s jeho tvorbou a způsoby zápisu. Klíčové pojmy: Algoritmus, vlastnosti algoritmu, tvorba algoritmu, vývojový diagram, strukturogram Algoritmus

Více

4EK213 LINEÁRNÍ MODELY

4EK213 LINEÁRNÍ MODELY 4EK213 LINEÁRNÍ MODELY Úterý 11:00 12:30 hod. učebna SB 324 Mgr. Sekničková Jana, Ph.D. 2. PŘEDNÁŠKA MATEMATICKÝ MODEL ÚLOHY LP Mgr. Sekničková Jana, Ph.D. 2 OSNOVA PŘEDNÁŠKY Obecná formulace MM Množina

Více

LISTY PRO ZÁCHRANÁŘE Škoda

LISTY PRO ZÁCHRANÁŘE Škoda LISTY PRO ZÁCHRANÁŘE Škoda Název modelu Cyklus modelu F Felicia Felicia Combi Fabia I Fabia Sedan I Fabia Combi I Fabia II Fabia Combi II 1994-2001 1995-2001 1999-2007 2001-2008 2000-2007 od 2006 od 2006

Více

Citlivost kořenů polynomů

Citlivost kořenů polynomů Citlivost kořenů polynomů Michal Šmerek Univerzita obrany v Brně, Fakulta ekonomiky a managementu, Katedra ekonometrie Abstrakt Článek se zabývá studiem citlivosti kořenů na malou změnu polynomu. Je všeobecně

Více

Analýza návštěvnosti ubytovacích zařízení v ČR

Analýza návštěvnosti ubytovacích zařízení v ČR Mendelova univerzita v Brně Provozně ekonomická fakulta Analýza návštěvnosti ubytovacích zařízení v ČR Bakalářská práce Vedoucí práce: Mgr. Veronika Blašková, Ph. D. Kateřina Tesařová Brno 2013 zadání

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

Klasifikační metody pro genetická data: regularizace a robustnost

Klasifikační metody pro genetická data: regularizace a robustnost Odd medicínské informatiky a biostatistiky Ústav informatiky AV ČR, vvi Práce vznikla za finanční podpory Nadačního fondu Neuron na podporu vědy Klasifikační metody pro genetická data Regularizovaná klasifikační

Více

Regresní analýza. Eva Jarošová

Regresní analýza. Eva Jarošová Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost

Více

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy Dichotomická proměnná (0-1) Spojitá proměnná STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Ověření variability Předpoklady Testy, resp. intervalové odhad Test o rozptylu

Více

Přednáška 13 Redukce dimenzionality

Přednáška 13 Redukce dimenzionality Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

4EK213 Lineární modely. 10. Celočíselné programování

4EK213 Lineární modely. 10. Celočíselné programování 4EK213 Lineární modely 10. Celočíselné programování 10.1 Matematický model úlohy ILP Nalézt extrém účelové funkce z = c 1 x 1 + c 2 x 2 + + c n x n na soustavě vlastních omezení a 11 x 1 + a 12 x 2 + a

Více

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou

Více

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291 Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených

Více

Rozhodovací stromy a jejich konstrukce z dat

Rozhodovací stromy a jejich konstrukce z dat Příklad počítačová hra. Můžeme počítač naučit rozlišovat přátelské a přátelské roboty? Rozhodovací stromy a jejich konstruk z dat Učení s učitelem: u některých už víme, jakou mají povahu (klasifika) Neparametrická

Více

POROVNÁNÍ NĚKTERÝCH SW PRO ZOBRAZENÍ GRAFU FUNKCE DVOU PROMĚNNÝCH

POROVNÁNÍ NĚKTERÝCH SW PRO ZOBRAZENÍ GRAFU FUNKCE DVOU PROMĚNNÝCH POROVNÁNÍ NĚKTERÝCH SW PRO ZOBRAZENÍ GRAFU FUNKCE DVOU PROMĚNNÝCH Martin Fajkus Univerzita Tomáše Bati ve Zlíně, Fakulta aplikované informatiky, Ústav matematiky, Nad Stráněmi 4511, 760 05 Zlín, Česká

Více

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev 3 2 6 6 5 2 ELLENBERGOVY INDIKAČNÍ HODNOTY ELLENBERGOVY INDIKAČNÍ HODNOTY (EIH) optima druhů rostlin na gradientu živin, vlhkosti, půdní reakce, kontinentality, teploty, světla a salinity (salinita se

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více