Aleh Masaila. Regresní stromy
|
|
- Matěj Toman
- před 6 lety
- Počet zobrazení:
Transkript
1 Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Aleh Masaila Regresní stromy Katedra pravděpodobnosti a matematické statistiky Vedoucí diplomové práce: Mgr. Tomáš Hanzák Studijní program: Matematika Studijní obor: Finanční a pojistná matematika Praha 2013
2 Chtěl bych poděkovat svému vedoucímu Mgr.Tomášovi Hanzákovi za odborné vedení a celkovou pomoc při psání diplomové práce, a také doc. RNDr. Karlu Zvárovi, CSc. za cenné komentáře k této práci. Dále bych chtěl poděkovat své rodině a partnerce za podporu během mého studia.
3 Prohlašuji, že jsem tuto diplomovou práci vypracoval samostatně a výhradně s použitím citovaných pramenů, literatury a dalších odborných zdrojů. Berunavědomí,žesenamojiprácivztahujíprávaapovinnostivyplývajícíze zákona č. 121/2000 Sb., autorského zákona v platném znění, zejména skutečnost, že Univerzita Karlova v Praze má právo na uzavření licenční smlouvy o užití této práce jako školního díla podle 60 odst. 1 autorského zákona. VPrazedne... Podpisautora
4 Název práce: Regresní stromy Autor: Aleh Masaila Katedra: Katedra pravděpodobnosti a matematické statistiky Vedoucí diplomové práce: Mgr. Tomáš Hanzák Abstrakt: Ačkoliv regresní a klasifikační stromy se používají k analýze dat již několik desítek let, stále jsou ve stínu tradičnějších metod, jako jsou například lineární nebo logistická regrese. Tato práce si klade za cíl popsat několik nejznámější regresních stromů a zároveň přiblížit relativně nový směr v této oblasti- kombinací regresních stromů a komisních metod, tzv. regresní lesy. Součástí práce je i praktická část, kde vyzkoušíme vlastnosti, silné a slabé stránky zkoumaných metod na reálných datech. Klíčová slova: regresní strom, CART, MARS, regresní les, bagging, boosting, náhodný les Title: Regression trees Author: Aleh Masaila Department: Department of Probability and Mathematical Statistics Supervisor: Mgr.Tomáš Hanzák Abstract: Although regression and classification trees are used for data analysis for several decades, they are still in the shadow of more traditional methods such aslinearorlogisticregression.thispaperaimstodescribeacoupleofthemost famous regression trees and introduce a new direction in this area- a combination of regression trees and committee methods, so called the regression forests. There is a practical part of work where we try properties, strengths and weaknesses of the examined methods on real data sets. Keywords: regression tree, CART, MARS, regression forest, bagging, boosting, random forest
5 Obsah 1 Úvod 2 2 Metody analýzy dat Stromovémetody Lineárníregrese Regresní stromy CART AlgoritmusCART ProřezávánístromuCART PoznámkykmetoděCART MARS AlgoritmusMARS ProřezávánístromuMARS PoznámkykmetoděMARS Regresní lesy Bagging Boosting Algoritmusboosting Volitelnéparametryboostingu Náhodnýles Praktická část Porovnávanívlastnostímetod Velikostregresníholesu Výsledkyakomentáře Časovánáročnost Výsledkyakomentáře Závěr 56 Literatura 57 Popisnéstatistikydosažených MSE pro jednotlivé metody 59 Příloha B: Seznam proměnných datové sady Boston 61 Příloha C: Výpočetní časy jednotlivých lesů 62 1
6 1. Úvod Pro mnoho vědních disciplín je běžný následující problém: vhodným způsobem aproximovat funkci několika proměnných, danou pouze jejími vstupy a výstupy. Neboli modelovat závislost náhodné veličiny Y na jedné či více proměnných, a to nazákladědostupnýchdat(y i, x i1,...,x ij ), i=1,2,..., N. Označme Y= f(x 1,..., X J )+ǫ, (X 1,..., X J ) D, D R J (1.1) jako skutečný vztah mezi závislou, nebo také vysvětlovanou, a nezávislými, nebo také vysvětlujícími, proměnnými. Náhodná veličina ǫ odráží závislost Y na takových veličinách, které nebyly nebo ani nemohly být pozorovány. Naším cílem jesestavit ˆf(X 1,...,X J ),kterábudeconejlépeaproximovatskutečnoufunkci f(x 1,...,X J ). Výslednáfunkce ˆfbymělamítnásledujícívlastnosti: srozumitelnost- mezi závislou a nezávislou proměnnou by měl být jasný vztah přesnost-předpovědifunkce ˆf,označímejejako ŷ,bymělybýtdostatečně blízko skutečným hodnotám y snadná počitatelnost - míněno počet operací, které je potřeba provést, abychom získali výsledný model To, jakou z výše uvedených vlastností budeme upřednostňovat, záleží na konkrétní úloze. Především, zda chceme: předpovědět hodnotu závislé proměnné na základě známých hodnot pochopit vztah mezi závislými a nezávislými proměnnými Existuje řada statistických nástrojů, pomocí kterých řešíme tento problém, například lineární a logistická regrese, diskriminační analýza atp. Mezi tyto nástroje patří i regresní stromy, na které je zaměřená tato práce. Struktura práce je následující. Ve druhé kapitole popíšeme, co to jsou regresní stromy, a zavedeme potřebné definice, které s tím souvisí. Dále zde stručně popíšeme pravděpodobně nejrozšířenější metodu pro analýzu dat, lineární regresi. Dělámetoztohodůvodu,ževpátékapitolebudemenareálnýchdatechporovnávat predikční schopnosti regresních stromů a lineární regrese. Třetí kapitola je věnována popisu několika vybraných regresních stromů. Čtvrtá kapitola se zaměřuje na relativně nové techniky, které se nazývají regresní lesy. Tyto techniky vycházejí z regresních stromů a snaží se odstranit některé z jejích nedostatků. Pátá kapitola je věnována aplikaci metod na různých reálných datech. Šestá kapitola obsahuje závěr, kde shrneme výsledky našeho zkoumání. 2
7 2. Metody analýzy dat Myšlenka analýzy dat pomocí stromových metod je v zásadě jednoduchá. Tytometodyrozdělídefiničnímnožinunezávislýchproměnných X D, D R J najednotlivépodmnožiny R m, m=1,2,..., M tak,že D = M m=1 R m.takto vzniklé podmnožiny mohou, ale nemusí být disjunktní. Následně je ke každé podmnožinám přiřazená nějaká jednoduchá funkce, například konstanta. Stromové metody lze použít jak na řešení situací, kdy je vysvětlovaná proměnná Y spojitá, tak i situaci, kdy vysvětlovaná proměnná nabývá hodnoty z množiny C= {c 1, c 2,...,c p }.Prvnítypstromůsenazýváregresní,druhýklasifikační. Většina technik je však použitelná pro oba dva typy úloh. V současné době existuje velké množství algoritmů, které se navzájem liší především v tom, jakým způsobem rozdělí prostor D na jednotlivé podmnožiny R m.několikvybranýchtechnikbudepopsánovnásledujícíchdvoukapitolách. Pátá kapitola je věnována prezentaci výsledků praktického použití těchto metod na reálných datech, a zároveň ke srovnání s rozšířenějšími metodami, konkrétně s lineární regresí. Proto tato kapitola obsahuje i stručný popis této metody. Informačními zdroji zde jsou[1],[6] a[18]. 2.1 Stromové metody Nejdříve zavedeme pojem stromu: Definice 2.1 Regresní strom je funkce, která každému reálnému vektoru X = (X 1,...,X J ), X D, D R J přiřadíhodnotu Y R,atopomocínásledujícího předpisu M T(X)= β m h m (X), (2.1) m=1 kde β m, m=1,...,m jsoukoeficienty,ah m jepředpis,kterýpřiřadívektoru vysvětlujících proměnných X nějakou jednoduchou funkci, například konstantu, pokud X R m,a0,pokud X / R m, R m D. PokudnáhodnáveličinaYnabýváhodnotjenomzmnožiny C= {c 1, c 2,...,c p }, pak takový strom nazýváme klasifikační. Jednotlivé stromové techniky se od sebe liší především dvěma věcmi. Způsobem,jakýmserozdělí Dnajednotlivépodmnožiny R m,atvaremfunkce h m, kterou těmto podmnožinám přiřadí. Na strom můžeme pohlížet ze dvou hledisek. Pomocí T(X) označujeme strom jako funkci vektoru vysvětlujících proměnných X ve smyslu definice(2.1). Dálelzestrom Tchápatjakosoubormnožin {t m } M 1,kde t mobsahuječástze souborupozorování L={(x i, y i ), i=1,...,n}.specificképostavenímámnožina, která obsahuje všechna pozorování z L. Takové množině říkáme kořen stromu (root)aznačmeji t 1. 3
8 Pokudexistujídvětakovémnožiny t l, t r,prokteréplatí t m = t l t r a t l t r =, paktytodvěmnožinynazývámelevýapravýnásledníkuzlu t m. Obecně ale jeden uzel nemusí mít jenom dva následníky. V takovém případě bychomdefinovalivícenásledníkůanalogický.uzly t a, t b a t c jsounásledníkyuzlu t m pokudplatí t m = t a t b t c,at a, t b a t c jsounavzájemdisjunktnímnožiny. Počet následníků se pro různé algoritmy může lišit, nicméně nejobvyklejší počet následníků jsou dva. Pokud uzel t nemá žádného následníka, pak takovému uzlu říkáme konečný uzel(terminalnode)nebotakélist.symbolem Tbudemeznačitmnožinuvšech konečných uzlů stromu T a písmenem M počet prvků této množiny, neboli počet listů.početlistůjestejný,jakopočetmnožin R m,kterédělídefiničníprostor D. Pozorováníznějakéholistu t m spadajídopodmnožiny R m D. Pokud budeme mluvit o T, pak tím rozumíme konkrétní strom, který byl vznikl za použití souboru pozorování L. Obdobně t označuje konkrétní uzel, ve kterém se nachází část pozorování z L. Pro další použití ještě zavedeme následující pojem. Definice2.2Označme T t takovoupodmnožinustromut,kteráobsahujeuzel t a všechny jeho následníky až do úrovně listů. Takové podmnožině říkáme větev stromu T. Důvod, proč se těmto metodám říká stromové, je ten, že výsledný model můžeme snadno zobrazit pomocí přehledného grafu následujícího typu: Obrázek 2.1: Rozhodovací strom(zdroj[9]). Jak je vidět, výsledný model svým vzhledem připomíná obracený strom, se všemi příslušnými atributy, které byly výše popsané. První uzel nahoře je kořen, který obsahuje všechny pozorování. Ten se pak dále dělí na jednotlivé uzly, které jsou na konci ukončeny listy, v nichž jsou pozorováním, kterým je přiřazená nějaká hodnotapomocífunkce h m. 4
9 2.2 Lineární regrese Model lineární regrese je dobře znám, proto ho zde popíšeme jenom velice stručně. Pro další podrobnosti je zde[18] nebo[1]. Nechťmámenáhodnéveličiny Y 1,...,Y N amaticidanýchčísel X={x ij }typu N J,kde J < N.Předpokládejme,žepronáhodnývektor Y =(Y 1,..., Y N ) platí Y = Xβ+ e, kde β = (β 1,...,β J ) jevektorneznámýchparametrůae = (e 1,...,e N ) je náhodný vektor. O náhodném vektoru e předpokládáme, že jeho střední hodnota arozptylsplňujínásledujícípředpoklady:ee=0,vare=σ 2 I.Takovémumodelu říkáme regresní, a protože závislost Y na β je lineární, mluvíme o lineární regresi. Typickým předpokladem je, že matice X má lineární nezávislé sloupce, a protožepředpokládáme J < N,jehodnostmatice h(x)=j. Parametry β se odhadují metodou nejmenších čtverců, tj. chceme minimalizovat následující výraz vzhledem ke koeficientům β: (Y Xβ) (Y Xβ) (2.2) Odhadykoeficientů βznačíme b=(b 1,... b J ) az(2.2)snadnozískámetento odhad,kterýserovná b=(x X) 1 X Y. Soustavělineárníchrovnic X Xb=X Y,zekterésepočítá;b,seříkásoustava normálníchrovnic.vektor Ŷ = Xb=X(X X) 1 X Y jenejlepšíaproximacevektoru Y, jaká může být vytvořená pomocí lineární kombinací sloupců dané matice X. Definujeme dále reziduální součet čtverců a celkový součet čtverců: RSS=(Y Ŷ) (Y Ŷ) (2.3) TSS=(Y Ȳ) (Y Ȳ). (2.4) kde Ȳ = Ȳ1,aȲ jeprůměr.pomocítěchtodvousoučtůdefinujemekoeficient determinace R 2 : R 2 =1 RSS (2.5) TSS Koeficient determinace ukazuje, jak velkou část výchozí variability hodnot se nám podařilo vysvětlit pomocí uvažované závislosti. Dá se také chápat jako míra zlepšení kvality predikce závislé proměnné oproti použití prostého průměru. Koeficient determinace nám může také sloužit k porovnání predikčních schopností různých modelů. Pokud ale chceme používat koeficient determinace vypočtený dle vzorce(2.5), je nutné, aby byla splněná následující podmínka, a to, že první sloupec matice X je tvořen jedničkami, nebo aby vektor 1 patřil do lineárního obalu M(X). Model, sestrojený za použitím všech sloupců matice X, často nebývá tím nejjednodušším, a abychom tento model zjednodušili, lze použit t-test. Pomocí tohototestuověřujemehypotézu H 0 : β j = βj 0,kde j {1,...,J}.Pokudzvolíme βj 0 =0,testujeme,zda Y závisínaj-týmsloupci,nebohomůžemevypustit a přejít k jednoduššímu modelu. 5
10 Příklad 2.3 Abychom lépe ukázali rozdíly mezi jednotlivými technikami, budeme ilustrovat použití jednotlivých metod na datech Ozone1 z balíčku Earth programu Rproject.JednáseodatavztahujícísekměřeníkoncentraceozónuvLosAngeles a pocházejí z[5]. Konkrétně budeme ilustrovat to, jak odhadují jednotlivé techniky závislost koncentrace ozónu na teplotě, respektive teplotě a vlhkosti vzduchu. Tento příklad neslouží ke srovnávání kvality modelů, ale pouze jako ukázka odlišných tvarů výsledných funkcí. S pokračováním příkladu se setkáme v dalších kapitolách. Závislost ozonu na teplote Koncentrace ozonu Teplota (v F) Obrázek 2.2: Na tomto grafu můžeme vidět regresní přímku proloženou naměřenými hodnotami koncentrace ozónu. 6
11 Závislost ozonu na teplote a vlhkosti Ozone temp humidity Obrázek 2.3: Odhadovaná závislost koncentrace ozónu při použití dvou nezávislých proměnných, konkrétně teploty a vlhkosti. 7
12 3. Regresní stromy V této kapitole popíšeme dva stromy. Začneme s pravděpodobně nejznámějším, se stromem CART(Classification and Regression Tree), který je podrobně popsaný v[6]. Dále bude následovat MARS(Multivariate Addaptive Regression Splines), kde budeme vycházet především z[8]. Stručný přehled všech těchto technik lze najíttakév[11]. 3.1 CART MetodaCARTbylavyvinutaBreimanemaspol.,ajepodrobněpopsánavjiž zmíněné publikaci[6]. Je použitelná jak při řešení regresních, tak i klasifikačních úloh. Postup je v obou případech obdobný. Tato práce je zaměřená na regresní stromy, proto podkapitola věnující se metodě CART bude popsána z regresního hlediska. Začneme s popisem algoritmu, pomocí kterého obdržíme výsledný model Algoritmus CART Nechťmámekdispozicimnožinupozorování L={(x i, y i ), i=1,..., N},kde x i =(x i1,...,x ij )jevektorvysvětlujícíchproměnnýcha y i jevysvětlovanáproměnná.dálebudemeznačit Xmaticipozorování {x ij, i=1,...,n, j=1,...,j}, y vektor výstupů (y 1,...,y N )axbudeoznačovat obecnývektor pozorování (x 1,...,x J ).Symbolem X j budemeznačitj-touvysvětlujícíproměnnou. Algoritmus CART se skládá ze čtyř kroků: 1.)Hledánínejlepšíhoděleníprokaždýprediktor-vkaždémuzlu tseprokaždouvysvětlujícíproměnnou X j, j=1,..., Jnajdenejlepšídělení.Dělení uzlu t je proces, při kterém pozorování z uzlu t se rozdělí do dvou skupin, adajítakvzniknoutnásledníkůmuzlut,uzlům t l a t r. 2.) Výběr nejlepšího dělení daného uzlu t- mezi nejlepšími děleními pro jednotlivé vysvětlující proměnné, které jsme našli v bodě jedna, vybereme to, které nejvíce snižuje nepřesnost stromu. 3.) Dělení uzlu- pozorování z uzlu rozdělíme do dvou následníků dle dělení vybraného v Kroku 2. 4.) Přiřazení hodnoty- Kroky 1-3 se opakují, dokud uzel není označen jako konečný,tj.zuzlusestáválist.ažsetostane,algoritmuspřiřadídanému listu nějakou hodnotu. Algoritmus končí, když jsou všechny uzly označené jako listy. Výsledkem je model následujícího tvaru: T(x)= M max m=1 β m I(x R m ), (3.1) 8
13 kde M max jepočetlistůvestromu. Příklad 3.1 Velkou výhodou stromů, a metody CART především, je jejich přehlednost a relativně snadná interpretace. Následující obrázek vznikl, když jsme pomocí metody CART modelovaly vztah koncentrace ozónu v atmosféře na teplotě. temp <> 67.5 temp <> 58.5 temp <> obs obs obs obs Obrázek 3.1: Klasický obrázek stromu, který modeluje závislost koncentrace ozónu v atmosféře na teplotě ve stupních Fahrenheita. Na začátku algoritmu kořen stromu obsahuje všech 330 pozorování. Opakováním kroků 2.) a 3.) algoritmus postupně najde nejlepší dělení jednotlivých uzlů. Například nejlepší dělení kořene je:pokud x 67,5,pakpozorováníjdedolevéhonásledníka,jinakdopravého. Jakmile se uzel dále nedělí, tak je mu přiřazená nějaká hodnota. Například listu číslo1,tj.pozorováním,jejichžteplotajemenšínež58,5 F,jepřiřazenáhodnota 5,88. Z výše uvedeného algoritmu plyne několik otázek: 1. Jaká hodnota je přiřazená listům? 2. Jak je definováno nejlepší dělení? 3.Jakseurčí,zdajeuzelkonečný? Než na tyto otázky odpovíme, musíme zavést několik důležitých pojmů. Začneme s tím, že si definujeme nepřesnost stromu. Nepřesnost stromu je míra toho, jak dobře odhadnuté hodnoty ŷ = T(X) se shodují se skutečnými pozorovanými hodnotami y. Budeme ji značit symbolem L(T). Strom se snažíme sestrojit tak, aby jeho nepřesnost byla co nejmenší. V případě regresních stromů se nejčastěji nepřesnost počítá pomocí střední čtvercové chyby, respektive pomocí průměrné čtvercové chyby v případě konečného souboru pozorování. Lze ale použít i jiné míry nepřesnosti, například absolutní odchylku. Střední čtvercová chyba pro strom T(X) je definována jako MSE(T)=E(Y T(X)) 2. (3.2) 9
14 Platí následující tvrzení(viz[1], s 60) Tvrzení3.2BudižYnáhodnáveličinaaXnáhodnývektor.NechťEY 2 < anechťrozdělenívektoru(y, X )máhustotuvzhledemknějaké σ-konečnémíře λ ν.potomprokaždouměřitelnoufunkci f(x)platí E[Y f(x)] 2 E[Y E(Y X)] 2 (3.3) Rovnostvevzorci(3.3)nastávápravětehdy,kdyžplatí f(x)=e(y X)spravděpodobnosti jedna. Toto tvrzení dává odpověď na první otázku. Aby nepřesnost stromu T byla nejmenší, pak strom T musí přiřadit náhodnému vektoru X podmíněnou střední hodnotu E(Y X = x). Tyto i většina dalších tvrzení budou zde uváděná bez důkazů, všechny tyto rozšiřující informace lze nalézt ve zmiňovaných informačních zdrojích. Pokud zvolíme za nepřesnost stromu střední čtvercovou chybu, tak L(T) počítáme jako L(T)= 1 N N (y i T(x i )) 2 (3.4) i=1 Protože pro T(x) předpokládáme platnost(3.1), dostáváme: L(T)= 1 N M max m=1 (y i : x i R m) (y i β m ) 2 (3.5) Nynípotřebujemeodhadnout,čemusebudourovnatparametry β m.víme,žepro každou konstantu a platí: Tvrzení3.3Pokudnějakéaminimalizujevýraz E(Y a) 2,pak a=e(y) S pomocí tohoto tvrzení již snadno odpovíme na první otázku, a to jakou hodnotu přiřadí metoda CART listům stromu. Tvrzení3.4Odhadkoeficientu β m,kterýminimalizuje(3.5),jerovenprůměru hodnotzávislýchproměnných y i patřícímpozorováním x i,kteréspadajído R m. Označmeodhad β m symbolem b m,pakplatí b m = 1 N m (y i : x i R m) y i, (3.6) kdesesčítápřesvšechny y i takové,že x i R m a N m jecelkovýpočetpozorování v R m, m=1,2,..., M max. Toto tvrzení snadno dokážeme, pokud výraz(3.5) zderivujeme a položíme rovný nule. 10
15 Nyní přejdeme ke druhé otázce, a to jak najdeme nejlepší dělení(split) uzlu. Přesný proces dělení uzlu záleží na typu vysvětlující proměnné. Pokud je vysvětlujícíproměnná X j spojitáneboordinální,pakjepostupnásledující.všechny unikátníhodnoty(x 1j,...,x Nj )seseřadídlevelikostiapostupněsevyzkouší všechny možnosti, jak rozdělit pozorování do dvou uzlů. Obecně, uzel, který není konečný, může být rozdělen na víc, než dva následníky, avšak větší počet následníků nepřináší žádné významnější zlepšení. Postupně vytvoříme dělení ve tvaru: pokud x ij r,pakdanéi-tépozorováníjdedolevéhonásledníka,jinakdopravého. Za hodnotu r se postupně dosazují všechny unikátní pozorované hodnoty (x 1j,...,x Nj ). Takto nám vznikne množina možných bodů dělení S uzlu t pro proměnnou X j,zekterévybírámenejlepšídělení. Definice3.5Nejlepšídělenís*uzlu tjetakovédělení s S,kterénejvícesníží nepřesnost stromu L(T). Přesnějiřečeno,prokaždédělenísuzlutnauzly t l, t r nechť L(s, t)=l(t) L(t l ) L(t r ). Jakonejlepšídělení s jeoznačenotakovédělení,prokteréplatí L(s, t)=max s S L(s, t). V případě nominálních vysvětlujících proměnných je situace o něco složitější. Pokudnominálníproměnná X j nabýváhodnotzmnožiny C= {c 1,...,c q },jedno zřešeníjevytvořit2 q 1 možnýchmnožin A,azkoušetdělenítypu:pokud x ij A, pak pozorování jde do levého následníka, jinak do pravého. Tento postup je ale pro větší počet kategorií nevhodný, neboť znamená velké nároky na výpočetní čas. Proto se používá následující heuristika. Nechť vysvětlujícíproměnná X j jenominální,shodnotamivmnožině C.Pakoznačíme ȳ(c l ) jakoprůměrvšechhodnot y i,prokteréplatí x ij = c l, l=1,..., q.tytoprůměry seřadíme dle velikosti do posloupnosti Pak platí následující tvrzení: ȳ(c l1 ) ȳ(c l2 )... ȳ(c lq ). Tvrzení3.6Nejlepšídělenívysvětlujícíproměnné X j vuzlu tjejednozq 1 dělení x j {c l1,..., c lh }, h=1,...,q 1 Tentopostupzkrátípočetmožnýchpodmnožinz2 q 1 na q 1. Postupně v daném uzlu vytvoříme množinu nejlepších dělení pro jednotlivé prediktory. Za nejlepší dělení uzlu t pak označíme to dělení, které nejvíce snižuje nepřesnost stromu. Zbývá nám odpovědět na třetí otázku, jakým způsobem zastavit dělení stromu.rozhodnutí,zdajedanýuzelkonečnýnebosebudeinadáledělit,závisí 11
16 na splnění zastavovacích kriteriích. Zastavovací kritérium je podmínka, po jejíž splněníjeuzelprohlášenzakonečnýadálesejižnedělí.beztěchtopravidelby dělení pokračovalo, dokud by v každém listu zbylo pouze jedno pozorování. Zastavovací kriterium tak významným způsobem ovlivňují velikost, a tedy i nepřesnost stromu. Uzel se prohlásí za konečný, pokud platí například: Všechna pozorování v uzlu mají shodné hodnoty všech vysvětlujících proměnných Strom dosáhne předem zvolené velikosti, tj. počet listů se rovná námi vybrané M Početpozorovánívuzlujemenší,nežpředemzvolenýpočet Následníci uzlu by měly menší počet pozorování, než požadované minimum Pokudpronejlepšímožnédělení s uzlu tnedosáhnezlepšení L(s, t) požadovaného minima Uzel se stává čistým, neboli pozorování v něm mají stejnou hodnotu závislé proměnné(toto pravidlo je použitelné pouze pro klasifikační stromy) Prořezávání stromu CART V předchozí části jsme vyjmenovali několik zastavovacích kriterií, které určují velikost stromu. Nabízí se otázka, jak přesně definovat zastavovací kritéria, aby výsledný strom měl optimální velikostí a dobře aproximoval vztah mezi vysvětlujícími a vysvětlovanou proměnnými. Pokud by byly zastavovací kritéria nastavená přísně, výsledný strom bude malý, a tak nedokáže věrně zobrazit vztahy mezi vysvětlujícími a vysvětlovanou proměnnou. Na druhou stranu, pokud zastavovací kritéria budou mírná, vznikne příliš velký strom. Velký strom bývá přeučený (overfitted), tj. bude dobře použitelný jenom na data, pomocí kterých byl vytvořen. Metoda CART řeší tento problém pomocí prořezávání(pruning). Prořezávání stromu je proces, kdy se postupně ze stromu odřezávají jednotlivé větve stromu. Definice3.7Odřezánívětve T t zestromutrozumímeodstraněníztveškerých následníků uzlu t. Samotný uzel t zůstává součástí stromu. Nově vzniklý strom značíme T T t. Budeme hledat následující posloupnost T max T 1 T 2 T 3... t 1, (3.7) ze které vybereme optimální strom. Jedná se o posloupnost do sebe vnořených stromů,kterázačínástromem T max akončíkořenem t 1. Abychom vybrali strom o správné velikosti, musíme upravit dříve zavedenou definici nepřesnosti stromů. Pokud pořád budeme brát jako kritérium kvality výraz(3.5),pakjakonejlepšístrombudeoznačen T max,protožejehonepřesnost L(T) je nejmenší. Strom má totiž následující vlastnost: 12
17 Tvrzení3.8Prolibovolnýuzeltjehonásledníky t l, t r platí L(t) L(t l )+L(t r ). Předchozí tvrzení říká, že libovolné dělení uzlu t nezhorší nepřesnost stromu. Tedy čím víc se strom bude dělit, tím bude jeho nepřesnost menší. Zavedeme proto nové měření nepřesnosti stromu, které zohledňuje i jeho velikost. Definice3.9OznačmepočetlistůstromuTsymbolem T.Reálnéčíslo α 0 nazveme parametr složitosti. Pak definujeme nepřesnost stromu s ohledem na jeho složitost L α (T)jako L α (T)=L(T)+α T. (3.8) Parametr α se dá chápat jako penalizace za jeden list stromu. Parametr α nám pomůže najít požadovanou posloupnost(3.7). Hlavní myšlenkoupřihledáníposloupnostijeto,žeprokaždé αnajdemestrom T(α) T max, kdy T(α)jetakovýstrom,jehožnepřesnost L α (T)jenejmenší: L α (T(α))= min T T max L α (T). Ačkoliv hodnota α je spojitá, existuje jenom konečný počet podstromů stromu T max.toznamená,žeprodané αje T(α)nejlepšímstromemaždochvíle,kdy α dosáhnebodu α.paksenejlepšímstromemstane T(α ). Potřebujeme vyřešit dvě otázky, zda pro každé α existuje pravě jeden strom T(α) T max,kterýminimalizuje L α (T),azdaposloupnostminimalizujícíchstromůdosebezapadá,tj.zdapodstrom T k+1 dostanuzestromu T k pomocíodříznutí nějaké větve. Problém jedinečnosti takového stromu je řešen pomocí vhodné definice. Definice 3.10 Strom T(α) je nejmenší strom, pokud pro jeho nepřesnost definovanou předpisem(3.8) platí (i) L α (T(α))= min T T max L α (T) (ii)pokud L α (T)=L α (T(α)),pak T(α) T. Jezřejmé,žepokudstrom T(α)existuje,musíbýtjedinečný.To,žetakovýstrom T(α) skutečně existuje, je dokázáno v[6](s ). Nyní začneme s popisem algoritmu, který nám vytvoří posloupnost(3.7). Prořezávatnezačínámestromsmaximálnímpočtemuzlů T max,alestrom T 1,pro kterýplatí L(T 1 )=L(T max ).ZT max dostaneme T 1 tak,žeodříznemeveškeré následníkyuzlů t T,prokteréplatí L(t)=L(t l )+L(t r ). Prokaždouvětev T t definujmenepřesnostvětvejako L(T t )= t Tt L(t ), kde T t jemnožinalistůvětveuzlu t.platí L(t) > L(T t ),kde L(t)jenepřesnost uzlu t. 13
18 Komplexní nepřesnost uzlu t definujeme jako L α (t)=l(t)+α, a komplexní nepřesnost větve s ohledem na její složitost se rovná Dokud platí L α (T t )=L(T t )+α T t. L α (T t ) < L α (t), pakmávětevnižšínepřesnostnežsamotnýuzel.alesrostoucíhodnotou αse z nerovnosti stane rovnost a to znamená, že nepřesnost větve je stejná jako nepřesnostuzlu,atedytutovětevlzezestromuodstranit,anižbysezvýšilajeho nepřesnost. Abychom našli vhodné α potřebujeme vyřešit následující nerovnost: α < L(t) L(T t) T t 1 (3.9) Toto využijeme při popisu algoritmu odříznutí nejslabšího článku(weakest-link cutting).definujemefunkci g 1 (t), t T 1 pomocípředpisu g 1 (t)= { L(t) L(Tt) T t 1 t / T 1 + t T 1 Uzel t 1 T 1 nazvemenejslabším,pokudproněhoplatí g 1 ( t 1 )=min t T 1 g 1 (t). Položíme α 2 = g 1 ( t 1 ).Nejslabšíuzeljemyšlenvesmyslu,žesrostoucím αse nepřesnost větve tohoto uzlu bude jako první rovnat nepřesnosti samotného uzlu. Definujemenovýstrom T 2 jako T 2 = T 1 T t 1,přičemžsamotnýuzel t 1 zůstává součástístromu,azopakujemecelýpostupstím,žemísto T 1 použijeme T 2. Postupně dostaneme hledanou posloupnost(3.7). Spojení mezi výše uvedeným algoritmem a prořezáváním s využitím nepřesnosti stromu definovanou předpisem(3.8) je dána následující větou: Věta3.11Nechť {α k }jerostoucíposloupnost, k 1,kde α 1 = 0.Pakpro libovolné kalibovolné αtakové,že α k α < α k+1,platí T(α)=T(α k )=T k Tato věta říká, jak prořezávání na základě celkové nepřesnosti pracuje. Začíná tosestromem T 1,najdevětevnejslabšíhospojení T t 1,aodříznevětev,když α dosáhnehodnoty α 2.Taktoprořezávámeaždookamžiku,kdyobdržíme t 1. Tímto způsob dostáváme konečnou posloupnost do sebe vnořených stromů T 1 T 2 T 3... t 1, kde T k = T(α k ).Nyníztétoposloupnostipotřebujemevybratstromooptimální velikosti. Používají se dva způsoby, jak vybrat optimální strom. V obou dvou případech odhadujeme nepřesnost jednotlivých stromů v posloupnosti (3.7). Jedná 14
19 se o odhad pomocí testovacího vzorku(test sample) a pomocí křížové validace (cross-validation). Odhad pomocí testovacího vzorku je používán v případě, kdy máme k dispozicidostatekpozorování.množinadat Lserozdělínatrénovacídata L 1 opočtu N 1,atestovací L 2 opočtu N 2.Posloupnoststromů {T k }sevytvořínazákladě datzl 1,anásledněseotestujenadatechzL 2. Odhad nepřesnosti stromu je pak dán vzorcem L ts (T k )= 1 N 2 (x i,y i ) L 2 (y i T k (x i )) 2 Pokud nemáme dostatek pozorování, preferujeme křížovou validaci. Rozdělíme pozorování LnaVčásti,čímždostanememnožiny L 1, L 2,...,L V,vnichžkaždá množina L v obsahujestejný,neboaspoňpřibližněstejný,početpozorování. Označímemnožinu L (v) = L L v jakotrénovacívzorek.následněvytvoříme aproříznemestromsvyužitímdatzl (v).prokaždévaprokaždé αtakdostanemestrom T (v) (α),cožjestromsnejmenšícelkovounepřesnostíproparametr α,ježbylvytvořennazákladěpozorovánízl (v). NyníspoužitímvšechpozorovánízL,vybudujemestrom T,anásledněho prořežeme, čím dostaneme posloupnost(3.7), ze které budeme vybírat optimální strom,auníiodpovídajícíposloupnostparametrů {α k }.Definujeme α k jakogeometrickýprůměrdvousousedníchhodnot,tj. α k = α k α k+1.označíme T (v) k (x) jakoprediktorodpovídajícístromu T (v) (α k ).Odhadnepřesnostistromůpomocí křížovévalidace L cv (T k )sepakrovná L cv (T k )= 1 N V (y i T (v) k (x i)) 2. (x i,y i ) L v v=1 Jakostromooptimálnívelikostioznačímeten,kterýmánejnižší L ts (T k ),respektive L cv (T k ) Poznámky k metodě CART Klasifikační stromy Klasifikační strom se liší od regresního tím, že vysvětlovaná proměnná nabývá hodnotyzkonečnémnožiny C= {c 1,..., c p }.Vtakovémpřípaděmusímepoužit jiný přístup pro přiřazení výsledné hodnoty k listu a pro výpočet nepřesnosti stromu. Prozjednodušeníoznačme C= {1,...,p}.Výslednáhodnotalistu tjetaková třída c C,donížvdanémuzluspadánejvícepozorování.Formálnějetotedy c(t) = argmax c kde c(t)jevýslednátřídapřiřazenáuzlu taˆp tc jedefinovánopředpisem ˆp tc = 1 I(y i = c) (3.10) N t (y i : x i t) 15 ˆp tc,
20 Výraz(3.10) lze interpretovat jako odhad pravděpodobnosti, s jakou pozorování y i spadádotřídyczapodmínky,žesenacházívuzlut. Co se tyče míry nepřesnosti stromů, respektive nepřesnosti daného uzlu t, tak v případě klasifikačního stromu nemůžeme použít střední čtvercovou chybu. Místo toho se pro stanovení nepřesnosti uzlu t nejčastěji používají tyto tři míry nepřesnosti: 1. Chyba špatné klasifikace(misclassification error): L(t)= 1 N t (y i : x i t) I(y i c(t)) 2. Giniho index: L(t)= c c ˆp tcˆp tc = p ˆp tc (1 ˆp tc ) c=1 3. Entropie: p L(t)= ˆp tc logˆp tc c=1 Víceomíráchměřeníchybystromulzenajítvjižzmíněnépublikaci[6]. Neúplná pozorování Častým problémem analýzy dat jsou neúplná pozorování. To, jak si strom poradí s chybějícími hodnotami, záleží na tom, jaká hodnota chybí. Pokud chybí závislá proměnná, pak bude celé pozorování vyloučeno z množiny, která slouží pro stavbu stromu. Stejně tak pozorování bude vyloučeno, pokud chybí hodnoty všech nezávislých prediktorů. Avšak pokud chybí hodnoty jenom některých z prediktorů, pak lze použít metodunáhradníhodělení(surrogatesplitmethod).předpokládejme Xj < r pronějaké j=1,...,kjenejlepšíděleníuzlut.pokudalehodnotaprediktoru Xj proi-tépozorováníchybí,pakrozhodnutíotom,zdapozorovánípůjdedo levého či pravého následníku uzlu t provedeme na základě náhradního dělení. Náhradní dělení uzlu t je druhé nejlepší dělení uzlu t. Předpokládáme, že hodnota prediktoru pro toto náhradní dělení je dostupná. Pokud ne, lze použít druhé náhradní dělení atd. Významnost proměnných Nazačátkujedůležitéuvést,vjakémsmyslujezdepoužívántermínvýznamnost. Termín významnost, nebo spíše statistická významnost, je používán v souvislosti s testováním hypotéz. Statisticky významný je jev, jehož absence byla jakožto nulová hypotéza zamítnuta v rámci statistického testu. Zde nebudeme chápat slovo významnost proměnných ve smyslu statistické významnosti, ale ve smyslu, zda proměnná je danou metodou považována za důležitou. Významnost proměnných v případě stromů se většinou měří dle velikosti 16
21 poklesu nepřesnosti stromu. Čím je proměnná důležitější, tím větší pokles nepřesnosti by měla způsobit. Struktura stromů může vést k zavádějící myšlence, že významné proměnné jsoujenomtakové,kterésloužíkděleníuzlů.pozorovánísevuzludělípodlenejlepšího dělení určité proměnné. Druhé a další nejlepší dělení se neobjeví. Avšak může dojít k situaci, kdy určitá proměnná by způsobila významný pokles nepřesností, avšak v daném uzlu není dělení podle této proměnné nejlepší. Proto lepší způsob měření významnosti proměnných je založen na využití náhradních dělení.označme s jt jakonejlepšíděleníproj-touproměnnouvuzlut.pakmíra významnosti j-té proměnné je daná výrazem M(j)= t T L( s jt, t) (3.11) Odlehlá a vlivná pozorování Kromě chybějících proměnných při analýze dat dělají problémy také vlivná a odlehlá pozorování. Metoda CART se umí celkem dobře vypořádat s vlivnými pozorováními, ale hůř s odlehlými. Odlehlá pozorování se metoda CART snaží umisťovat do samostatných uzlů. Takový postup přináší nízkou nepřesnost na trénovacích datech, ale ne na testovacích. Počet následníku Metoda CART používá binární štěpení jednotlivých uzlů. Lze upravit dělicí kritériatak,abymístodvounásledníkůvznikalytřineboivíce.někdytomůžemítsvéopodstatnění,aleobecnětoalenenídobrástrategie,protožebyse datadělilymocrychle,atímpádembynaspodnípatrastromuzbývaloméně pozorování, což by snížilo kvalitu odhadu. Nevýhody stromu CART Velkým omezením stromových metod je jejich nestabilita. Strom se vytváří na základě konkrétních dat, a při použití jiných dat může vzniknout jiný strom. Nicméně nestabilita stromů může být i svým způsobem užitečná, indikuje totiž určitou nekvalitu dat- kolinearitu proměnných, nevhodně vybrané vysvětlující proměnné nebo velký podíl bílého šumu. Ve snaze omezit nestabilitu, byly vyvinuty další metody, které se snaží zachovat výhody regresních stromů, ale zároveň jsou stabilnější. Označují se jako regresní lesy, a jsou podrobněji rozebrané v další kapitole. Výsledný model CART není spojitý, což nemusí být velký problém při klasifikačních úlohách, ale v případě regresních se jedná o vážný nedostatek, který snižuje výkonnost stromů. Metoda MARS, která řeší tento nedostatek a která se dá považovat za modifikovaný CART, je rozebrána v následující podkapitole. 17
22 Závislost ozonu na teplote Koncentrace ozonu Teplota (v F) Obrázek 3.2: Na tomto grafu můžeme vidět naměřené hodnoty koncentrace ozónu ato,jakdobřemetodacartaproximujetytodata.prvnívěcí,kterousivšimneme, je nespojitost výsledné funkce. Odpovídá to(3.1), který přiřadí pozorování xkoeficient b m pokud x R m,a0jinak.zdenapříkladvýslednýmodelpřiřadí pozorování xhodnotu5,88pokud x (,58,5],a0jinak. 18
23 Závislost ozonu na teplote a vlhkosti Ozone humidity temp Obrázek 3.3: Třírozměrný model CART, který reprezentuje závislost koncentrace ozónu na teplotě a vlhkosti vzduchu. 3.2 MARS Metoda MARS(Multivariate Adaptive Regression Splines) je dalším zástupcem stromových metod. Pracuje na obdobným principu jako metoda CART, ale zároveňseodnílišívněkolikavýznamnýchaspektech.atakpřijejímpopisuvyjdeme ze znalostí metody CART, ze které změnou příslušných procesů vytvoříme metodu MARS Algoritmus MARS Jak už víme, metoda CART předpokládá, že vztah mezi závislou a nezávislými proměnnými lze modelovat pomocí následující funkce T(x)= M β m h m (x), (3.12) m=1 kde h m (x)=i(x R m ).Funkce h m býváoznačovánajakozákladnífunkce(basis function). V případě metody CART je základní funkce indikátor, zda pozorová- 19
24 ní xležívpodmnožině R m. Pomocí algoritmu, který byl popsán v předchozí kapitole, metoda CART odhadnekoeficienty β m arozdělídefiničníobornavhodnépodmnožiny R m.tomuto algoritmu se také říká regresní rekurzivní dělení(recursive partitioning regression). Tento algoritmus nyní popíšeme. Nechť je H(η) funkce definována pomocí následujícího předpisu: { 1 η 0 H(η)= (3.13) 0 jinak Funkci H(η) se říká kroková funkce(step function). Nepřesnost stromu T, která se znovu nejčastěji počítá pomocí střední čtvercové chyby, značíme L(T). Krok Algoritmus1 1 h 1 (x) 1 2 For M=2to M= M max do: r 3 For m=1to M 1do: 4 For j=1to Jdo: 5 For s {x ij, i=1,..., N} M 1 6 T(x) β i h i (x)+β m h m (x)h[+(x j s)]+β M h m (x)h[ (X j s)] i=1,i m 7 r min β 1,...,β M L(T) 8 if r < r then r r; m m; j j; s sendif 9 endfor 10 endfor 11 endfor 12 h M (x) h m (x)h[ (X j s )] 13 h m (x) h m (x)h[+(x j s )] 14 endfor 15 end algorithm Na řádku(1) je definována první základní funkce. První základní funkce odpovídá kořenu stromu. Druhý řádek je stanovení počtu základních funkcí v modelu, což je analogie zastavovacího kritéria v případě stromu CART, kdy se růst stromuzastavípoté,codosáhnezvolenéhomaximálníhopočtulistů M max.smyčka, která začíná na třetím řádku, vybírá z aktuálně konečných základních funkcí jednu, kterou se pokusí nahradit. Pro tento uzel se hledá nejlepší dělení. Smyčka, začínající na řádku(4), vybere jeden z J prediktorů, smyčka začínající na(5) pro vybraný prediktor postupně zkouší všechny možné body dělení s ve snaze najít nejlepší bod pro dělení. Vnitřní tělo algoritmu, řádky(6) až(8), se vztahují k hledání nejlepšího dělení. Zdem-tázákladnífunkce h m akoeficient β m nahradísedvojici β m h m (x)h(+(x j s))aβ M h m (x)h( (X j s)).následněseodhadnou b 1,...,b M,avypočításe nepřesnost stromu L(T). Pokud dojde k poklesu dosud nejmenší hodnoty nepřesnosti stromu, pak se uzel, prediktor a bod dělení označí jako nejlepší, a algoritmus 20
25 pokračuje dál v hledání. Pomocí tří vnitřních smyček se nakonec vybere základní funkce, která má být nahrazená, a také nejlepší dvojice základních funkcí, která ji nahradí. Samotné nahrazení probíhá na řádcích(12) a(13). Základní funkce vyprodukované tímto algoritmem jsou ve tvaru K m h m = H(q k (X jk s k )). (3.14) k=1 Veličina K m jepočetdělení,kterýchbylozapotřebíkevzniku h m.veličina q k nabýváhodnot ±1aurčuje,zdapozorovánípůjdedolevéhočipravéhouzlu, x jk je označení,prokterouproměnnouanajakéúrovněbyloprovedenodělenías k je bod, určující kde a na jaké úrovni bylo provedeno dělení. temp <> 67.5 temp <> 58.5 temp <> obs obs obs obs Příklad 3.12 Například základní funkce stromu z obrázku 3.1(strom CART modelující závislost koncentrace ozonu na teplotě) vypadají následovně: h 1 = H( (x 67,5))H( (x 58,5)) h 2 = H( (x 67,5))H(+(x 58,5)) h 3 = H(+(x 67,5))H( (x 79,5)) h 4 = H(+(x 67,5))H(+(x 79,5)) MetodaMARSselišíodmetodyCARTpředevšímvetřechvěcech,atove tvaru krokové funkce způsobu vytváření následníků výběru vysvětlujících proměnných, které mohou být použity pro dělení Krokováfunkce H(η)nabývávmodeluCARTpouzedvouhodnot,0a1. Výsledkem je po částech konstantní nespojitý model, viz(3.2). Ačkoliv tento přístup má výhody v tom, že model je snadno interpretovatelný a není náročný na výpočetní čas, vzniklá nespojitost nepříznivě ovlivňuje přesnost modelu. 21
26 Metoda MARS se snaží tuto nespojitost odstranit, a proto místo krokové funkce definované předpisem(3.13) používá dvojici lineárních splajnů definovaných jako(x s) + =max(x s,0)a(x s) = min(x s,0) Každátakováfunkcejepočástechlineární,scentrem(knot)vboděs. DruhouzměnouoprotimetoděCARTjetvarvýslednézákladnífunkce h m. Základní funkce jsou součinem jednotlivých krokových funkcí H, které mají za argumenty výrazy ±(x s), přičemž metoda CART neklade na tyto výrazy žádné omezujícípodmínky.metodamarsalepostupujejinak.základnífunkce h m jsou také součinem krokových funkcí, ale na rozdíl od metody CART je zde omezující podmínka na vstupující vysvětlující proměnné, a to, že součin nesmí obsahovat stejnou vysvětlující proměnnou více než jednou. Posledním rozdílem oproti metodě CART je průběh dělicího procesu. V případě metody CART při hledání optimální množiny základních funkcí dochází knahrazenípůvodnífunkce h m,aknípříslušnépodmnožiny R m,dvěmanovými funkcemi h l a h r,sodpovídajícímipodmnožinami R l a R r.původnífunkce h m už nemůže byt přímo použitá pro vytvoření nových funkcí, jinými slovy podmnožina R m nenídálepřístupnáprodalšídělení.proceshledánínejlepšíchnásledníků pomocí metody MARS vypadá jinak. Prokaždouvysvětlujícíproměnnou X j vytvořímelineárnísplajnyscentry vbodech x ij.vzniknenámmnožinakandidátskýchfunkcí C. C= {(X j s) +,(X j s) }, s {x 1j, x 2j,...,x Nj }, j=1,2,..., J (3.15) Funkce z této množiny využíváme pro tvorbu množiny základních funkcí M. Doténejdřívedámezákladníkonstantnífunkci h 1 =1.Vkaždémdalšímkroku do Mpřidávámedalšífunkce h m.nechťjevmnožině MjejižM základních funkcíamkoeficientů b m.domnožiny Mpřidámedalšífunkcivetvaru b M+1 h m (x) (x j s) + + b M+2 h m (x) (x j s), m=1,..., M, (3.16) atotakovou,kterázpůsobínejvětšípoklesnepřesnostistromu.koeficienty b M+1 a b M+2 jsouodhadnutépomocímetodynejmenšíchčtvercůspolečněsostatními koeficienty v modelu. Základní funkce se přidávají do M, dokud počet funkcí M nedosáhnepředemstanovenéhopočtu M max. Jak vidíme, proces hledání nejlepšího dělení metody MARS se liší od metodycart.podstatnouzměnoujeto,žefunkce,kterásejižnacházívmnožině základních funkcí, může být opakovaně použitá pro vytváření následníků. Pokud bychom to měli převést do stromové terminologie, znamená to, že jeden uzel lze dělit vícekrát a vytvářet různé dvojice následníků. Tentopřístupzpůsobujedvěvěci.Předevšímto,žepodmnožiny R m,které sevztahujíkvýslednýmzákladnímfunkcím h m,nejsoudisjunktní.toznamená, žepřiprořezávánístromulzeodstranitlibovolnéfunkce,kromězákladní h 1,as nimi spojené podmnožiny, aniž by vznikala díra v definičním prostoru. Dalším, méně příjemným, důsledkem je ztráta klasické stromové struktury, což způsobuje horší interpretaci výsledného modelu. Na základě výše uvedených poznámek upravíme Algoritmus 1, který označíme jako Algoritmus 2. Jedná se o algoritmus metody MARS vytvářející množinu základních funkcí. 22
27 Krok Algoritmus2 1 h 1 (x) 1; M 2 2 Loopuntil M > M max : r 3 For m=1to Mdo: 4 For j / J m 5 For s {x ij, i=1,...,n} M 6 T(x) β i h i (x)+β M+1 h m (x)(x j s) + + β M+2 h m (x)(x j s) i=1 7 r min β 1,...,β M+2 L(T) 8 if r < r then r r; m m; j j; s sendif 9 endfor 10 endfor 11 endfor 12 h M+1 (x) h m (x)(x j s ) + 13 h M+2 (x) h m (x)(x j s ) 14 M M+2 15 endloop 16 end algorithm V takto zapsaném algoritmu můžeme vidět zmíněné změny oproti Algoritmu1.Nařádcích(6),(12)a(13)místopůvodníkrokovéfunkci H(η)jepoužit lineární splajn. Na řádku(4) je kontrolní smyčka, která ověřuje, zda nově zkoumanávysvětlujícíproměnná X j nepatřídomnožiny J m,cožjemnožinajižpoužitých vysvětlujícíchproměnnýchprofunkci h m.řádekčíslo(6)mástejnoufunkcijako řádek(6)valgoritmu1,avšaksjednímvýznamnýmrozdílem.valgoritmu1se m-tá základní funkce nahradila součtem dvou nových, v Algoritmu 2 m-tá funkce zůstává, a navíc se do modelu zkouší přidat nové funkce. Na řádcích(12)-(13) v obou dvou algoritmech dochází k přidávání nových nejlepších funkcí, s tím rozdílem,ževalgoritmu1jednaznovýchfunkcínahrazujepůvodní,valgoritmu2 se přímo vytvoří dvě nové základní funkce Prořezávání stromu MARS Stejně jako v případě stromu CART, je model vytvořený za použití Algoritmu 2 takzvaněpřeučený.toznamená,ževýslednámnožina Mjepřílišvelká,aikdyž na trénovacích datech má model nízkou nepřesnost, na testovacích se tato nepřesnost zvětší. Chceme tedy najít strom o optimální velikosti, čehož docílíme pomocí prořezávání. Prořezávání pracuje na stejném principu, jako v případě metody CART. V každém kroku prořezávací algoritmus odstraní tu základní funkci, jejíž odstranění způsobí nejmenší nárůst nepřesností stromu. Výhodou oproti metodě CART je to,žezmnožinyzákladníchfunkcímůžebýtodstraněnalibovolnáfunkce h m, kromě h 1,anižbysetímnarušilastrukturastromu.Jetoumožněnotím,že při hledání nového nejlepšího dělení se rodičovské funkce nenahrazují následníky, 23
28 atedydefiničnípodmnožiny R m,kterépatříkjednotlivýmzákladnímfunkcím, nejsou disjunktní. Výsledkem prořezávání jeposloupnost stromů T Mmax, T 1,...,t 1. Jednotlivé stromy T m,kde mjepočetzákladníchfunkcí,jsounejlepšímožnéstromy,které dokáže vyprodukovat daný algoritmus. Mezi těmito stromy musíme vybrat ten o optimální velikosti. Ačkoliv pro výběr optimálního stromu se i zde může použít křížová validace, z početních důvodů se používá zobecněná křížová validace, kterou značíme GCV (Generalized cross-validation). Toto kritérium je definováno jako GCV(m)= N (y i T m (x i )) 2 i=1 ( ) 2, (3.17) 1 M(m) N kde M(m) je veličina, která se označuje jako skutečný počet parametrů modelu. Skutečný počet parametrů definujeme jako M(m) = r + ck. Veličina r je počet takových základních funkcí v modelu, které nelze vytvořit pomocí lineární kombinace ostatních základních funkcí, K je počet centrů, které byly vybrané Algoritmem 2, a c je penalizační konstanta, která většinou nabývá hodnoty 2 nebo 3. Kritérium GCV(m) se spočítá pro každý model, a následně jako nejlepší model sevybereten,jehož GCV(m)jenejnižší Poznámky k metodě MARS Ačkoliv se metoda MARS počítá do stromových metod, nemá na rozdíl od metody CART klasickou přehlednou stromovou strukturu, proto interpretace výsledného modelu je obtížnější. StejnějakoumetodyCART,takiumetodyMARSjeproblémskolinearitou. Proto, pokud není možnost provést úpravu dat před samotným použitím metody MARS, je navrhnuta následující úprava nepřesnosti L(Algoritmus 2, řádek(7)): L(T) L(T)(1+γI(X j P)) (3.18) V okamžiku, kdy do množiny M přidáváme další základní funkci ve tvaru (3.16), kontrolujeme, zda proměnná, která se vyskytuje v kandidátské funkci, jeužobsaženávmnožině P,cožjemnožinavšechjižpoužitýchvysvětlujících proměnných. Pokud se tato proměnná nepoužije poprvé, pomocí parametru γ nepřesnost zvýšíme. Parametr γ reguluje míru penalizace za příliš mnoho použitých vysvětlujících proměnných. Velikost tohoto parametru záleží na míře kolinearity mezi proměnnými a na tom, zda preferujeme vyšší aproximaci nebo lepší interpretovatelnost modelu. Metoda MARS ošetřuje vlivná a odlehlá pozorování obdobným způsobem jako metoda CART. Odlehlá pozorování se snaží izolovat do samostatných uzlů, takže ty sice mají velký vliv na koeficienty v rámci uzlů, ale celková přesnost modelu tím není ovlivněná. 24
29 Závislost ozonu na teplote Koncentrace ozonu Teplota (v F) Obrázek 3.4: Aproximace dat stromem MARS při použití jedné vysvětlující proměnné(teploty). V tomto případě je výsledný model(3.12) součtem následujícíchtřízákladníchfunkcí: T(x)=b 1 h 1 + b 2 h 2 + b 3 h 3,kdekoeficienty bserovnají b 1 = 7,58, b 2 = 0,61ab 3 = 0,16,azákladnífunkce hjsouvetvaru h 1 =1, h 2 =(x 58) + a h 3 =(x 58). Závislost ozonu na teplote a vlhkosti Ozone humidity temp Obrázek 3.5: Výsledný model při použití dvou vysvětlujících proměnných(teplota a vlhkost vzduchu). 25
30 4. Regresní lesy Stromy mají jednu velkou nevýhodu, a tou je nestabilita. Při změně dat, na základě kterých byl vytvořen strom, může dojít k poměrně výrazné proměně výsledného modelu, což může nepříznivě ovlivnit jeho predikční schopnosti i interpretaci. Řešení tohoto problému nabízí regresní a klasifikační lesy. Regresní lesy patří do tzv. komisních nebo souborových metod(committee, ensemble methods), jejichž hlavní myšlenkou je kombinace více samostatných modelů do jednoho celku. Na základě těchto informací není těžké si domyslet, co se skrývá pod pojmem regresní les. Regresní les je model, který přiřazuje pozorování x hodnotu na základě kombinace výsledků několika regresních stromů. Analogicky, klasifikační les je kombinací několika klasifikačních stromů. Jako jednotlivé modely pro tyto komisní metody mohou sloužit nejenom stromy, ale například i neuronové sítě či lineární regrese. Použití komisních metod se ale nehodí pro každou techniku. V této kapitole popíšeme tři techniky, bagging, boosting a náhodný les(random forest). První dvě jsou obecně navržené metody, které lze použít i na jiné techniky než stromy, náhodný les je pak přímo navržen pro stromy. 4.1 Bagging Autorem metody bagging(bootstrap aggregating) je Leo Breiman, jeden z tvůrců metody CART. Jako zdroj informací nám poslouží[2] a[3]. Nechťmámesouborpozorování L={(x i, y i ), i=1,...,n},kde y i nabývá hodnotzr.dáleuvažujmeposloupnostsouborůpozorování {L k } K 1,takovýchže L k = {(x ki, y ki ), i=1,...,n}. Označmejako T(x, L)model,kterýbylsestrojenzapoužitídatzesouboru L.Obdobněoznačíme T(x, L k )jakomodel,sestrojenýchnazákladěsouboru L k. Hlavní myšlenkou baggingu je, že jako odhad vysvětlované proměnné y nebudeme brát T(x, L), ale průměr přes všechny výsledky, které obdržíme z jednotlivýchmodelů T(x, L k ),tj. F A (x)= 1 K K T(x, L k ). (4.1) k=1 Vpřípadě,žeynabýváhodnotzmnožiny C= {c 1, c 2,...,c p },taksamozřejmě hledatprůměrpro T(x, L k )nemávýznam.vtakovémpřípaděseproodhady používávětšinovéhlasování.označme N cj = k; T(x, L k )=c j,pak F A (x)=argmax c j N cj, (4.2) čili výsledná třída je ta, které se objevila při klasifikaci jednotlivými stromy nejčastěji. Místo většinového hlasování můžeme také použít vážené hlasování, kdy 26
31 každému stromu je přiřazená váha, která zohledňuje nepřesnost stromu. Čím je hodnocení stromu přesnější, tím má jeho hlas větší váhu. Avšak zřídka máme k dispozici tolik pozorování, abychom mohli mít K různýchsouborůprovytvořenívhodnýchmodelů.protosesoubor L k vytvoříjako bootstrapovývýběrz L,tj.soubor L k vzniknejakovýběrsvracenímzl.velikost bootstrapového výběru je nejčastěji stejná, jako velikost základního souboru pozorování.označmetakovouposloupnostvýběrůjako L (B) k, k=1,...,k. Proodhadvysvětlovanéproměnnéymísto F A (x)použijeme F B (x),kterýje definován jako F B (x)= 1 K K k=1 T(x, L (B) k ). (4.3) Jednotlivémodely T(x, L (B) k ) vybudujeme stejným způsobem, který jsme popsalivkapitole(3.1).nejdřívenazákladěpozorovánízesouboru L (B) k obdržíme maximální strom. Ten následně prořežeme a dostaneme posloupnost stromů T (B) 1... t (B) 1, ze které vybereme ten o optimální velikosti. Optimální strom vybereme tak, že spočítáme nepřesnost stromu na tzv. out-of-bag pozorováních. Pozorování out-ofbagjsoutapozorování,kteránebylavybránadosouboru L k.protožebootstrapový výběr je výběrem s opakováním, při výběru o velikost N se některá pozorování vyskytnou vícekrát, zatímco některá pozorování se nevyberou vůbec. Místo použití out-of-bag pozorování lze pro výběr optimálního stromu použít i celý výběr L. Pak ale dochází k podhodnocení odhadu nepřesnosti modelu. Odpověď, proč průměrování přes několik modelů nedává horší výsledky než použití jednoho modelu, vychází z následující rovnice, která platí pro všechna y i, i=1,...,n: 1 K K (y i T(x i, L k )) 2 = yi 2 2y 1 i K k=1 K T(x i, L k )+ 1 K k=1 K (T(x i, L k )) 2. (4.4) Na poslední člen této rovnosti aplikujeme Jensenovou nerovnost: pokud je funkce g konvexníajedefinovanánaintervalu I, λ 1,...,λ n jsounezáporná,pakpro libovolná x 1,...,x n Iplatí k=1 λ 1 g(x 1 )+...+λ n g(x n ) g(λ 1 x λ n x n ) Druhá mocnina je konvexní funkce, proto lze aplikovat Jensenovou nerovnost na poslední člen(4.4): ( ) 2 1 K (T(x i, L k )) 2 1 K T(x i, L k ). (4.5) K K k=1 S použitím označení(4.1) a nerovnosti(4.5) na rovnici(4.4) dostaneme následující nerovnost: 1 K (y i T(x i, L k )) 2 (y i F A (x i, L)) 2 (4.6) K k=1 27 k=1
32 Pokud předchozí rovnici sečteme přes i a vydělíme počtem pozorování N, dostaneme výraz 1 K K k=1 1 N N (y ki T(x ki, L k )) 2 1 N i=1 N (y i F A (x i, L)) 2, (4.7) cožjehledanývýsledekaznamená,žeprůměrnáčtvercováchyba F A jemenší nebo rovná průměrné čtvercové chybě jednotlivých stromů. To, o kolik chyba bude nižší,závisínatom,jakvýraznábudenerovnost(4.5).umetod,kdyzměna L příliš neovlivní výsledný model, se obě strany nerovnosti(4.6) téměř rovnají, a tak použití baggingu nevede k významnému zlepšení. Stromy však patří mezi metody, kdy změna souboru dat může významně ovlivnit výsledný model, proto použití baggingu může významně vylepšit kvalitu předpovědi. Breiman v[2] uvádí, že vypočtená střední čtvercová chyba baggingu jeo21%až46%nižší,nežkdyžsenastejnádatapoužijeobyčejnámetoda CART. Tato čísla se pokusíme ověřit v páté kapitole. Na závěr přidáme ještě dvě krátké poznámky ohledně velikosti lesu, neboli počtu stromů v lesu, a způsobu určení důležitosti proměnných. Přesný počet stromů není explicitně dán. Breiman v[2] uvádí, že v případě regresní úlohy les o velikosti 25 stromů produkuje uspokojivé výsledky, v případě kvalifikačních úloh je potřeba počet stromů zdvojnásobit. Důležitost proměnných určujeme obdobným způsobem, jako v případě stromu CART. Čili spočítáme pokles nepřesnosti pro každou proměnnou v každém jednotlivém stromě, a výsledek pak vydělíme počtem stromů. Proměnná s největším takto spočítaným poklesem nepřesnosti je označená za nejvýznamnější. 4.2 Boosting Boosting je další metoda, která využívá skupinového rozhodování. Ačkoliv na první pohled pracuje stejně jako bagging, ve skutečnosti se od něho značně liší. Stejně jako bagging kombinuje výsledky z více sestavených stromů. Ale zatímco v případě baggingu se jedná o kombinaci K samostatných stromů, v případě boostingu jednotlivé stromy samostatné nejsou. Boosting staví stromy postupně, přičemž nový strom závisí na svém předchůdci. Ačkoliv boosting vznikl původně pro řešení klasifikačních úloh, lze ho úspěšně aplikovat i na úlohy regresní. Jako zdroj informace nám poslouží[7] a[11] Algoritmus boosting Z předchozích kapitol víme, že strom vytvořený metodou CART může být vyjádřen následující rovnicí M T(x;Θ)= β m I(x R m ), m=1 kdeθ={r m, β m } M 1.Přesnéodhadyhodnottěchtoparametrůdostaneme,když hledáme nejmenší hodnotu nepřesnosti stromu L, čili hledáme řešení následující 28 i=1
Aleh Masaila. Regresní stromy
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Aleh Masaila Regresní stromy Katedra pravděpodobnosti a matematické statistiky Vedoucí diplomové práce: Studijní program: Studijní
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
Pokročilé neparametrické metody. Klára Kubošová
Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení
Testování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
Testování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu http://akademie.ldf.mendelu.cz/cz (reg. č. CZ.1.07/2.2.00/28.
Základy lineárního programování Vyšší matematika, Inženýrská matematika LDF MENDELU Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem
LDF MENDELU. Simona Fišnarová (MENDELU) Základy lineárního programování VMAT, IMT 1 / 25
Základy lineárního programování Vyšší matematika, Inženýrská matematika LDF MENDELU Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti
Kapitola 5 Vektorové prostory V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti operací sčítání a násobení
Regresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
AVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy
Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy Lukáš Havrlant Univerzita Palackého 10. ledna 2014 Primární zdroj Jiří Adámek: Foundations of Coding. Strany 137 160. Na webu ke stažení, heslo:
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ
Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace
Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi
7. Analýza rozptylu.
7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y, Y,..., Y n a
5. Lokální, vázané a globální extrémy
5 Lokální, vázané a globální extrémy Studijní text Lokální extrémy 5 Lokální, vázané a globální extrémy Definice 51 Řekneme, že f : R n R má v bodě a Df: 1 lokální maximum, když Ka, δ Df tak, že x Ka,
STATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:
3 Maticový počet 3.1 Zavedení pojmu matice Maticí typu (m, n, kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: a 11 a 12... a 1k... a 1n a 21 a 22...
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
Aplikovaná numerická matematika
Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních
Věta 12.3 : Věta 12.4 (princip superpozice) : [MA1-18:P12.7] rovnice typu y (n) + p n 1 (x)y (n 1) p 1 (x)y + p 0 (x)y = q(x) (6)
1. Lineární diferenciální rovnice řádu n [MA1-18:P1.7] rovnice typu y n) + p n 1 )y n 1) +... + p 1 )y + p 0 )y = q) 6) počáteční podmínky: y 0 ) = y 0 y 0 ) = y 1 y n 1) 0 ) = y n 1. 7) Věta 1.3 : Necht
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
zejména Dijkstrův algoritmus pro hledání minimální cesty a hladový algoritmus pro hledání minimální kostry.
Kapitola Ohodnocené grafy V praktických aplikacích teorie grafů zpravidla graf slouží jako nástroj k popisu nějaké struktury. Jednotlivé prvky této struktury mají často přiřazeny nějaké hodnoty (může jít
Obsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
1 Linearní prostory nad komplexními čísly
1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)
0.1 Úvod do lineární algebry
Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Vektory Definice 011 Vektorem aritmetického prostorur n budeme rozumět uspořádanou n-tici reálných čísel x 1, x 2,, x n Definice 012 Definice sčítání
Stavový model a Kalmanův filtr
Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel
Regresní analýza Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 1 / 23
7. Funkce jedné reálné proměnné, základní pojmy
, základní pojmy POJEM FUNKCE JEDNÉ PROMĚNNÉ Reálná funkce f jedné reálné proměnné je funkce (zobrazení) f: X Y, kde X, Y R. Jde o zvláštní případ obecného pojmu funkce definovaného v přednášce. Poznámka:
0.1 Úvod do lineární algebry
Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Lineární rovnice o 2 neznámých Definice 011 Lineární rovnice o dvou neznámých x, y je rovnice, která může být vyjádřena ve tvaru ax + by = c, kde
Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic
Přednáška třetí (a pravděpodobně i čtvrtá) aneb Úvod do lineární algebry Matice a soustavy rovnic Lineární rovnice o 2 neznámých Lineární rovnice o 2 neznámých Lineární rovnice o dvou neznámých x, y je
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
odpovídá jedna a jen jedna hodnota jiných
8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě
9 Kolmost vektorových podprostorů
9 Kolmost vektorových podprostorů Od kolmosti dvou vektorů nyní přejdeme ke kolmosti dvou vektorových podprostorů. Budeme se zabývat otázkou, kdy jsou dva vektorové podprostory na sebe kolmé a jak to poznáme.
Texty k přednáškám z MMAN3: 4. Funkce a zobrazení v euklidovských prostorech
Texty k přednáškám z MMAN3: 4. Funkce a zobrazení v euklidovských prostorech 1. července 2008 1 Funkce v R n Definice 1 Necht n N a D R n. Reálnou funkcí v R n (reálnou funkcí n proměnných) rozumíme zobrazení
6 Skalární součin. u v = (u 1 v 1 ) 2 +(u 2 v 2 ) 2 +(u 3 v 3 ) 2
6 Skalární součin Skalární součin 1 je operace, která dvěma vektorům (je to tedy binární operace) přiřazuje skalár (v našem případě jde o reálné číslo, obecně se jedná o prvek nějakého tělesa T ). Dovoluje
Lineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují
Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují 1. u + v = v + u, u, v V 2. (u + v) + w = u + (v + w),
(Cramerovo pravidlo, determinanty, inverzní matice)
KMA/MAT1 Přednáška a cvičení, Lineární algebra 2 Řešení soustav lineárních rovnic se čtvercovou maticí soustavy (Cramerovo pravidlo, determinanty, inverzní matice) 16 a 21 října 2014 V dnešní přednášce
Pokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační
a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:
Řešené příklady z lineární algebry - část 1 Typové příklady s řešením Příklady jsou určeny především k zopakování látky před zkouškou, jsou proto řešeny se znalostmi učiva celého semestru. Tento fakt se
Soustavy. Terminologie. Dva pohledy na soustavu lin. rovnic. Definice: Necht A = (a i,j ) R m,n je matice, b R m,1 je jednosloupcová.
[1] Terminologie [2] Soustavy lineárních rovnic vlastnosti množin řešení metody hledání řešení nejednoznačnost zápisu řešení Definice: Necht A = (a i,j ) R m,n je matice, b R m,1 je jednosloupcová matice.
Operace s maticemi. 19. února 2018
Operace s maticemi Přednáška druhá 19. února 2018 Obsah 1 Operace s maticemi 2 Hodnost matice (opakování) 3 Regulární matice 4 Inverzní matice 5 Determinant matice Matice Definice (Matice). Reálná matice
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě
Polynomy. Mgr. Veronika Švandová a Mgr. Zdeněk Kříž, Ph. D. 1.1 Teorie Zavedení polynomů Operace s polynomy...
Polynomy Obsah Mgr. Veronika Švandová a Mgr. Zdeněk Kříž, Ph. D. 1 Základní vlastnosti polynomů 2 1.1 Teorie........................................... 2 1.1.1 Zavedení polynomů................................
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
Učební texty k státní bakalářské zkoušce Matematika Základy lineárního programování. študenti MFF 15. augusta 2008
Učební texty k státní bakalářské zkoušce Matematika Základy lineárního programování študenti MFF 15. augusta 2008 1 15 Základy lineárního programování Požadavky Simplexová metoda Věty o dualitě (bez důkazu)
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
Soustavy linea rnı ch rovnic
[1] Soustavy lineárních rovnic vlastnosti množin řešení metody hledání řešení nejednoznačnost zápisu řešení a) soustavy, 10, b) P. Olšák, FEL ČVUT, c) P. Olšák 2010, d) BI-LIN, e) L, f) 2009/2010, g)l.
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY
VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY Jan Krejčí 31. srpna 2006 jkrejci@physics.ujep.cz http://physics.ujep.cz/~jkrejci Obsah 1 Přímé metody řešení soustav lineárních rovnic 3 1.1 Gaussova eliminace...............................
Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X
Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristiky často potřebujeme vyšetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich
Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup
Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009
Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice
Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice Vektorové podprostory K množina reálných nebo komplexních čísel, U vektorový prostor nad K. Lineární kombinace vektorů u 1, u 2,...,u
Matice. a m1 a m2... a mn
Matice Nechť (R, +, ) je okruh a nechť m, n jsou přirozená čísla Matice typu m/n nad okruhem (R, +, ) vznikne, když libovolných m n prvků z R naskládáme do obdélníkového schematu o m řádcích a n sloupcích
Lineární algebra : Metrická geometrie
Lineární algebra : Metrická geometrie (16. přednáška) František Štampach, Karel Klouda LS 2013/2014 vytvořeno: 6. května 2014, 10:42 1 2 Úvod Zatím jsme se lineární geometrii věnovali v kapitole o lineárních
1 Polynomiální interpolace
Polynomiální interpolace. Metoda neurčitých koeficientů Příklad.. Nalezněte polynom p co nejmenšího stupně, pro který platí p() = 0, p(2) =, p( ) = 6. Řešení. Polynom hledáme metodou neurčitých koeficientů,
1 Mnohočleny a algebraické rovnice
1 Mnohočleny a algebraické rovnice 1.1 Pojem mnohočlenu (polynomu) Připomeňme, že výrazům typu a 2 x 2 + a 1 x + a 0 říkáme kvadratický trojčlen, když a 2 0. Číslům a 0, a 1, a 2 říkáme koeficienty a písmenem
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
4EK213 LINEÁRNÍ MODELY
4EK213 LINEÁRNÍ MODELY Úterý 11:00 12:30 hod. učebna SB 324 3. přednáška SIMPLEXOVÁ METODA I. OSNOVA PŘEDNÁŠKY Standardní tvar MM Základní věta LP Princip simplexové metody Výchozí řešení SM Zlepšení řešení
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Interpolace Uvažujme třídu funkcí jedné proměnné ψ(x; a 0,..., a n ), kde a 0,..., a n jsou parametry, které popisují jednotlivé funkce této třídy. Mějme dány body x 0, x 1,..., x n, x i x k, i, k = 0,
Markovské metody pro modelování pravděpodobnosti
Markovské metody pro modelování pravděpodobnosti rizikových stavů 1 Markovský řetězec Budeme uvažovat náhodný proces s diskrétním časem (náhodnou posloupnost) X(t), t T {0, 1, 2,... } s konečnou množinou
α β ) právě tehdy, když pro jednotlivé hodnoty platí β1 αn βn. Danou relaci nazýváme relace
Monotónní a Lineární Funkce 1. Relace předcházení a to Uvažujme dva vektory hodnot proměnných α = α,, 1 αn ( ) a β = ( β β ) 1,, n x,, 1 xn. Říkáme, že vekto r hodnot α předchází vektor hodnot β (značíme
Úloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory
Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 202 Založeno na materiálech doc. Michala Kulicha Náhodný vektor často potřebujeme
Necht tedy máme přirozená čísla n, k pod pojmem systém lineárních rovnic rozumíme rovnice ve tvaru
2. Systémy lineárních rovnic V této kapitole se budeme zabývat soustavami lineárních rovnic s koeficienty z pole reálných případně komplexních čísel. Uvádíme podmínku pro existenci řešení systému lineárních
Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n
[1] Základní pojmy [2] Matice mezi sebou sčítáme a násobíme konstantou (lineární prostor) měníme je na jiné matice eliminační metodou násobíme je mezi sebou... Matice je tabulka čísel s konečným počtem
UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek
UNIVERZITA PARDUBICE Licenční Studium Archimedes Statistické zpracování dat a informatika 4.4 Aproximace křivek a vyhlazování křivek Mgr. Jana Kubátová Endokrinologický ústav V Praze, leden 2012 Obsah
Úlohy nejmenších čtverců
Úlohy nejmenších čtverců Petr Tichý 7. listopadu 2012 1 Problémy nejmenších čtverců Ax b Řešení Ax = b nemusí existovat, a pokud existuje, nemusí být jednoznačné. Často má smysl hledat x tak, že Ax b.
1 Báze a dimenze vektorového prostoru 1
1 Báze a dimenze vektorového prostoru 1 Báze a dimenze vektorového prostoru 1 2 Aritmetické vektorové prostory 7 3 Eukleidovské vektorové prostory 9 Levá vnější operace Definice 5.1 Necht A B. Levou vnější
IB112 Základy matematiky
IB112 Základy matematiky Řešení soustavy lineárních rovnic, matice, vektory Jan Strejček IB112 Základy matematiky: Řešení soustavy lineárních rovnic, matice, vektory 2/53 Obsah Soustava lineárních rovnic
Greenova funkce pro dvoubodové okrajové úlohy pro obyčejné diferenciální rovnice
Greenova funkce pro dvoubodové okrajové úlohy pro obyčejné diferenciální rovnice Jan Tomeček Tento stručný text si klade za cíl co nejrychlejší uvedení do teorie Greenových funkcí pro obyčejné diferenciální
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota y závisí nějakým způsobem na vstupní, je její funkcí y = f(x).
Soustavy lineárních rovnic
Soustavy lineárních rovnic V této kapitole se budeme zabývat soustavami lineárních diferenciálních rovnic y = a (x)y + a (x)y + + a n (x)y n + f (x) y = a (x)y + a (x)y + + a n (x)y n + f (x). y n = a
3. Podmíněná pravděpodobnost a Bayesův vzorec
3. Podmíněná pravděpodobnost a Bayesův vzorec Poznámka: V některých úlohách řešíme situaci, kdy zkoumáme pravděpodobnost náhodného jevu za dalších omezujících podmínek. Nejčastěji má omezující podmínka
Tomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague
1 / 40 regula Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague regula 1 2 3 4 5 regula 6 7 8 2 / 40 2 / 40 regula Iterační pro nelineární e Bud f reálná funkce
Úvod do informatiky. Miroslav Kolařík. Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008.
Úvod do informatiky přednáška čtvrtá Miroslav Kolařík Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008. Obsah 1 Pojem relace 2 Vztahy a operace s (binárními) relacemi
Statistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]
MATICE Matice typu m/n nad tělesem T je soubor m n prvků z tělesa T uspořádaných do m řádků a n sloupců: a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij] a m1 a m2 a mn Prvek a i,j je prvek matice A na místě
i=1 Přímka a úsečka. Body, které leží na přímce procházející body a a b můžeme zapsat pomocí parametrické rovnice
I. Funkce dvou a více reálných proměnných 1. Úvod Značení: V textu budeme používat označení: N pro množinu všech přirozených čísel; R pro množinu všech reálných čísel; R n pro množinu všech uspořádaných
Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X
Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristik často potřebujeme všetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich
12. Lineární programování
. Lineární programování. Lineární programování Úloha lineárního programování (lineární optimalizace) je jedním ze základních problémů teorie optimalizace. Našim cílem je nalézt maximum (resp. minimum)
Přednáška 3: Limita a spojitost
3 / 1 / 17, 1:38 Přednáška 3: Limita a spojitost Limita funkce Nejdříve je potřeba upřesnit pojmy, které přesněji popisují (topologickou) strukturu množiny reálných čísel, a to zejména pojem okolí 31 Definice
Úvod do lineární algebry
Úvod do lineární algebry 1 Aritmetické vektory Definice 11 Mějme n N a utvořme kartézský součin R n R R R Každou uspořádanou n tici x 1 x 2 x, x n budeme nazývat n rozměrným aritmetickým vektorem Prvky
Úlohy krajského kola kategorie C
67. ročník matematické olympiády Úlohy krajského kola kategorie C 1. Najděte nejmenší přirozené číslo končící čtyřčíslím 2018, které je násobkem čísla 2017. 2. Pro celá čísla x, y, z platí x 2 + y z =
1 Vektorové prostory.
1 Vektorové prostory DefiniceMnožinu V, jejíž prvky budeme označovat a, b, c, z, budeme nazývat vektorovým prostorem právě tehdy, když budou splněny následující podmínky: 1 Je dáno zobrazení V V V, které
FREDHOLMOVA ALTERNATIVA
FREDHOLMOVA ALTERNATIVA Pavel Jirásek 1 Abstrakt. V tomto článku se snažíme shrnout dosavadní výsledky týkající se Fredholmovy alternativy (FA). Postupně zmíníme FA na prostorech konečné dimenze, FA pro
Kolik existuje různých stromů na pevně dané n-prvkové množině vrcholů?
Kapitola 9 Matice a počet koster Graf (orientovaný i neorientovaný) lze popsat maticí, a to hned několika různými způsoby. Tématem této kapitoly jsou incidenční matice orientovaných grafů a souvislosti
Neuronové časové řady (ANN-TS)
Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci
AVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Korelace. Komentované řešení pomocí MS Excel
Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne