Cvičení 2: Rozhodovací stromy, RBF sítě, vlastní algoritmy v RapidMineru

Podobné dokumenty
1. Základy měření neelektrických veličin

PRAVDĚPODOBNOST A STATISTIKA

ANALÝZA A KLASIFIKACE DAT

Generování dvojrozměrných rozdělení pomocí copulí

Strojové učení. Things learn when they change their behavior in a way that makes them perform better in a future. (Witten, Frank, 1999) typy učení:

Metody zkoumání závislosti numerických proměnných

Lineární a adaptivní zpracovní dat. 5. Lineární filtrace: FIR, IIR

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

PRAVDĚPODOBNOST A STATISTIKA

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

11. Časové řady Pojem a klasifikace časových řad

Odhady parametrů 1. Odhady parametrů

9. Měření závislostí ve statistice Pevná a volná závislost

Aplikace teorie neuronových sítí

Náhodné jevy, jevové pole, pravděpodobnost

Spolehlivost a diagnostika

VY_52_INOVACE_J 05 01

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Neuronové sítě. Biologický neuron. Modely neuronu. 1. Logický neuron (McCulloch, Pitts, 1943) w R, x, y {0, 1} Biologický neuron.

Testování statistických hypotéz

Intervalové odhady parametrů

1.3. ORTOGONÁLNÍ A ORTONORMÁLNÍ BÁZE

Optimalizace portfolia

Náhodný výběr 1. Náhodný výběr

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

PRAVDĚPODOBNOST A STATISTIKA

Úvod do korelační a regresní analýzy

Přednáška V. Úvod do teorie odhadu. Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs.

TĚŽIŠTĚ A STABILITA. Těžiště tělesa = bod, kterým stále prochází výslednice tíhových sil všech jeho hmotných bodů, ať těleso natáčíme jakkoli

7 LIMITNÍ VĚTY. Čas ke studiu kapitoly: 70 minut. Cíl:

Výukový modul III.2 Inovace a zkvalitnění výuky prostřednictvím ICT

Lineární a adaptivní zpracovní dat. 4. Lineární filtrace II: FIR, IIR

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

Intervalové odhady parametrů některých rozdělení.

V. Normální rozdělení

Umělé neuronové sítě a Support Vector Machines. Petr Schwraz

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze

C V I Č E N Í 4 1. Představení firmy Splintex Czech 2. Vlastnosti skla a skloviny 3. Aditivita 4. Příklady výpočtů

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

2. Vícekriteriální a cílové programování

Analýza a zpracování signálů. 3. Číselné řady, jejich vlastnosti a základní operace, náhodné signály

Deskriptivní statistika 1

Statistika - vícerozměrné metody

Chyby měření: 1. hrubé chyby - nepozornost, omyl, únava pozorovatele... - významně převyšuje rozptyl náhodné chyby 2. systematické chyby - chybné

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

Lineární regrese ( ) 2

Doc. Ing. Dagmar Blatná, CSc.

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Téma 2 Přímková a rovinná soustava sil

12. N á h o d n ý v ý b ě r

4.2 Elementární statistické zpracování Rozdělení četností

[ jednotky ] Chyby měření

SP2 Korelační analýza. Korelační analýza. Libor Žák

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

U. Jestliže lineární zobrazení Df x n n

Univerzita Karlova v Praze Pedagogická fakulta

8. Odhady parametrů rozdělení pravděpodobnosti

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

Pravděpodobnost a aplikovaná statistika

4. Strojové učení. 4.1 Základní pojmy

PRAVDĚPODOBNOST A STATISTIKA

P1: Úvod do experimentálních metod

Výsledky této ásti regresní analýzy jsou asto na výstupu z poítae prezentovány ve form tabulky analýzy rozptylu.

Pravděpodobnost a aplikovaná statistika

Testy statistických hypotéz

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

TECHNICKÁ UNIVERZITA V LIBERCI

8. Zákony velkých čísel

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

PRAVDĚPODOBNOST A STATISTIKA

Iterační metody řešení soustav lineárních rovnic

8 NELINEÁRNÍ REGRESNÍ MODELY

I. Výpočet čisté současné hodnoty upravené

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

, jsou naměřené a vypočtené hodnoty závisle

1. DYNAMIKA A DEFORMAČNÍ VARIANTA METODY KONEČNÝCH PRVKŮ

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Popisná statistika. Zdeněk Janák 9. prosince 2007

1 Popis statistických dat. 1.1 Popis nominálních a ordinálních znaků

S1P Popisná statistika. Popisná statistika. Libor Žák

11. Popisná statistika

Střední hodnoty. Aritmetický průměr prostý Aleš Drobník strana 1

Výstup a n. Vstup. obrázek 1: Blokové schéma a graf paralelní soustavy

Tento materiál vznikl díky Operačnímu programu Praha Adaptabilita CZ.2.17/3.1.00/33254

1.1 Definice a základní pojmy

Geodézie 3 (154GD3) Téma č. 9: Hodnocení a rozbory přesnosti výškových měření.

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Analýza a zpracování signálů. 3. Číselné řady, jejich vlastnosti a základní operace, náhodné signály

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

JIHOČESKÁ UNIVERZITA V ČESKÝCH BUDĚJOVICÍCH PEDAGOGICKÁ FAKULTA - KATEDRA FYZIKY

Závislost slovních znaků

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Algoritmus

Transkript:

České vysoké učeí techcké v Praze Fakulta formačích techologí Katedra teoretcké formatky Evropský socálí fod Praha & EU: Ivestujeme do vaší budoucost MI-ADM Algortmy data mgu 2010/2011 Cvčeí 2: Rozhodovací stromy, RBF sítě, vlastí algortmy v RapdMeru Pavel Kordík, FIT, Czech Techcal Uversty Prague 1

Obsah Expermety s rozhodovacím stromy Dskretzace dat Optmalzace parametrů RBFN Klasfkátor Regresí modely Učeí Vlastí algortmus v RapdMeru Kordk, CTU Prague, FIT, MI-ADM 2

Expermety s rozhodovacím stromy Kordk, CTU Prague, FIT, MI-ADM 3

Expermety s DTs Irs data Růzé dskretzace pro ID3 Prug Drect Marketg data ID3 Chad DT C4.5, CART Kordk, CTU Prague, FIT, MI-ADM 4

RBFN Radal Bass Fucto Network 1988, Bromhead, Lowe Neuroová síť Učeí s učtelem Použtí: Klasfkace Regrese lokálí jedotky vysvětlíme dále Y336VD Vytěžováí dat

Archtektura RBF sítě euroy euroy

Jak vypadá sféra vlvu Většou gaussovská fukce kerel f x, y = Ae 2 x x y y 2σ 0 2 x + posuv 2σ 0 2 y 2 ampltuda rozptyl x x 0 =0 y

Lokálí jedotky Co to zameá? pokrývají je část defčího oboru jsou eulové je v jstém úseku Globálí versus lokálí jedotky: gausovská fukce lokálí sgmoda globálí leárí fukce globálí polyom globálí, ale ve specálích případech může fugovat jako lokálí

Klasfkace pomocí globálích jedotek sgmoda 1 0

Klasfkace pomocí lokálích jedotek součet gausovských fukcí RBFN 20013627 표현아 Computer Scece, KAIST

RBFN jako klasfkátor Každý euro ve vtří vrstvě má sféru vlvu Ty se ve výstupí vrstvě vážeí sčítají pro každou třídu zvlášť

RBFN pro aproxmac regrese

RBF síť jako uverzálí aproxmátor http://dwww.epfl.ch/matra/tutoral/eglsh/rbf/html/

Neuroy RBF sítě Skrytá vrstva, vtří potecál lokálí eleárí aktvačí fukce y = fφ, apř. gaussovská ϕ = x = 1 c 2 výstupí vrstva, leárí přeosová fukce vážeý součet y = = 1 w y *

Dskuse archtektury RBF euroy: vtří potecál je mírou vzdáleost vstupího vektoru a středu reprezetovaého vaham eurou, aktvačí fukce vymezuje sféru vlvu. Výstupí euroy: asčítávají přírůstky, tak aby požadovaá aproxmace byla co ejpřesější.

Sféra vlvu Hyperkoule se středem C a poloměrem R, RBFN používá pro její určeí Eukledovskou metrku, prototyp reprezetuje jstou podmožu vstupích dat ve tvaru shluku,

Sféra vlvu - určeí Nejčastěj se používá Gaussova fukce zámá ze statstky. Pokud je vstupí vektor totožý s prototypem tj. ϕ = 0, abývá tato fukce maxma, které dosahuje hodoty jeda. To je také maxmálí hodota aktvty eurou. Se zvětšující se vzdáleostí od prototypu aktvta eurou klesá. Parametr σ, jež je aalogí rozptylu ormálího rozděleí, určuje strmost aktvačí fukce.

Sféra vlvu - geometrcká představa

Dskuse Gaussova fukce vyjadřuje míru příslušost vzoru ke středu. Je-l výstup eurou blízký jedčce, pak je také vzor velm podobý středu. Podobost vyhodocujeme pomocí metrk, které už důvěrě záme

Učeí RBF euroových sítí Přpomeutí: jedá se o učeí s učtelem, exstují tedy dvojce vzor x kategore klasfkátor, argumet fukce x fukčí hodota aproxmátor. Dvě fáze učeí: učeí prototypů, učeí výstupích euroů.

Učeí prototypů I Předem odhademe počet shluků ve vstupích datech, defujeme fukc příslušost m vzoru ke shluku, odhademe souřadce všech p vektorů C p, které jsou středy shluků.

Učeí prototypů I - pokračováí Kroky K-meas algortmu:. Náhodě calzuj středy RBF euroů C... Vypočítej m pro všechy vzory z tréovací možy.. Vypočítej ové středy C jako průměr všech vzorů, které áležely ke středu k podle fukce příslušost.. Ukoč, jestlže se m eměí, jak pokračuj bodem 2

K-Meas Example: ~ µ 2 ~ µ 1 Fgure 4: Square-error clusterg for smple 2-d data set P=9,K=2

Učeí prototypů II - pokračováí Kroky adaptvího K-meas algortmu:. Náhodě calzuj středy RBF euroů C... Přečt vzor X.. Urč k ěmu ejblžší ejblžší střed a změň jeho polohu podle pravdla: C + η X t+ 1 t t t k k k kde η je rychlost adaptace, která se postupě sžuje s počtem terací.. Ukoč, pokud η = 0 ebo po určtém počtu kroků. Jak pokračuj bodem 2 = C C

Učeí prototypů III. Pokud eumíme odhadout počet shluků v datech, vycházíme z jejch ulového počtu. Postup v tomto případě:. Přečt vzor. Vyhledej ejblžší shluk k. Pokud je vzdáleost meší ež r, modfkuj střed shluku podle + η X t+ 1 t t t k k k. Pokud je vzdáleost větší ež r, založ ový střed a pozc vzoru X, tj... Ukoč, pokud η = 0, ebo po určtém počtu kroků. Jak pokračuj bodem 2. C C = X = C t+ 1 t k C

Určeí parametru σ Parametr σ je možo určt jako středí kvadratckou vzdáleost vzorů od středu shluku. σ k = 1 kde X q je q-tý vzor áležející ke shluku se středem C k. Q Q = 1 C k X q 2

Učeí vah výstupích euroů Váhy ve výstupí vrstvě budeme opakovaě upravovat tak, abychom mmalzoval eergetckou fukc: w t = η E t = η D t Y t Y * t Vzpomíáte s? Covám to přpomíá?

Eergetckou fukcí je v tomto případě E = 1 2 m d t y t t= 1 = 1 2 Pro odvozeí vztahu pro úpravu vah jsme použl gradetí algortmus.

Gradetí učeí pro RBF Lear weghts output layer Postos of ceters hdde layer Spreads of ceters hdde layer = = Ε N j C j j G e w 1 t x M w E w w,..., 1,2, 1 1 = = + η = Σ = N j j C j j G e w E 1 1 ' ] [ 2 t x t x t M E,..., 1,2, 1 2 = = + t t t η = = Σ N j j C j j G e w E 1 ' 1 Q t x T j j j ] ][ [ t x t x Q = 1 1 3 1 1 E Σ = Σ + Σ η 20013627 표현아 Computer Scece, KAIST

Lze RBFN učt jak? Geetka! Jak a to?

Implemetace sítě RBF euročp ZISC 36 Neuročp ZISC Zero Istructo Set Computer vyrábí frma IBM. Jedá se o jedoúčelový procesor spevě daou fukcí, který lze omezeě kofgurovat, ale kolv programovat. Číslo 36 v ázvu udává počet euroů mplemetovaých v jedompouzdře.

Charakterstky euročpu Prototyp má dmez 64. Dmeze prototypu zároveň určuje dmez vstupího vektoru, a proto j eí možo dále rozšřovat. Pro sížeí obvodové áročost byla v euročpu uplatěa řada zjedodušeí: odstraěí operace druhé mocy př výpočtu Eukledovské vzdáleost.

Neuročp přes WEB http://axo.felk.cvut.cz/zsc/zsc.php

Vlastí algortmus v RapdMeru 2 dokumety edux Kordk, CTU Prague, FIT, MI-ADM 34