Aplikace teorie neuronových sítí

Podobné dokumenty
Neuronové sítě. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Základy počítačové grafiky

Neuronové sítě. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

ANALÝZA A KLASIFIKACE DAT

SMR 1. Pavel Padevět

EKONOMICKO-MATEMATICKÉ METODY

ZÁKLADY GEOMETRIE KŘIVEK A PLOCH

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Vícekriteriální rozhodování. Typy kritérií

ANALÝZA A KLASIFIKACE DAT

Aplikované chemické procesy

Dopravní plánování a modelování (11 DOPM )

1. Nejkratší cesta v grafu

Q N v místě r. Zobecnění Coulombova zákona Q 3 Q 4 Q 1 Q 2

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

ANALÝZA A KLASIFIKACE DAT

REDUKCE DIMENSIONALITY PRAVDĚPODOBNOSTNÍCH MODELŮ PRO FDI

do strukturní rentgenografie e I

MODELOVÁNÍ A SIMULACE

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

PRAVDĚPODOBNOST A STATISTIKA

ŘEŠENÍ PROBLÉMU LOKALIZACE A ALOKACE LOGISTICKÝCH OBJEKTŮ POMOCÍ PROGRAMOVÉHO SYSTÉMU MATLAB. Vladimír Hanta 1, Ivan Gros 2

ASYMPTOTICKÉ VLASTNOSTI ODHADŮ S MINIMÁLNÍ KOLMOGOROVSKOU VZDÁLENOSTÍ

Matematika I A ukázkový test 1 pro 2018/2019

Metoda hlavních komponent

Chemické reaktory. Chemické reaktory. Mikrokinetika a Makrokinetika. Rychlost vzniku složky reakcí. Rychlost reakce

Podmíněná pravděpodobnost, spolehlivost soustav

ROZDĚLENÍ PŘÍJMŮ A JEHO MODELY. Jitka Bartošová

ODVOZENÍ OBLASTI NECITLIVOSTI PRO PARAMETRY STŘEDNÍ HODNOTY REGULÁRNÍHO SMÍŠENÉHO LINEÁRNÍHO REGRESNÍHO MODELU BEZ PODMÍNEK

2 ÚVOD DO TEORIE PRAVDĚPODOBNOSTI. 2.1 Náhodný jev. π, které je třeba co nejpřesněji a nejúplněji vymezit, a k nimž je třeba výsledky pokusu a

Obsah přednášky 1. Bayesův teorém 6. Naivní Bayesovský klasifikátor (NBK)

Staré mapy TEMAP - elearning

SÍŤOVÁ ANALÝZA. Základní pojmy síťové analýzy. u,. Sjednocením množin { u, u,..., 2. nazýváme grafem G.

Cvičení 13 Vícekriteriální hodnocení variant a vícekriteriální programování

P. Bartoš, J. Blažek, P. Špatenka. Katedra fyziky, Pedagogická fakulta Jihočeské univerzity, Jeronýmova 10, České Budějovice

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

Využití logistické regrese pro hodnocení omaku

nano.tul.cz Inovace a rozvoj studia nanomateriálů na TUL

ina ina Diskrétn tní náhodná veličina může nabývat pouze spočetně mnoha hodnot (počet aut v náhodně vybraná domácnost, výsledek hodu kostkou)

vektor a vrátili jiný vektor. Měli-li jsme jistou pozorovatelnou A, dostali jsme jejím změřením

Tomáš Hanzák, Marek Mikoška MFF UK obor Pravděpodobnost, matematická statistika a ekonometrie. Optimalizace II s aplikací ve financích (EKN004)

4. konference o matematice a fyzice na VŠT Brno, Fraktály ve fyzice. Oldřich Zmeškal

Analýza a klasifikace dat

Náhodným (stochastickým) procesem nazveme zobrazení, které každé hodnotě náhodnou veličinu X ( t)

Lineární a adaptivní zpracování dat. 8. Kumulační zvýrazňování signálů v šumu 2

Státnice odborné č. 20

2. Definice pravděpodobnosti

{ } SYNTÉZA TABULEK PŘECHODŮ 1. NEALGEBRAICKÉ METODY

AVDAT Mnohorozměrné metody, metody klasifikace

Fuzzy regulátory. Miloš Schlegel. Několik výroků o přesnosti

Aplikace teorie neuronových sítí

Pružnost a plasticita II

1. Úvod. Cílem teorie her je popsat situaci, která nás zajímá, jako hru. Klasickým případem

Konstrukční a technologické koncentrátory napětí

Pružnost a plasticita II

Klasifikace a predikce. Roman LUKÁŠ

MANAŽERSKÉ ROZHODOVÁNÍ

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Neuronové sítě. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Rizikového inženýrství stavebních systémů

METODA HLAVNÍCH KOMPONENT V LABORATORNÍ PRAXI

4EK211 Základy ekonometrie

Neuronové sítě. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

ELEKTŘINA A MAGNETIZMUS Řešené úlohy a postupy: Spojité rozložení náboje

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

Určení tlouštky folie metodou konvergentního elektronového svazku (TEM)-studijní text.

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

Teorie her a ekonomické rozhodování. 10. Rozhodování při jistotě, riziku a neurčitosti

PROBLEMATIKA INTELIGENTNÍHO AUTOMATICKÉHO

Numerická stabilita algoritmů

Dále budeme předpokládat, že daný Markovův řetězec je homogenní. p i1 i 2

Zadání příkladů. Zadání:

Statistická energetická analýza (SEA)

4EK211 Základy ekonometrie

ČASOVÁ KOORDINACE SPOJŮ VEŘEJNÉ HROMADNÉ DOPRAVY NA ÚSECÍCH DOPRAVNÍ SÍTĚ

rovinná soustava sil (paprsky všech sil soustavy leží v jedné rovině) rovinný svazek sil rovinná soustava rovnoběžných sil

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Modely produkčních systémů. Plánování výroby. seminární práce. Autor: Jakub Mertl. Xname: xmerj08. Datum: ZS 07/08

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Energie elektrického pole

n lokální působení různých vnějších faktorů ovlivňujících růst a zánik živých organismů n lokální variace vnitřních proměnných biologických systémů.

MULTINOMICKÉ REGRESNÍ MODELY V ŘÍZENÍ RIZIKA MULTICATEGORICAL RESPONSE MODELS FOR RISK MANAGEMENT. KLICNAR, Martin. Abstract

Literatura: Kapitola 2 d) ze skript Karel Rektorys: Matematika 43, ČVUT, Praha, Text přednášky na webové stránce přednášejícího.

Softwarová podpora matematických metod v ekonomice a řízení

REGRESNÍ ANALÝZA. 13. cvičení

Interpretační dokumenty ID1 až ID6

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Výslednice, rovnováha silové soustavy.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE. FAKULTA STAVEBNÍ, OBOR GEODÉZIE A KARTOGRAFIE KATEDRA SPECIÁLNÍ GEODÉZIE název předmětu

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

Řešené příklady ze stavební fyziky

Duktilní deformace, část 1

Monte Carlo metody Josef Pelikán CGG MFF UK Praha.

27 Systémy s více vstupy a výstupy

Neparametrické metody

Transkript:

Aplkace teoe neuonových sítí Doc. RND. Iveta Mázová, CSc. Kateda teoetcké nfomatky Matematcko-fyzkální fakulta Unvezty Kalovy v Paze

Aplkace teoe neuonových sítí -tadční přístupy - Doc. RND. Iveta Mázová, CSc. Kateda teoetcké nfomatky Matematcko-fyzkální fakulta Unvezty Kalovy v Paze

Bayesovo ozhodovací pavdlo (ktéum mnmální chyby) c tříd: ω,, ω c Vzo patříke třídě ω s aponí pavděpodobností P ; P 0 ; c = P = Vzo : náhodný vekto v n-ozměném příznakovém postou Ω s podmíněnou hustotou pavděpodobnost p( ω ), patří-l ke třídě ω ; =,, c I. Mázová: ATNS (NAIL03) 3

Bayesovo ozhodovací pavdlo (2) Klasfkace z neznámé třídy ω: Pavděpodobnost, že patří do třídy ω : (~ aposteoní pavděpodobnost třídy ω ) Bayesův vzoec: ( P ω ) P ω = ( ) ( ω ) ( ) Hustota pavděpodobnost výskytu vzou : c p = p ω P ( ) ( ) = p I. Mázová: ATNS (NAIL03) 4 p P

Bayesovo ozhodovací pavdlo (3) Rozhodnutí zařadt do třídy ω : přnese ztátu λ ω ω s pavděpodobností (~ vzo náležeící ke třídě ω ω ; ) ω ( ) = e chybně zařazen do třídy ) Očekávaná ztáta po chybné ozhodnutí ω = ω : l ( ) c ω I. Mázová: ATNS (NAIL03) 5 ) P ( ω ) ( ) = λ ( ω ) ( ) ω P ω = ( )

I. Mázová: ATNS (NAIL03) 6 Bayesovo ozhodovací pavdlo (4) Každé ozhodovací pavdlo má: Podmíněnou ztátu: a střední ztátu: ( ) ( ) ( ) ( ) = = c P l ) ω ω ω λ ( ) ( ) ( ) ( ) ( ) d P p d p l L c ) Ω = Ω = = ω ω ω λ

Bayesovo ozhodovací pavdlo (5) Cíl: takové ozhodovací pavdlo ω ), kteé by mnmalzovalo L ) Bayesovo ozhodovací pavdlo ( ω * ) : ) * ω = ω, estlže l l po ( ) ( ) ( ) =, K, c Nemenší podmíněná ztáta: l = mn l = mn ( ) ( ) λ ( ω ) ( ) ω P ω =, K, c =, K, c = střední ztáta (Bayesovské zko): c L = I. Mázová: ATNS (NAIL03) 7 Ω l ( ) p( ) d

Bayesovo ozhodovací pavdlo (6) Po ztáty: λ e podmíněná Bayesovská ztáta: e = ma P ω ( ) ( ) a Bayesovské zko: ( ω ω ) = 0 a λ ( ω ω ) = po =, K, c E = Bayesovské ozhodovací pavdlo : ) ω * = ω, estlže P ω = ma ( ) ( ) P( ) ω Ω e I. Mázová: ATNS (NAIL03) 8 ( ) p( ) d =, K, c

Bayesovo ozhodovací pavdlo (7) Odhad podmíněných ozdělení poces odhadu paametů na základě ténovací množny ~ UČENÍ KRITÉRIUM MINIMÁLNÍ CHYBY: Dskmnační funkce: g = pˆ ω Pˆ ω ; =, K Ténovací množna T : T =, Ω, K, R, Ω R Konstukce odhadů ( pˆ ω ) ( ) ( ) ( ), c {[ ] [ ]} I. Mázová: ATNS (NAIL03) 9

Bayesovo ozhodovací pavdlo (8) Vlastnost odhadů: Nestannost: záuka, že v půměu se bude odhad pohybovat kolem neznámé hustoty p( ) Konzstence: záuka, že čím větší bude počet vzoů množny T T, tím více se bude odhad blížt k neznámé hustotě p ( pˆ ( ) ) ozložení vzoů z třídy ω Efcence: takový nestanný odhad, kteý mez všem nestanným odhady má nemenší dspez I. Mázová: ATNS (NAIL03) 0

Bayesovo ozhodovací pavdlo (9) Vlastnost odhadů (pokačování): Induktvnost ( cíl učení): požadavek nalézt po předložení spočetně mnoha dvoc paamet q [ k, Ω k ], kteý mnmalzue střední ztátu přes celou množnu X ; Sekvenčnost ( postup učení): odhad na základě postupného předkládání dvoc [ k, Ω k ] f posloupnost funkcí ; ( ) ; k =, K ( k + ) ( ) ( k f pˆ ) ( ), ( k + ) ˆ = k + p { } k = k ( ) pˆ k ( ) k tý odhad hustoty ( ) X I. Mázová: ATNS (NAIL03) p

Bayesovo ozhodovací pavdlo (0) Obecný algotmus odhadu paametů učením: ( 0 START: Zst c, počáteční odhad ) pˆ ( ω ), anulu Pˆ ( ω ), k := 0 ; ITERACE: k := k + Přečt a Ω = ω z T ; Zkogu pˆ ω ; Pˆ ω : Pˆ ω + PODMÍNKA: Je na vstupu další dvoce z T? STOP: ANO: Poveď teac NE: Pˆ ω Vypš STOP : = Pˆ ω pˆ ω ( ) ( ) ( ) ; ( ) ( ) K ; =, K c, = ( ) ; Pˆ ( ω ) ; =, K c, I. Mázová: ATNS (NAIL03) 2

Bayesovo ozhodovací pavdlo () Odhad aponí pavděpodobnost P : Pˆ ( ω ) = K K K K počet vzoů ve třídě celkový počet vzoů z T p ( ω ) β α p ( ω ) 2 ( ) ω ω ˆ = ( ) ω 2 ω ˆ = Střední ztáta e úměná plochám α, β I. Mázová: ATNS (NAIL03) 3

Rozhodovací pavdlo neblžšího souseda Dána množna S n, = ϑ, K, n, ϑ n nezávslých náhodných velčn ϑ někteé z c tříd ω,, ω c ϑ třída, ke kteé vzo skutečně patří Klasfkace nového vzou S : Učt eho neblžšího souseda Zařadt do třídy ϑ odpovídaící {( ) ( )} n S n I. Mázová: ATNS (NAIL03) 4

Rozhodovací pavdlo neblžšího souseda (2) Odhad ωˆ neznámé třídy ω vzou : ω = ϑ, estlže δ, = mn δ, n =,..., n δ metka v příznakovém postou ˆ ( ) ( ) -NNR, k-nnr Konvegence neblžšího souseda k S n dost velká, ( ) ( ) n p spotéa p > 0 n podle pavděpodobnost ( ) ( ) n p ω ( ) spoté P ω n P ω n podle pavděpodobnost I. Mázová: ATNS (NAIL03) 5 n

I. Mázová: ATNS (NAIL03) 6 Rozhodovací pavdlo neblžšího souseda (3) Dále předpoklad: Podmínky konvegence splněny, nezávslé Lbovolně velká S n (n ), Podmíněná pavděpodobnost chyby -NNR: ( ) { } { } { } ( ) ( ) [ ] = = = = = = = n n n n P P P e η η ω ϑ ω ω ω ϑ ω ω,, n K,,, ( ) ( ) P η ω

n Rozhodovací pavdlo neblžšího souseda (4) : e ( ) = lm e ( ) = ( ), n η n Mía chyby -NNR, E : E = E { e ( )} e (, ) omezena: n E c = 2 < η lm n, { } = E e ( ) lm, n n ( ) η ( ) p ( ) d E I. Mázová: ATNS (NAIL03) 7 n 2

Rozhodovací pavdlo neblžšího souseda (5) Poovnání míy chyby k-nnr, E k, s Bayesovskou, E*: Je-l poslední neblžší soused sudého řádu, nepřspívá žádnou dodatečnou nfomací ke klasfkac: E 2k - = E 2k k ; E* E k- Posloupnost honích mezí po E*: E* E 2k +2 = E 2k + E 2k = E 2k - E 2 = E 2E* Dolní mez po E*: E k E* + E / k π => konvegence E k k E* I. Mázová: ATNS (NAIL03) 8

Rozhodovací pavdlo neblžšího souseda (6) Redukce počtu vzoů v S n : Výběem epezentatvní podmnožny Klasfkace pomocí edukované množny e s pavděpodobností blízkou steně dobá ako pomocí celé množny I. Mázová: ATNS (NAIL03) 9

Rozhodovací pavdlo neblžšího souseda (7) Edtační algotmus: 2 třídy, k lché, S n ozdělena do 2 nezávslých podmnožn S n a S n ; n + n = n a 0 << n / n << Kok : Klasfkace vzoů z S n pomocí k NNR a ténovací množny S n Kok 2: Vyřazení všech vzoů z S n, kteé byly v Koku klasfkovány chybně. Nově vznklá podmnožna bude označena S n Následná klasfkace pomocí NNR a S n (kvas Bayesovsky optmální po malou pavděpodobnost chyby) I. Mázová: ATNS (NAIL03) 20

Rozhodovací pavdlo neblžšího souseda (8) Opakované edtování: Kok : Dfuze ~ náhodně ozděl S do N podmnožn S,, S N ; N 3 Kok 2: Klasfkace ~ klasfku vzoy z S pomocí NNR a ténovací množny S S(+) mod N ; =,,N Kok 3: Edtování ~ vyřaď všechny vzoy chybně klasfkované v Koku 2 Kok 4: Konfuze ~ ze zbylých vzoů vytvoř novou S I. Mázová: ATNS (NAIL03) 2

Rozhodovací pavdlo neblžšího souseda (9) Opakované edtování (pokačování): Kok 5: Ukončení Pokud během posledních I teací nebyl vyřazen žádný vzo STOP Jnak před ke Koku Následná klasfkace nových vzoů pomocí NNR a výsledné ténovací množny S Statstcká nezávslost vzoů Asymptotcky Bayesovsky optmální I. Mázová: ATNS (NAIL03) 22

Rozhodovací pavdlo neblžšího souseda (0) Elmnace vzoů, kteé nepřspívaí k defnc dělcí nadplochy: ~ vybat co nemenší podmnožnu ténovací množny tak, aby -NNR pomocí vybané podmnožny spávně klasfkoval zbylé vzoy z ténovací množny 2 zásobníky: SKLAD a PYTEL pvní vzo nechť e v zásobníku SKLAD n P ~ aktuální počet vzoů v zásobníku PYTEL př každém vstupu algotmu na Kok I. Mázová: ATNS (NAIL03) 23

Rozhodovací pavdlo neblžšího souseda () Kondenzační algotmus: Kok : Klasfku -tý vzo ze zásobníku PYTEL pomocí -NNR a aktuálního zásobníku SKLAD Je-l vzo klasfkován spávně, vať ho do zásobníku PYTEL Jnak ho ulož do zásobníku SKLAD Opaku opeace po =,,n P Kok 2: Pokud byl Kok poveden bez přesunu ze zásobníku PYTEL do zásobníku SKLAD nebo e PYTEL pázdný STOP Jnak před ke Koku I. Mázová: ATNS (NAIL03) 24

Dynamcké shlukování Poblém: Rozdělení ténovací množny Y = { y do c shluků Γ k ; k =,, c epezentovaných střední hodnotou m k ; =, K, n} n k ~počet pvků k-tého shluku n k m k = y ; y Γ k n k = mía podobnost mez vzoem y Γ k a představtelem shluku Γ k : δ y, m < δ y, m l E ( ) ( ) k k E l I. Mázová: ATNS (NAIL03) 25

Dynamcké shlukování (2) Cíl: Nalézt mez všem možným ozdělením Γ c c Γ = Γ = I Γ = {} U ;, K, c ; ; Γ = Y = = množny Y do c shluků takové, kteé mnmalzue funkc shlukovacího ktéa J(Γ) = { } ( ; =, K, c optmální J Γ ) = mn J ( Γ ) Y c n ( ) 2 J Γ = δ ( ) ( ) E y, m = J Γ ; y Γ = = c = I. Mázová: ATNS (NAIL03) 26 Γ

Dynamcké shlukování (3) Přemístění vzou y ze shluku Γ k do Γ : pokles hodnoty ktéa J(Γ) <=> n n + δ 2 E ( ) k 2 y, m < δ ( y, m ) ~ e-l y blíž k m než k n n k m k E k I. Mázová: ATNS (NAIL03) 27

Dynamcké shlukování (4) c-půměová metoda (k-means algotmus): Incalzace: Ténovací množnu Y lbovolně ozděl do c shluků Γ ; c Uč střední hodnoty příslušných shluků Γ ; c Kok : y m Y; zařaď do Γ, estlže δ E y, m = mn δ m k ( ) ( y, m ) Kok 2: Aktualzu ; c nastala změna středních hodnot? ANO: před na Kok NE: STOP y E k I. Mázová: ATNS (NAIL03) 28

Dynamcké shlukování (5) Infomace o stuktuře shluku: shluk Γ epezentován ádem K =, V ~ množna paametů defnuících K ( Δ y, K ) ~ mía podobnost vektou y a shluku Γ (epezentovaného ádem K ) => KRITÉRIUM: J ( Γ ) = Δ ( y ), K c n = = ( y ) V I. Mázová: ATNS (NAIL03) 29

Dynamcké shlukování (6) Dynamcký shlukovací algotmus: Incalzace: Ténovací množnu Y lbovolně ozděl do c shluků Γ ; c Uč áda K příslušných shluků Γ ; c y Y y ( ) ( K ) Kok : ; zařaď do Γ, estlže Δ y, K = mn Δ y, Kok 2: Aktualzu K ; c došlo ke změně K? ANO: před ke Koku NE: STOP k k I. Mázová: ATNS (NAIL03) 30

Dynamcké shlukování (7) Dynamcký shlukovací algotmus (pokačování): Konvegence algotmu za podmínky: J(Γ, K ) J (Γ, K ), estlže J(Γ, K ) J (Γ, K) J(Γ, K) hodnota funkce ktéa J(Γ) odpovídaící množně ade K = { K ; =,,c } Γ, Γ ozdělení ténovací množny Y získané př klasfkac pvků z Y pomocí množny ade K, esp. K K množna aktualzovaných ade K = { K ; =,,c } I. Mázová: ATNS (NAIL03) 3

Dynamcké shlukování (8) Dynamcké shlukovací metody sou obecně výpočetně velm výkonné a ataktvní po užvatele Nedostatky: zvolený model en zřídka odpovídá skutečné stochastcké stuktuře dat nežádoucí shlukování analýza dat pomocí co nevětšího počtu lbovolně zvolených ade a následná volba optmálního řešení úlohy Metody shlukové analýzy sou vhodné především ako postředek poskytuící nezávslou nfomac o stuktuře dat I. Mázová: ATNS (NAIL03) 32

Heachcké shlukování Na každém stupn shlukovacího pocesu splynutí dvou navzáem s nepodobněších shluků Na začátku e každý vzo z ténovací množny považován za samostatný shluk Na každém dalším stupn vytvoří dva navzáem s nepodobněší shluky eden shluk Poces plývání pokačue v následných stupních shlukové analýzy přtom se v každém stupn počet shluků sníží o Shlukovací pocedua končí, když sou všechny vzoy zařazeny do ednoho shluku I. Mázová: ATNS (NAIL03) 33

Heachcké shlukování (2) Mía podobnost Δ (Γ, Γ ) umožňue vyádřt vzáemný vztah shluků Nevíc užívané míy podobnost po heachcké shlukování sou defnovány vzdálenostm mez body v obazovém postou: Neblžší soused: ( ) Δ Γ, Γ = mn δ ( y, y ) y Γ, y Γ Nevzdáleněší soused: Δ Γ, Γ = ma δ y y Střed: Δ δ ( Γ, Γ ) = δ ( m m ) y, ( v ) ( ) ( ),, y Γ, y Γ e něaká metka I. Mázová: ATNS (NAIL03) 34

Heachcké shlukování (3) Heachcký shlukovací algotmus: Incalzace: Polož Γ = y Kok : Nad mez { Γ ; I } takovou dvoc shluků Γ, Γ k, aby: Δ Γ, Γ = mn Δ Γ, Γ Kok 2: Spo Γ s Γ k a vymaž Γ., y I, kde I = K Kok 3: Odstaň z množny ndeů I. Je-l kadnalta I dvě, ukonč algotmus. V opačném případě před ke Koku 2. { ; =,, n} ( ) ( ) k, l I l I. Mázová: ATNS (NAIL03) 35

Heachcké shlukování (4) Dendogam algotmus: Gafcké znázonění heachcké stuktuy shluků vytvořených heachckým shlukovacím algotmem (lustue posloupnost splývání shluků a odpovídaící hodnoty míy podobnost) Po lbovolný páh míy podobnost dostáváme shluky, echž podshluky maí míu podobnost ovnu přnemenším té pahové Volba pahové hodnoty: tak, aby ozptyl mez shluky byl podstatně větší než ozptyl uvntř shluků I. Mázová: ATNS (NAIL03) 36

Heachcké shlukování (5) Výsledky shlukové analýzy: Vlv mnoha faktoů: Mía podobnost: Neblžší soused: - spoování dvou ůzných kompaktních shluků Nevzdáleněší soused: - ctlvý na body vzdálené od centa shluku neschopnost detekovat potáhlé shluky Měřítko na osách, použtá metka, shlukovací ktéum, počet vzoů v analyzované množně, I. Mázová: ATNS (NAIL03) 37

Automatcká detekce shluků Cíl: Nalézt předem neznámé podobnost v datech! Vytvořt modely ozpoznávaící navzáem podobné vzoy Vhodné po počáteční analýzu dat Samooganzace - učení bez učtele I. Mázová: ATNS (NAIL03) 38

Ekonomky seskupené podle svých výsledků pata kupní síly hubý náodní podukt I. Mázová: ATNS (NAIL03) 39 ůst HDP

Analýza dat ze Světové banky: klastování podle fuzzy c-středů (fuzzy c-means clusteng)

FCM-klastování: úvod WDI-ndkátoy (ndkátoy vývoe ve světě) každoočně zveřeňovány Světovou bankou odážeí stav vývoe a pokoku v ednotlvých zemích neúplné a nepřesné údae (dříve) používané technky egesní analýza - lneání závslost kategozace států používaná v ozvnutých zemích(g. Ip, Wall Steet Jounal) kategozace zemí podle HDP (Světová banka) Kohonenovy mapy (T. Kohonen, S. Kask, G. Deboeck) I. Mázová: ATNS (NAIL03) 4

Mapa chudoby - T. Kohonen převzato z T. Kohonen: Self-Oganzng Maps, 3-d Edton, Spnge-Velag, 200 více neuonů než zemí význam maí en lokální geometcké vztahy státům zobazeným blízko u sebe odpovídá podobný stav vývoe I. Mázová: ATNS (NAIL03) 42

Mapa chudoby - T. Kohonen, S. Kask převzato z T. Kohonen: Self-Oganzng Maps, 3-d Edton, Spnge-Velag, 200 U-matce: znázonění hanc mez shluky vyadřue půměnou vzdálenost mez sousedním neuony pomocí ůzných úovní šed malá půměná vzdálenost světlý odstín velká pům. vzdálenost tmavý odstín I. Mázová: ATNS (NAIL03) 43

Náš cíl Efektvně klastovat nepřesná data Odhadnout počet shluků Vzualzovat výsledky Intepetovat výsledky I. Mázová: ATNS (NAIL03) 44

Náš cíl Efektvně klastovat nepřesná data Odhadnout počet shluků Vzualzovat výsledky Intepetovat výsledky fuzzy c - means shlukování (FCM) ndkátoy po valdtu klastů fomou spead-sheetu nalezení landmaks I. Mázová: ATNS (NAIL03) 45

Cílová funkce Odpovídá vážené vzdálenost mez vstupním vzoy a centy shluků: J s ( U, v ) fuzzyfkační paamet P c n = s ( u p ) p = = = stupeň členství stupněčlenstvímez0 a : 0 u p celkové členství vzou odpovídá : p shluky nesou pázdné an plné: ( p střed shluku v ) 2 vstupní vzo c = u p 0 < u < p = p P = P I. Mázová: ATNS (NAIL03) 46

I. Mázová: ATNS (NAIL03) 47 Fuzzy c-means shlukování (FCM) Kok : Incalzace c, s, ε a t. Zvolte náhodně. Kok 2: Učete nová centa fuzzy shluků: Kok 3: Vypočítete novou členskou matc : Kok 4: Vyhodnoťte Jestlže Δ > ε potom nahaďte t = t + a předěte ke Koku 2. Jestlže Δ ε potom Stop. KONEC FCM (0) U ) ( ) (, ) ( ) ( ma t p t p p t t u u U U = = Δ + + p s p t p p s t p t u u v = ) ( ) ( ) ( ) ( ) ( = + = c k s t k p s t p t p v v u / 2 ) ( / 2 ) ( ) ( ) / ( ) / ( ( +) t U

Ktéa po valdtu klastů Koefcent členské funkce: F ( U ; c ) = P Entope členské funkce: H ( U ; c ) = P Wndhamův popoční eponent: W ( U ; c) = P p = ln P c p = = P c μ p = = p = ( ) ( u p ) 2 u p ln( u + vzoy c shluky p ) ( μ ) ; u ln( u ) 0 fo u = 0. p stupeň členství p c = p I. Mázová: ATNS (NAIL03) 48 p ; μp = ma c { u } p

Kolk shluků? Koefcent členské funkce : ma c P Entope členské funkce: mn c P { ma [ F ( U ; ) ] } 2 U c { mn [ H ( U ; ) ] } 2 U c Wndhamůvpopoční eponent: ma c P pattons { ma [ W ( U ; ) ] } 2 U c clustes I. Mázová: ATNS (NAIL03) 49

Epementy - umělá data Indkátoy valdty shluků po umělá data Fuzzy 4-ozčlenění vzoů 2 vstupních vzoů, s =.4, ε = 0.05 odpovídá centeům shluků, vzoy ze stených shluků sou označeny steně I. Mázová: ATNS (NAIL03) 50

Epementy - umělá data Fuzzy 6-ozčlenění vzoů Fuzzy 8-ozčlenění vzoů odpovídá centeům shluků, vzoy ze stených shluků sou označeny steně odpovídá centeům shluků, vzoy ze stených shluků sou označeny steně I. Mázová: ATNS (NAIL03) 5

Intepetace výsledků! Chaactestcké vlastnost nalezených shluků: centa shluků - fktvní vzoy mmo předkládaná data kalbace shluků neepezentatvněším vzoy z ténovací množny - chaaktezace podle edného vzou Učt význačné vlastnost shluků: vzhledem k dalším vlastnostem příslušného shluku vzhledem k chaaktestckým vlastnostem ostatních shluků výmka: oblast u hanc fuzzy c-landmaks I. Mázová: ATNS (NAIL03) 52

Automatcký výbě landmaks * Fuzzy c-landmak po shluk : fuzzy vzdálenost od centa shluku by měla být malá fuzzy vzdálenost od všech ostatních cente shluků by měla být velká vstupní vzoy P * = ag mn vstupy n shluky mn p = c * u s * p P p = P p = u u p s * p s * p P p = v u p * s * p v ( *, ) * * I. Mázová: ATNS (NAIL03) 53 v centa shluků stupeň členství

Epementy: data ze Světové banky 99 států se 6 WDI-ndkátoy po každý z nch economcký a socální potencal zemí a ech obyvatel všechny ndkátoy sou elatvní vzhledem k velkost populace po složkách tansfomace vzoů do ntevalu (0,) pomocí: = ma mn mn volba dalších paametů (k=4; s=.4; ε=0.05) a = k ( / 2 ) mnmum přes všechny vzoy mamum přes všechny vzoy I. Mázová: ATNS (NAIL03) 54 + e

Použté WDI-ndkátoy HNP na obyvatele Pata kupní síly Růst HDP na obyvatele Implctní deflace HDP Vněší zadluženost (% HNP) Celkvé náklady na zadlužení (% z epotu zboží a služeb) Epot hgh-tech technologí (% z vyvážených výobků) Výdae na amádu a zboení (% HNP) Výdae na výzk. a výv. (% HNP) Celk. výd. na zdav. (% HDP) Veř. výd. na školství (% HNP) Očekávaná délka žvota u mužů Plodnost GINI-nde (ozdělení přímů a spotřeby) Užv. ntenetu na 0000 obyvatel Počet moblních telefonů na 000 obyvatel I. Mázová: ATNS (NAIL03) 55

Epementy: data ze Světové banky Indkátoy valdty shluků po data ze SB Indkátoy valdty shluků po data ze SB 99 zemí se 6 ndkátoy s =., ε = 0.05 99 zemí se 6 ndkátoy s =.4, ε = 0.05 I. Mázová: ATNS (NAIL03) 56

Fuzzy 7-ozčlenění dat ze SB Ukázka fuzzy 7-ozčlenění dat ze Světové banky: 99 zemí se 6 ndkátoy; s =.4, ε = 0.05 I. Mázová: ATNS (NAIL03) 57

Landmaks po data ze SB Repezentatvní vzoy a fuzzy 7-landmaks po data ze Světové banky: 99 zemí se 6 ndkátoy; s =.4, ε = 0.05 I. Mázová: ATNS (NAIL03) 58

FCM-klastování: závě FCM-klastování efektvta a ktéa po valdtu shluků volba fuzzfkačního paametu kategozace a ozdělení ekonomk států (Wold Bank, Ip, Kohonen, Deboeck) Vzualzace hodnoty členské funkce topologcké vztahy Landmaks a ntepetace výsledků fomulace ktéí po vymezení tříd I. Mázová: ATNS (NAIL03) 59