Shluková analýza, Hierarchické, Nehierarchické, Optimum, Dodatek. Učení bez učitele

Podobné dokumenty
MULTIKRITERIÁLNÍ ROZHODOVÁNÍ VEKTOROVÁ OPTIMALIZACE

Obsah přednášky. 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacking 5. Boosting 6. Shrnutí

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Vícerozměrné statistické metody

(iv) D - vybíráme 2 koule a ty mají různou barvu.

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Státnice odborné č. 20

Shluková analýza dat a stanovení počtu shluků

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Příklady: - počet členů dané domácnosti - počet zákazníků ve frontě - počet pokusů do padnutí čísla šest - životnost televizoru - věk člověka

MĚŘENÍ MOMENTU SETRVAČNOSTI Z DOBY KYVU

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

NADSTAVBOVÝ MODUL MOHSA V1

( ) Příklady na otočení. Předpoklady: Př. 1: Je dána kružnice k ( S ;5cm)

9 Stupně vrcholů, Věta Havla-Hakimiho

NUMP403 (Pravděpodobnost a Matematická statistika I)

Shluková analýza. 1 Úvod Formulace úlohy Typy metod shlukové analýzy... 2

Geometrická zobrazení

PRAVDĚPODOBNOST A STATISTIKA

Přednáška 13 Redukce dimenzionality

PRAVDĚPODOBNOST A STATISTIKA

Klasifikace a rozpoznávání. Umělé neuronové sítě a Support Vector Machines

7.3.9 Směrnicový tvar rovnice přímky

Základním pojmem v kombinatorice je pojem (k-prvková) skupina, nebo také k-tice prvků, kde k je přirozené číslo.

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

1.5.7 Prvočísla a složená čísla

7.3.9 Směrnicový tvar rovnice přímky

4. Přednáška: Kvazi-Newtonovské metody:

= je prostý orientovaný graf., formálně c ( u, v) 0. dva speciální uzly: zdrojový uzel s a cílový uzel t. Dále budeme bez

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

G( x) %, ν%, λ. x, x, N, N nezáporné přídatné proměnné, ( ) 2 Matematické programování

- Pokud máme na množině V zvoleno pevné očíslování vrcholů, můžeme váhovou funkci jednoznačně popsat. Symbolem ( i)

Reciprokou funkci znáte ze základní školy pod označením nepřímá úměra.

Vzdálenost uzlů v neorientovaném grafu

Cvičná bakalářská zkouška, 1. varianta

Rosenblattův perceptron

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Buckinghamův Π-teorém (viz Barenblatt, Scaling, 2003)

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

4EK311 Operační výzkum. 5. Teorie grafů

2 IDENTIFIKACE H-MATICE POPISUJÍCÍ VEDENÍ Z NAMĚŘENÝCH HODNOT

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Úvod do teorie grafů

UČENÍ BEZ UČITELE. Václav Hlaváč

(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností

APLIKACE NÁSTROJE PASW SPSS 18.0 BASE V TRŽNÍ

VÍCEKRITERIÁLNÍ ROZHODOVANÍ

KGG/STG Statistika pro geografy

Shlukování. Zpracováno s využitím skvělého tutoriálu autorů Eamonn Keogh, Ziv Bar-Joseph a Andrew Moore

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

PRAVDĚPODOBNOST A STATISTIKA

oddělení Inteligentní Datové Analýzy (IDA)

IV. Základní pojmy matematické analýzy IV.1. Rozšíření množiny reálných čísel

FUNKCE POJEM, VLASTNOSTI, GRAF

Materiál byl vytvořen v rámci projektu Nové výzvy, nové příležitosti, nová škola

Neuronové časové řady (ANN-TS)

Použitelnost. Obvyklé mezní stavy použitelnosti betonových konstrukcí podle EC2: mezní stav omezení napětí, mezní stav trhlin, mezní stav přetvoření.

Základním pojmem v kombinatorice je pojem (k-prvková) skupina, nebo také k-tice prvků, kde k je přirozené číslo.

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Úvod do Kalmanova filtru

Metody síťové analýzy

Kybernetika a umělá inteligence, cvičení 10/11

Regresní a korelační analýza

Algoritmizace prostorových úloh

Fakulta Elektrotechniky a Informatiky. Katedra Informatiky Martin Hynar

Vliv marketingového dotazování na identifikaci tržních segmentů

6 5 = 0, = 0, = 0, = 0, 0032

P. Rozhodni, zda bod P leží uvnitř, vně nebo na kružnici k. Pokud existují, najdi tečny kružnice procházející bodem P.

OPTIMALIZACE. (přehled metod)

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Řízení projektů. Konstrukce síťového grafu pro řízení projektů Metoda CPM Metoda PERT

1. července 2010

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

odlehlých hodnot pomocí algoritmu k-means

Regresní a korelační analýza

Regulační diagramy (RD)

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

ANALÝZA A KLASIFIKACE DAT

STATISTICKÉ CHARAKTERISTIKY

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

1 Seznamová barevnost úplných bipartitních

Metoda konjugovaných gradientů

Opakování k maturitě matematika 4. roč. STR 2 <

MATEMATIKA. O paradoxech spojených s losováním koulí

Statistická analýza dat

Regresní a korelační analýza

Úvod do mobilní robotiky AIL028

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Motivace. Náhodný pokus, náhodný n jev. pravděpodobnost. podobnostní charakteristiky diagnostických testů, Bayesův vzorec. Prof.RND. RND.

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Jednofaktorová analýza rozptylu

χ 2 testy. Test nekorelovanosti.

Konstrukce trojúhelníků II

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

3.3.4 Thaletova věta. Předpoklady:

Návrh Designu: Radek Mařík

Transkript:

1

Obsah přednášy 1. Shluová analýza 2. Podobnost objetů 3. Hierarchicé shluování 4. Nehierarchicé shluování 5. Optimální počet shluů 6. Další metody 2

Učení bez učitele není dána výstupní lasifiace (veličina G) cíl: vytvoření shluů, tedy nalezení taových supin záznamů, teré jsou si navzájem podobnější než záznamy ostatní cíl: určení (vytvoření) výstupního vetoru G apliace: analýza DNA (hledání charateristicých sevencí); analýza trhu, rozpoznání nových segmentů; analýza obrazu rozpoznání hran a objetů; web-mining rozlišování různých typů doumentů; bezdrátová omuniace nalezení center supin čidel záladní metody jsou shluová analýza a asociační pravidla 3

Formulace úlohy je množina N objetů. Rozlad ={C 1,C 2,,C m } množiny je množina disjuntních, neprázdných podmnožin, teré dohromady tvoří. Pro ij: C C C C... C i j 0 1 2 m aždá množina C i se nazývá mponentou rozladu shluování je pa taový rozlad množiny, terý maximalizuje vzájemnou mezishluovou nepodobnost (nebo minimalizuje podobnost) 4

Metody a nástroje shluová analýza hierarchicá vs. nehierarchicá hierarchicá systém navzájem různých neprázdných podmnožin, přičemž průni libovolných dvou podmnožin je jedna z nich nebo množina prázdná v systému existuje alespoň jedna dvojice podmnožin, jejíž průni je jedna z těchto množin graf (binární strom) znázorňující hierarchicé shluování se nazývá dendrogram nehierarchicá různé neprázdné podmnožiny s prázdným průniem? ja se dělí medoty shluování 5

Vzdálenost mezi instancemi, metria Normalizace veličin aby byly vstupní veličiny souměřitelné, jsou normalizovány typicou normalizací je standardizované normální rozložení se střední hodnotou 0 a rozptylem 1 (ze z na x) z j 1 N Metriy Minowsého (p-norma) Manhattansá (též City bloc) Eulidovsá Hammingova N i1 z ij s j 1 N N i1 z ij z d p j 2 x 1 2 x ij z ij z n 1/ p p, y xi yi i1 s j j? z jaého důvodu se prování normalizace veličin 6

Vzdálenost mezi shluy Hierarchicé metody shluování dle metriy určující vzdálenost mezi dvěma shluy metoda průměrová (průměr ze všech vzájemných dvojic) metoda centroidní (vzdálenost aritmeticých průměrů prvů z aždého shluu) metoda nejbližšího souseda (dva nejbližší z obou shluů) metoda nejvzdálenějšího souseda (2 nejvzdálenější ze shluů) metoda mediánová (vzdálenost středního z prvů obou shluů) 7

Hierarchicé metody - princip Dělení podle postupu tvorby aglomerativní (od jednotlivých prvů=shluů postupným slučováním až jednomu shluu) divizní (na počátu jeden velý shlu, postupný rozlad až po jednotlivé prvy, jen první dělení 2 N-1-1 možností) dendrogram binární strom znázorňující hierarchicé shluování; aždý uzel představuje shlu; řezy stromu představují jednotlivé rozlady Co je to dendrogram? Co je divizní shluování, jaou má nevýhodu? 8

Hierarchicé metody - vlastnosti při opaovaném pousu nachází stejné řešení schopnost sledovat i linii, nejen podobu co do oblastí (závisí na typu metriy měřící vzájemnou vzdálenost shluů) výstupem je dendrogram aglomertaivní metoda jednoduchý algoritmus Jsou hierarchicé metody deterministicé nebo stochasticé? 9

Hierarchicé metody - algoritmus Aglomerativní metoda nultý rozlad, aždý jednotlivý prve je považován za samostatný shlu v i-tém rou najdeme taovou dvojici shluů, jejíž vzdálenost je nejmenší (nepodobnost je nejmenší) a tyto shluy sjednotíme v posledním rou jsou shluy spojeny a vzniá jeden shlu odpovídající celé definiční množině 10

Hierarchicé metody (centroidní) přílad 1 11

Hierarchicé metody přílad 1 12

Hierarchicé metody přílad 1 13

Hierarchicé metody (nejbližší s.) přílad 2 14

Hierarchicé metody přílad 2 15

Hierarchicé metody přílad 2 16

Hierarchicé metody (NS,C) přílad 3 17

Hierarchicé metody přílad 3 18

Hierarchicé metody přílad 3 19

K-means vlastnosti při vytváření malého počtu shluů z velého počtu dat pro data vantitativní bez odlehlých hodnot (je třeba normalizovat jednotlivé veličiny) poaždé vede jinému řešení rychle iteruje i při velém počtu dat, nalezení zpravidla loálního optima vhodné pro větší počet dat Je metoda K-means deterministicá? 20

K-means princip dáno: data X, počet shluů K (cíleně, náhodně, heuristiy) cíl: nalezení K shluů ta, že mezishluová suma čtverců bude minimalizována princip určení počátečních K charateristicých vetorů μ v cylu opauj: podle charateristcého vetoru μ přiřaď všem bodům jejich třídu spočítej z bodů jednoho shluu jejich nový charateristicý vetor μ podle těžiště nebo průměru uončovací podmína: onec, poud 1 (nebo 2) nová iterace nezpůsobí změnu lasifiace ani jednoho z prvů 21

K-means algoritmus K shluů, vstupní data x 1,,x N 1. Počáteční určení K center (náhodné, apriorní znalost, těžiště všech bodů a extrémy, atd.) μ j 2. Klasifiuj do tříd C 1,,C K podle minima eulidovsé vzdálenosti od vetoru μ j 3. Opauj v cylu - aždému prvu x i je přiřazena lasifiace g i - přepočítej vetory μ j g i arg min j 1,..., K x i j j N 1 xi, gi C C i1 0, gi C j j j 22

K-means přílad 23

K-means přílad 1 (náhodné rozdělení) 24

K-means přílad 1 (náhodné rozdělení) 25

K-means přílad 2 26

K-means přílad 2 27

K-means přílad 3 28

K-means přílad 3 29

Srovnání hierarchicé a nehierarchicé metody 30

Optimální počet shluů Ja určit optimální počet shluů? souvisí s mírou separability (preprocessing) mělo by rozlišit více a méně podobné shluy Řada otáze má záležet na počtu prvů ve shluu? má být závislé na tvaru? má být závislé na prostoru, terý shlu zabírá? má být citlivé na outliers? 31

Absolutní srovnání Optimální počet shluů srovnávají se přímo hodnoty indexů pro onrétní, předem dané počty shluů (typicé pro -means metody) Calinsi and Harabasz procento proměnlivosti Davies-Bouldin Index Diferenční srovnání srovnávají se diference indiátoru při rostoucím počtu shluů Hartigan Krzanowsi and Lai V čem spočívá princip absolutních metod pro srovnání různých rozladů? 32

Calinsého a Harabaszova metoda 1/3 Je dána poměrem mezisupinové a vnitrosupinové čtvercové vzdálenosti Vnitrosupinová čtvercová vzdálenost pro shluů (within-clustr sum of squares): W r1 ic r x i x C r 2 de x C r je průměr prvů ve shluu C r je počet shluů 33

34 Calinsého a Harabaszova metoda 2/3 Mezisupinová čtvercová vzdálenost pro shluů (between-clustr sum of squares): je průměr prvů ve shluu C r je počet shluů Míra separability shluů (čím větší, tím lepší) jest: r C r x x C B r 1 2 x C r 1 / 1 / N W B N W B I CH Shluová analýza, Hierarchicé, Nehierarchicé, Optimum, Dodate

Calinsého a Harabaszova metoda 3/3 http://www.mathwors.com/help/stats/clustering.evaluation.calinsiharabaszevaluationclass.html http://businessforecastblog.com/wp-content/uploads/2012/10/ncluster2.png a) Maximální hodnota pro =3, v datech se nacházejí 3 lastry b) Maximální hodnota pro =N (počet prvů), stanovení počtu shluů není jednoznačné 35

Procento proměnlivosti PV Využívá mezishluové sumy čtverců WSS vypočtené z vnitrosupinové vzdálenosti W N je počet prvů m je počet veličin popisujících prve (dimenze, počet znaů) je počet shluů WSS Nm Nm m W r r1 Procento proměnlivosti (100% pro =1, 0% pro =N) PV WSS 100% WSS 1 36

Davies-Bouldinův index Průměrná vzdálenost uvnitř shluu i jc i d x C C j i i, x C i Vzdálenost mezi dvěma shluy ij d x, x C i C j Výsledný index (čím je menší, tím lepší separabilita) I DB 1 i1 i max ji ij j x C ije průměr prvů ve shluu C i a je j-tý prve ve shluu C i je počet shluů d(x,y) je vzdálenost mezi prvy x a y x j C i 37

Davies-Bouldinův index http://www.mathwors.com/help/stats/clustering.evaluation.daviesbouldinevaluationclass.html http://lin.springer.com/article/10.1007%2fs11517-009-0561-x/fulltext.html Každý navržený shlu je charaterizován svou nejhorší rozlišitelností vůči ostatním navrženým shluům ( max v definici indexu). Průměr těchto nejhorších případů pa definuje index samotný. Minimum indexu určuje odhad nejvhodnějšího počtu shluů. 38

39 Diferenční indexy Hartiganův index Krzanowsi and Lai 1) ( 1 ) ( 1 n W W H Shluová analýza, Hierarchicé, Nehierarchicé, Optimum, Dodate 1 2/ 2/ 2/ 1 2/ 1) ( 1) ( ) ( p p p p W W W W KL

Dodate Metody měnící počty shluů MacQueen se dvěma parametry Wishartova metoda RELOC (4 parametry) Metoda ISODATA (2 parametry) 40