Miroslav Čepek

Podobné dokumenty
Státnice odborné č. 20

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

UČENÍ BEZ UČITELE. Václav Hlaváč

Přednáška 13 Redukce dimenzionality

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Vícerozměrné statistické metody

Přednáška 12: Shlukování

Miroslav Čepek

Základy vytěžování dat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Vícerozměrné statistické metody

Shluková analýza dat a stanovení počtu shluků

Vytěžování znalostí z dat

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Úvodem Dříve les než stromy 3 Operace s maticemi

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

Snow White and seven dwarfs

4. NP-úplné (NPC) a NP-těžké (NPH) problémy

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Úloha - rozpoznávání číslic

oddělení Inteligentní Datové Analýzy (IDA)

Metody založené na analogii

Algoritmy pro shlukování prostorových dat

Modifikace algoritmu FEKM

Cvičná bakalářská zkouška, 1. varianta

2.7.6 Rovnice vyšších řádů (separace kořenů)

10. N á h o d n ý v e k t o r

Aplikovaná numerická matematika

Metody analýzy dat II

Algoritmy a struktury neuropočítačů ASN P3

i=1 Přímka a úsečka. Body, které leží na přímce procházející body a a b můžeme zapsat pomocí parametrické rovnice

Úvod do optimalizace, metody hladké optimalizace

3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA

VLASTNOSTI GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze. BI-GRA, LS 2010/2011, Lekce 5

Kybernetika a umělá inteligence, cvičení 10/11

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

Kartografické modelování. VIII Modelování vzdálenosti

Základy vytěžování dat

MULTIKRITERIÁLNÍ ROZHODOVÁNÍ KOMPLEXNÍ HODNOCENÍ ALTERNATIV

Dynamické programování

Hledáme lokální extrémy funkce vzhledem k množině, která je popsána jednou či několika rovnicemi, vazebními podmínkami. Pokud jsou podmínky

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Skalární součin dovoluje zavedení metriky v afinním bodovém prostoru, tj. umožňuje nám určovat vzdálenosti, odchylky, obsahy a objemy.

StatSoft Shlukování podobných

KVADRATICKÁ FUNKCE URČENÍ KVADRATICKÉ FUNKCE Z PŘEDPISU FUNKCE

HEURISTICKÉ ALGORITMY PRO ŘEŠENÍ ÚLOH OBCHODNÍHO CESTUJÍCÍHO

Shlukování. Zpracováno s využitím skvělého tutoriálu autorů Eamonn Keogh, Ziv Bar-Joseph a Andrew Moore

ANALYTICKÁ GEOMETRIE LINEÁRNÍCH ÚTVARŮ V ROVINĚ

NADSTAVBOVÝ MODUL MOHSA V1

= je prostý orientovaný graf., formálně c ( u, v) 0. dva speciální uzly: zdrojový uzel s a cílový uzel t. Dále budeme bez

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Katedra kybernetiky, FEL, ČVUT v Praze.

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Pravděpodobnost, náhoda, kostky

Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )

APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

Pravděpodobnost, náhoda, kostky

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Základy popisné statistiky

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Instance based learning

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Univerzita Pardubice 8. licenční studium chemometrie

Základní datové struktury III: Stromy, haldy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Úvod do teorie her

Poznámky k předmětu Aplikovaná statistika, 4. téma

Definice globální minimum (absolutní minimum) v bodě A D f, jestliže X D f

Poznámky k předmětu Aplikovaná statistika, 4. téma

6. Základy výpočetní geometrie

Integrace. Numerické metody 7. května FJFI ČVUT v Praze

Detekce kartografického zobrazení z množiny


9. listopadu Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

LDA, logistická regrese

Odhady - Sdružené rozdělení pravděpodobnosti

Algoritmus pro hledání nejkratší cesty orientovaným grafem

Zpracování digitalizovaného obrazu (ZDO) - Segmentace II

Teorie grafů. Kostra grafu. Obsah. Radim Farana Podklady pro výuku pro akademický rok 2013/2014

NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Hledáme efektivní řešení úloh na grafu

Výběrové charakteristiky a jejich rozdělení

Přijímací zkouška na navazující magisterské studium 2014

Téma 22. Ondřej Nývlt

MATEMATICKÁ STATISTIKA - XP01MST

Algoritmy výpočetní geometrie

Diskrétní matematika. DiM /01, zimní semestr 2018/2019

Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika)

NÁHODNÝ VEKTOR. 4. cvičení

Fakulta Elektrotechniky a Informatiky. Katedra Informatiky Martin Hynar

Transkript:

Vytěžování Dat Přednáška 4 Shluková analýza Miroslav Čepek Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti 14.10.2014 Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 1 / 38

Co to je shluková analýza Je jednou ze základních úloh vytěžování dat. Jde o třídění objektů do skupin podle jejich vlastností. Tak aby si objekty ve skupinách byly nějak podobné. A zároveň nebyly podobné objektům v jiných skupinách. Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 2 / 38

Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 3 / 38

Co to je shluková analýza (II) V principu jde o optimalizační problém. Co se musí optimalizovat? Počet shluků (skupin). Přiřazení instancí do shluků. Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 4 / 38

Jak zjistit, že jsou si dva vzory podobné? To je obecně velmi složitá otázka. Shlukovou analýzu provádí hlavně počítače, obvyklé je zavedení číselné vzdálenostní funkce: d : X X R, kde X je prostor instancí, vzdálenost je nepřímo úměrná podobnosti. Při splnění několika podmínek mluvíme o (vzdálenostní) metrice: d(x, y) 0 d(x, y) = d(y, x) d(x, y) = 0 x = y d(x, y) + d(y, z) d(x, y) Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 5 / 38

Metriky Jaké znáte metriky? Eukleidovská metrika Manhattanská metrika Kosinová metrika Příklady dalších metrik Editační vzdálenost (vzdálenost dvou slov = počet změn, kterými můžu změnit jedno slovo na druhé) Grafová metrika (počet hran, které musím v grafu projít, abych se dostal z jednoho uzlu do druhého) http://en.wikipedia.org/wiki/metric_space Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 6 / 38

Eukleidovská metrika Nejpřirozenější metrika, protože se s ní běžně setkáváme. Jak změříme vzdálenost dvou bodů na tabuli? Pravítkem :)! A když známe souřadnice, můžeme ji spočítat. Jak? Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 7 / 38

Eukleidovská metrika (II) Pythagorova věta! c = a 2 + b 2 A Pythagorovu větu můžeme zobecnit pro R n x = (x 1, x 2,..., x n ), y = (y 1, y 2,..., y n ) d(x, y) = n (x i y i ) 2 i=1 Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 8 / 38

Manhattanská metrika (City-block distance) Základní myšlenka: Kolik bloků ve městě musím obejít, abych se dostal z jednoho místa na druhé? Nebo také kolik tahů králem musím udělat abych se dostal z jednoho místa šachovnice na druhé? Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 9 / 38

Manhattanská metrika (City-block distance) (II) Pokud znám souřadnice, vzdálenost spočítam takto: d(x, y) = x 1 y 1 + x 2 y 2 +... + x n y n Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 10 / 38

Kosinová vzdálenost Vzdálenost dvou vektorů délky n odpovídá úhlu, který svírají: n i=1 similarity(x, y) = (x iy i ) n i=1 (x2 i ) n i=1 (y2 i ) Oborem hodnot této funkce je interval 1, +1. -1 znamená úplný opak, 0 nezávislost a +1 naprostou shodu. Převod na vzdálenost: d(x, y) = 1 similarity(x, y) Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 11 / 38

Shlukování pomocí KMeans Jednotlivé shluky budou zastoupeny jedním reprezentantem. Ten ponese vlastnosti typické pro danou skupinu/shluk. I každá instance (vzor) bude zastoupena jedním reprezentantem. Tím, který je jí nejpodobnější. Jinými slovy tím, který jí bude nejbĺıž (v dané metrice). Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 12 / 38

Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 13 / 38

Algoritmus KMeans značení Máme množinu N vstupních vzorů/instancí (vektorů) x i, i 1... N. Jednotlivé složky vektoru budeme označovat x i (s),, s 1... n. A máme množinu K reprezentantů, vektorů c t k. Kde k 1... K je index reprezentanta, t je číslo iteračního kroku, c t k (s) je jednou z jeho složek. Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 14 / 38

Shlukování pomocí KMeans Jak určit, kde je správné místo pro reprezentanty shluků? Vzdálenost mezi instancemi a jejich reprezentanty musí být co nejmenší. Lze formulovat jako optimalizační problém: arg min c 1...c K N min k d 2 (x i, c k ) i=1 Jako d voĺıme euklidovskou vzdálenost. Jeden z nejjednodušších postupů je iterační. Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 15 / 38

Algoritmus KMeans 1 Nastav reprezentanty c 0 k do náhodných počátečních bodů. 2 Najdi a přiřad každé instanci jejího nejbližšího reprezentanta. x i najdi k tak, aby j d(x i, c t k ) d(x i, c t j ), pro každé t ck vytvoř množinu nearest t k instancí, ke kterým je nejbĺıž. 3 Přesuň reprezentanta tak, aby ležel uprostřed své množiny nejbližších instancí. c t+1 1 k (s) = nearest x t k i nearest x t i (s) k 4 Pokud se změnila poloha alespoň jednoho středu, vrat se na bod 2. Jinak skonči. Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 16 / 38

Ilustrace KMeans (V) Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 17 / 38

Pohádka o Algoritmu KMeans :) Once there was a land with N houses. One day K kings arrived to this land. Each house was taken by the nearest king. But the community wanted their king to be at the center of the village, so the throne was moved there Then the kings realized that some houses were closer to them now, so they took those houses, but they lost some. This went on and on... (2-3-4) Until one day they couldn t move anymore, so they settled down and lived happily ever after in their village... Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 18 / 38

KMeans jako varianta EM algoritmu Lze najít analogii mezi KMeans a dřívější látkou kurzu? Ano, řada společných znaků s EM algoritmem: Skrytá proměnná = přiřazení instancí ke shlukům. E-krok = pro dané středy shluků urči rozdělení instancí do shluků. M-krok = pro dané rozdělení instancí odhadni nové středy shluků. Odlišnosti od EM: Nepracuje s věrohodností (lze ale ukázat, že minimalizace vzdálenosti ke středům je analogíı). Uvažuje ostré (hard) přiřazení ke shlukům, nikoli pravděpodobnostní. Závěr: KMeans lze považovat za příklad hard EM algoritmu. Existuje i klasická aplikace EM pro shlukování, model je směsí gaussovských rozdělení. Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 19 / 38

Vlastnosti KMeans algoritmu Může se KMeans zacyklit? NE Dopadne shlukování pomocí KMeans pokaždé stejně? NE Jak určit správný počet středů (shluků)? heuristicky Jak vyhodnotit jestli shlukování dopadlo dobře a jestli jsme zvolili přiměřené K? viz dále Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 20 / 38

Vyhodnocení rozkladu z KMeans algoritmu Jednou z možných metod je tzv. silueta. Silueta pro každou vstupní instanci spočítá jistotu zařazení instance do daného shluku: s(x k ) = b(x k) a(x k ) max(a(x k ), b(x k )) a(xk ) je průměrná vzdálenost x k od ostatních instancí shluku, ke kterému je přiřazena. b(x k ) je průměrná vzdálenost x k od instancí v nejbližším dalším shluku. Výsledné hodnoty jsou mezi -1 (x k do shluku úplně nepatří) a +1 (úplně patří) Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 21 / 38

Vyhodnocení rozkladu z KMeans algoritmu (II) Pokud vypočítáte siluetu pro všechny instance a vykresĺıte ji do grafu, můžete si udělat představu, jak shlukování dopadlo. Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 22 / 38

Ukázka Siluety shluky Kosatců Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 23 / 38

Vyhodnocení rozkladu z KMeans algoritmu (III) Které shlukování dopadlo lépe? Co třeba průměrná silueta přes všechny instance (ideálně přes testovací data)? Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 24 / 38

Stabilita shluků Jak ověřit, že shluky nejsou nahodilé a odpovídají přirozeným třídám? Budeme zkoumat stabilitu rozkladu do shluků. von Luxburg: Clustering stability: an overview Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 25 / 38

Stabilita shluků Jak vypočítáme stabilitu rozkladu do shluků? opakované vzorkování bez opakování M podmnožin dat, spustíme shlukování na každé podmnožině dat, pro všechny dvojice rozkladů C a C spočítáme vzájemnou vzdálenost d(c, C 1 ) = min π N N i=1 1 {C(xi) π(c (x i))} π jsou permutace označení shluků v C, dopředu není jasné, které dvojice shluků z C a C k sobě patří, určíme nestabilitu M vzniklých rozkladů (obvykle jako průměrnou vzdálenost přes všechny dvojice rozkladů), voĺıme algoritmus nebo nastavení parametrů s nejvyšší stabilitou. Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 26 / 38

Interpretace shluků Mám shluky, co s nimi dál? Jaké skupiny objektů jednotlivé shluky reprezentují? Jaké jsou jejich typické vlastnosti? Můžeme je stručně anotovat? Co říkají pozice centroidů? Generalizují shluky vzhledem k dalším příznakům nepoužitým pro shlukování? Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 27 / 38

Hierarchické shlukování úvod KMeans, jak jsme viděli, má některé mouchy. Kolik je v datech shluků? Závislost výsledků na počátečních podmínkách. Upřednostňuje kulovitý tvar shluků. Šlo by shlukování dělat i jinak? Šlo :). Jednou z možností je Hierarchické shlukování. Základní myslenka je, že vytvoříme hierarchii shluků. Lze postupovat zdola nahoru nebo shora dolů. V prvním případě vždy spojíme dva nejpodobnější shluky do jednoho většího. Pokračujeme dokud nevytvoříme jediný shluk se všemi objekty. Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 28 / 38

Aglomerativní hierarchické shlukování 1 Začne ze stavu, kdy každá instance je jedním shlukem. 2 Najdi dva nejbližší shluky. 3 Spoj je do jednoho. 4 Zůstávají nějaké shluky, které lze spojit? Pokud ano, vrat se na bod 2. Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 29 / 38

Nejbližší shluky Jak zjistím vzdálenost dvou shluků? Dokud shluky obsahují jen jednu instanci, je určení vzdálenosti jednoduché. Ale pak? d : X X R zobecníme na δ : 2 X 2 X R Vzdálenost shluků je určena Nejbližší sousedé vzdáleností nejbližších instancí ve shluku. Nejvzdálenější sousedé vzdáleností nejvzdálenějších instancí ve shluku. Vzdálenost středů vzdáleností center (středů) shluků. Průměrná vzdálenost průměrná vzdálenost mezi všemi instancemi v obo shlucích Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 30 / 38

Vzdálenost shluků ilustrace Nejkratší vzdálenost Průměrná vzdálenost Největší vzdálenost Vzdálenost mezi reprezentanty Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 31 / 38

Dendrogram Vizualizací postupu shlukování získáme strom dendrogram. Jak nalezneme konkrétní rozklad do shluků? Řezem dendrogramu na dané výšce. Jak voĺıme počet shluků? Lze přihlédnout k výšce větví. Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 32 / 38

Vyhodnocení hierarchického shlukování Můžeme opět použít siluetu, stejně jako u KMeans. Jinou možností je CPCC (Cophenetic Correlation Coefficient). CPCC je normovaná kovariance vzdáleností v původním prostoru a v dendrogramu. Pokud je hodnota CPCC menší než cca 0.8, všechny instance patří do jediného velkého shluku. Obecně platí, že čím vyšší je kofenetický koeficient korelace, tím nižší je ztráta informací, vznikající v procesu slučování objektů do shluků. Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 33 / 38

Další informace a zdroje http://cmp.felk.cvut.cz/cmp/courses/recognition/zapis_ prednasky/zapis_02/13/shlukovani.pdf Jain et al.: Data Clustering: A Review. ACM Computing Surveys. Příklady ukázkových KMeans apletů/aplikací: http://home.dei.polimi.it/matteucc/clustering/tutorial_ html/appletkm.html Miroslav Čepek (ČVUT) Shluková analýza 14.10.2014 34 / 38