AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Podobné dokumenty
Vícerozměrné statistické metody

Státnice odborné č. 20

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Shluková analýza dat a stanovení počtu shluků

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

AVDAT Mnohorozměrné metody metody redukce dimenze

AVDAT Mnohorozměrné metody, metody klasifikace

Algoritmy pro shlukování prostorových dat

Miroslav Čepek

Metody síťové analýzy

AVDAT Výběr regresorů v mnohorozměrné regresi

AVDAT Nelineární regresní model

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Cvičná bakalářská zkouška, 1. varianta

Shluková analýza, Hierarchické, Nehierarchické, Optimum, Dodatek. Učení bez učitele

Metody analýzy dat I. Míry a metriky - pokračování

AVDAT Náhodný vektor, mnohorozměrné rozdělení

UČENÍ BEZ UČITELE. Václav Hlaváč

Metody analýzy dat II

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

NADSTAVBOVÝ MODUL MOHSA V1

PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ

8 Přednáška z

AVDAT Geometrie metody nejmenších čtverců

Vzdálenost uzlů v neorientovaném grafu

TGH08 - Optimální kostry

Shluková analýza. shlukovací metodě

Kostry. 9. týden. Grafy. Marie Demlová (úpravy Matěj Dostál) 16. dubna 2019

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka

Vícerozměrné statistické metody

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

H {{u, v} : u,v U u v }

(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

4. NP-úplné (NPC) a NP-těžké (NPH) problémy

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2014

Kombinatorická minimalizace

Grafové algoritmy. Programovací techniky

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Grafové algoritmy. Programovací techniky

Modifikace algoritmu FEKM

4EK311 Operační výzkum. 5. Teorie grafů

TGH02 - teorie grafů, základní pojmy

Shlukování. Zpracováno s využitím skvělého tutoriálu autorů Eamonn Keogh, Ziv Bar-Joseph a Andrew Moore

3. Grafy a matice. Definice 3.2. Čtvercová matice A se nazývá rozložitelná, lze-li ji napsat ve tvaru A =

StatSoft Shlukování podobných

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Detekce kartografického zobrazení z množiny

Fakulta Elektrotechniky a Informatiky. Katedra Informatiky Martin Hynar

APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII

Numerické metody a programování. Lekce 8

AVDAT Vektory a matice

Shluková analýza. 1 Úvod Formulace úlohy Typy metod shlukové analýzy... 2

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Operační výzkum. Síťová analýza. Metoda CPM.

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Pokročilé neparametrické metody. Klára Kubošová

TGH02 - teorie grafů, základní pojmy

Základy umělé inteligence

1 Báze a dimenze vektorového prostoru 1

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

STROMOVE ALGORITMY Prohledavani do sirky (level-order) Po vodorovnejch carach fronta

Univerzita Pardubice 8. licenční studium chemometrie

Numerické metody optimalizace - úvod

Aplikovaná numerická matematika

9. listopadu Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

K velkým datům přes matice a grafy

Vysoká škola báňská Technická univerzita Ostrava. Fakulta metalurgie a materiálového inženýrství

Kybernetika a umělá inteligence, cvičení 10/11

PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE. Analýza dat ze studentských dotazníků Bc.

TGH02 - teorie grafů, základní pojmy

Klasifikace a rozpoznávání

Úvod do teorie grafů

Teorie grafů. Kostra grafu. Obsah. Radim Farana Podklady pro výuku pro akademický rok 2013/2014

STROMY. v 7 v 8. v 5. v 2. v 3. Základní pojmy. Řešené příklady 1. příklad. Stromy

Bayesovské metody. Mnohorozměrná analýza dat

Paralelní grafové algoritmy

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Matematika pro ekonomiku

12. Globální metody MI-PAA

Fakulta chemicko technologická Katedra analytické chemie

Grafy. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta.

Dynamické programování

Úvod do optimalizace, metody hladké optimalizace

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Nehierarchické shlukování

VLASTNOSTI GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze. BI-GRA, LS 2010/2011, Lekce 5

Soustavy linea rnı ch rovnic

TEORIE GRAFŮ TEORIE GRAFŮ 1

5. Lokální, vázané a globální extrémy

3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA

Metody založené na analogii

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1


INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

Voronoiův diagram. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Transkript:

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita

Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny podobných objektů. Mějme množinu m objektů, tuto množinu označme M. Pro každé dva objekty a, b M máme číslo σ(a, b), kterému říkáme numerická podobnost. σ : M M R Požadavky na vlastnosti numerické podobnosti: 1 0 σ(a, b) 1 2 σ(a, a) = 1 3 σ(a, b) = σ(b, a) 4 min(σ(a, b), σ(b, c)) σ(a, c) trojúhelníková nerovnost

Shluková analýza Najít rozklad {M i } k i=1, množiny M k 1 M i = M i=1 2 M i M j = 0 pro i j 3 vágní kritérium: objekty uvnitř M i jsou si podobnější mezi sebou než s objekty z množiny M j, např. když a, b M i, c M j, pak σ(a, b) σ(a, c), σ(a, b) σ(b, c) Je mnoho možností, jak definovat numerickou podobnost, jak formulovat postup zařazování objektů do podmnožin, Existuje mnoho metod shlukování

Shluková analýza Charakteristiku (1 σ(a, b)) můžeme chápat jako normovanou vzdálenost dvou objektů a, b. normovaná vzdálenost na [0, 1], d (a, b) = 1 σ(a, b)

Shluková analýza Mnoho způsobů, jak definovat vzdálenost dvou bodů: d(i, i ) = x i x i p = 1 Eukleidovská vzdálenost dvou objektů i, i D E (i, i p p ) = (x ij x i j) 2 = dj 2 (i, i ) Normovaná vzdálenost D N (i, i p p ) = (z ij z i j) 2 = d 2 j (i, i ) s 2 j vzdálenost dvou objektů i, i v L 1 normě (Manhatan) D E (i, i ) = p x ij x i j = p d j (i, i )

Shluková analýza Co je to vzdálenost mezi shluky? nejbližší body? nejvzdálenější body? průměrná vzdálenost? vzdálenost těžišt shluků? Existuje mnoho metod, jak řešit danou úlohu

Shluková analýza hierarchické metody Aglomerativní procedura: Začne od m shluků (každý shluk je tvořen jedním objektem) Postupně spojuje ty shluky, které jsou si nejpodobnější Skončí jedním shlukem, obsahujícím všech m objektů. Rozklady jsou do sebe zasunuty, objekty jednou spojené do shluku zůstávají spolu. Posloupnost spojování můžeme je graficky znázornit dendrogramem.

Shluková analýza hierarchické metody Nejčastěji užívané strategie spojování shluků: single linkage (nejbližší soused, nearest neiborough) - shluk tvoří souvislý podgraf, tj. existuje aspoň jedna cesta mezi dvěma uzly podgrafu, nejméně přísná metoda na podobnost uvnitř shluků, shluky mají tvar souhvězdí complete linkage (nejvzdálenější soused, furthest neiborough) shluk tvoří úplný podgraf, tj. každé dva uzly podgrafu jsou spojeny hranou, nejpřísnější na podobnost uvnitř shluku average linkage - spojuje shluky podle jejich průměrné vzdálenosti centroidní - spojuje shluky podle vzdáleností jejich těžiště

Shluková analýza hierarchické metody, single linkage

Shluková analýza hierarchické metody, complete linkage

Shluková analýza nehierarchické metody, k-means Počet shluků k je předem znám, objekty se rozdělují do shluků tak, aby rozptyl uvnitř shluků byl co nejmenší. Jde tedy o to, abychom nalezli takové přiřazení objektů do shluků tak, aby stopa matice W byla minimální. W = k W g, (1) g=1 W g je Wishartova matice pro shluk g, tj. n g W g = (x (g) j x (g) )(x (g) j x (g) ) T, (2) kde x (g) j je vektor hodnot veličin j-tého objektu v g-tém shluku, ( x (g) ng ) = x(g) j /n g je vektor průměrů (centroid) g-tého shluku.

Shluková analýza nehierarchické metody, k-means Kritériem, jež má být minimalizováno, je pak TRW = tr(w). (3) Je možné zvolit i jiná kritéria klasifikace (Mariott, Dunn atd.) Najít globální minimum je algoritmicky obtížný problém, který neumíme vyřešit v polynomiálním čase.

Shluková analýza nehierarchické metody, algoritmus k-means Obvykle se užívá se algoritmus k-means, který umí najít přijatelné lokální minimum pro většinu jednodušších klasifikačních úloh: 1 Nejdříve se k centroidů (těžišt shluků) zvolí náhodně, bud se vybere náhodně k objektů ze zadaných dat nebo se objekty náhodně klasifikují do k shluků a spočítají jejich těžiště (vektor průměrů). 2 Objekty se zařadí do shluku, jehož těžišti jsou nejbližší a spočítá se nové těžiště každého shluku. 3 Krok 2 se opakuje tak dlouho, dokud dochází ke změně klasifikace objektů.