Státnice odborné č. 20

Podobné dokumenty
Miroslav Čepek

Miroslav Čepek

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Přednáška 13 Redukce dimenzionality

Vytěžování znalostí z dat

Vícerozměrné statistické metody

Algoritmy a struktury neuropočítačů ASN P3

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Algoritmy pro shlukování prostorových dat

Samoučící se neuronová síť - SOM, Kohonenovy mapy

Úvodem Dříve les než stromy 3 Operace s maticemi

NADSTAVBOVÝ MODUL MOHSA V1

Shluková analýza dat a stanovení počtu shluků

Základy vytěžování dat

Přednáška 12: Shlukování

Cvičná bakalářská zkouška, 1. varianta

Univerzita Pardubice 8. licenční studium chemometrie

(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Umělé neuronové sítě

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Algoritmy a struktury neuropočítačů ASN - P11

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

2. RBF neuronové sítě

UČENÍ BEZ UČITELE. Václav Hlaváč

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Modifikace algoritmu FEKM

9. listopadu Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Už bylo: Učení bez učitele (unsupervised learning) Kompetitivní modely

Rosenblattův perceptron

Základy popisné statistiky

Aplikovaná numerická matematika

Vícerozměrné statistické metody

Cvičení ze statistiky - 3. Filip Děchtěrenko

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Matematika pro geometrickou morfometrii

Algoritmy a struktury neuropočítačů ASN - P2. Topologie neuronových sítí, principy učení Samoorganizující se neuronové sítě Kohonenovy mapy

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

ZÁPOČTOVÁ PRÁCE Informace a neurčitost. SOMPak

Metody založené na analogii

Shlukování. Zpracováno s využitím skvělého tutoriálu autorů Eamonn Keogh, Ziv Bar-Joseph a Andrew Moore

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

Kartografické modelování. VIII Modelování vzdálenosti

4. Učení bez učitele. Shlukování. K-means, EM. Hierarchické shlukování. Kompetitivní učení. Kohonenovy mapy.

Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného)

xrays optimalizační nástroj

ANALÝZA A KLASIFIKACE DAT

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Lineární klasifikátory

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Úloha - rozpoznávání číslic

Vícerozměrné statistické metody

Detekce kartografického zobrazení z množiny

Architektura - struktura sítě výkonných prvků, jejich vzájemné propojení.

TGH06 - Hledání nejkratší cesty

Aplikovaná matematika I

Uživatelská doumentace

Zobrazování barev Josef Pelikán CGG MFF UK Praha.

Shluková analýza, Hierarchické, Nehierarchické, Optimum, Dodatek. Učení bez učitele

Úvod do optimalizace, metody hladké optimalizace

Zobrazte si svazy a uspořádané množiny! Jan Outrata

1. Soutěživé sítě. 1.1 Základní informace. 1.2 Výstupy z učení. 1.3 Jednoduchá soutěživá síť MAXNET

2. úkol MI-PAA. Jan Jůna (junajan)

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Vytěžování znalostí z dat

Kostry. 9. týden. Grafy. Marie Demlová (úpravy Matěj Dostál) 16. dubna 2019

Emergence chování robotických agentů: neuroevoluce

REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB

SOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

3. Vícevrstvé dopředné sítě

Vzorová písemka č. 1 (rok 2015/2016) - řešení

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

StatSoft Shlukování podobných

Metody analýzy dat I. Míry a metriky - pokračování

Algoritmus pro hledání nejkratší cesty orientovaným grafem

Fakulta Dopravní Ústav aplikované matematiky. v dopravní problematice

Vícerozměrná rozdělení

oddělení Inteligentní Datové Analýzy (IDA)

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Transkript:

Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin (shluků) na základě jejich vlastností tak, aby si byly podobné, a zároveň nebyly podobné objektům v jiných skupinách (shlucích). Jedná s o optimalizační problém s cílem optimalizovat počet shluků a přiřazení instancí do shluků. Shluky instancí s podobnými vlastnostmi Měřítkem podobnosti vlastností objektů je metrika poskytující číselný výsledek umožňující počítačové zpracování. Metrika musí splňovat základní podmínky použitelnosti: d(x; y) >= 0 d(x; y) = d(y; x) d(x; y) = 0, x = y d(x; y) + d(y; z) >= d(x; z)

Eukleidovská metrika Manhattanská metrika: Kosinová metrika: Metoda k-středů (KMeans) Jednotlivé shluky jsou zastoupeny reprezentantem s typickými vlastnostmi

Každá instance (vzor) v datech bude reprezentována jedním reprezentantem, který ponese vlastnosti typické pro danou skupinu (shluk). Tento reprezentant je instanci (vzoru) nejpodobnější bude instanci nejblíže v dané metrice. Správná pozice reprezentantů mezi instancemi volena tak, aby součet všech vzdáleností mezi instancemi a jim příslušnými reprezentanty byla minimální (optimalizační problém). Optimalizace je prováděna iteračně. Algoritmus KMeans: 1. nastav reprezentanty do náhodných počátečních bodů, 2. najdi a přiřaď každé instanci jejího nejbližšího reprezentanta (reprezentanta s nejkratší metrikou), a pro každého reprezentanta vytvoř množinu naplněnou jeho nejbližšími instancemi, 3. přesuň reprezentanta doprostřed své množiny nejbližších instancí (minimalizuj součet metrik reprezentanta ke všem svým nejbližším instancím), 4. změnila-li se poloha aspoň jednoho reprezentanta, vrať se do bodu 2. Jinak skonči. Vyhodnocení shluků vytvořených KMeans algoritmem: jednou z možností je výpočet tzv. siluety Pokud vypočítáme siluetu pro všechny instance a vykreslíme ji do grafu, lze si udělat představu, jak shlukování dopadlo (neměly by se vyskytovat žádné záporné hodnoty instance mající blíže k instancím jiného než vlastního shluku). Lze rovněž shlukování hodnotit výpočtem průměrné siluety přes všechny instance (ideálně přes testovací data). Čím vyšší číslo, tím lépe shluky vytvořeny (počet a pozice reprezentantů). Stabilitu výsledku shlukování lze testovat (náhodným) smazáním části (10%) testovacích dat a takto vygenerováním několika podmnožin testovacích dat, na nichž se shlukování otestuje opakovaně.

Hierarchické (aglomerativní) shlukování Základní myšlenkou je vytváření hierarchie shluků, vždy spojením dvou nejpodobnějších shluků (s nejmenší metrikou) do jednoho většího. Takto se pokračuje, dokud není vytvořen jeden mega-shluk. Základní algoritmus: 1. začít ze stavu, kdy každá jednotlivá instance je jedním shlukem, 2. najít dva nejbližší shluky, 3. spojit nalezené dva nejbližší shluky do jednoho, 4. zůstávají-li nějaké spojitelné shluky, vrátit se do bodu 2. Jinak skončit. Vzdálenost shluků může být určena: nejbližší sousedé vzdálenost nejbližších instancí ve shlucích, nejvzdálenější sousedé vzdálenost nejvzdálenějších instancí ve shlucích, vzdálenost středů - center shluků, průměrná vzdálenost mezi všemi instancemi v obou shlucích. Vizualizace postupu shlukování stromem - dendrogram Vyhodnocení hierarchického shlukování lze použít siluetu, vypočítat CPCC (kofenetický koeficient korelace) normovaná kovariance vzdáleností v původním prostoru a v dendrogramu. Čím vyšší je CPCC, tím nižší je ztráta informace způsobená slučováním instancí do shluků (instance shluk skutečně tvoří). Je-li CPCC menší než cca 0,8, patří všechny instance do jediného velkého shluku.

SOM (Self Organizing Map) samoorganizující se mapa Princip (kompetitivní učení): jedinci (reprezentanti, neurony) spolu soutěží, nepotřebují žádného arbitra (učitele), který by jim říkal, kam se mají přesunout. Každý jedinec to umí zjistit sám. Jedinci se učí z příkladů. Populace jedinců se v průběhu času samoorganizuje. Míra optimalizace samoorganizace je vyjádřena kvantizační chybou průměrnou vzdáleností mezi instancemi (vzory) a jejich reprezentanty. Minimalizace kvantizační chyby tlačí reprezentanty do míst vysoké hustoty instancí. Snaha aproximovat hustotu instancí pomocí menší hustoty reprezentantů. Neuronový plyn je jiným způsobem minimalizace kvantizační chyby používáno okolí (instance). Algoritmus neuronového plynu: 1. náhodně rozmístit reprezentanty a zvolit velké okolí, 2. vybrat nějakou vstupní instanci, 3. spočítat vzdálenosti mezi zvolenou instancí a všemi reprezentanty, 4. upravit pozice reprezentantů v závislosti na jejich vzdálenosti od zvolené instance a okolí, 5. zmenšit okolí, 6. případně pokračovat bodem 2. Vybraná instance a přesun reprezentantů v jejím okolí Vylepšený neuronový plyn vytvořeny přátelské vztahy mezi sousedními reprezentanty, posouvají se jen kamarádi vítězného reprezentanta. Vizualizací přátelství lze získat pravidelnou mřížku (síť), typicky čtvercovou nebo šestiúhelníkovou.

Terminologie SOM (Kohonenova mapa): reprezentant je neuronem, jeho souřadnice jsou váhami. Algoritmus SOM: 1. inicializovat váhy všech neuronů (souřadnice všech reprezentantů), 2. vybrat nějakou vstupní instanci, 3. spočítat vzdálenosti mezi vstupní instancí a všemi neurony, 4. určit nejbližší neuron BMU (best matching unit), 5. upravit váhy (pozici) BMU a jeho okolí, 6. případně pokračovat bodem 2. Změna vah BMU a jeho okolí (vstupní instance značena x) Vizualizace SOM (při více dimenzionálním problému): U-Matice - zobrazuje strukturu vzdáleností v prostoru dat (vzdálenost zachycena barvou), Analýza hlavních komponent hledání nových os směry největšího rozptylu hodnot, Sammonova projekce zachování vztahu mezi daty zobrazenými v novém prostoru získaném minimalizací kvadrátů vzdáleností objektů.