Modifikace algoritmu FEKM

Podobné dokumenty
Algoritmy pro shlukování prostorových dat

Shluková analýza dat a stanovení počtu shluků

odlehlých hodnot pomocí algoritmu k-means

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Státnice odborné č. 20

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Statistika pro geografy

Úvodem Dříve les než stromy 3 Operace s maticemi

Semestrální práce z KIV/PRO. Využití Voroného diagramu pro inicializaci K-means

Cvičná bakalářská zkouška, 1. varianta

Vícerozměrné statistické metody

xrays optimalizační nástroj

Optimalizace & soft omezení: algoritmy

Dolování v objektových datech. Ivana Rudolfová

Metoda Monte Carlo, simulované žíhání

Chyby měření 210DPSM

Hledání kořenů rovnic jedné reálné proměnné metoda půlení intervalů Michal Čihák 23. října 2012

Základní pojmy teorie množin Vektorové prostory

1. Statistická analýza dat Jak vznikají informace Rozložení dat

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Univerzita Pardubice 8. licenční studium chemometrie

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

NÁHODNÉ VELIČINY JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU NA HODNOTY NÁHODNÝCH VELIČIN?

Vícerozměrné statistické metody

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

Téma 4: Stratifikované a pokročilé simulační metody

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností

Vícerozměrné statistické metody

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Změkčování hranic v klasifikačních stromech

Binární vyhledávací stromy II

Optimalizace provozních podmínek. Eva Jarošová

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Tabulka 1. Výběr z datové tabulky

Kombinatorická minimalizace

Optimalizace osazování odběrných míst inteligentními plynoměry

Náplň. v Jednoduché příklady na práci s poli v C - Vlastnosti třídění - Způsoby (algoritmy) třídění

Vytěžování znalostí z dat

, Brno Hanuš Vavrčík Základy statistiky ve vědě

GeoGebra známá i neznámá

Matematika NÁRODNÍ SROVNÁVACÍ ZKOUŠKY ZADÁNÍ NEOTVÍREJTE, POČKEJTE NA POKYN!

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Statistické řízení jakosti - regulace procesu měřením a srovnáváním

MATEMATIKA vyšší úroveň obtížnosti

Intervalová data a výpočet některých statistik

Přednáška 13 Redukce dimenzionality

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Dálkový průzkum Země. Ústav geoinformačních technologií Lesnická a dřevařská fakulta MENDELU

Diagnostika regrese pomocí grafu 7krát jinak

Miroslav Čepek

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

MATEMATIKA základní úroveň obtížnosti

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Detektor anomálií DNS provozu

Samoučící se neuronová síť - SOM, Kohonenovy mapy

Měření dat Filtrace dat, Kalmanův filtr

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Autor: Jan Hošek

a se nazývá aritmetická právě tehdy, když existuje takové číslo d R

Číselné charakteristiky

Voronoiův diagram. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta

i=1 Přímka a úsečka. Body, které leží na přímce procházející body a a b můžeme zapsat pomocí parametrické rovnice

Numerické metody zpracování výsledků

Algoritmy a struktury neuropočítačů ASN P3

2. přednáška z předmětu GIS1 Data a datové modely

Nástin formální stavby kvantové mechaniky

Základní datové struktury

Drsná matematika III 10. demonstrovaná cvičení Kostry grafů

IPZ laboratoře Struktura pevného disku L305 Cvičení 1 Cvičící:

Mgr. Tomáš Kotler. I. Cvičný test 2 II. Autorské řešení 6 III. Klíč 15 IV. Záznamový list 17

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

A-PDF Split DEMO : Purchase from to remove the watermark

StatSoft Shlukování podobných

STATISTICKÉ CHARAKTERISTIKY

SOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT

Lineární klasifikátory

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

Multirobotická kooperativní inspekce

Technická univerzita v Liberci

Semestrální práce Mozaika aneb Co všechno umí pan Voronoi

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

Zada ní 1. Semina rní pra ce z pr edme tu Matematický software (KI/MSW)

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

Protokol č. 1. Tloušťková struktura. Zadání:

Bayesovské metody. Mnohorozměrná analýza dat

TECHNICKÁ UNIVERZITA V LIBERCI

Modelování sesuvu svahu v Halenkovicích pomocí metody kriging

Pokročilé neparametrické metody. Klára Kubošová

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Dolování asociačních pravidel

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D.

Transkript:

Modifikace algoritmu FEKM Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 9. 14. září 2012 Němčičky

Motivace Potřeba metod pro shlukovou analýzu dat (velmi) velkých datových souborů Minimalizace počtu průchodů celým datovým souborem Využití výběrového souboru dat, respektive speciálně vytvořeného souboru reprezentujícího původní datový soubor

Algoritmus FEKM Fast and Exact (Out-of-Core) K-Means Goswami, A., Ruoming J., Agrawal,G. 2004 Algoritmus DFEKM Distributed Fast and Exact (Out-of-Core) K-Means 2006

Postup zpracování I.fáze Prvotní vytvoření přiměřeně velkého výběrového souboru z původního souboru dat V rámci tohoto výběrového souboru jsou vytvořeny shluky pomocí klasického algoritmu k-průměrů V každé iteraci se zaznamená všech k center a k nim popisné statistiky shluku

Postup zpracování II.fáze V druhé fázi algoritmus prochází celý datový soubor Každý datový objekt se pro každou iteraci přiřadí do určitého shluku (k nejbližšímu centru dané iterace) Problém chybného zařazení do shluku se týká především objektů ležících na okraji shluků

Okrajové body d Okrajový bod d 2 1 1 2 Poloměr konfidence d d 2 1 1 2 Stabilní bod Centrum shluku

Postup zpracování III.fáze Ve třetí fázi se algoritmus zabývá podezřelými okrajovými body, které odhalila a uložila předchozí fáze Provádí se přepočet s využitím uložených statistik popisujících každý jednotlivý shluk a podezřelých okrajových objektů. Pokud existuje přepočtené centrum, které je od původního více vzdálené, než předem zadaná kritická hodnota, vrací se algoritmus do druhé fáze a probíhá opětovný průchod celým datovým souborem

Metody BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) algoritmus BIRCH Zhang, T., Ramakrishnan, R., Livny, M. (1996) CF-stromy CF-charakteristika shluku (Clustering Feature) je uspořádaná trojice CF = (N, LS, SS), kde N je počet objektů ve shluku, LS je vektorovým součtem souřadnic všech objektů ve shluku a SS je vektorovým součtem druhých mocnin souřadnic těchto objektů algoritmus BIRCH k-průměrů Bradley, P., Fayyad, U., Reina, C. (1998) uspořádaná trojice údajů (m, q, b), kde m je velikost daného shluku, q je kvalita daného shluku (součet druhých mocnin vzdáleností centroidu od všech objektů ve shluku) a b je centroid shluku z trojic (N, LS, SS) a (m, q, b) můžeme získat identické informace

CF - stromy BIRCH

BIRCH vytvoření CF-stromu postupným zařazením datových objektů (kondenzace vytvořeného CF-stromu a optimalizace jeho velikosti) shlukování listových vrcholů pomocí aglomerativního hierarchického algoritmu shlukování (přerozdělení objektů k jejich nejbližším centrům, a tím získání nového složení shluků)

BIRCH k-průměrů dva parametry povolený počet objektů v libovolném shluku hranice variability libovolného shluku ( poloměr shluku) upravená varianta algoritmu BIRCH nevytváří CF-strom postup: první fáze v cyklu se vždy vybere objekt z množiny objektů a nalezne se nejbližší shluk z množiny shluků, ve kterém se přidáním objektu nepřekročí hranice pro počet prvků ve shluku ani hranice variability shluku pokud takovýto shluk neexistuje, vytvoří se pro objekt nový shluk, který obsahuje pouze tento objekt po zařazení objektu do shluku se objekt vymaže z množiny všech objektů cyklus se provádí do vyprázdnění množiny objektů druhá fáze shlukování centroidů všech shluků, které vznikly ve fázi první třetí fáze všechny původní objekty jsou rozřazeny do shluků, každý objekt je přiřazen k nejbližšímu z centroidů vzniklých ve druhé fázi algoritmus zatím není implementován v žádném dostupném programovém systému

Data I. soubor IRIS http://archive.ics.uci.edu/ml/datasets/ 150 objektů čtyři numerické proměnné (jednotlivé rozměry kališních a korunních lístků květů) tři shluky - tři různé druhy z rodu iris, z každého druhu 50 zástupců z průzkumové analýzy je zřejmé, že jeden z druhů se výrazně odlišuje v popsaných atributech, zbývající dva se odlišují nevýrazně, dokonce dochází k prolínání

Data II. soubor VOWEL 528 objektů 10 numerických proměnných jedenáct shluků - 11 jednoslabičných slov Obsah souboru se týká výslovnosti samohlásek v britské angličtině. Osm mluvčích (čtyři muži a čtyři ženy) přečetlo šestkrát 11 jednoslabičných slov, která se lišila výslovností samohlásky (heed, hid, head, had, hard, hud, hod, hoard, hood, who`d, heard). Každé slovo tedy bylo proneseno 48 krát. V každém z uvedených případů byl zaznamenán zvuk a převeden do deseti numerických hodnot. Každý záznam je jedním objektem výsledného souboru.

Data III. soubor GENER generovaný soubor 1 000 000 objektů dvě numerické proměnné 20 shluků Souřadnice objektů jednotlivých shluků byly generovány jako náhodné hodnoty náležící normálnímu rozdělení daných parametrů. Parametry rozdělení v jednotlivých shlucích byly generovány opět náhodně jako hodnoty rovnoměrného rozdělení; střední hodnota náhodně z intervalu (0, 10) a rozptyl 2 z intervalu (0, 3).

Shrnutí I. Algoritmus FEKM přináší výsledky stejné kvality jako originální algoritmus k-průměrů Zvyšování efektivity snižováním počtu průchodů datovým souborem Nevýhoda algoritmu FEKM = velmi malý počet průchodů celým souborem pouze ve výjimečných případech, závisí na prvotním vzorku dat Algoritmus BIRCH vytváří pomocí jednoho průchodu celým datovým souborem výsledky poněkud horší kvality než algoritmus k-průměrů

Shrnutí II. Předřazením I.fáze algoritmu BIRCH k-průměrů před vlastní zpracování algoritmu FEKM vznikla metoda spojující výhody obou algoritmů Centroidy shluků vzniklých v I.fázi algoritmu BIRCH byly vzaty jako vzorek datového souboru Oproti vlastnímu algoritmu FEKM došlo ke stabilizování nutného počtu průchodů celým datovým souborem Z podstaty modifikace vyplývá, že minimální počet průchodů je dva, v originálním algoritmu existují případy, kdy postačil pouze jediný průchod V originálním algoritmu se vyskytly případy, kdy byl vzorek dat vygenerován nevhodně a došlo k výcečetnému průchodu datovým souborem Oproti algoritmu BIRCH k-průměrů došlo ke zlepšení kvality, ovšem prodloužení doby zpracování (průměrně na 2-3 násobek)

Děkuji za pozornost