Algoritmy pro shlukování prostorových dat

Podobné dokumenty
GIS Geografické informační systémy

8. přednáška z předmětu GIS1 Rastrový datový model a mapová algebra

Modifikace algoritmu FEKM

2. přednáška z předmětu GIS1 Data a datové modely

GIS Geografické informační systémy

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

GIS Geografické informační systémy

Úvod do GIS. Prostorová data I. část. Pouze podkladová prezentace k přednáškám, nejedná se o studijní materiál pro samostatné studium.

Univerzita Pardubice 8. licenční studium chemometrie

Rastrová reprezentace

7. Geografické informační systémy.

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Vícerozměrné statistické metody

Úvodem Dříve les než stromy 3 Operace s maticemi

Metody analýzy dat I. Míry a metriky - pokračování

Státnice odborné č. 20

Algoritmizace prostorových úloh

Metody analýzy dat II

Shluková analýza dat a stanovení počtu shluků

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Vícerozměrné statistické metody

Přednáška 13 Redukce dimenzionality

Geografické informační systémy GIS

Geografické informační systémy

Prostorová variabilita

Základy informatiky. 07 Teorie grafů. Kačmařík/Szturcová/Děrgel/Rapant

Cvičná bakalářská zkouška, 1. varianta

9. přednáška z předmětu GIS1 Digitální model reliéfu a odvozené povrchy. Vyučující: Ing. Jan Pacina, Ph.D.

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Realita versus data GIS

Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1

Kartografické modelování V Topologické překrytí - Overlay

12. přednáška ze stavební geodézie SG01. Ing. Tomáš Křemen, Ph.D.

Úvod do GIS. Prostorová data II. část. Pouze podkladová prezentace k přednáškám, nejedná se o studijní materiál pro samostatné studium.

Neparametrické metody

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY 10

Statistika pro geografy

0.1 Úvod do lineární algebry

SYLABUS PŘEDNÁŠKY 10 Z GEODÉZIE 1

Detekce kartografického zobrazení z množiny

Systém rizikové analýzy při sta4ckém návrhu podzemního díla. Jan Pruška

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Kartografické modelování. II Mapová algebra obecné základy a lokální funkce

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Kontingenční tabulky, korelační koeficienty

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR

UČENÍ BEZ UČITELE. Václav Hlaváč

Stromové struktury v relační databázi

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Voronoiův diagram. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Měření závislosti statistických dat

Lekce 4 - Vektorové a rastrové systémy

INFORMAČNÍ SYSTÉMY PRO KRIZOVÉ ŘÍZENÍ GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY A JEJICH VYUŽITÍ V KRIZOVÉM ŘÍZENÍ ING. JIŘÍ BARTA, RNDR. ING.

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Tvorba nových dat. Vektor. Geodatabáze. Prezentace prostorových dat. Základní geometrické objekty Bod Linie Polygon. Vektorová

Renáta Bednárová STATISTIKA PRO EKONOMY

ALGORITMY A DATOVÉ STRUKTURY

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Kontingenční tabulky, korelační koeficienty

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

11. Tabu prohledávání

INOVACE BAKALÁŘSKÝCH A MAGISTERSKÝCH STUDIJNÍCH OBORŮ NA HORNICKO-GEOLOGICKÉ FAKULTĚ VYSOKÉ ŠKOLY BÁŇSKÉ - TECHNICKÉ UNIVERZITY OSTRAVA

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Číselné charakteristiky a jejich výpočet

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Úvod do GIS. Karel Jedlička. Analýza a syntéza I. Pouze podkladová prezentace k přednáškám, nejedná se o studijní materiál pro samostatné studium.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Semestrální práce z KIV/PRO. Využití Voroného diagramu pro inicializaci K-means

OPTIMALIZACE. (přehled metod)

VK CZ.1.07/2.2.00/

SPŠS Č.Budějovice Obor Geodézie a Katastr nemovitostí RASTR RASTROVÉ ANALÝZY

Shlukování prostorových dat KDE+

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Rosenblattův perceptron

PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ

Prostorová autokorelace všudypřítomný jev při analýze prostorových dat?

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Grafové algoritmy. Programovací techniky

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Digitální model reliéfu (terénu) a analýzy modelů terénu

Grafové algoritmy. Programovací techniky

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Geoinformatika. IX GIS modelování

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia.

Pravděpodobnost a statistika

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Neparametrické testy

23. Matematická statistika

Gymnázium Jiřího Ortena, Kutná Hora

Testování statistických hypotéz

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY 3

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Transkript:

Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Motivace existence velkého množství prostorových databází prostorové databáze jsou většinou velmi rozsáhlé potřeba analýzy prostorových dat potřeba efektivních metod pro shlukovou analýzu dat dodržující prostorovou vazbu objektů

Geografická data (geodata) Prostorová data data obsahující prostorové určení a prostorové vztahy (topologii) objektu Atributová data popisují kvalitativní a kvantitativní charakteristiky prostorových dat

Reprezentace prostorových dat Vektorový model Rastrový model Vrstvový přístup jednotlivá data jsou obvykle organizována v tematických vrstvách Objektový přístup založen na principech objektově orientovaného programování každý objekt obsahuje geometrii, topologii, tématiku (atributy) a dále i chování (metody)

Vektorová reprezentace Bod (Point) jeho dimenze je 0 Linie (Line) její dimenze je 1 Řetězec linií (PolyLine) jeho dimenze je 1 Plocha (area) = polygon její dimenze je 2 Topologie prostorové vztahy mezi jednotlivými geometrickými objekty

Rastrová reprezentace Nejčastěji se používá čtvercová mřížka Topologie je v rastrovém modelu definována implicitně (je jasné kdo je čí soused), tudíž není nutné ji explicitně ukládat jako pro vektorový model Komprimace uložení např. pomocí Quad stromu

PROSTOROVÁ AUTOKORELACE měří závislost mezi prostorovými daty korelace výskytu jevu v prostoru s výskytem tohoto jevu v blízkém okolí výsledná hodnota autokorelačních statistik (lokální, globální) vypovídá o míře prostorového shlukování Jedna z nejpoužívanějších charekteristik je Moranovo I kritérium a jeho lokální obdoba LISA

Moranovo I kriterium výpočet i interpretace jsou velmi podobné Pearsonovu korelačnímu koeficientu I = i j w ij c ij s 2 j w ij kde c ij = (x i x )(x j x ) i s 2 = i (x i x ) 2 n kde n je počet analyzovaných _ jednotek, x i je hodnota proměnné v i-té jednotce a x- aritmetický průměr sledované proměnné

LISA Local Indicators of Spatial Association součet všech jednotlivých hodnot je úměrný globální hodnotě Moranovy statistiky na základě výpočtu LISA můžeme rozdělit sledované jednotky podle typu prostorové autokorelace do čtyř skupin, viz tabulka prostorové shluky vykazující nadprůměrné či podprůměrné hodnoty proměnné v určité jednotce souhlasně s jejím okolím prokazují pozitivní prostorovou autokorelaci Moranův diagram vážená hodnota proměnné v blízkých jednotkách hodnota proměnné v prostorové jednotce nízká vysoká nega;vní prostorová autokorelace nízká nízká pozi;vní prostorová autokorelace vysoká - vysoká pozi;vní prostorová autokorelace vysoká nízká nega;vní prostorová autokorelace

Problém prostorových shluků pro prostorový shluk se předpokládá, že je souvislý v prostoru prostorových atributů buď se musí řešit otázka sousednosti nebo se hledají různé heuristiky, aby se našla forma prostorových shluků, aniž by se musela řešit otázka sousedství v prototypových prostorových shlukovacích algoritmech je zaručeno získání sousedních prostorových shluků bez nutnosti vědět, které seskupení jsou sousední tyto algoritmy maximalizují funkce odměňování, které podporují sloučení podobných sousedních shluků a rozdělení nehomogenních shluků, pokud vede k významnému nárůstu v celkové odměně

PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ klasické metody hierarchického shlukování nevyužívají prostorové vlastnosti, vytvářejí shluky objektů, které nerespektují prostorové vztahy (zejména požadavek kontinuity jednotlivých shluků) odlišnosti PHS od klasického HS v počáteční fázi algoritmu určení sousedství jednotlivých objekty zpravidla se používají topologická sousedství typu královna matice vzdáleností se vypočítá pouze mezi všemi páry tvořenými sousedními objekty zachovává výhody klasického HS (hlavně názornost výstupu v podobě dendogramu či absence potřeby zadání počtu shluků) zachovává topologické vlastnosti prostorových dat

CLARANS Clustering Large Application based on RANdomized Search základem algoritmu je metoda k-medoidů postup algoritmu v 1. kroku náhodně vybere k medoidů, každý ze zbývajících objektů přiřadí k jim nejbližšímu medoidu ve 2. kroku zkoumá, zda záměnou náhodně vybraného medoidu a náhodně vybraného objektu, který není medoidem došlo ke zlepšení, v případě zlepšení provede záměnu po provedení daného počtu porovnání a případných záměn algoritmus spočítá a uloží aktuální průměrnou vzdálenost postup se opakuje od prvního kroku, od náhodného výběru k medoidů lze použít ne jen v případech, kdy je možno definovat průměr, ale i pokud je definována míra podobnosti mezi dvěma objekty značná efektivnost při zpracování velkých souborů dat robustnost - odlehlé objekty nevytvářejí vždy samostatný shluk.

DBSCAN Density-Based Spatial Clustering of Aplications with Noise vychází z hustoty definované pro blízké okolí každého objektu, z dosažitelnosti objektů zjištěné na základě této hustoty a propojenosti dvou objektů ověřené pomocí dosažitelnosti vybraných objektů shlukem je neprázdná množina objektů, pro kterou platí následující dvě vlastnosti shluk vždy obsahuje všechny body, jenž jsou dosažitelné z libovolného jeho bodu libovolné dva body ležící v tomtéž shluku musí být propojené není založen na vzdálenostech mezi objekty, a tím umožňuje nacházet shluky obecně libovolného tvaru nevýhodou je nutnost zadat parametry hustoty.

STING STatistical INformation Grid algoritmus pracuje ve dvou fázích v první fázi rekurzivním způsobem vytvoří mřížkovou strukturu tvořenou několika úrovněmi pravoúhlých buněk. Pro každou buňku jsou vypočítány a uchovány statistické charakteristiky potřebné pro další zpracování, jako je počet objektů, minimální a maximální hodnota obsažená v buňce, aritmetický průměr, směrodatná odchylka a typ pravděpodobnostního rozdělení ve druhé fázi algoritmu probíhá vlastní shlukování, které se provádí nad mřížkou vytvořenou v první fázi výhodou algoritmu je především rychlost zpracování, která není závislá na počtu objektů ale pouze na počtu buněk mřížkové struktury, tím je algoritmus vhodný i pro shlukování dat ve velkých souborech další výhodou je možnost nalezení shluků různých tvarů

SCAHIPAT Spatial Clustering Algorithm Based on Hierarchical-Partition Tree vychází z technologií prostorového indexování (quad tree) 1.fáze = vytvoření H-P stromu 2.fáze = výpočet statistik (hustota, hranice) pro každou podmnožinu 3.fáze = spojování vhodných podmnožin 4.fáze = vyřazení objektů, které jsou podezřelé z odlehlosti

Shrnutí Metody prostorového shlukování se snaží klasifikovat objekty podle míry podobnosti jejich znaků a současně respektovat požadovaná prostorová omezení. Nové algoritmy jsou převážně obměnou, resp. kombinací stávajících algoritmů. Autoři často šijí na míru nový algoritmus na svá data.

Děkuji za pozornost