Metody analýzy dat II

Podobné dokumenty
Metody analýzy dat I. Míry a metriky - pokračování

Algoritmy pro shlukování prostorových dat

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

2. RBF neuronové sítě

Metody analýzy dat I (Data Analysis I) Míry a metriky (Measures and Metrics) - - pokračování

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Paralelní grafové algoritmy

10 Přednáška ze

TGH02 - teorie grafů, základní pojmy

Drsná matematika III 10. demonstrovaná cvičení Kostry grafů

Algoritmizace prostorových úloh

STROMY. v 7 v 8. v 5. v 2. v 3. Základní pojmy. Řešené příklady 1. příklad. Stromy

Kostry. 9. týden. Grafy. Marie Demlová (úpravy Matěj Dostál) 16. dubna 2019

H {{u, v} : u,v U u v }

Grafové algoritmy. Programovací techniky

5 Orientované grafy, Toky v sítích

Vícerozměrné statistické metody

Grafové algoritmy. Programovací techniky

TGH02 - teorie grafů, základní pojmy

VLASTNOSTI GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze. BI-GRA, LS 2010/2011, Lekce 5

Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy

Grafy. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta.

GRAFY A GRAFOVÉ ALGORITMY

TGH02 - teorie grafů, základní pojmy

zejména Dijkstrův algoritmus pro hledání minimální cesty a hladový algoritmus pro hledání minimální kostry.

Ukážeme si lineární algoritmus, který pro pevné k rozhodne, zda vstupní. stromový rozklad. Poznamenejme, že je-li k součástí vstupu, pak rozhodnout

Dynamické programování

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

TGH09 - Barvení grafů

ALGORITMY A DATOVÉ STRUKTURY

Stromové rozklady. Definice 1. Stromový rozklad grafu G je dvojice (T, β) taková, že T je strom,

STROMOVE ALGORITMY Prohledavani do sirky (level-order) Po vodorovnejch carach fronta

3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA

Vícerozměrné statistické metody

TGH08 - Optimální kostry

autoři: Rudolf Bayer, Ed McCreight všechny vnější uzly (listy) mají stejnou hloubku ADS (abstraktní datové struktury)

HEURISTICKÉ ALGORITMY PRO ŘEŠENÍ ÚLOH OBCHODNÍHO CESTUJÍCÍHO

Úvod do vybíravosti grafů, Nullstellensatz, polynomiální metoda

Teorie grafů BR Solutions - Orličky Píta (Orličky 2010) Teorie grafů / 66

Automatizované řešení úloh s omezeními

07 Základní pojmy teorie grafů

Státnice odborné č. 20

8 Přednáška z

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Golayův kód 23,12,7 -kód G 23. rozšířený Golayův kód 24,12,8 -kód G 24. ternární Golayův kód 11,6,5 -kód G 11

Static Load Balancing Applied to Time Dependent Mechanical Problems

Operační výzkum. Síťová analýza. Metoda CPM.

Základy informatiky. 07 Teorie grafů. Kačmařík/Szturcová/Děrgel/Rapant

Voronoiův diagram. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Náhodné (statistické) chyby přímých měření

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Algoritmy výpočetní geometrie

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.

4 Stromy a les. Definice a základní vlastnosti stromů. Kostry grafů a jejich počet.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE. Teze diplomové práce

10 Podgrafy, isomorfismus grafů

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Vrcholová barevnost grafu

Algoritmus pro hledání nejkratší cesty orientovaným grafem

GIS Geografické informační systémy

Kapitola 11. Vzdálenost v grafech Matice sousednosti a počty sledů

MATEMATIKA A 3 Metodický list č. 1

Stromy, haldy, prioritní fronty

4. NP-úplné (NPC) a NP-těžké (NPH) problémy

Základní pojmy teorie grafů [Graph theory]

Tento text je stručným shrnutím těch tvrzení Ramseyovy teorie, která zazněla

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

Graf. Uzly Lokality, servery Osoby fyzické i právní Informatické objekty... atd. Hrany Cesty, propojení Vztahy Informatické závislosti... atd.

K velkým datům přes matice a grafy

Jan Březina. 7. března 2017

3. úloha - problém batohu metodami branch & bound, dynamické programování, heuristika s testem

Diskrétní matematika. DiM /01, zimní semestr 2018/2019

Metody analýzy dat II

V ypoˇ cetn ı sloˇ zitost v teorii graf u Martin Doucha

Základní datové struktury III: Stromy, haldy

13. Lineární programování

TEORIE GRAFŮ TEORIE GRAFŮ 1

3. Grafy a matice. Definice 3.2. Čtvercová matice A se nazývá rozložitelná, lze-li ji napsat ve tvaru A =

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE. Optimalizace trasy při revizích elektrospotřebičů

Úvodem Dříve les než stromy 3 Operace s maticemi

Teoretická informatika Tomáš Foltýnek Barvení grafů Platónská tělesa

1. Převeďte dané číslo do dvojkové, osmičkové a šestnáctkové soustavy: a) b)

Metody síťové analýzy

Binární vyhledávací stromy pokročilé partie

Rozdělování dat do trénovacích a testovacích množin

Definice 1 eulerovský Definice 2 poloeulerovský

Výroková a predikátová logika - III

Operační výzkum. Vícekriteriální hodnocení variant. Grafická metoda. Metoda váženého součtu.

Teorie grafů. Teoretická informatika Tomáš Foltýnek

TGH05 - aplikace DFS, průchod do šířky

Jan Pavĺık. FSI VUT v Brně

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

12. Globální metody MI-PAA

Vybíravost grafů, Nullstellensatz, jádra

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

GIS Geografické informační systémy

Lineární algebra : Násobení matic a inverzní matice

Stromové struktury v relační databázi

Transkript:

Metody analýzy dat II Detekce komunit MADII 2018/19 1

Zachary s club, Collaboration network in Santa Fe Institute, Lusseau s network of Bottlenose Dolphins 2

Web Pages, Overlaping communities of word associations

Komunity Sociální (i další) sítě mají přirozenou komunitní strukturu Biologické sítě: např. proteiny, které se podílejí na stejné nemoci, se vzájemně ovlivňují Sociální sítě: např. skupiny osob se stejným koníčkem, komunity vědců pracujících na podobném tématu, Chceme zjistit zda má síť komunitní strukturu a pak např. konkrétní velikost komunity, určit počet komunit příslušnost vrcholů ke komunitě MADII 2018/19 5

Komunity Sítě se přirozeně dělí na komunity, skupiny vrcholů. Komunity neformální definice skupiny vrcholů, mezi kterými jsou spojení hustá (dense), ale mezi jednotlivými komunitami jsou spojení řídká (sparse) skupiny vrcholů, které mají vyšší pravděpodobnost vzájemného propojení než je pst propojení s vrcholy z jiných komunit komunita je v síti lokálně hustý souvislý podgraf grafu (sítě) komunity jsou skupiny navzájem podobných vrcholů. MADII 2018/19 6

Komunity Žádná exaktní a všeobecně akceptovaná definice neexistuje Možná interpretace hustý je graf G když m=o(n 2 ), G={V,E}, V =n, G =m řídký je graf G když m=o(n) Detekce komunit je snadná pouze v případě řídkých grafů, tj. pokud počet hran m je v řádu počtu uzlů n grafu. Pokud m >> n, rozdělení hran mezi uzly je příliš homogenní a dostáváme se spíše k problému klasického shlukování na základě podobnosti. MADII 2018/19 7

Komunity Kliky a jim podobné struktury Souvislé komponenty Slabé a silné komunity (viz přednáška o Community Network Models http://homel.vsb.cz/~kud007/lectures/madii 04.pdf ) A strukturálně mnohem složitější skupiny vrcholů MADII 2018/19 8

Přístupy Mnoho různých přístupů Např. spektrální metody (spectral bisection) Metody používající kliky nebo podobné podgrafy (např. CPM) Metody založené na heuristikách (jako je např. modularita) grafové shlukování Obecně je lze rozdělit na metody, které určují skupiny vrcholů shora dolů zdola nahoru nepřekrývající se komunity překrývající se komunity MADII 2018/19 9

Metody zdola nahoru V jistém smyslu jsou všechny sítě tvořeny skupinami vrcholů (resp. podgrafy). Každá hrana spojuje dva vrcholy, tj. tvoří skupinu (podgraf) tzv. dyádu, K 2. O struktuře sítě vzhledem ke skupinám vrcholů můžeme přemýšlet tak, že se budeme snažit zjistit, jak daleko lze tento druh blízkého vztahu rozšířit (propagovat) např. z K 2 na K 3 atd. Celou síť tedy můžeme zkoumat např. vzhledem k velikosti různých klik, klikám podobných struktur, jejich překryvům apod. Tento přístup k myšlení o dílčích strukturách sítí se snaží odkrýt, jak může vzniknout makrostruktura z mikrostruktur. Nejprve se zaměří na jednotlivce a zkoumá jak jsou zakotveni v překrývajících se skupinách, ze kterých vzniknou větší struktury. MADII 2018/19 10

Metody shora dolů Přístupy tohoto typu mají tendenci dívat se na celé" sítě a identifikovat podsítě jako součásti, které jsou lokálně hustšími sítěmi. Tento pohled shora může např. hledat slabá místa v celé síti nebo soudržnost sítě. Slabá místa mohou vést k rozdělení sítě na podsítě. MADII 2018/19 11

Komunity Co oovlivňuje soudržnost skupiny vrcholů?: Vzájemná propojení - každý vrchol ve skupině vrcholů má vazby na ostatní vrcholy (přísné, splňuje jen klika) Kompaktnost malá vzdálenost vrcholů ve skupině, dosažitelnost vrcholů v malém počtu kroků (ne nutně sousedních) Hustota - vysoký počet hran mezi vrcholy v rámci skupiny Oddělení (separace) - vyšší četnost hran mezi vrcholy ve skupině v porovnání s četností hran mezi vrcholy z různých skupin Jak změřit kvalitu komunit pomocí hustoty (když už komunity máme) MADII 2018/19 12

Dělení grafu Graph partitioning (dělení grafu) rozdělení vrcholů sítě na určitý počet g skupin zhruba stejné velikosti se současnou minimalizací počtu hran mezi vrcholy z různých skupin Výsledkem jsou nepřekrývající se komunity Většina algoritmů používá princip tzv. iterative bisection najdeme nejlepší rozdělení celého grafu do dvou skupin, a pak dále dělíme dvě získané skupiny, dokud nemáme potřebný počet skupin, např.: Kernighan Lin algoritmus Spectral bisection (spektrální dělení) MADII 2018/19 14

Detekce Uvažujeme pouze řídké grafy Každá komunita by měla být souvislým grafem Kombinatorický problém: kritérium a metoda optimalizace Přesné řešení NP-těžký problém (bi-partition: n = n 1 + n 2, n!/(n 1!n 2!) kombinací) Řešíme pomocí hladových, přibližných algoritmů nebo pomocí heuristik Rekurzivní bi-partition, nebo multi-partition Vyvážené shluky vs. komunity MADII 2018/19 15

Graph partitioning Graph partitioning hledání minimálního řezu Kombinatorický problém k! / (j! (k-j)!) 16

Řezy (minimalizace) 19

Shlukování na základě podobnosti Vstup: graf G=(V,E) a váhy hran (obecně libovolná míra podobnosti) matice vah (cen) W = (w ik ), pokud w(v i, v k ) > w 0, kde w 0 je nějaký treshold v i podobný v k v i a v k ve stejném shluku Matice vah binární matice (podobnosti) S = (s ik ) s ik = 1 pro w(v i, v k ) > w 0 s ik = 0 jinak Graf podobnosti uzly grafu s ik = 1 hrana mezi vrcholem v i a v k MADII 2018/19 20

Shlukování na základě podobnosti Similarity based vertex clustering Komunity - skupiny vrcholů, které se navzájem podobají. Podobnostní míry Jaccard similarity, Cosine similarity, Pearson correlation, Eucledian distance (dissimilarity) Obecně: Vypočtěte podobnost mezi všemi dvojicemi vrcholů v grafu (matice podobnosti) Seskupte dohromady vrcholy s vysokou podobností Pak aglomerativní shlukování MADII 2018/19 21

Váha hrany - podobnost Např. Structural equivalence dva vrcholy jsou SE, jestliže sdílejí mnoho ze svých sousedů Nejjednodušší SE počet společných sousedů n = A ij k ik A kj MADII 2018/19 23

Shlukování na základě podobnosti MADII 2018/19 26

Shlukování na základě podobnosti MADII 2018/19 27

28

Zachary s Karate Club MADII 2018/19 30

Kliky Klika (clique) grafu je takový podgraf nějakého (neorient.) grafu, který je úplným grafem Kliky se mohou překrývat Výskyt kliky v grafu reprezentuje velkou soudržnost nějaké skupiny,! ale ani v soc. sítích neex. perefktní kliky, spíše něco velmi blízko kliky CPM metoda MADII 2018/19

Kliky Maximální klika je klika, kterou nelze rozšířit o další sousední vrchol Největší klika je klika největší možné velikosti v daném grafu Klikovost grafu je velikost největší kliky Výpočetní složitost (pro řídké grafy): Nalezení kliky dané pevné velikosti k - O(n k k 2 ) Hledání nejveětší kliky O(3 n/3 ) 32

Kliky Karate Club maximální kliky Největší kliky MADII 2018/19 33

N-kliky Nevýhoda kliky příliš přísná definice N-klika (N-clique) - je možno je definovat vrcholy jako členy kliky, pokud jsou připojeny ke každému jinému členu skupiny, ve vzdálenosti větší než jedna, obvykle se používá vzdálenost N=2, což to odpovídá přítel přítele. Vede to ale často ke dlouhým a stringy skupinám. Vrchol z N-kliky také může sousedit s vrcholem, který není jejím prvkem např. pro sociology nevhodná vlastnost. Př. 2-kilka {2,3,4,5,6} MADII 2018/19 34

K-plex K-plex je maximální podmnožina množiny n vrcholů taková, že každý její vrchol je incidentní s alespoň n-k vrcholy 1-plex je klasická klika, sousedí s n-1 vrcholy Neex. pravidlo pro stanovení hodnoty k pro malé skupiny malé k, pro velké větší k, nebo např. zobecnění řekneme s kolika % vrcholů má být vrchol spojen Mohou se překrývat Generují spíše mnoho malých skupin (na rozdíl od N-klik) MADII 2018/19 35

K-core K-core - je maximální podmnožina vrcholů takových, že každý vrchol je incidentní s alespoň k vrcholy této podmnožiny, tj. každý vrchol má stupeň alespoň k: Tj. vrchol je členem skupiny vrcholů, pokud je sousedem alespoň k ostatních vrcholů, bez ohledu na to s kolika vrcholy sousedem není. Nemohou se překrývat k-core na n vrcholech je zároveň (n-k)-plex Velikost pro jednotlivé k-core se liší Je snadné nalézt množinu všech K-core v síti: Postup odstraníme všechny vrcholy se stupněm < k (nemohou být součástí k-core), toto opakujeme tak dlouho, dokud se v grafu vyskytují vrcholy se stupněm <k. Nakonec zůstane množina všech k-core MADII 2018/19 37

K-core MADII 2018/19 38

K-core 39

K-core Karate club 40

K komponenta Pro doplnění ještě K komponenta: e max podmnožina vrcholů taková, že každý vrchol je dostupný ze zbývajících po k vrcholově disjunktních cestách. Nebo - max podmnožina vrcholů taková, že žádná dvojice vrcholů se nestane nedostupnou odstraníme-li méně než k vrcholů (vrcholový řez) Pro k >= 3 k-komponenty nesousedí, pro k=1, 2 zpravidla ano Např. pro testování odolnosti sítí, MADII 2018/19 41

Hledání komunit Mnoho komunitních algoritmů je založeno na určování Vnitřní souvislosti (internal connectivity) Vnější souvislosti (external connectivity) A k měření kvality používají např. cut-based measures Existují jiné přístupy? MADII 2018/19 42