Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy

Podobné dokumenty
Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

Metody analýzy dat I. Míry a metriky - pokračování

Metody analýzy dat I (Data Analysis I) Míry a metriky (Measures and Metrics) - - pokračování

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

PROSTOROVÉ ANALÝZY DAT

Zdůvodněte, proč funkce n lg(n) roste alespoň stejně rychle nebo rychleji než než funkce lg(n!). Symbolem lg značíme logaritmus o základu 2.

Metody analýzy dat II

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Grafové algoritmy. Programovací techniky

Vzdálenost uzlů v neorientovaném grafu

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

TGH06 - Hledání nejkratší cesty

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Algoritmus pro hledání nejkratší cesty orientovaným grafem

07 Základní pojmy teorie grafů

Graf. Uzly Lokality, servery Osoby fyzické i právní Informatické objekty... atd. Hrany Cesty, propojení Vztahy Informatické závislosti... atd.

TGH06 - Hledání nejkratší cesty

Základní pojmy teorie grafů [Graph theory]

Paralelní grafové algoritmy

Algoritmy na ohodnoceném grafu

Grafy. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta.

Dynamické programování

4EK311 Operační výzkum. 5. Teorie grafů

Grafové algoritmy. Programovací techniky

Úvod do teorie grafů

opakování reprezentace grafů, dijkstra, bellman-ford, johnson

Teorie grafů BR Solutions - Orličky Píta (Orličky 2010) Teorie grafů / 66

Metody analýzy dat I (Data Analysis I) Modely - pokračování

Základy informatiky. 07 Teorie grafů. Kačmařík/Szturcová/Děrgel/Rapant

Kapitola 11. Vzdálenost v grafech Matice sousednosti a počty sledů

Jan Březina. 7. března 2017

TEORIE GRAFŮ TEORIE GRAFŮ 1

Operační výzkum. Síťová analýza. Metoda CPM.

Metody analýzy dat I (Data Analysis I) Modely pokračování Model malého světa

Usuzování za neurčitosti

Teorie grafů. Kostra grafu. Obsah. Radim Farana Podklady pro výuku pro akademický rok 2013/2014

PB050: Modelování a predikce v systémové biologii

Algoritmizace prostorových úloh

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

Jarníkův algoritmus. Obsah. Popis

TGH02 - teorie grafů, základní pojmy

opakování reprezentace grafů, dijkstra, bellman-ford, johnson

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

9. přednáška z předmětu GIS1 Digitální model reliéfu a odvozené povrchy. Vyučující: Ing. Jan Pacina, Ph.D.

TGH05 - aplikace DFS, průchod do šířky

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

IV117: Úvod do systémové biologie

H {{u, v} : u,v U u v }

Metody síťové analýzy

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

TGH05 - aplikace DFS, průchod do šířky

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2015

PROHLEDÁVÁNÍ GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Diskrétní matematika. DiM /01, zimní semestr 2018/2019

Moderní aplikace statistické fyziky II - TMF050

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

MADI. Model bezškálového grafu (Scale-free graphs) - pokračování

Rekurentní rovnice, strukturální indukce

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

Přijímací zkouška - matematika

ORIENTOVANÉ GRAFY, REPREZENTACE GRAFŮ

Metody analýzy dat II

KGG/STG Statistika pro geografy

TGH02 - teorie grafů, základní pojmy

Diagnostika síťových aplikací - Zkouška

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

TGH08 - Optimální kostry

STROMOVE ALGORITMY Prohledavani do sirky (level-order) Po vodorovnejch carach fronta

Dynamické programování

Grafové algoritmy. Programovací techniky

zejména Dijkstrův algoritmus pro hledání minimální cesty a hladový algoritmus pro hledání minimální kostry.

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.

Státnice odborné č. 20

Prohledávání do šířky = algoritmus vlny

3. Prohledávání grafů

Úvod do mobilní robotiky AIL028

B3B33ALP - Algoritmy a programování - Zkouška z předmětu B3B33ALP. Marek Boháč bohacm11

B3B33ALP - Algoritmy a programování - Zkouška z předmětu B3B33ALP. Marek Boháč bohacm11

2. RBF neuronové sítě

TGH02 - teorie grafů, základní pojmy

Teorie grafů. zadání úloh. letní semestr 2008/2009. Poslední aktualizace: 19. května First Prev Next Last Go Back Full Screen Close Quit

Rekurentní rovnice, strukturální indukce

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

ALGORITMY A DATOVÉ STRUKTURY

Řešení: PŘENESVĚŽ (N, A, B, C) = přenes N disků z A na B pomocí C

Pravděpodobnost a statistika I KMA/K413

Stromy, haldy, prioritní fronty

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

CLARKEOVA-WRIGHTOVA METODA ŘEŠENÍ ÚLOHY VRP

Digitální učební materiál

Teoretická informatika Tomáš Foltýnek Barvení grafů Platónská tělesa

4. Aplikace matematiky v ekonomii

NEJKRATŠÍ CESTY I. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

VLASTNOSTI GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze. BI-GRA, LS 2010/2011, Lekce 5

Digitální model reliéfu (terénu) a analýzy modelů terénu

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Binární vyhledávací stromy pokročilé partie

Transkript:

Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy

Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [235-270] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [102-115] http://tuvalu.santafe.edu/~aaronc/courses/5352/ csci5352_2017_l1.pdf

Základní (strukturální) vlastnosti sítí Mnoho reálných sítí vykazuje určité společné rysy, bez ohledu na to z jak diametrálně odlišných oblastí (jako jsou sociální sítě, telekomunikačních sítě atp.) pocházejí. Jednoduchá měření struktury sítě jsou základem téměř každé síťové analýzy či modelování sítí. Tj. pro danou síť existuje mnoho vlastností jejichž analýzou (měřením) můžeme charakterizovat její strukturu.

Strukturální vlastnosti sítí Stupně vrcholů a jejich distribuce rozsáhlé reálné sítě mají tu vlastnost, že mnoho uzlů má malý počet sousedů (malý stupeň), ale některé mají velmi vysoký počet sousedů (vysoký stupeň) distribuce stupňů odpovídá tzv. mocninnému rozdělení - power-law degree distribution. Vzdálenosti - průměr (diameter) - mnoho rozsáhlých reálných sítí má malý průměr - small-world phenomenon Existence shluků - je-li uzel a spojen s uzlem b, a je-li zároveň uzel b spojen s uzlem c, je pravděpodobné, že uzel c bude spojen také s uzlem a. Mnoho rozsáhlých reálných sítí má vysoký clustering coefficient (shlukovací koeficient). Souvislost sítě jsou zpravidla nesouvislé, ale v mnoha sítích existuje jedna velká komponenta (giant component) s řádově O(n) vrcholy.

Hustota Velikost sítě sítě jsou zpravidla velké, tj. počet vrcholů je velký Hustota sítě sítě jsou zpravidla řídké Řídký vs. hustý graf (síť) Rozlišení je často vágní, liší se podle kontextu Nejčastěji Řídký graf - n km, m = O(n) Hustý graf m = Θ(n 2 ) Hustota (density) H: průměrný stupeň <d> = 2m/n po vydělení největším stupněm (n-1) 2m/n*(n-1) H = m / 0.5*n*(n-1), H <0,1>

Stupně (neor. graf) Z matice sousednosti A určíme stupeň vrcholu jako Počet hran v grafu m Průměrný stupeň µ d =< d >= di = n i= 1 n Posloupnost stupňů [d 1, d 2,, d n ] Distribuce stupňů pravděpodobnost P(d) = 1 2 n d i i= 1 1 n 2m d P(d)

Distribuce stupňů Lokální vlastnosti počet sousedů Průměrný stupeň <d>=2m/n (pro řídký graf je <d> jednotkového řádu, nebo alespoň <d> roste tak rychle jako n), obecně ale různé stupně Mřížka všechny vrcholy jsou stejného stupně (<d>=dim(dim+1) pro trojúhelníkovou a <d> =2dim pro čtvercovou mřížku) Karate club:

Vzdálenost v grafu Např. pravidelná mřížka (v reálném prostoru) - vzdálenost daná metrikou Eukleidovská metrika Metrika Manhattan O sítích obecně ale zpravidla neuvažujeme v kontextu souřadnic reálného prostoru. Jak porovnat mřížku, náhodný graf (později) a jiné typy grafů se stejným počtem vrcholů? Např. Pomocí grafové vzdálenosti Velikost grafu (měřená vzdáleností, průměrem, ) roste: dim-rozměrná mřížka n 1/dim náhodný graf log(n)

Průměr, průměrná vzdálenost Nejkratší cesta (shortets path, geodesic path) Mezi všemi dvojicemi vrcholů Z výchozího Rozlišit ohodnocený, neohodnocený Diameter = průměr (nejdelší nejkratší cesta), D Mean shortest path - průměrná nejkratší cesta, L Orientovaný, ohodnocený Floydův, Dijkstrův, Bellman-Fordův Neorientovaný, neohodnocený BFS, DFS, ale rovněž Floydův, Dijkstrův, Bellman- Fordův

Souvislost Obr. A) n=6, m=6, průměrná vzdál. =1.87 (30 uspoř. dvojic vrcholů), průměr =3 Souvislost lze určit kterýmkoliv algoritmem na principu procházení grafem (Floyd,...)

Metody analýzy dat I (Data Analysis I) Modely

Literatura Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [112-133] http://arxiv.org/pdf/cond-mat/0405123v1.pdf http://tuvalu.santafe.edu/~aaronc/courses/5352/csci 5352_2017_L3.pdf

Modely Pokud umíme určit např. průměr D, průměrnou nejkratší cestu L, shlukovací koeficient C nebo třeba distribuci stupňů, můžeme se ptát jaký vliv to má na chování sítě. Odpovědi mohou dát modely, které reprodukují vlastnosti reálných sítí. 3 základní modely (další v následujícím semestru ): Náhodný graf Random graph Model malého světa Small-world graph Bezškálový graf (Barabási-Albertové model) Scalefree graph

Pravidelné grafy (mřížky) Nejjednodušší pohled - Pravidelný (regulární) graf všechny vrcholy stejného stupně (Eukleidovské) mřížky (lattices) př. pevné látky a jejich krystalová mřížka (vrcholy atomy, hrany nejdůležitější vazby) Vlastnosti pravidelných grafů Průměr D velký Shlukovací koeficient C vysoký (nebo 0 u čtvercové mřížky) distribuce stupňů konstantní souvislé Reálné sítě nejsou pravidelné grafy

Pravidelné grafy Na všech obr. je pravidelný graf s n=20, m=40, m=2n (řídký graf), různé nakreslení (graph drawing) Obr. A) pravidelná mřížka ve 2D, Pro obr. C) L=2.32, průměr D=4, C=0

Náhodné grafy Z hlediska modelování je síť relativně jednoduchý objekt, skládající se pouze z uzlů a hran. Jak ale rozhodnout, kam umístit hrany mezi uzly tak, abychom reprodukovali složitost skutečného systému? Jednoduchá je filozofie náhodného grafu: Předpokládáme, že tento cíl dosáhneme nejlépe tak, že hrany umístíme náhodně mezi uzly. Náhodný graf (síť, random network) se skládá z n uzlů a každá dvojice uzlů je spojena hranou s pravděpodobností p.

Náhodné grafy Od r. 1959 do 90. let 20. století sítě modelovány jako náhodné grafy Náhodný graf máme množinu n vrcholů, pravděpodobnost hrany je p Každá hrana je stejně pravděpodobná Rozdílné modely náhodných grafů mají různé rozdělení pravděpodobnosti (nějakého jevu) Research questions, eg: Vyberu-li zcela náhodně jeden uzel grafu, jaká je pravděpodobnost P(d), že bude mít stupeň právě d?

Náhodné grafy n=20, m=40, náhodně spojíme dvojici vrcholů s p=2m/(n(n-1))=0.2105 Relativní pozice vrcholů není důležitá (na rozdíl od např. krystalové mřížky) Obr. A) L=2.17, průměr D=5, C=0.134, náhodný graf Obr. B) L=2.22, D=4, C=0.15, pravidelný graf

Dvě definice náhodné sítě G n,m model: n uzlů je spojeno právě m náhodnými hranami (Erdős a Rényi) G n,p model: n uzlů, každá dvojice uzlů je spojena hranou s pravděpodobností p (model zavedený Gilbertem). Model G n,p určuje pravděpodobnost p, že dva uzly jsou spojeny hranou a model G n,m určuje celkový počet hran m. Zatímco v modelu G n,m je průměrný stupeň jednoduše <d> = 2m / n, v modelu G n,p lze jednodušeji vypočítat jiné další charakteristiky sítě. Používá se model G n,p zejména proto, že v reálných sítích není počet pevný. Paradoxně se model označuje jako Erdős Rényi model náhodného grafu, přestože ho navrhl Gilbert. Ale vliv E+R na vývoj byl mnohem důležitější, proto ER model

Erdős Rényi model náhodného grafu Paul Erdös a Alfréd Rényi

Opak pravidelné mřížky G n,p model je určen n počtem vrcholů 0 p 1 Erdős Rényi model náhodného grafu Pro každou dvojici vrcholů (i,j) se generuje hrana (i,j) nezávisle s pravděpodobností p, tj. každá hrana v grafu s n vrcholy existuje s pravděpodobností p a neexistuje s pravděpodobností 1-p.

p=0.01

Počet hran se v náhodných sítích liší mezi realizacemi. Nahoře p=1/6 and n=12, dole p=0.03 and n=100 (některé vrcholy mají d=0)

Perkolace Vývoj grafu (graph evolution) - která vlastnost grafu je zachována roste-li p? Perkolace, fázový přechod, perkolační práh, treshold phenomenon: existuje pravděpodobnost p c taková, že pro p<p c téměř všechny grafy G n,p nějakou vlastnost nemají a pro p>p c vlastnost mají téměř všechny G n,p grafy. Prahová hodnota p c pochází z tzv. teorie perkolace. Pro mřížky a náhodné grafy se p c analyzuje snadno

Perkolace v mřížce

Souvislost Obr. A) n=6, m=6, L=1.87 (30 uspoř. dvojic vrcholů), D=3 Pravidelná mřížka je vždy souvislá, což neplatí pro náhodné grafy - u těch potřebujeme nejméně n-1 hran Erdős Rényi On Random Graphs I, 1959 ukázali, že náhodný graf je pravděpodobně souvislý má-li nejméně n*log(n)/2 hran pro velká n. Zformování velké komponenty http://networksciencebook.com/images/ch-03/video-3-2.m4v

Vlastnosti G n,p Vlastnosti G n,p : průměr D a průměrná vzdálenost L malé koeficient shlukování C nízký distribuce stupňů Poissonovo rozdělení Jak se na to přišlo? Experimentálně i analyticky.

Vlastnosti G n,p Vlastnosti G n,p se obvykle vyjadřují ve vztahu k hodnotě průměrného stupně <d> Průměrný počet hran v grafu G n,p je m=p*n*(n-1)/2, každá hrana je incidentní s dvěma vrcholy, proto je průměrný stupeň vrcholu < d >= n(n -1)p n = (n 1)p což je asi <d>=np pro velká n.

Distribuce stupňů v G n,p If we toss a fair coin N times, tails and heads occur with the same probability p = 1/2. The binomial distribution provides the probability p x that we obtain exactly x heads in a sequence of N throws. In general, the binomial distribution describes the number of successes in N independent experiments with two possible outcomes, in which the probability of one outcome is p, and of the other is 1-p. Pravděpodobnost p(d), že daný vrchol grafu o n vrcholech má stupeň d je dána binomickým rozdělením n -1 p(d) = B(n;d; p) = p d d n 1- d ( 1 p)

Distribuce stupňů v G n,p Předpokládejme <d>=np = c, kde c je naše požadovaná hodnota průměrného stupně, n, B(n,d,p) pak lze aproximovat Poissonovým rozdělením d c c p(d) = P(d;c) = e Obě distribuce jsou koncentrovány kolem prům. stupně <d>, konec klesá exponenciálně, jako 1/d!, pro d > <d> d!

Distribuce stupňů v G n,p Pozn. Poissonovo rozdělení obecně lze pro všechny hodnoty x=0,1,2,... náhodné veličiny X vyjádřit pomocí parametru λ>0 jako Nejnižší resp. nejvyšší stupeň vrcholů náhodného grafu jsou určeny pro různá p Jestliže p n -1-1/d, pak téměř žádný náhodný graf nemá vrcholy se stupněm vyšším než d. Pro dostatečně velké p, tj. je-li p n/log(n) mají náhodné grafy nejvyšší stupeň řádově jako je stupeň průměrný, tedy mají poměrně homogenní stupně.

Poissonovo rozdělení Binomické a Poissonovo rozdělení

Poissonovo rozdělení Jen málo vrcholů v náhodném grafu má velmi malý resp. velmi velký stupeň, většina vrcholů má průměrný stupeň Scale-free graf (A) a náhodný graf (B) mocninné (C) a Poissonovo rozdělení (D)

Vzdálenosti v G n,p Náhodné grafy mají tendenci mít malou průměrnou vzdálenost, zpravidla okolo (log n/log<d>). <d> <1 typický náhodný graf je složen z izolovaných stromů, průměrná vzdálenost pak odpovídá průměrné vzdálenosti stromu <d> >1 v grafu ex. obrovská komponenta. Je li <d> >3.5 je průměrná vzdálenost grafu rovna průměrné vzdálenosti této obrovské komponenty a je úměrná L=log n/log<d> <d> >log n, téměř každý náhodný graf je souvislý a průměrné vzdálenosti L těchto grafů nabývají několika hodnot okolo L=log n/log<d>

Souvislost a G n,p Pro p=0 máme diskrétní graf s n komponentami a velikost komponenty je řádově O(1/n). Pro p=1 máme úplný graf s 1 komponentou a největší komponenta (jediná) má n vrcholů. A mezi tím?

Souvislost a G n,p Jestliže je <d> <1 (počet hran m je malý), pak graf obsahuje mnoho malých komponent (souvislých), největší komponenta má počet vrcholů nejvýše O(log n). Téměř všechny komponenty jsou buď stromy nebo obsahují právě jeden cyklus. Je-li <d> >1, největší komponenta má velikost Θ(n) a druhá největší O(log n). Jestliže <d> >log n, graf je souvislý. Jestliže <d> =1, nastane změna, která vede ke vzniku obrovské komponenty O(n 2/3 ), ve které platí mocninný zákon (později).

Souvislost a G n,p S je velikost největší komponenty vyjádřená poměrem k celkové velikosti sítě

Shlukování v G n,p Mějme uzel, jeho sousedy, pak pravděpodobnost, že dva z těchto sousedů jsou spojeny hranou je rovna pravděpodobnosti, že dva náhodně vybrané vrcholy jsou spojeny hranou, tedy shlukovací koeficient C = p. Jinak: v náhodném grafu (na rozdíl od trojuh. mřížky) není důvod, aby soused souseda vrcholu i měl nějaký vztah k i. Náhodný graf s n vrcholy má pn(n-1)/2 možných hran, pokud máme M hran, C=2M/n(n-1)= =<d>/(n-1)=p, kde (<d>=c)

Shlukování v G n,p <d> <d>

G n,p p 0 0.045 0.09 1.0 <d> 0 0.5 1 n L 0 2.0 4.2 1.0 D 0.0 4 7 1 Počet vrcholů v největší komponent ě 1 5 11 12

G n,p efekt průměrného stupně <d> Pro <d>< 1: Malé, izolované shluky Malý průměr D Malá L pro <d> = 1: Objevuje se velká komponenta Průměr D dosahuje vrcholu L je velká pro <d> > 1: Téměř všechny vrcholy propojeny Průměr D se snižuje L klesá d

Příklad - Zachary's karate club

Závěr - G n,p Model náhodného grafu nevyhovuje reálným sítím zejména proto, že: Reálné grafy mají mocninné rozdělení distribuce stupňů (power-law), ne Poissonovo. Reálné sítě mají často vysoký shlukovací koeficient, náhodné grafy mají obecně malý shlukovací koeficient, který se s rostoucím n blíží k 0 (při konstantní p). Reálné sítě mají komunitní strukturu (vysvětlíme později v MAD2) Jiné modely sítí vyhovující reálným sítím lépe, začaly vznikat koncem 90. let m.s.