Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování
Základní (strukturální) vlastnosti sítí Stupně vrcholů a jejich distribuce rozsáhlé reálné sítě mají tu vlastnost, že mnoho uzlů má malý počet sousedů (malý stupeň), ale některé mají velmi vysoký počet sousedů (vysoký stupeň) distribuce stupňů odpovídá tzv. mocninnému rozdělení - power-law degree distribution. Existence shluků - je-li uzel a spojen s uzlem b, a je-li zároveň uzel b spojen s uzlem c, je pravděpodobné, že uzel c bude spojen také s uzlem a. Mnoho rozsáhlých reálných sítí má vysoký clustering coefficient (shlukovací koeficient). Vzdálenosti - průměr (diameter) - mnoho rozsáhlých reálných sítí má malý průměr - small-world phenomenon Souvislost sítě jsou zpravidla nesouvislé a v mnoha sítích existuje jedna velká komponenta (giant component) s řádově O(n) vrcholy.
Vzdálenost v grafu Např. pravidelná mřížka (v reálném prostoru) - vzdálenost daná metrikou Eukleidovská metrika Metrika Manhattan O sítích obecně ale zpravidla neuvažujeme v kontextu souřadnic reálného prostoru. Jak porovnat mřížku, náhodný graf a jiné typy grafů se stejným počtem vrcholů? Pomocí grafové vzdálenosti Velikost grafu (měřená vzdáleností, průměrem, ) roste: dim-rozměrná mřížka n 1/dim náhodný graf log(n)
Průměr, průměrná vzdálenost Nejkratší cesta (shortets path, geodesic path) Mezi všemi dvojicemi vrcholů Z výchozího Rozlišit ohodnocený, neohodnocený Diameter = průměr (nejdelší nejkratší cesta), D Mean shortest path - průměrná nejkratší cesta, L Orientovaný, ohodnocený Floydův, Dijkstrův, Bellman-Fordův Neorientovaný, neohodnocený BFS, DFS, ale rovněž Floydův, Dijkstrův, Bellman- Fordův
Souvislost Obr. A) n=6, m=6, L=1.87 (30 uspoř. dvojic vrcholů), D=3 Pravidelná mřížka je vždy souvislá, což neplatí např. pro náhodné grafy - u těch potřebujeme nejméně n-1 hran Erdős Rényi On Random Graphs I, 1959 ukázali, že náhodný graf je pravděpodobně souvislý má-li nejméně n*log(n)/2 hran pro velká n. Souvislost lze určit kterýmkoliv algoritmem na principu procházení grafem (Floyd,...)
Metody analýzy dat I (Data Analysis I) Modely
Literatura Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [112-133] http://arxiv.org/pdf/cond-mat/0405123v1.pdf http://tuvalu.santafe.edu/~aaronc/courses/5352/csci 5352_2016_L3.pdf
Modely Vzhledem k průměru D, průměrné nejkratší cestě L, shlukovacímu koeficientu C a distribuci stupňů rozlišujeme 4 základní modely: Pravidelný graf (mřížka) - lattice Náhodný graf Random graph Model malého světa Small-world graph Bezškálový graf (Barabási-Albertové model) Scalefree graph
Pravidelné grafy (mřížky) Pravidelný (regulární graf) všechny vrcholy stejného stupně (Eukleidovské) mřížky (lattices) př. pevné látky a jejich krystalová mřížka (vrcholy atomy, hrany nejdůležitější vazby) Vlastnosti pravidelných grafů Průměr D velký Shlukovací koeficient C vysoký (nebo 0 u čtvercové mřížky) distribuce stupňů konstantní
Pravidelné grafy Na všech obr. je pravidelný graf s n=20, m=40, m=2n (řídký graf) Obr. A) pravidelná mřížka ve 2D, Pro obr. C) L=2.32, průměr D=4, C=0
Náhodné grafy Od 1959 do 90. let 20. století sítě modelovány jako náhodné grafy (random graphs) Náhodný graf máme množinu n vrcholů, hrany mezi nimi přidáváme náhodně s pravděpodobností p Každá hrana je stejně pravděpodobná Rozdílné modely náhodných grafů mají různé rozdělení pravděpodobnosti (nějakého jevu) Zkoumané vlastnosti, např.: Vyberu-li zcela náhodně jeden uzel grafu, jaká je pravděpodobnost P(d), že bude mít stupeň právě d? Jaká je průměrná vzdálenost? Jaká je souvislost grafu?
Náhodné grafy n=20, m=40, náhodně spojíme dvojici vrcholů s p=2m/(n(n-1))=0.2105 Relativní pozice vrcholů není důležitá (na rozdíl od např. krystalové mřížky) Obr. A) L=2.17, průměr D=5, C=0.134, náhodný graf Obr. B) L=2.22, D=4, C=0.15, pravidelný graf
Erdős Rényi model náhodného grafu Paul Erdös a Alfréd Rényi
Opak pravidelné mřížky Erdős Rényi model náhodného grafu Jejich model se označuje jako G n,p model, je určen n počet vrcholů 0 p 1 Pro každou dvojici vrcholů (i,j) se generuje hrana (i,j) nezávisle s pravděpodobností p, tj. každá hrana v grafu s n vrcholy existuje s pravděpodobností p a neexistuje s pravděpodobností 1-p.
p=0.01
Perkolace Vývoj grafu (graph evolution) - která vlastnost grafu je zachována roste-li p? Perkolace, fázový přechod, perkolační práh, treshold phenomenon: pro mnoho grafů ex. vlastnost současně - tedy existuje pravděpodobnost p c taková, že pro p<p c téměř všechny grafy vlastnost nemají a pro p>p c vlastnost mají téměř všechny grafy. Prahová hodnota p c pochází z tzv. teorie perkolace. Pro mřížky a náhodné grafy se p c analyzuje snadno
Perkolace v mřížce
Vlastnosti G n,p Vlastnosti G n,p : průměr D a průměrná vzdálenost L malé koeficient shlukování C nízký distribuce stupňů Poissonovo rozdělení Jak se na to přišlo? Experimentálně i analyticky.
Vlastnosti G n,p Vlastnosti G n,p se obvykle vyjadřují ve vztahu k hodnotě <d>, kde <d> je průměrný stupeň Průměrný počet hran v grafu G n,p je m=p*n*(n-1)/2, každá hrana je incidentní s dvěma vrcholy, proto průměrný stupeň vrcholu je < d >= n(n -1)p n = (n 1)p což je asi <d>=np pro velká n.
Distribuce stupňů v G n,p Pravděpodobnost p(d), že daný vrchol grafu o n vrcholech má stupeň d je dána binomickým rozdělením n -1 d n 1- d p(d) = B(n;d; p) = p ( 1 p) d Předpokládejme <d>=np = c, kde c je naše požadovaná hodnota průměrného stupně, n, B(n,d,p) pak lze aproximovat Poissonovým rozdělením d c c p(d) = P(d;c) = e d! Obě distribuce koncentrovány kolem prům. stupně <d>, konec klesá exponenciálně, jako 1/d!, pro d > <d>
Poissonovo rozdělení Binomické a Poissonovo rozdělení
Poissonovo rozdělení Jen málo vrcholů v náhodném grafu má velmi malý resp. velmi velký stupeň, většina vrcholů má průměrný stupeň Scale-free graf (A) a náhodný graf (B) mocninné (C) a Poissonovo rozdělení (D)
Distribuce stupňů v G n,p Pozn. Poissonovo rozdělení obecně lze pro všechny hodnoty x=0,1,2,... náhodné veličiny X vyjádřit pomocí parametru λ>0 jako Nejnižší resp. nejvyšší stupeň vrcholů náhodného grafu jsou určeny pro různá p Jestliže p n -1-1/d, pak téměř žádný náhodný graf nemá vrcholy se stupněm vyšším než d. Pro dostatečně velké p, tj. je-li pn/log(n) mají náhodné grafy nejvyšší stupeň řádově jako je stupeň průměrný, tedy mají poměrně homogenní stupně.
Vzdálenosti v G n,p Náhodné grafy mají tendenci mít malou průměrnou vzdálenost, zpravidla okolo (log n/log<d>). <d> <1 typický náhodný graf je složen z izolovaných stromů, průměrná vzdálenost pak odpovídá průměrné vzdálenosti stromu <d> >1 v grafu ex. obrovská komponenta. Je li <d> >3.5 je průměrná vzdálenost grafu rovna průměrné vzdálenosti této obrovské komponenty a je úměrná L=log n/log<d> <d> >log n, téměř každý náhodný graf je souvislý a průměrné vzdálenosti L těchto grafů nabývají několika hodnot okolo L=log n/log<d>
Souvislost a G n,p Pro p=0 máme diskrétní graf s n komponentami a velikost komponenty je řádově O(1/n). Pro p=1 máme úplný graf s 1 komponentou a největší komponenta (jediná) má n vrcholů. A mezi tím?
Souvislost a G n,p Jestliže je <d> <1 (počet hran m je malý), pak graf obsahuje mnoho malých komponent (souvislých), největší komponenta má počet vrcholů nejvýše O(log n). Téměř všechny komponenty jsou buď stromy nebo obsahují právě jeden cyklus. Je-li <d> >1, největší komponenta má velikost Θ(n) a druhá největší O(log n). Jestliže <d> >log n, graf je souvislý. Jestliže <d> =1, nastane změna, která vede ke vzniku obrovské komponenty O(n 2/3 ), ve které platí mocninný zákon.
Souvislost a G n,p S je velikost největší komponenty vyjádřená poměrem k celkové velikosti sítě
Shlukování v G n,p Mějme uzel, jeho sousedy, pak pravděpodobnost, že dva z těchto sousedů jsou spojeny hranou je rovna pravděpodobnosti, že dva náhodně vybrané vrcholy jsou spojeny hranou, tedy shlukovací koeficient C = p. Jinak: v náhodném grafu (na rozdíl od trojuh. mřížky) není důvod, aby soused souseda vrcholu i měl nějaký vztah k i. Náhodný graf s n vrcholy má pn(n-1)/2 možných hran, pokud máme M hran, C=2M/n(n-1)= =<d>/(n-1)=p, zde (<d>=c)
Shlukování v G n,p <d> <d>
G n,p p 0 0.045 0.09 1.0 <d> 0 0.5 1 n L 0 2.0 4.2 1.0 D 0.0 4 7 1 Počet vrcholů v největší komponent ě 1 5 11 12
G n,p efekt průměrného stupně <d> Pro <d>< 1: Malé, izolované shluky Malý průměr D Malá L pro <d> = 1: Objevuje se velká komponenta Průměr D dosahuje vrcholu L je velká pro <d> > 1: Téměř všechny vrcholy propojeny Průměr D se snižuje L klesá d
Příklad - Zachary's karate club
Závěr - G n,p Model náhodného grafu nevyhovuje reálným sítím zejména proto, že: Reálné grafy mají mocninné rozdělení distribuce stupňů (power-law), ne Poissonovo. Reálné sítě mají vysoký shlukovací koeficient, náhodné grafy mají obecně malý shlukovací koeficient, který se s rostoucím n blíží k 0 (při konstantní p). Reálné sítě mají komunitní strukturu (vysvětlíme později v MADII) Jiné modely sítí vyhovující reálným sítím lépe, začaly vznikat koncem 90. let m.s.