Metody analýzy dat I Míry a metriky - pokračování
Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [97-102] http://tuvalu.santafe.edu/~aaronc/courses/5352/ csci5352_2017_l1.pdf http://tuvalu.santafe.edu/~aaronc/courses/5352/ csci5352_2017_l2.pdf Albert-László Barabási. Network Science http://barabasi.com/networksciencebook/ kapitola 2
Reciprocity Má smysl se zabývat také jinými cykly než trojúhelníky V orient. grafu se často měří výskyt orient. cyklu délky 2 reciprocity Nebo lokální reciprocita Dvojice takových hran se také nazývá co-links (zejména v kontextu webu) r i = 1 d i j A ij A ji
Similarity Similarity (podobnost) Structural equivalence dva vrcholy jsou SE, jestliže sdílejí mnoho ze svých sousedů Regular equivalence dva vrcholy jsou RE jestliže jejich sousedé jsou si sobě podobní (themselves similar) Nejjednodušší SE počet společných sousedů n = A A ij Moc toho ale nevypovídá k ik kj
Cosine similarity Pro neorient. graf V geometrii skalární součin dvou vektorů x, y: x*y= x * y *cos θ cos θ = x*y/ x * y σ = cosθ = ij k A k Protože v matici sousednosti jsou jen 0 nebo 1, A ij2 =A ij pro i,j, pak A 2 kde d i je stupeň vrcholu i ik = Aik = di k σ ij = k k A d ik i d A j 2 ik kj A ik = A k kj A 2 jk n d ij i d j
Cosine similarity Příklad obr σ ij = n d ij i d j = 3 4 5 = 0.671 Další metrika pro SE - Pearson coefficients 6
Tranzitivita - shlukovací koeficient
Tranzitivita - shlukovací koeficient Shlukovací koeficient C měří hustotu trojúhelníků (lokálních shluků) v grafu, tj. existence trojúhelníků, resp. existence hrany sousedsoused daného vrcholu Různé způsoby měření: C (1) = 3*number of triangles in the network number of connected triplesof vertices
Příklad 1 4 2 3 5 3 C (1) = = 1 + 1 + 6 3 8 Jeden trojúhelník a osm spojených trojic vrcholů
Shlukovací koeficient Shlukovací koef. pro vrchol i triangles centered at node i C i = triples centered at node i C (2) = 1 n i C i Průměr podílů, pro vrcholy se stupněm 0, 1 je C i = 0
Příklad 1 4 1 C (2) = ( 1 + 1 + 1 6) = 5 13 30 2 3 5 C (1) = 3 8 Lokální koeficienty vrcholů jsou 1,1,1/6,0,0. Tyto dva koeficienty C (1), C (2) dávají různé výsledky. C (2) roste s počtem vrcholů s nízkým stupněm.
Shlukovací koeficient S.k. může být definován také jako C i = number of pairs of neighbors of i that are connected number of pairs of neighbors of i Trojúhelníková mřížka: d(d-1)/2= (6*5)/2=15, 6/15=0.4=C (pro každý vrchol) Čtvercová mřížka má C=0
Shlukovací koeficient ještě jinak Podgraf trojúhelníkové mřížky indukovaný vrcholem i (s centrem ve vrcholu) i: 2*6/6*5= =12/30=0.4=C i
Souvislost
Souvislost Souvislost lze určit kterýmkoliv algoritmem na principu procházení grafem (Floyd,...)
Stupně (neor. graf) Z matice sousednosti A určíme stupeň vrcholu jako Počet hran v grafu m Průměrný stupeň µ d =< d >= di = n i= 1 n Posloupnost stupňů [d 1, d 2,, d n ] Distribuce stupňů pravděpodobnost P(d) = 1 2 n d i i= 1 1 n 2m d P(d)
Hustota Velikost sítě sítě jsou zpravidla velké, tj. počet vrcholů je velký Hustota sítě sítě jsou zpravidla řídké Řídký vs. hustý graf (síť) Rozlišení je často vágní, liší se podle kontextu Nejčastěji Řídký graf - n km, m = O(n) Hustý graf m = Θ(n 2 ) Hustota (density) H: průměrný stupeň pro neorientovaný graf je <d> = 2m/n po vydělení největším stupněm (n-1) 2m/n*(n-1) H = m / 0.5*n*(n-1), H <0,1>
Vzdálenost v grafu Mějme např. pravidelnou mřížku (v 2D prostoru) - vzdálenost daná metrikou Eukleidovská metrika Metrika Manhattan O sítích obecně ale zpravidla neuvažujeme v kontextu souřadnic reálného prostoru. Reálné sítě potvrzuji tzv. fenomén malého světa malá průměrná vzdálenost L L log n
Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks)
Základní (strukturální) vlastnosti sítí Mnoho reálných sítí vykazuje určité společné rysy, bez ohledu na to z jak diametrálně odlišných oblastí, jako jsou sociální sítě, telekomunikačních sítě atp., pocházejí. Jednoduchá měření struktury sítě jsou základem téměř každé síťové analýzy či modelování sítí. Tj. pro danou síť existuje mnoho vlastností jejichž analýzou (měřením) můžeme charakterizovat její strukturu.
Základní (strukturální) vlastnosti sítí Stupně vrcholů a jejich distribuce rozsáhlé reálné sítě mají tu vlastnost, že mnoho uzlů má malý počet sousedů (malý stupeň), ale některé mají velmi vysoký počet sousedů (vysoký stupeň) distribuce stupňů odpovídá tzv. mocninnému rozdělení - power-law degree distribution. Vzdálenosti - průměr (diameter) - mnoho rozsáhlých reálných sítí má malý průměr - small-world phenomenon Existence shluků - je-li uzel a spojen s uzlem b, a je-li zároveň uzel b spojen s uzlem c, je pravděpodobné, že uzel c bude spojen také s uzlem a. Mnoho rozsáhlých reálných sítí má vysoký clustering coefficient (shlukovací koeficient). Souvislost sítě jsou zpravidla nesouvislé a v mnoha sítích existuje jedna velká komponenta (giant component) s řádově O(n) vrcholy.
Distribuce stupňů Lokální vlastnosti počet sousedů Mřížka všechny vrcholy jsou stejného stupně (<d>=dim(dim+1) pro trojúhelníkovou a <d> =2dim pro čtvercovou mřížku, kde dim je dimenze prostoru) Teorie grafů stupeň vrcholu d, průměrný stupeň <d>=2m/n (pro řídký graf je <d> jednotkového řádu, nebo <d> roste tak rychle jako roste n), obecně ale různé stupně Karate club:
Distribuce stupňů U náhodného grafu je distribuce stupňů binomická Průměrně máme m=p*n*(n-1) /2 hran, průměrný stupeň je <d>=p(n-1) Pro velká n aproximujeme Poissonovým rozdělením, konec (tail) padá trochu rychleji, tj. v podstatě neexistují vrcholy se stupněm větším než d max, kde počet vrcholů s d=d max je 1 N = 10^6,<d>=4, Random Graph d
Poissonovo rozdělení Binomické x Poissonovo rozdělení
Bezškálové grafy Potřebujeme ale model, kde distribuce stupňů bude mít dlouhý konec, odrážející existenci center v reálných sítích N = 10^6,<d>=4, Random Graph & Scale/free log (d)
Bezškálové grafy lineární měřítko log-log měřítko Mocninné rozdělení p(d) d -α, d je stupeň vrcholu Velmi šikmé (asymetrie) Přímka v logaritmickém měřítku