Metody analýzy dat I (Data Analysis I) Míry a metriky (Measures and Metrics) - - pokračování

Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [97-102] http://tuvalu.santafe.edu/~aaronc/courses/5352/ csci5352_2016_l2.pdf

Betweenness centrality Od ostatních centralit se liší tím, že neměří jaká je konektivita vrcholu, ale měří jak dobře vrchol zapadne mezi ostatní A BC obecně nabývá hodnot z velkého intervalu. Např. pro hvězdu a její centrální vrchol je BC maximální = n 2 n + 1

Betweenness centrality Mějme neorient. graf s nejvýše jednou nejkratší cestou mezi každou dvojicí vrcholů. Betweenness centrality vrcholu i je počet nejkratších cest procházejících vrcholem i. i n st bude 1, jestli-že vrchol i leží na nejkratší cestě mezi s a t, nebo 0, jestliže i na takové cestě neleží. Pak BC x i vrcholu i bude = i x i n st st Každá hrana dvakrát, můžeme vydělit 2. Pro orient. graf výpočet bez modifikace. Můžeme také snížit o 1 (nebudeme započítávat smyčku incidentní s vrcholem s=t). Jde ale o pořadí

Betweenness centrality Mezi dvojicí vrcholů s a t ale může ležet více nejkratších cest (nejkratších vzhledem k počtu hran), pak lze každé cestě přiřadit váhu 1/g st, kde g st je počet nejkratších cest mezi s, t. Množina nejkratších cest mezi s, t není vrcholově disjunktní, mezi vrcholy s a t může procházet více cest. Nechť g st je počet nejkr. cest mezi s, t, pak i x = st Pro orient graf stejně. i n g st st

Betweenness centrality Nejmenší BC v grafu s jednou komp. souvislosti je 2n-1 (připusťme s=i nebo i=t, ex. n-1 cest z daného vrcholu do ostatních, n-1 cest z ostatních vrcholů do daného vrcholu a jedna smyčka incidentní z daným vrcholem (2(n-1)+1)= 2n-1) Poměr max a min BC je ½ n, zpravidla je menší, nicméně obecně je velký Herci: Fernando Rey BC=7.47x10 8, nejnižší je 8.91x10 5, poměr je cca 1000 (v porovnání s closenness c. =3.6) Na čele pořadí podle BC se změny dějí málo často (v porovnání s closenness c.)

Betweenness centrality Často se provádí normalizace, např. = 1 n xi 2 st n g i st st (*) (*)

Degree c. x Betweenness c. Na Zachary s klubu DC, CC a BC korelují, ale být to tak nemusí

Eigenvector centrality Idea degree c. je jen lokální vlastností jednotlivých vrcholů. Zobecněním může být zvýšení důležitosti vrcholů, které jsou sousedy jiných důležitých vrcholů. Eigenvector centrality důležitost vrcholu je proporcionální důležitosti sousedních vrcholů. První odhad, pro Pro neorientovanou souvislou síť iterace konverguje k pevnému bodu, který je ekvivalentní vlastnímu vektoru příslušejícímu největšímu vlastnímu číslu matice sousednosti. Proto: 1 Centralita vrcholu i je x κ i = 1 Aij x j, kde κ1 je max vlastní číslo matice A. j Ale to až v MAD2

Eigenvector centrality Pro karate klub po 15. iteraci

Page Rank Nevýhody Eigenvector c. v orientovaných grafech budou mít vrcholy mimo silně souvislou komponentu E.C. = 0, přestože mohou mít vysoké vstupní stupně, v orientovaných acyklických grafech budou mít pouze vrcholy s nulovým výstupním stupněm nenulovou E.C. Idea - centralita vrcholu i získaná od sousedních vrcholů j je úměrná jejich: centralitě / jejich výstupní stupeň, PageRank: x j x i = α A ij + out j k j β

Page Rank out Zpravidla se dává k j =1 pro všechny vrcholy s nulovým výstupním stupněm. Dále zpravidla β =1 Pro neorientované grafy se volí α <1, pro orientované, ale řádově jednotky. α 1 Google search engine α = 0.85 používá, stanoveno asi experimentálně (není žádná teorie)

Page Rank Google search engine PageRank is a method for computing the prestige or centrality of nodes in the context of Web search. The PageRank of a Web page is defined to be the probability of a random web surfer landing at that page. The PageRank of a node v recursively depends on the PageRank of other nodes that point to it. The streamlined matrix power method Google used to calculate PageRank essentially directly simulates random walkers, having each vertex repeatedly vote for its neighbors in proportion to its current centrality divided by its out-degree.

Porovnání

Porovnání A) Degree centrality, B) Closeness centrality, C) Betweenness centrality, D) Eigenvector centrality, E) Katz centrality (varianta E.C.)

Tranzitivita Relace tranzitivity hledání trojúhelníků (úplných grafů na 3 vrcholech) Perfektní tranzitivita ex. jen v kompletních (úplných) grafech (podgrafech), proto se pracuje s částečnou Clustering coefficient bude probráno 16

Reciprocity Má smysl se zabývat také jinými cykly než trojúhelníky V orient. grafu se často měří výskyt orient. cyklu délky 2 reciprocity Nebo lokální reciprocita Dvojice takových hran se také nazývá co-links (zejména v kontextu webu) r i = 1 d i j A ij A ji

Similarity Similarity (podobnost) Structural equivalence dva vrcholy jsou SE, jestliže sdílejí mnoho ze svých sousedů Regular equivalence dva vrcholy jsou RE jestliže jejich sousedé jsou si sobě podobní (themselves similar) Nejjednodušší SE počet společných sousedů n = A A ij Moc toho ale nevypovídá k ik kj

Cosine similarity Pro neorient. graf V geometrii skalární součin dvou vektorů x, y: x*y= x * y *cos θ cos θ = x*y/ x * y σ = cosθ = ij k A k Protože v matici sousednosti jsou jen 0 nebo 1, A ij2 =A ij pro i,j, pak A 2 kde d i je stupeň vrcholu i ik = Aik = di k σ ij = k k A d ik i d A j 2 ik kj A ik = A k kj A 2 jk n d ij i d j

Cosine similarity Příklad obr σ ij = n d ij i d j = 3 4 5 = 0.671 Další metrika pro SE - Pearson coefficients 20

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks)

Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [235-270] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [102-115] http://tuvalu.santafe.edu/~aaronc/courses/5352/ csci5352_2016_l1.pdf

Základní (strukturální) vlastnosti sítí Mnoho reálných sítí vykazuje určité společné rysy, bez ohledu na to z jak diametrálně odlišných oblastí, jako jsou sociální sítě, telekomunikačních sítě atp., pocházejí. Jednoduchá měření struktury sítě jsou základem téměř každé síťové analýzy či modelování sítí. Tj. pro danou síť existuje mnoho vlastností jejichž analýzou (měřením) můžeme charakterizovat její strukturu.

Základní (strukturální) vlastnosti sítí Stupně vrcholů a jejich distribuce rozsáhlé reálné sítě mají tu vlastnost, že mnoho uzlů má malý počet sousedů (malý stupeň), ale některé mají velmi vysoký počet sousedů (vysoký stupeň) distribuce stupňů odpovídá tzv. mocninnému rozdělení - power-law degree distribution. Vzdálenosti - průměr (diameter) - mnoho rozsáhlých reálných sítí má malý průměr - small-world phenomenon Existence shluků - je-li uzel a spojen s uzlem b, a je-li zároveň uzel b spojen s uzlem c, je pravděpodobné, že uzel c bude spojen také s uzlem a. Mnoho rozsáhlých reálných sítí má vysoký clustering coefficient (shlukovací koeficient). Souvislost sítě jsou zpravidla nesouvislé a v mnoha sítích existuje jedna velká komponenta (giant component) s řádově O(n) vrcholy.

Základní (strukturální) vlastnosti sítí Velikost sítě sítě jsou zpravidla velké, tj. počet vrcholů je velký Hustota sítě sítě jsou zpravidla řídké Řídký vs. hustý graf (síť) Rozlišení je často vágní, liší se podle kontextu Nejčastěji Řídký graf - n km, m = O(n) Hustý graf m = Θ(n 2 ) Hustota (density) H: průměrný stupeň <d> = 2m/n po vydělení největším stupněm (n-1) 2m/n*(n-1) H = m / 0.5*n*(n-1), H <0,1>

Stupně (neor. graf) Z matice sousednosti A určíme stupeň vrcholu jako Počet hran v grafu m Průměrný stupeň µ d =< d >= di = n i= 1 n Posloupnost stupňů [d 1, d 2,, d n ] Distribuce stupňů pravděpodobnost P(d) = 1 2 n d i i= 1 1 n 2m d P(d)

Distribuce stupňů Lokální vlastnosti počet sousedů Mřížka všechny vrcholy jsou stejného stupně (<d>=dim(dim+1) pro trojúhelníkovou a <d> =2dim pro čtvercovou mřížku) Teorie grafů stupeň vrcholu d, průměrný stupeň <d>=2m/n (pro řídký graf je <d> jednotkového řádu, nebo alespoň <d> roste tak rychle jako n), obecně ale různé stupně Karate club:

Distribuce stupňů U náhodného grafu je distribuce stupňů binomická Průměrně máme m=p*n*(n-1) /2 hran, průměrný stupeň je <d>=p(n-1) Pro velká n aproximujeme Poissonovým rozdělením, konec (tail) padá trochu rychleji, tj. v podstatě neexistují vrcholy se stupněm větším než d max, kde počet vrcholů s d=d max je 1 N = 10^6,<d>=4, Random Graph Na obrázku k je stupeň

Poissonovo rozdělení Binomické x Poissonovo rozdělení

Bezškálové grafy Potřebujeme ale model, kde distribuce stupňů bude mít dlouhý konec, odrážející existenci center v reálných sítích, N = 10^6,<d>=4, Random Graph & Scale/free Na obrázku k je stupeň

Bezškálové grafy lineární měřítko log-log měřítko Mocninné rozdělení p(d) d -α, d je stupeň vrcholu Velmi šikmé (asymetrie) Přímka v logaritmickém měřítku

Tranzitivita - shlukovací koeficient Shlukovací koeficient C měří hustotu trojúhelníků (lokálních shluků) v grafu, tj. existence trojúhelníků, resp. existence hrany sousedsoused daného vrcholu Různé způsoby měření: C (1) = 3*number of triangles in the network number of connected triplesof vertices

Příklad 1 4 2 3 5 3 C (1) = = 1 + 1 + 6 3 8 Jeden trojúhelník a osm spojených trojic vrcholů

Shlukovací koeficient Shlukovací koef. pro vrchol i triangles centered at node i C i = triples centered at node i C (2) = 1 n i C i Průměr podílů, pro vrcholy se stupněm 0, 1 je C i = 0

Příklad 1 4 1 C (2) = ( 1 + 1 + 1 6) = 5 13 30 2 3 5 C (1) = 3 8 Lokální koeficienty vrcholů jsou 1,1,1/6,0,0. Tyto dva koeficienty C (1), C (2) dávají různé výsledky. C (2) roste s počtem vrcholů s nízkým stupněm.

Shlukovací koeficient S.k. může být definován také jako C i = number of pairs of neighbors of i that are connected number of pairs of neighbors of i Trojúhelníková mřížka: d(d-1)/2= (6*5)/2=15, 6/15=0.4=C (pro každý vrchol) Čtvercová mřížka má C=0

Shlukovací koeficient ještě jinak Podgraf trojúhelníkové mřížky indukovaný vrcholem i (s centrem ve vrcholu) i: 2*6/6*5= =12/30=0.4=C i