MADI Model bezškálového grafu (Scale-free graphs) - pokračování
Předchozí modely Mřížka pravidelný stupeň, velký shlukovací koeficient C, velká průměrná vzdálenost L Náhodné grafy všechny hrany stejně pravděpodobné (s pstí p), malý C, cca C=p; malá L log n/log <d> Model malého světa (Wats Strogatzův model) velký C, malá L log n Ultra small-world model L log n
Mocninné rozdělení Sklon α lineární měřítko log-log měřítko Velmi šikmé (asymetrie) Přímka v logaritmickém měřítku (rovnice přímky y=c+mx) f(x)=bx α, log(f(x))= log(b) + αlog(x) 3
Mocninný zákon Mocninný zákon je polynomiální závislost f(x) (ve které závislá proměnná x obsahuje exponent α) vyjadřující vlastnost invariance vzhledem k měřítku. Nejobvyklejší mocninný zákon má tvar f(x)=bx α +o(x α ), kde b, α jsou konstanty a o(x α ) je vzhledem k bx α asymptoticky menší funkce. Exponent α se nazývá měřítkový exponent. Měřítkový znamená, že mocninná funkce vyhovuje f(cx) f(x), kde c je konstanta (vyjadřuje, že zvětšením argumentu konstantním poměrem se změní pouze měřítko funkce, ne však její tvar). Pro znázornění funkce v grafické podobě se často používá tzv. loglog tvar zápisu log(f(x))= log b + α *log x Tento zápis představuje lineární závislost, kde α je parametr funkce určující její sklon (je vidět nezávislost tvaru na násobící konstantě argumentu b, tato konstanta nijak neovlivňuje parametr α).
log(d) Mocninný zákon Pro potřeby v bezškálových sítích se tedy používá vztah m.z. p(d) d -α, d je stupeň vrcholu U reálných bezškálových sítí je exponent α typicky v rozmezí 2 α 3 (ale není to pravidlem). Mocninný zákon vypadá stejně, nezávisle na měřítku, ve kterém se na něj díváme Tedy bezškálová distribuce vyhovuje p(cd) p(d) tvar rozdělení je stále stejný až na multiplikativní konstantu, p(cd)=(cd) -α = c -α d -α d c*d log(p(d))
Modely vývoje sítí Rostoucí sítě Síť se v čase jen zvětšuje (vrcholy vznikají) Např. citační síť Spoluautorská síť (spolupracující vědci) Zanikající sítě Síť se v čase zmenšuje (vrcholy zanikají) Uprostřed model sítě, jejíž velikost se v čase nemění, ale vrcholy vznikají i zanikají Nejpropracovanější model rostoucích sítí
Jak je to se scale-free sítěmi? Síť je často nazývána bezškálovou, pokud distribuce stupňů odpovídá mocninnému zákonu. Pojem bezškálový je však někdy používán chybně, pozor na to tento pojem původně jen pro generativní model Barabási- Albertová, Li: Towards a Theory of Scale-Free Graphs, Sec 3., (http://netlab.caltech.edu/publications/im06.pdf) Hlavní vlastnosti grafů SF (podle literatury) SF sítě mají mocninné rozdělení distribuce stupňů SF sítě mohou být generovány náhodnými procesy, jako je např. preferenční připojování SF sítě mají vysoce propojená centra, která drží sítě pohromadě a činí SF sítě odolnými vůči chybám ale zranitelnými cílenými útoky SF sítě jsou obecné v tom smyslu že distribuce stupňů zůstává zachována i při náhodném přepojování hran SF sítě jsou univerzální v tom smyslu, že nezávisí na specifických detailech aplikační domény
Útok v reálné (bezškálové) síti Bezškálové sítě nejsou odolné cílenému útoku Např. Gnutella, odstraněno 22 vrcholů (2,8%) s nejvyšším stupněm 574 nodes in giant component 301 nodes in giant component
Selhání v reálné síti Reálné sítě jsou odolné proti náhodnému útoku Např. Gnutella (P2P síť), odstraněno 20% vrcholů 574 nodes in giant component 427 nodes in giant component
Určení mocninného rozdělení Distribuce stupňů má dlouhý pravý konec hodnot velmi vzdálených od průměru. Měření tohoto konce je poněkud záludné, zřídka máme k dispozici dost výsledků měření tohoto konce, histogramy mají příliš šumu. 3 způsoby určení
Lineární měřítko a přímá reprezentace dat Testovací data milion náhodných čísel s α = 2.5 5 x 105 5 x 105 4.5 4.5 4 4 3.5 3.5 frequency 3 2.5 2 frequency 3 2.5 2 1.5 1.5 1 1 0.5 0.5 0 0 2 4 6 8 10 12 14 16 18 20 integer value 0 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 integer value Celý rozsah Několik prvních reprezentantů
10 6 10 5 Log-log měřítko a přímá reprezentace dat Desítky tisíc pozorování pro d < 10 frequency 10 4 10 3 10 2 10 1 Šum na konci máme 0, 1 or 2 výskyty hodnot x pro d > 500 10 0 10 0 10 1 10 2 10 3 10 4 integer value Ve skutečnosti nevidíme všechny nulové hodnoty, protože log(0) =
log-log měřítko a přímá reprezentace dat 10 6 10 5 odhad α správné α 10 4 frequency 10 3 10 2 10 1 10 0 10 0 10 1 10 2 10 3 10 4 integer value
log-log měřítko a přímá reprezentace dat Proložením dat přímkou pomocí metody nejmenších čtverců můžeme získat příliš nízký exp. α. Metoda nejmenších čtverců bývá často používána při regresní analýze k aproximaci zadaných hodnot.
Co je špatně? Šum na konci vychyluje výsledek regrese 10 6 data 10 5 Málo reprezentantů α = 1.6 fit 10 4 10 3 10 2 Mnoho reprezentantů 10 1 10 0 10 0 10 1 10 2 10 3 10 4
Určení mocninného rozdělení 1. řešení Zkonstruovat histogram tak, že hodnoty vyneseme v log měřítku, velikost dílku na ose roste exponenciálně se stupněm, prvních několik dílků (intervalů) bude reprezentovat stupně např. 1, 2-3, 4-7, 8-15. Počet hodnot v každém dílku je vydělen šířkou dílku pro znormalizování měření. Pak provést tzv. binning zpracujeme data tak, že ta, která spadají do stejného úseku (intervalu) jsou nahrazena hodnotou reprezentující tato data, např. prostřední hodnotou, tzv. centroidem. Proložíme body (reprezentanty) přímku a odhadneme sklon α. nejčastější, ale ne nejpřesnější metoda
Osy v log měřítku Mocniny budou rovnoměrně rozloženy 1 2 3 10 20 30 100 200 Např. 2 0 =1, 2 1 =2, 2 2 =4, 2 3 =8, 2 4 =16, 2 5 =32, 2 6 =64,. Nebo 10 0 =1, 10 1 =10, 10 2 =100, 10 3 =1000,. Obecně pro základ a=2, 10 atd.: n-tý bin pokrývá stupně d v intervalu a n-1 d < a n, má šířku ((a-1)a n-1 )
1. řešení: logarithmic binning Intervaly exponenciálně širší:1, 2, 4, 8, 16, 32, nebo 1, 10, 100, 1000, Normalizovány šířkou intervalu Nevýhoda ztráta informace 10 6 data Stejnoměrně vzdálené body 10 4 α = 2.41 fit 10 2 10 0 Méně šumu na konci 10-2 10-4 10 0 10 1 10 2 10 3 10 4
Problém Některá data vykazují mocninné rozdělení pouze na konci od určité hodnoty d min, tuto hodnotu je potřeba určit (hodnota, o které si myslíme, že tam začíná power-law) Určitě musí být d min >0, protož d -α je nekonečno pro d = 0. Např. citace článků - power law je viditelně jen na konci, tedy pro d min > 100 citací)
Příklady reálných sítí d min Moby Dick scientific papers 1981-1997 AOL users visiting sites 97 bestsellers 1895-1965 AT&T customers on 1 day California 1910-1992
Některé výsledky pro reálná data z předchozího snímku d min frequency of use of words 1 2.20 number of citations to papers 100 3.04 number of hits on web sites 1 2.40 copies of books sold in the US 2 000 000 3.51 telephone calls received 10 2.22 magnitude of earthquakes 3.8 3.04 diameter of moon craters 0.01 3.14 intensity of solar flares 200 1.83 intensity of wars 3 1.80 frequency of family names 10 000 1.94 population of US cities 40 000 2.30 exponent α
Určení mocninného rozdělení 2.řešení: Vynést doplněk k distribuční funkci (tj. určujeme pst, že náhodný vrchol má stupeň x a větší) a odhadnout α (a přičíst 1) Redukuje šum na pravém konci. Není potřeba hledat reprezentanty (provádět binning ), máme její hodnotu pro každé d (!nedává však přímou vizualizaci např. distribuce stupňů). Tedy kolik proměnných X má hodnotu nejméně x? Doplněk distribuční funkce mocninného rozdělení je také mocninné rozdělení ale s exponentem (α - 1)
Pst Pravděpodobnostní funkce (PMF-Probability Mass Function) diskrétní náhodné veličiny X: P(X = x i ) = P(x i ) Distribuční funkce (Cumulative Distribution Function (CDF)) NV X je dána Doplňková distribuční funkce (Complementary CDF, CCDF) F(x) = P(X < x) F(x) = P(X x) = 1 F(x) 23
2.řešení Pro naše data máme určený exponent (2.43), který se velmi blíží danému (2.5) 10 6 10 5 data α-1 = 1.43 fit frequency sample > x 10 4 10 3 10 2 10 1 10 0 10 0 10 1 10 2 10 3 10 4 x
Maximální věrohodný odhad 3. řešení - Chceme-li mít jistotu, že se jedná o mocninné rozdělení, použijeme pro určení exponentu maximální věrohodný odhad (maximum likelihood estimation (MLE)) N α = 1+ N i= 1 min Počítáme pro vrcholy se stupněm d i d min,i =1,,N, d i jsou naše data (stupně) a my pracujeme s N z nich. Pro náš příklad získáme α = 2.503 téměř přesně! ln d d i 1
Příklady reálných sítí Taken from [Newman 2003]
Příklady reálných sítí Sítě na obr.c, d, f jsou bezškálové, mají mocninné rozdělení stupňů Síť na obr. b má jen konec mocninný, Síť na obr. a má asi dvě rozdělení s různým exponentem Síť na obr. e má exponenciální rozdělení
Statistiky (M. Newman 2003)
Odhad distribuce Výběr vhodných kandidátů (vhodných rozdělení (př. Poissonovo, mocninné, exponenciální,...)) pro empirická data (např. z grafu distribuce hodnot) Výběr nejlepšího kandidáta, tzv. fitting, různé metody pro odhad parametrů kandidátů, např. maximum likelihood estimation (MLE). moment matching estimation (MME), Ověření vhodnosti kandidáta, goodness-of-fit (minimum distance estimation) Chí kvadrát - test dobré shody pro diskrétní data (Chisquared statistic) Např. Kolmogorov-Smirnov test pro spojitá data
Odhad distribuce (Poisson)
Odhad distribuce (Power law)
Generování datasetu s power law a požadovaným mocninným exponentem