MADI. Model bezškálového grafu (Scale-free graphs) - pokračování

Rozměr: px

Začít zobrazení ze stránky:

Download "MADI. Model bezškálového grafu (Scale-free graphs) - pokračování"

Alena Němcová
před 7 lety
Počet zobrazení:

1 MADI Model bezškálového grafu (Scale-free graphs) - pokračování

2 Předchozí modely Mřížka pravidelný stupeň, velký shlukovací koeficient C, velká průměrná vzdálenost L Náhodné grafy všechny hrany stejně pravděpodobné (s pstí p), malý C, cca C=p; malá L log n/log <d> Model malého světa (Wats Strogatzův model) velký C, malá L log n Ultra small-world model L log n

3 Mocninné rozdělení Sklon α lineární měřítko log-log měřítko Velmi šikmé (asymetrie) Přímka v logaritmickém měřítku (rovnice přímky y=c+mx) f(x)=bx α, log(f(x))= log(b) + αlog(x) 3

4 Mocninný zákon Mocninný zákon je polynomiální závislost f(x) (ve které závislá proměnná x obsahuje exponent α) vyjadřující vlastnost invariance vzhledem k měřítku. Nejobvyklejší mocninný zákon má tvar f(x)=bx α +o(x α ), kde b, α jsou konstanty a o(x α ) je vzhledem k bx α asymptoticky menší funkce. Exponent α se nazývá měřítkový exponent. Měřítkový znamená, že mocninná funkce vyhovuje f(cx) f(x), kde c je konstanta (vyjadřuje, že zvětšením argumentu konstantním poměrem se změní pouze měřítko funkce, ne však její tvar). Pro znázornění funkce v grafické podobě se často používá tzv. loglog tvar zápisu log(f(x))= log b + α *log x Tento zápis představuje lineární závislost, kde α je parametr funkce určující její sklon (je vidět nezávislost tvaru na násobící konstantě argumentu b, tato konstanta nijak neovlivňuje parametr α).

5 log(d) Mocninný zákon Pro potřeby v bezškálových sítích se tedy používá vztah m.z. p(d) d -α, d je stupeň vrcholu U reálných bezškálových sítí je exponent α typicky v rozmezí 2 α 3 (ale není to pravidlem). Mocninný zákon vypadá stejně, nezávisle na měřítku, ve kterém se na něj díváme Tedy bezškálová distribuce vyhovuje p(cd) p(d) tvar rozdělení je stále stejný až na multiplikativní konstantu, p(cd)=(cd) -α = c -α d -α d c*d log(p(d))

6 Modely vývoje sítí Rostoucí sítě Síť se v čase jen zvětšuje (vrcholy vznikají) Např. citační síť Spoluautorská síť (spolupracující vědci) Zanikající sítě Síť se v čase zmenšuje (vrcholy zanikají) Uprostřed model sítě, jejíž velikost se v čase nemění, ale vrcholy vznikají i zanikají Nejpropracovanější model rostoucích sítí

7 Jak je to se scale-free sítěmi? Síť je často nazývána bezškálovou, pokud distribuce stupňů odpovídá mocninnému zákonu. Pojem bezškálový je však někdy používán chybně, pozor na to tento pojem původně jen pro generativní model Barabási- Albertová, Li: Towards a Theory of Scale-Free Graphs, Sec 3., ( Hlavní vlastnosti grafů SF (podle literatury) SF sítě mají mocninné rozdělení distribuce stupňů SF sítě mohou být generovány náhodnými procesy, jako je např. preferenční připojování SF sítě mají vysoce propojená centra, která drží sítě pohromadě a činí SF sítě odolnými vůči chybám ale zranitelnými cílenými útoky SF sítě jsou obecné v tom smyslu že distribuce stupňů zůstává zachována i při náhodném přepojování hran SF sítě jsou univerzální v tom smyslu, že nezávisí na specifických detailech aplikační domény

8 Útok v reálné (bezškálové) síti Bezškálové sítě nejsou odolné cílenému útoku Např. Gnutella, odstraněno 22 vrcholů (2,8%) s nejvyšším stupněm 574 nodes in giant component 301 nodes in giant component

9 Selhání v reálné síti Reálné sítě jsou odolné proti náhodnému útoku Např. Gnutella (P2P síť), odstraněno 20% vrcholů 574 nodes in giant component 427 nodes in giant component

10 Určení mocninného rozdělení Distribuce stupňů má dlouhý pravý konec hodnot velmi vzdálených od průměru. Měření tohoto konce je poněkud záludné, zřídka máme k dispozici dost výsledků měření tohoto konce, histogramy mají příliš šumu. 3 způsoby určení

11 Lineární měřítko a přímá reprezentace dat Testovací data milion náhodných čísel s α = x x frequency frequency integer value integer value Celý rozsah Několik prvních reprezentantů

12 Log-log měřítko a přímá reprezentace dat Desítky tisíc pozorování pro d < 10 frequency Šum na konci máme 0, 1 or 2 výskyty hodnot x pro d > integer value Ve skutečnosti nevidíme všechny nulové hodnoty, protože log(0) =

13 log-log měřítko a přímá reprezentace dat odhad α správné α 10 4 frequency integer value

14 log-log měřítko a přímá reprezentace dat Proložením dat přímkou pomocí metody nejmenších čtverců můžeme získat příliš nízký exp. α. Metoda nejmenších čtverců bývá často používána při regresní analýze k aproximaci zadaných hodnot.

15 Co je špatně? Šum na konci vychyluje výsledek regrese 10 6 data 10 5 Málo reprezentantů α = 1.6 fit Mnoho reprezentantů

16 Určení mocninného rozdělení 1. řešení Zkonstruovat histogram tak, že hodnoty vyneseme v log měřítku, velikost dílku na ose roste exponenciálně se stupněm, prvních několik dílků (intervalů) bude reprezentovat stupně např. 1, 2-3, 4-7, Počet hodnot v každém dílku je vydělen šířkou dílku pro znormalizování měření. Pak provést tzv. binning zpracujeme data tak, že ta, která spadají do stejného úseku (intervalu) jsou nahrazena hodnotou reprezentující tato data, např. prostřední hodnotou, tzv. centroidem. Proložíme body (reprezentanty) přímku a odhadneme sklon α. nejčastější, ale ne nejpřesnější metoda

17 Osy v log měřítku Mocniny budou rovnoměrně rozloženy Např. 2 0 =1, 2 1 =2, 2 2 =4, 2 3 =8, 2 4 =16, 2 5 =32, 2 6 =64,. Nebo 10 0 =1, 10 1 =10, 10 2 =100, 10 3 =1000,. Obecně pro základ a=2, 10 atd.: n-tý bin pokrývá stupně d v intervalu a n-1 d < a n, má šířku ((a-1)a n-1 )

18 1. řešení: logarithmic binning Intervaly exponenciálně širší:1, 2, 4, 8, 16, 32, nebo 1, 10, 100, 1000, Normalizovány šířkou intervalu Nevýhoda ztráta informace 10 6 data Stejnoměrně vzdálené body 10 4 α = 2.41 fit Méně šumu na konci

19 Problém Některá data vykazují mocninné rozdělení pouze na konci od určité hodnoty d min, tuto hodnotu je potřeba určit (hodnota, o které si myslíme, že tam začíná power-law) Určitě musí být d min >0, protož d -α je nekonečno pro d = 0. Např. citace článků - power law je viditelně jen na konci, tedy pro d min > 100 citací)

20 Příklady reálných sítí d min Moby Dick scientific papers AOL users visiting sites 97 bestsellers AT&T customers on 1 day California

21 Některé výsledky pro reálná data z předchozího snímku d min frequency of use of words number of citations to papers number of hits on web sites copies of books sold in the US telephone calls received magnitude of earthquakes diameter of moon craters intensity of solar flares intensity of wars frequency of family names population of US cities exponent α

22 Určení mocninného rozdělení 2.řešení: Vynést doplněk k distribuční funkci (tj. určujeme pst, že náhodný vrchol má stupeň x a větší) a odhadnout α (a přičíst 1) Redukuje šum na pravém konci. Není potřeba hledat reprezentanty (provádět binning ), máme její hodnotu pro každé d (!nedává však přímou vizualizaci např. distribuce stupňů). Tedy kolik proměnných X má hodnotu nejméně x? Doplněk distribuční funkce mocninného rozdělení je také mocninné rozdělení ale s exponentem (α - 1)

23 Pst Pravděpodobnostní funkce (PMF-Probability Mass Function) diskrétní náhodné veličiny X: P(X = x i ) = P(x i ) Distribuční funkce (Cumulative Distribution Function (CDF)) NV X je dána Doplňková distribuční funkce (Complementary CDF, CCDF) F(x) = P(X < x) F(x) = P(X x) = 1 F(x) 23

24 2.řešení Pro naše data máme určený exponent (2.43), který se velmi blíží danému (2.5) data α-1 = 1.43 fit frequency sample > x x

25 Maximální věrohodný odhad 3. řešení - Chceme-li mít jistotu, že se jedná o mocninné rozdělení, použijeme pro určení exponentu maximální věrohodný odhad (maximum likelihood estimation (MLE)) N α = 1+ N i= 1 min Počítáme pro vrcholy se stupněm d i d min,i =1,,N, d i jsou naše data (stupně) a my pracujeme s N z nich. Pro náš příklad získáme α = téměř přesně! ln d d i 1

26 Příklady reálných sítí Taken from [Newman 2003]

27 Příklady reálných sítí Sítě na obr.c, d, f jsou bezškálové, mají mocninné rozdělení stupňů Síť na obr. b má jen konec mocninný, Síť na obr. a má asi dvě rozdělení s různým exponentem Síť na obr. e má exponenciální rozdělení

28 Statistiky (M. Newman 2003)

29 Odhad distribuce Výběr vhodných kandidátů (vhodných rozdělení (př. Poissonovo, mocninné, exponenciální,...)) pro empirická data (např. z grafu distribuce hodnot) Výběr nejlepšího kandidáta, tzv. fitting, různé metody pro odhad parametrů kandidátů, např. maximum likelihood estimation (MLE). moment matching estimation (MME), Ověření vhodnosti kandidáta, goodness-of-fit (minimum distance estimation) Chí kvadrát - test dobré shody pro diskrétní data (Chisquared statistic) Např. Kolmogorov-Smirnov test pro spojitá data

30 Odhad distribuce (Poisson)

31 Odhad distribuce (Power law)

32 Generování datasetu s power law a požadovaným mocninným exponentem

Podobné dokumenty

Metody analýzy dat I (Data Analysis I) Modely pokračování Model malého světa

Metody analýzy dat I (Data Analysis I) Modely pokračování Model malého světa Literatura Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University