Metody analýzy dat I (Data Analysis I) Modely - pokračování
Literatura Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [112-133]
Model malého světa Víme že, řídké náhodné grafy: průměrný stupeň <d> = np nejsou místně strukturovány všechny hrany jsou stejně pravděpodobné a k sousedům vrcholů se nepřistupuje nijak speciálně, malý shlukovací koeficient (při průměrném stupni vrcholů <d> a rostoucím n se p hrany snižuje, hodnota shlukovacího koeficientu C klesá, C=p) vzdálenosti v nich jsou malé, průměrně log n/log <d> Mřížka pravidelný stupeň vrcholu velké vzdálenosti velký shlukovací koeficient (např. mřížka) (ale C=0 pro čtvercovou mřížku)
Model malého světa Existuje řídký graf s velkým s.k. C a malou průměrnou vzdáleností L? Důležité v lidských sítích, lidé se shlukují; je přirozené, že lidské sítě mají velký s.k. Sítě malého světa vs. náhodné sítě srovnatelné velikosti C sw >> C rand, L sw L rand (sw = small world) Vlastnost malého světa L log n Vlastnost ultra-small-world L log n
Model malého světa Stanley Milgram, 1967 experiment s dopisy odeslanými z Nebrasky příteli v Bostonu pojem šest stupňů odloučení. 160 dopisů (odesílatelů) z Kansasu a Nebrasky mělo doručit dopis adresátovi z Massachusetts: neznáte-li adresáta, předejte dopis osobě, se kterou si tykáte, a o které předpokl., že by adresáta znát mohla, každá osoba měla odeslat potvrzující dopis zpět na Harvard (to umožnilo sledovat cesty dopisů). 42 dopisů dorazilo do cíle, průměr byl D = 12, průměrná vzdálenost L = 5.5 U G n,p víme, že je-li <d>=1, graf obsahuje obrovskou souvislou komponentu, kde je průměrná vzdálenost malá malý svět
Baconovo, Erdősovo číslo Erdősovo číslo síť spolupráce spoluautoři, viz http://www.oakland.edu/enp/ P. Erdős má číslo 0, Ti, kdo s ním měli společný článek, mají číslo 1,... Př. Einstein má EČ dva, N.Chomsky má EČ čtyři, B.Gates také čtyři, S.Hawking 4, A.Turing 5 Baconovo číslo (http://oracleofbacon.org/) Ch. Chaplin má BČ 3, E. Presley 2, R. Steiger 2 Průměrné Baconovo číslo (08/2016) - 1. Eric Roberts (L= 2.83065), nejvyšší průměrné BČ je 10.702 Viz http://oracleofbacon.org/center_list.php
K. Bacon, E. Roberts Průměrné Baconovo číslo k 8/201-3.020
E-maily Tým z Kolumbijské university v New Yorku Dodds, Muhamad, Watts, (Science 301, 2003) 18 cílových adres ve 13 zemích (z 98847 registrovaných účastníků) úkolem bylo doručit zprávu jim přidělenému cíli předáním zprávy osobě, o které si mysleli, že má k cíli blíže než oni sami. 24163 cest pro jednotlivé zprávy, 384 dosáhlo cíle, +60,000 osob celkem, 166 zemí L = 4.05 http://www.cis.upenn.edu/~mkearns/teaching/networkedlife/ columbia.pdf
E-maily profesor na univerzitě Ivy League inspektor v Estonsku, technologický konzultant v Indii, policista v Austrálii, veterinář v norské armádě. Cíl v Chorvatsku nabyl dosažen
Model malého světa N m <d> L D log n / log <d>
Model malého světa Topologie malého světa malé vzdálenosti s velkým shlukovacím koeficientem - nezávisle na velikosti sítě. Model Watts-Strogatz 1998, kruhová mřížka o n vrcholech, m hranách, kde každý vrchol sousedí s prvními k sousedy a hrana je přepojena náhodně s pravděpodobností p (smyčky a multihrany nejsou povoleny). Pst p je tedy pst přepojení hrany
Watts - Strogatz WS model sítě spoluprací (herci), biologická síť (PPI síť, červ C.elegans) p=0 p=1
Watts - Strogatz n = 20, m = 40, <d> = 4 0, 5, 200 přepojení (mřížka, sw, rand) L =2.89, 2.35, 2.21, C = 0.5, 0.40, 0.23, D = 5,4,5
Watts - Strogatz Je-li p=0, máme pravidelnou mřížku s vysokým shlukovacím koeficientem C(p) asi C(0)=(3* <d>-6)/(4*<d>-4), a průměrnou nejkratší cestou L(p) asi L(0)=n/2* <d>, která se mění lineárně s rostoucím n. Je-li p=1, model konverguje k náhodnému grafu s nízkým shlukovacím koeficientem C(p) asi C(1)=<d>/n a průměrnou nejkratší cestou L(p) asi L(1)=log n/log<d>, která se mění logaritmicky s rostoucím n.
Watts - Strogatz Z p=0 a p=1 se může zdát, že vysoký C je asociován s velkou L a naopak malý C s malou L. Ale Watts-Strogatz dokázali (experimentálně), že existuje velký interval p, pro který se L(p) blíží L(1) zatímco C(p)>> C(1), (malé L a velké C jsou vlastnosti reálných sítí). 15
C(p)/Cmax L(p)/Lmax Watts numericky simuloval, že s p rostoucí od 0 k 1 Se rychle snižuje L Pomalu snižuje C A že existuje interval pro <p1,p2>, který generuje síť s malou L a velkým C.
Watts - Newman Watts-Newman 1999: kruhová mřížka o n vrcholech, m hranách, kde každý vrchol sousedí s prvními k sousedy a náhodně je přidána hrana (ale žádná původní hrana mřížky není přemístěna) s pstí p. Lépe se analyzuje, nevznikají izolované komponenty jako u WS modelu (potravní sítě popisující vztahy v ekosystému, elektrorozvodná síť v USA, schéma zapojení mikroprocesoru).
Model malého světa WN: shlukovací koeficient C(p) = 2*(2* < 3*( < d > -1) d > -1) + 4* < d > *p*(p + 2) WS: shlukovací koeficient 3*( < d > -1) 3 C(p) = *(1 p) 2*(2* < d > -1) Určení průměrné nejkratší cesty obtížné, Watts: L se nezačne snižovat dokud p<2/n*<d> n L(n, p) = *f (n < d > < d > p) kde
Model malého světa Distribuce stupňů u obou modelů malého světa neodpovídá distribuci u reálných sítí (což také nebylo cílem modelů). Přesná charakterizace je složitá, dostáváme však podobnou distribuci jako pro náh. grafy. WS model, mřížka s <d>=3, n=1000, hodnoty pro různá p (přítomny jen pro d> <d>/2),
Existují v rand a SW grafech centra? Malé vzdálenosti jsou charakteristické pro rand a SW grafy Distribuce stupňů má pro velká d exponenciální charakter, nedovolují existenci velkých center (vrcholů s vysokým stupněm) na obr. k je stupeň N = 10^6,<d>=4, Random Graph
Nový model Potřebujeme model, kde distribuce stupňů bude mít dlouhý konec (bude heavy tailed, right skewed), odrážející existenci center v reálných sítích Kandidát mocninné rozdělení (power law distribution) p(d) d -α na obr. k je stupeň N = 10^6,<d>=4, Random Graph & Scale/free
MADI Bezškálové grafy (Scale-free graphs)
Předchozí modely Mřížka pravidelný stupeň, velký shlukovací koeficient C, velká průměrná délka L Náhodné grafy všechny hrany stejně pravděpodobné (s pstí p), malý C, malá L Zobecněné náhodné grafy, vlastnosti jako náhodný graf ale respektuje distribuci stupňů dle mocninného zákona Wats Strogatzův model (Wats Newmanův model ) velký C, malá L
Centra (hubs) 2000 Malcom Gladwell - The Tipping Point existence prostředníků v sociální síti 248 příjmení z tel. seznamu pro Manhattan, bod za každého známého s příjmením ze seznamu Různé skupiny lidí (cca 400 osob), různé výsledky (nejméně 2 body, nejvíce 118) 1999 ( zároveň s WS modelem (1998)) Barabási, Jeong, Albertová zkoumali WWW existence center v síti Webu (doména nd.edu) z 325 000 stránek v doméně univerzity Notre Dame mělo 270 000 (82%) vstupní stupeň 3, 24 stránek vstupní stupeň cca 1000
Centra (hubs) Web později Z 203 mil. stránek mělo in stupeň 10 90% stránek, 3 měly in stupeň cca milion Herecká síť (08/2016) 1. Eric Roberts (d = 9403, L=2.83065), 2. Michael Madsen (d = 6417, L=2.85436), 3. Danny Trejo (d = 7432, L= 2.86624), 4. Samuel L. Jackson (d = 6649, L = 2.87098), 435. Kevin Bacon (d=3303, L=3.02035) Objev shluků v sítích odporoval modelu n.g. WS model přizpůsobil model n.g. faktu existence shluků objev center definitivně vedl k opuštění náhodného pohledu na reálné sítě.
Centra (hubs) Kdyby zmíněné sítě byly n.g.: Gladwell - <d> = 39, nejspolečenštější osoba by musela mít méně než 118 známých Web pravděpodobnost stránky s in stupněm 500 by byla 10-99 tj. centra nemohou existovat Hollywood E. Roberts by neexistoval, pst existence takového vrcholu 10-120 Centra i v jiných sítích Buňka centra v síti molekul spojených chem. vazbami (voda, ATP) Studie AT&T vysoký podíl hovorů připadá na malý počet tel. čísel (call centra apod.)
Nový model Potřebujeme model, kde distribuce stupňů bude mít dlouhý konec (bude heavy tailed, right skewed), odrážející existenci center v reálných sítích Kandidát mocninné rozdělení (power law distribution) p(x) x -α
Co znamená heavy tailed? Heavy tailed, také right skew Distribuce stupňů Normální rozdělení: Např. výška mužské populace je vycentrována okolo 180cm Mocninné rozdělení: např. městská populace: NYC 8.3 mil. obyv., ale mnoho malých měst Vysoký poměr max k min Výška: Nejvyšší muž 272cm, nejnižší: 74cm, poměr cca 3.7 Populace: NYC 8.3 mil. obyv., Duffield, Virginia 52 obyv., poměr cca 153 000
Mocninné rozdělení Sklon α lineární měřítko log-log měřítko Velmi šikmé (asymetrie) Přímka v logaritmickém měřítku (rovnice přímky y=c+mx) f(x)=bx α, log(f(x))= log(b) + αlog(x) 29
Invariant Invariance - neměnnost, stálost jevů nebo veličin vůči změnám, Invariant - vztah nebo útvar neměnící se při určité transformaci nebo neměnný v různých variacích Invariant vzhledem ke změně měřítka (scale invariant) př. fraktály, Kochova vločka
Mocninný zákon Mocninný zákon je polynomiální závislost f(x) (ve které závislá proměnná x obsahuje exponent α) vyjadřující vlastnost invariance vzhledem k měřítku. Nejobvyklejší mocninný zákon má tvar f(x)=bx α +o(x α ), kde b, α jsou konstanty a o(x α ) je vzhledem k bx α asymptoticky menší funkce. Exponent α se nazývá měřítkový exponent. Měřítkový znamená, že mocninná funkce vyhovuje f(cx) f(x), kde c je konstanta (vyjadřuje, že zvětšením argumentu konstantním poměrem se změní pouze měřítko funkce, ne však její tvar). Pro znázornění funkce v grafické podobě se často používá tzv. loglog tvar zápisu log(f(x))= log b + α *log x Tento zápis představuje lineární závislost, kde α je parametr funkce určující její sklon (je vidět nezávislost tvaru na násobící konstantě argumentu b, tato konstanta nijak neovlivňuje parametr α).
log(d) Mocninný zákon Pro potřeby v bezškálových sítích se tedy používá vztah m.z. p(d) d -α, d je stupeň vrcholu U reálných bezškálových sítí je exponent α typicky v rozmezí 2 α 3 (ale není to pravidlem). Mocninný zákon vypadá stejně, nezávisle na měřítku, ve kterém se na něj díváme Tedy bezškálová distribuce vyhovuje: p(cd) = g(c)p(d), Tedy p(cd) p(d) tvar rozdělení je stále stejný až na multiplikativní konstantu, p(cd)=(cd) -α = c -α d -α d c*d log(p(d))
Co znamená bezškálovost? Barabási a Albertová - vysvětlili bezškálovost webu pomocí násl. principů: neustálý růst sítě - síť je dynamická a neustále se proměňuje, v každém kroku časového vývoje se k síti přidá jeden uzel, preferenční připojování nového uzlu k starším -nezáleží tedy na obsahu stránky, ale na počtu stránek, které na ni odkazují. Pojem bezškálový původně jen pro generativní model bohatí bohatnou a chudí chudnou (a za určitých podmínek vítěz bere vše)
BA model BA model obecně pro neorientované grafy Mechanismy Růst sítě nejsou statické (na rozdíl od modelu NG), ale rostou (pro každé časové období přidáme k síti jeden vrchol) Preferenční připojování nové vazby (hrany) nejsou náhodné, ale preferují zdatnější vrcholy, pst, že se nový vrchol připojí k vrcholu i závisí proporcionálně na stupni d i přes sumu všech stupňů
BA model BA model (neorientovaný graf) vstup: počáteční (pod)graf G 0 s m 0 vrcholy a m (m m 0 ) počet hran pro nový vrchol proces: Vrcholy přidávány jeden po druhém Každý vrchol se připojí k m jiným vrcholům, vybere je s pstí úměrnou jejich stupni jestliže [d 1,,d t ] je posloupnost stupňů v čase t, vrchol t+1 se připojí k vrcholu i s pstí d j i = d j di 2mt
BA model Po t krocích máme graf s N=t+m 0 vrcholy a mt hranami Experimentálně Výsledkem je mocninné rozdělení distribuce stupňů s α = 3 (α = 2+1/m, bere m=1) Exponent je nezávislý na m, tedy na jediném parametru modelu Růst lineární (linear preferential attachment), což vede ke konstantnímu průměrnému stupni (a k tomu, že distribuce stupňů je mocninná pro všechny stupně, což ale není v reálu příliš časté (zpravidla mocninné na konci, obecně od nějakého minimálního stupně > 1))
Simulace preferenčního připojování Naivní přístup vyžaduje určení stupňů vrcholů a celý proces konstrukce grafu s n vrcholy bude vyžadovat O(n 2 ) kroků Lepší přístup O(n) vrcholy uložíme do pole a prvek pole vybíráme náhodně Pst výběru vrcholu je úměrná počtu výskytů prvku v poli (což koresponduje se stupněm vrcholu) 1 1 2 2 2 3 3 4 5 6 6 7 8.
Simulace preferenčního připojování 3 Start každý vrchol má stejný stupeň (2), pst výběru vrcholu je 1/3 Přidáme nový vrchol s m hranami, např. m = 2 1 1 2 2 3 3 3 1 2 4 Vybereme náhodně dva prvky z pole např. 2 a 3 1 2 1 1 2 2 2 3 3 3 4 4 Po přidání vrcholu 4 jsou psti výběru vrcholu 1, 2, 3 nebo 4 1/5, 3/10, 3/10, 1/5 Přidej nový vrchol náhodně vyber vrchol z pole atd. 1 1 2 2 2 3 3 3 3 4 4 4 5 5 3 1 2 5 4
Vlastnosti BA modelu Graf je souvislý Každý nový vrchol vzniká s vazbou nebo více vazbami (podle toho zda m = 1 nebo m > 1) Připojí se ke staršímu vrcholu, který je sám s pojen s jiným vrcholem A začali jsme od souvislého grafu (podgrafu, jádra) Starší vrcholy jsou bohatší Vrcholy postupem času shromažďují vazby, což přináší starším vrcholům výhodu nové vrcholy se připojují preferenčně a starší vrcholy mají vyšší stupně
Vlastnosti BA modelu Struktura core-pheriphery, vrcholy s vysokým stupněm mají často vysokou closeness a betweenness
Jak je to se scale-free sítěmi? Síť je často nazývána bezškálovou, pokud distribuce stupňů odpovídá mocninnému zákonu. Pojem bezškálový je však někdy používán chybně, pozor na to tento pojem původně jen pro generativní model Barabási- Albertová, Li: Towards a Theory of Scale-Free Graphs, Sec 3., (http://netlab.caltech.edu/publications/im06.pdf) Hlavní vlastnosti grafů SF (podle literatury) SF sítě mají mocninné rozdělení distribuce stupňů SF sítě mohou být generovány náhodnými procesy, jako je např. preferenční připojování SF sítě mají vysoce propojená centra, která drží sítě pohromadě a činí SF sítě odolnými vůči chybám ale zranitelnými vzhledem k cíleným útokům SF sítě jsou obecné v tom smyslu že distribuce stupňů zůstává zachována i při náhodném přepojování hran SF sítě jsou univerzální v tom smyslu, že nezávisí na specifických detailech domény
Příklady bezškálových sítí Moby Dick scientific papers 1981-1997 AOL users visiting sites 97 bestsellers 1895-1965 AT&T customers on 1 day California 1910-1992
Příklady Web různé experimenty různé hodnoty α α in = 2.1, α out = 2.45 α in = 2.1, α out = 2.72 α in = 2.1, α out = 2.38 Herci α = 2.3±0.1 Síť telef. hovorů α in = α out = 2.1
Další příklady exponent α (in/out degree) film actors 2.3 telephone call graph 2.1 email networks 1.5/2.0 sexual contacts 3.2 WWW 2.3/2.7 internet 2.5 peer-to-peer 2.1 metabolic network 2.2 protein interactions 2.4