Metody analýzy dat I (Data Analysis I) Modely - pokračování

Podobné dokumenty
Metody analýzy dat I (Data Analysis I) Modely pokračování Model malého světa

MADI. Model bezškálového grafu (Scale-free graphs) - pokračování

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

Metody analýzy dat I. Míry a metriky - pokračování

Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy

Metody analýzy dat I (Data Analysis I) Míry a metriky (Measures and Metrics) - - pokračování

Moderní aplikace statistické fyziky II - TMF050

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Úvod do mobilní robotiky AIL028

Redukce bezškálových grafů pomocí genetických algoritmů Scale-free Network Reduction by Genetic Algorithms

PROSTOROVÉ ANALÝZY DAT

Logaritmické a exponenciální funkce

Zdůvodněte, proč funkce n lg(n) roste alespoň stejně rychle nebo rychleji než než funkce lg(n!). Symbolem lg značíme logaritmus o základu 2.

PB050: Modelování a predikce v systémové biologii

Časová složitost / Time complexity

Ukážeme si lineární algoritmus, který pro pevné k rozhodne, zda vstupní. stromový rozklad. Poznamenejme, že je-li k součástí vstupu, pak rozhodnout

ALGORITMY A DATOVÉ STRUKTURY

MATURITNÍ TÉMATA Z MATEMATIKY

Počítačové zobrazování fraktálních množin. J. Bednář*, J. Fábera**, B. Fürstová*** *Gymnázium Děčín **SPŠ Hronov ***Gymnázium Plasy

Fraktály. krásné obrázky v matematice

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů

U Úvod do modelování a simulace systémů

7. Rozdělení pravděpodobnosti ve statistice

Metody analýzy dat II

Pravděpodobnost, náhoda, kostky

Monte Carlo. Simulační metoda založená na užití stochastických procesů a generace náhodných čísel.

Algoritmy I, složitost

AVDAT Nelineární regresní model

You created this PDF from an application that is not licensed to print to novapdf printer (

oddělení Inteligentní Datové Analýzy (IDA)

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Odhad parametrů N(µ, σ 2 )

Usuzování za neurčitosti

Téma 22. Ondřej Nývlt

10. Předpovídání - aplikace regresní úlohy

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Regresní analýza 1. Regresní analýza

4EK311 Operační výzkum. 5. Teorie grafů

Pravděpodobnost, náhoda, kostky

Modelování a simulace Lukáš Otte

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

časovém horizontu na rozdíl od experimentu lépe odhalit chybné poznání reality.

Funkce jedné reálné proměnné. lineární kvadratická racionální exponenciální logaritmická s absolutní hodnotou

4. OBYČEJNÉ DIFERENCIÁLNÍ ROVNICE

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Různé algoritmy mají různou složitost

Vybrané technologie povrchových úprav. Základy vakuové techniky Doc. Ing. Karel Daďourek 2006

Regresní analýza. Eva Jarošová

2. Složitost, grafové algoritmy (zapsal Martin Koutecký)

Základy teorie pravděpodobnosti

Cvičné texty ke státní maturitě z matematiky

Regresní a korelační analýza

IV117: Úvod do systémové biologie

Kolik existuje různých stromů na pevně dané n-prvkové množině vrcholů?

Základy vakuové techniky

Základní pojmy teorie grafů [Graph theory]

Binární vyhledávací stromy pokročilé partie

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Diskrétní náhodná veličina. November 12, 2008

Měření závislosti statistických dat

Charakterizace rozdělení

Metody síťové analýzy

Funkce. Úkol: Uveďte příklady závislosti dvou veličin.


MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

1. Statistická analýza dat Jak vznikají informace Rozložení dat

COMPLEXITY

HAZARDY V LOGICKÝCH SYSTÉMECH

Metody analýzy dat II

Úvod do analýzy časových řad

1 Test 1 naivní vs standardní

Regresní a korelační analýza

Kostry. 9. týden. Grafy. Marie Demlová (úpravy Matěj Dostál) 16. dubna 2019

CVIČNÝ TEST 48. OBSAH I. Cvičný test 2. Mgr. Tomáš Kotler. II. Autorské řešení 6 III. Klíč 15 IV. Záznamový list 17

Teoretická informatika Tomáš Foltýnek Barvení grafů Platónská tělesa

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

ÚLOHA 1. EXPONENCIÁLNÍ MODEL...2 ÚLOHA 2. MOCNINNÝ MODEL...7

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

2.7.6 Rovnice vyšších řádů (separace kořenů)

Odhad parametrů N(µ, σ 2 )

Elegantní algoritmus pro konstrukci sufixových polí

Odhady Parametrů Lineární Regrese

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky

Úvod do teorie grafů

Přijímací zkouška - matematika

Statistická teorie učení

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Fraktály. Ondřej Bouchala, George Dzhanezashvili, Viktor Skoupý

VYBRANÁ ROZDĚLENÍ. SPOJITÉ NÁH. VELIČINY Martina Litschmannová

Přehled funkcí. Funkce na množině D R je předpis, který každému číslu z množiny D přiřazuje právě jedno reálné číslo. přehled fcí.

Funkce - pro třídu 1EB

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Cvičné texty ke státní maturitě z matematiky

Regresní a korelační analýza

Transkript:

Metody analýzy dat I (Data Analysis I) Modely - pokračování

Literatura Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [112-133]

Model malého světa Víme že, řídké náhodné grafy: průměrný stupeň <d> = np nejsou místně strukturovány všechny hrany jsou stejně pravděpodobné a k sousedům vrcholů se nepřistupuje nijak speciálně, malý shlukovací koeficient (při průměrném stupni vrcholů <d> a rostoucím n se p hrany snižuje, hodnota shlukovacího koeficientu C klesá, C=p) vzdálenosti v nich jsou malé, průměrně log n/log <d> Mřížka pravidelný stupeň vrcholu velké vzdálenosti velký shlukovací koeficient (např. mřížka) (ale C=0 pro čtvercovou mřížku)

Model malého světa Existuje řídký graf s velkým s.k. C a malou průměrnou vzdáleností L? Důležité v lidských sítích, lidé se shlukují; je přirozené, že lidské sítě mají velký s.k. Sítě malého světa vs. náhodné sítě srovnatelné velikosti C sw >> C rand, L sw L rand (sw = small world) Vlastnost malého světa L log n Vlastnost ultra-small-world L log n

Model malého světa Stanley Milgram, 1967 experiment s dopisy odeslanými z Nebrasky příteli v Bostonu pojem šest stupňů odloučení. 160 dopisů (odesílatelů) z Kansasu a Nebrasky mělo doručit dopis adresátovi z Massachusetts: neznáte-li adresáta, předejte dopis osobě, se kterou si tykáte, a o které předpokl., že by adresáta znát mohla, každá osoba měla odeslat potvrzující dopis zpět na Harvard (to umožnilo sledovat cesty dopisů). 42 dopisů dorazilo do cíle, průměr byl D = 12, průměrná vzdálenost L = 5.5 U G n,p víme, že je-li <d>=1, graf obsahuje obrovskou souvislou komponentu, kde je průměrná vzdálenost malá malý svět

Baconovo, Erdősovo číslo Erdősovo číslo síť spolupráce spoluautoři, viz http://www.oakland.edu/enp/ P. Erdős má číslo 0, Ti, kdo s ním měli společný článek, mají číslo 1,... Př. Einstein má EČ dva, N.Chomsky má EČ čtyři, B.Gates také čtyři, S.Hawking 4, A.Turing 5 Baconovo číslo (http://oracleofbacon.org/) Ch. Chaplin má BČ 3, E. Presley 2, R. Steiger 2 Průměrné Baconovo číslo (08/2016) - 1. Eric Roberts (L= 2.83065), nejvyšší průměrné BČ je 10.702 Viz http://oracleofbacon.org/center_list.php

K. Bacon, E. Roberts Průměrné Baconovo číslo k 8/201-3.020

E-maily Tým z Kolumbijské university v New Yorku Dodds, Muhamad, Watts, (Science 301, 2003) 18 cílových adres ve 13 zemích (z 98847 registrovaných účastníků) úkolem bylo doručit zprávu jim přidělenému cíli předáním zprávy osobě, o které si mysleli, že má k cíli blíže než oni sami. 24163 cest pro jednotlivé zprávy, 384 dosáhlo cíle, +60,000 osob celkem, 166 zemí L = 4.05 http://www.cis.upenn.edu/~mkearns/teaching/networkedlife/ columbia.pdf

E-maily profesor na univerzitě Ivy League inspektor v Estonsku, technologický konzultant v Indii, policista v Austrálii, veterinář v norské armádě. Cíl v Chorvatsku nabyl dosažen

Model malého světa N m <d> L D log n / log <d>

Model malého světa Topologie malého světa malé vzdálenosti s velkým shlukovacím koeficientem - nezávisle na velikosti sítě. Model Watts-Strogatz 1998, kruhová mřížka o n vrcholech, m hranách, kde každý vrchol sousedí s prvními k sousedy a hrana je přepojena náhodně s pravděpodobností p (smyčky a multihrany nejsou povoleny). Pst p je tedy pst přepojení hrany

Watts - Strogatz WS model sítě spoluprací (herci), biologická síť (PPI síť, červ C.elegans) p=0 p=1

Watts - Strogatz n = 20, m = 40, <d> = 4 0, 5, 200 přepojení (mřížka, sw, rand) L =2.89, 2.35, 2.21, C = 0.5, 0.40, 0.23, D = 5,4,5

Watts - Strogatz Je-li p=0, máme pravidelnou mřížku s vysokým shlukovacím koeficientem C(p) asi C(0)=(3* <d>-6)/(4*<d>-4), a průměrnou nejkratší cestou L(p) asi L(0)=n/2* <d>, která se mění lineárně s rostoucím n. Je-li p=1, model konverguje k náhodnému grafu s nízkým shlukovacím koeficientem C(p) asi C(1)=<d>/n a průměrnou nejkratší cestou L(p) asi L(1)=log n/log<d>, která se mění logaritmicky s rostoucím n.

Watts - Strogatz Z p=0 a p=1 se může zdát, že vysoký C je asociován s velkou L a naopak malý C s malou L. Ale Watts-Strogatz dokázali (experimentálně), že existuje velký interval p, pro který se L(p) blíží L(1) zatímco C(p)>> C(1), (malé L a velké C jsou vlastnosti reálných sítí). 15

C(p)/Cmax L(p)/Lmax Watts numericky simuloval, že s p rostoucí od 0 k 1 Se rychle snižuje L Pomalu snižuje C A že existuje interval pro <p1,p2>, který generuje síť s malou L a velkým C.

Watts - Newman Watts-Newman 1999: kruhová mřížka o n vrcholech, m hranách, kde každý vrchol sousedí s prvními k sousedy a náhodně je přidána hrana (ale žádná původní hrana mřížky není přemístěna) s pstí p. Lépe se analyzuje, nevznikají izolované komponenty jako u WS modelu (potravní sítě popisující vztahy v ekosystému, elektrorozvodná síť v USA, schéma zapojení mikroprocesoru).

Model malého světa WN: shlukovací koeficient C(p) = 2*(2* < 3*( < d > -1) d > -1) + 4* < d > *p*(p + 2) WS: shlukovací koeficient 3*( < d > -1) 3 C(p) = *(1 p) 2*(2* < d > -1) Určení průměrné nejkratší cesty obtížné, Watts: L se nezačne snižovat dokud p<2/n*<d> n L(n, p) = *f (n < d > < d > p) kde

Model malého světa Distribuce stupňů u obou modelů malého světa neodpovídá distribuci u reálných sítí (což také nebylo cílem modelů). Přesná charakterizace je složitá, dostáváme však podobnou distribuci jako pro náh. grafy. WS model, mřížka s <d>=3, n=1000, hodnoty pro různá p (přítomny jen pro d> <d>/2),

Existují v rand a SW grafech centra? Malé vzdálenosti jsou charakteristické pro rand a SW grafy Distribuce stupňů má pro velká d exponenciální charakter, nedovolují existenci velkých center (vrcholů s vysokým stupněm) na obr. k je stupeň N = 10^6,<d>=4, Random Graph

Nový model Potřebujeme model, kde distribuce stupňů bude mít dlouhý konec (bude heavy tailed, right skewed), odrážející existenci center v reálných sítích Kandidát mocninné rozdělení (power law distribution) p(d) d -α na obr. k je stupeň N = 10^6,<d>=4, Random Graph & Scale/free

MADI Bezškálové grafy (Scale-free graphs)

Předchozí modely Mřížka pravidelný stupeň, velký shlukovací koeficient C, velká průměrná délka L Náhodné grafy všechny hrany stejně pravděpodobné (s pstí p), malý C, malá L Zobecněné náhodné grafy, vlastnosti jako náhodný graf ale respektuje distribuci stupňů dle mocninného zákona Wats Strogatzův model (Wats Newmanův model ) velký C, malá L

Centra (hubs) 2000 Malcom Gladwell - The Tipping Point existence prostředníků v sociální síti 248 příjmení z tel. seznamu pro Manhattan, bod za každého známého s příjmením ze seznamu Různé skupiny lidí (cca 400 osob), různé výsledky (nejméně 2 body, nejvíce 118) 1999 ( zároveň s WS modelem (1998)) Barabási, Jeong, Albertová zkoumali WWW existence center v síti Webu (doména nd.edu) z 325 000 stránek v doméně univerzity Notre Dame mělo 270 000 (82%) vstupní stupeň 3, 24 stránek vstupní stupeň cca 1000

Centra (hubs) Web později Z 203 mil. stránek mělo in stupeň 10 90% stránek, 3 měly in stupeň cca milion Herecká síť (08/2016) 1. Eric Roberts (d = 9403, L=2.83065), 2. Michael Madsen (d = 6417, L=2.85436), 3. Danny Trejo (d = 7432, L= 2.86624), 4. Samuel L. Jackson (d = 6649, L = 2.87098), 435. Kevin Bacon (d=3303, L=3.02035) Objev shluků v sítích odporoval modelu n.g. WS model přizpůsobil model n.g. faktu existence shluků objev center definitivně vedl k opuštění náhodného pohledu na reálné sítě.

Centra (hubs) Kdyby zmíněné sítě byly n.g.: Gladwell - <d> = 39, nejspolečenštější osoba by musela mít méně než 118 známých Web pravděpodobnost stránky s in stupněm 500 by byla 10-99 tj. centra nemohou existovat Hollywood E. Roberts by neexistoval, pst existence takového vrcholu 10-120 Centra i v jiných sítích Buňka centra v síti molekul spojených chem. vazbami (voda, ATP) Studie AT&T vysoký podíl hovorů připadá na malý počet tel. čísel (call centra apod.)

Nový model Potřebujeme model, kde distribuce stupňů bude mít dlouhý konec (bude heavy tailed, right skewed), odrážející existenci center v reálných sítích Kandidát mocninné rozdělení (power law distribution) p(x) x -α

Co znamená heavy tailed? Heavy tailed, také right skew Distribuce stupňů Normální rozdělení: Např. výška mužské populace je vycentrována okolo 180cm Mocninné rozdělení: např. městská populace: NYC 8.3 mil. obyv., ale mnoho malých měst Vysoký poměr max k min Výška: Nejvyšší muž 272cm, nejnižší: 74cm, poměr cca 3.7 Populace: NYC 8.3 mil. obyv., Duffield, Virginia 52 obyv., poměr cca 153 000

Mocninné rozdělení Sklon α lineární měřítko log-log měřítko Velmi šikmé (asymetrie) Přímka v logaritmickém měřítku (rovnice přímky y=c+mx) f(x)=bx α, log(f(x))= log(b) + αlog(x) 29

Invariant Invariance - neměnnost, stálost jevů nebo veličin vůči změnám, Invariant - vztah nebo útvar neměnící se při určité transformaci nebo neměnný v různých variacích Invariant vzhledem ke změně měřítka (scale invariant) př. fraktály, Kochova vločka

Mocninný zákon Mocninný zákon je polynomiální závislost f(x) (ve které závislá proměnná x obsahuje exponent α) vyjadřující vlastnost invariance vzhledem k měřítku. Nejobvyklejší mocninný zákon má tvar f(x)=bx α +o(x α ), kde b, α jsou konstanty a o(x α ) je vzhledem k bx α asymptoticky menší funkce. Exponent α se nazývá měřítkový exponent. Měřítkový znamená, že mocninná funkce vyhovuje f(cx) f(x), kde c je konstanta (vyjadřuje, že zvětšením argumentu konstantním poměrem se změní pouze měřítko funkce, ne však její tvar). Pro znázornění funkce v grafické podobě se často používá tzv. loglog tvar zápisu log(f(x))= log b + α *log x Tento zápis představuje lineární závislost, kde α je parametr funkce určující její sklon (je vidět nezávislost tvaru na násobící konstantě argumentu b, tato konstanta nijak neovlivňuje parametr α).

log(d) Mocninný zákon Pro potřeby v bezškálových sítích se tedy používá vztah m.z. p(d) d -α, d je stupeň vrcholu U reálných bezškálových sítí je exponent α typicky v rozmezí 2 α 3 (ale není to pravidlem). Mocninný zákon vypadá stejně, nezávisle na měřítku, ve kterém se na něj díváme Tedy bezškálová distribuce vyhovuje: p(cd) = g(c)p(d), Tedy p(cd) p(d) tvar rozdělení je stále stejný až na multiplikativní konstantu, p(cd)=(cd) -α = c -α d -α d c*d log(p(d))

Co znamená bezškálovost? Barabási a Albertová - vysvětlili bezškálovost webu pomocí násl. principů: neustálý růst sítě - síť je dynamická a neustále se proměňuje, v každém kroku časového vývoje se k síti přidá jeden uzel, preferenční připojování nového uzlu k starším -nezáleží tedy na obsahu stránky, ale na počtu stránek, které na ni odkazují. Pojem bezškálový původně jen pro generativní model bohatí bohatnou a chudí chudnou (a za určitých podmínek vítěz bere vše)

BA model BA model obecně pro neorientované grafy Mechanismy Růst sítě nejsou statické (na rozdíl od modelu NG), ale rostou (pro každé časové období přidáme k síti jeden vrchol) Preferenční připojování nové vazby (hrany) nejsou náhodné, ale preferují zdatnější vrcholy, pst, že se nový vrchol připojí k vrcholu i závisí proporcionálně na stupni d i přes sumu všech stupňů

BA model BA model (neorientovaný graf) vstup: počáteční (pod)graf G 0 s m 0 vrcholy a m (m m 0 ) počet hran pro nový vrchol proces: Vrcholy přidávány jeden po druhém Každý vrchol se připojí k m jiným vrcholům, vybere je s pstí úměrnou jejich stupni jestliže [d 1,,d t ] je posloupnost stupňů v čase t, vrchol t+1 se připojí k vrcholu i s pstí d j i = d j di 2mt

BA model Po t krocích máme graf s N=t+m 0 vrcholy a mt hranami Experimentálně Výsledkem je mocninné rozdělení distribuce stupňů s α = 3 (α = 2+1/m, bere m=1) Exponent je nezávislý na m, tedy na jediném parametru modelu Růst lineární (linear preferential attachment), což vede ke konstantnímu průměrnému stupni (a k tomu, že distribuce stupňů je mocninná pro všechny stupně, což ale není v reálu příliš časté (zpravidla mocninné na konci, obecně od nějakého minimálního stupně > 1))

Simulace preferenčního připojování Naivní přístup vyžaduje určení stupňů vrcholů a celý proces konstrukce grafu s n vrcholy bude vyžadovat O(n 2 ) kroků Lepší přístup O(n) vrcholy uložíme do pole a prvek pole vybíráme náhodně Pst výběru vrcholu je úměrná počtu výskytů prvku v poli (což koresponduje se stupněm vrcholu) 1 1 2 2 2 3 3 4 5 6 6 7 8.

Simulace preferenčního připojování 3 Start každý vrchol má stejný stupeň (2), pst výběru vrcholu je 1/3 Přidáme nový vrchol s m hranami, např. m = 2 1 1 2 2 3 3 3 1 2 4 Vybereme náhodně dva prvky z pole např. 2 a 3 1 2 1 1 2 2 2 3 3 3 4 4 Po přidání vrcholu 4 jsou psti výběru vrcholu 1, 2, 3 nebo 4 1/5, 3/10, 3/10, 1/5 Přidej nový vrchol náhodně vyber vrchol z pole atd. 1 1 2 2 2 3 3 3 3 4 4 4 5 5 3 1 2 5 4

Vlastnosti BA modelu Graf je souvislý Každý nový vrchol vzniká s vazbou nebo více vazbami (podle toho zda m = 1 nebo m > 1) Připojí se ke staršímu vrcholu, který je sám s pojen s jiným vrcholem A začali jsme od souvislého grafu (podgrafu, jádra) Starší vrcholy jsou bohatší Vrcholy postupem času shromažďují vazby, což přináší starším vrcholům výhodu nové vrcholy se připojují preferenčně a starší vrcholy mají vyšší stupně

Vlastnosti BA modelu Struktura core-pheriphery, vrcholy s vysokým stupněm mají často vysokou closeness a betweenness

Jak je to se scale-free sítěmi? Síť je často nazývána bezškálovou, pokud distribuce stupňů odpovídá mocninnému zákonu. Pojem bezškálový je však někdy používán chybně, pozor na to tento pojem původně jen pro generativní model Barabási- Albertová, Li: Towards a Theory of Scale-Free Graphs, Sec 3., (http://netlab.caltech.edu/publications/im06.pdf) Hlavní vlastnosti grafů SF (podle literatury) SF sítě mají mocninné rozdělení distribuce stupňů SF sítě mohou být generovány náhodnými procesy, jako je např. preferenční připojování SF sítě mají vysoce propojená centra, která drží sítě pohromadě a činí SF sítě odolnými vůči chybám ale zranitelnými vzhledem k cíleným útokům SF sítě jsou obecné v tom smyslu že distribuce stupňů zůstává zachována i při náhodném přepojování hran SF sítě jsou univerzální v tom smyslu, že nezávisí na specifických detailech domény

Příklady bezškálových sítí Moby Dick scientific papers 1981-1997 AOL users visiting sites 97 bestsellers 1895-1965 AT&T customers on 1 day California 1910-1992

Příklady Web různé experimenty různé hodnoty α α in = 2.1, α out = 2.45 α in = 2.1, α out = 2.72 α in = 2.1, α out = 2.38 Herci α = 2.3±0.1 Síť telef. hovorů α in = α out = 2.1

Další příklady exponent α (in/out degree) film actors 2.3 telephone call graph 2.1 email networks 1.5/2.0 sexual contacts 3.2 WWW 2.3/2.7 internet 2.5 peer-to-peer 2.1 metabolic network 2.2 protein interactions 2.4