MADI. Model bezškálového grafu (Scale-free graphs) - pokračování

Podobné dokumenty
Metody analýzy dat I (Data Analysis I) Modely pokračování Model malého světa

Metody analýzy dat I (Data Analysis I) Modely - pokračování

Metody analýzy dat I. Míry a metriky - pokračování

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

7. Rozdělení pravděpodobnosti ve statistice

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Odhady Parametrů Lineární Regrese

Odhad parametrů N(µ, σ 2 )

Téma 22. Ondřej Nývlt

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

y = 0, ,19716x.

Regresní a korelační analýza

Chyby měření 210DPSM

IDENTIFIKACE BIMODALITY V DATECH

Regresní analýza 1. Regresní analýza

Regresní a korelační analýza

Národníinformačnístředisko pro podporu jakosti

Regresní a korelační analýza

Odhad parametrů N(µ, σ 2 )

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

AVDAT Nelineární regresní model

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

KGG/STG Statistika pro geografy

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Charakterizace rozdělení

Měření závislosti statistických dat

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy

I. D i s k r é t n í r o z d ě l e n í

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

p(x) = P (X = x), x R,

Analýza dat na PC I.

Diagnostika regrese pomocí grafu 7krát jinak

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

Testování hypotéz o parametrech regresního modelu

Výběrové charakteristiky a jejich rozdělení

Testování hypotéz o parametrech regresního modelu

Základy teorie pravděpodobnosti

KFC/SEM, KFC/SEMA Elementární funkce

PRAVDĚPODOBNOST A STATISTIKA

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Pravděpodobnost a aplikovaná statistika

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Náhodné signály. Honza Černocký, ÚPGM

INDUKTIVNÍ STATISTIKA

Diskrétní náhodná veličina. November 12, 2008

AVDAT Klasický lineární model, metoda nejmenších

odpovídá jedna a jen jedna hodnota jiných

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Funkce - pro třídu 1EB

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

8 Coxův model proporcionálních rizik I

Chyby nepřímých měření

pravděpodobnosti, popisné statistiky

Regresní a korelační analýza

MATEMATICKÁ STATISTIKA - XP01MST

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Exponenciální funkce. a>1, pro a>0 a<1 existuje jiný graf, který bude uveden za chvíli. Z tohoto

Pravděpodobnost a matematická statistika

Tomáš Karel LS 2012/2013

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

0.1 Úvod do matematické analýzy

4EK211 Základy ekonometrie

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Vybraná rozdělení náhodné veličiny

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Metody analýzy dat II

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Regresní analýza. Eva Jarošová

Přehled funkcí. Funkce na množině D R je předpis, který každému číslu z množiny D přiřazuje právě jedno reálné číslo. přehled fcí.

MATEMATIKA III V PŘÍKLADECH

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Funkce pro studijní obory

Časové řady, typy trendových funkcí a odhady trendů

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

naopak více variant odpovědí, bude otázka hodnocena jako nesprávně zodpovězená.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

ÚVOD. Rozdělení slouží: K přesnému popisu pravděpodobnostního chování NV Střední hodnota, rozptyl, korelace atd.

=10 =80 - =

You created this PDF from an application that is not licensed to print to novapdf printer (

Exponenciální a logaritmická funkce

Transkript:

MADI Model bezškálového grafu (Scale-free graphs) - pokračování

Předchozí modely Mřížka pravidelný stupeň, velký shlukovací koeficient C, velká průměrná vzdálenost L Náhodné grafy všechny hrany stejně pravděpodobné (s pstí p), malý C, cca C=p; malá L log n/log <d> Model malého světa (Wats Strogatzův model) velký C, malá L log n Ultra small-world model L log n

Mocninné rozdělení Sklon α lineární měřítko log-log měřítko Velmi šikmé (asymetrie) Přímka v logaritmickém měřítku (rovnice přímky y=c+mx) f(x)=bx α, log(f(x))= log(b) + αlog(x) 3

Mocninný zákon Mocninný zákon je polynomiální závislost f(x) (ve které závislá proměnná x obsahuje exponent α) vyjadřující vlastnost invariance vzhledem k měřítku. Nejobvyklejší mocninný zákon má tvar f(x)=bx α +o(x α ), kde b, α jsou konstanty a o(x α ) je vzhledem k bx α asymptoticky menší funkce. Exponent α se nazývá měřítkový exponent. Měřítkový znamená, že mocninná funkce vyhovuje f(cx) f(x), kde c je konstanta (vyjadřuje, že zvětšením argumentu konstantním poměrem se změní pouze měřítko funkce, ne však její tvar). Pro znázornění funkce v grafické podobě se často používá tzv. loglog tvar zápisu log(f(x))= log b + α *log x Tento zápis představuje lineární závislost, kde α je parametr funkce určující její sklon (je vidět nezávislost tvaru na násobící konstantě argumentu b, tato konstanta nijak neovlivňuje parametr α).

log(d) Mocninný zákon Pro potřeby v bezškálových sítích se tedy používá vztah m.z. p(d) d -α, d je stupeň vrcholu U reálných bezškálových sítí je exponent α typicky v rozmezí 2 α 3 (ale není to pravidlem). Mocninný zákon vypadá stejně, nezávisle na měřítku, ve kterém se na něj díváme Tedy bezškálová distribuce vyhovuje p(cd) p(d) tvar rozdělení je stále stejný až na multiplikativní konstantu, p(cd)=(cd) -α = c -α d -α d c*d log(p(d))

Modely vývoje sítí Rostoucí sítě Síť se v čase jen zvětšuje (vrcholy vznikají) Např. citační síť Spoluautorská síť (spolupracující vědci) Zanikající sítě Síť se v čase zmenšuje (vrcholy zanikají) Uprostřed model sítě, jejíž velikost se v čase nemění, ale vrcholy vznikají i zanikají Nejpropracovanější model rostoucích sítí

Jak je to se scale-free sítěmi? Síť je často nazývána bezškálovou, pokud distribuce stupňů odpovídá mocninnému zákonu. Pojem bezškálový je však někdy používán chybně, pozor na to tento pojem původně jen pro generativní model Barabási- Albertová, Li: Towards a Theory of Scale-Free Graphs, Sec 3., (http://netlab.caltech.edu/publications/im06.pdf) Hlavní vlastnosti grafů SF (podle literatury) SF sítě mají mocninné rozdělení distribuce stupňů SF sítě mohou být generovány náhodnými procesy, jako je např. preferenční připojování SF sítě mají vysoce propojená centra, která drží sítě pohromadě a činí SF sítě odolnými vůči chybám ale zranitelnými cílenými útoky SF sítě jsou obecné v tom smyslu že distribuce stupňů zůstává zachována i při náhodném přepojování hran SF sítě jsou univerzální v tom smyslu, že nezávisí na specifických detailech aplikační domény

Útok v reálné (bezškálové) síti Bezškálové sítě nejsou odolné cílenému útoku Např. Gnutella, odstraněno 22 vrcholů (2,8%) s nejvyšším stupněm 574 nodes in giant component 301 nodes in giant component

Selhání v reálné síti Reálné sítě jsou odolné proti náhodnému útoku Např. Gnutella (P2P síť), odstraněno 20% vrcholů 574 nodes in giant component 427 nodes in giant component

Určení mocninného rozdělení Distribuce stupňů má dlouhý pravý konec hodnot velmi vzdálených od průměru. Měření tohoto konce je poněkud záludné, zřídka máme k dispozici dost výsledků měření tohoto konce, histogramy mají příliš šumu. 3 způsoby určení

Lineární měřítko a přímá reprezentace dat Testovací data milion náhodných čísel s α = 2.5 5 x 105 5 x 105 4.5 4.5 4 4 3.5 3.5 frequency 3 2.5 2 frequency 3 2.5 2 1.5 1.5 1 1 0.5 0.5 0 0 2 4 6 8 10 12 14 16 18 20 integer value 0 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 integer value Celý rozsah Několik prvních reprezentantů

10 6 10 5 Log-log měřítko a přímá reprezentace dat Desítky tisíc pozorování pro d < 10 frequency 10 4 10 3 10 2 10 1 Šum na konci máme 0, 1 or 2 výskyty hodnot x pro d > 500 10 0 10 0 10 1 10 2 10 3 10 4 integer value Ve skutečnosti nevidíme všechny nulové hodnoty, protože log(0) =

log-log měřítko a přímá reprezentace dat 10 6 10 5 odhad α správné α 10 4 frequency 10 3 10 2 10 1 10 0 10 0 10 1 10 2 10 3 10 4 integer value

log-log měřítko a přímá reprezentace dat Proložením dat přímkou pomocí metody nejmenších čtverců můžeme získat příliš nízký exp. α. Metoda nejmenších čtverců bývá často používána při regresní analýze k aproximaci zadaných hodnot.

Co je špatně? Šum na konci vychyluje výsledek regrese 10 6 data 10 5 Málo reprezentantů α = 1.6 fit 10 4 10 3 10 2 Mnoho reprezentantů 10 1 10 0 10 0 10 1 10 2 10 3 10 4

Určení mocninného rozdělení 1. řešení Zkonstruovat histogram tak, že hodnoty vyneseme v log měřítku, velikost dílku na ose roste exponenciálně se stupněm, prvních několik dílků (intervalů) bude reprezentovat stupně např. 1, 2-3, 4-7, 8-15. Počet hodnot v každém dílku je vydělen šířkou dílku pro znormalizování měření. Pak provést tzv. binning zpracujeme data tak, že ta, která spadají do stejného úseku (intervalu) jsou nahrazena hodnotou reprezentující tato data, např. prostřední hodnotou, tzv. centroidem. Proložíme body (reprezentanty) přímku a odhadneme sklon α. nejčastější, ale ne nejpřesnější metoda

Osy v log měřítku Mocniny budou rovnoměrně rozloženy 1 2 3 10 20 30 100 200 Např. 2 0 =1, 2 1 =2, 2 2 =4, 2 3 =8, 2 4 =16, 2 5 =32, 2 6 =64,. Nebo 10 0 =1, 10 1 =10, 10 2 =100, 10 3 =1000,. Obecně pro základ a=2, 10 atd.: n-tý bin pokrývá stupně d v intervalu a n-1 d < a n, má šířku ((a-1)a n-1 )

1. řešení: logarithmic binning Intervaly exponenciálně širší:1, 2, 4, 8, 16, 32, nebo 1, 10, 100, 1000, Normalizovány šířkou intervalu Nevýhoda ztráta informace 10 6 data Stejnoměrně vzdálené body 10 4 α = 2.41 fit 10 2 10 0 Méně šumu na konci 10-2 10-4 10 0 10 1 10 2 10 3 10 4

Problém Některá data vykazují mocninné rozdělení pouze na konci od určité hodnoty d min, tuto hodnotu je potřeba určit (hodnota, o které si myslíme, že tam začíná power-law) Určitě musí být d min >0, protož d -α je nekonečno pro d = 0. Např. citace článků - power law je viditelně jen na konci, tedy pro d min > 100 citací)

Příklady reálných sítí d min Moby Dick scientific papers 1981-1997 AOL users visiting sites 97 bestsellers 1895-1965 AT&T customers on 1 day California 1910-1992

Některé výsledky pro reálná data z předchozího snímku d min frequency of use of words 1 2.20 number of citations to papers 100 3.04 number of hits on web sites 1 2.40 copies of books sold in the US 2 000 000 3.51 telephone calls received 10 2.22 magnitude of earthquakes 3.8 3.04 diameter of moon craters 0.01 3.14 intensity of solar flares 200 1.83 intensity of wars 3 1.80 frequency of family names 10 000 1.94 population of US cities 40 000 2.30 exponent α

Určení mocninného rozdělení 2.řešení: Vynést doplněk k distribuční funkci (tj. určujeme pst, že náhodný vrchol má stupeň x a větší) a odhadnout α (a přičíst 1) Redukuje šum na pravém konci. Není potřeba hledat reprezentanty (provádět binning ), máme její hodnotu pro každé d (!nedává však přímou vizualizaci např. distribuce stupňů). Tedy kolik proměnných X má hodnotu nejméně x? Doplněk distribuční funkce mocninného rozdělení je také mocninné rozdělení ale s exponentem (α - 1)

Pst Pravděpodobnostní funkce (PMF-Probability Mass Function) diskrétní náhodné veličiny X: P(X = x i ) = P(x i ) Distribuční funkce (Cumulative Distribution Function (CDF)) NV X je dána Doplňková distribuční funkce (Complementary CDF, CCDF) F(x) = P(X < x) F(x) = P(X x) = 1 F(x) 23

2.řešení Pro naše data máme určený exponent (2.43), který se velmi blíží danému (2.5) 10 6 10 5 data α-1 = 1.43 fit frequency sample > x 10 4 10 3 10 2 10 1 10 0 10 0 10 1 10 2 10 3 10 4 x

Maximální věrohodný odhad 3. řešení - Chceme-li mít jistotu, že se jedná o mocninné rozdělení, použijeme pro určení exponentu maximální věrohodný odhad (maximum likelihood estimation (MLE)) N α = 1+ N i= 1 min Počítáme pro vrcholy se stupněm d i d min,i =1,,N, d i jsou naše data (stupně) a my pracujeme s N z nich. Pro náš příklad získáme α = 2.503 téměř přesně! ln d d i 1

Příklady reálných sítí Taken from [Newman 2003]

Příklady reálných sítí Sítě na obr.c, d, f jsou bezškálové, mají mocninné rozdělení stupňů Síť na obr. b má jen konec mocninný, Síť na obr. a má asi dvě rozdělení s různým exponentem Síť na obr. e má exponenciální rozdělení

Statistiky (M. Newman 2003)

Odhad distribuce Výběr vhodných kandidátů (vhodných rozdělení (př. Poissonovo, mocninné, exponenciální,...)) pro empirická data (např. z grafu distribuce hodnot) Výběr nejlepšího kandidáta, tzv. fitting, různé metody pro odhad parametrů kandidátů, např. maximum likelihood estimation (MLE). moment matching estimation (MME), Ověření vhodnosti kandidáta, goodness-of-fit (minimum distance estimation) Chí kvadrát - test dobré shody pro diskrétní data (Chisquared statistic) Např. Kolmogorov-Smirnov test pro spojitá data

Odhad distribuce (Poisson)

Odhad distribuce (Power law)

Generování datasetu s power law a požadovaným mocninným exponentem