Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

Podobné dokumenty
Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy

Metody analýzy dat I. Míry a metriky - pokračování

Metody analýzy dat I (Data Analysis I) Míry a metriky (Measures and Metrics) - - pokračování

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

PROSTOROVÉ ANALÝZY DAT

Algoritmy na ohodnoceném grafu

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

07 Základní pojmy teorie grafů

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Metody analýzy dat II

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

Grafové algoritmy. Programovací techniky

Zdůvodněte, proč funkce n lg(n) roste alespoň stejně rychle nebo rychleji než než funkce lg(n!). Symbolem lg značíme logaritmus o základu 2.

Metody analýzy dat I (Data Analysis I) Modely - pokračování

Metody analýzy dat I (Data Analysis I) Modely pokračování Model malého světa

Paralelní grafové algoritmy

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Základní pojmy teorie grafů [Graph theory]

4EK311 Operační výzkum. 5. Teorie grafů

Vzdálenost uzlů v neorientovaném grafu

opakování reprezentace grafů, dijkstra, bellman-ford, johnson

TGH06 - Hledání nejkratší cesty

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

TGH06 - Hledání nejkratší cesty

Graf. Uzly Lokality, servery Osoby fyzické i právní Informatické objekty... atd. Hrany Cesty, propojení Vztahy Informatické závislosti... atd.

PB050: Modelování a predikce v systémové biologii

Jan Březina. 7. března 2017

Teorie grafů BR Solutions - Orličky Píta (Orličky 2010) Teorie grafů / 66

Operační výzkum. Síťová analýza. Metoda CPM.

Základy informatiky. 07 Teorie grafů. Kačmařík/Szturcová/Děrgel/Rapant

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2015

Dynamické programování

IV117: Úvod do systémové biologie

Grafové algoritmy. Programovací techniky

opakování reprezentace grafů, dijkstra, bellman-ford, johnson

Teorie grafů. Kostra grafu. Obsah. Radim Farana Podklady pro výuku pro akademický rok 2013/2014

H {{u, v} : u,v U u v }

TEORIE GRAFŮ TEORIE GRAFŮ 1

Metody síťové analýzy

Úvod do teorie grafů

Metody analýzy dat II

Algoritmizace prostorových úloh

Grafy. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta.

TGH05 - aplikace DFS, průchod do šířky

MADI. Model bezškálového grafu (Scale-free graphs) - pokračování

Algoritmus pro hledání nejkratší cesty orientovaným grafem

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

Přijímací zkouška - matematika

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

Státnice odborné č. 20

TGH05 - aplikace DFS, průchod do šířky

Drsná matematika III 10. demonstrovaná cvičení Kostry grafů

STROMY. v 7 v 8. v 5. v 2. v 3. Základní pojmy. Řešené příklady 1. příklad. Stromy

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Pravděpodobnost a statistika I KMA/K413

Moderní aplikace statistické fyziky II - TMF050

PROHLEDÁVÁNÍ GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Úvod do mobilní robotiky AIL028

MATEMATIKA III V PŘÍKLADECH

5 Orientované grafy, Toky v sítích

Diskrétní náhodná veličina

Prohledávání do šířky = algoritmus vlny

Teorie grafů. zadání úloh. letní semestr 2008/2009. Poslední aktualizace: 19. května First Prev Next Last Go Back Full Screen Close Quit

dag a dp v něm, bellman-ford, floyd-warshall

Grafové algoritmy. Programovací techniky

TGH08 - Optimální kostry

3. Prohledávání grafů

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

9. přednáška z předmětu GIS1 Digitální model reliéfu a odvozené povrchy. Vyučující: Ing. Jan Pacina, Ph.D.

Redukce bezškálových grafů pomocí genetických algoritmů Scale-free Network Reduction by Genetic Algorithms

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

TGH02 - teorie grafů, základní pojmy

Jarníkův algoritmus. Obsah. Popis

Diagnostika síťových aplikací - Zkouška

2. RBF neuronové sítě

5 Informace o aspiračních úrovních kritérií

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

VLASTNOSTI GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze. BI-GRA, LS 2010/2011, Lekce 5

8 Přednáška z

Kapitola 11. Vzdálenost v grafech Matice sousednosti a počty sledů

Teorie síťových modelů a síťové plánování

Diskrétní matematika. DiM /01, zimní semestr 2018/2019

Vícerozměrné statistické metody

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.

bfs, dfs, fronta, zásobník, prioritní fronta, halda

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

SAFETY IN LOGISTIC TRANSPORT CHAINS USING THEORY OF GRAPHS

Ukážeme si lineární algoritmus, který pro pevné k rozhodne, zda vstupní. stromový rozklad. Poznamenejme, že je-li k součástí vstupu, pak rozhodnout

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2014

Kartografické modelování. VIII Modelování vzdálenosti

TGH10 - Maximální toky

A6M33SSL: Statistika a spolehlivost v lékařství Teorie spolehlivosti Přednáška 2

Binární vyhledávací stromy pokročilé partie

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Prostorová variabilita

Usuzování za neurčitosti

ZÁPADOČESKÁ UNIVERZITA V PLZNI FAKULTA APLIKOVANÝCH VĚD Katedra matematiky. Analytické metody evoluční teorie her

Transkript:

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

Základní (strukturální) vlastnosti sítí Stupně vrcholů a jejich distribuce rozsáhlé reálné sítě mají tu vlastnost, že mnoho uzlů má malý počet sousedů (malý stupeň), ale některé mají velmi vysoký počet sousedů (vysoký stupeň) distribuce stupňů odpovídá tzv. mocninnému rozdělení - power-law degree distribution. Existence shluků - je-li uzel a spojen s uzlem b, a je-li zároveň uzel b spojen s uzlem c, je pravděpodobné, že uzel c bude spojen také s uzlem a. Mnoho rozsáhlých reálných sítí má vysoký clustering coefficient (shlukovací koeficient). Vzdálenosti - průměr (diameter) - mnoho rozsáhlých reálných sítí má malý průměr - small-world phenomenon Souvislost sítě jsou zpravidla nesouvislé a v mnoha sítích existuje jedna velká komponenta (giant component) s řádově O(n) vrcholy.

Vzdálenost v grafu Např. pravidelná mřížka (v reálném prostoru) - vzdálenost daná metrikou Eukleidovská metrika Metrika Manhattan O sítích obecně ale zpravidla neuvažujeme v kontextu souřadnic reálného prostoru. Jak porovnat mřížku, náhodný graf a jiné typy grafů se stejným počtem vrcholů? Pomocí grafové vzdálenosti Velikost grafu (měřená vzdáleností, průměrem, ) roste: dim-rozměrná mřížka n 1/dim náhodný graf log(n)

Průměr, průměrná vzdálenost Nejkratší cesta (shortets path, geodesic path) Mezi všemi dvojicemi vrcholů Z výchozího Rozlišit ohodnocený, neohodnocený Diameter = průměr (nejdelší nejkratší cesta), D Mean shortest path - průměrná nejkratší cesta, L Orientovaný, ohodnocený Floydův, Dijkstrův, Bellman-Fordův Neorientovaný, neohodnocený BFS, DFS, ale rovněž Floydův, Dijkstrův, Bellman- Fordův

Souvislost Obr. A) n=6, m=6, L=1.87 (30 uspoř. dvojic vrcholů), D=3 Pravidelná mřížka je vždy souvislá, což neplatí např. pro náhodné grafy - u těch potřebujeme nejméně n-1 hran Erdős Rényi On Random Graphs I, 1959 ukázali, že náhodný graf je pravděpodobně souvislý má-li nejméně n*log(n)/2 hran pro velká n. Souvislost lze určit kterýmkoliv algoritmem na principu procházení grafem (Floyd,...)

Metody analýzy dat I (Data Analysis I) Modely

Literatura Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [112-133] http://arxiv.org/pdf/cond-mat/0405123v1.pdf http://tuvalu.santafe.edu/~aaronc/courses/5352/csci 5352_2016_L3.pdf

Modely Vzhledem k průměru D, průměrné nejkratší cestě L, shlukovacímu koeficientu C a distribuci stupňů rozlišujeme 4 základní modely: Pravidelný graf (mřížka) - lattice Náhodný graf Random graph Model malého světa Small-world graph Bezškálový graf (Barabási-Albertové model) Scalefree graph

Pravidelné grafy (mřížky) Pravidelný (regulární graf) všechny vrcholy stejného stupně (Eukleidovské) mřížky (lattices) př. pevné látky a jejich krystalová mřížka (vrcholy atomy, hrany nejdůležitější vazby) Vlastnosti pravidelných grafů Průměr D velký Shlukovací koeficient C vysoký (nebo 0 u čtvercové mřížky) distribuce stupňů konstantní

Pravidelné grafy Na všech obr. je pravidelný graf s n=20, m=40, m=2n (řídký graf) Obr. A) pravidelná mřížka ve 2D, Pro obr. C) L=2.32, průměr D=4, C=0

Náhodné grafy Od 1959 do 90. let 20. století sítě modelovány jako náhodné grafy (random graphs) Náhodný graf máme množinu n vrcholů, hrany mezi nimi přidáváme náhodně s pravděpodobností p Každá hrana je stejně pravděpodobná Rozdílné modely náhodných grafů mají různé rozdělení pravděpodobnosti (nějakého jevu) Zkoumané vlastnosti, např.: Vyberu-li zcela náhodně jeden uzel grafu, jaká je pravděpodobnost P(d), že bude mít stupeň právě d? Jaká je průměrná vzdálenost? Jaká je souvislost grafu?

Náhodné grafy n=20, m=40, náhodně spojíme dvojici vrcholů s p=2m/(n(n-1))=0.2105 Relativní pozice vrcholů není důležitá (na rozdíl od např. krystalové mřížky) Obr. A) L=2.17, průměr D=5, C=0.134, náhodný graf Obr. B) L=2.22, D=4, C=0.15, pravidelný graf

Erdős Rényi model náhodného grafu Paul Erdös a Alfréd Rényi

Opak pravidelné mřížky Erdős Rényi model náhodného grafu Jejich model se označuje jako G n,p model, je určen n počet vrcholů 0 p 1 Pro každou dvojici vrcholů (i,j) se generuje hrana (i,j) nezávisle s pravděpodobností p, tj. každá hrana v grafu s n vrcholy existuje s pravděpodobností p a neexistuje s pravděpodobností 1-p.

p=0.01

Perkolace Vývoj grafu (graph evolution) - která vlastnost grafu je zachována roste-li p? Perkolace, fázový přechod, perkolační práh, treshold phenomenon: pro mnoho grafů ex. vlastnost současně - tedy existuje pravděpodobnost p c taková, že pro p<p c téměř všechny grafy vlastnost nemají a pro p>p c vlastnost mají téměř všechny grafy. Prahová hodnota p c pochází z tzv. teorie perkolace. Pro mřížky a náhodné grafy se p c analyzuje snadno

Perkolace v mřížce

Vlastnosti G n,p Vlastnosti G n,p : průměr D a průměrná vzdálenost L malé koeficient shlukování C nízký distribuce stupňů Poissonovo rozdělení Jak se na to přišlo? Experimentálně i analyticky.

Vlastnosti G n,p Vlastnosti G n,p se obvykle vyjadřují ve vztahu k hodnotě <d>, kde <d> je průměrný stupeň Průměrný počet hran v grafu G n,p je m=p*n*(n-1)/2, každá hrana je incidentní s dvěma vrcholy, proto průměrný stupeň vrcholu je < d >= n(n -1)p n = (n 1)p což je asi <d>=np pro velká n.

Distribuce stupňů v G n,p Pravděpodobnost p(d), že daný vrchol grafu o n vrcholech má stupeň d je dána binomickým rozdělením n -1 d n 1- d p(d) = B(n;d; p) = p ( 1 p) d Předpokládejme <d>=np = c, kde c je naše požadovaná hodnota průměrného stupně, n, B(n,d,p) pak lze aproximovat Poissonovým rozdělením d c c p(d) = P(d;c) = e d! Obě distribuce koncentrovány kolem prům. stupně <d>, konec klesá exponenciálně, jako 1/d!, pro d > <d>

Poissonovo rozdělení Binomické a Poissonovo rozdělení

Poissonovo rozdělení Jen málo vrcholů v náhodném grafu má velmi malý resp. velmi velký stupeň, většina vrcholů má průměrný stupeň Scale-free graf (A) a náhodný graf (B) mocninné (C) a Poissonovo rozdělení (D)

Distribuce stupňů v G n,p Pozn. Poissonovo rozdělení obecně lze pro všechny hodnoty x=0,1,2,... náhodné veličiny X vyjádřit pomocí parametru λ>0 jako Nejnižší resp. nejvyšší stupeň vrcholů náhodného grafu jsou určeny pro různá p Jestliže p n -1-1/d, pak téměř žádný náhodný graf nemá vrcholy se stupněm vyšším než d. Pro dostatečně velké p, tj. je-li pn/log(n) mají náhodné grafy nejvyšší stupeň řádově jako je stupeň průměrný, tedy mají poměrně homogenní stupně.

Vzdálenosti v G n,p Náhodné grafy mají tendenci mít malou průměrnou vzdálenost, zpravidla okolo (log n/log<d>). <d> <1 typický náhodný graf je složen z izolovaných stromů, průměrná vzdálenost pak odpovídá průměrné vzdálenosti stromu <d> >1 v grafu ex. obrovská komponenta. Je li <d> >3.5 je průměrná vzdálenost grafu rovna průměrné vzdálenosti této obrovské komponenty a je úměrná L=log n/log<d> <d> >log n, téměř každý náhodný graf je souvislý a průměrné vzdálenosti L těchto grafů nabývají několika hodnot okolo L=log n/log<d>

Souvislost a G n,p Pro p=0 máme diskrétní graf s n komponentami a velikost komponenty je řádově O(1/n). Pro p=1 máme úplný graf s 1 komponentou a největší komponenta (jediná) má n vrcholů. A mezi tím?

Souvislost a G n,p Jestliže je <d> <1 (počet hran m je malý), pak graf obsahuje mnoho malých komponent (souvislých), největší komponenta má počet vrcholů nejvýše O(log n). Téměř všechny komponenty jsou buď stromy nebo obsahují právě jeden cyklus. Je-li <d> >1, největší komponenta má velikost Θ(n) a druhá největší O(log n). Jestliže <d> >log n, graf je souvislý. Jestliže <d> =1, nastane změna, která vede ke vzniku obrovské komponenty O(n 2/3 ), ve které platí mocninný zákon.

Souvislost a G n,p S je velikost největší komponenty vyjádřená poměrem k celkové velikosti sítě

Shlukování v G n,p Mějme uzel, jeho sousedy, pak pravděpodobnost, že dva z těchto sousedů jsou spojeny hranou je rovna pravděpodobnosti, že dva náhodně vybrané vrcholy jsou spojeny hranou, tedy shlukovací koeficient C = p. Jinak: v náhodném grafu (na rozdíl od trojuh. mřížky) není důvod, aby soused souseda vrcholu i měl nějaký vztah k i. Náhodný graf s n vrcholy má pn(n-1)/2 možných hran, pokud máme M hran, C=2M/n(n-1)= =<d>/(n-1)=p, zde (<d>=c)

Shlukování v G n,p <d> <d>

G n,p p 0 0.045 0.09 1.0 <d> 0 0.5 1 n L 0 2.0 4.2 1.0 D 0.0 4 7 1 Počet vrcholů v největší komponent ě 1 5 11 12

G n,p efekt průměrného stupně <d> Pro <d>< 1: Malé, izolované shluky Malý průměr D Malá L pro <d> = 1: Objevuje se velká komponenta Průměr D dosahuje vrcholu L je velká pro <d> > 1: Téměř všechny vrcholy propojeny Průměr D se snižuje L klesá d

Příklad - Zachary's karate club

Závěr - G n,p Model náhodného grafu nevyhovuje reálným sítím zejména proto, že: Reálné grafy mají mocninné rozdělení distribuce stupňů (power-law), ne Poissonovo. Reálné sítě mají vysoký shlukovací koeficient, náhodné grafy mají obecně malý shlukovací koeficient, který se s rostoucím n blíží k 0 (při konstantní p). Reálné sítě mají komunitní strukturu (vysvětlíme později v MADII) Jiné modely sítí vyhovující reálným sítím lépe, začaly vznikat koncem 90. let m.s.