Metody analýzy dat I (Data Analysis I) Míry a metriky (Measures and Metrics) - - pokračování

Podobné dokumenty
Metody analýzy dat I. Míry a metriky - pokračování

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy

Metody analýzy dat II

PROSTOROVÉ ANALÝZY DAT

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Grafy. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta.

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Základní pojmy teorie grafů [Graph theory]

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

Úvod do teorie grafů

Metody analýzy dat I (Data Analysis I) Modely pokračování Model malého světa

Kostry. 9. týden. Grafy. Marie Demlová (úpravy Matěj Dostál) 16. dubna 2019

TEORIE GRAFŮ TEORIE GRAFŮ 1

TGH02 - teorie grafů, základní pojmy

Jan Březina. 7. března 2017

Algoritmus pro hledání nejkratší cesty orientovaným grafem

Metody analýzy dat I (Data Analysis I) Modely - pokračování

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

TGH02 - teorie grafů, základní pojmy

Zdůvodněte, proč funkce n lg(n) roste alespoň stejně rychle nebo rychleji než než funkce lg(n!). Symbolem lg značíme logaritmus o základu 2.

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Operační výzkum. Síťová analýza. Metoda CPM.

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

Úvod do lineární algebry

Vzdálenost uzlů v neorientovaném grafu

TGH02 - teorie grafů, základní pojmy

Algoritmy pro shlukování prostorových dat

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Teorie grafů. Teoretická informatika Tomáš Foltýnek

Kapitola 11. Vzdálenost v grafech Matice sousednosti a počty sledů

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Základy informatiky. 07 Teorie grafů. Kačmařík/Szturcová/Děrgel/Rapant

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2015

Arnoldiho a Lanczosova metoda

Grafové algoritmy. Programovací techniky

H {{u, v} : u,v U u v }

VEKTORY. Obrázek 1: Jediný vektor. Souřadnice vektoru jsou jeho průměty do souřadných os x a y u dvojrozměrného vektoru, AB = B A

Diagnostika síťových aplikací - Zkouška

Grafové algoritmy. Programovací techniky

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

4. Aplikace matematiky v ekonomii

Cvičení z Lineární algebry 1

10 Přednáška ze

Diskrétní matematika. DiM /01, zimní semestr 2018/2019

Teorie náhodných matic aneb tak trochu jiná statistika

1. Přednáška. Ing. Miroslav Šulai, MBA

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

Kapitola 11: Vektory a matice:

Lineární algebra Operace s vektory a maticemi

Kapitola 11: Vektory a matice 1/19

MADI. Model bezškálového grafu (Scale-free graphs) - pokračování

Lineární algebra : Skalární součin a ortogonalita

Metody analýzy dat II

07 Základní pojmy teorie grafů

Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.

Úvod do vybíravosti grafů, Nullstellensatz, polynomiální metoda

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Kolik existuje různých stromů na pevně dané n-prvkové množině vrcholů?

Teorie grafů BR Solutions - Orličky Píta (Orličky 2010) Teorie grafů / 66

Operace s maticemi. 19. února 2018

ORIENTOVANÉ GRAFY, REPREZENTACE GRAFŮ

Dnešní látka Variačně formulované okrajové úlohy zúplnění prostoru funkcí. Lineární zobrazení.

Regresní a korelační analýza

Přijímací zkouška na navazující magisterské studium 2014

3. Grafy a matice. Definice 3.2. Čtvercová matice A se nazývá rozložitelná, lze-li ji napsat ve tvaru A =

Hledáme efektivní řešení úloh na grafu

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

Příklady z Kombinatoriky a grafů I - LS 2015/2016

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2014

9. přednáška 26. listopadu f(a)h < 0 a pro h (0, δ) máme f(a 1 + h, a 2,..., a m ) f(a) > 1 2 x 1

Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti:

Algoritmizace prostorových úloh

Lineární algebra : Skalární součin a ortogonalita

10 Podgrafy, isomorfismus grafů

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

DEFINICE Z LINEÁRNÍ ALGEBRY

Paralelní grafové algoritmy

Téma 22. Ondřej Nývlt

STROMY. v 7 v 8. v 5. v 2. v 3. Základní pojmy. Řešené příklady 1. příklad. Stromy

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

6.1 Vektorový prostor

15 Maticový a vektorový počet II

Regresní a korelační analýza

FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Lineární algebra - I. část (vektory, matice a jejich využití)

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

TGH05 - aplikace DFS, průchod do šířky

Matematika NÁRODNÍ SROVNÁVACÍ ZKOUŠKY BŘEZNA 2017

Matice. Předpokládejme, že A = (a ij ) je matice typu m n: diagonálou jsou rovny nule.

Golayův kód 23,12,7 -kód G 23. rozšířený Golayův kód 24,12,8 -kód G 24. ternární Golayův kód 11,6,5 -kód G 11

ANALYTICKÁ GEOMETRIE LINEÁRNÍCH ÚTVARŮ V ROVINĚ

VI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku

1 Analytická geometrie

Aplikovaná numerická matematika - ANM

Prostorová variabilita

Transkript:

Metody analýzy dat I (Data Analysis I) Míry a metriky (Measures and Metrics) - - pokračování

Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [97-102] http://tuvalu.santafe.edu/~aaronc/courses/5352/ csci5352_2016_l2.pdf

Betweenness centrality Od ostatních centralit se liší tím, že neměří jaká je konektivita vrcholu, ale měří jak dobře vrchol zapadne mezi ostatní A BC obecně nabývá hodnot z velkého intervalu. Např. pro hvězdu a její centrální vrchol je BC maximální = n 2 n + 1

Betweenness centrality Mějme neorient. graf s nejvýše jednou nejkratší cestou mezi každou dvojicí vrcholů. Betweenness centrality vrcholu i je počet nejkratších cest procházejících vrcholem i. i n st bude 1, jestli-že vrchol i leží na nejkratší cestě mezi s a t, nebo 0, jestliže i na takové cestě neleží. Pak BC x i vrcholu i bude = i x i n st st Každá hrana dvakrát, můžeme vydělit 2. Pro orient. graf výpočet bez modifikace. Můžeme také snížit o 1 (nebudeme započítávat smyčku incidentní s vrcholem s=t). Jde ale o pořadí

Betweenness centrality Mezi dvojicí vrcholů s a t ale může ležet více nejkratších cest (nejkratších vzhledem k počtu hran), pak lze každé cestě přiřadit váhu 1/g st, kde g st je počet nejkratších cest mezi s, t. Množina nejkratších cest mezi s, t není vrcholově disjunktní, mezi vrcholy s a t může procházet více cest. Nechť g st je počet nejkr. cest mezi s, t, pak i x = st Pro orient graf stejně. i n g st st

Betweenness centrality Nejmenší BC v grafu s jednou komp. souvislosti je 2n-1 (připusťme s=i nebo i=t, ex. n-1 cest z daného vrcholu do ostatních, n-1 cest z ostatních vrcholů do daného vrcholu a jedna smyčka incidentní z daným vrcholem (2(n-1)+1)= 2n-1) Poměr max a min BC je ½ n, zpravidla je menší, nicméně obecně je velký Herci: Fernando Rey BC=7.47x10 8, nejnižší je 8.91x10 5, poměr je cca 1000 (v porovnání s closenness c. =3.6) Na čele pořadí podle BC se změny dějí málo často (v porovnání s closenness c.)

Betweenness centrality Často se provádí normalizace, např. = 1 n xi 2 st n g i st st (*) (*)

Degree c. x Betweenness c. Na Zachary s klubu DC, CC a BC korelují, ale být to tak nemusí

Eigenvector centrality Idea degree c. je jen lokální vlastností jednotlivých vrcholů. Zobecněním může být zvýšení důležitosti vrcholů, které jsou sousedy jiných důležitých vrcholů. Eigenvector centrality důležitost vrcholu je proporcionální důležitosti sousedních vrcholů. První odhad, pro Pro neorientovanou souvislou síť iterace konverguje k pevnému bodu, který je ekvivalentní vlastnímu vektoru příslušejícímu největšímu vlastnímu číslu matice sousednosti. Proto: 1 Centralita vrcholu i je x κ i = 1 Aij x j, kde κ1 je max vlastní číslo matice A. j Ale to až v MAD2

Eigenvector centrality Pro karate klub po 15. iteraci

Page Rank Nevýhody Eigenvector c. v orientovaných grafech budou mít vrcholy mimo silně souvislou komponentu E.C. = 0, přestože mohou mít vysoké vstupní stupně, v orientovaných acyklických grafech budou mít pouze vrcholy s nulovým výstupním stupněm nenulovou E.C. Idea - centralita vrcholu i získaná od sousedních vrcholů j je úměrná jejich: centralitě / jejich výstupní stupeň, PageRank: x j x i = α A ij + out j k j β

Page Rank out Zpravidla se dává k j =1 pro všechny vrcholy s nulovým výstupním stupněm. Dále zpravidla β =1 Pro neorientované grafy se volí α <1, pro orientované, ale řádově jednotky. α 1 Google search engine α = 0.85 používá, stanoveno asi experimentálně (není žádná teorie)

Page Rank Google search engine PageRank is a method for computing the prestige or centrality of nodes in the context of Web search. The PageRank of a Web page is defined to be the probability of a random web surfer landing at that page. The PageRank of a node v recursively depends on the PageRank of other nodes that point to it. The streamlined matrix power method Google used to calculate PageRank essentially directly simulates random walkers, having each vertex repeatedly vote for its neighbors in proportion to its current centrality divided by its out-degree.

Porovnání

Porovnání A) Degree centrality, B) Closeness centrality, C) Betweenness centrality, D) Eigenvector centrality, E) Katz centrality (varianta E.C.)

Tranzitivita Relace tranzitivity hledání trojúhelníků (úplných grafů na 3 vrcholech) Perfektní tranzitivita ex. jen v kompletních (úplných) grafech (podgrafech), proto se pracuje s částečnou Clustering coefficient bude probráno 16

Reciprocity Má smysl se zabývat také jinými cykly než trojúhelníky V orient. grafu se často měří výskyt orient. cyklu délky 2 reciprocity Nebo lokální reciprocita Dvojice takových hran se také nazývá co-links (zejména v kontextu webu) r i = 1 d i j A ij A ji

Similarity Similarity (podobnost) Structural equivalence dva vrcholy jsou SE, jestliže sdílejí mnoho ze svých sousedů Regular equivalence dva vrcholy jsou RE jestliže jejich sousedé jsou si sobě podobní (themselves similar) Nejjednodušší SE počet společných sousedů n = A A ij Moc toho ale nevypovídá k ik kj

Cosine similarity Pro neorient. graf V geometrii skalární součin dvou vektorů x, y: x*y= x * y *cos θ cos θ = x*y/ x * y σ = cosθ = ij k A k Protože v matici sousednosti jsou jen 0 nebo 1, A ij2 =A ij pro i,j, pak A 2 kde d i je stupeň vrcholu i ik = Aik = di k σ ij = k k A d ik i d A j 2 ik kj A ik = A k kj A 2 jk n d ij i d j

Cosine similarity Příklad obr σ ij = n d ij i d j = 3 4 5 = 0.671 Další metrika pro SE - Pearson coefficients 20

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks)

Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [235-270] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [102-115] http://tuvalu.santafe.edu/~aaronc/courses/5352/ csci5352_2016_l1.pdf

Základní (strukturální) vlastnosti sítí Mnoho reálných sítí vykazuje určité společné rysy, bez ohledu na to z jak diametrálně odlišných oblastí, jako jsou sociální sítě, telekomunikačních sítě atp., pocházejí. Jednoduchá měření struktury sítě jsou základem téměř každé síťové analýzy či modelování sítí. Tj. pro danou síť existuje mnoho vlastností jejichž analýzou (měřením) můžeme charakterizovat její strukturu.

Základní (strukturální) vlastnosti sítí Stupně vrcholů a jejich distribuce rozsáhlé reálné sítě mají tu vlastnost, že mnoho uzlů má malý počet sousedů (malý stupeň), ale některé mají velmi vysoký počet sousedů (vysoký stupeň) distribuce stupňů odpovídá tzv. mocninnému rozdělení - power-law degree distribution. Vzdálenosti - průměr (diameter) - mnoho rozsáhlých reálných sítí má malý průměr - small-world phenomenon Existence shluků - je-li uzel a spojen s uzlem b, a je-li zároveň uzel b spojen s uzlem c, je pravděpodobné, že uzel c bude spojen také s uzlem a. Mnoho rozsáhlých reálných sítí má vysoký clustering coefficient (shlukovací koeficient). Souvislost sítě jsou zpravidla nesouvislé a v mnoha sítích existuje jedna velká komponenta (giant component) s řádově O(n) vrcholy.

Základní (strukturální) vlastnosti sítí Velikost sítě sítě jsou zpravidla velké, tj. počet vrcholů je velký Hustota sítě sítě jsou zpravidla řídké Řídký vs. hustý graf (síť) Rozlišení je často vágní, liší se podle kontextu Nejčastěji Řídký graf - n km, m = O(n) Hustý graf m = Θ(n 2 ) Hustota (density) H: průměrný stupeň <d> = 2m/n po vydělení největším stupněm (n-1) 2m/n*(n-1) H = m / 0.5*n*(n-1), H <0,1>

Stupně (neor. graf) Z matice sousednosti A určíme stupeň vrcholu jako Počet hran v grafu m Průměrný stupeň µ d =< d >= di = n i= 1 n Posloupnost stupňů [d 1, d 2,, d n ] Distribuce stupňů pravděpodobnost P(d) = 1 2 n d i i= 1 1 n 2m d P(d)

Distribuce stupňů Lokální vlastnosti počet sousedů Mřížka všechny vrcholy jsou stejného stupně (<d>=dim(dim+1) pro trojúhelníkovou a <d> =2dim pro čtvercovou mřížku) Teorie grafů stupeň vrcholu d, průměrný stupeň <d>=2m/n (pro řídký graf je <d> jednotkového řádu, nebo alespoň <d> roste tak rychle jako n), obecně ale různé stupně Karate club:

Distribuce stupňů U náhodného grafu je distribuce stupňů binomická Průměrně máme m=p*n*(n-1) /2 hran, průměrný stupeň je <d>=p(n-1) Pro velká n aproximujeme Poissonovým rozdělením, konec (tail) padá trochu rychleji, tj. v podstatě neexistují vrcholy se stupněm větším než d max, kde počet vrcholů s d=d max je 1 N = 10^6,<d>=4, Random Graph Na obrázku k je stupeň

Poissonovo rozdělení Binomické x Poissonovo rozdělení

Bezškálové grafy Potřebujeme ale model, kde distribuce stupňů bude mít dlouhý konec, odrážející existenci center v reálných sítích, N = 10^6,<d>=4, Random Graph & Scale/free Na obrázku k je stupeň

Bezškálové grafy lineární měřítko log-log měřítko Mocninné rozdělení p(d) d -α, d je stupeň vrcholu Velmi šikmé (asymetrie) Přímka v logaritmickém měřítku

Tranzitivita - shlukovací koeficient Shlukovací koeficient C měří hustotu trojúhelníků (lokálních shluků) v grafu, tj. existence trojúhelníků, resp. existence hrany sousedsoused daného vrcholu Různé způsoby měření: C (1) = 3*number of triangles in the network number of connected triplesof vertices

Příklad 1 4 2 3 5 3 C (1) = = 1 + 1 + 6 3 8 Jeden trojúhelník a osm spojených trojic vrcholů

Shlukovací koeficient Shlukovací koef. pro vrchol i triangles centered at node i C i = triples centered at node i C (2) = 1 n i C i Průměr podílů, pro vrcholy se stupněm 0, 1 je C i = 0

Příklad 1 4 1 C (2) = ( 1 + 1 + 1 6) = 5 13 30 2 3 5 C (1) = 3 8 Lokální koeficienty vrcholů jsou 1,1,1/6,0,0. Tyto dva koeficienty C (1), C (2) dávají různé výsledky. C (2) roste s počtem vrcholů s nízkým stupněm.

Shlukovací koeficient S.k. může být definován také jako C i = number of pairs of neighbors of i that are connected number of pairs of neighbors of i Trojúhelníková mřížka: d(d-1)/2= (6*5)/2=15, 6/15=0.4=C (pro každý vrchol) Čtvercová mřížka má C=0

Shlukovací koeficient ještě jinak Podgraf trojúhelníkové mřížky indukovaný vrcholem i (s centrem ve vrcholu) i: 2*6/6*5= =12/30=0.4=C i