Metody analýzy dat I. Míry a metriky - pokračování

Podobné dokumenty
Metody analýzy dat I (Data Analysis I) Míry a metriky (Measures and Metrics) - - pokračování

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Metody analýzy dat II

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Metody analýzy dat I (Data Analysis I) Modely pokračování Model malého světa

PROSTOROVÉ ANALÝZY DAT

Metody analýzy dat I (Data Analysis I) Modely - pokračování

MADI. Model bezškálového grafu (Scale-free graphs) - pokračování

Úvod do teorie grafů

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Základní pojmy teorie grafů [Graph theory]

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Kapitola 11. Vzdálenost v grafech Matice sousednosti a počty sledů

Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika)

Algoritmy pro shlukování prostorových dat

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

Lineární algebra Operace s vektory a maticemi

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Cvičné texty ke státní maturitě z matematiky

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Jan Březina. 7. března 2017

Grafové algoritmy. Programovací techniky

Úvod do lineární algebry

MATEMATICKÁ STATISTIKA - XP01MST

Základy matematiky pro FEK

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

Voronoiův diagram. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta

DEFINICE Z LINEÁRNÍ ALGEBRY

Cvičení z Lineární algebry 1

Arnoldiho a Lanczosova metoda

Kostry. 9. týden. Grafy. Marie Demlová (úpravy Matěj Dostál) 16. dubna 2019

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

Zdůvodněte, proč funkce n lg(n) roste alespoň stejně rychle nebo rychleji než než funkce lg(n!). Symbolem lg značíme logaritmus o základu 2.

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2015

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.

Cvičné texty ke státní maturitě z matematiky

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Kapitola 11: Vektory a matice:

Příklady z Kombinatoriky a grafů I - LS 2015/2016

Determinanty. Determinanty. Přednáška MATEMATIKA č. 3. Jiří Neubauer

Golayův kód 23,12,7 -kód G 23. rozšířený Golayův kód 24,12,8 -kód G 24. ternární Golayův kód 11,6,5 -kód G 11

Lineární algebra : Skalární součin a ortogonalita

Skalární součin dovoluje zavedení metriky v afinním bodovém prostoru, tj. umožňuje nám určovat vzdálenosti, odchylky, obsahy a objemy.

Algoritmus pro hledání nejkratší cesty orientovaným grafem

Grafové algoritmy. Programovací techniky

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Grafy. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta.

TGH02 - teorie grafů, základní pojmy

Gymnázium Česká a Olympijských nadějí, České Budějovice, Česká 64, 37021

Detekce kartografického zobrazení z množiny

Rastrová reprezentace

1. Přednáška. Ing. Miroslav Šulai, MBA

0.1 Úvod do lineární algebry

4. Aplikace matematiky v ekonomii

Metody analýzy dat II

TGH02 - teorie grafů, základní pojmy

FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

PRAVDĚPODOBNOST A STATISTIKA

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

EUKLIDOVSKÉ PROSTORY

Algoritmus pro hledání vlastních čísel kvaternionových matic

Matice. Předpokládejme, že A = (a ij ) je matice typu m n: diagonálou jsou rovny nule.

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

15 Maticový a vektorový počet II

GRAFY A GRAFOVÉ ALGORITMY

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

FOURIEROVA ANAL YZA 2D TER ENN ICH DAT Karel Segeth

Teorie náhodných matic aneb tak trochu jiná statistika

VI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku

Statistika II. Jiří Neubauer

Teorie grafů BR Solutions - Orličky Píta (Orličky 2010) Teorie grafů / 66

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

Matematika B101MA1, B101MA2

VEKTORY. Obrázek 1: Jediný vektor. Souřadnice vektoru jsou jeho průměty do souřadných os x a y u dvojrozměrného vektoru, AB = B A

0.1 Úvod do lineární algebry

6. ANALYTICKÁ GEOMETRIE

SBÍRKA ÚLOH PRO PŘÍPRAVU NA PŘIJÍMACÍ ZKOUŠKY Z MATEMATIKY NA VŠ EKONOMICKÉHO SMĚRU

TGH02 - teorie grafů, základní pojmy

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Apriorní rozdělení. Jan Kracík.

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

MATURITNÍ TÉMATA Z MATEMATIKY

Hisab al-džebr val-muqabala ( Věda o redukci a vzájemném rušení ) Muhammada ibn Músá al-chvárizmího (790? - 850?, Chiva, Bagdád),

Vícerozměrné statistické metody

TEORIE GRAFŮ TEORIE GRAFŮ 1

Vzdálenost uzlů v neorientovaném grafu

STROMY. v 7 v 8. v 5. v 2. v 3. Základní pojmy. Řešené příklady 1. příklad. Stromy

Kapitola 11: Vektory a matice 1/19

Pravděpodobnost a aplikovaná statistika

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

3. ÚVOD DO ANALYTICKÉ GEOMETRIE 3.1. ANALYTICKÁ GEOMETRIE PŘÍMKY

Rovnice přímky v prostoru

V tomto předmětu se využívá stejných výchovných a vzdělávacích strategií jako v předmětu Matematika. Gymnázium Pierra de Coubertina, Tábor

Součin matice A a čísla α definujeme jako matici αa = (d ij ) typu m n, kde d ij = αa ij pro libovolné indexy i, j.

Transkript:

Metody analýzy dat I Míry a metriky - pokračování

Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [97-102] http://tuvalu.santafe.edu/~aaronc/courses/5352/ csci5352_2017_l1.pdf http://tuvalu.santafe.edu/~aaronc/courses/5352/ csci5352_2017_l2.pdf Albert-László Barabási. Network Science http://barabasi.com/networksciencebook/ kapitola 2

Reciprocity Má smysl se zabývat také jinými cykly než trojúhelníky V orient. grafu se často měří výskyt orient. cyklu délky 2 reciprocity Nebo lokální reciprocita Dvojice takových hran se také nazývá co-links (zejména v kontextu webu) r i = 1 d i j A ij A ji

Similarity Similarity (podobnost) Structural equivalence dva vrcholy jsou SE, jestliže sdílejí mnoho ze svých sousedů Regular equivalence dva vrcholy jsou RE jestliže jejich sousedé jsou si sobě podobní (themselves similar) Nejjednodušší SE počet společných sousedů n = A A ij Moc toho ale nevypovídá k ik kj

Cosine similarity Pro neorient. graf V geometrii skalární součin dvou vektorů x, y: x*y= x * y *cos θ cos θ = x*y/ x * y σ = cosθ = ij k A k Protože v matici sousednosti jsou jen 0 nebo 1, A ij2 =A ij pro i,j, pak A 2 kde d i je stupeň vrcholu i ik = Aik = di k σ ij = k k A d ik i d A j 2 ik kj A ik = A k kj A 2 jk n d ij i d j

Cosine similarity Příklad obr σ ij = n d ij i d j = 3 4 5 = 0.671 Další metrika pro SE - Pearson coefficients 6

Tranzitivita - shlukovací koeficient

Tranzitivita - shlukovací koeficient Shlukovací koeficient C měří hustotu trojúhelníků (lokálních shluků) v grafu, tj. existence trojúhelníků, resp. existence hrany sousedsoused daného vrcholu Různé způsoby měření: C (1) = 3*number of triangles in the network number of connected triplesof vertices

Příklad 1 4 2 3 5 3 C (1) = = 1 + 1 + 6 3 8 Jeden trojúhelník a osm spojených trojic vrcholů

Shlukovací koeficient Shlukovací koef. pro vrchol i triangles centered at node i C i = triples centered at node i C (2) = 1 n i C i Průměr podílů, pro vrcholy se stupněm 0, 1 je C i = 0

Příklad 1 4 1 C (2) = ( 1 + 1 + 1 6) = 5 13 30 2 3 5 C (1) = 3 8 Lokální koeficienty vrcholů jsou 1,1,1/6,0,0. Tyto dva koeficienty C (1), C (2) dávají různé výsledky. C (2) roste s počtem vrcholů s nízkým stupněm.

Shlukovací koeficient S.k. může být definován také jako C i = number of pairs of neighbors of i that are connected number of pairs of neighbors of i Trojúhelníková mřížka: d(d-1)/2= (6*5)/2=15, 6/15=0.4=C (pro každý vrchol) Čtvercová mřížka má C=0

Shlukovací koeficient ještě jinak Podgraf trojúhelníkové mřížky indukovaný vrcholem i (s centrem ve vrcholu) i: 2*6/6*5= =12/30=0.4=C i

Souvislost

Souvislost Souvislost lze určit kterýmkoliv algoritmem na principu procházení grafem (Floyd,...)

Stupně (neor. graf) Z matice sousednosti A určíme stupeň vrcholu jako Počet hran v grafu m Průměrný stupeň µ d =< d >= di = n i= 1 n Posloupnost stupňů [d 1, d 2,, d n ] Distribuce stupňů pravděpodobnost P(d) = 1 2 n d i i= 1 1 n 2m d P(d)

Hustota Velikost sítě sítě jsou zpravidla velké, tj. počet vrcholů je velký Hustota sítě sítě jsou zpravidla řídké Řídký vs. hustý graf (síť) Rozlišení je často vágní, liší se podle kontextu Nejčastěji Řídký graf - n km, m = O(n) Hustý graf m = Θ(n 2 ) Hustota (density) H: průměrný stupeň pro neorientovaný graf je <d> = 2m/n po vydělení největším stupněm (n-1) 2m/n*(n-1) H = m / 0.5*n*(n-1), H <0,1>

Vzdálenost v grafu Mějme např. pravidelnou mřížku (v 2D prostoru) - vzdálenost daná metrikou Eukleidovská metrika Metrika Manhattan O sítích obecně ale zpravidla neuvažujeme v kontextu souřadnic reálného prostoru. Reálné sítě potvrzuji tzv. fenomén malého světa malá průměrná vzdálenost L L log n

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks)

Základní (strukturální) vlastnosti sítí Mnoho reálných sítí vykazuje určité společné rysy, bez ohledu na to z jak diametrálně odlišných oblastí, jako jsou sociální sítě, telekomunikačních sítě atp., pocházejí. Jednoduchá měření struktury sítě jsou základem téměř každé síťové analýzy či modelování sítí. Tj. pro danou síť existuje mnoho vlastností jejichž analýzou (měřením) můžeme charakterizovat její strukturu.

Základní (strukturální) vlastnosti sítí Stupně vrcholů a jejich distribuce rozsáhlé reálné sítě mají tu vlastnost, že mnoho uzlů má malý počet sousedů (malý stupeň), ale některé mají velmi vysoký počet sousedů (vysoký stupeň) distribuce stupňů odpovídá tzv. mocninnému rozdělení - power-law degree distribution. Vzdálenosti - průměr (diameter) - mnoho rozsáhlých reálných sítí má malý průměr - small-world phenomenon Existence shluků - je-li uzel a spojen s uzlem b, a je-li zároveň uzel b spojen s uzlem c, je pravděpodobné, že uzel c bude spojen také s uzlem a. Mnoho rozsáhlých reálných sítí má vysoký clustering coefficient (shlukovací koeficient). Souvislost sítě jsou zpravidla nesouvislé a v mnoha sítích existuje jedna velká komponenta (giant component) s řádově O(n) vrcholy.

Distribuce stupňů Lokální vlastnosti počet sousedů Mřížka všechny vrcholy jsou stejného stupně (<d>=dim(dim+1) pro trojúhelníkovou a <d> =2dim pro čtvercovou mřížku, kde dim je dimenze prostoru) Teorie grafů stupeň vrcholu d, průměrný stupeň <d>=2m/n (pro řídký graf je <d> jednotkového řádu, nebo <d> roste tak rychle jako roste n), obecně ale různé stupně Karate club:

Distribuce stupňů U náhodného grafu je distribuce stupňů binomická Průměrně máme m=p*n*(n-1) /2 hran, průměrný stupeň je <d>=p(n-1) Pro velká n aproximujeme Poissonovým rozdělením, konec (tail) padá trochu rychleji, tj. v podstatě neexistují vrcholy se stupněm větším než d max, kde počet vrcholů s d=d max je 1 N = 10^6,<d>=4, Random Graph d

Poissonovo rozdělení Binomické x Poissonovo rozdělení

Bezškálové grafy Potřebujeme ale model, kde distribuce stupňů bude mít dlouhý konec, odrážející existenci center v reálných sítích N = 10^6,<d>=4, Random Graph & Scale/free log (d)

Bezškálové grafy lineární měřítko log-log měřítko Mocninné rozdělení p(d) d -α, d je stupeň vrcholu Velmi šikmé (asymetrie) Přímka v logaritmickém měřítku