Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)
Literatura Albert-László Barabási. Network Science http://barabasi.com/networksciencebook/ kapitoly 1 a 2 http://tuvalu.santafe.edu/~aaronc/courses/5352/csci5352_ 2017_L1.pdf Newman, M. (2010). Networks: An Introduction. Oxford University Press. [15-77] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [93-99] Leskovec, J., Rajaraman, A., Ullman, J. D. (2014). Mining of massive datasets. Cambridge University Press. [341-346]
Co je síť? Tradiční paradigma v analýze dat předpokládá, že je každá datová instance nezávislá na jiné. Ale, často mohou být instance spojeny s jinými prostřednictvím různých typů vztahů. Jednotlivé instance mohou být popsány různými atributy. Vzniká síť instancí (uzlů), které jsou propojeny vazbami, odkazy (hranami). Jak uzly tak hrany mohou mít různé atributy (číselné nebo kategoriální, nebo složitější (např. časové řady).
Sociální sítě Sociální sítě V užším slova smyslu např. Facebook (neorient.) nebo Twitter (orient.) V širším slova smyslu kolekce entit propojených odkazy, vazbami (! existuje alespoň jeden odkaz) v mnoha případech sítě nejsou náhodné Lidé, kteří jsou přáteli Počítače, které jsou propojeny do poč. sítě Webové stránky, které se odkazují na jiné Interakce proteinů Analýza sociálních sítí (Social Network Analysis, SNA)
Terminologie Terminologie (v různých oborech) points lines discipline vertices, nodes edges, arcs math= graph theory routers links computer science sites bonds physics actors ties, relations sociology
Network Science Co je NS? NS je věda o komplexních (tj. složitých, ale i složených ) systémech reprezentovaných (typicky dynamickými) sítěmi Sociální, biologické, atd. Opírá se o: Síťová data, Síťové modely, Síťové algoritmy, Statistické vlastnosti síťových dat, Kořeny NS Graph Theory, Statistical Mechanics, Nonlinear Dynamics, Games and Learning, Data mining ( graph mining ) and machine learning, Algorithms, Complexity theory
Komplexní sítě Komplexní systém: sbírka interagujících prvků projevujících globální dynamiku, která vyplývá z činnosti (chování) jeho částí bez organizovaného centralizovaného řízení. Complex networks - networks whose structure is irregular, complex and dynamically evolving in time. Wikipedie: In the context of network theory, a complex network is a graph (network) with non-trivial topological features features that do not occur in simple networks such as lattices or random graphs but often occur in real graphs.
Aplikace NS Social networks and social media Economic networks Biology Ecology Network medicine Climate science Brain Science and Neuroscience Web Internet and computer networks Scientometrics..
Proč se zabývat sítěmi? Jsou všude kolem nás Čím dál tím více systémů lze modelovat sítěmi Chceme: Porozumět jejich topologii, Měřit jejich vlastnosti, Studovat jejich chování (vývoj, dynamiku změn), Vytvářet realistické modely, Vytvářet užitečné algoritmy, Stávající sítě ale rostou Problém s velikostí sítí Máme výpočetní prostředky pro jejich studium Úkolem je ale vyvinout nástroje pro práci s rozsáhlými sítěmi
Typy sítí Sítě Sociální Informační Biologické Technologické
Sociální sítě Linky znamenají sociální vazby Sítě známostí Newman: The structure and function of complex networks, 18th page
Romantic relations in highschool
Jiné sociální sítě E-mailové sítě Sítě spolupráce Sítě autorů, resp. spoluautorů Herecké sítě http://www.fas-research.com/gallery10.shtml/
Email exchanges in a company
Socio-epidemic networks
Informační (znalostní) sítě Entity představují informace, odkazy (linky) sdružují (spojují) informace Citační sítě The World Wide Web
Technologické sítě Sítě vybudované pro účely distribuce určité komodity Internet Sítě aerolinií Telefonní sítě Transportní sítě Silniční, železniční, energetické
US highway network
Airline network
PoP-level Internet2 network
Biologické sítě Interakce protein-protein Potravinové sítě (řetězce) Uzly živočišné druhy Linky druh živící se jiným druhem http://many.corante.com/archives/2004/02/
Metabolic networks
Protein interaction networks
Brain networks - Structural vs Functional networks
Internet - vizualizace Komplexní sítě s biliony uzlů nelze přesně zobrazit, musíme se spokojit s vizualizací přibližné představy
Základní pojmy Opakování z Bc. předmětu Diskrétní matematika (základy Teorie grafů) Orientovaný (directed), neorientovaný (undirected) graf, hrany, vrcholy, relace incidence Smyčka (loop), izolovaný vrchol, multihrana, Stupeň (degree) Ohodnocený (weighted) graf (síť) - hranové, vrcholové, cena (váha, ohodnocení) Multigraf, prostý (simple) graf, úplný (complete) graf, bipartitní graf (2-mode graph), regulární graf, strom
Základní pojmy Sled (walk), tah (trail), cesta (path), kružnice, cyklus, úplný uzavřený s., t., c. Dostupnost (dosažitelnost) vrcholu Vzdálenost (distance) Souvislost (connectedness), souvislá komponenta (component) Algoritmy pro nejkratší cesty Kostra grafu
Metody analýzy dat I (Data Analysis I) Reprezentace sítí (grafů) (Graph Representation)
Obrázkem, nakreslením Reprezentace grafů
Matice sousednosti (adjacency matrix)
Matice incidence (incidence matrix)
matice cen matice vzdáleností
Seznamem vrcholů a jejich sousedů (a příp. i cen)
Seznamem hran (příp. i s cenami) (v5, v4)