Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)
Literatura Newman, M. (2010). Networks: An Introduction. Oxford University Press. [15-77] Leskovec, J., Rajaraman, A., Ullman, J. D. (2014). Mining of massive datasets. Cambridge University Press. [341-346]
Co je síť? Tradiční paradigma v analýze dat předpokládá, že je každá datová instance nezávislá na jiné (viz nezávislost jevů). Ale, často mohou být instance spojeny s jinými prostřednictvím různých typů vztahů. Jednotlivé instance mohou být popsány různými atributy. Vzniká tak síť (nebo graf) instancí (vrcholů), které jsou propojeny odkazy (hranami). Jak uzly tak hrany mohou mít různé atributy (číselné nebo kategoriální, nebo dokonce složitější (např. časové řady).
Sociální sítě Analýza sociálních dat (Social Network Analysis, SNA) Sociální sítě V užším slova smyslu např. Facebook (neorient.) nebo Twitter (orient.) V širším slova smyslu kolekce entit propojených odkazy (existuje alespoň jeden odkaz) v mnoha případech sítě nejsou náhodné Lidé, kteří jsou přáteli Počítače, které jsou propojeny do poč. sítě Webové stránky, které se odkazují na jiné Interakce proteinů
Terminologie Terminologie (v různých oborech) points lines discipline vertices, nodes edges, arcs math= graph theory routers links computer science sites bonds physics actors ties, relations sociology
Network Science SNA, NS Co je NS? NS je věda o komplexních (tj. složitých, ale i složených ) systémech reprezentovaných (typicky dynamickými) sítěmi Sociální, biologické, atd. Opírá se o: Síťová data Síťové modely Síťové algoritmy Statistické vlastnosti síťových dat
Komplexní sítě Komplexní systém: sbírka interagujících prvků projevujících globální dynamiku, která vyplývá z činnosti (chování) jeho částí bez organizovaného centralizovaného řízení. Complex networks - networks whose structure is irregular, complex and dynamically evolving in time. Wikipedie: In the context of network theory, a complex network is a graph (network) with non-trivial topological features features that do not occur in simple networks such as lattices or random graphs but often occur in real graphs.
Kořeny NS Graph Theory Statistical Mechanics Nonlinear Dynamics Games and Learning Data mining ( graph mining ) and machine learning Algorithms Complexity theory
Aplikace NS Social networks and social media Economic networks Biology Ecology Network medicine Climate science Brain Science and Neuroscience Web Internet and computer networks Scientometrics..
Proč se zabývat sítěmi? Jsou všude kolem nás Čím dál tím více systémů lze modelovat sítěmi Jejich analýza poskytuje mnoho zajímavých informací o reálném světě Stávající sítě ale rostou Problém s velikostí sítí Máme výpočetní prostředky pro jejich studium Úkolem je ale vyvinout nástroje pro práci s rozsáhlými sítěmi
Příklady sítí Sítě Sociální Informační Biologické Technologické
Sociální sítě Linky znamenají sociální vazby Sítě známostí Newman: The structure and function of complex networks, 18th page
Romantic relations in highschool
Jiné sociální sítě E-mailové sítě Sítě spolupráce Sítě autorů, resp. spoluautorů Herecké sítě http://www.fas-research.com/gallery10.shtml/
Email exchanges in a company
Phone calls in a country
Socio-epidemic networks
Informační (znalostní) sítě Entity představují informace, odkazy (linky) sdružují (spojují) informace Citační sítě The World Wide Web
Technologické sítě Sítě vybudované pro účely distribuce určité komodity Internet Sítě aerolinií Telefonní sítě Transportní sítě Silniční, železniční, energetické
US highway network
Airline network
PoP-level Internet2 network
Biologické sítě Interakce protein-protein Potravinové sítě (řetězce) Uzly živočišné druhy Linky druh živící se jiným druhem http://many.corante.com/archives/2004/02/
Metabolic networks
Protein interaction networks
Brain networks - Structural vs Functional networks
Internet - vizualizace Komplexní sítě s biliony uzlů nelze přesně zobrazit, musíme se spokojit s přibližnou vizualizací
A dál? Svět plný sítí. Co s nimi? Chceme: Porozumět jejich topologii Měřit jejich vlastnosti Studovat jejich chování (vývoj, dynamiku změn) Získávat informace o reálném světě Vytvářet realistické modely Vytvářet užitečné algoritmy
Metody analýzy dat I (Data Analysis I) Typy a reprezentace sítí (Types and Representation of Networks)
Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [109-145] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press. [93-97]
Základní pojmy Orientovaný (directed), neorientovaný (undirected) graf, hrany, vrcholy, relace incidence Smyčka (loop), izolovaný vrchol, multihrana, Stupeň (degree) Ohodnocený (weighted) graf (síť) - hranové, vrcholové, cena (váha, ohodnocení) Multigraf, prostý (simple) graf, úplný (complete) graf, bipartitní graf (2-mode graph), regulární graf, strom
Základní pojmy Sled (walk), tah (trail), cesta (path), kružnice, cyklus, úplný uzavřený s., t., c. Dostupnost (dosažitelnost) vrcholu Vzdálenost (distance) 2 Souvislost (connectedness), komponenta (component) 1 3 5 4
Obrázkem, nakreslením Reprezentace grafů
Matice sousednosti (adjacency matrix)
Matice incidence (incidence matrix)
matice cen matice vzdáleností
Seznamem vrcholů a jejich sousedů (a příp. i cen)
Seznamem hran (příp. i s cenami) (v5, v4)