PB050: Modelování a predikce v systémové biologii

Podobné dokumenty
IV117: Úvod do systémové biologie

IV117: Úvod do systémové biologie

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

Využití metod strojového učení v bioinformatice David Hoksza

Metody analýzy dat I. Míry a metriky - pokračování

Modelov an ı biologick ych syst em u Radek Pel anek

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

IV117: Úvod do systémové biologie

Algoritmizace prostorových úloh

U Úvod do modelování a simulace systémů

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Úvod do modelování a simulace. Ing. Michal Dorda, Ph.D.

Moderní aplikace statistické fyziky II - TMF050

Úvod do teorie grafů

Modelování biochemických procesů: Deterministický model transkripční regulace

Metody analýzy dat I (Data Analysis I) Strukturální vlastnosti sítí 1. krok analýzy

Zdůvodněte, proč funkce n lg(n) roste alespoň stejně rychle nebo rychleji než než funkce lg(n!). Symbolem lg značíme logaritmus o základu 2.

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Základní pojmy teorie grafů [Graph theory]

TGH02 - teorie grafů, základní pojmy

Základy informatiky. 07 Teorie grafů. Kačmařík/Szturcová/Děrgel/Rapant

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

TGH02 - teorie grafů, základní pojmy

PB051: Výpočetní metody v bioinformatice a

Základy informatiky. Teorie grafů. Zpracoval: Pavel Děrgel Úprava: Daniela Szturcová

TGH02 - teorie grafů, základní pojmy

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Přijímací zkouška - matematika

ALGORITMY A DATOVÉ STRUKTURY

Simulační modely. Kdy použít simulaci?

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2015

Grafové algoritmy. Programovací techniky

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

Modelování a simulace Lukáš Otte

Teorie systémů TES 1. Úvod

Grafy. RNDr. Petra Surynková, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta.

analýzy dat v oboru Matematická biologie

Úloha ve stavovém prostoru SP je <s 0, C>, kde s 0 je počáteční stav C je množina požadovaných cílových stavů

IV117: Úvod do systémové biologie

Jan Březina. 7. března 2017

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

bfs, dfs, fronta, zásobník, prioritní fronta, halda

Metody analýzy dat I (Data Analysis I) Úvod do sítí (Networks Basics)

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.

Graf. Uzly Lokality, servery Osoby fyzické i právní Informatické objekty... atd. Hrany Cesty, propojení Vztahy Informatické závislosti... atd.

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2014

5. Umělé neuronové sítě. Neuronové sítě

TGH05 - aplikace DFS, průchod do šířky

Grafové algoritmy. Programovací techniky

07 Základní pojmy teorie grafů

Tématické okruhy pro státní závěrečné zkoušky

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2014

ORIENTOVANÉ GRAFY, REPREZENTACE GRAFŮ

GRAFY A GRAFOVÉ ALGORITMY

Matice sousednosti NG

Objektově orientované technologie Diagram komponent Implementační náhled (Diagram rozmístění) Pavel Děrgel, Daniela Szturcová

Aplikovaná bioinformatika

Usuzování za neurčitosti

Trocha terminologie z teorie systémů. Algoritmy prostorových analýz Karel Jedlička Pouze podkladové texty k přednáškám

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Hledáme efektivní řešení úloh na grafu

bfs, dfs, fronta, zásobník, prioritní fronta, halda

Detekce kartografického zobrazení z množiny

TGH05 - aplikace DFS, průchod do šířky

Teorie grafů. Teoretická informatika Tomáš Foltýnek

PROGRAMOVÁNÍ. Cílem předmětu Programování je seznámit posluchače se způsoby, jak algoritmizovat základní programátorské techniky.

1. Statistická analýza dat Jak vznikají informace Rozložení dat

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Jak se matematika poučila v biologii

Výroková a predikátová logika - II

Vícerozměrné statistické metody

Úvodem Dříve les než stromy 3 Operace s maticemi

Vzdálenost uzlů v neorientovaném grafu

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Využití strojového učení k identifikaci protein-ligand aktivních míst

5 Orientované grafy, Toky v sítích

01 Teoretické disciplíny systémové vědy

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

7. Rozdělení pravděpodobnosti ve statistice

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Zkušební okruhy k přijímací zkoušce do magisterského studijního oboru:

2. přednáška z předmětu GIS1 Data a datové modely

Generování sítě konečných prvků

Metody in silico. stanovení výpočtem

Operační výzkum. Síťová analýza. Metoda CPM.

TEORIE GRAFŮ TEORIE GRAFŮ 1

Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

2. RBF neuronové sítě

Tabulace učebního plánu. Obecná chemie. Vzdělávací obsah pro vyučovací předmět : Ročník: 1.ročník a kvinta

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Principy počítačů I Netradiční stroje

IV117: Úvod do systémové biologie

Teorie náhodných matic aneb tak trochu jiná statistika

Transkript:

PB050: Modelování a predikce v systémové biologii David Šafránek 21.10.2009

Obsah Pojem modelu a simulace in silico opakování

Obsah Pojem modelu a simulace in silico opakování

Workflow systémové biologie rekonstrukce sítí databáze biol. znalostí + literatura biologická sít specifikace modelu SBML, diferenciální rovnice, boolovská sít, Petriho sít,... hypotézy validace modelu genové reportéry, DNA microarray, hmotnostní spektrometrie,... objevené vlastnosti analýza modelu statická analýza, numerická simulace, analytické metody, model checking dotazy na model verifikace hypotéz, detekce vlastností vyvození nových hypotéz

Proč dělat model in silico? omezené možnosti in vivo/in vitro experimentů náročnost experimentů na laboratorní prostředí nelze nastavit libovolné externí/výchozí podmínky experimenty náročné na čas vysoké náklady na biologický materiál, zařízení a zabezpečení experimentů

Co očekávat od modelu? nestačí jen znalost o chemických substancích nutné evidovat jednotlivé interakce mezi substancemi důležité je pochopení jejich významu funkce komplex chemických reakcí a jejich regulací zkoumání emergentních vlastností statická analýza modelu topologické vlastnosti, přímá vazba na evoluční selekci dynamická analýza modelu simulace chování při daných iniciálních podmínkách a prostředí predikce chování (emergentní vlastnosti) inspirace pro experimenty in vivo/in vitro tvorba/ověřování hypotéz na základě in silico modelu

In silico model abstraktní model teoretický (idealizovaný) obraz skutečného organismu specifikace modelu množina proměnných (chemické substance) množina interakcí (vztahy mezi proměnnými) proměnná zachycuje množství susbtance v daném okamžiku molární koncentrace, počet molekul interakce popisují logické i funkční vztahy komplexace, rychlost reakce simulace umožňuje sledovat vývoj proměnných v čase s ohledem na projev interakcí

Reprezentace modelu biologická síť komplexní systémový popis organismu neexistuje jednoznačná definice orientovaný nebo neorientovaný graf uzly představují typicky proměnné hrany představují typicky (funkční) relace mezi proměnnými k uzlům a relacím jsou přiřazeny kvalitativní i kvantitativní informace potřebné k simulaci (dynamická analýza) biologické sítě lze strukturně zkoumat statická analýza srovnávání sítí různých organismů vyhledávání alternativních cest zkoumání měřitelných vlastností sítí zkoumání změn v sítích při evoluční selekci

Obsah Pojem modelu a simulace in silico opakování

Dráhy vs. sítě dráhy jsou podsítě lineárního tvaru sekvence metabolických reakcí specifické zaměření na určité proměnné analyzované problémy: délka dráhy, existence alternativních drah sítě reprezentují komplexní data (zohledňují širokou množinu proměnných a všech relevantních interakcí) sítě interakcí určitého charakteru (transkripce, metabolismus, protein-protein,...) analyzované jevy: stupeň větvení, délka nejkratší dráhy, modularita, motivy,...

Vyhledávání alternativních drah E. coli

Vyhledávání alternativních drah S. cerevisiae

Alternativní dráhy

Alternativní dráhy význam v genetice a genomice modifikace drah souvisí přímo s vývojem genomu (evoluce) identifikace neznámých genů význam v biotechnologii identifikace a implementace alternativních variant význam ve farmakologii laterální náhrada genu metabolicky-specifické medikamenty

Biologické sítě různé typy sítí: regulatorní sítě (popis transkripční regulace) proteinové sítě (popis interakce proteinů) metabolické sítě (popis metabolismu) signální sítě (popis aktivačních/deaktivačních kaskád) další typy (např. neuronové sítě)

Biologická síť jako graf Definition Nechť V je konečná množina uzlů a E V V relace. Biologickou sítí nazveme graf G reprezentovaný uspořádanou dvojicí G (V, E). Pokud a, b E. a, b E b, a E, G nazýváme neorientovaný. V ostatních případech hovoříme o orientovaném grafu. typ sítě V E G genová regulační geny (resp. proteiny) regulace exprese or. proteinová proteiny proteinové interakce neor. metabolická metabolity, enzymy enzymové reakce or. signální molekuly aktivace/deaktivace or.

Cesty a kružnice cesta v grafu je libovolná sekvence uzlů [a 1, a 2,..., a n ] t.ž. i {1,..., n 1}. a i, a i+1 E, číslo n 1 nazýváme délkou cesty (počet hran) cestu nazveme elementární pokud se na ní každý vrchol vyskytuje právě jednou kružnice v grafu je libovolná elementární cesta [a 1, a 2,..., a n ] t.ž. a 1 = a n smyčkou nazýváme libovolnou kružnici délky 1

Cesty a kružnice

Cesty a kružnice kolik kružnic...

Cesty a kružnice kolik kružnic... 4 kolik cest z a do d...

Cesty a kružnice kolik kružnic... 4 kolik cest z a do d... 2 délka nejkratší cesty z d do c...

Cesty a kružnice kolik kružnic... 4 kolik cest z a do d... 2 délka nejkratší cesty z d do c... d(d, c) = 2

Vlastnosti grafu délku nejkratší cesty z a do b značíme d(a, b) charakteristickou délku cesty grafu G (V, E) značíme L G a definujeme: L G = 2 V ( V 1) a,b V d(a, b) množinu sousedních uzlů uzlu a značíme N a a definujeme N a = {b V a, b E b, a E} stupeň uzlu a značíme k a a definujeme jako počet všech sousedních uzlů uzlu a, tedy k a = N a koeficient seskupení uzlu (clustering coefficient [Watts, Strogatz]) a značíme C a a definujeme: C a = { c, d E c N a d N a } k a (k a 1)

Vlastnosti grafu koeficient seskupení grafu G je značen C G a definován jako průměr klastrovacích koeficientů všech uzlů: C G = 1 V a V C a

Vlastnosti grafu

Vlastnosti grafu C a =

Vlastnosti grafu C a = 2 2 = 1

Vlastnosti grafu C a = 2 2 = 1 C b =

Vlastnosti grafu C a = 2 2 = 1 C b = 2 6 = 1 3

Vlastnosti grafu C a = 2 2 = 1 C b = 2 6 = 1 3 C G =

Vlastnosti grafu C a = 2 2 = 1 C b = 2 6 = 1 3 C G = 1 4 (2 + 2 3 ) = 0.65

Náhodný graf náhodný graf je definován pevným počtem uzlů a pravděpodobností p existence hrany mezi libovolnými dvěma uzly alternativní definice: zvolíme množinu vrcholů V a počet hran n, z množiny všech možných hran ( V 2) vybereme náhodně n hran pravděpodobnost, že v náhodném grafu má daný uzel stupeň k, je charakterizována Poissonovým rozložením (s konst. λ): f (k λ) = e λ λ k [Erdös, Rényi, On the evolution of random graphs ] k!

Poissonovo rozložení

Náhodný graf Poissonovo rozložení stupně uzlů

Vlastnosti náhodných grafů typ grafu C G L G svaz vysoké dlouhé náhodný graf nízké krátké small-world vysoké krátké

Small-world sítě zavedeny Wattsem a Strogatzem, Collective dynamics of small-world networks, Nature 393, 1998 klíčem jsou lokální a globální metriky seskupení uzlů a metrika charakteristické délky cesty identifikovány jako grafy s vysokým koeficientem seskupení ale krátkou charakteristickou délkou cesty bylo prokázáno, že mnoho reálných sítí má tento charakter např. graf filmových herců propojených dle společného účinkování neuronové sítě v C. elegans výrazný posun v porozumění chování rozsáhlých dynamických systémů zavedení pojmu real-world graphs

Scale-free sítě zavedl Barabási a Albert, Emergence of Scaling in Random Networks, Science 286, 1999

Scale-free sítě reálné sítě nejsou statické (nemají pevný počet uzlů), ale vyvíjejí se dynamicky v čase, tzv. rostou nové uzly se napojují nejvíce k těm uzlům, které jsou se zbytkem sítě již dobře propojeny např. metabolické sítě E. coli jsou scale-free [Wagner, Fell, 2001] označíme-li P(k) pravděpodobnost, že libovolný uzel má stupeň k, pak pro scale-free sítě platí následující ůměra (Power law pro konst. λ): P(k) k λ

Scale-free sítě

Motivy ve scale-free sítích ve scale-free sítích se vyskytují specifické uzly, tzv. huby uzly s vysokým stupněm propojení na kostru síťové struktury ostatní uzly jsou lokálně napojeny k hubům objeveno např. při studiu proteinové sítě kvasinky pivovarské (Saccharomyces cerevisiae) [Jeong, Mason, 2001] díky hubům jsou sítě robustní proti náhodnému vyjmutí uzlu, ale naopak vyjmutí hubu znamená výrazné porušení sítě tato struktura vede k hierarchičnosti a modulárnímu charakteru jako moduly jsou identifikovány často opakující se výrazné podsítě (motivy) [Alon et.al., Network Motifs: Simple Building Blocks of Complex Networks, 2002] http: //www.weizmann.ac.il/mcb/urialon/colidata.html

Motivy

Reprezentace grafů maticí sousednosti matice rozměru V V M[a, b] = 1, pokud a, b E; M[a, b] = 0, jinak. maticí incidence matice rozměru V E M[a, e] = 1, pokud b V.e a, b E; M[a, e] = 1, pokud b V.e b, a E; M[a, e] = 0, jinak. nároky na paměť O( V 2 ) reprezentace efektivní pro malé grafy pro větší nutno použít seznam sousedů

Reprezentace grafů matice sousednosti

Metody statické analýzy cílem je zkoumat vlastnosti individuální biologické sítě nebo vzájemné porovnání biologických sítí vyhledávání v grafu do šířky (breadth-first search BFS) do hloubky (depth-first search DFS) iterativní zanořování (kombinace DFS a BFS) vyhledávání kružnic vyhledávání nejkratších cest vyhledávání cest incidujících s danou množinou uzlů vyhledávání a identifikace motivů

Nástroje pro statickou analýzu uplatnění tradičních grafových algoritmů vizualizace grafů Cytoscape http://www.cytoscape.org/ layouting porovnání s náhodnými grafy identifikace motivů NetMatch (Cytoscape plugin) http://baderlab.org/software/netmatch FANMOD http://theinf1.informatik.uni-jena.de/ ~wernicke/motifs/index.html mfinder/mdraw http://www.weizmann.ac.il/mcb/ UriAlon/groupNetworkMotifSW.html

Nástroje pro statickou analýzu Pathway Hunter Tool analýza nejkratších cest v metabolických drahách identifikace uzlů enzymy v EC notaci možnost porovnání metabolických drah v různých organismech statistická analýza metabolických drah vyhledávání metabolických cest v databázi KEGG http://pht.tu-bs.de/pht/ KEGG http://www.genome.ad.jp/kegg/ databáze metabolických drah vyhledávání dle enzymových čísel umožňuje nalézt cesty incidující s danou množinou enzymů podporuje grafické vyobrazení metabolických drah (staticky předdefinovaná schémata)

Shrnutí biologický systém definován interakcemi mezi jeho komponentami interakce jsou omezeny základními zákony chemie ale i evolučním vývojem syntaxí organismu-systému je síť komponent sémantikou organismu-systému je jeho funkce (dynamika) nad sítěmi lze provádět statickou analýzu charakterizace vlastností sítě (metriky) statistické srovnání s náhodnými grafy identifikace motivů statické vlastnosti determinovány evolučním vývojem