Markovovy modely v Bioinformatice

Podobné dokumenty
Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Využití metod strojového učení v bioinformatice David Hoksza

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Neuronové sítě (11. přednáška)

Konvolučníkódy. MI-AAK(Aritmetika a kódy)

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

Využití strojového učení k identifikaci protein-ligand aktivních míst

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Markovské metody pro modelování pravděpodobnosti

Umělá inteligence v hudbě. Matematicko-fyzikální fakulta Univerzity Karlovy

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Simulace pohybu chodců pomocí celulárních modelů

Bayesovské metody. Mnohorozměrná analýza dat

Modelov an ı biologick ych syst em u Radek Pel anek

Úvod do zpracování signálů

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D.

Lineární klasifikátory

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Moderní systémy pro získávání znalostí z informací a dat

DETEKCE GENŮ V DNA SEKVENCÍCH

Numerické metody a programování. Lekce 8

A6M33SSL: Statistika a spolehlivost v lékařství Teorie spolehlivosti

Úvod do optimalizace, metody hladké optimalizace

Markovské procesy. příklad: diabetický pacient, hladina inzulinu, léky, jídlo

Markov Chain Monte Carlo. Jan Kracík.

Paralelní grafové algoritmy

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Aktivní detekce chyb

PŘEDNÁŠKA 03 OPTIMALIZAČNÍ METODY Optimization methods

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Úvod do teorie her

MATEMATIKA A 3 Metodický list č. 1

ANALÝZA A KLASIFIKACE DAT

Teorie informace: řešené příklady 2014 Tomáš Kroupa

Apriorní rozdělení. Jan Kracík.

13. cvičení z PSI ledna 2017

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

NG C Implementace plně rekurentní

Jak se matematika poučila v biologii

Aplikace obrazové fúze pro hledání vad

aneb jiný úhel pohledu na prvák

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

PRAVDĚPODOBNOST A STATISTIKA

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

analýzy dat v oboru Matematická biologie

Optimalizace prodeje prošlého zboží

1 Linearní prostory nad komplexními čísly

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý

Numerické metody optimalizace - úvod

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Národní informační středisko pro podporu kvality

2.6. VLASTNÍ ČÍSLA A VEKTORY MATIC

ROVNICE NA ČASOVÝCH ŠKÁLÁCH A NÁHODNÉ PROCESY. Michal Friesl

Kombinatorická minimalizace

UČENÍ BEZ UČITELE. Václav Hlaváč

Charakterizují kvantitativně vlastnosti předmětů a jevů.

Stochastické modely Informace k závěrečné zkoušce

Strojové učení Marta Vomlelová

Biofyzikální ústav LF MU Brno. jarní semestr 2011

Lineární diskriminační funkce. Perceptronový algoritmus.

Nadaní v přírod. vědách. Jiřina Novotná Katedra matematiky Pedagogická fakulta MU Brno

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Dynamické programování

IV117: Úvod do systémové biologie

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

Značení 1.1 (posloupnost výsledků pokusu). Mějme posloupnost opakovaných (i závislých) pokusů,

Rovinný průtokoměr. Diplomová práce Ústav mechaniky tekutin a termodynamiky, Jakub Filipský

Pracovní text a úkoly ke cvičením MF002

Teorie informace II: obtížnější řešené příklady 2014 Tomáš Kroupa

IV108 - Bioinformatika II

Náhodné signály. Honza Černocký, ÚPGM

IV117: Úvod do systémové biologie

Ing. Tomáš MAUDER prof. Ing. František KAVIČKA, CSc. doc. Ing. Josef ŠTĚTINA, Ph.D.

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY

Metody analýzy dat I. Míry a metriky - pokračování

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Úvod do modelování a simulace. Ing. Michal Dorda, Ph.D.

Algoritmy komprese dat

Pravděpodobnost vs. Poměr šancí. Pravděpodobnostní algoritmy: Bayesova věta. Bayesova teorie rozhodování. Bayesova věta (teorém) Vzorec. ...

markov-midi Automatický generátor MIDI souborů podle vzoru Vít Novotný

Datové struktury 2: Rozptylovací tabulky

Strojové učení se zaměřením na vliv vstupních dat

Regresní a korelační analýza

Seminář z umělé inteligence. Otakar Trunda

Klasifikace a rozpoznávání. Lineární klasifikátory

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

Pravděpodobně skoro správné. PAC učení 1

Vícerozměrné statistické metody

Programování v C++, 2. cvičení

Dolování asociačních pravidel

Kryptografie založená na problému diskrétního logaritmu

Evoluční výpočetní techniky (EVT)

Tomáš Cipra: Finanční a pojistné vzorce. Grada Publishing, Praha 2006 (374 stran, ISBN: X) 1. ÚVOD... 17

Regresní a korelační analýza

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Transkript:

Markovovy modely v Bioinformatice

Outline Markovovy modely obecně Profilové HMM Další použití HMM v Bioinformatice

Analýza biologických sekvencí Biologické sekvence: DNA,RNA,protein prim.str. Sekvenování snadné vs. např. 3D-struktura Velké množství experimentálních dat Cíl: Využít tyto data k zjištění užitečných informací o neznámých sekvencích.

Analýza biologických sekvencí Dva základní přístupy: Data mining Přímo v datech se hledají zajímavé informace Strojové učení Pomocí učících dat se vytvářejí modely které analyzují neznámá data

Metody strojového učení (skryté) Markovovy modely Neural networks Support Vector Machine další: Genetic algorithms,bays networks Každá metoda má své výhody

Stochastický (náhodný) proces Množina náhodných proměnných indexovaných v čase Nejjednodušší případ: diskrétní proces Sekvence náhodných veličin! Pro naše potřeby stačí diskrétní veličiny Sekvence znaků generovaných náhodně ale s definovanou pravděpodobností

Markovův řetězec Diskrétní stochastický proces s vlastností bezpamětnosti (Markov property) Pravděpodobnost přechodu ze stavu ei do stavu ej nezávisí na tom, jak se systém do stavu ej dostal. 0.5 0.3 0.1 0.0 0.0 0.4 0.2 0.9 0.6

Markovův řetězec vs. Markovův model Totožné pojmy model generuje řetězec řetězec definuje model

Markovův model vs. Sekvence znaků Můžeme určit pravděpodobnost sekvence vůči modelu

Markovův model Definuje se pomocí tranziční matice: 0.8 0.3 0.2 0.7

Markovovy modely vyššího řádu Markovův model n-tého řádu Pravděpodobnost přechodu ze stavu ei do stavu ej závisí na n předchozích stavech

Markovovy modely vyššího řádu Lze převést na standardní HMM

Markovovy modely vyššího řádu Ukázka z lingvistiky Order-1: Ched t ainone wand LORD, Thenathan g u t; w t Sona t essose Anasesed an trer. Order-2: a grand it the woraelfspit up fir as king thaderld, I slot kins ts, Order-3: Against of Ashekeloverth with his uncill be pill prehold, We came womb? Order-4: Open he sister daughteousness, whitherefore they present with themselves; Order-5: Thus saith thy man righted, behold, Gaal was thou art that fell do them http://www.yisongyue.com/shaney/

Využití v bioinformatice Nepříliš využitelné při analýze sekvencí Předpovídání promotorů Semi-Markov modely v systémové biologii Základ pro skryté Markovovy modely

Skryté Markovovy modely (HMM) Doposud každý stav reprezentoval konkrétní znak v řetězci

HMM Mějme stavy které mohou generovat různé znaky řetězce s definovanou pravděpodobností

HMM Tyto stavy jsou skryté vydíme pouze pozorování které generují

Definice HMM K definování potřeba 2 matice a 1 vektor Tranziční matice přechodů mezi skrytými stavy Matice pravděpodobností generovaní jednotlivých pozorování danými stavy Vektor rozložení pravděpodobnosti počátečního stavu

HMM Skryté stavy

HMM Možná pozorování

HMM Tranziční pravděpodobnosti

HMM Emisní pravděpodobnosti

HMM Počáteční stav = (0,1)

HMM Mějme pozorování

Co můžeme chtít zjistit?

Co můžeme chtít zjistit? S jakou pravděpodobností generuje model danou sekvenci

Co můžeme chtít zjistit? S jakou pravděpodobností generuje model danou sekvenci? Jaká je nejpravděpodobnější průchod skrytými stavy při generování dané sekvence?

Co můžeme chtít zjistit? S jakou pravděpodobností generuje model danou sekvenci (evaluace) Jaká je nejpravděpodobnější průchod skrytými stavy při generování dané sekvence (dekódování) Jak změnit parametry modelu tak aby generoval danou sekvenci s větší pravděpodobností? (učení)

Algoritmy Evaluace: Forward-Backward algorithm Dekódování: Viterbi algorithm Algoritmy dynamického programování Oba optimální Složitost O(P*S 2 ) Učení: Baum-Welsch algorithm Zasekává v lokálních maximech => potřeba solidní odhad prvního modelu Model je jen tak dobrý jak učící data

Evaluace: Forward-Backward algorithm

Evaluace: Forward-Backward algorithm

Evaluace: Forward-Backward algorithm

Dekódování: Viterbi algorithm

Dekódování: Viterbi algorithm

Učení: Baum-Welsch algorithm

Učení: Baum-Welsch algorithm

Učení: Baum-Welsch algorithm

Jednoduchý příklad z bioinformatiky

Pouziti Obecně jakýkoliv klasifikační problém v rámci sekvence Hledání genů Předpověď sekundární struktury proteinů Předpověď domén proteinů Struktura RNA Celé sekvence Klasifikace do proteinů do rodin Profilové HMM

Příště Markovovy modely obecně Profilové HMM Další použití HMM v Bioinformatice