Využití metod strojového učení v bioinformatice David Hoksza

Podobné dokumenty
Využití strojového učení k identifikaci protein-ligand aktivních míst

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Inovace studia molekulární a buněčné biologie

analýzy dat v oboru Matematická biologie

Moderní systémy pro získávání znalostí z informací a dat

1. Definice a historie oboru molekulární medicína. 3. Základní laboratorní techniky v molekulární medicíně

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Standard studijního programu Bioinformatika

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Neuronové sítě (11. přednáška)

MATEMATICKÁ BIOLOGIE

Výuka genetiky na PřF OU K. MALACHOVÁ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Jak se matematika poučila v biologii

Markovovy modely v Bioinformatice

Strojové učení se zaměřením na vliv vstupních dat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Tématické okruhy pro státní závěrečné zkoušky

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Magisterský program Biomedicínské inženýrství a informatika na ČVUT FEL Praha

ANALÝZA A KLASIFIKACE DAT

Libor Hájek, , Centrum regionu Haná pro biotechnologický a zemědělský výzkum, Přírodovědecká fakulta, Šlechtitelů 27, Olomouc

Nové technologie v mikrobiologické diagnostice a jejich přínos pro pacienty v intenzivní péči

Modelov an ı biologick ych syst em u Radek Pel anek

Bioinformatika. Jiří Vondrášek Ústav organické chemie a biochemie Jan Pačes Ústav molekulární genetiky

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

NAIL072 ROZPOZNÁVÁNÍ VZORŮ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

OBORU MINERÁLNÍ BIOTECHNOLOGIE

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Doprovodný materiál k práci s přípravným textem Biologické olympiády 2014/2015 pro soutěžící a organizátory kategorie B

Datová věda (Data Science) akademický navazující magisterský program

5. Umělé neuronové sítě. Neuronové sítě

Zkušební okruhy k přijímací zkoušce do magisterského studijního oboru:

Bioinformatika. hledání významu biologických dat. Marian Novotný. Friday, April 24, 15

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

NG C Implementace plně rekurentní

Mgr. Veronika Papoušková, Ph.D. Brno, 20. března 2014

Nový bakalářský studijní obor Biomedicínská informatika na Fakultě biomedicínského inženýrství v Kladně

Tento rámcový přehled je určen všem studentům zajímajícím se o aktivní vědeckou práci.

Neuronové sítě Ladislav Horký Karel Břinda

Úvod do optimalizace, metody hladké optimalizace

Poznámky k nutrigenetice

Struktura a funkce biomakromolekul

Pokročilé operace s obrazem

Molekulární biotechnologie č.9. Cílená mutageneze a proteinové inženýrství

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Informatika a výpočetní technika 1. roč./1. sem. 1. roč./2. sem. 2. roč./3. sem. 1 kr. Povinné předměty pro obor IVT

SYNTETICKÉ OLIGONUKLEOTIDY

NAŘÍZENÍ KOMISE (EU) /... ze dne , kterým se mění nařízení (ES) č. 847/2000, pokud jde o definici pojmu podobný léčivý přípravek

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

ÚVOD DO MATEMATICKÉ BIOLOGIE I.

Algoritmy a struktury neuropočítačů ASN - P11

Vytěžování znalostí z dat

NUKLEOVÉ KYSELINY. Základ života

VÝBĚROVÁ ŘÍZENÍ CENTRUM REGIONU HANÁ PROJEKT EXCELENTNÍ VÝZKUM (OP VVV)

Genetické algoritmy. Informační a komunikační technologie ve zdravotnictví

ÚVOD DO MATEMATICKÉ BIOLOGIE I. UKB, pav. A29, RECETOX, dv.č.112 Institut biostatistiky a analýz

Evoluční výpočetní techniky (EVT)

Informace o studiu. Životní prostředí a zdraví Matematická biologie a biomedicína. studijní programy pro zdravou budoucnost

Biologicky inspirované výpočty. Schématické rozdělení problematiky a výuky

Biomedicínská informatika a její úloha v personalizované medicíně. Petr Lesný

Strojové učení Marta Vomlelová

Katedra kybernetiky, FEL, ČVUT v Praze.

Aplikovaná bioinformatika

Genetické programování

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Studijní program FARMACIE studijní obor Farmacie MAGISTERSKÉ STUDIUM

OPVK CZ.1.07/2.2.00/

Umělá inteligence a rozpoznávání

Automatické vyhledávání informace a znalosti v elektronických textových datech

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

Klíčové technologie pro Program TREND

Tabulace učebního plánu

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Nové technologie v mikrobiologické laboratoři, aneb jak ovlivnit čas k získání klinicky relevantního výsledku

Studijní obor: Bioanalytik odborný pracovník v laboratorních metodách

NGS analýza dat. kroužek, Alena Musilová

prof. RNDr. Jiří Doškař, CSc. Oddělení genetiky a molekulární biologie

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Aplikace obrazové fúze pro hledání vad

Výuka genetiky na Přírodovědecké fakultě UK v Praze

EKONOMICKÉ ASPEKTY GENETICKÝCH VYŠETŘENÍ. I. Šubrt Společnost lékařské genetiky ČLS JEP

Výuka genetiky na Přírodovědecké fakultě MU

BMII. B i o m e d i c a l D a t a P r o c e s s i n g G r o u p

Přednáška 13 Redukce dimenzionality

PB050: Modelování a predikce v systémové biologii

Bioinformatika pro PrfUK 2003

Struktura a analýza rostlinných genomů Jan Šafář

Automatizace v klinické mikrobiologii

CEITEC a jeho IT požadavky. RNDr. Radka Svobodová Vařeková, Ph.D.

Biologie - Oktáva, 4. ročník (přírodovědná větev)

Biologie - Oktáva, 4. ročník (humanitní větev)

Emergence chování robotických agentů: neuroevoluce

OSA. maximalizace minimalizace 1/22

Uživatelská podpora v prostředí WWW

Získávání dat z databází 1 DMINA 2010

Ústav automatizace a měřicí techniky.

Transkript:

Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze

Bioinformatika Biologické inspirace informatiky (6. 4. 2017) 2

Bioinformatika Obor zabývající se vývojem a aplikací počítačových metod pro získávání, ukládání, analýzu a interpretaci biologických dat Zaměření na molekuly DNA, RNA a proteinů Biologické inspirace informatiky (6. 4. 2017) 3

Typické úlohy v bioinformatice Skládání a mapování genomů Podobnostní modelování sekvencí DNA, RNA, proteinů Fylogenetická analýza Analýza DNA/RNA Hledání sekvenčních motivů Hledání mutací ve vybraných populacích Predikce struktury proteinů (RNA) Identifikace interakcí Molekulární modelování (docking) Data genové exprese Data hmotnostní spektrometrie Biologické inspirace informatiky (6. 4. 2017) 4

Aplikační domény bioinformatiky Základní výzkum Funkční genomika, evoluční genomika Medicína Genetické komponenty nemocí, preventivní medicína, personalizovaná medicína, genová terapie, počítačový vývoj léčiv Mikrobiologie Biotechnologie, epidemiologie, boj se znečištěním Zemědělství Odolnější plodiny, resistence proti škůdcům, zvýšení nutriční hodnoty plodin Biologické inspirace informatiky (6. 4. 2017) 5

Biologické inspirace informatiky (6. 4. 2017) 6

Strojové učení Biologické inspirace informatiky (6. 4. 2017) 8

Strojové učení Množství dat Počítačový výkon je dostupný a levný Rozhodovací procesy, predikce Na SU lze nahlížet jako na jiný způsob programování Biologické inspirace informatiky (6. 4. 2017) 9

Strojové učení Skupina algoritmů schopných identifikovat (naučit se) vzory v datech a tuto znalost aplikovat na dosud neviděných příkladech Regrese Klasifikace Shlukování Typy Strojové učení s učitelem (supervised learning) Strojové učení bez učitele (unsupervised learning) Typické přístupy Rozhodovací stromy Support vector machines Neuronové sítě Markovovské modely Pravděpodobnostní grafické modely Biologické inspirace informatiky (6. 4. 2017) 10

Bioinformatické úlohy řešené strojovým učením Identifikace sekvenčních motivů Rozpoznávání a funkční anotace genů Hledání protein-vázajících míst v DNA Rozpoznání sekundární struktury Opravy sekvenačních chyb Identifikace signálů Predikce vazebných míst na úrovni struktury Predikce bioaktivních malých molekul (léčiv) Biologické inspirace informatiky (6. 4. 2017) 11

Identifikace (protein-ligand) aktivních míst na povrchu proteinu Biologické inspirace informatiky (6. 4. 2017) 12

Protein-ligand interakce Aktivní místa (kapsy) Motivace Identifikace potenciálních cílů pro léčiva Predikce vedlejších účinků léčiv Predikce funkce neznámého proteinu Biologické inspirace informatiky (6. 4. 2017) 13

P2RANK Počítačová metoda (algoritmus) schopný identifikovat místa na povrchu proteinu, na které se může s vysokou pravděpodobností vázat nespecifikovaný ligand Vstup: počítačová reprezentace proteinové struktury Výstup: seznam míst na povrchu proteinu pravděpodobně schopných vázat ligand Biologické inspirace informatiky (6. 4. 2017) 14

Informatický pohled na protein Sekvence Řetěz aminokyselin lineární sekvence písmen (slovo) Struktura Pozice jednotlivých atomů v 3D prostoru Písmena reprezentují aminokyseliny (ARNDCEQGHILKMFPSTWYV) Biologické inspirace informatiky (6. 4. 2017) 15

Biologické inspirace informatiky (6. 4. 2017) 16

P2RANK princip Využití informací o existujících aktivních místech a jejich rysech pro rozpoznání typově podobných míst na neznámém proteinu Jak určit kapsu na dosud neviděném proteinu? Strojové učení (s učitelem) Fáze učení: naučení modelu pro rozpoznání rysů bodů aktivních míst Fáze rozpoznávání: aplikace modelu na povrch neznámého proteinu Jak popsat rysy povrchu proteinu? Projekce fyzikálně chemických vlastností aminokyselin na povrch proteinu Biologické inspirace informatiky (6. 4. 2017) 17

Algoritmus učící fáze 1. Získání známých protein-ligand komplexů 2. Potažení povrchů proteinů sítí bodů 3. Extrakce vektoru fyzikálně-chemických vlastností pro každý z bodů každého proteinu 4. Vybudování modelu, který pro daný bod (vektor) bude schopný určit, s jakou pravděpodobnostní je tento součástí kapsy = strojové učení Biologické inspirace informatiky (6. 4. 2017) 18

P2RANK - extrakce vlastností Okolo 30 atributů popisující fyzikálněchemické vlastnosti aminokyselin a lokálního okolí daného bodu < pc 1, pc 2,, pc n > Biologické inspirace informatiky (6. 4. 2017) 19

Biologické inspirace informatiky (6. 4. 2017) 20

Rozhodovací stromy Model reprezentován stromem Vnitřní uzly Hrany Listy pravidla/otázky odpovědi rozhodnutí Biologické inspirace informatiky (6. 4. 2017) 21

Algoritmus fáze rozpoznávání 1. Potažení povrchu neznámého proteinu sítí bodů 2. Aplikace modelu pro každý bod sítě vazebné skóre bodu 3. Vypuštění bodů s nízkým vazebným skórem 4. Identifikace shluků vysoce skórujících bodů kapsa 5. Ohodnocení kapes součtem skór jejich bodů Biologické inspirace informatiky (6. 4. 2017) 23

Biologické inspirace informatiky (6. 4. 2017) 24

Biologické inspirace informatiky (6. 4. 2017) 25

Jaké znalosti jsou třeba pro vývoj P2RANKu? Základy biologie, proteomiky Znalost zdrojů biologických dat (PDB) Programování Pokročilá algoritmizace Pravděpodobnost a statistika Biologické inspirace informatiky (6. 4. 2017) 26

http://bioinformatika.mff.cuni.cz/ Biologické inspirace informatiky (6. 4. 2017) 27

Dotazy Biologické inspirace informatiky (6. 4. 2017) 30