Využití strojového učení k identifikaci protein-ligand aktivních míst



Podobné dokumenty
Využití metod strojového učení v bioinformatice David Hoksza

NAIL072 ROZPOZNÁVÁNÍ VZORŮ

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Tento rámcový přehled je určen všem studentům zajímajícím se o aktivní vědeckou práci.

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

NG C Implementace plně rekurentní

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

NAŘÍZENÍ KOMISE (EU) /... ze dne , kterým se mění nařízení (ES) č. 847/2000, pokud jde o definici pojmu podobný léčivý přípravek

ANALÝZA A KLASIFIKACE DAT

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Strojové učení se zaměřením na vliv vstupních dat

Markovovy modely v Bioinformatice

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Neuronové sítě (11. přednáška)

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Tématické okruhy pro státní závěrečné zkoušky

Katedra kybernetiky, FEL, ČVUT v Praze.

Moderní systémy pro získávání znalostí z informací a dat

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Umělé neuronové sítě

analýzy dat v oboru Matematická biologie

Neuronové sítě Ladislav Horký Karel Břinda

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy


Cvičení z matematiky jednoletý volitelný předmět

P ro te i n o vé d a ta b á ze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015

VÝUKA studentů celkem (bakaláři + magistři + doktorandi); 72 profesorů, 120 docentů

HÝČKEJTE SVOU ALMA MATER Závěrečná zpráva

Deriváty karboxylových kyselin, aminokyseliny, estery

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Úvod do optimalizace, metody hladké optimalizace

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Přednáška 13 Redukce dimenzionality

Institucionální akreditace - bakalářské studium informatiky

Inovace studia molekulární a buněčné biologie

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

5. Umělé neuronové sítě. Neuronové sítě

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvod do zpracování obrazů. Petr Petyovský Miloslav Richter

Vytěžování znalostí z dat

Analýza dat v GIS. Dotazy na databáze. Překrytí Overlay Mapová algebra Vzdálenostní funkce. Funkce souvislosti Interpolační funkce Topografické funkce

Automatické vyhledávání informace a znalosti v elektronických textových datech

Magisterský program Biomedicínské inženýrství a informatika na ČVUT FEL Praha

Doprovodný materiál k práci s přípravným textem Biologické olympiády 2014/2015 pro soutěžící a organizátory kategorie B

Klasifikace hudebních stylů

Aplikovaná bioinformatika

VÝBĚROVÁ ŘÍZENÍ CENTRUM REGIONU HANÁ PROJEKT EXCELENTNÍ VÝZKUM (OP VVV)

Výroční konference ELIXIR CZ

Nový bakalářský studijní obor Biomedicínská informatika na Fakultě biomedicínského inženýrství v Kladně

Informatika a výpočetní technika 1. roč./1. sem. 1. roč./2. sem. 2. roč./3. sem. 1 kr. Povinné předměty pro obor IVT

IBM SPSS Decision Trees

Úvod do molekulové dynamiky simulace proteinů. Eva Fadrná

Klasifikace a rozpoznávání. Lineární klasifikátory

Strojové učení Marta Vomlelová

SOFTWAROVÉ INŽENÝRSTVÍ

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

SYNTETICKÉ OLIGONUKLEOTIDY

Uživatelská podpora v prostředí WWW

Jak se matematika poučila v biologii

Získávání znalostí z dat

1. Data mining. Strojové učení. Základní úlohy.

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

Sociální síť informatiků v regionech České republiky

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Studium enzymatické reakce metodami výpočetní chemie

Moderní nástroje pro zobrazování biologicky významných molekul pro zajištění zdraví. René Kizek

StatSoft Úvod do neuronových sítí




Kybernetika a umělá inteligence, cvičení 10/11

Dynamické procesy & Pokročilé aplikace NMR. chemická výměna, translační difuze, gradientní pulsy, potlačení rozpouštědla, NMR proteinů

Autor: Jan Hošek

Biochemie Ch52 volitelný předmět pro 4. ročník

OPVK CZ.1.07/2.2.00/

Standard studijního programu Bioinformatika

ÚVOD DO MATEMATICKÉ BIOLOGIE I.

Jak bude zítra? Skoro jako dneska. Dan Lessner

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

STRATEGICKÉ ŘÍZENÍ LIDSKÝCH ZDROJŮ

Principy počítačů I Perspektivní technologie, měření výkonnosti a spolehlivost

Počítačová chemie. výpočetně náročné simulace chemických a biomolekulárních systémů. Zora Střelcová

Studijní program Matematika Obor Pravděpodobnost, matematická statistika a ekonometrie

LABORATOŘ KOVŮ A KOROZE VZDĚLÁVÁNÍ ODBORNÉ KURZY A SEMINÁŘE

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Vícerozměrné statistické metody

Nanotechnologie jako součást výuky fyziky

Fakulta chemicko-technologická

Pravděpodobně skoro správné. PAC učení 1

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

RADIOIMUNOANALÝZA (RADIOIMMUNOASSAY) Převzato: sciencephoto.com Test krve hepatitis virus

Služby pro predikci struktury proteinů. Josef Pihera

Kvantová informatika pro komunikace v budoucnosti

Algoritmy pro shlukování prostorových dat

Transkript:

Využití strojového učení k identifikaci protein-ligand aktivních míst David Hoksza, Radoslav Krivák SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze

Funkce proteinu Interakce s dalšími molekulami DNA RNA Proteiny Malé molekuly (ligandy) Určena strukturou Distribuce fyzikálně-chemických charakteristik v prostoru princip zámku a klíče 4

Protein-ligand interakce Aktivní místa (kapsy) Motivace Predikce funkce neznámého proteinu Identifikace potenciálních cílů pro léčiva Predikce vedlejších účinků léčiv 5

P2RANK Počítačová metoda (algoritmus) schopný identifikovat místa na povrchu proteinu, na které se může s vysokou pravděpodobností vázat nespecifikovaný ligand Vstup: počítačová reprezentace proteinové struktury Výstup: seznam míst na povrchu proteinu pravděpodobně schopných vázat ligand 6

Informatický pohled na protein Sekvence Řetěz aminokyselin lineární sekvence písmen (slovo) Struktura Pozice jednotlivých atomů v 3D prostoru Písmena reprezentují aminokyseliny (ARNDCEQGHILKMFPSTWYV) 7

P2RANK princip Využití informací o existujících aktivních místech pro rozpoznání typově podobných míst na neznámém proteinu Jak popsat rysy povrchu proteinu? Projekce fyzikálně chemických vlastností aminokyselin na povrch proteinu Jak určit kapsu na dosud neviděném proteinu? Strojové učení (s učitelem) Fáze učení: naučení modelu pro rozpoznání rysů bodů aktivních míst Fáze rozpoznávání: aplikace modelu na povrch neznámého proteinu 8

Algoritmus učící fáze 1. Získání známých protein-ligand komplexů 2. Potažení povrchů proteinů sítí bodů 3. Extrakce vektoru fyzikálně-chemických vlastností pro každý z bodů každého proteinu 4. Vybudování modelu, který pro daný bod (vektor) bude schopný určit, s jakou pravděpodobnostní je tento součástí kapsy = strojové učení 9

P2RANK - extrakce vlastností Okolo 30 atributů popisující fyzikálněchemické vlastnosti aminokyselin a lokálního okolí daného bodu < pc 1, pc 2,, pc n > 10

Strojové učení Skupina algoritmů schopných identifikovat (naučit se) vzory v datech a a tuto znalost aplikovat na dosud neviděných příkladech Klasifikace Regrese Shlukování Typy Strojové učení s učitelem (supervised learning) Strojové učení bez učitele (unsupervised learning) 11

12

Algoritmus fáze rozpoznávání 1. Potažení povrchu neznámého proteinu sítí bodů 2. Aplikace modelu pro každý bod sítě vazebné skóre bodu 3. Vypuštění bodů s nízkým vazebným skórem 4. Identifikace shluků vysoce skórujících bodů kapsa 5. Ohodnocení kapes součtem skór jejich bodů 14

Jaké znalosti jsou třeba pro vývoj P2RANKu? Základy biologie, proteomiky Znalost zdrojů biologických dat (PDB) Programování Pokročilá algoritmizace (strojové učení) Statistika 15

Bioinformatické projekty na KSI MFF UK Proteiny Podobnostní hledání proteinových struktur P3S Identifikací protein-ligand interakcí P2RANK Identifikace protein-protein interakcí Identifikace proteinových sekvencí ze spektrometrických dat - SIMTANDEM RNA Podobnost RNA struktur SETTER Predikce sekundární struktury RNA - rpredictor Malé molekuly Identifikace biologicky aktivních molekul explorací chemického prostoru - Molpher 16

Dotazy 17