Monte Carlo, genetické algoritmy, neuronové sítě

Podobné dokumenty
Jak se matematika poučila v biologii

Využití metod strojového učení v bioinformatice David Hoksza

1. Úvod do genetických algoritmů (GA)

Genetické algoritmy. Informační a komunikační technologie ve zdravotnictví

Markov Chain Monte Carlo. Jan Kracík.

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Genetické algoritmy a jejich praktické využití

Úvod do optimalizace, metody hladké optimalizace

Emergence chování robotických agentů: neuroevoluce

Biologicky inspirované výpočty. Schématické rozdělení problematiky a výuky

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

OPTIMALIZACE A MULTIKRITERIÁLNÍ HODNOCENÍ FUNKČNÍ ZPŮSOBILOSTI POZEMNÍCH STAVEB D24FZS

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Detekce interakčních sil v proudu vozidel

Výpočet nejistot metodou Monte carlo

Genetické algoritmy. Vysoká škola ekonomická Praha. Tato prezentace je k dispozici na:

Inovace studia molekulární a buněčné biologie

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Evoluční výpočetní techniky (EVT)

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

Simulační modely. Kdy použít simulaci?

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti URČOVÁNÍ PRIMÁRNÍ STRUKTURY BÍLKOVIN

Struktury a vazebné energie iontových klastrů helia

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy

Navrženy v 60. letech jako experimentální optimalizační metoda. Velice rychlá s dobrou podporou teorie

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

(n, m) (n, p) (p, m) (n, m)

Využití strojového učení k identifikaci protein-ligand aktivních míst

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Téma 3: Metoda Monte Carlo

5. Umělé neuronové sítě. Neuronové sítě

Aminokyseliny příručka pro učitele. Obecné informace: Téma otevírá kapitolu Bílkoviny, která svým rozsahem překračuje rámec jedné vyučovací hodiny.

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

UČENÍ BEZ UČITELE. Václav Hlaváč

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

OPTIMALIZACE. (přehled metod)

analýzy dat v oboru Matematická biologie

Zada ní 1. Semina rní pra ce z pr edme tu Matematický software (KI/MSW)

Moderní systémy pro získávání znalostí z informací a dat

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

A0M33EOA: Evoluční optimalizační algoritmy

Genetická diverzita masného skotu v ČR

Crossing-over. Synaptonemální komplex. Crossing-over a výměna genetického materiálu. Párování homologních chromosomů

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Markovovy modely v Bioinformatice

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Struktura proteinů. - testík na procvičení. Vladimíra Kvasnicová

Popis zobrazení pomocí fuzzy logiky

Biologie - Oktáva, 4. ročník (humanitní větev)

PRAKTIKUM Z OBECNÉ GENETIKY

ANALÝZA A KLASIFIKACE DAT

Opakování: shrnutí základních poznatků o struktuře atomu

Numerická matematika 1

Počítačová chemie. výpočetně náročné simulace chemických a biomolekulárních systémů. Zora Střelcová

Algoritmy pro spojitou optimalizaci

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Princip metody Transport částic Monte Carlo v praxi. Metoda Monte Carlo. pro transport částic. Václav Hanus. Koncepce informatické fyziky, FJFI ČVUT

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Struktura biomakromolekul

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Příklady použití tenkých vrstev Jaromír Křepelka

Globální matice konstrukce

Kombinatorická minimalizace

Biologie - Oktáva, 4. ročník (přírodovědná větev)

OPTIMALIZAČNÍ ÚLOHY. Modelový příklad problém obchodního cestujícího:

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Úvod do mobilní robotiky AIL028

PŘEDNÁŠKA 03 OPTIMALIZAČNÍ METODY Optimization methods

Architektura - struktura sítě výkonných prvků, jejich vzájemné propojení.

Hardy-Weinbergův zákon - cvičení

ití empirických modelů při i optimalizaci procesu mokré granulace léčivl ková SVK ÚOT

7. Rozdělení pravděpodobnosti ve statistice

Statistická teorie učení

Cvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Kvantová informatika pro komunikace v budoucnosti

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

3. Přednáška: Line search

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

Pokročilé operace s obrazem

Trénování sítě pomocí učení s učitelem

Úvod do zpracování signálů

Metoda Monte Carlo, simulované žíhání

Kritický stav jaderného reaktoru

AVDAT Nelineární regresní model

Neuronové časové řady (ANN-TS)

oddělení Inteligentní Datové Analýzy (IDA)

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

12. Predikce polymorfů. Příprava předmětu byla podpořena projektem OPPA č. CZ.2.17/3.1.00/33253

GENETIKA POPULACÍ ŘEŠENÉ PŘÍKLADY

Algoritmy I. Číselné soustavy přečíst!!! ALGI 2018/19

1 Přesnost metody konečných prvků

Matematika I 2a Konečná pravděpodobnost

Pokročilé neparametrické metody. Klára Kubošová

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Počítačové simulace a statistická mechanika

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

Genetické algoritmy. a jejich praktické využití. Pavel Šturc. průmyslu, stejně tak je zde uvedeno i několik případů jejich úspěšné implementace.

Genetické programování

NEURONOVÉ SÍTĚ A EVOLUČNÍ ALGORITMY NEURAL NETWORKS AND EVOLUTIONARY ALGORITHMS

Transkript:

Monte Carlo, genetické algoritmy, neuronové sítě Monte Carlo a karty Historie Hra solitaire: jaká je pravděpodobnost výhry s dobře promíchanými kartami? Analytické počítání je složité, protože vítězství nebo prohra závisí na složité proceduře míchání karet. A co tak zahrát si pár kol a pozorovat, kolikrát jsme zvítězili? Obecně: můžeme aproximovat funkci pravděpodobnostní hustoty jejím vzorkováním.? Prohra Prohra Vítězství Prohra Pravděpodobnost výhry je 1 čtvrtina. John von Neumann a Stanislav Ulam potřebovali odpovědět na otázku: Kolik procent neutronů z neutronové spršky projde vodním kontejnerem o definované tloušťce?. Otázka lze přeformulovat: Kudy vede životní dráha neutronu?. Kudy vede životní dráha neutronu? Náhodný jev: v jednom ze sta případů je neutron po nárazu do molekuly vody pohlcen vodíkem. Ruleta se 100 jamkami, jedna jamka značená kulička zůstane stát ve značené jamce (odpovídá pohlcení neutronu smrti neutronu), kulička zůstane stát v jiné jamce (neutron po střetu s vodíkem pokračuje v dráze). Neutron pokračuje Jakou rychlost a směr má neutron? Lze simulovat další ruletou. Jaká je trajektorie neutronu před střetem s dalším vodíkem? Lze simulovat další ruletou. Životní dráha neutronu je simulována až po smrt neutronu nebo až po okamžik průchodu neutronu kontejnerem. 1

Metody Monte Carlo Odpovídají na otázku tak, že simulují problém modelem, který zdánlivě nemá nic společného s původní otázkou. Použití znáhodňovacího algoritmu v počítači místo utrácení peněz v Monte Carlu (Monako). Použití Monte Carlo metod Fyzika, ekonomika, demografie, matematika, bioinformatika,... Úlohy, které lze pravděpodobnostně popsat, ale explicitní algoritmus je příliš složitý. Opakovaný znáhodněný experiment. Není potřebné znát vnitřní souvislost mezi modelem a skutečností. Dostačuje znalost vnější souvislosti. Mnohokrát opakovaný náhodný pokus Odhady hledané veličiny θ se získávají statistickou cestou a mají pravděpodobnostní charakter. Odhady θ 1, θ 2, θ 3, θ 4,... θ n při n blížícím se nekonečnu konvergují k hledané hodnotě. Pro libovolně malé ε > 0 tedy platí: Výhoda Monte Carlo metod Obecná aplikovatelnost Nezávislost na počtu dimenzí systému. lim P( θ n θ ε ) = 1 n Nevýhoda Monte Carlo metod Nalézt účinnou simulaci (spojitost mezi pravděpodobnostními charakteristikami různých náhodných procesů) není triviální problém. Monte Carlo na počítači (Pseudo)znáhodňovač Algoritmus Kontrola přesnosti výsledků 2

Struktura proteinů Monte Carlo pohyby polypeptidových řetězců Změna konformace - rotace kolem náhodně vybrané vazby. Z řady náhodných pohybů jsou jen některé považovány za výhodné. N-ter C-ter Metropolis Monte Carlo Hornatá krajina a problém lokálního minima (maxima) Proveď náhodnou rotaci. Rotaci přijmi bezpodmínečně, pokud nová konformace vede k lepší (nižší) potenciální energii. Pokud rotace nevede k nižší potenciální energii, vypočti pravděpodobnost danou Boltzmannovým faktorem k B : P r r U exp( ) k T B U = U ( r ) U ( r) označuje změnu v potenciální energii asociovanou s pohybem r --> r. a generuj náhodné číslo Q mezi 0 a 1. Pokud Q>P, tak přijmi novou strukturu. Pokračuj, až konečná struktura splňuje cílový parametr. Snazší zdolání energetických hor: simulovaná hybridizace Snazší zdolání energetických hor: simulovaná hybridizace f(x) Lokální minimum Globální minimum Lokální minimum Lokální minimum Simulovaná hybridizace je variantou Metropolis Monte Carlo metody. Pro překonání lokálního minima s vidinou globálního minima musíme povolit energeticky nevýhodné kroky. Zvyšováním teploty (>1000K) se zvýší tepelný pohyb natolik, že se zvýší pravděpodobnost přijetí energeticky nevýhodných pohybů. Tím se dá ovlivnit pravděpodobnost úniku z lokálního minima. Cykly zahřívací a chladící, analogické fyzikálním systémům opakujeme, až se systém dostane do rovnováhy. V teoretické limitě se nekonečně pomalým ochlazováním v průběhu simulované hybridizace dostaneme do globálního minima. 3

Vyhlazení energetické funkce je alternativou simulované hybridizace Vazba léčiva k proteinu (docking) Původní hornatá krajina se dá vyhladit například metodou Diffusion Equation Method. 1) Aminokyselinovými kuličkami vyplníme prázdné místo 2) Kuličkami vedeme ligand...aby (aminokyselinové) pozice odpovídaly 3) Zkontrolujeme chemickou kompatibilitu 4

Cíle návrhu léčiva Nalézt chemickou sloučeninu, která geometricky a chemicky zapadá do proteinové kavity Otestovat na zvířatech a klinickými testy na lidech Prodat Tradiční metody návrhu léčiv Screening přírodních a syntetizovaných chemikálií trvá 7 až 12 let v roce 1997 350 MUSD/léčivo v roce 2001 500 MUSD/léčivo Experimentální strategie pro zkrácení/zlevnění návrhu léčiv Genetické algoritmy (GA) Metody s vysokou propustností Kombinatorní chemie Optimalizace využitím biologie Příklad genetického algoritmu Genetický algoritmus (GA) hledá globální optimum (energetické funkce) inspirován evolucí a genetikou. Skládá se z těchto kroků: 1) Stvoř populaci, vyber z ní rodiče k reprodukci. 2) Zvol evoluční charakteristiky (mutace a crossing-over). 3) Zploď následující generaci a zhodnoť její fitness (reprodukční zdatnost hodnota optimalizované funkce). 4) Původní GA využívaly úplnou náhradu populace každou generaci. Populace s 2N objekty (chromosomy) vytvoří N párů, které zplodí 2N potomků. Potomci tvoří novou generaci, která nahradila předchozí generaci. Výhodnější je však provést výběr subpopulace pro zplození další generace (selekce, přežití nejzdatnějších). 5) Opakuj kroky 2 až 4 do dosažení kýžené hodnoty. Reprodukce spáruj jedince (řetězce) v populaci, pro stvoření nových řetězců (potomstva). Například: vem první číslici prvního rodiče a ostatní číslice z druhého rodiče. [001001] + [111111] [011111] Pozn.: odpovídá spíše meióze, kdy číslice je chromozom. 5

...příklad genetického algoritmu Mutace spontánní změna řetězce (jedince), například [001001] [001101] Crossing-over kombinace řetězců (vlastností jedinců) vzájemnou výměnou jejich částí, například překřížení mezi druhou a třetí pozicí: [001001] & [111111] [001111], [111001] Genetický algoritmus na úrovni proteinu AA φ ϕ χ1 χ2 χ3 AA φ ϕ χ1 χ2 χ3 MET -80-20 60-60 120 MET -70-30 30-90 90 LEU -60 20 45 90 LEU -50 15-30 80 PHE -70-30 15 60 PHE -40-20 65 110 ALA -60 80 ALA -70 70 CROSSING OVER MET -80-20 60-60 120 MET -70-30 30-90 90 LEU -60 20 45 90 LEU -50 15-30 80 PHE -40-20 65 110 PHE -70-30 15 60 ALA -70 70 ALA -60 80 MUTACE MUTACJE, MALÁ, WARIACJE VELKÁ MET -80-20 40-60 120 MET -70-31 30-90 90 LEU -59 20 45 90 LEU -50 15-30 90 PHE -40-20 65 112 PHE -71-35 15 60 ALA -70 90 ALA -60 80 Umělé neuronové sítě Model neuronu Model neuronu Snaží se mimikovat adaptivní biologické učení. Každý uzel má hodnotu a každá šipka váhu. Hodnoty vstupních uzlů jsou nastaveny explicitně (každým pokusem). Hodnoty dalších uzlů jsou váženým součtem svých vstupních uzlů upravených korigující funkcí. Fáze učení: dodám vstupní data a výstupní data. Zpětným průchodem (od výstupu ke vstupu) se upravují parametry jednotlivých neuronů tak, aby model co nejlépe seděl. Fáze tvoření výsledků: dodám vstupní data, dostanu výstupní data. n 1 w 1 n 2 w 2 n 3 w 3 n 4 = f(n 1 w 1 +n 2 w 2 +n 3 w 3 ) n 4 6

Vrstvy Vstupní Skrytá Výstupní Sekvence velrybího myoglobinu VLSEGGEWQLVLHVWAKVEADV Experimentálně jsme zjistili, že tato sekvence tvoří α šroubovici. Neuronová síť by měla podobné sekvence zařadit mezi α-šroubovice. Přeformulujume dotaz: je centrální leucin v 13-ti členném okně GEWQLVLHVWAKV částí α-šroubovice, β-skládaného listu nebo smyčky (coil)? Informaci potřebujeme zakódovat. Jednosměrná síť Kódování pro neuronové sítě Nejjednodušší případ: vstupy a výstupy nabývají hodnot 0 a 1. Vstup: zakódujeme aminokyseliny pomocí 0 a 1 20 pozic pro 20 aminokyselin 1 pro alanin, 20 pro valin GEWQLVLHVWAKV: (G) 00000001000000000000 (E) 00000010000000000000 (W) 00000000000000000100 kódování pro neuronové sítě Výstup: šroubovice/list/smyčka: 100/010/001. Celkem 13*20=260 vstupních dat a 3 výstupní. Validace pomocí jack-knifing (leave-one-out cross-validation, efekt zavíracího nože): Data rozdělíme na učební sadu a testovací sadu. Příklad: PHD metoda Děkuji vám za pozornost! Profile Network from Heidelberg součástí PredictProtein Místo binárního kódu pro sekvence je využita informace z mnohočetného přiložení tak, že každé aminokyselině je přiřazena pravděpodobnost: původně 00010000000000000000 nyní 0,0; 0,0; 0,0; 0,2; 0,0; 0,0; 0,4; 0,0; 0,0; 0,0; 0,0; 0,0; 0,0; 0,0; 0,1; 0,2; 0,2; 0,0; 0,0; 0,0 na této pozici přiložení se vyskytuje Asp s pravděpodobností 0,2, Glu 0,4, Ser 0,2 a Thr 0,2. Tímto použitím sekvenčních profilů se zvýšila přesnost predikce sekundární struktury proteinu z 62% na 70%. 7