Vytváření fylogenetických stromů na základě alignmentů. Tomáš Novotný Jaroslav Knotek

Podobné dokumenty
Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

METODY VÍCENÁSOBNÉHO ZAROVNÁVÁNÍ NUKLEOTIDOVÝCH SEKVENCÍ

Multirobotická kooperativní inspekce

OPTIMÁLNÍ SEGMENTACE DAT

Základy fylogenetiky a konstrukce fylogenetických stromů

Časová a prostorová složitost algoritmů

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Grafové algoritmy. Programovací techniky

6. Tahy / Kostry / Nejkratší cesty

Grafové algoritmy. Programovací techniky

ELEKTŘINA A MAGNETIZMUS Řešené úlohy a postupy: Faradayův zákon

Dynamic programming. Historie. Dynamické programování je obsaženo v těchto programech: Příklad: chceme optimálně přiložit dvě sekvence

PROGRAMOVÁNÍ. Cílem předmětu Programování je seznámit posluchače se způsoby, jak algoritmizovat základní programátorské techniky.

4EK311 Operační výzkum. 5. Teorie grafů

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Testování statistických hypotéz

Schopnost organismů UCHOVÁVAT a PŘEDÁVAT soubor informací o fyziologických a morfologických (částečně i psychických) vlastnostech daného jedince

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

KLASIFIKACE ORGANISMŮ NA ZÁKLADĚ NUKLEOTIDOVÝCH ČETNOSTÍ

Vyhledávání podobných sekvencí BLAST

Úloha: Verifikace osoby pomocí dynamického podpisu

Algoritmus pro hledání nejkratší cesty orientovaným grafem

Vzdálenost uzlů v neorientovaném grafu

Metodický koncept k efektivní podpoře klíčových odborných kompetencí s využitím cizího jazyka ATCZ62 - CLIL jako výuková strategie na vysoké škole

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Arnoldiho a Lanczosova metoda

Operační výzkum. Teorie her. Řešení maticových her převodem na úlohu LP.

12. Globální metody MI-PAA

Algoritmy pro shlukování prostorových dat

a) b) c) Radek Mařík

UČENÍ BEZ UČITELE. Václav Hlaváč

ANALÝZA A KLASIFIKACE DAT

Úvod do teorie grafů

8 Třídy, objekty, metody, předávání argumentů metod

Typy fylogenetických analýz

Matematika pro geometrickou morfometrii

TESTOVÁNÍ 8. A 9. ROČNÍKŮ 2012/2013 PRŮŘEZOVÁ TÉMATA SOUHRNNÁ ZPRÁVA

Genetika BIOLOGICKÉ VĚDY EVA ZÁVODNÁ

Strom života. Cíle. Stručná anotace

int ii char [16] double dd název adresa / proměnná N = nevyužito xxx xxx xxx N xxx xxx N xxx N

21ˆx 0 mod 112, 21x p 35 mod 112. x p mod 16. x 3 mod 17. α 1 mod 13 α 0 mod 17. β 0 mod 13 β 1 mod 17.

STROMY. v 7 v 8. v 5. v 2. v 3. Základní pojmy. Řešené příklady 1. příklad. Stromy

Využití DNA sekvencování v

EVOLUCE ČLOVĚKA. úlohy k tématu + autorské řešení. Radka M. Dvořáková, Karolína Absolonová

Vyučovací hodina. 1vyučovací hodina: 2vyučovací hodiny: Opakování z minulé hodiny. Procvičení nové látky

( ) Slovní úlohy vedoucí na soustavy rovnic I. Předpoklady:

Osekvenované genomy. Pan troglodydes, Neandrtálec, 2010

Úloha - rozpoznávání číslic

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Náplň. v Jednoduché příklady na práci s poli v C - Vlastnosti třídění - Způsoby (algoritmy) třídění

Rekurzivní algoritmy

Stromy, haldy, prioritní fronty

Binární vyhledávací stromy pokročilé partie

Společenstva okolí lidských obydlí

Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy

Komprese dat (Komprimace dat)

Komprese DNA pomocí víceproudé komprese a predikce báz. Jan Jelínek, Radek Miček

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Metoda Monte Carlo, simulované žíhání

Neparametrické metody

HUMÁNNÍ GEOGRAFIE SEMINÁŘ

Státnice odborné č. 20

2C Tisk-ePROJEKTY

KLASIFIKACE ORGANISMŮ NA ZÁKLADĚ NUKLEOTIDOVÝCH ČETNOSTÍ

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

TGH02 - teorie grafů, základní pojmy

Příprava dat v softwaru Statistica

EKOSYSTÉM OKOLÍ LIDSKÝCH OBYDLÍ

Paralelní grafové algoritmy

Malcomber S.T. (2000): Phylogeny of Gaertnera Lam. (Rubiaceae) based on multiple DNA markers: evidence of a rapid radiation in a widespread,

METODICKÝ LIST 1. Název výukové aktivity (tématu): 2. Jméno autora: Ing. Petr Hořejší, Ph.D., Ing. Jana Hořejší 3. Anotace:

IA161 Pokročilé techniky zpracování přirozeného jazyka

TGH08 - Optimální kostry

Hnojník obecný. Coprinus comatus

Zadání soutěžních úloh

07 Základní pojmy teorie grafů

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Testy statistických hypotéz

8 Přednáška z

SEQUENCE ALIGNMENT MOLEKULÁRNÍ TAXONOMIE

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

TÉMA: BLANOKŘÍDLÍ VYTVOŘILA: Mgr. Zdenka Wienerová VYTVOŘILA DNE: VY_32_Inovace/3_158

Využití metod strojového učení v bioinformatice David Hoksza

Vypracovat přehled paralelních kinematických struktur. Vytvořit model a provést analýzu zvolené PKS

Zdůvodněte, proč funkce n lg(n) roste alespoň stejně rychle nebo rychleji než než funkce lg(n!). Symbolem lg značíme logaritmus o základu 2.

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Srovnání biodiverzity sadů v různých režimech hospodaření. Martin Bagar

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Kameyama Y. et al. (2001): Patterns and levels of gene flow in Rhododendron metternichii var. hondoense revealed by microsatellite analysis.

Algoritmy pro práci s neúplnou informací

1 0 0 u 22 u 23 l 31. l u11

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Kosmetika a kosmetologie Přednáška 10 Funkční látky péče o kůži IV

int t1, t2, t3, t4, t5, t6, t7, prumer; t1=sys.readint();... t7=sys.readint(); prume pru r = r = ( 1+t 1+t t3+ t3+ t4 t5+ t5+ +t7 +t7 )/ ;

Aritmetické vektory. Martina Šimůnková. Katedra aplikované matematiky. 16. března 2008

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

CLARKEOVA-WRIGHTOVA METODA ŘEŠENÍ ÚLOHY VRP

Kostry. 9. týden. Grafy. Marie Demlová (úpravy Matěj Dostál) 16. dubna 2019

Transkript:

Vytváření fylogenetických stromů na základě alignmentů Tomáš Novotný Jaroslav Knotek

Alignmenty - opakování Existují dvě základní varianty alignmentů: globální a lokální Globální: Hledáme nejlepší zarovnání dvou celých sekvencí o délkách m a n. Lokální: Hledáme takové souvislé podřetězce v obou sekvencích, že jejich globální alignment má maximální možné skóre Máme několik možností spočtení skóre lze vybrat různá ohodnocení pro match, mismatch a gap, použít různé penalizace vzhledem k velikosti díry, apod. Alignment lze spočítat dynamickým programováním v čase O(mn) s využitím paměti O(n).

Alignmenty v našem programu Smithův-Watermannův algoritmus. Upravený S-W algoritmus, který vrací průměr nejvyšších hodnot v tabulce. Lokální alignment, jenž má sníženou penalizaci za díry velikosti násobku tří (inspirováno chybějícím kodonem). Opět používáme část nejvyšších hodnot v tabulce. Ke každému alignmentu jsme zkoušeli i zarovnání s otočenou sekvencí (mohlo dojít k inverzím částí sekvencí).

Fylogenetický strom - opakování Neighbor joining tree Input: Srovnané sekvence nebo matice vzdáleností Postupné seskupování nejbližších dvojic Známe z domácí úlohy Output strom příbuzností Používáme dva způsoby určení nejbližší dvojice Připojujeme vždy dle nejvyšší hodnoty v tabulce, která vede mezi různými komponentami vytvářeného stromu. Při spojení komponent upravíme hodnoty na průměr přes všechny prvky v komponentě, následně použijeme předchozí krok. Funguje znatelně lépe

Použitá vstupní data Canis lupus Vlk obecný Macaca mulatta Makak rhesus Homo sapiens (2 chromosomy) Člověk moudrý

Gorilla gorilla Gorila nížinná Aquila chrysaetos Orel skalní Passer domesticus Vrabec domácí Gallus gallus Kur bankivský

Bombus terrestris Čmelák zemní Apis mellifera Včela medonosná Apis cerana Včela východní Agaricus bisporus Pečárka dvouvýtrusá

Trametes versicolor Outkovka pestrá Lactuca sativa Locika setá Helianthus annuus Slunečnice roční

Pinus taeda Borovice taeda Malus domestica Jabloň Pyrus bretschneideri Hrušeň

Testovací data Zkoušeli jsme dva druhy vstupů: Náhodně vybrané sekvence 30 000 bází z jednotlivých organismů. Dlouhé sekvence různé délky (stovky tisíc bází). Pro kratší variantu jsme vytvořili tabulku alignmentem kompletních sekvencí. Pro delší variantu jsme pro každou dvojici organismů vybírali sadu náhodných kratších vzorků. Z principu fungování algoritmu dosahujeme lepších výsledků při alignmentu delších sekvencí.

Porovnávací metoda Jako skóre algoritmů jsme použili míru shody s očekávaným stromem Všechna spojení kromě nejvyššího získala skóre (1 #chyb max. #chyb) 2 pro nejlepší z netriviálních podstromů očekávaného stromu. Zcela náhodný strom získával kolem 4 ze 16 možných.

Naše výsledky 30000 bází Běžný lokální alignment s použitím inverze Průměrovací strom Match score: 12/16 Perfect hits: 8/16 /--------------------------\ /------------------------\ /------------------\ /-----------------\ /----------\ /------\ /--------\ /-----\ /-----\ /---\ /---\ /----\ /---\ /--\ /--\ /--\ /--\ 0 2 1 4 6 13 12 15 11 3 14 8 9 17 5 7 10 16 0-žampion 1-jabloň 2-čmelák 3-vlk 4-včela mednonosná 5-Orel 6-včela východní 7-vrabec 8,9-člověk 10-kohout 11-hrušeň 12-locika 13-borovice 14-makak 15-slunečnice 16-choroš 17-gorila

Naše výsledky 30000 bází Vícehodnotový alignment s použitím inverze Maxiamlizační strom Match score: 9.15/16 Perfect hits: 5/16 /--------------------------\ /-------------------------\ /-----------------------\ /------------------\ /-----------------\ /---------------\ /--------------\ /------\ /------\ /-----\ /-----\ /---\ /----\ /----\ /--\ /--\ /--\ 0 2 1 13 4 6 12 15 3 8 9 17 14 11 5 10 16 7 0-žampion 1-jabloň 2-čmelák 3-vlk 4-včela mednonosná 5-Orel 6-včela východní 7-vrabec 8,9-člověk 10-kohout 11-hrušeň 12-locika 13-borovice 14-makak 15-slunečnice 16-choroš 17-gorila

Naše výsledky 30000 bází Kodonový alignment s použitím inverze Maximalizační strom Match score: 9.71/16 Perfect hits: 7/16 /--------------------------\ /------------------------\ /-----------------------\ /---------------------\ /------------------\ /-----------------\ /---------------\ /--------------\ /------\ /-----\ /------\ /----\ /-----\ /--\ /--\ /--\ /--\ 0 5 2 1 3 8 9 17 14 13 4 6 12 15 11 7 10 16 0-žampion 1-jabloň 2-čmelák 3-vlk 4-včela mednonosná 5-Orel 6-včela východní 7-vrabec 8,9-člověk 10-kohout 11-hrušeň 12-locika 13-borovice 14-makak 15-slunečnice 16-choroš 17-gorila

Naše výsledky 30000 bází Kodonový alignment s použitím inverze Průměrovací strom Match score: 12.1/16 Perfect hits: 8/16 /--------------------------\ /--------------------\ /-------------------\ /-----------\ /---------\ /--------\ /------\ /-------\ /-----\ /-----\ /---\ /----\ /---\ /--\ /--\ /--\ /--\ 0 2 1 11 4 6 13 12 15 3 8 9 17 14 5 7 10 16 0-žampion 1-jabloň 2-čmelák 3-vlk 4-včela mednonosná 5-Orel 6-včela východní 7-vrabec 8,9-člověk 10-kohout 11-hrušeň 12-locika 13-borovice 14-makak 15-slunečnice 16-choroš 17-gorila

Naše výsledky Vzorky 100x3000 bází Vícehodnotový alignment Průměrovací strom Match score: 9.141/16 Perfect hits: 4/16 /--------------------------\ /-----------------------\ /----------------------\ /------------------\ /-----------------\ /----------\ /--------\ /------\ /-------\ /-----\ /-----\ /----\ /---\ /--\ /--\ /--\ /--\ 0 5 7 13 3 8 14 9 17 1 2 4 6 12 11 15 10 16 0-žampion 1-jabloň 2-čmelák 3-vlk 4-včela mednonosná 5-Orel 6-včela východní 7-vrabec 8,9-člověk 10-kohout 11-hrušeň 12-locika 13-borovice 14-makak 15-slunečnice 16-choroš 17-gorila

Naše výsledky Vzorky 100x3000 bází Kodonový alignment Průměrovací strom Match score: 9.632/16 Perfect hits: 5/16 /--------------------------\ /-----------------------\ /---------------------\ /-------------------\ /-----------\ /---------\ /--------\ /-------\ /------\ /-----\ /-----\ /----\ /----\ /--\ /--\ /--\ /--\ 0 1 2 4 6 12 11 15 13 3 8 9 14 17 5 7 10 16 0-žampion 1-jabloň 2-čmelák 3-vlk 4-včela mednonosná 5-Orel 6-včela východní 7-vrabec 8,9-člověk 10-kohout 11-hrušeň 12-locika 13-borovice 14-makak 15-slunečnice 16-choroš 17-gorila

Naše výsledky Vzorky 100x3000 bází Kodonový alignment s použitím inverze Maximalizační strom Match score: 9.222/16 Perfect hits: 4/16 /--------------------------\ /------------------------\ /-----------------------\ /----------------------\ /-------------------\ /-----------------\ /---------------\ /--------\ /------\ /-------\ /-----\ /-----\ /----\ /----\ /--\ /--\ /--\ 0 10 5 7 1 3 8 9 14 17 2 4 6 12 11 15 13 16 0-žampion 1-jabloň 2-čmelák 3-vlk 4-včela mednonosná 5-Orel 6-včela východní 7-vrabec 8,9-člověk 10-kohout 11-hrušeň 12-locika 13-borovice 14-makak 15-slunečnice 16-choroš 17-gorila

Naše výsledky Vzorky 100x3000 bází Kodonový alignment s použitím inverze Průměrovací strom Match score: 9.582/16 Perfect hits: 4/16 /--------------------------\ /-----------------------\ /---------------------\ /-------------------\ /-----------\ /---------\ /--------\ /-------\ /------\ /-----\ /-----\ /----\ /----\ /--\ /--\ /--\ /--\ 0 1 2 4 6 12 11 15 13 3 8 9 14 17 5 7 10 16 0-žampion 1-jabloň 2-čmelák 3-vlk 4-včela mednonosná 5-Orel 6-včela východní 7-vrabec 8,9-člověk 10-kohout 11-hrušeň 12-locika 13-borovice 14-makak 15-slunečnice 16-choroš 17-gorila

Shrnutí Ukázalo se, že použití průměrné hodnoty v podstromech funguje výrazně lépe, než maximální hodnoty. Na druhou stranu, výsledky různých typů algoritmů a použití i obrácené sekvence nemělo na výsledky statisticky významný vliv. Pro kompletní alignment sekvencí o délce 30 000 bází bylo průměrné skóre průměrovacího vytváření stromu 11,4. Pro vzorkování na plných sekvencích dosahovalo horších výsledků (průměrné skóre 9,2). Doba běhu cca 30 minut (bez invertované sekvence).

Použité komerční programy Mega7 ClustalW Improved Clustal MUSCLE Draft progressive Improved progressive Refinment Náhrada ClustalW

Mega - Clustal

Mega Clustal Nepřesné Pro krátké sekvence: Perfect hits: 1/16, match score: 7.777/16. Pro dlouhé sekvence běhové problémy, skóre odpovídající náhodnému stromu. Dlouhé trvání Použito defaultní nastavení

Další výsledky Chyby Mega v. 6, v. 7 www.ebi.ac.uk Genome.jp

Zdroje Wikipedia.org obrázky i reference Clustal paper [ Higgins DG, Sharp PM (December 1988). "CLUSTAL: a package for performing multiple sequence alignment on a microcomputer". ] Online clustal - https://www.ebi.ac.uk/tools/msa/clustalo/ Sekvence - https://www.ncbi.nlm.nih.gov/nuccore