matematika v biologii: fylogenetika David Černý

Podobné dokumenty
Typy fylogenetických analýz

2. Maximální úspornost (Maximum Parsimony, MP)

Systém a evoluce obratlovců I.Úvod

Fylogeneze a diverzita obratlovců I.Úvod

Pravděpodobnost, náhoda, kostky

Algoritmy pro shlukování prostorových dat

Pravděpodobnost, náhoda, kostky

Pravděpodobnost vs. Poměr šancí. Pravděpodobnostní algoritmy: Bayesova věta. Bayesova teorie rozhodování. Bayesova věta (teorém) Vzorec. ...

Systematická biologie je věda o rozmanitosti organizmů (E. Mayr 1969: Principles of systematic zoology. Mac Graw Hill Book Co., New York X+428 p.).

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

MOLEKULÁRNÍ TAXONOMIE 9

cluster clusters cluster cluster hierarchické klastrování: => strom je jedním z grafických znázornění hierarchického klastrování:

Aplikace DNA markerů v mykologii a molekulárni taxonomii

Jak se matematika poučila v biologii

Malcomber S.T. (2000): Phylogeny of Gaertnera Lam. (Rubiaceae) based on multiple DNA markers: evidence of a rapid radiation in a widespread,

Umělá inteligence II

Základy fylogenetiky a konstrukce fylogenetických stromů

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

ANALÝZA DAT V R 9. VÝPOČET VELIKOSTI SOUBORU. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

UČENÍ BEZ UČITELE. Václav Hlaváč

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

1. seznámení s on-line databázemi, nástroji a softwarem (databáze, vyhledání sekvencí, základní manipulace se sekvencemi, navržení primerů)

Tribsch A., Schönswetter P. & Stuessy T. (2002): Saponaria pumila (Caryophyllaceae) and the Ice Age in the European Alps. American Journal of Botany

Teorie neutrální evoluce a molekulární hodiny

4. Úvod do kladistiky. kladogram podobnost a příbuznost homologie (sym)plesiomorfie, (syn)apomorfie polarizace znaků kritérium parsimonie

Bioinformatika a výpočetní biologie. KFC/BIN VII. Fylogenetická analýza

Inovace studia molekulární a buněčné biologie

Akvizice dat. Dekonvoluce Registrace. zobrazení INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ

Odhady - Sdružené rozdělení pravděpodobnosti

Vytěžování znalostí z dat

oddělení Inteligentní Datové Analýzy (IDA)

Teorie neutrální evoluce a molekulární hodiny

Intervalová data a výpočet některých statistik

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Základní pojmy I. EVOLUCE

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Motivace. Náhodný pokus, náhodný n jev. Pravděpodobnostn. podobnostní charakteristiky diagnostických testů, Bayesův vzorec

BOOTSTRAPPINGOVÉ METODY VE FYLOGENETICE

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Cíle lokalizace. Zjištění: 1. polohy a postavení robota (robot pose) 2. vzhledem k mapě 3. v daném prostředí

Taxonomický systém a jeho význam v biologii

Odhad stavu matematického modelu křižovatek

Usuzování za neurčitosti

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

Úvodem Dříve les než stromy 3 Operace s maticemi

1. Systematika, taxonomie a stručný přehled jejich historického vývoje

KGG/STG Statistika pro geografy

Rekonstrukce křivek a ploch metodou postupné evoluce

SRE 03 - Statistické rozpoznávání

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Pravděpodobně skoro správné. PAC učení 1

Strojové učení Marta Vomlelová

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Bayesovská klasifikace

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

Robustní odhady statistických parametrů

Vícerozměrné statistické metody

Metody zpracování fyzikálních měření

23. Matematická statistika

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

Aktivní detekce chyb

KGG/STG Statistika pro geografy

Využití DNA sekvencování v

Speciace a extinkce. Druh

PRAVDĚPODOBNOST A STATISTIKA

Monte Carlo Lokalizace. Martin Skalský

Systém a evoluce živočichů

ANALÝZA A KLASIFIKACE DAT

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

Cvičení ze statistiky - 7. Filip Děchtěrenko

Binární vyhledávací stromy pokročilé partie

Robustní statistické metody

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Statistika pro geografy

Aplikovaná statistika v R - cvičení 2

STATISTICKÉ VYHODNOCENÍ FYLOGENEZE BIOLOGICKÝCH SEKVENCÍ

PRAVDĚPODOBNOST A STATISTIKA

Populační genetika III. Radka Reifová

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Odhady Parametrů Lineární Regrese

Studijní program Matematika Obor Pravděpodobnost, matematická statistika a ekonometrie

Základy botaniky vyšších rostlin. Zdeňka Lososová

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

MOLEKULÁRNÍ TAXONOMIE 10

POŽADAVKY K SOUBORNÉ ZKOUŠCE Z MATEMATIKY

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Testování statistických hypotéz

Citation Statistics. zpráva společné komise. Int. Mathematical Union. Int. Council of Industrial and Applied Mathematics. Institute of Statistics

Ing. Alena Šafrová Drášilová, Ph.D.

Ing. Tomáš MAUDER prof. Ing. František KAVIČKA, CSc. doc. Ing. Josef ŠTĚTINA, Ph.D.

Pravděpodobnost a matematická statistika

Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky

Strom života. Cíle. Stručná anotace

Nadaní v přírod. vědách. Jiřina Novotná Katedra matematiky Pedagogická fakulta MU Brno

Transkript:

matematika v biologii: fylogenetika David Černý David Černý

Úvod Linné (1735), Systema Naturae: živá příroda vykazuje hierarchické uspořádání Darwin (1859), On the Origin of Species: příčinou je společný původ (common descent) existuje Strom života, všechny organizmy jsou si příbuzné, ale nestejnou měrou pokud je znak přítomen u organizmů A a B, ale chybí u organizmu C, je to proto, že jej A a B zdědili od společného předka, který nebyl předkem C

Fylogenetika zabývá se tím, jak příbuzenství zrekonstruovat problém: pro n taxonů počet zakořeněných binárních fylogenetických stromů p = n 2 2 (2 n ( n 3)! 2)! pro 15 taxonů jich tedy je 213 458 046 676 875, jen 1 je ale správný jak přijít na to, který? až do 50. let fylogenetika spíš uměním než vědou; žádná metoda s rigorózním matematickým základem

v 50. letech vzniká fenetika: první metoda, kterou lze algoritmizovat a která umí řešit znakové konflikty (když z různých znaků vyplývají vylučující se příbuzenství) fenetický slovníček: OTU (operační taxonomická jednotka): to, co stojí na koncích větví stromu znaková matrice: tabulka OTUs krát znaků klastr: shluk více OTUs distance: počet rozdílů mezi 2 OTUs / počet znaků ukázková metoda: UPGMA, párování pomocí nevážených aritmetických průměrů (Sokal & Michener 1958)

vstup: distanční matrice D nad množinou OTUs S výstup: hierarchie H nad S inicializace: vytvoř množinu klastrů C tak, aby existoval jednotkový klastr C i = {i} pro i S postup: najdi takový pár vzájemně různých klastrů {C, i C } j C, kde d(c, i C ) j je nejmenší úhlopříčnou distancí v D vyjmi C, i C j z C a nahraď je C i C ; j přidej C i C j do H pro C k C {C i C } j spočítej d(c k,(c i C )) j jako C i C i + C j C j d ( C k, Ci ) + d ( C k, C j ) C + C i j

opakuj postup na redukované množině C ukončení: všechny prvky C jsou zahrnuty v H

Problémy a nástupci fenetiky měří podobnost, ne příbuznost revoluce v systematice: Hennig (1966) publikuje Phylogenetic Systematics, vzniká kladistika; Felsenstein (1968) ve své PhD dizertaci uvádí na scénu probabilistické (= parametrické) metody nové metody by měly rozlišit informativní podobnosti (homologie) od neinformativních (homoplazií) jak? dnes 3 hlavní postupy: nejvyšší úspornost (maximum parsimony), nejvyšší věrohodnost (maximum likelihood), bayesovská analýza (Bayesian inference)

Úspornost (parsimonie, MP) parsimonie jako fylogenetická metoda je aplikací obecného principu parsimonie (= Ockhamovy břitvy) optimální strom je takový, který minimalizuje počet přechodů z jednoho znakového stavu do druhého (0 1, A G,...) NP-těžká úloha: není znám algoritmus, který by ji řešil v t = An x, kde A, x jsou konstanty a n počet OTUs řeší se heuristickými algoritmy (metoda lokálního hledání: najde řešení v rozumném čase, ale jen aproximativní)

Problémy s parsimonií statisticky nekonzistentní: Felsenstein (1978) dokázal, že při jisté sadě parametrů (Felsensteinova zóna) nejenže nenajde správný strom, ale s více daty bude ten špatný čím dál tím víc potvrzovat FZ: 2 OTUs na 4-taxonovém FZ: 2 OTUs na 4-taxonovém stromě mají daleko vyšší rychlost evoluce než ty zbývající, ale nejsou si příbuzné: homoplazie mezi těmi rychlejšími přebijí jejich homologie s těmi pomalejšími přitahování dlouhých větví

Věrohodnost (likelihood, ML) jiné kritérium optimality: nejlepší strom je ten s největší věrohodností, přičemž V ( τ D) = P( D τ ) abychom dokázali určit pravděpodobnost, že se vyvinou zrovna data D, nestačí znát jen topologii: potřebujeme další ( rušivé ) parametry samy o sobě nás nezajímají, ale pracovat s nimi musíme souhrn rušivých parametrů = evoluční model: tím se ML liší od MP, která ho nemá (aspoň ne explicitně; viz níže)

P( D τ ) = P( D τ, θ ) dφ ( θ τ ), kde θ jsou rušivé parametry (např. délky větví, tj. tempo evoluce), Ф(θ τ) je funkce značící rozložení rušivých parametrů v závislosti na stromu τ předpoklad zní, že rušivé parametry zintegrujeme, ale to nebylo možné až do 90. let, kdy jsme se naučili aproximovat integrál technikou tzv. Markovových řetězců Monte Carlo (MCMC) většinou prostě předpokládáme, že rušivé parametry nabývají takových hodnot, aby P(D τ) byla nejvyšší

Příklad modelu: HKY85 Hasegawa, Kishino & Yano (1985), kde π T/C/A/G = zastoupení tyminu/cytozinu/adeninu/guaninu v analyzované DNA sekvenci; pravděpodobnost transverzí (A T, C G) = 1; poměr tranzic (A G, C T) k transverzím = κ

délka větve: ke kolika bodovým mutacím dojde na jedné nukleotidové pozici l = 1 2( π + π )( π + π ) + 2κ ([ π π ] + [ π A G C T A G C π T ]) Věrohodnost kontra parsimonie zastánci statistického přístupu dlouho hledali model implicitně obsažený v parsimonii Tuffley & Steel (1997) jej našli: každý znak na každé větvi v něm může mutovat jinak rychle; když přidáme 1 znak navíc, dostáváme (2n 3) nových parametrů

Bayesovská analýza aplikace bayesovské statistiky, kontroverzní alternativy ke klasické (frekventistické) statistice hlavní rozdíl: pravděpodobnost je subjektivní a značí míru nejistoty, ne frekvenci jevu při velkém počtu pokusů základem Bayesův teorém: P( H D) = P( H P( D H P( D) posteriorní pravděpodobnost hypotézy H = priorní pravděpodobnost H krát věrohodnostní poměr ) )

upravený tvar: P po P( D τ ) P ( ( τ D) = i pr i B( s) P( D τ ) P = j j 1 kde P po (τ i D) je posteriorní pravděpodobnost stromu i, P(D τ i ) jeho věrohodnost, P pr (τ i ) jeho priorní pravděpodobnost, a kde jmenovatel představuje sumu všech B možných stromů pro s OTUs věrohodnost předpokládá pro parametry evolučního modelu pevnou, avšak neznámou hodnotu; pro Bayese jsou to jen další náhodné proměnné τ i pr ) ( τ j ),

MCMC nám dá reprezentativní vzorek posteriorního rozdělení; posteriorní pravděpodobnost kladu C i odpovídá tomu, na kolika stromech z tohoto vzorku se vyskytuje Bayes má kritérium optimality (nejlepší je strom s nejvyšší posteriorní pravděpodobností), ale většinou ho nevyužíváme: chceme konsenzový strom, tj. prosté shrnutí posteriorního rozdělení, složené z nejčastěji nalézaných kladů kritikům Bayese nejvíc vadí subjektivní priory: máme právo předem říct, že je nějaký strom pravděpodobnější než jiný? flat priors priorní pravděpodobnost je nastavena pro všechny stromy stejná ukazuje se, že rozdílné priorní pravděpodobnosti neovlivňují výsledek tolik jako použitý model a data

Citovaná literatura: Felsenstein J 1968 Statistical inference and the estimation of phylogenies. PhD Dissertation, Univ Chicago, Chicago Felsenstein J 1978 Cases in which parsimony and compatibility methods will be positively misleading. Syst Zool 27: 401 11 Hasegawa M, Kishino H, Yano T 1985 Dating of human-ape splitting by a molecular clock of mitochondrial DNA. J Mol Evol 22: 160 74 Hennig W 1966 Phylogenetic Systematics. Univ of Illinois Press, Urbana Sokal RR, Michener CD 1958 A statistical method for evaluating systematic relationships. Univ Kansas Sci Bull 38: 1409 38 Tuffley C, Steel M 1997 Links between maximum likelihood and maximum parsimony under a simple model of site substitution. Bull Math Biol 59: 581 607 Zdroje ilustrací: Huelsenbeck JP, Ané C, Larget B, Ronquist F 2008 A Bayesian perspective on a non-parsimonious parsimony model. Syst Biol 57: 406 19 (pravděpodobnostní vzoreček, slide 1) Suh A, Paus M, Kiefmann M, Churakov G, Franke FA, Brosius J, Kriegs JO, Schmitz J 2011 Mesozoic retroposons reveal parrots as the closest living relatives of passerine birds. Nature Comms 2: 443 (zarovnané sekvence, slide 1) Lee MSY, Worthy TH 2011 Likelihood reinstates Archaeopteryx as a primitive bird. Biol Lett doi:10.1098/rsbl.2011.0884 (split frequencies diagram, slide 1) Mayr G 2010 Parrot interrelationships morphology and the new molecular phylogenies. Emu 110: 348 57 (fylogenetický stromek, slide 1) Gronau I, Moran S 2007 Optimal implementations of UPGMA and other common clustering algorithms. Inf Process Lett 104 (6): 205 10 (distanční matrice, slide 6) Philippe H, Zhou Y, Brinkmann H, Rodrigue N, Delsuc F 2005 Heterotachy and long-branch attraction in phylogenetics. BMC Evol Biol 5: 50 (Felsensteinova zóna, slide 9) http://en.wikipedia.org/wiki/models_of_dna_evolution (HKY85 model, slide 12) Swofford DL, Waddell PJ, Huelsenbeck JP, Foster PG, Lewis PO, Rogers JS 2001 Bias in phylogenetic estimation and its relevance to the choice between parsimony and likelihood methods. Syst Biol 50: 525 39 (věrohodnost vs. parsimonie, slide 14) http://www.dnabased.com/bioinformatika/prednasky/extdoc/bayes_web.pdf (bayesovské pravděpodobnosti, slide 17)

Děkuji za pozornost.