matematika v biologii: fylogenetika David Černý David Černý
Úvod Linné (1735), Systema Naturae: živá příroda vykazuje hierarchické uspořádání Darwin (1859), On the Origin of Species: příčinou je společný původ (common descent) existuje Strom života, všechny organizmy jsou si příbuzné, ale nestejnou měrou pokud je znak přítomen u organizmů A a B, ale chybí u organizmu C, je to proto, že jej A a B zdědili od společného předka, který nebyl předkem C
Fylogenetika zabývá se tím, jak příbuzenství zrekonstruovat problém: pro n taxonů počet zakořeněných binárních fylogenetických stromů p = n 2 2 (2 n ( n 3)! 2)! pro 15 taxonů jich tedy je 213 458 046 676 875, jen 1 je ale správný jak přijít na to, který? až do 50. let fylogenetika spíš uměním než vědou; žádná metoda s rigorózním matematickým základem
v 50. letech vzniká fenetika: první metoda, kterou lze algoritmizovat a která umí řešit znakové konflikty (když z různých znaků vyplývají vylučující se příbuzenství) fenetický slovníček: OTU (operační taxonomická jednotka): to, co stojí na koncích větví stromu znaková matrice: tabulka OTUs krát znaků klastr: shluk více OTUs distance: počet rozdílů mezi 2 OTUs / počet znaků ukázková metoda: UPGMA, párování pomocí nevážených aritmetických průměrů (Sokal & Michener 1958)
vstup: distanční matrice D nad množinou OTUs S výstup: hierarchie H nad S inicializace: vytvoř množinu klastrů C tak, aby existoval jednotkový klastr C i = {i} pro i S postup: najdi takový pár vzájemně různých klastrů {C, i C } j C, kde d(c, i C ) j je nejmenší úhlopříčnou distancí v D vyjmi C, i C j z C a nahraď je C i C ; j přidej C i C j do H pro C k C {C i C } j spočítej d(c k,(c i C )) j jako C i C i + C j C j d ( C k, Ci ) + d ( C k, C j ) C + C i j
opakuj postup na redukované množině C ukončení: všechny prvky C jsou zahrnuty v H
Problémy a nástupci fenetiky měří podobnost, ne příbuznost revoluce v systematice: Hennig (1966) publikuje Phylogenetic Systematics, vzniká kladistika; Felsenstein (1968) ve své PhD dizertaci uvádí na scénu probabilistické (= parametrické) metody nové metody by měly rozlišit informativní podobnosti (homologie) od neinformativních (homoplazií) jak? dnes 3 hlavní postupy: nejvyšší úspornost (maximum parsimony), nejvyšší věrohodnost (maximum likelihood), bayesovská analýza (Bayesian inference)
Úspornost (parsimonie, MP) parsimonie jako fylogenetická metoda je aplikací obecného principu parsimonie (= Ockhamovy břitvy) optimální strom je takový, který minimalizuje počet přechodů z jednoho znakového stavu do druhého (0 1, A G,...) NP-těžká úloha: není znám algoritmus, který by ji řešil v t = An x, kde A, x jsou konstanty a n počet OTUs řeší se heuristickými algoritmy (metoda lokálního hledání: najde řešení v rozumném čase, ale jen aproximativní)
Problémy s parsimonií statisticky nekonzistentní: Felsenstein (1978) dokázal, že při jisté sadě parametrů (Felsensteinova zóna) nejenže nenajde správný strom, ale s více daty bude ten špatný čím dál tím víc potvrzovat FZ: 2 OTUs na 4-taxonovém FZ: 2 OTUs na 4-taxonovém stromě mají daleko vyšší rychlost evoluce než ty zbývající, ale nejsou si příbuzné: homoplazie mezi těmi rychlejšími přebijí jejich homologie s těmi pomalejšími přitahování dlouhých větví
Věrohodnost (likelihood, ML) jiné kritérium optimality: nejlepší strom je ten s největší věrohodností, přičemž V ( τ D) = P( D τ ) abychom dokázali určit pravděpodobnost, že se vyvinou zrovna data D, nestačí znát jen topologii: potřebujeme další ( rušivé ) parametry samy o sobě nás nezajímají, ale pracovat s nimi musíme souhrn rušivých parametrů = evoluční model: tím se ML liší od MP, která ho nemá (aspoň ne explicitně; viz níže)
P( D τ ) = P( D τ, θ ) dφ ( θ τ ), kde θ jsou rušivé parametry (např. délky větví, tj. tempo evoluce), Ф(θ τ) je funkce značící rozložení rušivých parametrů v závislosti na stromu τ předpoklad zní, že rušivé parametry zintegrujeme, ale to nebylo možné až do 90. let, kdy jsme se naučili aproximovat integrál technikou tzv. Markovových řetězců Monte Carlo (MCMC) většinou prostě předpokládáme, že rušivé parametry nabývají takových hodnot, aby P(D τ) byla nejvyšší
Příklad modelu: HKY85 Hasegawa, Kishino & Yano (1985), kde π T/C/A/G = zastoupení tyminu/cytozinu/adeninu/guaninu v analyzované DNA sekvenci; pravděpodobnost transverzí (A T, C G) = 1; poměr tranzic (A G, C T) k transverzím = κ
délka větve: ke kolika bodovým mutacím dojde na jedné nukleotidové pozici l = 1 2( π + π )( π + π ) + 2κ ([ π π ] + [ π A G C T A G C π T ]) Věrohodnost kontra parsimonie zastánci statistického přístupu dlouho hledali model implicitně obsažený v parsimonii Tuffley & Steel (1997) jej našli: každý znak na každé větvi v něm může mutovat jinak rychle; když přidáme 1 znak navíc, dostáváme (2n 3) nových parametrů
Bayesovská analýza aplikace bayesovské statistiky, kontroverzní alternativy ke klasické (frekventistické) statistice hlavní rozdíl: pravděpodobnost je subjektivní a značí míru nejistoty, ne frekvenci jevu při velkém počtu pokusů základem Bayesův teorém: P( H D) = P( H P( D H P( D) posteriorní pravděpodobnost hypotézy H = priorní pravděpodobnost H krát věrohodnostní poměr ) )
upravený tvar: P po P( D τ ) P ( ( τ D) = i pr i B( s) P( D τ ) P = j j 1 kde P po (τ i D) je posteriorní pravděpodobnost stromu i, P(D τ i ) jeho věrohodnost, P pr (τ i ) jeho priorní pravděpodobnost, a kde jmenovatel představuje sumu všech B možných stromů pro s OTUs věrohodnost předpokládá pro parametry evolučního modelu pevnou, avšak neznámou hodnotu; pro Bayese jsou to jen další náhodné proměnné τ i pr ) ( τ j ),
MCMC nám dá reprezentativní vzorek posteriorního rozdělení; posteriorní pravděpodobnost kladu C i odpovídá tomu, na kolika stromech z tohoto vzorku se vyskytuje Bayes má kritérium optimality (nejlepší je strom s nejvyšší posteriorní pravděpodobností), ale většinou ho nevyužíváme: chceme konsenzový strom, tj. prosté shrnutí posteriorního rozdělení, složené z nejčastěji nalézaných kladů kritikům Bayese nejvíc vadí subjektivní priory: máme právo předem říct, že je nějaký strom pravděpodobnější než jiný? flat priors priorní pravděpodobnost je nastavena pro všechny stromy stejná ukazuje se, že rozdílné priorní pravděpodobnosti neovlivňují výsledek tolik jako použitý model a data
Citovaná literatura: Felsenstein J 1968 Statistical inference and the estimation of phylogenies. PhD Dissertation, Univ Chicago, Chicago Felsenstein J 1978 Cases in which parsimony and compatibility methods will be positively misleading. Syst Zool 27: 401 11 Hasegawa M, Kishino H, Yano T 1985 Dating of human-ape splitting by a molecular clock of mitochondrial DNA. J Mol Evol 22: 160 74 Hennig W 1966 Phylogenetic Systematics. Univ of Illinois Press, Urbana Sokal RR, Michener CD 1958 A statistical method for evaluating systematic relationships. Univ Kansas Sci Bull 38: 1409 38 Tuffley C, Steel M 1997 Links between maximum likelihood and maximum parsimony under a simple model of site substitution. Bull Math Biol 59: 581 607 Zdroje ilustrací: Huelsenbeck JP, Ané C, Larget B, Ronquist F 2008 A Bayesian perspective on a non-parsimonious parsimony model. Syst Biol 57: 406 19 (pravděpodobnostní vzoreček, slide 1) Suh A, Paus M, Kiefmann M, Churakov G, Franke FA, Brosius J, Kriegs JO, Schmitz J 2011 Mesozoic retroposons reveal parrots as the closest living relatives of passerine birds. Nature Comms 2: 443 (zarovnané sekvence, slide 1) Lee MSY, Worthy TH 2011 Likelihood reinstates Archaeopteryx as a primitive bird. Biol Lett doi:10.1098/rsbl.2011.0884 (split frequencies diagram, slide 1) Mayr G 2010 Parrot interrelationships morphology and the new molecular phylogenies. Emu 110: 348 57 (fylogenetický stromek, slide 1) Gronau I, Moran S 2007 Optimal implementations of UPGMA and other common clustering algorithms. Inf Process Lett 104 (6): 205 10 (distanční matrice, slide 6) Philippe H, Zhou Y, Brinkmann H, Rodrigue N, Delsuc F 2005 Heterotachy and long-branch attraction in phylogenetics. BMC Evol Biol 5: 50 (Felsensteinova zóna, slide 9) http://en.wikipedia.org/wiki/models_of_dna_evolution (HKY85 model, slide 12) Swofford DL, Waddell PJ, Huelsenbeck JP, Foster PG, Lewis PO, Rogers JS 2001 Bias in phylogenetic estimation and its relevance to the choice between parsimony and likelihood methods. Syst Biol 50: 525 39 (věrohodnost vs. parsimonie, slide 14) http://www.dnabased.com/bioinformatika/prednasky/extdoc/bayes_web.pdf (bayesovské pravděpodobnosti, slide 17)
Děkuji za pozornost.