Typy fylogenetických analýz

Podobné dokumenty
Malcomber S.T. (2000): Phylogeny of Gaertnera Lam. (Rubiaceae) based on multiple DNA markers: evidence of a rapid radiation in a widespread,

Teorie neutrální evoluce a molekulární hodiny

1. seznámení s on-line databázemi, nástroji a softwarem (databáze, vyhledání sekvencí, základní manipulace se sekvencemi, navržení primerů)

Modelování různé substituční rychlosti v různých pozicích alignmentu

matematika v biologii: fylogenetika David Černý

Teorie neutrální evoluce a molekulární hodiny

Populační genetika II

Základy fylogenetiky a konstrukce fylogenetických stromů

Uvolňování parametrů v substitučních modelech (opakování z minula, trochu jinak)

2. Maximální úspornost (Maximum Parsimony, MP)

MOLEKULÁRNÍ TAXONOMIE 9

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Populační genetika Radka Reifová

MOLEKULÁRNÍ TAXONOMIE 10

Pravděpodobnost vs. Poměr šancí. Pravděpodobnostní algoritmy: Bayesova věta. Bayesova teorie rozhodování. Bayesova věta (teorém) Vzorec. ...

Pravděpodobnost, náhoda, kostky

cluster clusters cluster cluster hierarchické klastrování: => strom je jedním z grafických znázornění hierarchického klastrování:

Tribsch A., Schönswetter P. & Stuessy T. (2002): Saponaria pumila (Caryophyllaceae) and the Ice Age in the European Alps. American Journal of Botany

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

STATISTICKÉ VYHODNOCENÍ FYLOGENEZE BIOLOGICKÝCH SEKVENCÍ

Využití DNA sekvencování v

BOOTSTRAPPINGOVÉ METODY VE FYLOGENETICE

Populační genetika II. Radka Reifová

Drift nejen v malých populacích (nebo při bottlenecku resp. efektu zakladatele)

Fisher M. & al. (2000): RAPD variation among and within small and large populations of the rare clonal plant Ranunculus reptans (Ranunculaceae).

Coalesce spojit se, splynout, sloučit se. Didaktická simulace Coalescence = splynutí linií

Bayesovské metody. Mnohorozměrná analýza dat

Úvod do optimalizace, metody hladké optimalizace

Využití molekulárních markerů v systematice a populační biologii rostlin. 9. Sekvenování DNA II. nrdna, low-copy markery

Jak se matematika poučila v biologii

DISTANČNÍ METODY KONSTRUKCE FYLOGENETICKÝCH STROMŮ

Kameyama Y. et al. (2001): Patterns and levels of gene flow in Rhododendron metternichii var. hondoense revealed by microsatellite analysis.

Využití DNA markerů ve studiu fylogeneze rostlin

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Pravděpodobnost, náhoda, kostky

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Cvičení 3. Posudek únosnosti ohýbaného prutu. Software FREET Simulace metodou Monte Carlo Simulace metodou LHS

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Cvičení 9. Posudek únosnosti ohýbaného prutu metodou LHS v programu FREET. Software FREET Simulace metodou LHS

Aplikace DNA markerů v mykologii a molekulárni taxonomii

Systém a evoluce obratlovců I.Úvod

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

MOLEKULÁRNÍ METODY V EKOLOGII MIKROORGANIZMŮ

NGS analýza dat. kroužek, Alena Musilová

Bioinformatika a výpočetní biologie. KFC/BIN VII. Fylogenetická analýza

Fylogeneze a diverzita obratlovců I.Úvod

AFLP. protokoly standardizace AFLP hodnocení primárních dat dnes používané metody hodnocení fylogenetický signál v AFLP datech

Umělá inteligence II

Genetická diverzita masného skotu v ČR

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Akvizice dat. Dekonvoluce Registrace. zobrazení INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ

Markovovy modely v Bioinformatice

Odborná skupina pro spolehlivost. Použití ordinálních a semikvantitativních postupů ve spolehlivosti. Jaroslav Zajíček

Mgr. et Mgr. Lenka Falková. Laboratoř agrogenomiky. Ústav morfologie, fyziologie a genetiky zvířat Mendelova univerzita

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

Markov Chain Monte Carlo. Jan Kracík.

EVOLUČNÍ MODELY PRO VYHODNOCENÍ PŘÍBUZNOSTI ORGANISMŮ

Vytváření fylogenetických stromů na základě alignmentů. Tomáš Novotný Jaroslav Knotek

Metody studia historie populací. Metody studia historie populací

Tomimatsu H. &OharaM. (2003): Genetic diversity and local population structure of fragmented populations of Trillium camschatcense (Trilliaceae).

SRE 03 - Statistické rozpoznávání

Studijní program Matematika Obor Pravděpodobnost, matematická statistika a ekonometrie

Evoluční genetika II. Radka Reifová

Využití metod strojového učení v bioinformatice David Hoksza

FYLOGEOGRAFIE A KOALESCENCE

oddělení Inteligentní Datové Analýzy (IDA)

Pokročilé neparametrické metody. Klára Kubošová

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Populačně-genetická data


Strom života. Cíle. Stručná anotace

Evoluce velikosti genomu v čeledi Costaceae Genome size evolution in Costaceae

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně

Populační genetika Radka Reifová

Vyhledávání podobných sekvencí BLAST

Vícerozměrné statistické metody

Rizikové úseky silnic z pohledu dopravních nehod

Vybrané partie z obrácených úloh. obrácených úloh (MG452P73)

Úvod do kvantového počítání

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

METODY VÍCENÁSOBNÉHO ZAROVNÁVÁNÍ NUKLEOTIDOVÝCH SEKVENCÍ

Osud jednotlivých kopií genů v populaci genové stromy

Bayesovská klasifikace

Monte Carlo Lokalizace. Martin Skalský

4. Na obrázku je rozdělovací funkce (hustota pravděpodobnosti) náhodné veličiny X. Jakou hodnotu musí mít parametr k?

Molekulárně biologické metody princip, popis, výstupy

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Tok GI v buňce. Genetický polymorfizmus popis struktury populací. Organizace genetického materiálu. Definice polymorfismu

Bioinformatika. hledání významu biologických dat. Marian Novotný. Friday, April 24, 15

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Využití metagenomiky při hodnocení sanace chlorovaných ethylenů in situ Výsledky pilotních testů

Transkript:

Typy fylogenetických analýz Distanční metody: Neighbor-Joining Minimum Evolultion UPGMA,... Maximum Likelihood Bayesian Inference Maximum Parsimony

Genetické distance, substituční modely pro výpočet fylogenetických analýz je nutné stanovit genetické (evoluční) distance mezi sekvencemi v případě molekulárních hodin je distance přímo úměrná času p-distance: prostý rozdíl sekvencí výrazné podhodnocení reálných distancí (saturace) substituční modely odhady jednotlivých substitučních rychlostí pomocí Markovových modelů + frekvence výskytu nukleotidů = Q matice

Substituční modely Jukes-Cantor (JC69): během evoluce mají všechny nukleotidy stejnou pravděpodobnost substitucí i stejnou frekvenci výskytu bází (nst=1) Felsenstein (F81): nukleotidy mají stejnou pravděpodobnost substitucí ale jinou frekvenci výskytu bází (nst=1) Kimura (K80): jiné substituční rychlosti pro transice a transverze, shodné frekvence bází (nst=2) Hasegawa-Kishino-Yano (HKY): jiné substituční rychlosti pro transice a transverze, různé frekvence bází (nst=2) General time reverdible (GTR): pravděpodobnosti substitucí a frekvence bází jsou specifikovány pro každou možnost (nst=6)

Substituční modely Gamma distribuce (Γ): modeluje variabilitu v míře nukleotidových substitucí na různých pozicích alignmentu. Většinou se model zjednodušuje do 4 α kategorií Proporce nevariabilních míst (I): existence velkého množství nevariabilních pozic negativně ovlivňuje odhad genetických distancí. Aplikace I modelu je např. důležitá při současné přítomnosti krátkých a dlouhých větví Kovarion (cov): modeluje variabilitu v míře nukleotidových substitucí v závislosti na fylogenetické pozici dané sekvence

Test topologie - bootstrapping výpočet stromů na základě nově generovaných alignmentů konstrukce majority-rule konsenzuálního stromu hodnoty bootstrapů je nutné zobrazit na topologii stromu zkonstruovaného na základě originálního alignmentu

Fylogenetické analýzy na základě distančních matic stromy se počítají na základě distancí, spočtených pro každou dvojici sekvencí aplikují se substituční modely vhodné pro rychlou analýzu velkého množství sekvencí (v řádu několika stovek až tisíc) Minimum Evolution (ME): hledá se strom o nejmenším součtu délek všech větví Neighbor Joining (NJ): heuristický algoritmus na rychlé nalezení ME stromu (začíná se u hvězdicovitého stromu) BioNJ: lepší přesnost topologie u vzdáleně příbuzných sekvencí

Maximum Likelihood (ML) hledání nejpravděpodobnějšího stromu odrážejícího evoluci sekvencí posuzování pravděpodobností nekonečně velkého množství stromů (různé topologie, délky větví, parametrů substitučních modelů,...) heuristické metody pro hledání struktury stromu: Nearest Neighbor Interchange (NNI) Subtree Pruning + Regrafting (SPR) Tree-Bisection + Reconnection (TBR)

Bayesova analýza (BI) tradiční otázka: pokud je v košíku stejně modrých a červených kuliček, jaká je pravděpodobnost, že si vytáhnu 3 modré a 3 červené kuličky? Bayesovská otázka: pokud si vytáhnu 3 modré a 3 červené kuličky, jaká je pravděpodobnost, že je v košíku stejně modrých a červených kuliček? podmíněná pravděpodobnost (posterior) existuje nekonečné množství předpokladů (víc modrých, víc červených,...), které ale mohou mít různou pravděpodobnost tzv. priors uniform priors stejná pravděpodobnost, žádné předpoklady (topologie) exponencial priors např. délky větví (likelihood je negativní exponenciální funkcí) dirichlet priors pravděpodobnosti oscilují okolo dané hodnoty (frekvence bází, substituční modely, I,...) lognormal priors např. kalibrace stromu fosilními daty priors se během analýzy mění na základě analyzovaných dat (alignment sekvencí), pomocí stochastických modelů získáme posteriorní pravděpodobnosti

Bayesova analýza (BI) Markov chain Monte Carlo (MCMC) sampling výpočet posteriorních pravděpodobností pomocí náhodných změn prior parametrů a ty buď zamítnout či přijmout na základě jejich pravděpodobností Metropolic coupling MCMC = (MC) 3 1 studený a 3 horké řetězce burn-in: odstranění iniciální fáze MCMC výsledná topologie: konsenzuální strom posteriorních topologií

Maximální parsimonie (MP) hledání stromu s co nejmenším počtem evolučních kroků heuristické prohledávání stromů stejné jako u ML: NNI, SPR, TBR Fitchův algoritmus: 1 2 3 4 vážená parsimonie (wmp): MP výpočet parsimonního skóre: 1 pro substituci, 0 pro žádnou změnu wmp výpočet: každý typ substituce je vážen např. pomocí frekvence jeho výskytu (rescaled consistency index - méně častým mutacím je dáno vyšší skóre)

Long branch attraction Archezoa

Long branch attraction Archezoa

Long branch attraction

Long branch attraction

kontaminace, špatná identifikace,...

base composition bias sekvence jsou shlukovány podle velkého GC obsahu

použití špatných markerů

špatná bootstrapová podpora

konflikt genů Cladonia

konflikt genů Cladonia

konflikt genů Xanthidium

Phylogeny at the level of populations and species Species are lineages A B C A B C >> Species phylogeny Population genetics: coalescence process (Wright-Fisher process)

Phylogeny at the level of populations and species Barriers to gene flow coalescence process : individual / allele copy

Phylogeny at the level of populations and species A B C Time T2 T1

Phylogeny at the level of populations and species A B C A B C T2 T1 deep coalescence = MRCA incomplete lineage sorting

NGS Environmentální sekvenování nyní více jak 300 000 SSU rdna sekvencí v databázi GenBank Cuvelier et al. - 2008

NGS

NGS L litter O organic A A horizon B B horizon P pine MH mixed hardwood

NGS

NGS Ekologická struktura linií 8 freshwater 31 marine 12 anoxic 2 deep-sea

Skryté pasti environmentálního sekvenování Objev 8 nových říší

Skryté pasti environmentálního sekvenování Nedostatečný taxon sampling

Skryté pasti environmentálního sekvenování Nedostatečný taxon sampling publikované určení sekvencí reanalyzované určení sekvencí

Skryté pasti environmentálního sekvenování Chimerické sekvence nedoběhnutá elongace krátké úseky DNA se stávají primery vznik chiméry

Lucking, 2014, pyrosequencing