Základy fylogenetiky a konstrukce fylogenetických stromů

Podobné dokumenty
Fylogeneze a diverzita obratlovců I.Úvod

Typy fylogenetických analýz

Teorie neutrální evoluce a molekulární hodiny

Systém a evoluce obratlovců I.Úvod

Strom života. Cíle. Stručná anotace

Teorie neutrální evoluce a molekulární hodiny

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Malcomber S.T. (2000): Phylogeny of Gaertnera Lam. (Rubiaceae) based on multiple DNA markers: evidence of a rapid radiation in a widespread,

Využití DNA markerů ve studiu fylogeneze rostlin

Vytváření fylogenetických stromů na základě alignmentů. Tomáš Novotný Jaroslav Knotek

Uvolňování parametrů v substitučních modelech (opakování z minula, trochu jinak)

Populační genetika III. Radka Reifová


6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

Inovace studia molekulární a buněčné biologie

Typy nukleových kyselin. deoxyribonukleová (DNA); ribonukleová (RNA).

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Bioinformatika a výpočetní biologie. KFC/BIN VII. Fylogenetická analýza

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Molekulární základy genetiky

MOLEKULÁRNÍ TAXONOMIE 10

Využití metod strojového učení v bioinformatice David Hoksza

Populační genetika II. Radka Reifová

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

MOLEKULÁRNÍ METODY V EKOLOGII MIKROORGANIZMŮ

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

1. Téma : Genetika shrnutí Název DUMu : VY_32_INOVACE_29_SPSOA_BIO_1_CHAM 2. Vypracovala : Hana Chamulová 3. Vytvořeno v projektu EU peníze středním

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Drift nejen v malých populacích (nebo při bottlenecku resp. efektu zakladatele)

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

2. Maximální úspornost (Maximum Parsimony, MP)

Inovace studia molekulární a buněčné biologie

Vyhledávání podobných sekvencí BLAST

Biologie - Oktáva, 4. ročník (humanitní větev)

NUKLEOVÉ KYSELINY. Základ života

Populační genetika II

Biologie - Oktáva, 4. ročník (přírodovědná větev)

Genetické algoritmy. Informační a komunikační technologie ve zdravotnictví

Co se o sobě dovídáme z naší genetické informace

Aplikace DNA markerů v mykologii a molekulárni taxonomii

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy

Genetická diverzita masného skotu v ČR

Jak se matematika poučila v biologii

Coalesce spojit se, splynout, sloučit se. Didaktická simulace Coalescence = splynutí linií

Propojení výuky oborů Molekulární a buněčné biologie a Ochrany a tvorby životního prostředí. Reg. č.: CZ.1.07/2.2.00/

Inovace studia molekulární a buněčné biologie

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

STATISTICKÉ VYHODNOCENÍ FYLOGENEZE BIOLOGICKÝCH SEKVENCÍ

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Degenerace genetického kódu

Okruhy otázek ke zkoušce

NGS analýza dat. kroužek, Alena Musilová

Sylabus témat ke zkoušce z lékařské biologie a genetiky. Struktura, reprodukce a rekombinace virů (DNA viry, RNA viry), význam v medicíně

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

CLP ANALYSIS OF MOLECULAR MARKERS DIGITAL IMAGE ANALYSIS OF ELECTROPHOEROGRAMS CZECH VERSION

Paleogenetika člověka


VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

GENETIKA dědičností heredita proměnlivostí variabilitu Dědičnost - heredita podobnými znaky genetickou informací Proměnlivost - variabilita

MOLEKULÁRNÍ FYLOGENETIKA A TAXONOMIE

Využití DNA sekvencování v

Jak měříme genetickou vzdálenost a co nám říká F ST

Nové směry v evoluční biologii. Jaroslav Flegr Katedra filosofie a dějin přírodních věd Přírodovědecká Fakulta UK Praha

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Příbuznost a inbreeding

Mutace jako změna genetické informace a zdroj genetické variability

BOOTSTRAPPINGOVÉ METODY VE FYLOGENETICE

Populační genetika Radka Reifová

Genetika zvířat - MENDELU

Vícerozměrné statistické metody

Základní pojmy I. EVOLUCE

1. seznámení s on-line databázemi, nástroji a softwarem (databáze, vyhledání sekvencí, základní manipulace se sekvencemi, navržení primerů)

Velká rodina života. mlha se zvedá

Propojení výuky oborů Molekulární a buněčné biologie a Ochrany a tvorby životního prostředí. Reg. č.: CZ.1.07/2.2.00/

O původu života na Zemi Václav Pačes

Hardy-Weinbergův zákon - cvičení

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Doprovodný materiál k práci s přípravným textem Biologické olympiády 2014/2015 pro soutěžící a organizátory kategorie B

cluster clusters cluster cluster hierarchické klastrování: => strom je jedním z grafických znázornění hierarchického klastrování:

Pokročilé operace s obrazem

EVOLUCE ČLOVĚKA. úlohy k tématu + autorské řešení. Radka M. Dvořáková, Karolína Absolonová

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

Genetika bakterií. KBI/MIKP Mgr. Zbyněk Houdek

Jaro 2010 Kateřina Slavíčková

Genetické rozdíly mezi populacemi aneb něco o migracích a genovém toku. Genetické rozdíly mezi populacemi

Inovace studia molekulární a buněčné biologie

3) Analýza mtdna mitochondriální Eva, kdy a kde žila. 8) Haploskupiny mtdna a chromozomu Y v ČR

Genetický polymorfismus

DNA TECHNIKY IDENTIFIKACE ŽIVOČIŠNÝCH DRUHŮ V KRMIVU A POTRAVINÁCH. Michaela Nesvadbová

Výukový materiál zpracován v rámci projektu EU peníze školám

Bakteriální transpozony

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Inovace studia molekulární a buněčné biologie

Inovace studia molekulární a buněčné biologie

A. chromozómy jsou rozděleny na 2 chromatidy spojené jen v místě centromery. B. vlákna dělícího vřeténka jsou připojena k chromozómům

METODY VÍCENÁSOBNÉHO ZAROVNÁVÁNÍ NUKLEOTIDOVÝCH SEKVENCÍ

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Rekonstrukce evoluce plastidů

Dědičnost pohlaví Genetické principy základních způsobů rozmnožování

Evoluce fenotypu I. web.natur.cuni.cz/~kratoch1/

Transkript:

EKO/MEM Molekulární ekologie mikroorganismů Základy fylogenetiky a konstrukce fylogenetických stromů Iva Buriánková Katedra ekologie PřF UP

Kde vyrostl první fylogenetický strom? Charles Darwin (1809 1882) na základě fosilního záznamu Darwinův deník 1837, http://www.icr.org/article/darwins-evolutionary-tree-annihilated/ Schéma vysvětlující základní princip biologické evoluce z Darwinovy knihy O původu druhů Evoluce (přesněji biologická evoluce) je dlouhodobý a samovolný proces, v jehož průběhu se rozvíjí a diverzifikuje pozemský život

Fylogenetický strom grafické znázornění příbuzenských vztahů mezi různými taxonomickými jednotkami, o nichž lze předpokládat, že mají společného předka Příbuzenské vztahy se zde posuzují na základě morfologické či genetické podobnosti Místo taxonomických jednotek mohou v některých stromech vystupovat přímo jednotlivé biologické druhy nebo i jednotlivé geny V závislosti na typu fylogenetického stromu může délka hrany udávat dobu vývoje nebo míru podobnosti mezi příslušnými taxonomickými jednotkami Při tvorbě fylogenetických stromů se vychází z údajů o podobnosti mezi jednotlivými taxonomickými jednotkami Vychází ze sekvencí bází v genomech jednotlivých biologických druhů, případně lze použít i informace o příslušných aminokyselinových a proteinových produktech Na základě těchto dat je možné určit genetické vzdálenosti mezi jednotlivými dvojicemi taxonomických jednotek

Nezakořeněný strom - znázorňuje vztahy mezi taxonomickými jednotkami, aniž by specifikoval jejich společného předka Zakořeněný fylogenetický strom je strom, u kterého byl jeden z vnitřních vrcholů označen jako kořen -reprezentuje společného předchůdce všech taxonomických jednotek znázorněných stromem Ze zakořeněného stromu je možné kdykoliv zkonstruovat nezakořeněný strom pouhým zrušením označení kořene, opačný postup je možný pouze s dodatečnými informacemi o průběhu evoluce

Popis fylogenetického stromu Clade klad Root kořen http://watchingtheworldw akeup.blogspot.cz/2009_1 1_01_archive.html Node uzel Branch větev

Vztahy kladů taxony monofyletické s jediným společným předkem a zahrnující všechny jeho potomky, základním požadavkem na přirozené biologické taxony polyfyletické bez blízkého společného předka parafyletické, nezahrnující všechny potomky společného předka Žlutě znázorněna monofyletická skupina, zahrnující plazy a ptáky, tyrkysově parafyletická třída plazů a červeně polyfyletická skupina teplokrevných, zahrnující mimo jiné i ptáky.

Fundamentální podstata fylogenetiky Bodové mutace tranzice,změna purinu na purin nebo pyrimidinu na pyrimidin (C T, T C, A G, G A) transverze, změna purinu na pyrimidin nebo naopak (A T, T A, C A, A C, G T, T G, G C, C G) delece (ztráta nukleotidu) inzerce (vložení nukleotidu) Teorie neutrální evoluce Kimura (1968) evoluce většiny genů je zapříčiněna fixací neutrálních mutací (Kimura, 1983). Adaptivní mutace, přestože se vyskytují s velice malou četností, se mohou na evoluci genových sekvencí rovněž výraznou měrou podílet, protože jsou fixovány nejen působením náhodného genetického driftu, ale i přímé pozitivní selekce na úrovni proteinů. (Endo et al., 1996) Předpoklad homologie genů Historická homologie ortologie kdy se stejný znak u několika druhů odvozuje ze společného předka x biologická hom. paralogie, kdy existují dva homologické znaky na jednom jedinci: příkladem jsou hmyzí tykadlo a hmyzí noha, které se vyvinuly ze stejného základu homoplasie konvergentní evoluce podobnosti v sekvencích či tvarech nebo v jejich životní historii, což ale nelze vysvětlit z jejich rodokmenu - podobnosti v sekvenci či struktuře, kterou naprosto nelze označit za důsledek původu ze společného předka - podobnosti, které jdou napříč vývojovými stromy života

Multiple Sequence alignment- uspořádání do sloupců Přesný výpočet vzdálenosti mezi dvojicemi tax.jednotek vyžaduje nejprve vhodné zarovnání porovnávaných DNA sekvencí tzv. aligning - výpočetně velmi obtížnou úlohu v praxi se proto používá celá řada heuristických metod, které jsou schopny nalézt alespoň suboptimální řešení v přijatelném čase... U zarovnaných sekvencí je možné určit vzdálenost například na základě procenta odlišných bází mezi sekvencemi... Sofistikovanější metody se pokoušejí odhadnout počet mutací, které jsou zapotřebí pro přechod od jedné sekvence k druhé Pojem heuristický algoritmus se obvykle používá pro algoritmy, které neposkytují (matematické) záruky kvality řešení, případně kdy nevíme, zda heuristika uspěje.

Multiple Sequence alignment algoritmy Progressive alignment construction ClustalW Fylogenetický strom pro přesnější vyhledání podobných sekvencí Iterative method Muscle Podobné, ale je možné se vrátit zpět a alignment score vylepšit HMM Hidden Markov Chain Pravděpodobnostní metoda, přiřazování mezerám a kombinacím bází pravděpodobnosti

Metody konstrukce fylogenetických stromů Tyto metody vycházejí z matice distancí, která udává vzájemné vzdálenosti mezi všemi dvojicemi taxonomických jednotek, pro které konstruujeme fylogenetický strom Jako vzdálenost se v tomto případě používá genetickou vzdálenost UPGMA Neigbor joining Maximum parsimony Maximum likehood Molekulární hodiny

UPGMA (Unweighted Pair Group Method with Arithmetic mean) UPGMA, zjednodušeně Shlukovací analýza, je nejjednodušší algoritmickou metodou konstrukce fylogenetického stromu. Postup je následující: Nalézt v distanční matici nejmenší hodnotu (odpovídá dvojici taxonomických jednotek, které mají k sobě nejblíže) Příslušné taxonomické jednotky sloučit do jedné skupiny a spočítat vzdálenost této nové skupiny ke všem ostatním taxonomickým jednotkám Vzdálenost taxonomické jednotky T k této nové skupině S se spočítá jako aritmetický průměr vzdáleností mezi jednotkou T a všemi prvky skupiny S Skupinu S lze dále považovat za hypotetickou taxonomickou jednotku Pokud máme k dispozici více než jednu taxonomickou jednotku, opakovat postup od 1. kroku Znázorníme-li graficky postup shlukování v průběhu popsaného algoritmu, získáme požadovaný fylogenetický strom Hypotetická taxonomická jednotka, která vznikla jako poslední, je jeho kořenem http://www.southampton.ac.uk/~re1u06/teaching/upgma/

Neighbor joining Neighbor-joining Na začátku se vytvoří jeden hvězdicový strom, kde je jeden vnitřní vrchol, a všechny řešené taxonomické jednotky jsou reprezentovány pomocí listů Tento strom se postupně rozkládá shlukováním nejbližších taxonomických jednotek tak, aby se v každém kroku co možná nejvíce zmenšila celková délka stromu. Délka větví má informativní charakter star like iniciální strom - nody se sbíhají na základě podobnosti http://en.wikipedia.org/wiki/file:neighborjoining_7_taxa_start_to_finish.png

Maximum parsimony Nejmenší počet změn nejlépe vysvětluje data (Ockhamova břitva, 14. století) Pluralitas non est ponenda sine necessitate. tj. Množství (tj. důvodů, příčin) se nemá dokládat, není-li to nezbytné. Pokud pro nějaký jev existuje vícero vysvětlení, je lépe upřednostňovat to nejméně komplikované.. Pokud nějaká část teorie není pro dosažení výsledků nezbytná, do teorie nepatří. Vytvoření stromů a vypočítání skóre jak moc je strom parsimonní, vybráno maximálně parsimonní strom nejlepší skóre Analyzovány jsou jednotlivé změny v alignmentu NE distanční matrix 4 změny 5 změn 6 změn

Substituční modely Yang & Rannala (2012) Síla šipky označuje významnost substituce

Maximum likelihood vychází ze statistických metod a aposteriorní pravděpodobnosti Snaží se odhadnout, jaká je pravděpodobnost, že platí statistická hypotéza představovaná konkrétním fylogenetickým stromem pro data, která máme k dispozici. Metoda vyžaduje substituční model, na základě kterého určujeme pravděpodobnost jednotlivých evolučních změn (mutací). Strom, který pro vysvětlení dostupných fylogenetických dat potřebuje těchto změn více, bude mít menší věrohodnost než strom, který si vystačí s menším počtem změn Mimo toho si všímáme i délek jednotlivých větví. Každé místo v alignmentu určitá pravděpodobnost, podle modelu Totální pravděpodobnost je produktem místních Výsledný strom je takový, který má největší pravděpodobnost k daném substitučním modelu V průběhu analýzy převracení větví stromu a hledání maximum likelihood swapovací algoritmus

Molekulární hodiny Molecular clock hypothesis Zuckerkandl, Pauling (1962) a další Mutace v DNA probíhají konstantně v čase Předpoklad neutrální evoluce Kimura (1968) Počet mutací/časová jednotka, konstrukce fylogenetického stromu, odhad divergence druhů Dvořák et al. 2012, 16S rrna

Bootstrapping Statistické testy Jednotlivé sloupce alignmentu jsou resamplovány (počet opakování, obvykle více než 100) náhodně některé mohou být vynechány Konstrukce stromů Zastoupení nodů při jednotlivých opakování bootstrapp (0-100) významné nad 50 (70) Nejběžnější Jackknifing -probíhá analýza postupně jednotlivých částí datasetu bez vynechání

Fylogenetická síť Pro rekonstrukci evoluce bez bifurkace, kterou předpokládá fylogenetický strom Rekombinace, hybridizace, transfer genů Hlavně viry, bakterie, některé rostliny

Fylogenetická síť Dvořák et al. (2012) 16S-23S ITS

DĚKUJI ZA POZORNOST

Lidský genom

Lidský genom souhrn veškeré genetické informace zapsané v DNA uvnitř lidských buněk Homo sapiens sapiens - DNA uvnitř buněčného jádra a dále ovšem i v mitochondriích (tzv. mitochondriální DNA) 1990 spuštěn Human Genome Project, kladoucí si za cíl přečíst (osekvenovat) celou jadernou DNA člověka; tento projekt byl úspěšně završen v 2003 Do současnosti však již bylo osekvenováno několik genomů různých lidí, včetně biochemika Jamese Watsona Moderní metody sekvenace ovšem cenu dramaticky snížily a v současnosti je známa sekvence více než tisíce lidských genomů dříve byl počet lidských genů odhadován na 100 000, v současné době jsou kvalifikované odhady pětkrát nižší

Lidská jaderná DNA se skládá v haploidním stavu z asi 3,1 3,2 miliardy párů bází kdyby se seřadila jednotlivá vlákna za sebe, byla by vzniklá řada dlouhá asi jeden metr jaderná DNA obsahuje 20 25 tisíc genů, což je mimochodem počet genů srovnatelný například s hlísticí Caenorhabditis elegans počet nefunkčních genů (pseudogenů) představuje však dalších asi 20 000 záhadné geny kódující různé druhy malých RNA např. bylo odhaleno 800 genů pro microrna Lidé (Homo) se od evoluční linie šimpanzů (Pan), svých nejbližších příbuzných, oddělili před 5 až 7 miliony lety- hlavní změnou je splynutí dvou chromozomů, redukce z 48 na 46 -vznikl lidský chromozom 2 genom šimpanze a člověka -udává se, že je genetická informace z 95 99% zcela identická Za některé rozdíly mezi genomem člověka a šimpanze jsou zodpovědné převážně genové duplikace a v menší míře i substituce v rámci jednoho nukleotidu (SNP).

Soukromá společnost Celera použila k rychlému čtení lidského genomu velmi odvážný postup, při kterém je celá lidská DNA rozsekána na malé kousky po přečtení velmi výkonnými počítači se speciálními programy kompletovány do souvislé řady písmen genetického kódu Mezinárodní konsorcium vyšlo z pomalejší ale důkladnější metody čtení, při níž se v lidské DNA nejprve určí pevně orientační body a podle nich se pak jednotlivé přečtené úseky dávají dohromady První pohled do vyspraveného lidského genomu odhalil 1183 genů, které vznikly relativně nedávno tím, že si staré geny našich předků vytvořily kopii a ty postupem času začaly sloužit novému účelu Podobnému dublování podlehlo v evolučně nedávných dobách asi 5% lidské DNA Genetici narazili také na 37 čerstvých hrobů tedy míst, kde naši předci měli funkční geny, ale ty utrpěly těžká poškození a v naší dědičné informaci už nefungují

Když čtení lidské dědičné informace startovalo, věřili vědci v existenci až100 tisíc lidských genů. Většinou očekávali 50 tisíc genů (sázky) Z hrubého nárysu ale vyplývalo, že člověka dělá člověkem něco kolem 35 tisíc genů Poslední rozbory vyspravené verze - pouhých 20 až 25 tisíc genů, kukuřice může mít kolem 50 tisíc genů Tajemství lidské výjimečnosti zřejmě tkví v organizaci a souhře našich genů, ale zatím zůstávají z drtivé většiny nepoznány dnes sice známe některé geny, které našim předkům zcela jistě dopomohly k významným evolučním úspěchům, ale ani všechny dohromady by zjevně nestačily k proměně šimpanze v člověka. současné době jsou slušně rozečteni myš, potkan, šimpanz, makak rhesus, skot, pes, vačice a ptakopysk.rostliny, bakterie. V dohledné době - orangutan, gibbon, jihoamerická opička kosman a drobný madagaskarský lemur maki trpasličí. Ve frontě na přečtení své DNA rejsek, ježek, kočka, slon, pásovec, madagaskarský hmyzožravec bodlín či morče, jež možná nahradí některý z četných netopýrů...

DĚKUJI ZA POZORNOST