Pokročilé metody hodnocení sekvencí DNA multilokusových dt 1. Anlýz sekvenčních dt - I úprv lignmentu [Mfft, BioEdit, MEGA,] detekce rekombinntů [Splitstree, GARD, RDP3] testování vhodných modelů evoluce sekvencí [PAUP, Modeltest, jmodeltest, PrtitionFinder] testování fylogenet. signálu v dtech sturce sekvencí [G-blocks, SiteStripper, SOAP, Tree-Puzzle] prktická část - příprv sekvenčních dt pro fylogenetickou nlýzu n příkldovém souboru dt
Sekvenování DNA určení pořdí nukleotidů v řetězci DNA potřeb specifických primerů pro PCR mplifikci sekvenovného úseku klsicky - využití utomtických sekvenátorů fluorescenční znčení bzí ABI prism 3130 moderně - různé metody tzv. Next genertion sequencing [454, Illumin,...] velké množství dt, stává se výhodné cenově i čsově
K čemu jsou dobrá sekvenční dt? rekonstrukce evoluce systemtik n různých úrovních (kódující vs. nekódující úseky, ndna vs. cpdna) mezidruhové vzthy v rámci rodu vnitrodruhová fylogeogrfie (definice hplotypů) hybridizce - zjištění mteřského/otcovského txonu (cpdna hploty vs. jderné sekvence) EVOLUCE FYLOGEOGRAFIE TAXONOMIE x dcic ovirensis ttric gemmifer
jedn nebo více kopií genu Co proč sekvenujeme?
Chrkteristik genomů Lowe et l., 2004
když už jsme se rozhodli, co budeme sekvenovt máme dt... FASTA file *.fs >73477recli4 _ A CATTGTTGAGAGAGCACAGAATA- ATGGATGATTGTGAATGTGT- GAACGTGACCCTTTCGTTCGGTC- GAAGAGCGGGTAGTCGGTAATCGTC- GAGCACGATGGACGTTGGTCGTCGC- GAAC >73477recli5 _ A CATTGTTGAGAGAGCACAGAATA- ATGGATGATTGTGAATGTGT- GAACGTGACCCTTTCGTTCGGTC- GAAGAGCGGGTAGTCGGTAATCGTC- GAGCACGATGGACGTTGGTCGTCGC- GAAC >73477recli3 _ R CATTGTTGAGAGAGCACAGAAT- GATGGATGATTGTGAATGTGTG- GAATCAAATGACTCTCGGCAATG- GATATCTCGGCTCTTGCATCGAT- GAAGAACGTAGTG ALIGNMENT *.fs, *.ln mnuální editce ALIGNMENTu BLAST struktur studovného úseku - exon vs. intron testování modelů evoluce DNA detekce REKOMBINANTů *.nexus, *.phy, *.fs,... testování fylogenetického signálu hplotypové sítě Mximum prsimony sturce sekvencí rekonstrukce fylogenetických vzthů pomocí ML Byesovských metod
Alignment jeho editce tvorb lignmentu = zrovnání primárních sekvenčních dt uložených (nejběžněji) ve FASTA formátu - různé progrmy - mfft, ClustlX, Muscle editce lignmentu - PROČ? - odstrnění šumu v primárních sekvencích (chyby polymerázy, kvlit sekvencí, vícenásobný signál) - struktur sekvenovného úseku (npř. detekce hrnic exonů intronů) - kódování indelů editce lignmentu - JAK? - zodpovědně :) - porovnání s primárními dty ze sekvenátoru >73477recli4 _ A CATTGTTGAGAGAGCACAGAATAATGGATGATTGTGAATGTGTGAACGT- GACCCTTTCGTTCGGTCGAAGAGCGGGTAGTCGGTAATCGTCGAGCAC- GATGGACGTTGGTCGTCGCGAAC >73477recli5 _ A CATTGTTGAGAGAGCACAGAATAATGGATGATTGTGAATGTGTGAACGT- GACCCTTTCGTTCGGTCGAAGAGCGGGTAGTCGGTAATCGTCGAGCAC- GATGGACGTTGGTCGTCGCGAAC >73477recli3 _ R CATTGTTGAGAGAGCACAGAATGATGGATGATTGTGAATGTGTGGAAT- CAAATGACTCTCGGCAATGGATATCTCGGCTCTTGCATCGATGAAGAAC- GTAGTG Litertur Popp & l., 2005 Simmons & Ochoteren, 2000 PROGRAMY Seed - odkzy n web?? Mfft BioEdit, MEGA SeqStte
Mnuální editce lignmentu chyb polymerázy nebo utpomorfie? -> může vnášet zbytečný šum inserce-delece (tzv. indel) -> gp - v ML MrByes = missing dt -> pro MP lze kódovt jko pátý znk, nebo podle jiné zákonitosti (npř. simple-indel coding) hypervribilní poly úseky -> lepší odstrnit celý blok
Detekce rekombinntů kde proč vznikjí rekombinnti? - In vitro - PCR rekombince - formování chimeických sekvencí z rozdílných templátů DNA - In vivo - intergenomické interkce po sjednocení odlišných genomů ve společném jádře - nejčstěji ve vícekopiových genech s nedokončenou concerted evolution (npř. ITS) proč nám vdí? - vnáší šum do nlyzovného dtsetu, podobně jko hybridi jk je njít? - vizuální inspekce lignmentu, progrmy co s nimi? - odstrnit, přípdně nlyzovt dv seprátní dtsety (bez s rekombinnty) Litertur Koskovsky Pond et l., 2006, Mrtin et l., 2005 Anthony et l. 2007 Russell et l., 2010 Posd nd Crndll, 2001 PROGRAMY užitečné odkzy Splitstree GARD RDP3 http://www.splitstree.org/ http://www.dtmonkey.org/ http://web.cbio.uct.c.z/~drren/rdp.html http://sequenceconversion.bugco.com/converter/biology/sequences/fst_to_nexus.php
Detekce rekombinntů - od ok + Splitstree modelová dt - sekvence ITS (multi-copy chrkter) - jedinci s intrindividuální vribilitou sekvencí nutné klonování - během opkovných PCR i připrozeně v rámci genomu - vznikjí rekombince npř. intrindividuální vribilit v rámci 6x jedince 73477 - pozorujeme 3-5 lel - které jsou původní? Splitstree - odhluje protichůdné informce v rámci dtsetu hybrid vizulizován jko vrchol kosočtverce po odstrnění hybrid - lineární struktur/strom
Detekce rekombinntů - GARD součást blíku HyPhy (Hypothesis testing using Phylogenies) nlýzy online - http://www.dtmonkey.org/ využívá srovnání topologie stromů vhodnější n delší vribilnější úseky - schopnost detekovt rekombince vzrůstá s mírou divergence sekvencí (Koskovsky Pond et l. (2006) detekuje místo rekombince, rozdělí dtset n X inkongruentních neoznčí jedince, kteří inkongruenci způsobují lterntivní využití (!?) - test inkongruence dtsetů (npř. ndna vs cpdna)
Detekce rekombinntů - RDP3 RDP3 - progrm zhrnující min 7 metod nlýz rekombinntních dt nlýz rekombinntů proti rodičovským sekvencím detekce rekombinntů de novo podobně jk GARD spolehlivější při vyšší divergenci v dtech pro kždý dtset nutno nstudovt vhodnou metodu dle dokumentce! Alterntivní využití? Detekce hybridů v konktenovném dtsetu ndna cpdna úseků
Modely evoluce DNA modely chrkterizující evoluci DNA pomocí několik prmetrů - frekvence bzí - typy substitucí (trnzice, trnzverze) jejich rychlosti - heterogenit rychlosti substitucí n různých pozicích Vhodně zvolený model je klíčový při výpočtech věrohodností topologií fylogenetických stromů pomocí prvděpodobnostních metod (npř. Mximum likelihood nebo Byesovská nlýz) Zvyšujúci s počet prmetrov modelu A G T C F81 rovnké rýchlosti substitúcie; nerovnké frekvencie báz A T A T A e b b c d G C G C G b JC rovnké rýchlosti substitúcie; rovnké frekvencie báz tv A T ti b b G C K2P dve rôzne rýchlosti substitúcie; rovnké frekvencie báz HKY dve rôzne rýchlosti substitúcie; nerovnké frekvenciebáz GTR 6 rôznych rýchlostí substitúcie; nerovnké frekvenciebáz c 5 klsických modelů (JC, K2P, HKY,...GTR) ž 56 různých modelů celkem jk zjistíme, který model vystihuje nše dt nejlépe? - otestujeme jeden podruhém (získáme log likelihood scores) - porovnáme je pomocí AIC/hLRT, bychom dostli nejoptimálnější model PROGRAMY Modeltest, jmodeltest MrModeltest PAUP, MEGA PrtitionFinder
testování modelů evoluce DNA - prtitions odvození struktury studovného úseku - kódující nekódující úseky mutují jink, potřeb jiný model lignment nšeho dtsetu s notovnou sekvencí z GB => notce nšeho dtsetu cpdna, gen: mturse K exon (811-2358 bp) intron (1-810 & 2359-2651 bp) ndna, gen: DCS (CHS) Intron exon (1-567 & 661-1063 bp) Intron (568-660 bp)
testování modelů evoluce DNA - Modeltest, MrModeltest & jmodeltest prktický pomocník pro výpočet likelihood jednotlivých modelů - MrMtGui, lterntiv je jmodeltest MrMtGui propojen s - PAUP - výpočet likelihood pro jednotlivé modely - Modeltest - vyhodnocení, který model je pro dná dt nejvhodnější - výstup pro ML - MrModeltest - podobně jko Modeltest, le porovnává jen vybrné modely - výstup pro MrByes Run PAUP (výběr souboru *.nex) sve scores select file (*.scores) (Mr)Modeltest! zkopíruj příkzy pro MrByes (nebo ML) [! MrByes settings for the best-fit model (HKY+I+G) selected by AIC in MrModeltest 2.3] BEGIN MRBAYES; Lset nst=2 rtes=invgmm; END; Prset sttefreqpr=dirichlet(1,1,1,1);
testování modelů evoluce DNA - PrtitionFinder testuje, které úseky dtsetu mjí podobný model evoluce rozdělíme dtset n nejvíce možných prtition - kódující sekvence (seprátně 1., 2., 3. pozice), nekódující PrtitionFinder otestuje, kolik z původních prtition má smysl rozeznávt PrtitionFinder je python script - je potřeb mít instlovný Python spouští se příkzem vstupní soubory - sekvence ve PHYLIP formátu (*.phy) - definice prtition v dtsetu příkzy pro PF (*.cgf)
Testování fylogenetické struktury v dtech Jká je mír fylogenetické informce šumu v dtech? 1) Likelihood mpping - porovnání prvděpodobností ML topologií čtyř vybrných sekvencí (kvrtetů) - Rozdíl v prvděpodobnostech je zobrzen pomocí vektoru P uvnitř rovnostrnného trojúhelníku
Testování fylogenetické struktury v dtech Jká je mír fylogenetické informce šumu v dtech? 2) g1 sttistik - Distribuce délek MP stromů u náhodně vygenerovných sekvencí je symetrická - U fylogeneticky strukturovných dt je distribuce délek MP stromů dolev zkosená - g1 sttistics of skewness vypočtená hodnot udává směr (-/+) míru zkosení
Testování fylogenetické struktury v dtech 1) Likelihood mpping - Porovnání fylogenetické struktury u tří vybrných genů (SSU, psa, coxiii) - Sekvence ve formátu Phylip - progrm Tree Puzzle 2) g1 sttistik - Porovnání distribuce délek stromů u tří vybrných genů (SSU, psa, coxiii) - Sekvence ve formátu Nexus - progrm PAUP n generování stromů - R, přípdně Excel n vypočtení hodnoty g1 - Hodnoty g1 menší než -0.09 poukzují n sttisticky význmné levé zešikmení distribuce délek MP stromů (P = 0.01) PROGRAMY Tree Puzzle PAUP R Excel
Substituční sturce sekvencí Jká je mír šumu v dtech, způsobená substituční sturcí? Substituční sturce - některé pozice v lignmentu prošly během evoluce několik substitučními změnmi - protože sekvence mjí pouze 4 stvy, čsem u nich dochází ke stochstickému hromdění šumu. - sturovné pozice mohou tvořit většinu vribility v dtech - velký problém obzvlášť pro MP nlýzy! 1) Sturční křivky - Porovnání jednoduchých sekvenčních distncí distncí spočítných n zákldě substitučních evolučních modelů
Substituční sturce sekvencí Jká je mír šumu v dtech, způsobená substituční sturcí? 2) Site stripping - odstrnění sturovných pozic z lignmentu sekvencí
Substituční sturce sekvencí 1) Sturční křivky - porovnání sturcí různých kodónových pozic v genu rbcl - lignment ve formátu Nexus - progrm PAUP pro vypočtení distncí 2) Site stripping - odstrnění sturovných pozic - lignment ve formátu Fst - progrm MEGA n vypočtení rychlého MP stromu - progrm HyPhy n spočítání substitučních rychlostí - prostředí Perl skript sitestripper.pl pro odstrnění sturovných pozic PROGRAMY PAUP R (Excel) MEGA HyPhy Perl SiteStripper
Prktické cvičení Cílem - připrvit sekvenční dt pro fylogenetickou nlýzu některým z progrmů pro ML nebo Byes (i MP) 1) Editce lignmentu - vytvořte mnuálně uprvte lignment (porovnejte s rw dt), uložte jko *.fs (přejmenujte) - určete zznmenejte strukturu strudovného úseku (stčí kódující vs. nekódující). Využijte BLASTu k nlezení nejpodobnější notovné sekvence, kterou přidejte do svého dtsetu, znovu lignujte podle notovné sekvence odvoďte strukturu všich sekvencí. - původní lignment konvertujte do formátu NEXUS Phylip pomocí webové plikce https://pp. bugco.com/converter/biology/sequences/ příkldové DATASETY <- CHS_complete.fs (ndna) <-složk CHS_rw_dt <- mtk_zingibercee.fs 2) testování modelů evoluce - použijte vytvořený Nexus soubor znlyzujte ho pomocí jmodeltest (jediná prtition pro kódující i nekódující oblst). Vytvořte dv dlší soubory Nexus rozdělením původního lignmentu n kódující nekódující oblst znovu nlyzujte v jmodeltest. - uprvte soubor prtition_finder.cfg (nejlepe v nějkém textovém editoru, npř. NotePd) pro vše dt znlyzujte formát Phylip progrmem PrtitionFinder - porovnejte nvržené modely pro celkový dtset dtset kódujících nekódujících oblstí. <-CHS_complete_outgroup_PKS.fs <-mtk_zingibercee_ln_s_gb_ sekvenci.fs <- CHS_exon_only.phy <- prtition_finder.cfg 3) testování fylogenetické struktury v dtech - pomocí likelihood mpping g1 sttistiky otestujte míru fylogenetického signálu v dtech <-chryso_rbcl1(2,3).fs <-chryso_rbcl1(2,3).nex 4) otestovt zhodnotit míru sturce sekvenčních dt - pomocí sturčních křivek site stripping určete míru substituční sturovnosti sekvencí <-Micrsteris_cox.nex <-Micrsteris_cox.phy <-Micrsteris_ps.nex
Prktické cvičení - porovnání výsledků - diskuze testování modelů evoluce -jk se liší modely evoluce pro dtsety z různých komprtmentů (ndna, cpdna, mtdna)? jsou nvržené modely pro tyto úseky stejné z progrmů jmodeltest, MrModeltest PrtitionFinder? u kterých dtsetů je vysoká mír sturce sekvencí?... N příště: - uschovt si lignovné soubory (kódovné vs. nekódovné; s IUPAC vs. bez IUPAC, s missing dt vs. bez) - vytvořit si vstupní soubory pro ML, MrByes MP