cluster clusters cluster cluster hierarchické klastrování: => strom je jedním z grafických znázornění hierarchického klastrování:

Podobné dokumenty
Typy fylogenetických analýz

Fylogeneze a diverzita obratlovců I.Úvod

Systém a evoluce obratlovců I.Úvod

Populační genetika III. Radka Reifová

Malcomber S.T. (2000): Phylogeny of Gaertnera Lam. (Rubiaceae) based on multiple DNA markers: evidence of a rapid radiation in a widespread,

Pravděpodobnost, náhoda, kostky

Pravděpodobnost, náhoda, kostky

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

2. Maximální úspornost (Maximum Parsimony, MP)

Základy fylogenetiky a konstrukce fylogenetických stromů

Teorie neutrální evoluce a molekulární hodiny

Teorie neutrální evoluce a molekulární hodiny

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy

Tribsch A., Schönswetter P. & Stuessy T. (2002): Saponaria pumila (Caryophyllaceae) and the Ice Age in the European Alps. American Journal of Botany

Populační genetika II

Využití DNA markerů ve studiu fylogeneze rostlin


matematika v biologii: fylogenetika David Černý

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

Jak se matematika poučila v biologii

Aplikace DNA markerů v mykologii a molekulárni taxonomii

Populační genetika II. Radka Reifová

1. seznámení s on-line databázemi, nástroji a softwarem (databáze, vyhledání sekvencí, základní manipulace se sekvencemi, navržení primerů)

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Pravděpodobnost vs. Poměr šancí. Pravděpodobnostní algoritmy: Bayesova věta. Bayesova teorie rozhodování. Bayesova věta (teorém) Vzorec. ...

Bayesovské metody. Mnohorozměrná analýza dat

Genetická diverzita masného skotu v ČR

Vícerozměrné statistické metody

Využití molekulárních markerů v systematice a populační biologii rostlin. 12. Shrnutí,

Paleogenetika člověka

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Vytěžování znalostí z dat

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Typologická koncepce druhu

MOLEKULÁRNÍ TAXONOMIE 10

Mgr. et Mgr. Lenka Falková. Laboratoř agrogenomiky. Ústav morfologie, fyziologie a genetiky zvířat Mendelova univerzita

Genetické algoritmy. Informační a komunikační technologie ve zdravotnictví

3) Analýza mtdna mitochondriální Eva, kdy a kde žila. 8) Haploskupiny mtdna a chromozomu Y v ČR

Nové směry v evoluční biologii. Jaroslav Flegr Katedra filosofie a dějin přírodních věd Přírodovědecká Fakulta UK Praha

Crossing-over. over. synaptonemální komplex

3) Analýza mtdna mitochondriální Eva, kdy a kde žila. 8) Haploskupiny mtdna a chromozomu Y v ČR

Pravděpodobnost Podmíněná p. Úplná p. III. Pravděpodobnost. III. Pravděpodobnost Statistika A (ZS 2015)

Rekonstrukce biogeografické historie: outline přednášky

Státnice odborné č. 20

Metody studia historie populací. Metody studia historie populací

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Jak měříme genetickou vzdálenost a co nám říká F ST

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Molekulární základy genetiky

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

World of Plants Sources for Botanical Courses

VK CZ.1.07/2.2.00/

Propojení výuky oborů Molekulární a buněčné biologie a Ochrany a tvorby životního prostředí. Reg. č.: CZ.1.07/2.2.00/

Prohledávání do šířky = algoritmus vlny

Genetika pro začínající chovatele

4. Úvod do kladistiky. kladogram podobnost a příbuznost homologie (sym)plesiomorfie, (syn)apomorfie polarizace znaků kritérium parsimonie

Binární vyhledávací stromy pokročilé partie

Využití metod strojového učení v bioinformatice David Hoksza

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Úvodem Dříve les než stromy 3 Operace s maticemi

Bioinformatika a výpočetní biologie. KFC/BIN VII. Fylogenetická analýza

5.1. Klasická pravděpodobnst

Chromosomy a karyotyp člověka

Mendelistická genetika

Úvod do optimalizace, metody hladké optimalizace

Taxonomický systém a jeho význam v biologii

Výuka genetiky na Přírodovědecké fakultě UK v Praze

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,

Inovace studia molekulární a buněčné biologie

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

BOOTSTRAPPINGOVÉ METODY VE FYLOGENETICE

Genetika zvířat - MENDELU

Tomimatsu H. &OharaM. (2003): Genetic diversity and local population structure of fragmented populations of Trillium camschatcense (Trilliaceae).

TEORIE PRAVDĚPODOBNOSTI. 2. cvičení

Pravděpodobnost a statistika (BI-PST) Cvičení č. 1

7. přednáška Systémová analýza a modelování. Přiřazovací problém

Cvičení ze statistiky - 4. Filip Děchtěrenko

Základní pojmy I. EVOLUCE

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Využití DNA sekvencování v

Genetické rozdíly mezi populacemi aneb něco o migracích a genovém toku. Genetické rozdíly mezi populacemi

Populační genetika Radka Reifová

Vztah genotyp fenotyp

Příbuznost a inbreeding

Propojení výuky oborů Molekulární a buněčné biologie a Ochrany a tvorby životního prostředí. Reg. č.: CZ.1.07/2.2.00/

Vícerozměrné statistické metody

Kameyama Y. et al. (2001): Patterns and levels of gene flow in Rhododendron metternichii var. hondoense revealed by microsatellite analysis.

Inovace studia molekulární a buněčné biologie

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Uvolňování parametrů v substitučních modelech (opakování z minula, trochu jinak)

Simulační modely. Kdy použít simulaci?

Odhady - Sdružené rozdělení pravděpodobnosti

Ústav teorie informace a automatizace. J. Vomlel (ÚTIA AV ČR) Úvod do bayesovských sítí 30/10/ / 28

1. Téma : Genetika shrnutí Název DUMu : VY_32_INOVACE_29_SPSOA_BIO_1_CHAM 2. Vypracovala : Hana Chamulová 3. Vytvořeno v projektu EU peníze středním

Operátory ROLLUP a CUBE

Řešení: PŘENESVĚŽ (N, A, B, C) = přenes N disků z A na B pomocí C

Moderní systémy pro získávání znalostí z informací a dat

oddělení Inteligentní Datové Analýzy (IDA)

Transkript:

Fylogenetika

klastrovat na základě podobnosti lze cokoliv, vůbec nemusí jít o evoluční záležitosti (= lidstvo potřebuje popisovat a škatulkovat), je to obecný matematický základ pro analýzy dat, data mining, atd. => pro studium evoluce pak vznikl obor fylogenetiky cluster hierarchické klastrování: clusters Clustering: group the data based on the similarities. = příklad z nebiologické praxe rozdělení zákazníků na skupiny dle parametrů nakupování => cílená reklama => strom je jedním z grafických znázornění hierarchického klastrování: cluster cluster

idea fylogenetického stromu (tj. evolučního), stromu života: Darwin, 1859: (mmch. jediný obrázek v jeho knize o původu druhů) Heckel, 1879: Tree of Life

fylogenetický strom = záznam evoluce zkoumaných taxonů: fylogeneze (to štěpení) vs. fylogenetika (přístup, který to zkoumá) kořen = společný předek všech kořen = společný předek všech

Typy fylogenetických stromů: sdělení těchto stromů je identické speciace kladogram (bez časové informace) ultrametrický strom (končí ve stejném čase = molek. hodiny) strom (s délkami větví)

programy pro práci s fylogenetickými stromy (formáty newick, nexus): závorková konvence: FigTree TreeView = A,B, C,D,E = (((A:1,B:1):1,(C:1,D:1):1):1.2,E:3.2) toto jsou v zásadě grafické clustery... = (((A,B),(C,D)),E) přidaná informace délka větví, nebo třeba podpora uzlů (dozvíme se dále)

náhled skutečného stromu:

rozřešený strom založen na dichotomickém větvení: reálný strom: polytomie => v uzlu, kde je polytomie nemáme dostatek informace abychom byli schopni vyřešit vztahy mezi potomky uzlu; jen velmi vyjímečně může jít o biologický jev (vyvinulo se více druhů najednou z 1 předka = např. adaptivní radiací)

znaky např. morfologie, anatomie, fyziologie, atd. může to být cokoliv apomorfie (nově odvozený znak, nese informaci o příbuznosti), funkčně jde o homologii naopak: např. mnohobuněčnost by byla tzv. pleziomorfie, tedy zděděným znakem od předků, který v tomto kontextu nemá žádnou informaci pro rekonstrukci evolucem jelikož ho nesou všichni

znaky např. morfologie, anatomie, fyziologie, atd. může to být cokoliv netopýr 1 1 1 1 1 1 0 0 1 0 0 1 netopýr přítomnost znaků bránice a srst nám pomůže odhalit to, že křídla nevznikla jednou, ale dvakrát (a tedy že nejsou homologní, ale je to tzv. homoplázie) křídla!!polarizace znaků co je ancestrální víme až poté co známe fylogenezi, založenou i na jiných znacích...

volba znaků je důležitá! vynecháme netopýr 1 1 1 1 1 1 0 0 1 0 0 1 netopýr křídla v tomto případě námi zvolená sada poskytuje špatnou fylogenetickou informaci, protože je založena na neodhalené homoplázii => a toto riziko je v našich datech vždy!!polarizace znaků co je ancestrální víme až poté co známe fylogenezi, založenou i na jiných znacích...

volba znaků je důležitá! netopýr 1 1 1 1 1 1 0 0 1 0 0 1 toto je tzv. matice znaků!!polarizace znaků co je ancestrální víme až poté co známe fylogenezi, založenou i na jiných znacích...

znaky molekulární = sekvence DNA alignment = seřazení do matice tvorba matice pro následné analýzy = srovnání sekvencí pod sebe... při alignmentu: program hledá nejlepší rozmístění, dostává body: za každou shodnou bázi plusové body, za každou mezeru mínus body, za otevření mezery speciální mínus body... => cílem je získat co nejvíce bodů!

metody výpočtu fylogenetických stromů: 1) distanční metody 2) maximální úspornost = parsimonie 3) maximální věrohodnost = likelihood 4) Bayesovské metody výpočtu

Distanční metody: UPGMA (Sokal & Michener 1958), Neighbor-Joining (Saitou and Nei, 1987) čistě hierarchické clusterování již částečné zanesení evoluční info o potenciálně odlišné rychlosti změn v různých větvích z DNA či morfologie: příklad

distanční metody výpočtu stromů: - výpočet vzdáleností každé sekvence od každé vznikne matice vzdáleností: nejmenší vzdálenost = spojení

distanční metody výpočtu stromů:

distanční metody výpočtu stromů: => matice se pak znovu přepočítá, králík+člověk se teď berou jako jeden taxon s průměrnou hodnotou

distanční metody výpočtu stromů: nezakořeněný strom: -nyní se vezmou druhy s nejmenší vzdáleností a spojí se, mají společnou vzdálenost a pokračuje se, dokud nejsou všechny druhy ve stromu...

zakořeněné a nezakořeněné fylogenetické stromy: pro zakořenění je nutné přidat druh, který nepatří do skupiny, tzv. outgroup, tj. zde např. druh, který není obratlovec...

zakořeněné a nezakořeněné fylogenetické stromy:

zakořeněné a nezakořeněné fylogenetické stromy: zakořeněné stromy: předek současnost předek současnost

co se stane, když zvolíme špatný outgroup?

co se stane, když zvolíme špatný outgroup?

všechno je totéž... rotace uzlů je volná a nemění smysl!

Metoda maximální parsimonie = maximální úspornosti - máme 3 zvířata: vlaštovka, netopýr a kočka - bez jakékoliv matice: existují 3 možné způsoby, jak si mohou být příbuzní: - maximální parsimonie = nejmenší počet změn znaků

- maximální parsimonie = nejmenší počet změn znaků: zdroj: Jan Zrzavý - evoluce

Metoda maximální parsimonie = maximální úspornosti vítězí scénář č. 1 5 změn 7 změn 8 změn

2) parsimonie jak distanční metoda, tak metoda maximální parsimonie zde dávají shodný strom evoluční čas

ACCTRAN/DELTRAN optimalizace pro situace, kdy je počet záměn stejný, ale jsou různé varianty ACCTRAN = preference změny co nejdříve DELTRAN = změna co nejpozději zpětná změna změna co nejdříve

problém: všechny stromy jdou udělat do max. 11 druhů... (2n 3)! 2 n-2 (n-2)! 3 taxony: (6-3)!/2(1)! = 6/2 = 3 stromy 6 taxonů: (12-3)!/2 4 (4)! = 945 stromů heuristický přístup když nelze prohledat všechno: 9 taxonů: (18-3)!/2 7 (7)! = 2 027 025 stromů exponenciální nárůst počtu potenciálních stromů 12 taxonů: (24-3)!/2 10 (10)! = 13 749 310 575 stromů => maximální počet, kdy je reálné prohledávat všechny kombinace je 11 taxonů

heuristický přístup když nelze prohledat všechno: není tedy možné prohlédnout všechny stromy, spočítat pro ně počty evolučních změn a vybrat ten nejlepší heuristické hledání stromů tj. - vytvoří se náhodný strom, - spočítají se evoluční změny, - náhodně se v něm přehodí dvě větve, - spočítají se evoluční změny - dál postupuje jen ten, který měl méně změn!!! atd. atd. - na konci řady je strom s nejméně změnami výběr náhodného stromu se opakuje několikrát, porovnání výsledných stromů - může být i několik nejlepších stromů - heuristický postup se uplatňuje u všech dalších metod, tj. nejen parsimonie, ale i max. likelihood a Bayesovském přístupu

metody výpočtu fylogenetických stromů: 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie více možných stromů, bereme konsensus 3) maximální věrohodnost = likelihood výsledkem 1 strom 4) Bayesovské metody výpočtu výsledkem 1 strom vč. statistické podpory tyto dvě metody jsou statisticky nejodvozenější, používají obecný statistický aparát nevyvinutý přímo pro fylogenetiku - existují myšlenkové školy, které uznávají jen první dvě metody, které mají dle nich jasné evoluční zadání: buď používám znaky a chci dosáhnout nejmenšího počtu změn, nebo dělám vzdálenosti (např. Willi Hennig Society, časopis Cladistics; jde rozhodně o menšinový názor, vadí jim i toto: - metoda 3 a 4 jsou momentálně nejodvozenější a nejčastěji využívané

metoda Maximum Likelihood = maximální věrohodnosti = pravděpodobnost pozorování našich dat za předpokladu, že platí náš model, P(D M) model = strom + parametry (více na dalším slidu) příklad s házením mincí: hodím 10x mincí. Jaká je pravděpodobnost (likelihood, L), že mi padne 5 x hlava a 5 x orel? L=(n!/(k!(n-k)!)) p k (1-p) n-k = 0.2461 n = počet hodů k = počet hlav p = pravděpodobnost pádu hlavy vs. orla (0.5) pokud by byla mince nesouměrná a měnila by se pravděpodobnost (p) padnutí hlavy, pak se zmenšuje i likelihood padnutí 5 hlav + 5 orlů paralela k fylogenezi: máme model (strom + parametry evoluce) a zkoumáme jaká je pravděpodobnost, že na ně budou sedět naše data testujeme postupně stromy (analýza tedy vezme 1 strom, spočítá L, pak vezme další, a pokud ten je lepší tak pokračuje s ním, pokud ne tak s původním) počet kroků = počet generací => vyhledáme tímto nejlepší strom N L = L(1) x L(2)... x L(N) = L(j) j=1 výsledný likelihood je součtem všech znaků znak1 = třeba nukleotidová pozice 1

evoluční model pro ML (ale i Bayesovskou analýzu): v modelu (paralela cinknutosti mince) jsou matematicky zainkorporovány: 1) pravděpodobnosti jednotlivých záměn (A->T, A->C, A->G, T->C, T->G, C->G), maximálně může být až šest různých pravděpodobností; (= šest různých substitučních typů) 2) poměry jednotlivých bází 3) poměr nevariabilních míst vůči variabilním 4) pravděpodobnost záměny jednotlivých pozic (např. morfologie stejná pro všechny znaky; DNA různá, např. dle pozic v kodónu atd.) 5) korekce distance (vychází i z bodu 3). to vše je vlastně popis evoluce DNA

purin pyrimidin purin pyrimidin transice je v datech mnohem častější než transverze, protože molekula je stabilnější a protože nevede tak často ke změně aminokyseliny, tedy zůstává v datech zachována

p-distance vs. g-distance pokus o optimální korekci; saturace AATGCCGTATCGCGTTAATTTGAGCGCTTTCGAT AATGCCATATCGCGTTAAGTTGAGCCCTATCGAT AAAGCCATATCGCATTAAGTTGAGCGCTATCGAT tato mutace nebude detekována, protože je zpětná, tedy změnila se na původní stav => saturované sekvence již nesou hodně šumu, saturované pozice pak málo fylogenetické informace. Nejčastěji jsou satuorvány 3. pozice kodónů. Model se snaží korigovat tento jev tím, že předpoví míru saturace

Bayesovská fylogenetika Bayesův teorém (Bayesova věta): Thomas Bayes (18. století) vymyslel statistickou metodu a tzv. Bayesův teorém pro nás uživatele je to mírně modifikovaná forma likelihoodu velmi zjednodušeně: Maximum Likelihood = pravděpodobnost dat ze stromu (modelu) BT = pravděpodobnost stromu/uzlu při datech = > využívá k výpočtu tzv. inverzní pravděpodobnost (také hledá nejlepší strom) P(A B) = P(B A)P(A) P(B) = pravděpodobnost jevu A za předpokladu, že platí B P(strom data) = P(uzel data) = P(data strom) P(strom) P(data) P(data uzel) P(uzel) P(data)

Bayesovská fylogenetika Bayesův teorém (Bayesova věta): odbočka = příklad pro vysvětlení Bayesovy věty: Mám 2 pytlíky s kuličkami. Pytlík 1 ( bílý ) obsahuje 3x více bílých, pytlík 2 ( černý ) - 3x více černých kuliček. Vyberu náhodně 1 pytlík. Vytáhnu 5 kuliček (vždy po vytažení každou vrátím). Výsledkem je 4 bílé a 1 černá kulička. Jaká je pravděpodobnost, že mnou vybraný pytlík byl bílý Pytlík (1)? data: 4x bílá, 1x černá otázka: s jakou pravděpodobností to byl bílý pytlík?: výběr pytlíku byl náhodný, tj. pravděpodobnost na počátku = 1/2 a priori = 1/2 P(BílýPytlík data) = P(data BílýPytlík) P(BílýPytlík) P(data) celkový součet všech možností, tj. Pstí pro data jak z bílého tak z černého pytlíku P(BílýPytlík data) = P(BílýPytlík data) = bílá kulička Pst pro data z bílého pytlíku P(data BílýPytlík) P(BílýPytlík) P(data BílýPytlík) P(BílýPytlík) + P(data ČernýPytlík) P(ČernýPytlík) P(data BílýPytlík) 1/2 P(data BílýPytlík) 1/2 + P(data ČernýPytlík) 1/2 P(data BílýPytlík) = 5 3/4 4 1/4 1 = 405/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku P(data ČernýPytlík) = 5 1/4 4 3/4 1 = 12/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku P(BílýPytlík data) = černá kulička 405/1024 1/2 405/1024 1/2 + 12/1024 1/2 = 0.964 (to je odpověď)

Bayesovská fylogenetika Bayesův teorém (Bayesova věta): odbočka = příklad pro vysvětlení Bayesovy věty: Mám 2 pytlíky s kuličkami. Pytlík 1 ( bílý ) obsahuje 3x více bílých, pytlík 2 ( černý ) - 3x více černých kuliček. Vyberu náhodně 1 pytlík. Vytáhnu 5 kuliček (vždy po vytažení každou vrátím). Výsledkem je 4 bílé a 1 černá kulička. Jaká je pravděpodobnost, že mnou vybraný pytlík byl bílý Pytlík (1)? data: 4x bílá, 1x černá otázka: s jakou pravděpodobností to byl bílý pytlík?: výběr pytlíku byl náhodný, tj. pravděpodobnost na počátku = 1/2 a priori = 1/2 P(BílýPytlík data) = P(data BílýPytlík) P(BílýPytlík) P(data) celkový součet všech možností, tj. Pstí pro data jak z bílého tak z černého pytlíku P(BílýPytlík data) = Pst pro data z bílého pytlíku P(data BílýPytlík) P(BílýPytlík) P(data BílýPytlík) P(BílýPytlík) + P(data ČernýPytlík) P(ČernýPytlík) celé je to krásná paralela pro naše P(data BílýPytlík) hledání optimálního 1/2 stromu: teď si představte, že P(BílýPytlík data) = pytlíky jsou různé alternativní topologie uzlů (tedy např. různé kombinace druhů v uzlu). P(data BílýPytlík) 1/2 + P(data ČernýPytlík) 1/2 bílá kulička Máme tedy naše data (třeba černá sekvence kulička DNA, nebo sadu morfologických znaků) a ptáme P(data BílýPytlík) = 5 3/4 4 1/4 1 = 405/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku P(data ČernýPytlík) = 5 1/4 4 3/4 1 = 12/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku se: jaká je pravděpodobnost, že platí jeden z uzlů na základě našich dat? Analýza jede pro každý uzel ve stromu a 405/1024 pravděpodobnosti 1/2 = likelihoody se pak sčítají... (jen je to o P(BílýPytlík data) = = 0.964 (odpověď) něco složitější i zde vstupují další parametry evolučního modelu, jako u ML metody) 405/1024 1/2 + 12/1024 1/2

heuristické hledání v Bayesovské analýze: hledání provádějí tzv. Markovovy řetězce (Markov-chain Monte Carlo) krok 1: máme 4 řetězce, které se vydaly hledat do krajiny nejlepší strom... hledání je opět heuristické, tedy zkusím strom, spočítám jeho L, zkusím další, posunu se pouze, je-li nový strom lepší... větší likelihood = adaptivní krajina, tedy vizualizace optimálních stromů čím výše, tím vhodněji strom odpovídá datům, algoritmus analýzy krajinu postupně prohledává (a samozřejmě neví, co je kde za kopce a údolí )

1 řetězec je studený tzn. konzervativní, posune se pouze nahoru tedy pokud je další strom lepší 3 řetězce jsou teplé tzn. mohou se vrátit i dolů + skáčou náhodně na jiná místa teplé řetězce volají studeného, pokud najdou lepší strom = vyšší vrcholek, než na které se usídlil studený větší likelihood větší likelihood

heuristické hledání v Bayesovské analýze: větší likelihood héééj

heuristické hledání v Bayesovské analýze: při dostatečném počtu generací (tj. hledacích kroků) najde studený řetězec nejvyšší vrchol v krajině, tj. strom s nejlepším Likelihoodem.!!problém uvíznutí v lokálním maximu je rizikem všech typů analýz, které využívají heuristický přístup (tedy nemají možnost projít všechny potenciální stromy).

likelihood dostatečný počet generací + několik nezávislých běhů je důležitý po čase je vrchol nalezen a čím je vyšší než ostatní, tím lépe bude náš výsledek podpořen => tedy Baysovská analýza probíhá vždy na dostatečném počtu generací, které časem konvergují ke shodnému nálezu ; počáteční fázi potom z výsledků vyhazujeme: 2 milióny generací

statistické podpory míra důvěryhodnosti topologie; bootstrapování a BPP statistická podpora existence uzlu

likelihood statistické podpory BPP = Bayesian Posterior Probability Bayesovská analýza zpracuje všechny stromy v plateau fázi = kolik % stromů obsahuje daný uzel 2 milióny generací

statistická podpora bootstrapování využívá se pro metody Maximální parsimonie a Max. Likelihood jaká je statistická podpora jednotlivých uzlů?

statistická podpora bootstrapování představte si situaci, kdy je některý uzel podpořen téměř všemi znaky, a jiný jen některými, které zrovna převáží...

1 2 bootstrap1.jpg 3

Bootstrap - pseudomatice:

Bootstrap výsledný strom: v kolika % z 1000 stromů z pseudomatic se uzel vyskytl? morfologie i DNA některé znaky se opakují a jiné se do pseudomatice nedostanou, během 1000 opakování by mělo padnout dostatečné množství kombinací pokud je topologie (=uzel) založena jen na málo znacích, bude podpora bootstrapu malá (pravděpodobnost, že se vylosují tyto znaky do pseudomatice je menší než když je topologie založena na mnoha znacích napříč datasetem).

potenciální problémy: přitahování dlouhých větví - long-branch attraction:

evoluční historie není vždy přímočará...

molekulární fylogeneze založená na sekvenci DNA různých genů: - máme-li více genů, pak můžeme buď všechny sekvence jednoduše spojit za sebe (=konkatenovat) nebo počítat strom pro každý gen zvlášť - počítat zvlášť je správnější poté se udělá konsensus z jednotlivých genů gene trees vs. species tree:

fylogenomika = fylogenetika na celých genomech! topologie se může měnit podél chromozomů Neurospora detekce introgrese a nerekombinujícího úseku v genomu Martin, S. H., & Van Belleghem, S. M. (2017). Exploring evolutionary relationships across the genome using topology weighting. Genetics, 206(1), 429-438.

fylogenomika = fylogenetika na celých genomech! topologie se může měnit podél chromozomů Martin, S. H., & Van Belleghem, S. M. (2017). Exploring evolutionary relationships across the genome using topology weighting. Genetics, 206(1), 429-438.

alternativní topologie podpořené různými částmi genomu: Johansson, Frank, et al. "Phylogeography and larval spine length of the dragonfly Leucorhinia dubia in Europe." PloS one12.9 (2017): e0184596.

hybridizace vede k introgresi a k smíšenému signálu z genomu: celá teorie za fylogenetikou předpokládá, že druhy vznikají bifurkací a pak se nekříží, pak už tedy záleží, co chceme ukázat (tedy - ukázat 1 strom by byl problém) Martin, Simon H., et al. "Genome-wide evidence for speciation with gene flow in Heliconius butterflies." Genome Research23.11 (2013): 1817-1828. hybridizace => křížení způsobí, že se genomový signál namíchá, polovina genomu podporuje jinou topologii

co hybridní druhy? nebo dokonce celé množství druhů, které vznikly díky hybridizaci?? - revoluční metody v sekvenaci DNA (next-generation sequencing) nám umožnily studovat celé genomy rutinně, tedy teď začínají vycházet najevo zákonitosti, které jsme neznali... celá druhová diverzita cichlid z jezera Viktoria vznikla pravděpodobně díky počáteční hybridizaci 2 vzdáleně příbuzných linií, z Konga a z Nilu genomy různých druhů jsou různé mozaiky Meier, Joana I., et al. "Ancient hybridization fuels rapid cichlid fish adaptive radiations." Nature Communications 8 (2017).

co hybridní druhy? nebo dokonce celé množství druhů, které vznikly díky hybridizaci?? - revoluční metody v sekvenaci DNA (next-generation sequencing) nám umožnily studovat celé genomy rutinně, tedy teď začínají vycházet najevo zákonitosti, které jsme neznali... celá druhová diverzita cichlid z jezera Viktoria vznikla pravděpodobně díky počáteční hybridizaci 2 vzdáleně příbuzných linií, z Konga a z Nilu bude asi nutné akceptovat, že pro tyto ryby (a všechny ostatní, u kterých se ukáže něco podobného) nebudeme nikdy mít jeden klasický fylogenetický strom, ale fylogenetický přístup se stále bude používat např. při zkoumání jednotlivých genů a jejich funkcí (a důvodu proč byla vyselektována zrovna tato varianta...), atd. genomy různých druhů jsou různé mozaiky Meier, Joana I., et al. "Ancient hybridization fuels rapid cichlid fish adaptive radiations." Nature Communications 8 (2017).

schéma fylogeneze citrusů (přírodních forem) a jejich kříženců (vyšlechtěných)

fylogenetické sítě = phylogenetic networks zobrazují vztahy ne jako strom (tedy rozdvojováním a společným uzlem vždy pro 2 taxony), ale jako síť, kde jeden uzel může mít více výstupů, a zároveň každý taxon může být zapojen ve více uzlech jsou tam mezistavy, tedy nepozorované, ale předpověděné uzly

haplotypová síť: - každá spojnice spojuje haplotypy lišící se jedinou mutací - velikost kruhu = počet jedinců íťové propojení nepozorovaný, ale předpovězený haplotyp fylogeografický vzor u sekavce C. strumicae z Balkánu

haplotypová síť lidská mtdna: Gandini, Francesca, et al. "Mapping human dispersals into the Horn of Africa from Arabian Ice Age refugia using mitogenomes." Scientific reports 6 (2016): 25472.

fylogenetické sítě = phylogenetic networks Gouzelou, Evi, et al. "Genetic diversity and structure in Leishmania infantum populations from southeastern Europe revealed by microsatellite analysis." Parasites & vectors 6.1 (2013): 342.

cichlidy z kráterového jezera Barombi Mbo v Kamerunu: Myaka myaka Sarotherodon caroli Sarotherodon linnellii pravděpodobně stále probíhající genový tok nebo velmi mladá speciace situace na počátku evoluce této skupiny nejasná, šlo pravděpodobně o rychlou adaptivní radiaci Sarotherodon lohbergeri Stomatepia mongo Sarotherodon steinbachi Konia eisentrauti Stomatepia pindu speciace se vznikem tří druhů nebo 2 speciace velmi rychle po sobě, nedetekovatelné daty Pungu maclareni Konia dikume RAD-seq (9280 SNPs) Stomatepia mariae SplitsTree4: NeighbourNet

potenciální zdroj chybného či zavádějícího signálu genová duplikace (o které nevíme) je tedy kritické nespojovat alfu a betu dohromady, což ale často nevíme! = je nutné dávat pozor když vyrábíme dataset a hledáme v něm homologie

některé geny mají velké množství kopií: hemoglobinový cluster tilápie: 7x hemoglobin beta a 12x hemoglobin alfa = těžké určit co je s čím homologní napříč druhy...

genová konverze jev probíhající většinou na genových duplikátech v rámci jedince! jde o jakýsi horizontální přenos, takže genetická informace např. mezi velmi starými kopiemi genů (např. vzniklých u předka všech obratlovců) se promíchá... chyba v rekombinaci

molekulární hodiny, fosílie a ultrametrické stromy běžný strom používá délku větví k znázornění rychlosti evoluce (např. mutací) skutečný evoluční čas ideální je fosílie co nejblíže kořenu stromu, jinak jsou odhady s velkými konfidenčními intervaly fosilní taxony jejchž stáří známe použijeme pro kalibraci, příp. přímo zařadíme do matice

díky molekulárním hodinám jsme pak schopni interpretovat například vznik nějakého znaku, atd. zde například určitý vzor v retrotransposonech fosílie

jiný typ molekulárních hodin: virová evoluce, koncové větve nekončí stejně chřipkový virus a rezistence na něj