2. Maximální úspornost (Maximum Parsimony, MP)

Podobné dokumenty
STATISTICKÉ ODHADY Odhady populačních charakteristik

Systém a evoluce obratlovců I.Úvod

Fylogeneze a diverzita obratlovců I.Úvod

Malcomber S.T. (2000): Phylogeny of Gaertnera Lam. (Rubiaceae) based on multiple DNA markers: evidence of a rapid radiation in a widespread,

7. Rozdělení pravděpodobnosti ve statistice

Typy fylogenetických analýz

4. Aplikace matematiky v ekonomii

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Kombinatorická minimalizace

8 Coxův model proporcionálních rizik I


4. Úvod do kladistiky. kladogram podobnost a příbuznost homologie (sym)plesiomorfie, (syn)apomorfie polarizace znaků kritérium parsimonie

KGG/STG Statistika pro geografy

Diferenciální rovnice 3

Binární vyhledávací stromy pokročilé partie

Vyvažování zátěže na topologii přepínačů s redundandními linkami

Ilustrační příklad odhadu LRM v SW Gretl

Základy algoritmizace. Pattern matching

zpravidla předpokládá, že hodnoty intenzity poruch a oprav jsou konstantní.

Náhodné chyby přímých měření

Bankovní efektivnost Uvedení Metodologie Malmquistův index Přístupy k volbě proměnných pro výpočet efektivnosti

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Tabulka 1. Výběr z datové tabulky

Umělá inteligence II

z dat nasbíraných v letech Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme,

OHYB (Napjatost) M A M + qc a + b + c ) M A = 2M qc a + b + c )

Návrh Designu: Radek Mařík

4.3. GONIOMETRICKÉ ROVNICE A NEROVNICE

15. KubickÈ rovnice a rovnice vyööìho stupnï

Domény. Petr Štěpánek. S využitím materialu Krysztofa R. Apta

Normální (Gaussovo) rozdělení

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Interpolace, aproximace

4EK213 LINEÁRNÍ MODELY

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Pseudospektrální metody

Normální (Gaussovo) rozdělení

4EK213 LINEÁRNÍ MODELY

Extrémy funkce dvou proměnných

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

Statistická teorie učení

Jednofaktorová analýza rozptylu

Seznámíte se s principem integrace metodou per partes a se základními typy integrálů, které lze touto metodou vypočítat.

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

7 Regresní modely v analýze přežití

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE. Optimalizace trasy při revizích elektrospotřebičů

3 Bodové odhady a jejich vlastnosti

Úvod do logiky (VL): 5. Odvození výrokových spojek z jiných

Odhad parametrů N(µ, σ 2 )

Příklady k T 2 (platí pro seminární skupiny 1,4,10,11)!!!

Základy genetiky populací

Matematika I 2a Konečná pravděpodobnost

Logické programy Deklarativní interpretace

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Úvod do teorie informace

Matematika (a fyzika) schovaná za GPS. Global Positioning system. Michal Bulant. Brno, 2011

Čas potřebný k prostudování učiva kapitoly: 1,25 hodiny

You created this PDF from an application that is not licensed to print to novapdf printer (

12. Lineární programování

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Modely Herbrandovské interpretace

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Stanovení měrného tepla pevných látek

Informační a znalostní systémy

Negativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

11. Trhy výrobních faktorů Průvodce studiem: 11.1 Základní charakteristika trhu výrobních faktorů Poptávka po VF Nabídka výrobního faktoru

Křivky a plochy technické praxe

3. Úloha o společném rozhraní

Dynamicky vázané metody. Pozdní vazba, virtuální metody

cv3.tex. Vzorec pro úplnou pravděpodobnost

KVADRATICKÁ FUNKCE URČENÍ KVADRATICKÉ FUNKCE Z PŘEDPISU FUNKCE

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Vytěžování znalostí z dat

Přednáška 3: Limita a spojitost

Parametrické rovnice křivky

2.6. Koncentrace elektronů a děr

Jana Vránová, 3. lékařská fakulta UK

4. ZÁKLADNÍ TYPY ROZDĚLENÍ PRAVDĚPODOBNOSTI DISKRÉTNÍ NÁHODNÉ VELIČINY

9 Kolmost vektorových podprostorů

Ing. Alena Šafrová Drášilová, Ph.D.

Regresní analýza 1. Regresní analýza

AVDAT Klasický lineární model, metoda nejmenších

M - Příprava na 1. zápočtový test - třída 3SA

Kinetická teorie ideálního plynu

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Jiří Neubauer. Katedra ekonometrie FEM UO Brno

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

M - Příprava na pololetní písemku č. 1

Příklad. Řešte v : takže rovnice v zadání má v tomto případě jedno řešení. Pro má rovnice tvar

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Úvod do logiky (VL): 4. Zjištění průběhu pravdivostních hodnot formule tabulkovou metodou

1.1 Využití ukazatele EVA jako moderního konceptu pro hodnocení výkonnosti podniku PLAST, s.r.o.

3 Lineární kombinace vektorů. Lineární závislost a nezávislost

Transkript:

2. Maximální úspornost (Maximum Parsimony, MP) Ze všech metod konstrukce fylogenetických stromů byly donedávna nejpoužívanější metody maximální úspornosti (parsimonie). Důvodem pro jejich mimořádnou oblibu bylo kromě relativní jednoduchosti a výpočetní rychlosti především to, že základní princip parsimonie preferování jednodušších hypotéz před složitějšími je většině z nás důvěrně známý. Vychází z myšlenky anglického filozofa přelomu 13. a 14. století Williama z Ockhamu, že entity nemají být zmnožovány víc než je nutné, jinými slovy že nejjednodušší vysvětlení je nejlepší (tento princip je znám jako Ockhamova břitva). Jednoduchostí se v tomto případě rozumí minimální počet evolučních kroků; sdílení společných stavů znaků je vysvětlováno společným původem, naopak jakékoli sdílení společného stavu znaku, které nelze vysvětlit zděděním po společném předkovi, je označováno jako důsledek homoplazie (analogie, homoplasy). Princip úspornosti si můžeme ilustrovat na následujícím triviálním příkladu. Předpokládejme fylogenii pěti taxonů s topologií jako na obr. 2.1, která byla konstruována na základě série binárních znaků, u kterých je stejná pravděpodobnost změn 0 1 i 1 0. Stavy tří z těchto znaků pro jednotlivé taxony jsou následující: Taxon Znaky I II III A 1 0 1 B 0 0 1 C 1 0 0 D 0 1 0 E 1 0 1 a) b) c) Obr. 2.1 Tři nejúspornější kladogramy pro pět taxonů, z nichž každý je založen na jednom znaku (stavy těchto znaků jsou uvedeny v textu). Strom a) a c) předpokládá dvě změny (1 0), strom b) jednu změnu (0 1); pro všechny tři znaky by tedy fylogenie zahrnovala minimálně pět různých změn. 45

2. MAXIMÁLNÍ ÚSPORNOST (MAXIMUM PARSIMONY, MP) Stromy na obr. 2.1a c ukazují nejúspornější rozložení stavů pro znaky I III, ke kterému můžeme dospět od oka inspekcí uvedené tabulky. Vidíme, že pro znak 1 strom vyžaduje minimálně dvě změny, pro znak II pouze jednu změnu a pro znak III opět dvě změny. Pro všechny tři znaky tedy strom vyžaduje nejméně pět změn. Minimální počet je však tři, každá pro jeden znak, takže zde máme dvě změny navíc. Tyto nadbytečné změny, kdy jeden stav znaku vzniká vícekrát, jsou vysvětleny ad hoc homoplazií. Princip parsimonie proto můžeme chápat i jako snahu minimalizovat počet těchto analogických stavů. POSTUP METODY V praxi je ovšem odhad počtu změn podél fylogenetického stromu poměrně složitější a vyžaduje určitý algoritmus. Přestože původně byla metoda maximální úspornosti vyvinuta pro morfologické znaky (Hennig 1966), v následujícím textu vyjdeme ze sekvence DNA. Postup metody maximální úspornosti si můžeme ilustrovat na tzv. Fitchově algoritmu (Fitch 1971), který předpokládá stejnou pravděpodobnost změn v jednom i druhém směru (např. Pr[A T] = Pr[T A]) a přímou změnu stavu v kterýkoli jiný. Předpokládejme strom bez kořene se šesti taxony, znázorněný na obr. 2.2a a rekonstruovaný na základě jednoho znaku (tj. jednoho nukleotidového místa) j s následujícími stavy: 1 = C 2 = T 3 = T 4 = T 5 = A 6 = A Stanovení minimálního počtu kroků Nejprve stanovíme minimální počet substitucí podél dané topologie. Zpravidla je výhodné arbitrárně stanovit kořen stromu: v našem případě je kořenem uzel 6 (obr. 2.2b). Začneme v jednom z vrcholů (např. 1) a postupujeme k vnitřnímu uzlu w, který tento vrchol spojuje s nejbližším vrcholem 2. Jestliže vycházíme z předpokladu minimálního počtu substitucí, uzlu w připíšeme C, nebo T. Obdobně v uzlu x musí být stav T, protože oba terminální uzly, které vnitřní uzel x spojuje, mají na místě j thymin; další vnitřní uzel y má stav A, nebo T. Porovnáme-li uzly w (C, nebo T) a y (A, nebo T), nejúspornějším stavem pro uzel z je T. Jakmile algoritmus dosáhne kořene stromu, pokračuje odsud zpět k vrcholům. Protože uzel z neobsahuje stav charakterizující jeho předka (uzel 6), bude přiřazení jeho stavu arbitrární. Předpokládejme, že tomuto uzlu připíšeme adenin, takže přechod 6 z potom nevyžaduje žádnou substituci (obr. 2.2c). Uzlu y připíšeme A, protože ten je přítomen již v uzlu z. V uzlu x ponecháme T (substituce A T) a uzlu w připíšeme opět arbitrárně stav T (substituce A T). Přechod z uzlu w k terminálnímu uzlu 1 vyžaduje další změnu (substituce T C). Celkový počet substitucí nezbytných k vysvětlení daného stromu je 3. Jestliže uzlu z připíšeme stav T, bude výsledný počet změn opět 3 (obr. 2.2d). Celkem jsou možné čtyři stejně úsporné stromy (zbývající dva stromy jsou ukázány na obr. 2.2e f). 46

Postup metody a) b) c) d) e) f) Obr. 2.2 Postup metody maximální úspornosti pro neseřazená data (Fitchova parsimonie). Na obr. a) je na základě stavů jednoho znaku (bází na jedné nukleotidové pozici) vytvořena jedna z možných topologií bez kořene, která je převedena na strom s kořenem (b) arbitrárním stanovením kořene v jednom z terminálních uzlů (6). Jednotlivým terminálním uzlům jsou přiřazeny příslušné zjištěné báze, zatímco stavy na interních uzlech jsou odhadovány jako nejúspornější průsečík stavů nad nimi. Při cestě od kořene vzhůru dostáváme dva alternativní, stejně úsporné stromy podle toho, jakou bázi předpokládáme ve vnitřním uzlu z. Jestliže je tomuto uzlu přiřazen thymin (d), uzly w a y budou při kritériu úspornosti obsahovat stejnou bázi; naopak pokud si uzel z zachová adenin, dostaneme tři možné stromy. Všechny čtyři stromy jsou stejně úsporné, s délkou čtyři kroky. 47

2. MAXIMÁLNÍ ÚSPORNOST (MAXIMUM PARSIMONY, MP) Ve výše uvedeném příkladu jsme uvažovali pouze jednu topologii. Ve skutečnosti musíme uvažovat všech 105 potenciálních topologií a identifikovat tu, která vyžaduje nejmenší počet kroků. Tímto způsobem můžeme vypočítat sumu minimálních počtů substitucí pro všechny potenciální topologie a pro všechna nukleotidová místa. Tato suma se nazývá délka stromu. Maximálně úsporný strom je potom topologie, která má nejmenší délku. Často se stává, že existuje několik odlišných topologií se stejnou délkou. V praxi jsou pro vyhledání optimálního stromu (stromů) používány sofistikované algoritmy. Zde je nutno rozlišovat mezi kritériem optimálnosti a konkrétním algoritmem zatímco algoritmy jsou neustále zdokonalovány, kritéria zůstávají stejná. Informativní a neinformativní znaky a problém analogie Při hledání maximálně úsporných (MP) stromů nejsou všechny znaky stejně důležité. Zůstaneme-li u příkladu sekvence DNA, potom invariabilní místa, tj. pozice, které obsahují stejný nukleotid u všech zkoumaných taxonů, jsou z analýzy vyloučena. Ovšem ani všechna variabilní místa nejsou z hlediska konstrukce MP stromu stejně informativní. Jedním z příkladů neinformativního variabilního znaku je místo, které obsahuje odlišný nukleotid pouze u jedné sekvence, zatímco všechny ostatní sekvence jsou v tomto místě stejné tyto stavy se nazývají výlučně odvozené neboli autapomorfní. Aby bylo nukleotidové místo informativní, musí obsahovat alespoň dva různé nukleotidy, z nichž každý se vyskytuje alespoň u dvou sekvencí. Pro úplnost je nutno dodat, že pro některé jiné metody fylogenetické analýzy (např. maximální věrohodnost, bayesovskou analýzu) jsou důležitá i invaria bilní místa. Rovněž některé MP algoritmy používají pro výpočet délky stromů i variabilní místa, která jsou z hlediska hledání maximálně úsporného stromu neinformativní. Protože maximálně úsporný strom můžeme spolehlivě konstruovat pouze na základě fylogeneticky informativních znaků, musí být MP analýza založena na velkém celkovém počtu míst. Jestliže však data obsahují velký počet homoplazií, nemusí být výsledek spolehlivý ani při velmi velkém množství znaků. Pro odhad rozsahu homoplazie bylo navrženo několik indexů. Nejstarší a nejznámější je index konzistence (consistency index, CI), navržený Klugem a Farrisem (1969). Tento poměrně jednoduchý index je pro jedno nukleotidové místo vyjádřen jako podíl c i = m i /s i, kde m i je minimální počet potenciálně možných evolučních kroků (substitucí) na i-té pozici a s i je minimální počet substitucí nutných k vysvětlení daného stromu. Minimální možný počet substitucí m i je dán počtem různých typů nukleotidů na i-tém místě minus 1. Například pro strom na obr. 2.2c je index konzistence roven 2/3, protože m i je 2 (3 nukleotidy minus 1) a s i je rovno 3 (tj. 3 substituce). Nízký rozsah homoplazie v datech se odráží ve vysokých hodnotách indexu konzistence. Maximální hodnota CI je 1, spodní hranice však není 0 a navíc index kolísá s topologií. Proto Farris (1989) navrhl další dva ukazatele, retenční index a přeškálovaný index konzistence. Retenční index (retention index, RI) lze považovat za míru stupně synapomorfie v datech (Kitching et al. 1998; Klingenberg a Gidaszewski 2010). Pro jedno nukleotidové místo je roven r i = g i s i g i m i, (2.1) 48

Postup metody kde g i je maximální možný počet substitucí na i-tém místě pro jakýkoli myslitelný strom. Ten je roven počtu substitucí nezbytných pro hvězdicovou topologii, ve které je nejfrekventovanější nukleotid umístěn doprostřed. Veličina g i vyjadřuje, kolik kroků by bylo nutno k vysvětlení evoluce analyzovaných dat za nejhorších možných podmínek. Retenční index nabývá nulové hodnoty, když g i = s i, a maximálně dosahuje 1. V případě obr. 2.2 by ve středu hvězdicového stromu bylo T; g i by pak bylo rovno 3 (3 substituce: 2 T A, 1 T C), s i = 3, m i = 2 a r i = (3 3)(3 2) = 0. Přeškálovaný index konzistence (rescaled consistency index, RC) je dán součinem CI a RI, pro i-té nukleotidové místo tedy platí rc i = g i s i g i m i m i s i. (2.2) Všechny výše jmenované indexy lze vypočítat také pro všechna informativní místa. Hovoříme potom o složeném neboli celkovém indexu konzistence (CI), celkovém retenčním indexu (RI) a celkovém přeškálovaném indexu konzistence (RC). Tyto indexy se vypočítají sumací jednotlivých proměnných přes všechna informativní nukleotidová místa: CI= i m i i s i, RI= i g i i s i i g i i m i, RC=CI RI. (2.3 2.5) Tyto indexy můžeme počítat pouze pro informativní místa, protože pro neinformativní místa nelze r i a rc i definovat. CI, RI a RC jsou často používány systematiky jako míra přesnosti získané topologie MP stromu. V systematice se někdy index konzistence nahrazuje indexem homoplazie (homoplasy index, HI), který je dán jako HI = 1 CI, tj. při nulové homoplazii CI = 1 a HI = 0. Některé programy poskytují i další indexy, které informují o charakteru dat a rozložení homoplazie mezi znaky a částmi MP stromu. Jedním z nich je průměrná jednotková konzistence znaku (average unit character consistency, AUCC): AUCC= N i=1c i N, (2.6) kde c i je jednotková konzistence znaku (Kluge a Farris 1969). AUCC je maximální tehdy, když je homoplazie rozložena krajně asymetricky, tj. když se všechny analogické stavy vyskytují u jediného znaku. Minimální hodnota AUCC je rovna CI, maximální je rovna 1. Poměr rozložení homoplazie (homoplasy distribution ratio, HDR) je vyjádřen jako index rozložení homoplazie (HDI) vydělený indexem homoplazie (HI), kde HDI = = AUCC CI (Sang 1995). Protože při výskytu jakékoli homoplazie je AUCC menší než 1, AUCC CI musí být menší než HI (1 CI, viz výše) a HDR spadá do intervalu (0,1). Kromě měření rozsahu homoplazie a její distribuce může podle Sanga (1995) být tento index poměrně přesným ukazatelem spolehlivosti MP stromu. To znamená, že i když je index konzistence nízký, kladogram může stále být spolehlivý, protože homoplazie je omezena jen na několik kladisticky nespolehlivých znaků. 49

2. MAXIMÁLNÍ ÚSPORNOST (MAXIMUM PARSIMONY, MP) Index kompatibilních stavů znaku (compatible character state index, CCSI) je vypočten jako poměr počtu kompatibilních stavů znaku, tj. stavů, které jsou v souladu s MP stromem, a celkového počtu stavů (včetně neinformativních stavů i autapomorfií, které jsou vždy konzistentní a proto inflatují CCSI). Stejně jako v předchozím případě se hodnoty CCSI pohybují v rozmezí 0 (hvězdicový strom) až 1 (všechny stavy konzistentní). Odhad délek větví a optimalizace stromu Jakožto metody typické pro kladistickou analýzu jsou MP stromy zpravidla konstruovány bez stanovení délek větví. Za určitých podmínek však můžeme délky odhadnout. Odhad délek větví MP stromu se provádí tak, že uvažujeme všechny evoluční dráhy na každém variabilním místě a vypočteme průměrný počet substitucí pro jednotlivé vnitřní i vnější větve. Vraťme se k topologii na obr. 2.2. Na základě nukleotidů zjištěných u šesti zkoumaných taxonů byly odvozeny čtyři stejně úsporné stromy dlouhé tři kroky (obr. 2.2c f). Například evoluční dráha stromu na obr. 2.2c vyžaduje jednu substituci podél větve 1 w, jednu podél w z a jednu podél větve x y. Podobně bychom mohli přiřadit substituce jednotlivým větvím i pro ostatní topologie a vypočítat jejich průměrnou délku. Tyto délky jsou pro jednotlivé větve: 1 w = 3/4, 2 w = 2/4, 3 x = 0, 4 x = 0, 5 y = 1/4, x y = 3/4, w z = 2/4, y z = 0 a 6 z = 1/4. Podobně můžeme získat celkové délky sečtením substitucí podél každé z větví. Tato metoda se označuje jako metoda průměrné dráhy. Délky větví můžeme odhadnout i pomocí dvou algoritmů. První z nich, ACCTRAN (ACCelerated TRANsformation), předpokládá, že k evolučním změnám dochází co nejdříve od společného kořene, kdežto druhý, DELTRAN (DELayed TRANsformation) naopak upřednostňuje změny pozdější (Swofford a Maddison 1987). Například jestliže u stromu na obr. 2.2 budeme taxon 6 považovat za společný kořen a nukleotid A tedy za ancestrální, ACCTRAN bude považovat za pravděpodobnější změnu A T mezi uzly 6 a z a potom uvažovat minimální počet substitucí, tzn. uzlům w, x, y přiřadí také T (obr. 2.2d). Naproti tomu v algoritmu DELTRAN jsou všechny změny maximálně zpožděny, proto přiřadí uzlům w, x, y a z nukleotidy A, T, A a A (obr. 2.2f). To znamená, že přiřazení nukleotidů jednotlivým ancestrálním uzlům se mezi oběma metodami liší a odhady délek větví budou tím pádem také rozdílné. Jsou-li však zkoumané sekvence podobné, není rozdíl mezi oběma metodami tak markantní, jak by se mohlo z uvedeného příkladu zdát. Obecně platí, že délky větví získané metodami maximální úspornosti mají tendenci být nižší než skutečné délky, zejména pokud je divergence mezi sekvencemi vysoká. 50