SEQUENCE ALIGNMENT MOLEKULÁRNÍ TAXONOMIE

Podobné dokumenty
Thursday, February 27, 14

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Využití metod strojového učení v bioinformatice David Hoksza

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Inovace studia molekulární a buněčné biologie

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Dynamic programming. Historie. Dynamické programování je obsaženo v těchto programech: Příklad: chceme optimálně přiložit dvě sekvence

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Vyhledávání podobných sekvencí BLAST

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti URČOVÁNÍ PRIMÁRNÍ STRUKTURY BÍLKOVIN

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

Molekulární genetika IV zimní semestr 6. výukový týden ( )

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

Využití strojového učení k identifikaci protein-ligand aktivních míst

Vytváření fylogenetických stromů na základě alignmentů. Tomáš Novotný Jaroslav Knotek

b) Jak se změní sekvence aminokyselin v polypeptidu, pokud dojde v pozici 23 k záměně bázového páru GC za TA (bodová mutace) a s jakými následky?

Molekulárn. rní genetika

Aminokyseliny. Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín. Tematická oblast Datum vytvoření Ročník Stručný obsah Způsob využití

Využití DNA markerů ve studiu fylogeneze rostlin

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

Proteiny Genová exprese Doc. MVDr. Eva Bártová, Ph.D.

Počítačové vyhledávání genů a funkčních oblastí na DNA

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Molekulární biotechnologie č.9. Cílená mutageneze a proteinové inženýrství

Bioinformatika pro PrfUK 2003

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Bioinformatika. Jiří Vondrášek Ústav organické chemie a biochemie Jan Pačes Ústav molekulární genetiky

Aplikovaná bioinformatika

METODY VÍCENÁSOBNÉHO ZAROVNÁVÁNÍ NUKLEOTIDOVÝCH SEKVENCÍ

Základy fylogenetiky a konstrukce fylogenetických stromů

Virtuální svět genetiky 1. Translace

Metody studia historie populací. Metody studia historie populací

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Genetický kód. Jakmile vznikne funkční mrna, informace v ní obsažená může být ihned použita pro syntézu proteinu.

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Molekulární základy genetiky

Genetický polymorfismus

Cysteinové adukty globinu jako potenciální biomarkery expozice styrenu

Využití DNA sekvencování v

Populační genetika. ) a. Populační genetika. Castle-Hardy-Weinbergova zákonitost. Platí v panmiktické populaci za předpokladu omezujících podmínek

Markovovy modely v Bioinformatice

Struktura proteinů. - testík na procvičení. Vladimíra Kvasnicová

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Mutace jako změna genetické informace a zdroj genetické variability

PREDIKTOR VLIVU AMINOKYSELINOVÝCH SUBSTITUCÍ NA FUNKCI PROTEINŮ

Genotypy absolutní frekvence relativní frekvence

Využití internetových zdrojů při studiu mikroorganismů

Genetická diverzita masného skotu v ČR

Molekulární genetika

Drift nejen v malých populacích (nebo při bottlenecku resp. efektu zakladatele)

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Metabolismus aminokyselin. Vladimíra Kvasnicová

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Metabolismus bílkovin. Václav Pelouch

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy

Inovace studia molekulární a buněčné biologie

Modelov an ı biologick ych syst em u Radek Pel anek

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Emergence chování robotických agentů: neuroevoluce

Určení molekulové hmotnosti: ESI a nanoesi

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Metody studia historie populací. Metody studia historie populací. 1) Metody studiagenetickérozmanitosti komplexní fenotypové znaky, molekulární znaky.

MOLEKULÁRNÍ BIOLOGIE. 2. Polymerázová řetězová reakce (PCR)

Molekulární základ dědičnosti

Degenerace genetického kódu

Jak měříme genetickou vzdálenost a co nám říká F ST

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Aminokyseliny příručka pro učitele. Obecné informace: Téma otevírá kapitolu Bílkoviny, která svým rozsahem překračuje rámec jedné vyučovací hodiny.

Strom života. Cíle. Stručná anotace

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ VYHLEDÁVÁNÍ HOMOLOGNÍCH GENŮ DIPLOMOVÁ PRÁCE

Vztah genotyp fenotyp

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

Teorie neutrální evoluce a molekulární hodiny

analýzy dat v oboru Matematická biologie

Pokročilé operace s obrazem

NUKLEOVÉ KYSELINY. Základ života

PODOBNOSTI PRIMÁRNÍ STRUKTURY

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Hardy-Weinbergův zákon - cvičení

Statistické řízení jakosti - regulace procesu měřením a srovnáváním


Úvod do optimalizace, metody hladké optimalizace

Induktivní statistika. z-skóry pravděpodobnost

Molekulárně biologické metody princip, popis, výstupy

Struktura nukleových kyselin Vlastnosti genetického materiálu

PREDIKCE VLIVU AMINOKYSELINOVÝCH MUTACÍ NA SEKUNDÁRNÍ STRUKTURU PROTEINŮ

Centrum aplikované genomiky, Ústav dědičných metabolických poruch, 1.LFUK

Využití metagenomiky při hodnocení sanace chlorovaných ethylenů in situ Výsledky pilotních testů

Teorie neutrální evoluce a molekulární hodiny

Algoritmy pro shlukování prostorových dat

ČVUT FEL X36PAA - Problémy a algoritmy. 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu

ve srovnání s eukaryoty (životnost v řádu hodin) u prokaryot kratší (životnost v řádu minut) na životnost / stabilitu molekuly mají vliv

NGS analýza dat. kroužek, Alena Musilová

Tomáš Oberhuber. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

základní znaky živých systémů (definice života výčtem jeho vlastností) složitá organizace a řád regulace a udržování vnitřní homeostázy získávání a

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

PROTEINY. Biochemický ústav LF MU (H.P.)

Binární vyhledávací stromy pokročilé partie

Malcomber S.T. (2000): Phylogeny of Gaertnera Lam. (Rubiaceae) based on multiple DNA markers: evidence of a rapid radiation in a widespread,

Transkript:

SEQUENCE ALIGNMENT gi 118094778 gi 68395523 Eat1 SpEat1 CG7206 DrEat1 C1orf26 46 LQELDNLKKGKML-----------------LHV-RQKAI 46 LQELDYLKSGKLS-----------------SKV-EDKAR 47 IQELDGLKKSPDIARDNDDTTN----QEHDRTI-GTLAR 49 LQELDGLKSESS------------------STC-GYLAR 49 IKELDKLKSKYQS-----------------DCLQRVIAM 49 LQELDYLKSGKLS-----------------SKV-EDKAR 49 MQELDRMKEGKLL-----------------KRA-QHKAI MOLEKULÁRNÍ TAXONOMIE MARIAN@NATUR.CUNI.CZ

OSNOVA co to je sequence alignment? jak se dělá sequence alignment? jaké použít programy?

REKONSTRUKCE EVOLUČNÍ HISTORIE rekonstrukce na základě srovnávání znaků v molekulární taxonomii se používají sekvence sekvence (DNA, RNA, proteiny) se srovnávají tzv. alignmentem HTTP://LGIMAGES.S3.AMAZONAWS.COM/DATA/IMAGEMANAGER/7793/PHYLOTREE1.GIF

CO JE SEQUENCE ALIGNMENT? v biologii - seřazení sekvencí DNA, RNA nebo proteinů pod sebe tak, že (dle evoluce) odpovídající si amimokyseliny leží pod sebou (při zachování jejich pořadí) cílem je odhalit oblasti podobnosti mezi sekvencemi, které poukazuji na funkční, strukturní nebo evoluční podobnost v informatice - série operací, kterými se změní jedna sekvence v druhou (substituce, inzerce, delece)

PROČ SROVNÁVAT SEKVENCE? informace o funkci informace o struktuře proteinu informace o evoluci, nalézání příbuzenských vztahů odvodit, které aminokyseliny si odpovidají (homologie)

CO JE SEQUENCE ALIGNMENT? >Q61287 Q61287_MOUSE ALPHA-GLOBIN - MUS MUSCULUS (MOUSE). MVLSGEDKSNIKAAWGKIGGHGAEYVAEALERMFASFPTTKTYFPHFDVSHGSAQVKGHG KKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFTP AVHASLDKFLASVSTVLTSKYR >Q5XMD6 Q5XMD6_9AVES ALPHA A HEMOGLOBIN - OXYURA MACCOA. MVLSAADKTNVKGVFSKIGGHADDYGAETLERMFVAYPQTKTYFPHFDLQHGSAQIKAHG KKVAAALVEAVNHIDDISGALSKLSDLHAQKLRVDPVNFKFLGHCFLVVVAIHHPSALTP EVHASLDKFMCAVGAVLTAKYR Q61287 Q61287_MOUSE MVLSGEDKSNIKAAWGKIGGHGAEYVAEALERMFASFPTTKTYFPHFDVSHGSAQVKGHG 60 Q5XMD6 Q5XMD6_9AVES MVLSAADKTNVKGVFSKIGGHADDYGAETLERMFVAYPQTKTYFPHFDLQHGSAQIKAHG 60 ****. **:*:*..:.*****. :* **:*****.::* *********:.*****:*.** Q61287 Q61287_MOUSE KKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFTP 120 Q5XMD6 Q5XMD6_9AVES KKVAAALVEAVNHIDDISGALSKLSDLHAQKLRVDPVNFKFLGHCFLVVVAIHHPSALTP 120 **** **..*..*:**:.**** ******:**********:*.**:**.:* ***: :** Q61287 Q61287_MOUSE AVHASLDKFLASVSTVLTSKYR 142 Q5XMD6 Q5XMD6_9AVES EVHASLDKFMCAVGAVLTAKYR 142 ********:.:*.:***:***

PROČ JSOU SI SEKVENCE PODOBNÉ? náhodou analogické homologické

POKUD JSOU HOMOLOGICKÉ... SEQUENCE 1 VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKF-DRF-KHLKTEAEMKAS.=ALI =ID.......................... SEQUENCE 2 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPH-FD--L----SHG-S -- SEQUENCE 1 EDLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSR.=ALI =ID.......................... SEQUENCE 2 AQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH -- SEQUENCE 1 HPGDFGADAQGAMNKALELFRKDIAAKYKELGY.=ALI =ID........... SEQUENCE 2 LPAEFTPAVHASLDKFLASVSTVLTSKY---R- lze usuzovat, že: shoda = obě aminokyseliny zůstaly zachovány ve stejné formě v jaké se nacházejí u nejbližšího společného předka neshoda = mutace (substituce) jedné z aminokyselin po odštěpení ze společného předka mezera = inzerce nebo delece v jedné ze sekvencí po odštěpení od společného předka

SEQUENCE IDENTITA/HOMOLOGIE HOMOLOGNÍ PROTEINY ROST, 1999

SEQUENCE IDENTITA/HOMOLOGIE sekvenční identita > 35% - pravděpodobně homolog sekvenční identita = 20-35% ( twilight zone ; Doolittle) - může být homolog sekvenční identita < 20% - midnight zone (Rost) - sekvence zcela nedostatečná k určení homologie

PROTEIN NEBO DNA? při určování homologie se obvykle používá proteinový alignment 20 aminokyselin versus 4 nucleotidy => mnohem větší pravděpodobnost shody na každé pozici v DNA, proteinový alignment proto informativnější na druhou stranu - genetický kód je degenerovaný => různé kodony často kódují stejnou aminokyselinu - rozdíl v DNA alignmentu se vůbec neprojeví v proteinovém alignmentu a neovlivní vlastnosti proteinu (genového produktu) DNA alignment využíván při srovnávání regulačních oblastí genů, definování genů a celogenomových srovnáváních, blízce příbuzné organizmy

TYPY ALIGNMENTŮ globální alignment - pokouší se nalézt nejlepší možný alignment celých sekvencí lokální alignment - pokouší se nalézt podobné úseky v sekvencích, nemusí nezbytně nalézt nejlepší alignment celých sekvencí ZVELEBIL (2006)

SHRNUTÍ alignment je základní a zakládající bioinformatickou metodou alignment slouží k anotaci sekvencí (funkce, evoluce, polymorfismus, motivy) alignment užitečný především když naznačuje ortologii sekvencí pod 30 % sekvenční identity je schopnost odvozovat funkci sporná, ani vysoká sekvenční identita však 100% nezaručuje úspěch.

JAK SE DĚLÁ ALIGNMENT?

KOLIK ALIGNMENTŮ LZE VYTVOŘIT? GGCATGAG GTACGTACG ---------GTACGTACG GGCATGAGG--------- GTACGTACG GGCATGAGG -GTACGTACG- GGC-ATG-AGG GT-ACGTACG GGCATG-AGG KTERÝ ALIGNMENT SE VÁM ZDÁ POCITOVĚ NEJSMYSLUPLNĚJŠÍ? PROČ? GTACG--T-ACG G---GCATGAGG

podobně u proteinů - např. Ala budu zaměněn spíš Val, Leu nebo Ile než Tyr většina by se asi shodla na předposledním alignmentu největší sekvenční identita - 0%, 33%, 22%, 50%, 42% krátký alignment, málo mezer (delece nebo inzerce obecné méně pravděpodobná než substituce) obecně G/A nebo C/T záměna pravděpodobnější než G/C nebo A/T (pyrimidin za purin)

ALIGNMENT - POŽADAVKY CO JE OBECNĚ POTŘEBA K NALEZENÍ NEJLEPŠÍHO ALIGNMENTU? měřítko kvality alignmentu - skóre pro shodu/ neshodu (všechny kombinace) a skóre pro mezeru (obvykle negativní - gap penalty) algoritmus, který systematicky projde všechny možné alignmenty

SKÓRE ALIGMENTU vychází se ze skórovací tabulky, která přiděluje určité skóre každe možné kombinaci skórovací tabulky jsou symetrické SHODA = 1 NESHODA =0 SHODA =3 NESHODA (PU/PU ; PY/PY) =0 NESHODA (PU/PY) =-3 A C G T A 1 0 0 0 C 0 1 0 0 G 0 0 1 0 T 0 0 0 1 A C G T A 3-3 0-3 C -3 3-3 0 G 0-3 3-3 T -3 0-3 3

GAP PENALTY alignment score lze dobře statisticky odvodit z alignmentu, gap penalty se odhadují hůř...většinou se odhadují metodou pokusu a omylu buď konstantní - každá mezera za stejnou pokutu nebo rozdílná pokuta pro první (gap-opening penalty) a každou další mezeru (gap-extension penalty) -> affine gap penalties první mezera má výšší penaltu než každá další

GAP PENALTY 3 4 5 6 7 8 9 10 11 12 13 14 PHE ASP ILE CYS ARG LEU PRO GLY SER ALA GLU ALA VAL CYS PHE ASN VAL CYS ARG THR PRO --- --- --- GLU ALA ILE CYS PHE ASN VAL CYS ARG --- --- --- THR PRO GLU ALA ILE CYS jedním z pokusů je definování variabilních gap penalties založených na strukturách -> nižší pravděpodobnost výskytu mezery v pravidelných sekundárních strukturách, v hydrofóbních jádrech

SKÓRE PRO NÁŠ ALIGNMENT GGCATGAG GTACGTACG SHODA =3 NESHODA (PU/PU ; PY/PY) =0 NESHODA (PU/PY) =-3 GAP PENALTY (KONSTANTNÍ) = -5 A C G T A 3-3 0-3 C -3 3-3 0 G 0-3 3-3 T -3 0-3 3

Alignment Shoda (+3) Pu/Pu (0) Pu/Py (-3) Gap (-5) Score ---------GTACGTACG GGCATGAGG--------- 0 0 0 18-90 GTACGTACG GGCATGAGG -GTACGTACG- GGC-ATG-AGG GT-ACGTACG GGCATG-AGG GTACG--T-ACG G---GCATGAGG

Alignment Shoda (+3) Pu/Pu (0) Pu/Py (-3) Gap (-5) Score ---------GTACGTACG GGCATGAGG--------- GTACGTACG GGCATGAGG -GTACGTACG- GGC-ATG-AGG GT-ACGTACG GGCATG-AGG GTACG--T-ACG G---GCATGAGG 0 0 0 18-90 3 0 5 0-6 2 1 4 4-26 5 1 2 2-1 5 0 1 6-18

A TEĎ VY! Alignment Shoda (+3) Pu/Pu (0) Pu/Py (0) Gap (-4) Score GTACGTACG GGCATGAGG GT-ACGTACG GGCATG-AGG

A TEĎ VY Alignment Shoda (+3) Pu/Pu (0) Pu/Py (0) Gap (-4) Score GTACGTACG GGCATGAGG GT-ACGTACG GGCATG-AGG 3 0 5 0 9 5 1 2 2 7

NEJLEPŠÍ ALIGNMENT - SKUTEČNÝ ALIGNMENT? alignment s nejvyšším skóre se nazývá optimální alignment, ostatní alignmenty jsou suboptimální optimální alignment však nemusí být ten který popisuje, co se v evoluci skutečně stalo naopak, ani spávný alignment nemusí mít optimální skóre nicméně, současné protokoly poskytují většinou užitečné výsledky...se zrnkem soli je však třeba je brát vždy

SKÓROVACÍ TABULKY (SUBSTITUTION MATRICES) používané jako základ pro výpočet skóre alignmentu DNA skórovací tabulky jednoduché - např.: shoda = +1, neshoda = 0 nebo shoda = +5, neshoda = -4 DNA sekvence se používají méně, neboť se pro většinu aplikací hodí více proteinové sekvence

PROTEINOVÉ SUBSTITUTION MATRICES výsledný alignment je ovlivněn zvolenou substituční tabulky, proto je jim věnována velké pozornost na začátku tabulky, které vycházely z fyzikálněchemických vlastností aminokyselin nebo z genetického kódu postupně nahrazeny tabulkami, které odpovídají skutečně pozorovaným mírám záměn mezi jednotlivými aminokyselinami

PAM PAM = Percent Accepted Mutations vyvinuta už v 70. letech 20. století Margaretou Dayhoff založena na pravděpodobných mírách mutace kalkulovaných z globálních alignmentů blízce podobných sekvencí kalkulována jako logaritmus pravděpodobnosti záměny aminokyseliny log odd = počet pozorovaných záměn/ počet očekávaných záměň při náhodném zaměňování

KALKULACE PRAVDĚPODOBNOSTI skóre pro záměnu valinu za isoleucin pravděpodobnost záměny pokud jsou sekvence příbuzné (pozorovaná) = 0.03 výskyt aminokyselin v populaci (databáze, proteom) = 0.1 a 0.05 poměr pravděpodobností = 0.03/(0.1*0.05) = 6x větší pravděpodobnost záměny V -> I než očekáváno při náhodných záměnách skóre = desítkový logaritmus * 10 a zaokrouhlen na nejbližší celé číslo = 10*log 6 = 10 * 0.778 = 8

BLOSUM BLOSUM = BLOck SUbstitution Matrix vytvořeny na začátku 90. let (Henikoff a Henikoff, 1992) založeno na lokálních alignmentech bloků aminokyselin s definovanou sekvenční identitou (u homologních proteinů) všechny tabulky vycházejí z experimentální dat, nejsou extrapolovány jako některé PAM tabulky

BLOSUM BLOSUM 80 - tabulka vypočítaná na základě alignmentu bloku sekvencí s identitou 80 % BLOSUM 62 - tabulka vypočítaná na základě alignmentu bloku sekvencí s identitou 62 %

BLOSUM VERSUS PAM PAM BLOSUM z globálního alignmentu velmi podobných sekvencí hodnoty pro vzdáleně podobné sekvence extrapolovány z hodnot pro velmi podobné sekvence evoluční vzdálenost z lokálního alignmentu bez mezer všechny hodnoty vycházejí ze skutečných alignmentů sekvenční identita

DNASEKVENCE RNASEKVENCE PAM 120-34335555495 = 44 BLOSUM 62-26445545695 = 51

ALIGNMENT - POŽADAVKY CO JE OBECNĚ POTŘEBA K NALEZENÍ NEJLEPŠÍHO ALIGNMENTU? měřítko kvality alignmentu - skóre pro shodu/ neshodu (všechny kombinace) a skóre pro mezeru (obvykle negativní - gap penalty) algoritmus, který systematicky projde všechny možné alignmenty

počet alignmentů roste pokud povolíme mezery generovat všechny možné alignmenty není praktické, neboť dvě sekvence o 100 aminokyselinách mají asi 10 75 možných alignmentů současné stolní počítače zvládnou okolo 2,5 x 10 9 operací za vteřinu (1 rok = 31 536 000 vteřin) 31 536 000 x 2,5 x 10 9 ~ = 8 x 10 16 operací/rok máme i rychlejší počítače, ale...

NEEDLEMAN-WUNSCH řešení přinesl až algoritmus Needlemana a Wunsche (1970), který modifikoval v matematice a programování používané algoritmy dynamického programování (dynamic programming) dynamic programming vyvinuto ve 40. letech 20. století jako způsob řešení problémů, kde se dělá řada rozhodnutí krok po kroku programming nemá spojení s programováním ve smyslu psaní programů, ale v matematickém smyslu jako optimizace průběh algoritmu se mění s konkrétním problémem, a proto je dynamický

pro každou pozici v alignmentu počítá s pomocí scoring matrix, zda je v daném místě optimálnější (vyšší skóre), aby došlo k shodě/neshodě v sekvenci či inzerci nebo deleci Needleman-Wunsch algoritmus dovede v každém kroku zavrhnout řadu alignmentů zvládnutelné v reálném čase

JAK TO FUNGUJE? jednu sekvenci píšeme do řádku, druhou do sloupce tabulky pro každou pozici v tabulce se počítá pravděpodobnost třech událostí: shody (záměny), inzerce v první sekvenci a inzerce v druhé sekvenci DI-1,J-1 DI,J-Y DI-1,J-1 + B (AJ, BJ) DI,J-Y - W (Y) DI-X,J DI-X,J - W (X)

JAK TO FUNGUJE? GAATTCAGTTA GGATCGA SKÓROVACÍ TABULKA: SI,J = 1 (POKUD SHODA) SI,J = 0 (POKUD NESHODA) W = 0 (GAP PENALTY) A C G T A 1 0 0 0 C 0 1 0 0 G 0 0 1 0 T 0 0 0 1

ZAČÍNÁME VYPLŇOVAT G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 G 0 A 0 T 0 C 0 G 0 A 0

G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 G 0 A 0 T 0 C 0 G 0 A 0 DI,J-Y DI,J-Y - W (Y) DI-1,J-1 + B (AJ, BJ) DI-X,J - W (X)

G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 A 0 1 T 0 1 C 0 1 G 0 1 A 0 1

G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 A 0 1 2 T 0 1 C 0 1 G 0 1 A 0 1

DOPLNÍME TABULKU G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 1 1 1 1 1 2 2 2 2 A 0 1 2 2 2 2 2 2 2 2 2 3 T 0 1 2 2 3 3 3 3 3 3 3 3 C 0 1 2 2 3 3 4 4 4 4 4 4 G 0 1 2 2 3 3 4 4 5 5 5 5 A 0 1 2 3 3 3 4 5 5 5 5 6

HLEDÁME ALIGNMENT G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 1 1 1 1 1 2 2 2 2 A 0 1 2 2 2 2 2 2 2 2 2 3 T 0 1 2 2 3 3 3 3 3 3 3 3 C 0 1 2 2 3 3 4 4 4 4 4 4 G 0 1 2 2 3 3 4 4 5 5 5 5 A 0 1 2 3 3 3 4 5 5 5 5 6

HLEDÁME ALIGNMENT G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 1 1 1 1 1 2 2 2 2 A 0 1 2 2 2 2 2 2 2 2 2 3 T 0 1 2 2 3 3 3 3 3 3 3 3 C 0 1 2 2 3 3 4 4 4 4 4 4 G 0 1 2 2 3 3 4 4 5 5 5 5 A 0 1 2 3 3 3 4 5 5 5 5 6 SEKVENCE 1 A SEKVENCE 2 A

HLEDÁME ALIGNMENT G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 1 1 1 1 1 2 2 2 2 A 0 1 2 2 2 2 2 2 2 2 2 3 T 0 1 2 2 3 3 3 3 3 3 3 3 C 0 1 2 2 3 3 4 4 4 4 4 4 G 0 1 2 2 3 3 4 4 5 5 5 5 A 0 1 2 3 3 3 4 5 5 5 5 6 SEKVENCE 1 TA SEKVENCE 2 -A

ŘEŠENÍ G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 1 1 1 1 1 2 2 2 2 A 0 1 2 2 2 2 2 2 2 2 2 3 T 0 1 2 2 3 3 3 3 3 3 3 3 C 0 1 2 2 3 3 4 4 4 4 4 4 G 0 1 2 2 3 3 4 4 5 5 5 5 A 0 1 2 3 3 3 4 5 5 5 5 6 SEKVENCE 1 GAATTCAGTTA SEKVENCE 2 GGA-TC-G--A

HLEDÁNÍ ALIGNMENTU -SHRNUTÍ stopujeme alignment zpětně pro každou pozici určujeme odkuď jsme se k ní dostali v některých případech může vzniknout více optimálních alignmentů, program však zobrazí pouze jedno řešení

NEEDLEMAN-WUNSCH SHRNUTÍ využívá dynamické programování k zredukování možných alignmentů vytváří globální alignment zaručuje nalezení optimálního alignmentu (s přihlédnutím ke zvolené skórovací tabulce a gap penalty )

MULTIPLE SEQUENCE ALIGNMENT (MSA)

PROČ MSA? pokud srovnáváme příbuzné proteiny tak dostáváme silnější signál umožnuje nám zpřesnit alignment vzniklý srovnáním dvou sekvencí větší šance nalezení strukturně nebo funkčně významných aminokyselin základ pro fylogenetické studie

JAK NA MSA? lze použít dynamické programování, ale počet rozměrů v matrici roste úměrně s počtem srovnávaných sekvencí pokud by alignment 2 sekvencí o 50 aminokyselinách trval vteřinu, pak srovnání N sekvencí by trvalo 10 2N-4 s - 3 sekvence ~2 minuty, 4 sekvence ~ 3 hodiny, 5 sekvencí ~ 11,5 dne dynamické programování je pro více jak sekvence příliš pomalé tři a proto jej žádný z běžných programů nepoužívá HTTP://BIBISERV.TECHFAK.UNI-BIELEFELD.DE/VISUALIGN/IMAGES/2ALIGNMENTS.GIF

JAK NA MSA? většina programů používá hierarchické progresivní metody všechny kombinace sekvencí projdou pairwise sequence alignment alignmenty jsou hierarchicky seřazeny dle míry podobnosti (fylogenetický strom) finální multiple alignment je budován v krocích -první jsou seřazeny nejpodobnější sekvence, k takovému páru se přirovnává další nejbližší sekvence dokud nejsou použity všechny sekvence

hierarchické progresivní metody MSA PŘÍSTUPY? všechny kombinace sekvencí projdou pairwise sequence alignment alignmenty jsou hierarchicky seřazeny dle míry podobnosti (fylogenetický strom) finální multiple alignment je budován v krocích -první jsou seřazeny nejpodobnější sekvence, k takovému páru se přirovnává další nejbližší sekvence dokud nejsou použity všechny sekvence Clustal W, T-cofee

CLUSTAL W VŠECHNY ALIGNMENTY MÍRA PODOBNOSTI SEKVENCÍ GUIDE TREE POSTUPNÉ SROVNÁVÁNÍ THOMPSON ET AL., 1994

MSA V PRAXI největší slabinou je, že chyby vytvořené v úvodních alignmentech se propagují do výsledného alignmentu iterativní metody - optimizace objektivní funkce přes realigning podskupin sekvencí - Muscle, ProbCons učící metody - HMM, genetické algoritmy, simulated annealing - FSA phylogeny-aware methods - PRANK, PAGAN MSA porovnávány proti databázi strukturních alignmentů (BALiBase)

MAFFT metoda pro velké soubory dat (fylogenetické analýzy) homologické oblasti jsou identifikovány pomocí rychlých Fourierovách transformací (objem a polarita aa) alignment kombinací progresivních a iterativních metod až 100x rychlejší než T-cofee při stejné přesnosti novější FAMSA (Deorowicz, 2016)

PHYLOGENY-AWARE MSA PAGAN, ProGraphMSA snaží se minimalizovat počet mezer v alignmentu

FAST STATISTICAL ALIGNMENT používá machine learning metodu simulated annealing na základě pairwise alignmentů gap penalties i skorovací tabulky jsou odhadovány pro každý set sekvencí individuálně - velmi robustní i pro velmi dlouhé sekvence

STRUKTURNÍ / SEKVENČNÍ ALIGNMENT struktura lépe konzervována než sekvence umožňuje odhalovat homologie v sekvenční twilight (midnight) zone vylepšuje multiple sequence alignments, predikce struktury a metodiku alignmentu obecně

STRUKTURNÍ VERSUS SEKVENČNÍ 1FWR_A 2YPI_A 1FWR_A 2YPI_A 1FWR_A 2YPI_A 1FWR_A 2YPI_A -------------------------MKNWKTSAESILTTGPVVPVIVVKKLEHAVPMAKA ARTFFVGGNFKLNGSKQSIKEIVERLNTASIPENVEVVICPPATYLDYSVSLVKKPQVTV ::... : :. *.. :. *... LVAGGVRVLEVTLRTECAVDAIRAIAKEVPEAIVGAGTVLNPQQLAEVTE-------AGA GAQNAYLKASGAFTGENSVDQIKDVGAKWVILGHSERRSYFHEDDKFIADKTKFALGQGV.... :: * :** *: :. :. :: ::: *. QFAISPGLTEPLLKAATEGTIPLIPGISTVSELMLGMDYGLKEFQFFPAEANGGVKALQA GVILCIGETLEEKKAGKTLDVVERQLNAVLEEVKDWTNVVVAYEPVWAIGTGLAATPEDA. :. * * **.. : :.:.*: : :.:. :.... :* IAGPFSQVRFCPKGGISPANYRDYLALKSVLCIGGSWLVPADALEAGDYDRITKLAREAV QDIHASIRKFLASKLGDKAASELRILYGGSANGSNAVTFKDKADVDGFLVGGASLKPEFV * :*... *. :...:..* * :.* * *

STRUKTURNÍ VERSUS SEKVENČNÍ Sequence 1 ------------ART---FFVGGNFKLNG-SKQSI-KEIVERLNTASI--PENVEVVICP.=ALI =ID................... Sequence 2 MKNWKTSAESIL--TTGP--VVPVI--VVKKLEHAVP-MAKALVAG-GVR-----V-LEV Sequence 1 ------PATYLDYSVSLV-KKPQVTVGAQ-N--AY-LKASGAFTGEN-S---VDQIKDVG.=ALI =ID............. Sequence 2 TLRTECAVDAIRAIAKEVP-E--AIVGAGTVLN-PQ----------QLAEVT--E---AG Sequence 1 AKWVILGH--SERRSYFHEDDKFIADKTKFALGQGVGVILCIGETLEEKKAGKTLDVVER.=ALI =ID.................. Sequence 2 AQFAIS-PGL-------------TEPLLKAATEGTIPLIPGIS--------------TVS Sequence 1 QLNAV-LEEVKDW-TNVVVAYEP--VW--AIGTGLAATPEDA--QDI--HASI-RKFLA-.=ALI =ID................... Sequence 2 ELMLGMD--YG-LK---EFQFFPAE-ANG-------G----VKA--LQA--IAG-P--FS Sequence 1 SKLGDKAA-SELRILYGGSANGSN-AVTF---KDK-ADVDGFLVGGA-SLK---------.=ALI =ID..................... Sequence 2 -------QV---RFCPKGGIS-PANY--RDYL--ALKSVLCIGG-SWL-VPADALEAGDY

STRUKTURNÍ VERSUS SEKVENČNÍ

KVALITA ALIGNMETU lze hodnotit za pomoci strukturní informace MSA porovnávány proti databázi strukturních alignmentů (BALiBase), HomFam program APDB (součást T-Coffee) pokud jsou známy alespoň dvě struktury umožňuje vybrat nejlepší z alternativních alignmentů QuanTest (2017) - za pomoci přesnosti predikce sekundárních struktur

není uniformní KVALITA UVNITŘ ALIGNMENTU MSA programy však často neoznačují kterým částem alignmentu věří a kterým nikoliv (FSA) pro účely fylogenetických analýz se často vyřazují oblasti se spoustou mezer TrimAl, JalView, UGENE

STROM ZE VŠECH GENOMOVÝCH SEKVENCÍ výběr genů, identifikace ortologů.. whole-genome phylogenies většinou alignment-free metody - pořadí genů, množství genů, nukleotidové složení, SNP, metabolické dráhy -> kompletně pomíjí evoluční koncepty alignment metody spoléhající na průměrné hodnoty podobností - typicky pracují jen z ortology plně automatické metody používající i neortologické sekvence (Yonoko et al., 2018)

SHRNUTÍ databáze by měly být pravidelně updatovány přehled dostupných biologických databází vždy v lednovém čísle NAR řada velmi specializovaných databází hledání v databázích povětšinou heuristickými metodami standard dnes BLAST nutno hodnotit statistickou významnost nálezu citlivější metodou PSI-Blast nebo HMM metody