SEQUENCE ALIGNMENT gi 118094778 gi 68395523 Eat1 SpEat1 CG7206 DrEat1 C1orf26 46 LQELDNLKKGKML-----------------LHV-RQKAI 46 LQELDYLKSGKLS-----------------SKV-EDKAR 47 IQELDGLKKSPDIARDNDDTTN----QEHDRTI-GTLAR 49 LQELDGLKSESS------------------STC-GYLAR 49 IKELDKLKSKYQS-----------------DCLQRVIAM 49 LQELDYLKSGKLS-----------------SKV-EDKAR 49 MQELDRMKEGKLL-----------------KRA-QHKAI MOLEKULÁRNÍ TAXONOMIE MARIAN@NATUR.CUNI.CZ
OSNOVA co to je sequence alignment? jak se dělá sequence alignment? jaké použít programy?
REKONSTRUKCE EVOLUČNÍ HISTORIE rekonstrukce na základě srovnávání znaků v molekulární taxonomii se používají sekvence sekvence (DNA, RNA, proteiny) se srovnávají tzv. alignmentem HTTP://LGIMAGES.S3.AMAZONAWS.COM/DATA/IMAGEMANAGER/7793/PHYLOTREE1.GIF
CO JE SEQUENCE ALIGNMENT? v biologii - seřazení sekvencí DNA, RNA nebo proteinů pod sebe tak, že (dle evoluce) odpovídající si amimokyseliny leží pod sebou (při zachování jejich pořadí) cílem je odhalit oblasti podobnosti mezi sekvencemi, které poukazuji na funkční, strukturní nebo evoluční podobnost v informatice - série operací, kterými se změní jedna sekvence v druhou (substituce, inzerce, delece)
PROČ SROVNÁVAT SEKVENCE? informace o funkci informace o struktuře proteinu informace o evoluci, nalézání příbuzenských vztahů odvodit, které aminokyseliny si odpovidají (homologie)
CO JE SEQUENCE ALIGNMENT? >Q61287 Q61287_MOUSE ALPHA-GLOBIN - MUS MUSCULUS (MOUSE). MVLSGEDKSNIKAAWGKIGGHGAEYVAEALERMFASFPTTKTYFPHFDVSHGSAQVKGHG KKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFTP AVHASLDKFLASVSTVLTSKYR >Q5XMD6 Q5XMD6_9AVES ALPHA A HEMOGLOBIN - OXYURA MACCOA. MVLSAADKTNVKGVFSKIGGHADDYGAETLERMFVAYPQTKTYFPHFDLQHGSAQIKAHG KKVAAALVEAVNHIDDISGALSKLSDLHAQKLRVDPVNFKFLGHCFLVVVAIHHPSALTP EVHASLDKFMCAVGAVLTAKYR Q61287 Q61287_MOUSE MVLSGEDKSNIKAAWGKIGGHGAEYVAEALERMFASFPTTKTYFPHFDVSHGSAQVKGHG 60 Q5XMD6 Q5XMD6_9AVES MVLSAADKTNVKGVFSKIGGHADDYGAETLERMFVAYPQTKTYFPHFDLQHGSAQIKAHG 60 ****. **:*:*..:.*****. :* **:*****.::* *********:.*****:*.** Q61287 Q61287_MOUSE KKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFTP 120 Q5XMD6 Q5XMD6_9AVES KKVAAALVEAVNHIDDISGALSKLSDLHAQKLRVDPVNFKFLGHCFLVVVAIHHPSALTP 120 **** **..*..*:**:.**** ******:**********:*.**:**.:* ***: :** Q61287 Q61287_MOUSE AVHASLDKFLASVSTVLTSKYR 142 Q5XMD6 Q5XMD6_9AVES EVHASLDKFMCAVGAVLTAKYR 142 ********:.:*.:***:***
PROČ JSOU SI SEKVENCE PODOBNÉ? náhodou analogické homologické
POKUD JSOU HOMOLOGICKÉ... SEQUENCE 1 VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKF-DRF-KHLKTEAEMKAS.=ALI =ID.......................... SEQUENCE 2 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPH-FD--L----SHG-S -- SEQUENCE 1 EDLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSR.=ALI =ID.......................... SEQUENCE 2 AQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH -- SEQUENCE 1 HPGDFGADAQGAMNKALELFRKDIAAKYKELGY.=ALI =ID........... SEQUENCE 2 LPAEFTPAVHASLDKFLASVSTVLTSKY---R- lze usuzovat, že: shoda = obě aminokyseliny zůstaly zachovány ve stejné formě v jaké se nacházejí u nejbližšího společného předka neshoda = mutace (substituce) jedné z aminokyselin po odštěpení ze společného předka mezera = inzerce nebo delece v jedné ze sekvencí po odštěpení od společného předka
SEQUENCE IDENTITA/HOMOLOGIE HOMOLOGNÍ PROTEINY ROST, 1999
SEQUENCE IDENTITA/HOMOLOGIE sekvenční identita > 35% - pravděpodobně homolog sekvenční identita = 20-35% ( twilight zone ; Doolittle) - může být homolog sekvenční identita < 20% - midnight zone (Rost) - sekvence zcela nedostatečná k určení homologie
PROTEIN NEBO DNA? při určování homologie se obvykle používá proteinový alignment 20 aminokyselin versus 4 nucleotidy => mnohem větší pravděpodobnost shody na každé pozici v DNA, proteinový alignment proto informativnější na druhou stranu - genetický kód je degenerovaný => různé kodony často kódují stejnou aminokyselinu - rozdíl v DNA alignmentu se vůbec neprojeví v proteinovém alignmentu a neovlivní vlastnosti proteinu (genového produktu) DNA alignment využíván při srovnávání regulačních oblastí genů, definování genů a celogenomových srovnáváních, blízce příbuzné organizmy
TYPY ALIGNMENTŮ globální alignment - pokouší se nalézt nejlepší možný alignment celých sekvencí lokální alignment - pokouší se nalézt podobné úseky v sekvencích, nemusí nezbytně nalézt nejlepší alignment celých sekvencí ZVELEBIL (2006)
SHRNUTÍ alignment je základní a zakládající bioinformatickou metodou alignment slouží k anotaci sekvencí (funkce, evoluce, polymorfismus, motivy) alignment užitečný především když naznačuje ortologii sekvencí pod 30 % sekvenční identity je schopnost odvozovat funkci sporná, ani vysoká sekvenční identita však 100% nezaručuje úspěch.
JAK SE DĚLÁ ALIGNMENT?
KOLIK ALIGNMENTŮ LZE VYTVOŘIT? GGCATGAG GTACGTACG ---------GTACGTACG GGCATGAGG--------- GTACGTACG GGCATGAGG -GTACGTACG- GGC-ATG-AGG GT-ACGTACG GGCATG-AGG KTERÝ ALIGNMENT SE VÁM ZDÁ POCITOVĚ NEJSMYSLUPLNĚJŠÍ? PROČ? GTACG--T-ACG G---GCATGAGG
podobně u proteinů - např. Ala budu zaměněn spíš Val, Leu nebo Ile než Tyr většina by se asi shodla na předposledním alignmentu největší sekvenční identita - 0%, 33%, 22%, 50%, 42% krátký alignment, málo mezer (delece nebo inzerce obecné méně pravděpodobná než substituce) obecně G/A nebo C/T záměna pravděpodobnější než G/C nebo A/T (pyrimidin za purin)
ALIGNMENT - POŽADAVKY CO JE OBECNĚ POTŘEBA K NALEZENÍ NEJLEPŠÍHO ALIGNMENTU? měřítko kvality alignmentu - skóre pro shodu/ neshodu (všechny kombinace) a skóre pro mezeru (obvykle negativní - gap penalty) algoritmus, který systematicky projde všechny možné alignmenty
SKÓRE ALIGMENTU vychází se ze skórovací tabulky, která přiděluje určité skóre každe možné kombinaci skórovací tabulky jsou symetrické SHODA = 1 NESHODA =0 SHODA =3 NESHODA (PU/PU ; PY/PY) =0 NESHODA (PU/PY) =-3 A C G T A 1 0 0 0 C 0 1 0 0 G 0 0 1 0 T 0 0 0 1 A C G T A 3-3 0-3 C -3 3-3 0 G 0-3 3-3 T -3 0-3 3
GAP PENALTY alignment score lze dobře statisticky odvodit z alignmentu, gap penalty se odhadují hůř...většinou se odhadují metodou pokusu a omylu buď konstantní - každá mezera za stejnou pokutu nebo rozdílná pokuta pro první (gap-opening penalty) a každou další mezeru (gap-extension penalty) -> affine gap penalties první mezera má výšší penaltu než každá další
GAP PENALTY 3 4 5 6 7 8 9 10 11 12 13 14 PHE ASP ILE CYS ARG LEU PRO GLY SER ALA GLU ALA VAL CYS PHE ASN VAL CYS ARG THR PRO --- --- --- GLU ALA ILE CYS PHE ASN VAL CYS ARG --- --- --- THR PRO GLU ALA ILE CYS jedním z pokusů je definování variabilních gap penalties založených na strukturách -> nižší pravděpodobnost výskytu mezery v pravidelných sekundárních strukturách, v hydrofóbních jádrech
SKÓRE PRO NÁŠ ALIGNMENT GGCATGAG GTACGTACG SHODA =3 NESHODA (PU/PU ; PY/PY) =0 NESHODA (PU/PY) =-3 GAP PENALTY (KONSTANTNÍ) = -5 A C G T A 3-3 0-3 C -3 3-3 0 G 0-3 3-3 T -3 0-3 3
Alignment Shoda (+3) Pu/Pu (0) Pu/Py (-3) Gap (-5) Score ---------GTACGTACG GGCATGAGG--------- 0 0 0 18-90 GTACGTACG GGCATGAGG -GTACGTACG- GGC-ATG-AGG GT-ACGTACG GGCATG-AGG GTACG--T-ACG G---GCATGAGG
Alignment Shoda (+3) Pu/Pu (0) Pu/Py (-3) Gap (-5) Score ---------GTACGTACG GGCATGAGG--------- GTACGTACG GGCATGAGG -GTACGTACG- GGC-ATG-AGG GT-ACGTACG GGCATG-AGG GTACG--T-ACG G---GCATGAGG 0 0 0 18-90 3 0 5 0-6 2 1 4 4-26 5 1 2 2-1 5 0 1 6-18
A TEĎ VY! Alignment Shoda (+3) Pu/Pu (0) Pu/Py (0) Gap (-4) Score GTACGTACG GGCATGAGG GT-ACGTACG GGCATG-AGG
A TEĎ VY Alignment Shoda (+3) Pu/Pu (0) Pu/Py (0) Gap (-4) Score GTACGTACG GGCATGAGG GT-ACGTACG GGCATG-AGG 3 0 5 0 9 5 1 2 2 7
NEJLEPŠÍ ALIGNMENT - SKUTEČNÝ ALIGNMENT? alignment s nejvyšším skóre se nazývá optimální alignment, ostatní alignmenty jsou suboptimální optimální alignment však nemusí být ten který popisuje, co se v evoluci skutečně stalo naopak, ani spávný alignment nemusí mít optimální skóre nicméně, současné protokoly poskytují většinou užitečné výsledky...se zrnkem soli je však třeba je brát vždy
SKÓROVACÍ TABULKY (SUBSTITUTION MATRICES) používané jako základ pro výpočet skóre alignmentu DNA skórovací tabulky jednoduché - např.: shoda = +1, neshoda = 0 nebo shoda = +5, neshoda = -4 DNA sekvence se používají méně, neboť se pro většinu aplikací hodí více proteinové sekvence
PROTEINOVÉ SUBSTITUTION MATRICES výsledný alignment je ovlivněn zvolenou substituční tabulky, proto je jim věnována velké pozornost na začátku tabulky, které vycházely z fyzikálněchemických vlastností aminokyselin nebo z genetického kódu postupně nahrazeny tabulkami, které odpovídají skutečně pozorovaným mírám záměn mezi jednotlivými aminokyselinami
PAM PAM = Percent Accepted Mutations vyvinuta už v 70. letech 20. století Margaretou Dayhoff založena na pravděpodobných mírách mutace kalkulovaných z globálních alignmentů blízce podobných sekvencí kalkulována jako logaritmus pravděpodobnosti záměny aminokyseliny log odd = počet pozorovaných záměn/ počet očekávaných záměň při náhodném zaměňování
KALKULACE PRAVDĚPODOBNOSTI skóre pro záměnu valinu za isoleucin pravděpodobnost záměny pokud jsou sekvence příbuzné (pozorovaná) = 0.03 výskyt aminokyselin v populaci (databáze, proteom) = 0.1 a 0.05 poměr pravděpodobností = 0.03/(0.1*0.05) = 6x větší pravděpodobnost záměny V -> I než očekáváno při náhodných záměnách skóre = desítkový logaritmus * 10 a zaokrouhlen na nejbližší celé číslo = 10*log 6 = 10 * 0.778 = 8
BLOSUM BLOSUM = BLOck SUbstitution Matrix vytvořeny na začátku 90. let (Henikoff a Henikoff, 1992) založeno na lokálních alignmentech bloků aminokyselin s definovanou sekvenční identitou (u homologních proteinů) všechny tabulky vycházejí z experimentální dat, nejsou extrapolovány jako některé PAM tabulky
BLOSUM BLOSUM 80 - tabulka vypočítaná na základě alignmentu bloku sekvencí s identitou 80 % BLOSUM 62 - tabulka vypočítaná na základě alignmentu bloku sekvencí s identitou 62 %
BLOSUM VERSUS PAM PAM BLOSUM z globálního alignmentu velmi podobných sekvencí hodnoty pro vzdáleně podobné sekvence extrapolovány z hodnot pro velmi podobné sekvence evoluční vzdálenost z lokálního alignmentu bez mezer všechny hodnoty vycházejí ze skutečných alignmentů sekvenční identita
DNASEKVENCE RNASEKVENCE PAM 120-34335555495 = 44 BLOSUM 62-26445545695 = 51
ALIGNMENT - POŽADAVKY CO JE OBECNĚ POTŘEBA K NALEZENÍ NEJLEPŠÍHO ALIGNMENTU? měřítko kvality alignmentu - skóre pro shodu/ neshodu (všechny kombinace) a skóre pro mezeru (obvykle negativní - gap penalty) algoritmus, který systematicky projde všechny možné alignmenty
počet alignmentů roste pokud povolíme mezery generovat všechny možné alignmenty není praktické, neboť dvě sekvence o 100 aminokyselinách mají asi 10 75 možných alignmentů současné stolní počítače zvládnou okolo 2,5 x 10 9 operací za vteřinu (1 rok = 31 536 000 vteřin) 31 536 000 x 2,5 x 10 9 ~ = 8 x 10 16 operací/rok máme i rychlejší počítače, ale...
NEEDLEMAN-WUNSCH řešení přinesl až algoritmus Needlemana a Wunsche (1970), který modifikoval v matematice a programování používané algoritmy dynamického programování (dynamic programming) dynamic programming vyvinuto ve 40. letech 20. století jako způsob řešení problémů, kde se dělá řada rozhodnutí krok po kroku programming nemá spojení s programováním ve smyslu psaní programů, ale v matematickém smyslu jako optimizace průběh algoritmu se mění s konkrétním problémem, a proto je dynamický
pro každou pozici v alignmentu počítá s pomocí scoring matrix, zda je v daném místě optimálnější (vyšší skóre), aby došlo k shodě/neshodě v sekvenci či inzerci nebo deleci Needleman-Wunsch algoritmus dovede v každém kroku zavrhnout řadu alignmentů zvládnutelné v reálném čase
JAK TO FUNGUJE? jednu sekvenci píšeme do řádku, druhou do sloupce tabulky pro každou pozici v tabulce se počítá pravděpodobnost třech událostí: shody (záměny), inzerce v první sekvenci a inzerce v druhé sekvenci DI-1,J-1 DI,J-Y DI-1,J-1 + B (AJ, BJ) DI,J-Y - W (Y) DI-X,J DI-X,J - W (X)
JAK TO FUNGUJE? GAATTCAGTTA GGATCGA SKÓROVACÍ TABULKA: SI,J = 1 (POKUD SHODA) SI,J = 0 (POKUD NESHODA) W = 0 (GAP PENALTY) A C G T A 1 0 0 0 C 0 1 0 0 G 0 0 1 0 T 0 0 0 1
ZAČÍNÁME VYPLŇOVAT G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 G 0 A 0 T 0 C 0 G 0 A 0
G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 G 0 A 0 T 0 C 0 G 0 A 0 DI,J-Y DI,J-Y - W (Y) DI-1,J-1 + B (AJ, BJ) DI-X,J - W (X)
G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 A 0 1 T 0 1 C 0 1 G 0 1 A 0 1
G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 A 0 1 2 T 0 1 C 0 1 G 0 1 A 0 1
DOPLNÍME TABULKU G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 1 1 1 1 1 2 2 2 2 A 0 1 2 2 2 2 2 2 2 2 2 3 T 0 1 2 2 3 3 3 3 3 3 3 3 C 0 1 2 2 3 3 4 4 4 4 4 4 G 0 1 2 2 3 3 4 4 5 5 5 5 A 0 1 2 3 3 3 4 5 5 5 5 6
HLEDÁME ALIGNMENT G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 1 1 1 1 1 2 2 2 2 A 0 1 2 2 2 2 2 2 2 2 2 3 T 0 1 2 2 3 3 3 3 3 3 3 3 C 0 1 2 2 3 3 4 4 4 4 4 4 G 0 1 2 2 3 3 4 4 5 5 5 5 A 0 1 2 3 3 3 4 5 5 5 5 6
HLEDÁME ALIGNMENT G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 1 1 1 1 1 2 2 2 2 A 0 1 2 2 2 2 2 2 2 2 2 3 T 0 1 2 2 3 3 3 3 3 3 3 3 C 0 1 2 2 3 3 4 4 4 4 4 4 G 0 1 2 2 3 3 4 4 5 5 5 5 A 0 1 2 3 3 3 4 5 5 5 5 6 SEKVENCE 1 A SEKVENCE 2 A
HLEDÁME ALIGNMENT G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 1 1 1 1 1 2 2 2 2 A 0 1 2 2 2 2 2 2 2 2 2 3 T 0 1 2 2 3 3 3 3 3 3 3 3 C 0 1 2 2 3 3 4 4 4 4 4 4 G 0 1 2 2 3 3 4 4 5 5 5 5 A 0 1 2 3 3 3 4 5 5 5 5 6 SEKVENCE 1 TA SEKVENCE 2 -A
ŘEŠENÍ G A A T T C A G T T A 0 0 0 0 0 0 0 0 0 0 0 0 G 0 1 1 1 1 1 1 1 1 1 1 1 G 0 1 1 1 1 1 1 1 2 2 2 2 A 0 1 2 2 2 2 2 2 2 2 2 3 T 0 1 2 2 3 3 3 3 3 3 3 3 C 0 1 2 2 3 3 4 4 4 4 4 4 G 0 1 2 2 3 3 4 4 5 5 5 5 A 0 1 2 3 3 3 4 5 5 5 5 6 SEKVENCE 1 GAATTCAGTTA SEKVENCE 2 GGA-TC-G--A
HLEDÁNÍ ALIGNMENTU -SHRNUTÍ stopujeme alignment zpětně pro každou pozici určujeme odkuď jsme se k ní dostali v některých případech může vzniknout více optimálních alignmentů, program však zobrazí pouze jedno řešení
NEEDLEMAN-WUNSCH SHRNUTÍ využívá dynamické programování k zredukování možných alignmentů vytváří globální alignment zaručuje nalezení optimálního alignmentu (s přihlédnutím ke zvolené skórovací tabulce a gap penalty )
MULTIPLE SEQUENCE ALIGNMENT (MSA)
PROČ MSA? pokud srovnáváme příbuzné proteiny tak dostáváme silnější signál umožnuje nám zpřesnit alignment vzniklý srovnáním dvou sekvencí větší šance nalezení strukturně nebo funkčně významných aminokyselin základ pro fylogenetické studie
JAK NA MSA? lze použít dynamické programování, ale počet rozměrů v matrici roste úměrně s počtem srovnávaných sekvencí pokud by alignment 2 sekvencí o 50 aminokyselinách trval vteřinu, pak srovnání N sekvencí by trvalo 10 2N-4 s - 3 sekvence ~2 minuty, 4 sekvence ~ 3 hodiny, 5 sekvencí ~ 11,5 dne dynamické programování je pro více jak sekvence příliš pomalé tři a proto jej žádný z běžných programů nepoužívá HTTP://BIBISERV.TECHFAK.UNI-BIELEFELD.DE/VISUALIGN/IMAGES/2ALIGNMENTS.GIF
JAK NA MSA? většina programů používá hierarchické progresivní metody všechny kombinace sekvencí projdou pairwise sequence alignment alignmenty jsou hierarchicky seřazeny dle míry podobnosti (fylogenetický strom) finální multiple alignment je budován v krocích -první jsou seřazeny nejpodobnější sekvence, k takovému páru se přirovnává další nejbližší sekvence dokud nejsou použity všechny sekvence
hierarchické progresivní metody MSA PŘÍSTUPY? všechny kombinace sekvencí projdou pairwise sequence alignment alignmenty jsou hierarchicky seřazeny dle míry podobnosti (fylogenetický strom) finální multiple alignment je budován v krocích -první jsou seřazeny nejpodobnější sekvence, k takovému páru se přirovnává další nejbližší sekvence dokud nejsou použity všechny sekvence Clustal W, T-cofee
CLUSTAL W VŠECHNY ALIGNMENTY MÍRA PODOBNOSTI SEKVENCÍ GUIDE TREE POSTUPNÉ SROVNÁVÁNÍ THOMPSON ET AL., 1994
MSA V PRAXI největší slabinou je, že chyby vytvořené v úvodních alignmentech se propagují do výsledného alignmentu iterativní metody - optimizace objektivní funkce přes realigning podskupin sekvencí - Muscle, ProbCons učící metody - HMM, genetické algoritmy, simulated annealing - FSA phylogeny-aware methods - PRANK, PAGAN MSA porovnávány proti databázi strukturních alignmentů (BALiBase)
MAFFT metoda pro velké soubory dat (fylogenetické analýzy) homologické oblasti jsou identifikovány pomocí rychlých Fourierovách transformací (objem a polarita aa) alignment kombinací progresivních a iterativních metod až 100x rychlejší než T-cofee při stejné přesnosti novější FAMSA (Deorowicz, 2016)
PHYLOGENY-AWARE MSA PAGAN, ProGraphMSA snaží se minimalizovat počet mezer v alignmentu
FAST STATISTICAL ALIGNMENT používá machine learning metodu simulated annealing na základě pairwise alignmentů gap penalties i skorovací tabulky jsou odhadovány pro každý set sekvencí individuálně - velmi robustní i pro velmi dlouhé sekvence
STRUKTURNÍ / SEKVENČNÍ ALIGNMENT struktura lépe konzervována než sekvence umožňuje odhalovat homologie v sekvenční twilight (midnight) zone vylepšuje multiple sequence alignments, predikce struktury a metodiku alignmentu obecně
STRUKTURNÍ VERSUS SEKVENČNÍ 1FWR_A 2YPI_A 1FWR_A 2YPI_A 1FWR_A 2YPI_A 1FWR_A 2YPI_A -------------------------MKNWKTSAESILTTGPVVPVIVVKKLEHAVPMAKA ARTFFVGGNFKLNGSKQSIKEIVERLNTASIPENVEVVICPPATYLDYSVSLVKKPQVTV ::... : :. *.. :. *... LVAGGVRVLEVTLRTECAVDAIRAIAKEVPEAIVGAGTVLNPQQLAEVTE-------AGA GAQNAYLKASGAFTGENSVDQIKDVGAKWVILGHSERRSYFHEDDKFIADKTKFALGQGV.... :: * :** *: :. :. :: ::: *. QFAISPGLTEPLLKAATEGTIPLIPGISTVSELMLGMDYGLKEFQFFPAEANGGVKALQA GVILCIGETLEEKKAGKTLDVVERQLNAVLEEVKDWTNVVVAYEPVWAIGTGLAATPEDA. :. * * **.. : :.:.*: : :.:. :.... :* IAGPFSQVRFCPKGGISPANYRDYLALKSVLCIGGSWLVPADALEAGDYDRITKLAREAV QDIHASIRKFLASKLGDKAASELRILYGGSANGSNAVTFKDKADVDGFLVGGASLKPEFV * :*... *. :...:..* * :.* * *
STRUKTURNÍ VERSUS SEKVENČNÍ Sequence 1 ------------ART---FFVGGNFKLNG-SKQSI-KEIVERLNTASI--PENVEVVICP.=ALI =ID................... Sequence 2 MKNWKTSAESIL--TTGP--VVPVI--VVKKLEHAVP-MAKALVAG-GVR-----V-LEV Sequence 1 ------PATYLDYSVSLV-KKPQVTVGAQ-N--AY-LKASGAFTGEN-S---VDQIKDVG.=ALI =ID............. Sequence 2 TLRTECAVDAIRAIAKEVP-E--AIVGAGTVLN-PQ----------QLAEVT--E---AG Sequence 1 AKWVILGH--SERRSYFHEDDKFIADKTKFALGQGVGVILCIGETLEEKKAGKTLDVVER.=ALI =ID.................. Sequence 2 AQFAIS-PGL-------------TEPLLKAATEGTIPLIPGIS--------------TVS Sequence 1 QLNAV-LEEVKDW-TNVVVAYEP--VW--AIGTGLAATPEDA--QDI--HASI-RKFLA-.=ALI =ID................... Sequence 2 ELMLGMD--YG-LK---EFQFFPAE-ANG-------G----VKA--LQA--IAG-P--FS Sequence 1 SKLGDKAA-SELRILYGGSANGSN-AVTF---KDK-ADVDGFLVGGA-SLK---------.=ALI =ID..................... Sequence 2 -------QV---RFCPKGGIS-PANY--RDYL--ALKSVLCIGG-SWL-VPADALEAGDY
STRUKTURNÍ VERSUS SEKVENČNÍ
KVALITA ALIGNMETU lze hodnotit za pomoci strukturní informace MSA porovnávány proti databázi strukturních alignmentů (BALiBase), HomFam program APDB (součást T-Coffee) pokud jsou známy alespoň dvě struktury umožňuje vybrat nejlepší z alternativních alignmentů QuanTest (2017) - za pomoci přesnosti predikce sekundárních struktur
není uniformní KVALITA UVNITŘ ALIGNMENTU MSA programy však často neoznačují kterým částem alignmentu věří a kterým nikoliv (FSA) pro účely fylogenetických analýz se často vyřazují oblasti se spoustou mezer TrimAl, JalView, UGENE
STROM ZE VŠECH GENOMOVÝCH SEKVENCÍ výběr genů, identifikace ortologů.. whole-genome phylogenies většinou alignment-free metody - pořadí genů, množství genů, nukleotidové složení, SNP, metabolické dráhy -> kompletně pomíjí evoluční koncepty alignment metody spoléhající na průměrné hodnoty podobností - typicky pracují jen z ortology plně automatické metody používající i neortologické sekvence (Yonoko et al., 2018)
SHRNUTÍ databáze by měly být pravidelně updatovány přehled dostupných biologických databází vždy v lednovém čísle NAR řada velmi specializovaných databází hledání v databázích povětšinou heuristickými metodami standard dnes BLAST nutno hodnotit statistickou významnost nálezu citlivější metodou PSI-Blast nebo HMM metody