Bioinformatika lignment http://bio.img.cas.cz Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz Jan Pačes Ústav molekulární genetiky hpaces@img.cas.cz
typy alignmentů : :n n:n n Pattern search Dot plot SSERCH BLITZ FST BLST PSI-BLST HMMER ClustalW Multlign Dialign
sum matrix parametry: match + mismatch - open gap - ext. ap - 9 9 - - 9 8 8 9 8-9 9 9 - T - - - 8 C - - - - - - - - - - T T C T C 8 8 - - - pairwise alignment 9 9 - - 9 8 8 9 8-9 9 9 - T - - - 8 C - - - - - - - - - - T T C T C CTCTT ::::: :::::: CT----
identity matrix Blosum # Entropy =.99, Expected = -.9 R N D C Q E H I L K M F P S T W Y V B Z X * - - - - - - - - - - - - - - - - - R - - - - - - - - - - - - - - - - - N - - - - - - - - - - - - D - - - - - - - - - - - - - - - - - C - - - 9 - - - - - - - - - - - - - - - - - - - Q - - - - - - - - - - - - - E - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - H - - - - 8 - - - - - - - - - - - - I - - - - - - - - - - - - - - - - - - - L - - - - - - - - - - - - - - - - - - - K - - - - - - - - - - - - - - - - M - - - - - - - - - - - - - - - - - - F - - - - - - - - - - - - - - - - - - P - - - - - - - - - - - - - - - - - - - - - - - S - - - - - - - - - - - - T - - - - - - - - - - - - - - - - - - W - - - - - - - - - - - - - - - - - - - - - Y - - - - - - - - - - - - - - - - - - - - V - - - - - - - - - - - - - - - - - - B - - - - - - - - - - - - - - - Z - - - - - - - - - - - - - - X - - - - - - - - - - - - - - - - - - - - - * - - - - - - - - - - - - - - - - - - - - - - -
alternativní způsoby výpočtu gap penalty Nejběžnější způsob: w x = y + zx kde x ; y,z (Fasta, Blast) Fixní gap penalty: w x = y kde x ; y Prodloužení jako funkce: w x = y + f(x) kde x,z ; y ; f(x)=log(x) f(x)=z-(z/x ) Odlišně krajové gaps Různé open, případně extended gap penalty pro T a C nebo různé aminokyseliny
global vs. local alignment lobální: Porovnáváme kompletní geny (proteiny) - zajímá nás, do jaké míry si jsou příbuzné. Přítomnost nehomologních párů je neutrální, aby nebylo ovlivněno celkové skóre. aka Needleman-Wunsch. Lokální: Hledáme podobné oblasti uvnitř delších sekvencí (domény) - zajímá nás, jestli obsahují konzervované úseky. Negativní skóre pro nehomologní páry (se vzdáleností od domény skóre klesá). Nejvyšší skóre nehledáme pouze v posledním sloupci/řádku, ale v celé sum matrix. Postupujeme na obě strany k nule. aka Smitch-Waterman.
optimalizace pro hledání v databázích Efektivita hledání je řádu N *L (N je délka prohledávající sekvence, L velikost prohledávané databáze.) K dnešku enbank: 9 9 8 nt Swiss-prot: 88 9 aa Zlepšení: Výchozí úvaha: oblasti, které si jsou podobné, budou pravděpodobně obsahovat krátké identické úseky. Hledáme: Oblasti, kde následuje několik identických "slov" (words) ve stejném pořadí za sebou. Použijeme předpočítanou tabulku výskytu běžných "slov" v databázi - hashing. Výpočet tabulky je řádu L (velikost databáze), ale použití pouze řádu N (délka prohledávané sekvence). Nalezený úsek s okolím použijeme pro přesný alignment.
Fast - princip Fast - Fast lgorhitm. Najdeme diagonály krátkých identických sekvencí.. Získáme alignment a spočteme jeho skóre bez mezer (init).. Jednotlivé části spojíme a získáme neoptimalizovaný alignment, do skóre započítáme i gaps (initn).. Prodloužíme alignment na obě strany a použitím "pairwise" algoritmu získáme optimalizovaný alignment (opt).. Spočteme z-skóre (bit-skóre) a expectancy
Fast - použití zdrojový kód: ftp://ftp.virginia.edu/pub/fasta (Zdrojový kód pro akademické použití volný, kompilace pod UNIXy bez problémů, lze kompilovat i pod windows. www: vstupní parametry: k-tuple (velikost slova) similarity matrix gap open penalty extended gap penalty. programy: http://www.ebi.ac.uk/fasta fasta DN x DNdb nebo x db tfasta x DNdb přeloženou do v šesti možných framech fastx/y DN přeloženou x db tfastx/y x DNdb přeloženou (t)fastf seřazené peptidy (Edman) x DNdb nebo db (t)fasts peptidy (hmotová spektroskopie) x DNdb nebo db ssearch DN x DN nebo x, Smith-Waterman bez optimalizace
Fast - www
Fast - výsledky
Fast - výsledky >>SWLL:SBD_DROME P98 ooseberry distal protein (BSH ( aa) initn: init: opt: 8 Z-score:. bits:. E(): 8e- Smith-Waterman score: 8;.% identity (.% ungapped) in aa overlap (-8:9- ) PX_M MQQDLSSVNQLLFVNRPLPLDTRQQIVQLIRMRPCDISRS :. ::::::.:.:::::: :.:::..: :.::: :::. SWLL: MVSLNMTPYFYPFQQRVNQLVFINRPLPNHIRRQIVEMVRPCVISRQ 8 9 PX_M LKVSNCVSKILRYYRTVLEPKCISKPRLTPVVRIQLKDEYPLFWEIQHQ :.::.:::::::.:..::..: :::::::.:::..::.::. :..:.:::.. SWLL: LRVSHCVSKILNRFQETSIRPVISKPRVTPDIESRIEELKQSQPIFSWEIRK 8 9 PX_M LCTELCTQDKPSVSSINRVLRLQEDQSLHWTQLRSPVLPVLPSPHSNC-PRP : :.:...:::::::.:.::.... :... :.:. : : SWLL: LIEVCDKQNPSVSSISRLLRSSSTSHSIDILSVSEDESEDDEPSVQ 8 8 9 PX_M HPTSHRNRTIFSPQELEKEFQRQYPDSVRKLTSLPEDTVRVWFSNRRKW..:.:: :: :.:::. : : ::::.:.::.:.: : :.::::::::. SWLL: LKRKQRRSRTTFSNDQIDLERIFRTQYPDVYTREELQSTLTERVQVWFSNRRRL 9
Fast - poznámky Zvýšením k-tuple se zvýší rychlost, ale sníží senzitivita. Může minout pozitivní signál: sekvence ttctcgg a ctcccaa kódují stejný peptid ly-ser-thr-lys, ale při k-tuple > nebude podobnost nalezena peptidy sp-lys-val a lu-rg-ile jsou si biochemicky podobné, aminokyseliny jsou různé podobnost mezi peptidy ly-sp-ly-lys-ly a ly- lu-ly-rg-ly pro k-tuple a více nebude nalezena
Fast - reference W. J. Wilbur and D. J. Lipman. Rapid similarity searches of nucleic acid and protein data banks. Proc. Natl. cad. Sci. U.S.. 8:- (98) D. J. Lipman and W. R. Pearson. Rapid and sensitive protein similarity searches. Science :- (98) W. R. Pearson and D. J. Lipman. Improved tools for biological sequence comparison. Proc. Natl. cad. Sci. U.S.. 8:-8 (988)
BLST - princip BLST - Basic Local lignment Tool. Definujeme HSP (high segment scoring pair) jako úsek stejné délky dvou sekvencí se skóre, které nelze zlepšit prodloužením.. Předkompilujeme všechna slova o délce w se skóre lepším než T k dané sekvenci.. Hledáme v databázi zásahy ("hits") těchto slov.. Prodloužíme zásahy až do HSP. (Pro NCBI-BLST uvažujeme alespoň dva nepřekrývající se zásahy ve vzdálenosti na diagonále.). Spočteme bit-skóre a expectancy. (Pro DN použijeme čtyř bitovou kompresi.)
NCBI-BLST - použití zdrojový kód: pouze verze.x program: ftp://ncbi.nlm.nih.gov/blast/executables (UNIXy i windows, akademické použití zdarma) www: http://www.ncbi.nlm.nih.gov/blast/blast.cgi vstupní parametry: similarity matrix gap existence cost per residue gap cost lambda ratio programy: blastn blastp blastx DN x DNdb x db x DNdb přeloženou do v šesti možných framech
WU-BLST - použití zdrojový kód: pouze verze.x program: http://sapiens.wustl.edu/blast/blast/executables (Pouze UNIXy, pro akademické užití zdarma.) www: http://www.ebi.ac.uk/blast vstupní parametry: similarity matrix gap existence cost per residue gap cost programy: blastn blastp blastx tblastn tblastx DN x DNdb x db x DNdb přeloženou do v šesti možných framech DN x db DN x DNdb přeloženou
BLST - www
BLST - www
BLST - výsledky
BLST - výsledky >gi 98 sp O9 PX_ORYL Length = Paired box protein Pax- Score = bits (89), Expect = e- Identities = / (%), Positives = 9/ (%), aps = / (%) Query: MQQDLSSVNQLLFVNRPLPLDTRQQIVQLIRMRPCDISRSLKVSNCVSKILR M Q+ S VNQL+FVNRPLP TRQ+IV+L RPCDISR L+VSNCVSKILR Sbjct: 9 MMQNSHSVNQLVFVNRPLPDSTRQKIVELHSRPCDISRILQVSNCVSKILR 8 Query: YYRTVLEPKCISKPRLTPVVRIQLKDEYPLFWEIQHQLCTELCTQDKPS YY T + P+ ISKPR+TP VV+IQ K E P++FWEI+ +L +E+CT D PS Sbjct: 9 YYETSIRPRISKPRVTPEVVKIQYKRECPSIFWEIRDRLLSEICTNDNIPS 8 Query: VSSINRVLRL-QEDQSL----HWTQLRS---------------PVLPVLPSPHSNC VSSINRVLR L E Q + + +LR P P P+ C Sbjct: 9 VSSINRVLRNLSEKQQMDMYDKLRMLNQTTWTRPWYPTSVPQPN-QDCQ 9 Query: PRPHPTS----------------------HRNRTIFSPQELEKEFQRQYPDSV 98 T+ RNRT F+ Q ELEKEF+R YPD Sbjct: 98 QQDENTNSISSNEDSEETQMRLQLKRKLQRNRTSFTQEQIELEKEFERTHYPDVF Query: 99 RKLTSLPEDTVRVWFSNRRKWRRQEKLK R +L LPE ++VWFSNRRKWRR+EKL+ Sbjct: 8 RERLKIDLPERIQVWFSNRRKWRREEKLR 9
BLST - reference S. F. ltschul, W. ish, W. Miller, E. W. Myers and D. J. Lipman. Basic Local lignment Search Tool. J. Mol. Biol. :- (99) Karlin, Samuel and Stephen F. ltschul. pplications and statistics for multiple high- scoring segments in molecular sequences. Proc. Natl. cad. Sci. US 9:8- (99) ltschul SF, Madden TL, Schaffer, Zhang J, Zhang Z, Miller W, Lipman DJ. apped BLST and PSI-BLST: a new generation of protein database search programs. Nucleic cids Res. ():89-. (99)
PSI-BLST - princip PSI-BLST - Position Specific Iterated BLST. Pomocí BLST získáme sadu sekvencí se skóre lepším než T.. Sestrojíme multiple alignment.. Identity matrix o velikosti x nahradíme matrix o velikosti Lx (kde L je délka použité sekvence), kterou spočteme z multiple alignmentu. Získáme novou sadu sekvencí.. Iterujeme přes kroky -. www: http://www.ncbi.nlm.nih.gov/blast/psiblast.cgi
PSI-BLST - www
PSI-BLST - výsledky
PSI-BLST - výsledky
PHI-BLST - princip PHI-BLST - Pattern Hit Initiated BLST. Pomocí BLSTu získáme sadu sekvencí se skóre lepším než S. Pro výpočet skóre použijeme "pattern", krátkou sekvenci ve formátu PROSITE.. Skóre Sestrojíme multiple alignment a pro iterace použijeme PSI-BLST. patterny: (ve stylu PROSITE) [LFYT] výběr z několika aminokyselin x(,) až libovolných aminokyselin - nic (oddělovač) například [LIVMF]--E-x(,)-()-x-[STCV]
PHI-BLST - princip www: http://www.ncbi.nlm.nih.gov/blast/ /psiblast.cgi?jform= reference: Zhang, Zheng, lejandro. Schäffer, Webb Miller, Thomas L. Madden, David J. Lipman, Eugene V. Koonin, and Stephen F. ltschul, Protein sequence similarity searches using patterns as seeds. Nucleic cids Res. :98-99. (998)
HMMER - princip i i i s m m m m e d d
HMMER - vizualizace
HMMER - použití zdrojový kód: http://hmmer.wustl.edu (Zdrojový kód pro akademické použití volný, kompilace pod UNIXy bez problémů) www: programy: hmmsearch hmmerpfam http://pfam.wustl.edu prohledává modelem (hmmerem) databázi sekvencí prohledává sekvencí databázi modelů