Bioinformatika. Alignment 2. http://bio.img.cas.cz. Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz

Podobné dokumenty

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Thursday, February 27, 14

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

DMX512 PC Control Stručný návod k použití programu Verze 1.0 Copyright 2007 Dokumentace: Ing. Jaroslav Nušl

Bioinformatika. Jiří Vondrášek Ústav organické chemie a biochemie Jan Pačes Ústav molekulární genetiky

Definice z = f(x,y) vázané podmínkou g(x,y) = 0 jsou z geometrického hlediska lokálními extrémy prostorové křivky k, Obr Obr. 6.2.

Střední průmyslová škola a Vyšší odborná škola technická Brno, Sokolská 1. Podpora digitalizace a využití ICT na SPŠ CZ.1.07/1.5.00/34.

MS Word 2007 REVIZE DOKUMENTU A KOMENTÁŘE

2.6.4 Lineární lomené funkce s absolutní hodnotou

Numerická integrace. 6. listopadu 2012

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

Asymptoty grafu funkce

B Kvantitativní test. Semestrální práce TUR. Novotný Michal

UŽITÍ DERIVACÍ, PRŮBĚH FUNKCE

Výrazy lze též zavést v nečíselných oborech, pak konstanty označuji jeden určitý prvek a obor proměnné není množina čísel.

Druhá mocnina. Druhá odmocnina Druhá odmocnina. Předpoklady: V této hodině jsou kalkulačky zakázány.

Fyzikální praktikum 3 - úloha 7

Využití internetových zdrojů při studiu mikroorganismů

1 Měření kapacity kondenzátorů

Goniometrie trigonometrie

Exponenciála matice a její užití. fundamentálních matic. Užití mocninných řad pro rovnice druhého řádu

7. Silně zakřivený prut

Ozobot aktivita lov velikonočních vajíček

Lineární Regrese Hašovací Funkce

M-10. AU = astronomická jednotka = vzdálenost Země-Slunce = přibližně 150 mil. km. V následující tabulce je závislost doby

Pravoúhlá axonometrie - řezy hranatých těles

Gymnázium, Praha 10, Voděradská 2 Projekt OBZORY

Název materiálu: Počasí a podnebí - opakování

Rostislav Horčík. 13. října 2006

VEŘEJNÁ VYHLÁŠKA. Oznámení o zahájení vodoprávního řízení

Prostorové indexační techniky. Zdeněk Kouba

Business Contact Manager Správa kontaktů pro tisk štítků

SIMATIC WinCC V7.2. Novinky. Nur für internen Gebrauch / Siemens AG Alle Rechte vorbehalten.

Základy počítačové grafiky

Název atributu Popis Dat. typ Délka Povinnost Kontroly Element Hodnota Sekce na Pole na formulá i/

Stavební mechanika přednáška, 2. května 2016

souřadné systémy geometrické určení polohy pevně spojené se vztažným tělesem

Jednofázový alternátor

Lineární algebra. Vektorové prostory

Vyhledávání podobných sekvencí BLAST

ÚVOD DO BIOINFORMATIKY

Struktury a obsah výstupních zpráv pro MultiCash ČSOB

4 DVOJMATICOVÉ HRY. Strategie Stiskni páku Sed u koryta. Stiskni páku (8, 2) (5, 3) Sed u koryta (10, 2) (0, 0)

Podklady pro navrhování podlahových souvrství z hlediska akustických požadavků

Protokol č. 4. Objem ležícího kmene

Programování pro deskriptivní geometrii

Algoritmizace a programování

Univerzita Tomáše Bati ve Zlíně

Magistrát města Zlína, stavební úřad, náměstí Míru 12, Zlín

Příprava halogenderivátů Halogenace alkanů

PREDIKTOR VLIVU AMINOKYSELINOVÝCH SUBSTITUCÍ NA FUNKCI PROTEINŮ

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Grafické řešení soustav lineárních rovnic a nerovnic

(a) = (a) = 0. x (a) > 0 a 2 ( pak funkce má v bodě a ostré lokální maximum, resp. ostré lokální minimum. Pokud je. x 2 (a) 2 y (a) f.

Informační a komunikační technologie. 1.4 Data, informace, komprimace

Tři verze ukázkového kompostoviště v Těšenicích u Olomouce

Chybějící vybavenost. jádro x spádová oblast. Q2 co by v dosažitelnosti uvítal

Věty o pravoúhlém trojúhelníku. Vztahy pro výpočet obvodu a obsahu. Eukleidova věta o výšce. Druhá mocnina výšky k přeponě je rovna součinu

Digitální učební materiál

Polosuchá vápenná metoda odsíření spalin - hmotová bilance

Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM

Hra a hry. Václav Vopravil. Teorie kombinatorických her se zabývá abstraktními hrami dvou hráčů. Hra je definována R },

Bioinformatika pro PrfUK 2003

Zefektivnění zadávání znaků na mobilním telefonu bez T9

Datové formáty Obsah. Datové formáty (datové typy) Radim Farana Podklady pro výuku

Pokusy s kolem na hřídeli (experimenty s výpočty)

SITEMAP / STRUKTURA. VÝVOJ ONLINE PREZENTACE / ETAPA I. CLIENT / DHL Global Forwarding THEQ ALL GOOD THINGS

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

Semestrální práce NÁVRH ÚZKOPÁSMOVÉHO ZESILOVAČE. Daniel Tureček zadání číslo 18 cvičení: sudý týden 14:30

1) Určete ohniskové vzdálenosti čoček, jsou-li jejich optické mohutnosti 2 D, 16 D, - 4 D, - 12 D.

Kouzlení s háčkem a jehlicemi Jablíčkový svetřík. Design by Vendula Maderská. Květen 2013

Změna sazby DPH v HELIOS Red po

Úprava tabulek v MS Word. Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí

Městský úřad Domažlice Odbor životního prostředí náměstí Míru 1, pracoviště U Nemocnice Domažlice

LPS2. Sada pro synchronní komunikaci na 1000m s galvanickým oddělením. 15. října 2010 w w w. p a p o u c h. c o m

3 Vývojová prostředí, základní prvky jazyka Java, konvence jazyka Java

Zabezpečení. Uživatelská příručka

SNÍMAČ T3110. Programovatelný snímač teploty, relativní vlhkosti a dalších odvozených vlhkostních veličin s výstupy 4-20 ma.

Kontrolní test Číslicová technika 1/2. 1.Převeďte číslo 87 z desítkové soustavy z= 10 do soustavy dvojkové z=2

Informace o počtu nezaměstnaných ve Středočeském kraji k

EHLED OSV za rok 2015 vykonávajících pouze hlavní SV

METODY ASTROFYZIKÁLNÍHO VÝZKUMU. B. Úhel, pod kterým pozorujeme z hvězdy kolmo na směr paprsků poloměr dráhy Země kolem Slunce,

Uživatelský manuál k instalaci a aktivaci systému BUILDpower S

Obvodová ešení snižujícího m ni e

VY_62_INOVACE_VK53. Datum (období), ve kterém byl VM vytvořen Květen 2012 Ročník, pro který je VM určen

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Operační systémy. Přednáška 6: Uváznutí procesů/vláken

Tvorba webových stránek

Promlčení a prekluze v obchodním právu. Pojem promlčení a prekluze Michal Černý, Ph.D.

Obsah. Úvod 13 Část I: Úvod do MySQL. Část II: Návrh a tvorba databází v MySQL

Algoritmus (nebo dřívějším pravopisem algorithmus)

Rychlé vyrovnávací paměti (cache)

Obchodní podmínky PRESPLAST s.r.o.

na tyč působit moment síly M, určený ze vztahu (9). Periodu kmitu T tohoto kyvadla lze určit ze vztahu:

5.1.2 Volné rovnoběžné promítání

MĚŘENÍ NÁKLADŮ, VÝKONNOSTI

Příručka pro práci s dataloggerem Labquest 2. Zapínání a domácí obrazovka

2 Trochu teorie. Tab. 1: Tabulka pˇrepravních nákladů

Poruchy modul pro rychlé hlášení poruch z provozu.

Transkript:

Bioinformatika lignment http://bio.img.cas.cz Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz Jan Pačes Ústav molekulární genetiky hpaces@img.cas.cz

typy alignmentů : :n n:n n Pattern search Dot plot SSERCH BLITZ FST BLST PSI-BLST HMMER ClustalW Multlign Dialign

sum matrix parametry: match + mismatch - open gap - ext. ap - 9 9 - - 9 8 8 9 8-9 9 9 - T - - - 8 C - - - - - - - - - - T T C T C 8 8 - - - pairwise alignment 9 9 - - 9 8 8 9 8-9 9 9 - T - - - 8 C - - - - - - - - - - T T C T C CTCTT ::::: :::::: CT----

identity matrix Blosum # Entropy =.99, Expected = -.9 R N D C Q E H I L K M F P S T W Y V B Z X * - - - - - - - - - - - - - - - - - R - - - - - - - - - - - - - - - - - N - - - - - - - - - - - - D - - - - - - - - - - - - - - - - - C - - - 9 - - - - - - - - - - - - - - - - - - - Q - - - - - - - - - - - - - E - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - H - - - - 8 - - - - - - - - - - - - I - - - - - - - - - - - - - - - - - - - L - - - - - - - - - - - - - - - - - - - K - - - - - - - - - - - - - - - - M - - - - - - - - - - - - - - - - - - F - - - - - - - - - - - - - - - - - - P - - - - - - - - - - - - - - - - - - - - - - - S - - - - - - - - - - - - T - - - - - - - - - - - - - - - - - - W - - - - - - - - - - - - - - - - - - - - - Y - - - - - - - - - - - - - - - - - - - - V - - - - - - - - - - - - - - - - - - B - - - - - - - - - - - - - - - Z - - - - - - - - - - - - - - X - - - - - - - - - - - - - - - - - - - - - * - - - - - - - - - - - - - - - - - - - - - - -

alternativní způsoby výpočtu gap penalty Nejběžnější způsob: w x = y + zx kde x ; y,z (Fasta, Blast) Fixní gap penalty: w x = y kde x ; y Prodloužení jako funkce: w x = y + f(x) kde x,z ; y ; f(x)=log(x) f(x)=z-(z/x ) Odlišně krajové gaps Různé open, případně extended gap penalty pro T a C nebo různé aminokyseliny

global vs. local alignment lobální: Porovnáváme kompletní geny (proteiny) - zajímá nás, do jaké míry si jsou příbuzné. Přítomnost nehomologních párů je neutrální, aby nebylo ovlivněno celkové skóre. aka Needleman-Wunsch. Lokální: Hledáme podobné oblasti uvnitř delších sekvencí (domény) - zajímá nás, jestli obsahují konzervované úseky. Negativní skóre pro nehomologní páry (se vzdáleností od domény skóre klesá). Nejvyšší skóre nehledáme pouze v posledním sloupci/řádku, ale v celé sum matrix. Postupujeme na obě strany k nule. aka Smitch-Waterman.

optimalizace pro hledání v databázích Efektivita hledání je řádu N *L (N je délka prohledávající sekvence, L velikost prohledávané databáze.) K dnešku enbank: 9 9 8 nt Swiss-prot: 88 9 aa Zlepšení: Výchozí úvaha: oblasti, které si jsou podobné, budou pravděpodobně obsahovat krátké identické úseky. Hledáme: Oblasti, kde následuje několik identických "slov" (words) ve stejném pořadí za sebou. Použijeme předpočítanou tabulku výskytu běžných "slov" v databázi - hashing. Výpočet tabulky je řádu L (velikost databáze), ale použití pouze řádu N (délka prohledávané sekvence). Nalezený úsek s okolím použijeme pro přesný alignment.

Fast - princip Fast - Fast lgorhitm. Najdeme diagonály krátkých identických sekvencí.. Získáme alignment a spočteme jeho skóre bez mezer (init).. Jednotlivé části spojíme a získáme neoptimalizovaný alignment, do skóre započítáme i gaps (initn).. Prodloužíme alignment na obě strany a použitím "pairwise" algoritmu získáme optimalizovaný alignment (opt).. Spočteme z-skóre (bit-skóre) a expectancy

Fast - použití zdrojový kód: ftp://ftp.virginia.edu/pub/fasta (Zdrojový kód pro akademické použití volný, kompilace pod UNIXy bez problémů, lze kompilovat i pod windows. www: vstupní parametry: k-tuple (velikost slova) similarity matrix gap open penalty extended gap penalty. programy: http://www.ebi.ac.uk/fasta fasta DN x DNdb nebo x db tfasta x DNdb přeloženou do v šesti možných framech fastx/y DN přeloženou x db tfastx/y x DNdb přeloženou (t)fastf seřazené peptidy (Edman) x DNdb nebo db (t)fasts peptidy (hmotová spektroskopie) x DNdb nebo db ssearch DN x DN nebo x, Smith-Waterman bez optimalizace

Fast - www

Fast - výsledky

Fast - výsledky >>SWLL:SBD_DROME P98 ooseberry distal protein (BSH ( aa) initn: init: opt: 8 Z-score:. bits:. E(): 8e- Smith-Waterman score: 8;.% identity (.% ungapped) in aa overlap (-8:9- ) PX_M MQQDLSSVNQLLFVNRPLPLDTRQQIVQLIRMRPCDISRS :. ::::::.:.:::::: :.:::..: :.::: :::. SWLL: MVSLNMTPYFYPFQQRVNQLVFINRPLPNHIRRQIVEMVRPCVISRQ 8 9 PX_M LKVSNCVSKILRYYRTVLEPKCISKPRLTPVVRIQLKDEYPLFWEIQHQ :.::.:::::::.:..::..: :::::::.:::..::.::. :..:.:::.. SWLL: LRVSHCVSKILNRFQETSIRPVISKPRVTPDIESRIEELKQSQPIFSWEIRK 8 9 PX_M LCTELCTQDKPSVSSINRVLRLQEDQSLHWTQLRSPVLPVLPSPHSNC-PRP : :.:...:::::::.:.::.... :... :.:. : : SWLL: LIEVCDKQNPSVSSISRLLRSSSTSHSIDILSVSEDESEDDEPSVQ 8 8 9 PX_M HPTSHRNRTIFSPQELEKEFQRQYPDSVRKLTSLPEDTVRVWFSNRRKW..:.:: :: :.:::. : : ::::.:.::.:.: : :.::::::::. SWLL: LKRKQRRSRTTFSNDQIDLERIFRTQYPDVYTREELQSTLTERVQVWFSNRRRL 9

Fast - poznámky Zvýšením k-tuple se zvýší rychlost, ale sníží senzitivita. Může minout pozitivní signál: sekvence ttctcgg a ctcccaa kódují stejný peptid ly-ser-thr-lys, ale při k-tuple > nebude podobnost nalezena peptidy sp-lys-val a lu-rg-ile jsou si biochemicky podobné, aminokyseliny jsou různé podobnost mezi peptidy ly-sp-ly-lys-ly a ly- lu-ly-rg-ly pro k-tuple a více nebude nalezena

Fast - reference W. J. Wilbur and D. J. Lipman. Rapid similarity searches of nucleic acid and protein data banks. Proc. Natl. cad. Sci. U.S.. 8:- (98) D. J. Lipman and W. R. Pearson. Rapid and sensitive protein similarity searches. Science :- (98) W. R. Pearson and D. J. Lipman. Improved tools for biological sequence comparison. Proc. Natl. cad. Sci. U.S.. 8:-8 (988)

BLST - princip BLST - Basic Local lignment Tool. Definujeme HSP (high segment scoring pair) jako úsek stejné délky dvou sekvencí se skóre, které nelze zlepšit prodloužením.. Předkompilujeme všechna slova o délce w se skóre lepším než T k dané sekvenci.. Hledáme v databázi zásahy ("hits") těchto slov.. Prodloužíme zásahy až do HSP. (Pro NCBI-BLST uvažujeme alespoň dva nepřekrývající se zásahy ve vzdálenosti na diagonále.). Spočteme bit-skóre a expectancy. (Pro DN použijeme čtyř bitovou kompresi.)

NCBI-BLST - použití zdrojový kód: pouze verze.x program: ftp://ncbi.nlm.nih.gov/blast/executables (UNIXy i windows, akademické použití zdarma) www: http://www.ncbi.nlm.nih.gov/blast/blast.cgi vstupní parametry: similarity matrix gap existence cost per residue gap cost lambda ratio programy: blastn blastp blastx DN x DNdb x db x DNdb přeloženou do v šesti možných framech

WU-BLST - použití zdrojový kód: pouze verze.x program: http://sapiens.wustl.edu/blast/blast/executables (Pouze UNIXy, pro akademické užití zdarma.) www: http://www.ebi.ac.uk/blast vstupní parametry: similarity matrix gap existence cost per residue gap cost programy: blastn blastp blastx tblastn tblastx DN x DNdb x db x DNdb přeloženou do v šesti možných framech DN x db DN x DNdb přeloženou

BLST - www

BLST - www

BLST - výsledky

BLST - výsledky >gi 98 sp O9 PX_ORYL Length = Paired box protein Pax- Score = bits (89), Expect = e- Identities = / (%), Positives = 9/ (%), aps = / (%) Query: MQQDLSSVNQLLFVNRPLPLDTRQQIVQLIRMRPCDISRSLKVSNCVSKILR M Q+ S VNQL+FVNRPLP TRQ+IV+L RPCDISR L+VSNCVSKILR Sbjct: 9 MMQNSHSVNQLVFVNRPLPDSTRQKIVELHSRPCDISRILQVSNCVSKILR 8 Query: YYRTVLEPKCISKPRLTPVVRIQLKDEYPLFWEIQHQLCTELCTQDKPS YY T + P+ ISKPR+TP VV+IQ K E P++FWEI+ +L +E+CT D PS Sbjct: 9 YYETSIRPRISKPRVTPEVVKIQYKRECPSIFWEIRDRLLSEICTNDNIPS 8 Query: VSSINRVLRL-QEDQSL----HWTQLRS---------------PVLPVLPSPHSNC VSSINRVLR L E Q + + +LR P P P+ C Sbjct: 9 VSSINRVLRNLSEKQQMDMYDKLRMLNQTTWTRPWYPTSVPQPN-QDCQ 9 Query: PRPHPTS----------------------HRNRTIFSPQELEKEFQRQYPDSV 98 T+ RNRT F+ Q ELEKEF+R YPD Sbjct: 98 QQDENTNSISSNEDSEETQMRLQLKRKLQRNRTSFTQEQIELEKEFERTHYPDVF Query: 99 RKLTSLPEDTVRVWFSNRRKWRRQEKLK R +L LPE ++VWFSNRRKWRR+EKL+ Sbjct: 8 RERLKIDLPERIQVWFSNRRKWRREEKLR 9

BLST - reference S. F. ltschul, W. ish, W. Miller, E. W. Myers and D. J. Lipman. Basic Local lignment Search Tool. J. Mol. Biol. :- (99) Karlin, Samuel and Stephen F. ltschul. pplications and statistics for multiple high- scoring segments in molecular sequences. Proc. Natl. cad. Sci. US 9:8- (99) ltschul SF, Madden TL, Schaffer, Zhang J, Zhang Z, Miller W, Lipman DJ. apped BLST and PSI-BLST: a new generation of protein database search programs. Nucleic cids Res. ():89-. (99)

PSI-BLST - princip PSI-BLST - Position Specific Iterated BLST. Pomocí BLST získáme sadu sekvencí se skóre lepším než T.. Sestrojíme multiple alignment.. Identity matrix o velikosti x nahradíme matrix o velikosti Lx (kde L je délka použité sekvence), kterou spočteme z multiple alignmentu. Získáme novou sadu sekvencí.. Iterujeme přes kroky -. www: http://www.ncbi.nlm.nih.gov/blast/psiblast.cgi

PSI-BLST - www

PSI-BLST - výsledky

PSI-BLST - výsledky

PHI-BLST - princip PHI-BLST - Pattern Hit Initiated BLST. Pomocí BLSTu získáme sadu sekvencí se skóre lepším než S. Pro výpočet skóre použijeme "pattern", krátkou sekvenci ve formátu PROSITE.. Skóre Sestrojíme multiple alignment a pro iterace použijeme PSI-BLST. patterny: (ve stylu PROSITE) [LFYT] výběr z několika aminokyselin x(,) až libovolných aminokyselin - nic (oddělovač) například [LIVMF]--E-x(,)-()-x-[STCV]

PHI-BLST - princip www: http://www.ncbi.nlm.nih.gov/blast/ /psiblast.cgi?jform= reference: Zhang, Zheng, lejandro. Schäffer, Webb Miller, Thomas L. Madden, David J. Lipman, Eugene V. Koonin, and Stephen F. ltschul, Protein sequence similarity searches using patterns as seeds. Nucleic cids Res. :98-99. (998)

HMMER - princip i i i s m m m m e d d

HMMER - vizualizace

HMMER - použití zdrojový kód: http://hmmer.wustl.edu (Zdrojový kód pro akademické použití volný, kompilace pod UNIXy bez problémů) www: programy: hmmsearch hmmerpfam http://pfam.wustl.edu prohledává modelem (hmmerem) databázi sekvencí prohledává sekvencí databázi modelů