Vyhledávání podobných sekvencí BLAST

Podobné dokumenty
Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

Strom života. Cíle. Stručná anotace

Microsoft Office. Excel vyhledávací funkce

Predikce genů a anotace sekvence DNA

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

PRODUKTY. Tovek Tools

Tabulkový procesor. Základní rysy

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

PRODUKTY. Tovek Tools

Využití metod strojového učení v bioinformatice David Hoksza

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.

NGS analýza dat. kroužek, Alena Musilová

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy

Thursday, February 27, 14

Využití metagenomiky při hodnocení sanace chlorovaných ethylenů in situ Výsledky pilotních testů

Biologie. Autorské řešení kvalifikační úlohy

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Využití DNA markerů ve studiu fylogeneze rostlin

Inovace studia molekulární a buněčné biologie

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

INSTITUT PRO TESTOVÁNÍ A CERTIFIKACI, a. s. NÁVOD NA PŘÍSTUP K SEZNAMŮM VYSTAVENÝCH DOKUMENTŮ

PRŮZKUMNÍK ISDP NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP)

Počítačové vyhledávání genů a funkčních oblastí na DNA

Základy praktické Bioinformatiky

63. ročník Matematické olympiády 2013/2014

Vyhledávač datových referencí. Dokumentace

Modul Kontakt s klientem SSP. OKcentrum. Uživatelská příručka. Poskytování součinnosti ÚP ČR

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání

Minimální doporučená úroveň Školní výstupy Učivo

Exprese genetického kódu Centrální dogma molekulární biologie DNA RNA proteinu transkripce DNA mrna translace proteosyntéza

26 Evidence pošty. Popis modulu. Záložka Evidence pošty

Genetická diverzita masného skotu v ČR

Zpráva o zhotoveném plnění

Specializovaná mapa s interpretací regionálních rozdílů v oblasti sociálního výzkumu

Vyhledávání na Internetu

Nemocnice. Prvotní analýza a plán projektu

Začínáme s Tovek Tools

CLP ANALYSIS OF MOLECULAR MARKERS DIGITAL IMAGE ANALYSIS OF ELECTROPHOEROGRAMS CZECH VERSION

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 3. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Efektivní práce s Excelem (středně pokročilí uživatelé)

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Molekulární základy genetiky

Využití tabulkového procesoru MS Excel

Instalace. Produkt je odzkoušen pro MS SQL server 2008 a Windows XP a Windows 7. Pro jiné verze SQL server a Windows nebyl testován.

Pracovní list VY_32_INOVACE_33_15 Databáze Databáze Databáze Test Ing. Petr Vilímek

Testování uživatelského rozhraní internetové stránky společnosti České dráhy (cd.cz) A4B39TUR A2 Kateřina Cízlová

materiál č. šablony/č. sady/č. materiálu: Autor: Karel Dvořák Vzdělávací oblast předmět: Informatika Ročník, cílová skupina: 7.

Jak vyhledávat. Vyhledávače KAPITOLA 3

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

b) Jak se změní sekvence aminokyselin v polypeptidu, pokud dojde v pozici 23 k záměně bázového páru GC za TA (bodová mutace) a s jakými následky?

MOBILNÍ SKLADNÍK. Příručka k základnímu ovládání. Beta verze popisu produktu Aktualizace dokumentu: z 10

1. Umístěte kurzor do sloupce Datový typ na řádek s polem, ve kterém vytvořit chcete seznam.

Využití internetových zdrojů při studiu mikroorganismů

Vyhledávací služba GeocodeSOE. Popis rozhraní

Genetika zvířat - MENDELU

XERXES Portál informačních zdrojů. Ing. Lukáš Budínský PhDr. Ondřej Fabián


MODUL MUNI ASPI, a. s muni_manual.indd :57:23

Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MS Access formuláře a sestavy - vytváření Ing. Kotásek Jaroslav

Vyhledávací techniky a editace v klientovi ARL

Primární klíč, cizí klíč, referenční integrita, pravidla normalizace, relace

Tour de ABB 2013 Průvodce online aplikací

Inovace bakalářského studijního oboru Aplikovaná chemie

UNIVERZÁLNÍ TENKÝ KLIENT

Sekvence. Genom. Základní informace. Výstupy z výukové jednotky

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Průzkumník IS DP. Návod k obsluze informačního systému o datových prvcích (IS DP) vypracovala společnost ASD Software, s. r. o.

TouchGuard Online pochůzkový systém

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Aplikovaná bioinformatika

Referenční databáze DNA profilů pro uchovávání DNA profilů a operace s uloženými daty

Popis programu EnicomD

Access. Tabulky. Vytvoření tabulky

Rubrika Zajímavostí ze zahraničního obchodu končí, ostatní zdroje získávání dat zůstávají

Databox CONTACT 6 základní operace programu

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

EBSCO. Poklikneme na možnost EBSCOhost Web. Vybereme (poklepeme, zaškrtneme) databázi, s kterou chceme pracovat.

Cestovní zpráva. Program akce: Průběh akce. O Anopress

Molekulárn. rní. biologie Struktura DNA a RNA

METODIKA PRÁCE S TOUTO APLIKACÍ

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Využití strojového učení k identifikaci protein-ligand aktivních míst

Příručka pro vyhledávání v digitálním archivu Aip Safe III

Semestrální práce: Mashup. Observatory Star Explorer

CYCLOPE PRINT MANAGEMENT SOFTWARE- UŽIVATELSKÁ PŘÍRUČKA

Nephele systém. Akademie výtvarných umění v Praze. Ústav teorie informace a automatizace AV ČR, v.v.i. Ústav anorganické chemie AV ČR, v.v.i.

Ostatní portálové aplikace

Zadání soutěžních úloh

Jak používat statistiky položkové v systému WinShop Std.

5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA

Novinky v grafickém prostředí Marushka v ISÚI (leden 2019)

Novinky ISÚI a VDP verze

Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4.

Transkript:

Vyhledávání podobných sekvencí BLAST Základní informace Následující text je součástí učebních textů předmětu Analýza sekvencí DNA a je určen hlavně pro studenty Matematické biologie. Může být ovšem přínosný i pro další studenty biologických oborů - zejména molekulární biologie, genetiky, botaniky a zoologie. U studentů se předpokládá základní znalost znalost molekulární biologie a genetiky. Výstupy z výukové jednotky Student: *naplánuje alternativní metody, jak zjistit, zda má daná sekvence požadované vlastnosti - gen, lokalizace genu, taxonomické zařazení *popíše princip vyhledávání algoritmem blast *zvolí nastavení parametrů blastu pro získání informací o sekvencích rozličné délky a komplexnosti *vysvětlí výsledky z vyhledávání blastem vzhledem k hodnotám skóre alignmentu, identitě, pokrytí a E-hodnotě *zhodnotí výsledky vyhledávání vzhledem k požadovaným vlastnostem Vyhledávání sekvencí DNA pro vybraný gen nebo organizmus je dostupné přímo přes webové rozhraní genetických databází (odkaz na kapitolu Databáze). Vyhledávání je ale možné také pomocí samotné sekvence DNA, kde prohledáváme genetické databáze na základě podobnosti se zájmovou sekvencí. Algoritmus, který toto umožňuje, se nazývá blast a společně se svými variantami je schopen dohledat podobné sekvence DNA nebo i sekvence aminokyselin. Využití blastu Blast je první volbou, pokud sekvence sestavená z chromatogramů nesplňuje očekávání. Díky rozsahu a komplexnosti informací v GenBance a Evropském nukleotidovém archivu je možné blastem identifikovat gen a organizmus pro širokou škálu modelových systémů. Nalezne anotovaný záznam podobný zájmové sekvenci. Vyhledání podobnosti s již anotovanými sekvencemi se používá k anotaci zájmových sekvencí (odkaz na kapitolu Anotace). Blast identifikuje polohu, směr a název podobného genu, který se v databázích již vyskytuje. Schopnost blastu nalézt sekvence s podobnými rezidui je možné využít i pro sestavení datasetu pro následné analýzy. Uživatel si stáhne genomické úseky z předběžných, případně neanotovaných genomických dat, které jsou podobné zájmové sekvenci. Samozřejmě, při práci s neověřenými údaji je na místě opatrnost a kritický přístup k výsledkům. Pro analýzu podobných dat získaných blastem je důležité ověření, zda sekvence představují homologické lokusy (odkaz na kapitolu Alignment).

Přístup k blastu Plně funkční, aktuální verze blastu, která se dotazuje na nejnovější genetické databáze, je dostupná výlučně z webového rozhraní GenBanky (NCBI; obr. Blast.1). Na blast se dotazují i mnohé programy třetích stran, které umožňují zpracovávaní, editaci, anotaci nebo rekonstrukci fylogeneze sekvencí. Většinou neumožňují využít plnou funkčnost blastu. Ale jsou dostatečné pro první ověření nových sekvencí DNA. NCBI poskytuje plně funkční aktuální balík programů blastu, který je možné používat bez přístupu k internetu. Jedná se o programy spustitelné z příkazového řádku a oproti webové aplikaci mají tu výhodu, že umožňují použití jak veřejných genetických databází stáhnutých na lokální počítače, tak i vlastní referenční databáze. Práce s lokální instalací blastu je výhodná při nutnosti analyzovat velké množství sekvencí. Webové rozhraní totiž omezí uživateli přístup pokud zasílá dotazy po řádově stovkách denně. Princip blastu Blast představuje heuristické vyhledávání v rozsáhlé databázi, které rychle eliminuje nepodobné sekvence. Hlavním aspektem je, že blast nedohledává celou délku zájmové sekvence (query), ale jenom její část (slovo; word), kterou následně prodlužuje. 1. Odstranit ze sekvence oblasti s nízkou komplexitou (např. repetitivní úseky) 2. Rozdělit sekvenci na krátká slova (obr. Blast.2) 3. Vytřídit, seřadit a vybrat vhodná slova, která jsou lepší než zadaný práh (threshold) 4. Sestavit z vybraných slov efektivní vyhledávací strom 5. Najít přesnou shodu daného slova v databázi 6. Prodloužit slovo 7. Rozhodnout, zda má prodlužování význam s danými požadavky, případně spojit úseky nalezené vyhledáváním různých slov 8. Vypsat záznamy z GenBanky, které prošly rozhodováním a jsou tedy podobné dotazované, zájmové sekvenci (query) Délka slova výrazně ovlivňuje citlivost prohledávání a jednotlivé programy blastu používají slova o různé délce. Dlouhá slova (28 nukleotidových bází u megablastu) umožní rychlé prohledávání, ale naleznou jenom velmi podobné záznamy. Krátká slova (7 bází u blastn) jsou schopna objevit i málo podobné sekvence, ale prohledávání je pomalejší. Pomocí slov blast vytváří lokální alignment - oblasti, které se nejvíc shodují s částmi zájmové sekvence. Celá délka zájmové sekvence se nemusí shodovat se záznamem z GenBanky. Vyhledávání blastem se ukončí, pokud algoritmus narazí na některé z omezení (threshold). Může to být počet nalezených záznamů (hits), anebo naopak nenalezení dostatečného počtu záznamů, které by byly statisticky významně podobné zájmové sekvenci a zároveň měly nízkou pravděpodobnost, že se natolik podobné záznamy

v databázi vyskytují náhodou. Tato statistika se nazývá E-hodnota (E-value) a je potřebné porozumět jí pro pochopení výstupu z blastu. E-hodnota Genetické databáze obsahují velké množství dat, které se např. u nukleotidové databázi skládají z abecedy z jenom čtyř znaků x = {A,C,T,G}. Můžeme předpokládat, že se některé pořadí nukleotidů bude v databázi vyskytovat náhodou. Např. trojice nukleotidů ATG kóduje aminokyselinu metionín a zároveň je to start kodon, kterým začíná většina známých genů. Tato krátká sekvence se ovšem vyskytuje i v genomických úsecích, které nekódují proteiny. Nalezení takové shody v genomické sekvenci je z pohledu vyhledávání podobných sekvencí nesmyslné. E- hodnota vyjadřuje, nakolik nesmyslné porovnání sekvencí je. Přesněji, E-hodnota určuje, kolik krát se v dané genetické databázi bude vyskytovat stejně podobná sekvence náhodou. Počítá se podle vzorce: kde m a n je délka dvou porovnávaných sekvencí (zájmové a nalezené), S je skóre alignmentu (odkaz na kapitolu Alignment) těchto dvou sekvencí a parametry K a λ představují přirozenou škálu pro velikost databáze a skórovací systém. Skóre alignmentu je vysvětleno v kapitole Alignment, zde jenom stručně. Porovnání dvou sekvencí můžeme vyjádřit jako součet odměn a penalt za shodu anebo rozdíl (match/mismatch) nukleotidových bází v jednotlivých pozicích (obr. Blast.3). Výsledná hodnota informuje o tom, nakolik jsou si sekvence v daném alignmentu podobné vzhledem k jejich délce. Konkrétní hodnoty odměn a penalt ovlivňují, jak citlivě bude blast vyhledávat. Vhodné hodnoty jsou nastavené pro jednotlivé programy blastu, kterými by uživatel měl začínat prohledávání. Programy blastu Základní členění programů blastu je v tom, zda je zájmová sekvence sekvencí nukleotidových bází nebo aminokyselin. Nukleotidový blast Soubor programů, které využívají sekvenci DNA na prohledávání genetických databází, má rozdílnou citlivost a cíl prohledávání. Megablast výchozí program skupiny nukleotidových blastů, který vyhledá velmi podobné sekvence. Je ideální pro identifikaci genu a organizmu z již známých údajů. Používá nejdelší slova. Discontiguous megablast dohledá méně podobné sekvence než megablast pomocí vyhledávání kratších počátečních slov, které navíc můžou v nalezené sekvenci obsahovat indely. Vhodný, když očekáváme <80% shodu sekvencí. Blastn umožňuje vyhledávat velmi krátká slova ( 7 bází) a tím nalézt i málo podobné shody. Je ale nejpomalejší. Pokud se dá očekávat rozdílná vnitřní struktura

sekvence (rekombinace, GMO, alternatívní slicing), je vhodné pustit blast na kratším úseku sekvence. Proteínový blast Vstupní údaje pro proteinové blastové programy je sekvence aminokyselin. Mají velký význam při identifikaci konkrétních proteinových domén. Blastp výchozí proteinový blast pro vyhledávání podobných sekvencí aminokyselin. PSI-blast iterativní blast, který je schopen dohledat vzdáleně příbuzné k zadané proteinové rodině. PHI-blast umožňuje vyhledávat strukturu zapsanou v tzv. PROSITE formátu, kde uživatel definuje jaké aminokyseliny, anebo skupiny aminokyselin se mají vyskytovat v jaké vzdálenosti od sebe. Blast využívající překlad DNA do sekvence aminokyselin a opačně U DNA sekvencí, u kterých je známá anotace protein-kódujících genů, je vyhledávání podobných aminokyselinových sekvencí uživatelsky jednoznačné. Ale pokud anotace není zatím známá (odkaz na kapitolu Anotace), vyhledávání pomocí překladu mezi sekvencí DNA a proteinu bude výhodné. Blastx vstupní údaje jsou sekvence DNA a informace o genetickém kódu, který se má použít pro překlad do sekvence aminokyselin. Program přeloží otevřené čtecí rámce zájmové sekvence a přeloženou sekvenci hledá v proteinové databázi GenBanky (Protein). Tblastn vstupní údaje jsou sekvence aminokyselin. Program vyhledává v nukleotidových databázích (výchozí je Nucleotide) takové sekvence, které korespondují k zadané proteinové sekvenci. Tblastx vstupní údaje jsou sekvence DNA a genetický kód, který se má použít. Program prohledává nukleotidové databáze, které překládá, proti přeložené zájmové sekvenci. Prohledávání specifických databází Výchozí databáze, ve kterých programy blastu hledají, jsou neredundantní (nr) databáze Nucleotide a Protein z GenBanky. Uživatel si ale může podle potřeby zvolit i některou z dalších genetických databází, kterými buď urychlí vyhledávání nebo ho rozšíří o doplňující údaje. Například: Lidský genom (Human genomic+transcript) databáze specifická pro člověka, slabě využitelná pro jiné modelové organizmy. Referenční sekvence (RefSeq) sekvence, které byly vybrány jako reprezentativní pro daný gen a organizmus. Mělo by se jednat o nejspolehlivější údaje v GenBance. Referenční databáze jsou k dispozici pro genomické sekvence, tak i pro exprimované, kdy byla sekvenována RNA. Celé genomy (chromosome) prohledává sestavené genomy v GenBance. Exprimované krátké sekvence (expressed sequence tags, EST) prohledává se soubor údajů, které představují reálně exprimované geny. Nalezení shody v této

databázi (a v refseq_rna) je možné považovat za in silico důkaz o funkčnosti sledovaného genu. Nesestavené genomy (whole-genome shotgun contigs, WGS) umožňuje prohledávat nekompletně sestavené genomy, ale uživatel musí omezit hledání na jistou skupinu organizmů. Speciálním případem je použití uživatelské databáze, která na internetu není dostupná. Často se může jednat o nově sestavený genom anebo sadu sekvencí specifických pro určitý projekt. Uživatelskou databázi je nutné před použitím sestavit se samotných sekvencí programem, který je k dispozici ke stažení z GenBanky. Vícenásobné vyhledávání Webová aplikace blastu umožňuje zadat několik zájmových sekvencí najednou. Výsledky ale budou uvedeny pro každou zvlášť v samostatném volitelném seznamu. Jelikož blast prohledává databázi pro každou sekvenci zvlášť, je tímto přístupem možné rychle přístup zahltit. Pro vyhledávání vysokého počtu zájmových sekvencí by tam měla být práce s lokální verzí blastu základní slušností. Výsledek a interpretace Webová stránka s výsledkem z blastu obsahuje v horní části grafickou reprezentaci skóre jednotlivých párových alignmentů mezi zájmovou a nalezenou sekvencí (obr. Blast.4). Celá šířka zobrazeného okna představuje 100% délky zájmové sekvence a poloha barevných pruhů je pak rozsah sekvence, kde je nalezená sekvence alignována se zájmovou. Červená barva zobrazuje výsledek se skóre alignmentu >200, který je nejspolehlivější (obr. Blast.4). Ve střední části výsledkové stránky jsou nalezené sekvence uvedené v seznamu společně se statistikami pro párové porovnání se zájmovou sekvencí. Z pohledu interpretace výsledku blastu je nejinformativnější právě tabulka ve střední části výsledku (obr. Blast.5). Obsahuje sloupce maximální skóre, celkové skóre, pokrytí zájmové sekvence, E-hodnotu, shodu a přístupový kód. Maximální skóre (Max score) skóre alignmentu jednoho z úseků nalezené sekvence, který se povedlo zalignovat se zájmovou sekvencí. V případě, že nalezená sekvence je zalignována se zájmovou sekvencí v celé délce, hodnota maximálního skóre bude totožná celkovému skóre. Celkové skóre (Total score) součet skóre všech nekontinuálních částí lokálních alignmentů mezi zájmovou a nalezenou sekvencí. Pokrytí (Query cover) jaká část zájmové sekvence je porovnávaná s nalezenou sekvencí. E-hodnota (E-value) kolik krát je možné v prohledávané databázi očekávat sekvenci se stejným skóre alignmentu jako má nalezená sekvence vůči zájmové náhodou. E-hodnota by mala být co nejmenší, ideálně nula. Shoda (Ident) kolik procent stejných nukleotidových bází se nachází v nalezené sekvenci. Přístupový kód (Accession) odkaz na nalezenou sekvenci. Pozor, pokud se jedná o chromozomální sekvenci, odkaz vede k celému chromosomu, nejenom k části, která je ve výsledcích blastu uvedená.

Ve spodní části stránky jsou nalezené sekvence i zobrazeny v lokálním alignmentu se zájmovou sekvencí (obr. Blast.6). Vybrané sekvence je možné přímo stáhnout z výsledků blastu a případně je použít pro další analýzy. Taxonomie nebo fylogeneze nalezených záznamů Na stránce výsledků blastu se nachází několik odkazů na grafická zobrazení výsledku z pohledu genetické diverzity a fylogeneze. Taxonomický seznam (Taxonomy report) vypisuje souhrnně druhovou příslušnost a počet nalezených záznamů konkrétního druhu. Fylogeneze (Distance tree of results) fylogenetický strom z nalezených záznamů poskytuje první, orientační přehled o diverzitě, kterou můžeme mezi nalezenými sekvencemi očekávat. Intuitivně se strom interpretuje tak, že záznamy na koncích větev stromu, které jsou si podél větví blíž, mají podobnější sekvence (odkaz na kapitolu Fylostromy). Obsah: Vyhledávání podobných sekvencí BLAST... 1 Základní informace... 1 Výstupy z výukové jednotky... 1 Využití blastu... 1 Přístup k blastu... 2 Princip blastu... 2 E-hodnota... 3 Programy blastu... 3 Nukleotidový blast... 3 Proteínový blast... 4 Blast využívající překlad DNA do sekvence aminokyselin a opačně... 4 Prohledávání specifických databází... 4 Vícenásobné vyhledávání... 5 Výsledek a interpretace... 5 Taxonomie nebo fylogeneze nalezených záznamů... 6