DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

Podobné dokumenty
Thursday, February 27, 14

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Vyhledávání podobných sekvencí BLAST

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Využití internetových zdrojů při studiu mikroorganismů

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti URČOVÁNÍ PRIMÁRNÍ STRUKTURY BÍLKOVIN

Inovace studia molekulární a buněčné biologie

Bioinformatika a funkční studie

SEQUENCE ALIGNMENT MOLEKULÁRNÍ TAXONOMIE

Cysteinové adukty globinu jako potenciální biomarkery expozice styrenu

Proteiny Genová exprese Doc. MVDr. Eva Bártová, Ph.D.

Osekvenované genomy. Pan troglodydes, Neandrtálec, 2010

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Počítačové vyhledávání genů a funkčních oblastí na DNA

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

ÚVOD DO BIOINFORMATIKY

Vytváření fylogenetických stromů na základě alignmentů. Tomáš Novotný Jaroslav Knotek

Aminokyseliny. Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín. Tematická oblast Datum vytvoření Ročník Stručný obsah Způsob využití

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Využití metod strojového učení v bioinformatice David Hoksza

Co se o sobě dovídáme z naší genetické informace

Určení molekulové hmotnosti: ESI a nanoesi

Aminokyseliny příručka pro učitele. Obecné informace: Téma otevírá kapitolu Bílkoviny, která svým rozsahem překračuje rámec jedné vyučovací hodiny.

Metabolismus aminokyselin. Vladimíra Kvasnicová

Metabolismus bílkovin. Václav Pelouch

NGS analýza dat. kroužek, Alena Musilová

Bioinformatika. hledání významu biologických dat. Marian Novotný. Friday, April 24, 15

11. Bioinformatika a proteiny II

Molekulární genetika IV zimní semestr 6. výukový týden ( )

Dynamic programming. Optimal binary search tree

E-infrastruktura CESNET - partner výzkumné infrastruktury pro biologická data ELIXIR CZ

Bioinformatika je nová disciplína na rozhraní počítačových věd, informačních technologií a biologie. Bioinformatika zahrnuje studium biologických dat

Markovovy modely v Bioinformatice

Univerzita Pardubice. Fakulta ekonomicko-správní

Aminokyseliny a dlouhodobá parenterální výživa. Luboš Sobotka

Využití strojového učení k identifikaci protein-ligand aktivních míst

Struktura a funkce biomakromolekul

Bioinformatika. Jiří Vondrášek Ústav organické chemie a biochemie Jan Pačes Ústav molekulární genetiky

Bioinformatika pro PrfUK 2003

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky

PCR IN DETECTION OF FUNGAL CONTAMINATIONS IN POWDERED PEPPER

Vojtěch Franc. Biometrie ZS Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost

Struktura proteinů. - testík na procvičení. Vladimíra Kvasnicová

Počítačová analýza lokálních podobností mezi biologickými sekvencemi

Bioinformatika a výpočetní biologie. KFC/BIN VII. Fylogenetická analýza

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

11. Tabu prohledávání

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Enzymové pexeso. L: lactose P: operon

7 Další. úlohy analýzy řeči i a metody

Služby pro predikci struktury proteinů. Josef Pihera

Nukleové kyseliny Replikace Transkripce translace

Metabolismus aminokyselin 2. Vladimíra Kvasnicová

Molekulární biotechnologie č.9. Cílená mutageneze a proteinové inženýrství

Biologie. Autorské řešení kvalifikační úlohy

Zpracování informací a vizualizace v chemii (C2150) 1. Úvod, databáze molekul

Predikce genů a anotace sekvence DNA

Bioinformatika. Alignment 2. Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ VYHLEDÁVÁNÍ HOMOLOGNÍCH GENŮ DIPLOMOVÁ PRÁCE

PREDIKTOR VLIVU AMINOKYSELINOVÝCH SUBSTITUCÍ NA FUNKCI PROTEINŮ

Struktury a vazebné energie iontových klastrů helia

OPVK CZ.1.07/2.2.00/

Využití DNA sekvencování v

Metody studia historie populací. Metody studia historie populací. 1) Metody studiagenetickérozmanitosti komplexní fenotypové znaky, molekulární znaky.

Vyhledávání příbuzných enzymů s modifikovanou funkcí v proteinových databázích

Využití metagenomiky při hodnocení sanace chlorovaných ethylenů in situ Výsledky pilotních testů

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Markov Chain Monte Carlo. Jan Kracík.

Metabolismus aminokyselin - testík na procvičení - Vladimíra Kvasnicová

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

NMR biomakromolekul RCSB PDB. Progr. NMR

Degradační produkty proteinových aduktů v moči jako nový typ biomarkerů v toxikologii

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

MOLEKULÁRNÍ METODY V EKOLOGII MIKROORGANIZMŮ

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/


Nukleové kyseliny Replikace Transkripce translace

Obecné principy chemických strukturních bází dat předmět projektu VaVpI ChemEIZ

Inovace studia molekulární a buněčné biologie

Gibbsovo samplování a jeho využití

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

P ro te i n o vé d a ta b á ze

Střední průmyslová škola a Vyšší odborná škola, Hrabákova 271, Příbram. III / 2 = Inovace a zkvalitnění výuky prostřednictvím ICT

Molekulárn. rní genetika

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

PROTEINY. Biochemický ústav LF MU (H.P.)

Metody studia historie populací. Metody studia historie populací

Inovace studia molekulární a buněčné biologie

Bílkoviny - proteiny

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Vazebné interakce protein s DNA

Názvosloví cukrů, tuků, bílkovin

ÚSTAV FYZIKÁLNÍ BIOLOGIE JIHOČESKÁ UNIVERZITA V ČESKÝCH BUDĚJOVICÍCH

Má tajemný clusterin u dětí v septickém stavu aktivitu chaperonu? J. Žurek, P.Košut, M. Fedora

Výuka genetiky na Přírodovědecké fakultě UK v Praze

TRANSLACE - SYNTÉZA BÍLKOVIN

Centrum aplikované genomiky, Ústav dědičných metabolických poruch, 1.LFUK

Transkript:

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ MOLEKULÁRNÍ TAXONOMIE 2015 MARIAN NOVOTNÝ

OSNOVA co je substrát pro molekulární taxonomii? kde se shromažďují data? jak data vyhledávat?

REKONSTRUKCE EVOLUČNÍ HISTORIE rekonstrukce na základě srovnávání znaků v molekulární taxonomii se používají sekvence sekvence (DNA, RNA, proteiny) se srovnávají tzv. alignmentem HTTP://LGIMAGES.S3.AMAZONAWS.COM/DATA/IMAGEMANAGER/7793/PHYLOTREE1.GIF

KDE NAJÍT SEKVENCE?

BIOINFORMATICKÉ DATABÁZE úložiště dat (volně) dostupné pro kohokoliv snadno k nalezení lednové číslo Nucleid Acid Research (NAR) HTTP://NAR.OXFORDJOURNALS.ORG/CONTENT/42/D1.TOC

LEDNOVÉ ČÍSLO NAR NUCLEOTIDE SEQUENCE DATABASES RNA SEQUENCE DATABASES PROTEIN SEQUENCE DATABASES STRUCTURE DATABASES GENOMICS DATABASES (NON-VERTEBRATE) METABOLIC AND SIGNALING PATHWAYS HUMAN AND OTHER VERTEBRATE GENOMES HUMAN GENES AND DISEASES MICROARRAY DATA AND OTHER GENE EXPRESSION DATABASES PROTEOMICS RESOURCES OTHER MOLECULAR BIOLOGY DATABASES ORGANELLE DATABASES PLANT DATABASES IMMUNOLOGICAL DATABASES

VLASTNOSTI DATABÁZE četnost aktualizace dat četnost aktualizace software redundance anotace dat anotace databáze

...A NÁSTROJE

DNA DATABÁZE GenBank(NCBI) EMBL (EBI) DDJB (Japonsko)

MÁLO ANOTOVANÁ SEKVENCE

ANOTOVANÁ SEKVENCE

GENOMICKÁ DATA První RNA genom bacteriofág MS2... 1976... 3569 bazí První DNA genom fág Φ-X 174... 1978... 5386 bazí První bakteriální genom... Heamophilus influenze... 1995... 1,83 Mb Největší genom... Amoeba dubia... 670 Gb Organism Complete Draft assembly In progress total Prokaryotes 946 (658) 644 610 17884 Archaea 84 (61) 4 46 134 (97) Bacteria 862 (598) 640 564 2066 (1606) Eukaryotes 40 (22) 270 344 2439 Viruses 3552 228 000 HUMAN GENOMES SEQUENCED IN 2014

GENOMOVÉ DATABÁZE HTTP://WWW.NCBI.NLM.NIH.GOV/SITES/ENTREZ?DB=GENOME HTTP://WWW.ENSEMBL.ORG/INDEX.HTML HTTP://VEGA.SANGER.AC.UK/INDEX.HTML HTTP://GENOME.UCSC.EDU/ HTTP://WWW.YEASTGENOME.ORG/

PROTEINOVÉ DATABÁZE Uniprot - Swissprot + TrEMBL - 52,7 mil. sek. Swiss-prot - anotováno, ~550 000 sekvencí GenPept - překládaný GenBank

UNIPROT + TREMBL AMINO ACID COMPOSITION 2.1 COMPOSITION IN PERCENT FOR THE COMPLETE DATABASE ALA (A) 8.57 GLN (Q) 3.88 LEU (L) 9.81 SER (S) 6.72 ARG (R) 5.47 GLU (E) 6.14 LYS (K) 5.30 THR (T) 5.61 ASN (N) 4.17 GLY (G) 7.08 MET (M) 2.45 TRP (W) 1.31 ASP (D) 5.28 HIS (H) 2.20 PHE (F) 4.03 TYR (Y) 3.06 CYS (C) 1.29 ILE (I) 6.00 PRO (P) 4.74 VAL (V) 6.71 ASX (B) 0.000 GLX (Z) 0.000 XAA (X) 0.06

JAK DATA VYHLEDÁVAT?

>ASTAKINE MKMRGVSVGVLVVAMMSGLAMAGSCNSQEPDCGPSECCLQGWMR YSTRGCAPLGEAGSSCNVFTQAPVKGFYIGMCPCRAGLVCTRPSATCQLPSQDNTLDSYY EXISTUJÍ PŘÍBUZNÉ SEKVENCE A KDE JE NAJÍT?

HLEDÁNÍ V DATABÁZÍCH - ALGORITMY tradiční algoritmy (Needleman-Wunsch, Smith-Waterman) pomalé pro prohledávání velkých databází používány heuristické metody - rychle vede k výsledku, který se blíží optimálnímu řešení (ale nezaručuje jej) -> pro vyšší rychlost je obětována přesnost (rule of thumb) v případě sekvenčního srovnávání se metoda vzdává jistoty nalezení optimálního alignmentu, aby v krátkém čase provedla srovnání se všemi sekvencemi v databázi (50-100x rychlejší) klasickými heuristickými metodami jsou FASTA a BLAST obě metody použitelné pro DNA i proteinové sekvence

FASTA metoda popsaná v 80. letech 20. století (Lipman & Pearson) rychlá, heuristická metoda (na úkor senzitivity), globální alignment zjednodušení v první fázi, sekvence rozděleny na krátké úseky program generuje všechny možné k-tuples o délce k z dané sekvence k = 1-2 pro proteiny, k = 4-6 pro DNA k-tuples jsou porovnávány s k-tuples sekvencí v databázích

FASTA hledání SHOD v k-tuples skórováni shod pomocí skórovací tabulky (Blosum 50) a rozšíření alignmentu (bez mezer) vysoce skórující shody vybrány vybere úseky, které budou součástí alignmentu dynamické programování pro konečný alignment (mezery)

BLAST BLAST = Basic Local Alignment Search Tool Altschul et al., 1990 sekvence rozděleny na slova (words) a slova skórována vůči databázi všech slov slova skórována skórovací tabulkou (Blosum 62) a jen ty, které dosáhnou předem nadefinovaného minimálního skóre (treshold) jsou dále používány slova se skóre větším než treshold nemusí nutně obsahovat jen shody ( na rozdíl od Fasty) v prvním kroku se porovnávají slova bez mezer

w=3 SEWRFKHIYRGQPRRHLLTTGWSTFVT SEW EWR WRF Parameter: Word length (w) Increase = faster, but less sensitive

BLAST - HSP HSP - high scoring pair vyber jen taková slova, která dosahují alespoň skóre X (treshold) PEG versus PQA PEQ má s Blosum 62 skóre 15, PQA jen 12 pokud si stanovíme treshold 13, tak budeme dále hledat jen slovo PEQ

Then it scans database sequences for exact matches with these words

BLAST II takto vybráná slova jsou hledána v databázi modifikovaným Smith- Watermanem (50 x rychlejší) HSP jsou dále rozšiřovány na obě strany dokud skóre roste v posledním kroku jsou nejlépe skórující páry (HSP`s) podrobeny dynamickému programování, které produkuje výsledné skóre a alignment vzhledem k rostoucí velikosti databází je třeba algoritmus neustále modifikovat (dvě shody v okně definované velikosti) obvykle citlivější než FASTA implementován jako server na řadě míst (NCBI, EBI)

If two hits are found on the same diagonal the alignment is extended until the score drops by a certain amount This results in a High-scoring Segment Pair (HSP) Parameters: Drop off Substitution matrix

BLAST step 4 If the total HSP score is above another threshold then a gapped extension is initiated Parameters: Extension threshold (Sg) Substitution matrix 78 01.06.2010 Sequence searching - Andrew Cowley

VERZE BLASTU blastn - hledá s DNA sekvencí (query) v DNA databázi blastp - hledá s proteinovou sekvencí v proteinové databázi blastx - hledá s DNA sekvencí (6 rámců) v proteinové databázi tblastn - hledá s proteinovou sekvencí v DNA databázi tblastx - překládaná DNA v překládané DNA databázi megablast - víc query najednou

Query: 241 FTTVQILHRGKKVGTERIWYGDKENIDLGTEQEFWMVLPKAEIPHIKAKYTLDGKELTAP 300 F TV + T+R+W+GDK ++LG + + +P+ ++ ++KA YTL +LTAP C. On-line Summaries Smallest Sum High Probability Sequences producing High-scoring Segment Pairs: Score P(N) N... sp P08506 DACC_ECOLI PENICILLIN-BINDING PROTEIN 6 PRECURS... 894 5.0e-120 1 sp P38422 DACF_BACSU PENICILLIN-BINDING DACF PROTEIN PREC... 209 5.0e-47 3... sp P28271 IREB_MOUSE IRON-RESPONSIVE ELEMENT BINDING PROT... 59 0.9996 1 sp P31571 CAIA_ECOLI PROBABLE CARNITINE OPERON OXIDOREDUC... 48 0.9998 2 D. Alignments... >sp P08506 DACC_ECOLI PENICILLIN-BINDING PROTEIN 6 PRECURSOR (D-ALANYL-D-ALANINE CARBOXYPEPTIDASE FRACTION C) (EC 3.4.16.4) (DD-PEPTIDASE) (DD-CARBOXYPEPTIDASE) (PBP-6). Length = 400 Score = 894 (409.5 bits), Expect = 5.0e-120, P = 5.0e-120 Identities = 169/342 (49%), Positives = 237/3 42 (69%) Query: 1 MDYTTGQILTAGNEHQQRNPASLTKLMTGYVVDRAIDSHRITPDDIVTVGRDAWAKDNPV 60 MDY +G++L GN ++ +PASLTK+MT YVV +A+ + +I D+VTVG+DAWA NP Sbjct: 45 MDYASGKVLAEGNADEKLDPASLTKIMTSYVVGQALKADKIKLTDMVTVGKDAWATGNPA 104 Query: 61 FVGSSLMFLKEGDRVSVRDLSRGLIVDSGNDACVALADYIAGGQRQFVEMMNNYAEKLHL 120 GSS+MFLK GD+VSV DL++G+I+ SGNDAC+ALADY+AG Q F+ +MN YA+KL L Sbjct: 105 LRGSSVMFLKPGDQVSVADLNKGVIIQSGNDACIALADYVAGSQESFIGLMNGYAKKLGL 164 Query: 121 KDTHFETVHGLDAPGQHSSAYDLAVLSRAIIHGEPEFYHMYSEKSLTWNGITQQNRNGLL 180 +T F+TVHGLDAPGQ S+A D+A+L +A+IH PE Y ++ EK T+N I Q NRN LL Sbjct: 165 TNTTFQTVHGLDAPGQFSTARDMALLGKALIHDVPEEYAIHKEKEFTFNKIRQPNRNRLL 224 Query: 181 WDKTMNVDGLKTGHTSGAGFNLIASAVDGQRRLIAVVMGADSAKGREEEARKLLRWGQQN 240 W +N DG+KTG T+GAG+NL+ASA G RLI+VV+GA + + R E+ KLL WG + Sbjct: 225 WSSNLNEDGMKTGTTAGAGYNLVASATQGDMRLISVVLGAKTDRIRFNESEKLLTWGFRF 284

BLAST - VÝBĚR databáze - DNA x protein, anotovaná x kompletní, strukturní, genomové, specializované (protilátky)... organismus datum - sekvence za poslední dva týdny skórovací tabulka - blosum 62 velikost slova low-complexity region filter - často P, D, N, E - false positive default nastavení algoritmu vhodné ve většině případů

BLOSUM BLOSUM 80 - tabulka vypočítaná na základě alignmentu bloku sekvencí s identitou 80 % BLOSUM 62 - tabulka vypočítaná na základě alignmentu bloku sekvencí s identitou 62 %

BLOSUM VERSUS PAM PAM 10 BLOSUM 90 PAM 250 BLOSUM 62 VELMI PŘÍBUZNÍ VZDÁLENĚ PŘÍBUZNÍ

VÝZNAMNOST NÁLEZU optimální alignment lze nalézt pro jakékoliv dvě sekvence dvě náhodné DNA sekvence = ~ 25% SI dvě náhodné proteinové sekvence = ~ 5% SI jak určit, že je alignment statisticky významný?

PARAMETRY VÝZNAMNOSTI P-value E-value pouze statistická významnost skóre -> biologickou relevanci záhodno ověřovat experimentálně

P-VALUE P-value - pravděpodobnost, že sekvence budou srovnány s nalezeným nebo vyšším skóre a zároveň nebudou příbuzné (false positive hit) P-value - pravděpodobnost, že bude skóre x nebo vyššího dosaženo náhodou pro účely výpočtu lze náhodu simulovat přeskládáváním sekvencí nebo výběrem vzorku z databáze druhá možnost lépe odpovídá realitě a poskytuje lepší výsledky (především u DNA)

EVD rozložení skóre lokálních alignmentů nepříbuzných sekvencí neodpovídá normálnímu rozdělení, ale rozdělení podle extrémních hodnot (EVD) při normálním rozdělení by docházelo k přeceňování významu dosažených skóre DUNDAS ET AL. BMC BIOINFORMATICS 2007

P-VALUE P-value (S>x) = 1-exp (-exp (-λ(x-u))), u = charakteristická hodnota = Kmn/λ m,n = délky sekvencí; K = konstanta; λ = decay factor K a λ mohou být kalkulovány z vlastností skórovací tabulky

E-VALUE E-value = pravděpodobnost, že bude dosaženo skóre x nebo vyššího náhodou v databázi dané velikosti E-value = P-value x N ; velikost databáze příklad: databáze o miliónu sekvencí a P-value = 10-6 E-value = 10-6 x 10 6 =1 cutoff (expect treshold) parametr v BLASTU - udává kolik lze průměrně očekávat false positives v databázi dané velikosti -> způsob jak vyvažovat senzitivitu a selektivitu nižší hodnota cutoff zvyšuje selektivitu, ale snižuje senzitivitu

BLAST / EVOLUČNÍ VZDÁLENOST říká nám BLAST něco o příbuznosti nalezených sekvencí? Je první hit evolučně nejpříbuznější query (hledané sekvenci)? BLAST většinou nalezá příbuzné sekvence nejpříbuznější sekvence však mohou chybět v databázi lokální alignment - často skóruje nejlépe vzdálené příbuzné 7 % sekvencí E.coli mělo nejlépe skórující sekvenci mimo Bacteria

2JTK

SEQUENCE IDENTITA/HOMOLOGIE NEHOMOLOGNÍ PROTEINY ROST, 1999

SEQUENCE IDENTITA/HOMOLOGIE HOMOLOGNÍ PROTEINY ROST, 1999

SEQUENCE IDENTITA/HOMOLOGIE sekvenční identita > 35% - pravděpodobně homolog sekvenční identita = 20-35% ( twilight zone ; Doolittle) - může být homolog sekvenční identita < 20% - midnight zone (Rost) - sekvence zcela nedostatečná k určení homologie

SANDER ET AL., PREPRINT Average sequence identity of random alignments - 5.6 % Average sequence identity of remote homologues - 8.5 %

SSEARCH pokud máte moře času nebo počítačový klastr nebo jste zoufalí rigorózní Smith-Waterman - local alignment v databázi

When to use what? Query length WU-BLAST NCBI BLAST FASTA PSI-SEARCH Database size

When to use what? t ime to search WU-BLAST NCBI BLAST FASTA PSI-SEARCH PDB Swiss-Prot UniRef50 UniRef 90 UniRef100 UniProtKB UniParc 86 01.06.2010 Sequence searching - Andrew Cowley

DALŠÍ METODY HLEDÁNÍ V DATABÁZÍCH profilové metody HMM modely

PROFILY modifikují skórovací tabulky specificky pro skupiny proteinů a pozici v alignmentu (např. globiny) pro každou pozici v alignmentu jsou generovány specifická skóre jak pro záměnu za jakoukoliv aa, tak pro inzerci nebo deleci Prof (pos,aa) = Σtype N(pos,type) x S(type, aa) x 10 N(pos,type) = podíl výskytu aa x na pozici y S(type, aa) = skóre skórovací tabulky pro zaměňovaný pár

PŘÍKLAD PROFILU v alignmentu globinů se na pozici 3 vyskytuje 3x Ala, 6x Val, 1x Ile, používáme tabulku Blosum 62 jaké bude profilové skóre pro výskyt Ile a His? N(x,A) = 0.3, N(x,V) = 0.6, N(x, I) = 0.1 S(A,I) = -1, S(V,I) = 3, S(I,I) = 4 S(A,H) = -2, S(V,H) = -3, S(I,H) = -3 Prof (x, I) = 0.3 x -1 + 0.6 x 3 + 0.1 x 4 = 2.1 x 10 (v profilu) = 21 ( -1, 3, 4) Prof (x, H) = 0.3 x -2 + 0.6 x -3 + 0.1 x -3 = -2.7 x 10 = -27 (-2, -3, -3)

PSI-BLAST PSI-BLAST = Position Specific Iterative Blast Altschul et al., 1997 profilová metoda, používá Position Specific Scoring Matrix (PSSM) v prvním kole klasický BLAST, z vysoko skórujících alignmentů je generována PSSM v dalším kole hledání je už použita nová matrice a následně znovu generována nová PSSM opakováno libovolně dlouho (až ke konvergenci) benchmark metoda

Context-Specific Iterative Blast CS/CSI BLAST Biegert, Soeding, 2009 context vytváří 12 aa v okolí sledované aa (6 na každé straně) 2x více vzdálených homologů než klasický blast při zachování rychlosti a chybovosti CSI - podobná aplikace na PSI-blast po dvou iteracích csi blast stejné výsledky jako po pěti iteracích psi-blast benchmark metoda???

HMM HMM = Hidden Markov Model profilová metoda, používána při rozhodování, zda protein spadá do jisté skupiny proteinů, typicky pro sekvence s nízkou %SI velmi citlivá metoda, která vytváří statistický model pro definovanou skupinu sekvencí na základě tréninku na sekvencích patřících do jedné skupiny (globiny) generuje pravděpodobnost nejen pro jednotlivé záměny a inzerce a delece, ale i pro přechody mezi nima dovede do modelu zahrnout i aminokyseliny, které se v tréninkové skupině nevyskytují alignment s největší pravděpodobností je optimální posuzuje jak dobře daná sekvence odpovídá modelu

HMM HTTP://HMMER.JANELIA.ORG/

SHRNUTÍ databáze by měly být pravidelně updatovány přehled dostupných biologických databází vždy v lednovém čísle NAR řada velmi specializovaných databází hledání v databázích povětšinou heuristickými metodami standard dnes BLAST nutno hodnotit statistickou významnost nálezu citlivější metodou PSI-Blast nebo HMM metody