Počítačová analýza lokálních podobností mezi biologickými sekvencemi

Transkript

1 MASARYKOVA UNIVERZITA V BRNĚ Fakulta informatiky Michal VAVERKA Počítačová analýza lokálních podobností mezi biologickými sekvencemi Bakalářská práce Vedoucí práce: Ing. Matej Lexa, Ph.D. Brno 2006

2 Prohlašuji, že tato práce je mým původním autorským dílem, které jsem vypracoval(a) samostatně. Všechny zdroje prameny a literaturu, které jsem při vypracování používal(a) nebo z nich čerpal(a), v práci řádně cituji s uvedením úplného odkazu na příslušný zdroj. V Brně dne vlastnoruční podpis autora

3 Děkuji Ing. Matejovi Lexovi, Ph.D. vedoucímu bakalářské práce za nesmírnou pomoc a trpělivost.

4 Shrnutí Anotace v českém jazyce: V moderní biologii a bioinformatice se používá míra podobnosti mezi sekvencemi proteinů k odvození jejich možné funkce nebo struktury. Cesta ke globální podobnosti mezi sekvencemi často vede přes určování kratších, lokálních podobností. Program vytvářený s touto prací vyhodnocuje vzájemnou podobnost proteinů na základě výskytů lokálních segmentů a důležitosti vlastností funkčnosti a struktury. Annotation in English: In modern biology and bioinformatics, the degree of similarity between protein sequences is used to derive their function or structure. Global similarity between sequences can be estimated from identification and evaluation of shorter local similarities. This program developed with this work evaulate the global similarity of protein sequences based on correllation of local segment occurence in databases which is typically high for sequences with the same structure and function. Klíčová slova: Bioinformatika, segment, lokální podobnost, Blosum, Dialign, protein, databáze, sekvence Key words: Bioinformatics, segment, local similarity, Blosum, Dialign, protein, databases, sequence

5 Obsah 1. Úvod Molekulární biologie Genomika Databáze proteinových sekvencí Formáty záznamu sekvencí FASTA EMBL GENBANK PIR SWISSPROT Porovnávání biologických sekvencí Přístupy pro lokální zarovnávání DIALIGN SEA Divide and conquer ProLoP Myšlenka algoritmu Algoritmus ohodnocení Návrh programu Seznámení s jednotlivými funkcemi programu Jaká data jsou vstupem Implementace hodnotícího algoritmu GUI Instalace a požadavky na systém Ukázka vstupu do programu a zpracování Ukázka vyhodnocení a graf výsledku Zhodnocení běhu programu Závěr...21

6

7 1. Úvod Základem všech živých organismů jsou buňky. U složitějších organismů jsou v jádře buňky přenášeny kromě jiného i genetické informace ve formě DNA (deoxyribonukleová kyselina). Ta je tvořena velkými makromolekulami. Tyto makromolekuly tvoří řetězce, které v praxi reprezentujeme jako sekvence symbolů, označující dané aminokyseliny, pro které dokážeme určovat vlastnosti. Na základě podobnosti můžeme předvídat funkční a strukturní vlastnosti dosud neznámé sekvence. 1.1 Molekulární biologie Stavba každého organizmu je určena instrukcemi, které jsou zapsané chemickým kódem v DNA (deoxyribonukleové kyselině). DNA tvoří dvojité spirálovité molekuly uložené v jádrech buněk živých organizmů. Každý gen je odpovědný za část těla nebo za její vlastnosti. V jádře buňky je DNA uspořádaná do chromozómů, které jsou tvořené komplexem DNA s proteinem[1]. Gen je část chromozómu, která obsahuje pokyny pro vytváření bílkoviny. Genetická informace je v jádru přepisována (transkripce) do molekul RNA (ribonukleová kyselina), které se převádějí mimo jádro, kde řídí syntézu proteinů. Ještě před objevem genu formuloval základní pravidla dědičnosti Gregor Mendel, opat augistiánského kláštera v Brně. Během studia botaniky objevil způsob, jakým se dědí některé vlastnosti. Při křížení hrachu zjistil, že vlastnosti se křížením nemíchají, ale dědí se po párech. V každém páru se obvykle projeví jen jedna vlastnost. Roku 1954 biofyzik Francis Crick a americký genetik James Watson objevili strukturu DNA[1]. Na základě zkoumání a pozorování dospěli k závěrům, že genetický materiál vytváří kopie sám sebe, DNA je genetický materiál a je to dlouhá molekula zakroucená do spirály(obr. 2). DNA je složená ze dvou cukr fosfátových řetězců spojených fosfodiesterovou vazbou a 4 dusíkatých bází. Dusíkaté báze (Obr. 1) jsou odvozeny od purinu (adenin, guanin) a pyrimidinu (cytosin, thymin, uracil). Obr. 1: Chemická struktura bází Dále určili, že v molekule DNA dochází k párování bází systémem adenin thymin a cytosinguanin, a to přibližně v poměru 1:1. Na základě těchto poznatků vytvořili možné hypotézy o uspořádání cukrů, fosfátů a bází v DNA. Vytvořili několik různých modelů molekul popisujících jednotlivé hypotézy. Model, který popisoval všechny hypotézy, byla dvojitá šroubovice spárovaných bází směrem dovnitř. 1.2 Genomika Genomika je biologický obor, který vznikl v 90. letech. Cílem je stanovit úplnou dědičnou informaci organismů a interpretovat ji v termínech životních pochodů. Někdy se genomika rozděluje na tzv. 1

8 strukturní genomiku, spočívající ve stanovení sledu nukleotidů genomu organismu, na bioinformatiku, jež počítačovými metodami a prací v databázích interpretuje přečtenou dědičnou informaci, a na funkční genomiku, kde se experimentem, například vyřazením nějakého genu z činnosti, snažíme přiřadit funkci neznámým genům, případně funkci genů studovat. Protože informace je uložena v pořadí milionů až miliard molekul bází, je získávání a zpracování informací uložených v DNA poměrně časově náročná činnost. Obr. 2: Šroubovice DNA Proteiny jsou lineární sekvence jednodušších molekul nazývaných aminokyseliny. V proteinech se běžně vyskytuje dvacet různých aminokyselin, které jsou označeny 1 písmenem nebo třípísmennou zkratkou (viz Tabulka 1). Dále existuje úzká vazba mezi sekvencí DNA a proteinovou sekvencí. K tomu, aby buňka produkovala daný protein, přečte sekvenci tří nukleotidů z řetězce DNA, nazývanou kodon, ze které vygeneruje danou aminokyselinu. 1písmenné 3písmenné 1písmenné 3písmenné Jméno označení označení označení označení Jméno A Ala Alanin M Met Methionin C Cys Cystein N Asn Asparagin D Asp Asparagová kyselina P Pro Prolin E Glu Glutamová kyselina Q Gln Glutamin F Phe Fenylalanin R Arg Arginin G Gly Glycin S Ser Serin H His Histidin T Thr Threonin I Ile Isoleucin U Val Valin K Lys Lysin W Trp Tryptofan L Leu Leucin Y Tyr Tyrosin Tabulka 1: Seznam aminokyselin Protože v buňkách dochází k složitým biochemickým procesům, které určují kdy a jakým způsobem dochází k produkci proteinu, bude dobré je alespoň částečně vysvětlit. Je známo, že sekvence DNA, která nese genetické informace, je nesena v jádře buňky. Pokud je třeba, tak je aktivován určitý gen, který svými vlastnostmi určuje, že má například dojít k vytváření proteinů. Pomocí procesů transkripce a translace dochází v buňce k interpretaci DNA na požadovaný protein (Obr. 3), který plní potřebnou funkci. Takový protein má kromě své specifické funkce také strukturu, která může souviset s jeho funkcí. Všechny tyto soubory informací je vhodné uchovávat, pokud známe, jakým způsobem došlo k jaké přeměně. Díky tomu a různým metodám pro určování podobnosti je tento princip jednodušší na pochopení u nových neznámých sekvencí. Pro každý takový protein existuje zpětná vazba k danému procesu vznik nebo dochází k interak 2

9 cím mezi jednotlivými proteiny nebo k dalším možným případům. Tím vzniká obrovská síť (např. člověk má asi proteinů) různých propojení mezi funkcemi, vlastnostmi atd., které je vhodné použít jako zdroj informací. Jedním takovým příkladem je třeba využití v podobnosti. Obr. 3: Proces vzniku proteinu 2. Databáze proteinových sekvencí Z velkého množství takto uložených sekvencí vyplývá potřeba v těchto databázích vyhledávat. Existuje několik různých způsobů vyhledávání. Hledanou sekvenci je možné specifikovat přímo podle unikátního identifikátoru nebo pomocí klíčových slov. Velké databáze umožňují také vyhledávat podle dalších rozšiřujících kritérií, jako je druh organismu, autor, rok původu a další. Díky tomu, že je dostupné nepřeberné množství takovýchto databází, vznikly různé projekty, které jsou zaměřeny na získávání informací o těchto zdrojích dat. Tyto zdroje poskytují ucelený výčet možností získávání dat z různých typů výzkumu a také umožňují snazší možnosti získání informací o požadovaném typu dat. Jedním projektem tohoto typu je kolekce molekulárně biologických databází (The Molecular Biology Database Collection)[2]. Všechny databáze, které jsou uvedeny v tomto projektu, jsou zdarma dostupné pro veřejnost a v současné době je v tomto seznamu zahrnuto 719 databází. Tento počet se od roku 2004 do roku 2005 zvedl zhruba o 170 položek, což ukazuje, k jak velkému růstu biologických dat ukládaných pro pozdější využití dochází. Následující tabulka(tabulka 2) uvádí krátký výtah databází, které jsou nejznámější a často využívané v oblasti bioinformatiky. V těchto databázích se ukládají data týkající se různých projektů, které jsou zaměřeny na různé oblasti výzkumu, od databází uchovávající nukleotidové sekvence, sekvence RNA, informace o strukturách a vlastnostech jednotlivých proteinů, až po výsledky výzkumu, který se týká lidského genomu. Jednou z těchto skupin jsou například data, která používají bioinformatici k otestování funkčnosti a případně porovnatelnosti svých metod výzkumu s jinými již hotovými projekty. Je to důležité zejména v dostupnosti určité vzorové skupiny informací o biologických datech, na které je možné provádět testování a jež zahrnuje data, která jsou ověřena z minulosti. Příkladem můžou být například sekvence 3

10 proteinů, které jsou zarovnávány, aby bylo možné určit vlastnosti či možnou funkční podobnost s ostatními sekvencemi, jež jsou známé. V dnešní době již existuje mnoho různých projektů, které umožňují vícenásobné zarovnání (multiple alignment), a z toho také vyvstává potřeba tyto metody navzájem porovnat. K tomuto účelu vnikla databáze BAliBASE (Benchmark Alignment database)[3]. Jedná se o zdroj dat poskytující ručně vybrané a kategorizované sekvence, které jsou vzájemně zarovnané. Jsou rozdělené do několika kategorií obsahující různé typy obvykle se vyskytujících případů, které slouží pro testování. Sekvence, které jsou do databáze vybrány z databází struktur, jako je HOMSTRAD nebo FSSP, nebo také z ručně provedených zarovnání, které jsou zmiňovány v literatuře. Databáze ve verzi 2.0 obsahuje 167 vzorových zarovnání mezi více než 2100 sekvencemi, které jsou rozděleny do 8 referenčních množin. BaliBASE 2.0[4] je dostupná k prohlížení na adrese: igbmc.u strasbg.fr/bioinfo/balibase2 nebo ke stažení z ftp serveru: ftp://ftp igbmc.u strasbg.fr/pub/balibase2/ Název Poznámka URL odkaz GeneBank Známe nukleotidové a proteinové sekvence DDBJ DNA Data Bank of Známe nukleotidové a proteinové Japan sekvence EMBL Nucleotide Sequence Známe nukleotidové a proteinové Database sekvence ASAP Alternative spliced isoforms ASDB Proteinové produkty a vzory expresí alternativního splicingu ExInt Struktury Exonů intronů v eukariotních genech EXProt Sekvence proteinů s experimentální verifikační funkcí NCBI Protein database Proteinové sekvence PIR Informace o proteinových sekvencích Swiss Prot Databáze proteinových sekvencí ADDA Databáze proteinových domén InterPro Zdroje proteinových domén ahttp:// ProDom Rodiny proteinových domén HOMSTRAD Databáze zarovnání homologních struktur cryst.bioc.cam.ac.uk/homstrad PDB Databanka proteinových struktur GO Gene Ontolgy GOA EBI gene ontology annotation project Tabulka 2: Bioinformatické zdroje dat Tato databáze nyní poskytuje data pro většinu testovaných případů, které se zkouší při určování a zarovnávání sekvencí. Také je nyní dostupný program pro porovnávání programů provádějících určování nebo zarovnávání a umožňuje ukázat, kde by mohl mít testovaný program slabá či silná místa. 4

11 Odkazy na databáze, programy a další informace lze nalézt například na portálu na adrese: Formáty záznamu sekvencí Formátů pro záznam sekvencí a jejich variant je velké množství, proto zmíním jenom nejběžnějších z nich, tj. těch, které jsou používány v základních databázích a které jsou v textové formě a jsou použitelné i pro neodborníka FASTA FASTA formát je nejběžnější a (když pomineme "holou" sekvenci) nejjednodušší formát, ve kterém se sekvence distribuují a uchovávají. Je stejný pro DNA i proteiny. Jeho hlavní výhodou je velikost. Je kompaktní a obsahuje pouze minimum dodatečných informací o sekvenci a chybí informace o typu sekvence (nukleotidy/aminokyseliny) EMBL První dva znaky na řádku pojmenovávají identifikátor, od šestého znaku následuje vlastní obsah. Jednotlivé skupiny identifikátoru jsou odděleny XX, celý záznam končí //. Nejdůležitější identifikátory: ID, AC: unikátní identifikátor; DE: popis; OS,OC: organismus, klasifikace; RN,RP,RA,RT,RL: citace; FT: features, dodatečné informace (např. propojení na další databáze, popis jednotlivých částí); SQ: sekvence GENBANK Distribuční formát nukleotidové databáze GENBANK v trochu jiné formě obsahuje totéž, co formát EMBL. Místo dvoupísmenného identifikátoru používá celé slovo. Koncovka pro asociaci aplikací je.gb nebo.gbk PIR Stejně jako v případě EMBL/SWISSPROT je i formát PIR požívaný pro proteiny analogický nukleotidovému formátu GENBANK. Jako koncovky běžně používá.gbk nebo.pir. PIR (Protein lnformation Resource) je proteinová databáze získávající data z nukleotidových databází. Spolu s dalšími organizacemi vytváří PIR International anotovanou databázi analogickou SWlSSPROT SWISSPROT Swissprot je databáze proteinových sekvencí. Byla vytvořena pracovníky Department of Medical Biochemistry of the University of Geneva a Swiss Institute of Bioinformatics a EMBL Data Library. Kvůli standardizaci je formát Swiss Prot velmi podobný EMBL Nucledotid Sequence Database. Záznamy jsou strukturovány tak, aby byly jednoduše čitelné pro člověka, stejně jako pro počítačové programy. Veškeré popisy, klasifikace a jiné poznámky jsou psané jednoduchou angličtinou a tam, kde je to možné, jsou použity způsoby zápisu běžné pro biochemiky a molekulární biology. Jednotlivé záznamy sekvencí jsou tvořeny řádky různých typů a každý tento typ má svůj formát. Každý řádek začíná dvouznakovým kódem řádku, který určuje typ dat obsažených na daném řádku. Jednotlivé pořadí řádků je přesně definováno a dokumentováno. Tuto definici je možné najít v uživatelském manuálu 5

12 k formátu Swiss Prot na adrese Záznam sekvence vždy začíná identifikací (ID). Identifikační záznam je složen ze jména záznamu, třídy dat, typu molekuly a délky molekuly. 3. Porovnávání biologických sekvencí Porovnávání sekvencí, ať už nukleotidových, nebo aminokyselinových, se v jednom směru významně liší od všech ostatních typů vyhledávání většinou se snažíme najít sekvenci pouze podobnou, s mnoha záměnami, inzercemi a delecemi. Proto není možné použít běžný vyhledávací algoritmus, ale bylo nutno vyvinout algoritmus specifický pro tento typ problému. Automatická metoda vyhledávání byla poprvé popsána v roce 1970 a je známa jako Needleman Wunschovo hledání[5]. Jejím principem je tzv. "pairwise alignment", srovnávání sekvencí aminokyselin pár po páru a nalezení maximální podobnosti. Posléze byla rozšířena a upravena pro identifikaci lokálních podobností a tato novější verze je známa jako Smith Watermanovo hledání[6]. Na začátku by bylo vhodné také zmínit, co vlastně podobnost mezi sekvencemi vyjadřuje. Podobnost tedy vyjadřuje určitou metrickou vzdálenost, která určuje přijatelnou míru mutací aminokyselin, která nastala a byla přijata v prostředí a nezpůsobila zánik konkrétního organismu. Tyto možné záměny mezi jednotlivými aminokyselinami jsou definovány pomocí různých metod založených na statistice a pravděpodobnosti a na jejich základě vznikly matice podobnosti (similarity matrix), které slouží také pro vyhodnocení možné vzniklé změny. Možným příkladem je například matice PAM (Point Accepted Mutation)[7] nebo BLOSUM (BLOcks Substitution Matrix)[6]. Pro provádění porovnávání se dnes využívají dvě odlišné strategie. Jedna vytváří globální srovnávání a druhá umožňuje detekování lokálních podobností mezi vstupními sekvencemi. Metody globálního srovnávání v dnešní době vytváří zarovnání pomocí synchronizace informací všech vstupních sekvencí. Tyto metody jsou však výpočetně náročné a jejich aplikace je proto omezená. Díky těmto omezením byly vyvinuty alternativní přístupy, kde je problém zarovnávání redukován na sérii párových srovnání profilů. Jednou z těchto metod je CLUSTAL W. Avšak výsledky tohoto přístupu jsou hodně závislé na pořadí, ve kterém bylo provedeno srovnání profilů, což se jeví jako nevýhoda. Pokud jsou sekvence součástí jedné rodiny tak mají obvykle více než 75% shodu mezi aminokyselinami. S možností rozdělení sekvencí do rodin, přišly také nové přístupy na provádění srovnání, které jsou zaměřeny na určování podobnosti na základě souvisejících segmentů sekvencí. Tyto směry dosahují lepších výsledků nad tradičními metodami v situacích, kdy testované data obsahují mnoho mezer, které je třeba vložit do správného zarovnání, nebo se jedná o málo související typy sekvencí. Příkladem může být metoda použitá v programu DIALIGN[8]. Avšak zatím není známá žádná metoda, která by byla univerzální a optimální pro provádění zarovnání. Současný trend vývoje ukazuje, že je vhodné kombinovat metody pro globální i lokální zarovnávání, což umožňuje dostávat informační hodnotu, která by byla za použití pouze jednoho typu 6

13 srovnání menší nebo případně nepoužitelná. 3.1 Přístupy pro lokální zarovnávání Jak už bylo zmíněno výše, v dnešní době existuje mnoho různých přístupů na porovnávání sekvencí. Základním a také rozšířeným přístupem je použití algoritmu Needleman Wunch[9]. Daná podobnost je určena maticí podobnosti, která udává skóre každému páru z hodnocených sekvencí jako sumu hodnot podobnosti daného páru aminokyselinových zbytků minus penalizaci za každou vloženou mezeru (gap). Tento algoritmus dosahuje slušných výsledků pro zarovnání, pokud jsou dané sekvence úzce související a pokud je třeba vložit jen malé množství mezer. V roce 1981 vytvořili Smith a Waterman lokální verzi algoritmu, která umožňuje srovnávání dvou sekvencí, které mají společnou oblast s vysokou podobností a mimo ni nejsou navzájem podobné. Pokud sekvence mají společných oblastí podobnosti víc, které jsou odděleny nesouvisejícími regiony, je situace zarovnání ještě složitější. Toto může nastat například u intronů v DNA nebo smyček u proteinů. Tímto případem se zabývá několik různých přístupů založených na principu vyhledávání a zarovnávání na základě celých segmentů sekvencí DIALIGN Přístupem, který provádí zarovnání na základě určování segmentů, se zabývá několik výzkumů. Asi nejznámější je algoritmus, který je použit v programu DIALIGN od Burkharda Mogensterna[8]. Základní myšlenka tohoto algoritmu spočívá v návrhu zarovnání a porovnávání celých segmentů (částí bez mezer). Zarovnání je sestaveno z dvojic segmentů, které mají stejnou délku a jsou bez mezer (gapfree). Tyto páry jsou uvažovány jako tzv. diagonály v porovnání dvou sekvencí pomocí metody dotmatrix. Jedná se o metodu, která umožňuje vizuální vyhodnocení možných zarovnání mezi dvěma sekvencemi. Je možné, aby se diagonály navzájem křížily. Obr. 4: Ukázka práce se segmenty v progrmau Dialign Každé diagonále hodnotící funkce přiřadí hodnotu. Na základě tohoto ohodnocení je vytvořeno následujícím způsobem vícenásobné zarovnání. V prvním kroku jsou stanovena všechna optimální párová zarovnání (pairwise alignmenty). Diagonály, které díky tomu dostaneme, jsou uspořádány podle jejich váhového ohodnocení a také podle stupně překrytí s ostatními diagonálami v pořadí, které zdů 7

14 razňuje vzory vyskytující se ve vice než 2 sekvencích. Tato množina je použita k sestavení samotného vícenásobného zarovnání, které využívá tzv. hladový způsob (greedy manner). To znamená, že diagonála s větší hodnotou váhové funkce je vybrána jako první. Pak se vezme další ze seznamu a prověří se, jestli neporušuje konzistenci. Pokud vyhovuje, tak je zařazena do výsledného zarovnání. Tímto způsobem se pokračuje, dokud nejsou vybrány všechny diagonály. V konečném kroku DIALIGN vkládá mezery (gaps) mezi sekvence, dokud nejsou všechny residua spojené vybranou diagonálou řádně uspořádána. Nejdůležitější součástí tohoto algoritmu je váhová funkce, která provádí ohodnocení jednotlivých diagonál. Funkce vychází z myšlenky, kterou navrhli Altschul a Erickson (1986), kde daná diagonála D má určitou délku l D. Označíme součet hodnot podobností jednotlivých aminokyselinových párů uvnitř diagonály jako sd. Tyto hodnoty lze určit například pomocí substituční matice BLOSUM62, která se obvykle používá, pokud porovnáváme proteinové sekvence. Dále P 1(l D,s D) vyjadřuje pravděpodobnost, že náhodná diagonála délky l D má alespoň stejnou sumu s D hodnot podobnosti. Samotná váhová funkce w 1(D) diagonály D je definována takto: w 1 = log P 1 l D, s D Altschul a Erickson také ukázali, že důležitou vlastností tohoto způsobu měření podobnosti segmentů je, že může být porovnávána hodnota dvojic segmentů, které mají rozdílnou délku. Což umožnilo do tohoto programu začlenit vlastnost umožňující práci s diagonálami rozdílných délek. Toto ohodnocení je použito v DIALIGN 1[8] a provádí sestavení zarovnání většinou z mnoha krátkých diagonál než z několika dlouhých, což může vést ke ztrátě informace o lokální podobnosti mezi malými náhodnými segmenty, které tvoří šum. Aby autoři docílili omezení tohoto jevu, upravili způsob hodnocení. Zavedli možnost určení prahové hodnoty pro váhu diagonál, kterou je nutné dosáhnout, aby byla diagonála zahrnuta do výpočtu zarovnání. A také je nutné, aby každá diagonála měla minimální délku 7 residuí. Dalším vylepšením vlastností tohoto algoritmu dosáhl Morgenstern přepracováním váhové funkce[9] pomocí pravděpodobnosti P2(lD,sD) pro vyhledání diagonály délky ld, která má sumu hodnot jednotlivých podobností alespoň stejně velkou, jako je s D SEA Podobný přístup k provádění zarovnání je implementován algoritmem SEA (SEgment Alignment algortihm)[10]. Tento algoritmus porovnává proteiny, které jsou popsané jako kolekce předpovězených struktur lokálních segmentů, jenž odpovídají neohodnocenému grafu, který zapisují jako síť, a každá určitá struktura ať už je skutečná, nebo předpovězená odpovídá nějaké cestě v tomto grafu. SEA využívá přístupu srovnávání několika sítí k nalezení dvou co nejvíce podobných cest v těchto sítích, které reprezentují dva proteiny. SEA pro vyhledání optimálního výsledku využívá prohledávání nejistoty a rozličností, které vznikly při predikci lokální struktury. Díky tomu je zároveň řešen úkol provedení 8

15 zarovnání dvou proteinů a určení lokální struktury každého z nich. Pro využití této metody si autoři určili a označili tzv. lokální strukturu segmentů (LSSs), která je určena jako maximální strukturní jednotka, sdílená mezi porovnávanými proteiny. Každý takovýto úsek může být předvídán metodami pro určení nejbližšího souseda (nearest neighbor), které vytvářejí seznam předpovězených segmentů lokálních struktur (PLSSs). SEA pak hledá nejlepší výsledek podobnosti mezi všemi cestami, jimiž lze procházet PLSS grafy, které jsou reprezentací dvou srovnávaných proteinů, a také díky tomuto mohou být použity rozdíly mezi segmenty k provedení globálního zarovnání. Jak bylo uvedeno dříve, tato metoda srovnává proteiny pomocí charakteristiky lokální (sekundární struktury). To znamená, že není prováděno porovnávání jednotlivých residuových zbytků, ale nejprve je určena sekundární struktura. Pro předpovězení struktury využívá algoritmus přístup k programu ROSSETA, který je speciálně pro tuto predikci navržen. Pro ohodnocení podobnosti[10] je použito následující schéma hodnocení, i, j =W a Aa i, Aa j W s, kde W a a W s jsou váhy podobnosti sekvence a podobnosti lokální struktury, kde W a + W s = 1. Dále potom Δ(Aa i, Aa j ) je podobnost sekvence definovaná maticí BLOSUM62 (). Δ(α, β) určuje podobnost mezi lokálními strukturami. Tato podobnost je určena hodnotící maticí, která je odvozena z vybrané podmnožiny databáze HOMSTRAD, jež obsahuje 706 proteinů, které jsou zatříděni do 177 strukturních rodin Divide-and-conquer Další možností, jak provádět zarovnávání biologických sekvencí, je kombinace několika metod. Tento způsob je využit v přístupu Divide and conquer multilple alignment (DCA)[11]. Tento algoritmus kombinuje navzájem dvě metody pro výpočet zarovnání. Při výpočtu je použita kombinace DCA[11], tato část algoritmu provádí globální zarovnání, a dále program pro lokální zarovnání založený na porovnávání segmentů DIALIGN. Tento algoritmus provádí zarovnání následujícím způsobem. V prvním kroku je aplikován segment base aligmnent v takovém pořadí, aby byla získána konzistentní množina fragmentů F, reprezentující strukturu pro další upřesnění. Tyto fragmenty, nebo jejich vhodná podmnožina, jsou použity jako omezení pro další krok algoritmu. Ve druhém kroku je použita metoda divide and conquer, která provede dokončení zarovnání pro úseky, které nebyly zařazeny do původní skupiny fragmentů F. A to tak, že DCA provádí výpočet optimálního vícenásobného zarovnání za použití dodatečných omezení v závislosti na množině F. 9

16 4. ProLoP Jak už bylo zmíněno výše, existují metody pro určování podobnosti mezi sekvencemi proteinů, které využívají možné funkční nebo strukturní podobnosti podobných sekvencí. Těchto možností je v dnešní době již nepřeberné množství, ale stále nebyla nalezena zcela optimální cesta pro určování vlastností proteinů. Proto je tato oblast vývoje aplikací a algoritmů zcela otevřená a umožňuje rozvoj bioinformatiky. Cílem této práce je implementace způsobu porovnávání a určování podobností sekvencí, který bude na rozdíl od klasických metod jako Smith Waterman postaven na možnosti využití určitých segmentů sekvence. Program, který je součástí této práce, se jmenuje ProLoP (PROteinové Lokální Podobnosti). 4.1 Myšlenka algoritmu Nechť máme nějakou biologickou sekvenci A. Pro tuto sekvenci máme definován seznam lokálních podobností proti databázi sekvencí X 1...X n. Tím myslím, že je dána množina podřetězců a 1...a i sekvence A takových, pro které byly identifikovány podobné podřetězce x1 1...xn j z dané databáze podobných sekvencí X 1...X n. Algoritmus pak provede ohodnocení stupně podobnosti mezi každou dvojicí sekvencí (A,X i ) takovým způsobem, že budou zohledňovány důležité vlastnosti pro možnou strukturu nebo funkci. Mezi tyto vlastnosti patří například relativní pozice segmentů, počet shodných nebo podobných segmentů. 4.2 Algoritmus ohodnocení Důležitou vlastností pro výpočet podobnosti sekvencí je možnost práce s daty, které je možné získat z veřejně dostupných zdrojů. Nejdůležitější je možnost získávání informací, které umožní vybrat z hodnocené sekvence hledané segmenty. Tuto funkčnost je možné zajistit s využitím některé metody, která takové segmenty identifikují. Je možné použít například algoritmus použitý v programu DIALIGN, který má funkční webové rozhraní, přes které s ním lze pracovat. V tomto projektu jsou jako vstup použita data, která poskytuje program PEPTIMEX[12], jehož autorem je Ing. Matej Lexa a vyhledává segmenty peptidů. PEPTIMEX vyhledává výskyt peptidových sekvencí o délce 7 20 aminokyselin. Výsledek tohoto vyhledávání je dostupný ve formě strukturovaného textu, kde jsou jednotlivé položky navzájem odděleny mezerou a každý záznam je na samostatném řádku. Tento vstup je zpracován třídou PeptimexInput, která je popsána v kapitole Způsob jakým provádím vyhodnocování podobnosti je založen na opakovaném výskytu několika segmentů společně, které mohou mít určitý vliv na určitý předpoklad funkce srovnávaného proteinu. Jedno z kritérií, které dává daném segmentu větší váhu k důležitosti, může být statistický výskyt tohoto segmentu v prohledávané databázi. Z toho také vyplývají následné kombinace několika segmentů. Protože možných kombinací je velké množství, je kladen důraz na podobnost mezi segmentem ze sekvence A a segmentem ze sekvence X i. 10

17 Mezi dvojicemi segmentů může hrát také určitou roli vzdálenost, která je mezi dvojicí segmentů, a může vypovídat například o tom, že pokud je mezi segmenty ze sekvence A určitá vzdálenost a mezi podobnými segmenty z X i bude vzdálenost jiná (např. větší) a víme, že segmenty z X i byla třeba určitá interakce, může se sekvence A svou funkčností podobat proteinové sekvenci X i a přitom mít odlišné strukturu. Tento možný stav schématicky znázorňuje obrázek Obr. 6. Znázorněný příklad je možný v důsledku toho, že proteiny, které mají podobnou funkci, vytvářejí struktury, které mají podobné fyzické uspořádání. Obr. 5: Interakce v proteinech Dalším faktorem pro hodnocení je statistika výskytu určitých dvojic v prohledávané databázi. Pro každou dvojici A 1 a A 2 dokážeme, určit jaká je jejich vzájemná míra informace (mutual information, MI). Tuto hodnotu lze vypočítat podle následujících vztahů. P x 1, x 2 MI =log 2 P x 1 P x 2 Kde P(x1) je pravděpodobnost výskytu segmentu x1, P(x2) je pravděpodobnost výskytu segmentu x2 a P(x1,x2) je pravděpodobnost výskytu obou segmentů v proteinu současně. Například pokud víme, že x 1 se vyskytuje 1250x a x 2 se bude vyskytovat 800x, tak dokážeme zjistit, že společně se vyskytují například 12x. Způsob, jakým vypočteme jejich vzájemnou informaci, odpovídá příkladu. Pokud víme, že databáze obsahuje například aminokyselin, potom frekvence výskytu x 1 a x 2 je P x 1 = P x 2 = Pak by měl být náhodný výskyt obou segmentů A 1 a A 2 dán součinem frekvencí výskytů jednotlivých segmentů. To je s frekvencí 1/ MI slouží ke zjištění, jaký je poměr reality k této teoretické náhodné hodnotě. Pokud jde pouze o čistě náhodné údaje, bude hodnota MI = 1, a pokud výskytu dvojice něco pomáhá nebo brání (např. nějaké strukturní nebo biologické pravidlo), bude hodnota MI různá od 1. MI =log 2 12 = 3,58 Další metodou, jak ohodnotit sekvence, může být pomocí základního ohodnocení jednotlivých 11

18 segmentů pomocí metody pro párové ohodnocování jako u metody Smith Waterman. Pro vzájemné porovnání dvou segmentů je použita matice podobnosti Blosum62(Tabulka 3), která obsahuje ohodnocení pro možné záměny či srovnání dvou aminokyselin na určité pozici v segmentu. Podobnost je stanovena jako součet hodnot z matice pro dané páry[6]. Ta je definovaná vztahem: n A, X i = 0 Blosum62[ i, j] Pro tuto rovnici je určeno, že n značí délku menšího ze segmentů a hodnoty i,j určují řádek a sloupec pro konkrétní aminokyselinu v matici podobnosti. Když máme takto ohodnoceny jednotlivé dvojice segmentů, tak je možné je zahrnout do obecnějšího ohodnocení podobnosti. Pro takové dvojice segmentů provádíme další porovnání takovým způsobem, že vytvoříme matici vzdáleností mezi jednotlivými segmenty X i jedné sekvence. To provedeme pro každý protein, který je dostupný ve výsledku vyhledávání. Celkové ohodnocení proteinu se vypočítá pomocí jedné ze dvou metod zahrnující výpočet vzájemné informace S MI nebo pomocí ohodnocení mezi jednotlivými segmenty podle Δ(A i,x i ), ve výsledném vzorci značeno S F. Hodnocení může být také složeno z obou možností s tím, že hodnocení, na které bude kladen větší důraz, lze ovlivnit parametrem p. Hodnocení je tedy pro každý možný protein určen jako součet: A R N D C Q E G H I L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V Tabulka 3: Matice Blosum62 S = p S MI 1 p S F Funkce S MI značí součet vzájemné informace mezi každou dvojicí segmentu z jednotlivého proteinu. Funkce SF se spočítá jako součet ohodnocení každého segmentu v proteinu. Ve výsledném ohodnocení pak budou mít nejlepší ohodnocení proteiny, u kterých byly identifikovány segmenty, které se častěji vyskytují ve dvojicích. A také proteiny, které budou mít větší shodu podobností pomocí 12

19 základního ohodnocení. Následující obrázek tuto myšlenku pro lepší představu graficky znázorňuje. Obr. 6: Znázornění vlivu nalezených segmentů na celkové hodnocení Spojnice mezi segmenty znázorňují hodnocení pomocí funkce S F a vlastnost většího výskytu určitého páru segmentů (a1, a2 a pro ně identifikované x1.1, x2.1 a x1.2, x2.2) přidají v proteinu X1 a X2 větši míru informace než v proteinu Xi, tudíž budou mít lepší hodnocení. 4.3 Návrh programu Tato část pojednává o objektově orientovaném návrhu programu popisem klíčových modulů a tříd. Hlubší zaměření je pouze na důležité součásti a ostatní součásti budou zmíněny pouze okrajově. O způsobu, jakým je prováděno ohodnocení podobnosti mezi danými dvojicemi sekvencí (A,X i ), pojednává kapitola 5.2, protože jde o nejdůležitější součást programu. Popisy, které zahrnují termíny a syntaxi zápisu v Javě, jsou vysázeny fontem Courier New, umožní to zejména přehlednější orientaci. Díky hierarchickému uspořádání objektů je možné v Javě implementovat jednotlivé třídy programu tak, že jsou rozděleny do balíčků podle dané funkčnosti. Proto je tento program rozdělen do několika základních částí, tak jak je ukázáno na následujícím obrázku (Obr. 7). Sequence: obsahuje třídy, které zahrnují algoritmus na vyhodnocení podobností IO: zahrnuje třídy, které slouží pro vstupně výstupní operace programu GUI: tato část implementuje GUI rozhraní pro ovládání programu Obr. 7: Balíčky a třídy 13

20 Pro snadnější ovládání je součástí aplikace také jednoduché grafické rozhraní (GUI), které má uživateli umožnit nastavování různých parametrů pro ohodnocení, určování zdroje dat, výsledek poté zobrazit ve vhodně čitelné formě a případně uložit výstup do externího souboru. 4.4 Seznámení s jednotlivými funkcemi programu Jaká data jsou vstupem Jak už bylo uvedeno výše, vstupem dat jsou hodnoty z programu PEPTIMEX[12]. Tato data je možné načíst ze dvou různých zdrojů. Je možné mít data na nějakém lokálním úložišti a pak si v programu vyberete cestu a soubor, který požadujete. Druhou možností je zvolit si přímo adresu serveru na internetu, na kterém PEPTIMEX běží. Pro tyto účely a možnost testování je možné využívat URL: bin/peptimex_client.cgi Aby bylo možné získat informace, je potřeba, aby byla zadána krátká sekvence aminokyselin a také zdroj, na kterém má být vyhledávání provedeno. V současné době je zdroj dat pouze Arabidopsis thaliana. Aby bylo možné provádět porovnávání, je nutné ještě zadat sekvenci A, na které bude provedeno určení segmentů pomocí pohyblivého okna, jehož velikost je možné ovlivnit v rozsahu 8 20 aminokyselin. Tyto segmenty pak slouží jako vstup do programu PEPTIMEX[12]. Následuje příklad, v jakém formátu vrátí PEPTIMEX vyhledané podobnosti pro různé proteiny. 0 MASAQSF-Y MASA-TFSF At1g MASAQSFY- MASA-SYYF At3g MASAQSFY MASAQSFY At5g MASAQSFY VASA At1g MASAQSFY VASA At5g MASAQSFY IASA At4g MASAQSFY LASA At2g Ukázka zahrnuje jednotlivé položky v následujícím pořadí: Číslo primeru Sekvence, použitá při vyhledávání Sekvence, kterou PEPTIMEX identifikoval Identifikátor proteinu Globální pozice, na které je identifikovaná sekvence Lokální pozice, na které je identifikovaná sekvence Vlákno Skóre, reprezentující počet shodujících se bází 14

21 Tato data jsou získávána pomocí standardních postupů, kde se využívá InputStreamReader a také BufferedReader, díky těmto třídám, které jsou součástí běžného Java API, je možné určit pro vstup soubor nebo URL. Pokud použijeme jako vstup data lokálního souboru jsou postupně načítány jednotlivé řádky, které jsou ukládány do tzv. HashMap, kde je každý řádek rozdělen po jednotlivých položkách, které je možné potom z objektu SegmentLine zpřístupnit. Toto dynamické ukládání umožňuje vyhledávání jednotlivých položek pomocí klíče. V našem případě je klíč pořadí, ve kterém byl daný řádek načten ze vstupu. Pokud je zvolen jako vstup zdroj z internetu, je pro ukládání vstupních dat použita databáze, kde jsou jednotlivé řádky opět ukládány, zároveň s tímto je také vytvořen seznam možných proteinů, kterým je potom přiřazeno vypočítané hodnocení. Tento odlišný přístup je zvolen z následujícího důvodu. Databáze nám poskytuje jednoduché a optimalizované nástroje pro práci s uloženými daty ve formě dotazovacího jazyku SQL a umožňuje také v případě velké vstupní sekvence přesunout paměťové nároky na stroj, který má odpovídající výkon. Pokud je vstup ze souboru, tak jsou v něm data, která se týkají segmentů pro sekvenci, která tvoří jediné posuvné okno. Naopak pokud je brán jako zdroj PEPTIMEX a zadaná sekvence je delší než stanovená velikost okna. Dojde k získání velkého množství dat. Např. pokud je sekvence dlouhá 16 znaků, bude databáze obsahovat až kolem 200 záznamů o segmentech Výsledky, kterých je docíleno provedením výpočtu podobnosti, je možné vyexportovat ve formátu XML. Díky tomu, že většina zpracovávaných informací má určitou možnou hierarchii, je pro uchovávání a průběžnou práci vhodná nějaká stromová struktura, která lze do formátu XML zapsat. Výhoda pro tento způsob je v tom, že lze připravit nějakou XSLT transformační šablonu pro převod do jiného formátu. Například umožnit vizualizaci schematickou vizualizaci jednotlivých segmentu nebo upravit výstup pro použití do jiného typu aplikace. Následující ukázka zobrazuje příklad, jakým způsobem je možné uložit získaná vstupní data. V podstatě jde pouze o konkrétní určení, jakou vlastnost má konkrétní položka. <input> <segment_line> <query_seq>masaqsf-y</query_seq> <genomi_seq>masa-tfsf</genomi_seq> <gi_id>at1g54500</gi_id> <position> </positon> </segment_line>... </input> 15

22 4.5 Implementace hodnotícího algoritmu Z takto získaných dat dostaneme základní informace o segmentech, na jejichž základě budeme vyhodnocovat celkovou podobnost. První částí je provedení vyhodnocení podobnosti mezi jednotlivými segmenty A a X i. A to takovým způsobem, že v každém řádku je druhá položka brána jako segment ze sekvence A a položka třetí je segment vhodný k porovnání, který se nachází v sekvenci X i. To, který řádek patří k porovnávání A a daného X i, určuje identifikační kód proteinu, ve kterém se segment nachází. Toto ohodnocení jednotlivých segmentů slouží pro výpočet podobnosti pomocí základního ohodnocení funkcí S F. Ohodnocení mezi jednotlivými segmenty je implementováno třídou ScoreBlosum62, která provádí vyhodnocování mezi jednotlivými segmenty. Obsahuje pouze metodu compare, která přebírá jako vstupní parametry dva řetězce, které určují dané segmenty, a provede výpočet skóre podle matice BLOSUM62 (Tabulka 3). Druhá část celkového ohodnocení se vypočítává pomocí postupného sčítání vzájemné míry informace mezi každým možným párem segmentů z daného proteinu. Tyto výpočty se postupně provádí pro všechny segmenty a v průběhu výpočtu se postupně jednotlivá dílčí hodnocení postupně přičítají k hodnotě podobnosti pro daný protein. Po průchodu všemi segmenty je pro každou identifikovanou proteinovou sekvenci známo celkové ohodnocení. Vyhodnocení výsledků podobnosti vypisuje program do speciálního pole, které je dostupné na záložce Výstup. Výstup je textového formátu a obsahuje informace o datech, která jsou zpracovávána a vyhodnocována. První část výpisu obsahuje informace, které jsou relevantní pro danou hodnotu posuvného okna. Každý řádek na konci obsahuje informaci o hodnotě, která vznikla porovnáním páru segmentů (A,X i ) pomocí ohodnocení maticí BLOSUM62 (Tabulka 3). Pak je na výstup zařazen výsledek ohodnocení pro jednotlivé proteiny X i, včetně jejich identifikátoru. Poslední výsledek zobrazuje nejvyšší dosaženou hodnotu hodnocení. Kromě vyhodnocování výsledků pomocí textového výstupu program také vytvoří okno grafu, ve kterém jsou výsledky lépe čitelné a umožňují vytvořit si lepší představu o stavu vyhodnocení rozdílů mezi jednotlivými segmenty, které byly porovnávány. Výstup je ve formě sloupcového grafu. V grafu jsou zobrazeny hodnoty porovnání, toto vyjadřuje výška sloupce, a každý sloupec je označen popiskem, který napovídá, ve kterém proteinu byl porovnávaný segment nalezen. Tento graf je možné uložit ve formátu png. Funkce pro generování grafu je zajištěna pomocí nástrojů, které jsou převzaty z volně použitelného balíku jfreechar. Tento balík obsahuje mimo jiné také nástroje pro vytváření jiných typů grafů, jako jsou grafy koláčové, spojnicové. Tento balík poskytuje komplexní řešení pro práci s grafy a umožňuje tak usnadnit práci s vizualizaci výsledků. Balík je dostupný volně ke stažení na adrese: Protože je výpočet hodnocení založen také na některých matematických funkcích, které nejsou v Javě standardně implementovány, byl k programu připojen balíček flanagan.jar, jehož autorem 16

23 je Michael Thomas Flanagan[13] a jsou pro nekomerční účely volně použitelné. Obsahují kromě funkcí pro integrální výpočet již hotové statistické metody pro základní pravděpodobnost, ale i jiné složitější funkce, které nejsou běžně v Javě implementovány. Vše je dostupné ve formě jar archivu na stránkách autora: Další balík, který program využívá, umožňuje vytvoření spojení a práci s databází MySql. Tento balík je také volně šiřitelný a pochází přímo od tvůrců databáze. Jedná se o balík mysqlconnector-java bin.jar, který je dostupný na adrese: Tento balík poskytuje metody pro práci s databází MySQL, ke které se z programu připojujeme, protože uložení některých dat v tabulce umožňuje získávat informace o počtech jednotlivých nalezených segmentech jednoduchým způsobem pomocí dotazovacího jazyka SQL. Využití tohoto přístupu zjednodušuje práci s daty pro výpočet vzájemné informace mezi jednotlivými dvojicemi segmentů. Informace získané touto metodou nahrazují ukládání a zpravování výpočtů v poli, které by plnilo funkci tabulky a které může být obecně velmi velké. Databáze je pro takovéto účely více než vhodným řešením navíc umožňuje, aby se data částečně zpracovávala na odděleném serveru, který má většinou dostatečný výkon pro tyto vlastnosti. Parametry serveru pro připojení může uživatel snadno ovlivnit, pokud je zapíše do souboru database.conf. V souboru lze nastavit adresu a port serveru, jméno databáze, přihlašovací jméno a heslo. Strukturu databáze je možné vytvořit pomocí přiloženého skriptu create_data.sql GUI Uživatelské rozhraní, které poskytuje pohodlné ovládání programu, je vytvořeno tak, aby bylo pro uživatele programu co nejlépe na první pohled pochopitelné. Umožňuje nastavit základní vlastnosti, tak aby mohly být použity například i jiné zdroje vstupních dat než ty, které jsou předem definované. Pomocí posuvníku je možné nastavit velikost klouzajícího okna. Obr. 8: Uživatelské rozhraní 17

24 4.6 Instalace a požadavky na systém Počítačový program, který je součástí této práce, je napsán v jazyce Java. Z toho vyplývají určité výhody a nevýhody použití. Mezi největší z výhod bych zařadil možnost spouštění na libovolné platformě, pro kterou existuje běhové prostředí Javy (JRE, Java Runtime Environment). V dnešní době by se mohlo zdát, že běh programu bude pomalejší než běžné programy, které jsou kompilované přímo do konkrétního binárního formátu určeného pouze pro konkrétní systém. Tato zdánlivá nevýhoda je však téměř zanedbatelná, protože současné implementace kompilátorů Javy provádí dostatečnou optimalizaci, která zaručí dostatečnou rychlost. Program je sestaven formou archivu jar, což umožní jednodušší možnosti pro nahrání a spuštění programu. Aby bylo možné program použít, je třeba mít nainstalované JRE ve verzi 1.5 nebo vyšší. Program není třeba instalovat. Stačí pouze nahrát adresář, který rozbalíte z archivu prolop.zip na požadované, místo odkud by měl být spouštěn. V archivu je kromě samotného balíčku, který se spouští, také konfigurační soubor pro nastavení připojení k databázi, skript pro vytvoření databáze pro průběžné výpočty a adresář lib, který obsahuje dodatečné balíky nutné pro běh programu. Balíček je sestaven tak, že se automaticky spustí grafické rozhraní a není třeba ručně určovat třídu, která má být spuštěna. Program se spouští následujícím příkazem: java -jar ProLoP.jar Požadavky programu na systém jsou tedy hlavně závislé na doporučení pro konkrétní JRE. Pro verzi Sun Java Runtime Environment 1.5.0_xx jsou tyto požadavky podporované následující operační systémy: Solaris SPARC, Solaris x86, JDS, Red Hat Linux, SUSE Linux, Windows 98, Windows ME, Windows 2000 (SP4+), Windows XP (SP1 SP2), Windows Požadavky programu na diskový prostor jsou minimální kolem 1 MB. Doporučená velikost operační paměti je 512 MB a více. Pro funkčnost programu doporučuji přístupu k internetu, aby byla zaručena funkčnost získávání podobností z programu PEPTIMEX. Program využívá pro výpočet data, která jsou zapsána do databáze, proto je nutné mít přístup k databázi MySQL a v ní mít vytvořenu příslušnou databázi. 4.7 Ukázka vstupu do programu a zpracování Obr. 9: Ukázka práce s programem 18

25 Aby bylo názorně vidět program funguje, je zde uveden konkrétní příklad zpracovávaných dat. Jako vzorek sekvence, kterou se budeme snažit ohodnotit, bude posloupnost aminokyselin MASAQSFY. Tato sekvence je význačná pro Arabidopsis thaliana, která má značení At5g Po spuštění programu, tedy do pole sekvence(obr. 9 bod 1) zadáme MASAQSFY, nastavíme velikost posuvného okna na požadovanou velikost(obr. 9 bod 2). V tomto případě je to 8, protože větší okno by vzhledem k délce sekvence stejně nemělo žádný význam. Dále můžeme změnit nastavení parametru p pomocí posuvného jezdce(obr. 9 bod 3). Ovlivníme tím, jestli se při výpočtu váhové funkce bude brát ohled více na hodnotu MI(Mutual Information) nebo hodnotu standardizovaného rozložení. Pro spuštění ohodnocení zvolíme zdroj z internetu(obr. 9 bod 4). Zde je zdrojem dat výstup z programu PEPTIMEX. Vrácené hodnoty jsou načteny do databáze, ze které jsou tyto hodnoty použity pro výpočet hodnocení. Zároveň se také v databázi vytvoří seznam možných proteinů, kterým bude později přiřazeno hodnocení. 4.8 Ukázka vyhodnocení a graf výsledku Po dokončení ohodnocení jednotlivých proteinů je programem vypsáno ohodnocení jednotlivých proteinů a maximální dosažené hodnocení. V záložce graf jsou tyto výsledky znázorněny pomocí grafu(obr. 9 bod 5). Pro každý protein je zde jeden sloupec, který znázorňuje dosažené hodnocení. Obr. 10: Výsledek vyhodnocení Na obrázku(obr. 10) je ukázáno, že hodnocení vyšlo nejlépe pro proteiny At5g07210 a At2g Proto tyto dva nejlépe ohodnocené proteiny lze považovat jako kandidáty pro podobnost. U At5g07210 je to opravdu, to co jsme hledali, druhý však dosáhl velkého hodnocení díky tomu, že při analýze vstupu byly identifikovány dva segmenty z jednoho proteinu, tudíž je hodnocení takto vysoké. Toto ovšem není chyba, protože hodnocení má pro každý nalezený segment spočítat hodnocení pro všechny identifikované segmenty. 19

26 Tato ukázka sloužila pro testování, zda ohodnocení vrací předpokládané hodnoty. Aby byly vidět rozdíly ve výsledcích, použijeme pro ukázku sekvenci MASAQSFYMA, na této sekvenci ukážeme, že v programu dochází k ohodnocení také podle posuvného okna, které vytváří podsekvence. Opět nastavíme parametry a to takto: Posuvné okno necháme na nejmenší hodnotu 8, parametr p necháme na hodnotu 50, aby do hodnocení byly zahrnuty obě části hodnotící funkce a opět zvolíme vstup z internetu. Obr. 11: Výsledek pro sekveci MASAQSFYMA Z obrázku(obr. 11) je již více zřetelné, že nejvíce podobná sekvence je At5g Při tomto pokusu došlo navíc k tomu, že bylo hodnocení provedeno pro více segmentů, které jsem dostali, protože se zde 2 krát posunulo okno. Pro každý tento posuv byly získány další segmenty, které následně přispěly do hodnocení jednotlivých proteinů. 4.9 Zhodnocení běhu programu Program lze provozovat na jakémkoliv počítači, kde je JRE a je zde připojení k internetu. Nevýhodou je však velké vytížení procesoru díky náročným výpočtům funkce pro vzájemnou informaci mezi segmenty. Toto se projevuje v délce výpočtu, která je závislá zejména na velikosti vstupní sekvence. Díky tomu, že hodnocení proteinu se provádí pro každou dvojici segmentů, které jsou pro něj identifikovány, je počet výpočtů pro jeden protein určen počtem možných dvojic segmentů jako: V 2, n = n! n 2! Výpočet se provádí pro každý identifikovaný protein, takže výpočet se provádí celkem m krát, kde m je počet identifikovaných proteinů. 20

27 5. Závěr Oblast, která se zabývá tímto oborem, je pole plné možností. Pokud se zabýváme touto oblastí, je nesmírně důležité zpracovat velké množství informací, které není snadné leckdy jednoduše najít a získat. Je důležité pokusit se udělat si přehled o dané problematice, například najít různé podobné metody, které se týkají podobného problému, proto je část práce zaměřena na způsoby, jakým fungují ostatní dostupné metody. Program podává uživateli nápovědu, podle které může postupovat při porovnání proteinových sekvencí. Z výstupu dostane informaci, která může sloužit jako výchozí bod pro podrobnější analýzu zpracovávané sekvence. Využívá k tomu vstup z vědeckého projektu PEPTIMEX a pro jednoduché zpracování dat také připojení na databázi. Díky tomu lze jednoduše zjišťovat potřebné informace, které slouží pro výpočet hodnocení. Díky tomu, že z databáze dostáváme výsledky pomocí jazyka SQL, lze v případě potřeby jednoduše modifikovat funkci pro hodnocení. Výsledky pro výpočet hodnocení podobnosti jsou použitelné pro další hodnocení a myslím, že můžou být použity například pro ukázku ve výuce základů bioinformatiky pro pochopení, jakým způsobem lze pracovat s dostupnými produkty, a pro získání představy, jakým způsobem jsou postaveny ostatní projekty pro hodnocení podobnosti. 21

Zobrazit více