VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Podobné dokumenty
Termíny zkoušek Komise Komise. subkomise 1 (obhaj.) :30 B subkomise 2 (obhaj.) :30 B8 120

Statistika pro geografy. Rozd lení etností DEPARTMENT OF GEOGRAPHY

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

2C Tisk-ePROJEKTY

ZÁKLADNÍ ŠKOLA a MATE SKÁ ŠKOLA STRUP ICE, okres Chomutov

HLAVA III PODROBNOSTI O VEDENÍ ÚST EDNÍHO SEZNAMU OCHRANY P ÍRODY

Výukový materiál zpracovaný v rámci projektu Výuka modern

Adresa p íslušného ú adu. Ú ad:... Ulice:... PS, obec:...

ČÁST PÁTÁ POZEMKY V KATASTRU NEMOVITOSTÍ

Odpov di na dotazy uchaze k ve ejné zakázce. 25/

Historie a sou asnost v deckých asopis

NÁVRHOVÝ PROGRAM VÝMĚNÍKŮ TEPLA FIRMY SECESPOL CAIRO PŘÍRUČKA UŽIVATELE

Dálkové p enosy ze za ízení aktivní protikorozní ochrany Severomoravské plynárenské, a.s.

Algoritmizace a programování

ŽÁDOST O VYDÁNÍ ROZHODNUTÍ O UMÍST NÍ STAVBY ÁST A

MANUÁL PRO PRÁCI S POČÍTAČOVÝM PROGRAMEM SLUNÍČKO

PRACOVNÍ MATERIÁLY PRACOVNÍ MATERIÁLY CHEMIE CHEMIE. Struktura vyu ovací hodiny. Záznamový Záznamový arch. P edm tový metodik: Ing.

Team Engineering. New in V13. TIA Portal news. Restricted / Siemens AG All Rights Reserved.

účetních informací státu při přenosu účetního záznamu,

-1- N á v r h ČÁST PRVNÍ OBECNÁ USTANOVENÍ. 1 Předmět úpravy


Klonování gen a genové inženýrství

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Molekulárn. rní. biologie Struktura DNA a RNA

Úprava tabulek v MS Word. Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí

Než za nete vypl ovat tiskopis, p e t te si, prosím, pokyny. P IZNÁNÍ. k dani z p íjm právnických osob

Poukázky v obálkách. MOJESODEXO.CZ - Poukázky v obálkách Uživatelská příručka MOJESODEXO.CZ. Uživatelská příručka. Strana 1 / 1. Verze aplikace: 1.4.

Výukový materiál zpracovaný v rámci projektu Výuka modern

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Struktura a funkce nukleových kyselin

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

Manuál Kentico CMSDesk pro KDU-ČSL

TECHNICKÉ KRESLENÍ A CAD

Algoritmizace a programování

Návrh realizace transformátoru Thane C. Heinse

p írodní zdroje energie a surovin odpady globální problémy ochrana p írody a krajiny nástroje spole nosti na ochranu životního

Model mitózy Kat. číslo

DUM 02 téma: Popisové pole na výrobním výkrese

DATABÁZE DŮLEŽITÉ: Před načtením nové databáze do vaší databáze si prosím přečtěte následující informace, které vám umožní:

INTERNETOVÝ TRH S POHLEDÁVKAMI. Uživatelská příručka

1 - Prostředí programu WORD 2007

Novinky verzí SKLADNÍK 4.24 a 4.25

29 Evidence smluv. Popis modulu. Záložka Evidence smluv

Matematický model kamery v afinním prostoru

Microsoft Office Project 2003 Úkoly projektu 1. Začátek práce na projektu 1.1 Nastavení data projektu Plánovat od Datum zahájení Datum dokončení

Zám r a cíle projektu

3. NEZAMĚSTNANOST A VOLNÁ PRACOVNÍ MÍSTA

MOBILNÍ KOMUNIKACE STRUKTURA GSM SÍTĚ

Postup doplnění kódu adresního místa

Využití metod strojového učení v bioinformatice David Hoksza

Metody studia historie populací. Metody studia historie populací. 1) Metody studiagenetickérozmanitosti komplexní fenotypové znaky, molekulární znaky.

DUM 07 téma: P edepisování tolerancí

RNÉ MATERIÁLY. PSYCHODIAGNOSTIKA - VYHODNOCENÍ z , 13:19 hodin

Autodesk Inventor 8 vysunutí

EHLED OSV za rok 2013 vykonávajících pouze hlavní SV

Krajská hospodářská komora Střední Čechy. Pravidla soutěže. Poznáváme firmy ve středních Čechách. 1. Pořadatel soutěže. 2. Termín konání soutěže

P IZNÁNÍ TISKOPIS PRO ZM NU VLASTNICTVÍ OD

Průzkum dopravy v ulicích Pod Vinohrady a Havlíčkova

Školní kolo soutěže Mladý programátor 2016, kategorie A, B

Návod k použití aplikace MARKETINGOVÉ PRŮZKUMY.CZ

Vydání občanského průkazu

TÉMA BAKALÁŘSKÉ PRÁCE

Model dvanáctipulzního usměrňovače

BÍLKOVINY. Autor: Mgr. Stanislava Bubíková. Datum (období) tvorby: Ročník: devátý

NUKLEOVÉ KYSELINY. Základ života

ÚVOD DO GEOGRAFICKÝCH INFORMA NÍCH SYSTÉM

6. Matice. Algebraické vlastnosti

170/2010 Sb. VYHLÁŠKA. ze dne 21. května 2010

DUM 14 téma: Kreslení hydraulických schémat

Obec Jino any : , Jino any

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Molekulární základy genetiky

Zakázka bude pln na b hem roku 2014 a v následujících 48 sících od uzav ení smlouvy.

Uživatelské postupy v ISÚI Založení ulice a změna příslušnosti adresního místa k ulici

8. Struktura údaj na LCD displeji

Organismy. Látky. Bakterie drobné, okem neviditelné, některé jsou původci nemocí, většina z nich je však velmi užitečná a v přírodě potřebná

Seznámení žáků s pojmem makra, možnosti využití, praktické vytvoření makra.

Obec Mi kov. Zpráva o výsledku p ezkoumání hospoda ení. územního samosprávného celku. za období od do

jsou p ipojeny v dokladové ásti dokumentace, s uvedením p íslušného vlastníka,.j. a data vydání, a to na úseku:

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/

117D613 Euroklí Zásady podprogramu pro poskytování dotací v roce 2013 (dále jen Zásady podprogramu )

Město Mariánské Lázně

téma: Formuláře v MS Access

Jak postupovat p i vyhledávání literárních zdroj

Typy nukleových kyselin. deoxyribonukleová (DNA); ribonukleová (RNA).

NÁVOD K OBSLUZE MODULU VIDEO 64 ===============================

Jednací ád výbor Zastupitelstva m styse erný D l

1 Úvod. 2 Pom cky. 3 Postup a výsledky. 3.1 M ení p enosové funkce ve frekven ní oblasti

Katedra obecné elektrotechniky Fakulta elektrotechniky a informatiky, VŠB - TU Ostrava 16. ZÁKLADY LOGICKÉHO ŘÍZENÍ

Orientační průvodce mateřstvím a rodičovstvím v zadávacích dokumentacích poskytovatele

VI. Finanční gramotnost šablony klíčových aktivit

Data v počítači EIS MIS TPS. Informační systémy 2. Spojení: jan.skrbek@tul.cz tel.: Konzultace: úterý

Věc: Rozpočtové určení daní obcí od roku 2013

11 Soustavy rovnic a nerovnic, Determinanty a Matice

Analýza oběžného kola

Základní škola, Staré Město, okr. Uherské Hradiště, příspěvková organizace. Komenské 1720, Staré Město, Metodika

Výzva pro předložení nabídek k veřejné zakázce malého rozsahu s názvem Výměna lina

POKYNY. k vyplnění přiznání k dani z příjmů fyzických osob za zdaňovací období (kalendářní rok) 2012

Nukleové kyseliny. Struktura DNA a RNA. Milada Roštejnská. Helena Klímová

Vyvažování tuhého rotoru v jedné rovině přístrojem Adash Vibrio

Transkript:

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV BIOMEDICÍNSKÉHO INŽENÝRSTVÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF BIOMEDICAL ENGINEERING URČOVÁNÍ GENETICKÉ ODLIŠNOSTI BIOLOGICKÝCH SEKVENCÍ DNA DIPLOMOVÁ PRÁCE MASTER'S THESIS AUTOR PRÁCE AUTHOR Bc. LADISLAV SLIŽ BRNO 2013

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta elektrotechniky a komunikačních technologií Ústav biomedicínského inženýrství Diplomová práce magisterský navazující studijní obor Biomedicínské a ekologické inženýrství Student: Bc. Ladislav Sliž ID: 98251 Ročník: 2 Akademický rok: 2012/2013 NÁZEV TÉMATU: Určování genetické odlišnosti biologických sekvencí DNA POKYNY PRO VYPRACOVÁNÍ: 1. Seznamte se s principem určování podobnosti dvou a více sekvencí DNA. 2. Stručně popište dostupné algoritmy a jejich aplikace. 3. Vyberte a realizujte globální nebo lokální zarovnávání sekvencí DNA. 4. Data srovnejte také obrazově z obrazů sekvencí sestavených pomocí metod Chaos Game Representation (CGR) a Chaos Game Representation of Frequencies (FCGR). 5. Pro práci použijte programové prostředí MATLAB a veřejně dostupnou databázi genomických dat. 6. Výsledky diskutujte. DOPORUČENÁ LITERATURA: [1] JEFFREY, H. J. Chaos Game Representation of gene structure. Nucleic Acids Research. 1990, č. 18, s. 2163-2170. [2] ALMEIDA, J. S., CARRICO, J. A. MARETZEK, A., NOBLE, P. A., FLETCHER, M. Analysis of genomic sequences by Chaos Game Representation. Bioinformatics. 2001, č. 17, s. 429-437. Termín zadání: 11.2.2013 Termín odevzdání: 24.5.2013 Vedoucí práce: prof. Ing. Ivo Provazník, Ph.D. Konzultanti diplomové práce: prof. Ing. Ivo Provazník, Ph.D. Předseda oborové rady UPOZORNĚNÍ: Autor diplomové práce nesmí při vytváření diplomové práce porušit autorská práva třetích osob, zejména nesmí zasahovat nedovoleným způsobem do cizích autorských práv osobnostních a musí si být plně vědom následků porušení ustanovení 11 a následujících autorského zákona č. 121/2000 Sb., včetně možných trestněprávních důsledků vyplývajících z ustanovení části druhé, hlavy VI. díl 4 Trestního zákoníku č.40/2009 Sb.

ABSTRAKT Práce na téma ur ování genetické odlišnosti zarovnáváním signálu biologických sekvencí DNA, se bude zabývat stru ným popisem skladby DNA. Následovat bude základní informace o bioinformatické analýze. Poté bude práce popisovat možnosti zarovnávání sekvencí DNA. Práce se zam í p edevším na globální Needleman v- Wunsch v algoritmus a lokální Smit Watermanov v algoritmus. Dále se tato práce zam í na zarovnávání DNA sekvencí pomocí metod CGR a FCGR. Na záv r bude práce popisovat praktickou aplikaci ur ování genetické odlišnosti pomocí zarovnávání sekvencí KLÍ OVÁ SLOVA DNA, zarovnávání sekvencí, Needleman v-wunsch v algoritmus, globální, lokální, CGR (Chaos Game Reprezentece), FCGR (Frekven ní Chaos Game Reprezentace), ABSTRACT Work on determining the genetic diversity of biological signal aligning DNA sequences, will address a brief description of the composition of DNA. Following is basic information on the bioinformatics analysis. Then the work will describe the possibility of aligning DNA sequences. Work will focus primarily on global Needleman-Wunsch algorithm and local Smit - Watermanov v algorithm. Furthermore, this work will focus on aligning DNA sequences using methods CGR and FCGR. At the end of the work will describe the practical application of identifying genetic differences by aligning the sequences. KEYWORDS DNA, sequence alignment, Needleman-Wunsch algorithm, global, local, CGR (Chaos Game Representation), FCGR (Chaos Game Representation of Frequencies),

SLIŽ,L. Ur ování genetické odlišnosti zarovnáváním signálu biologických sekvencí DNA. Brno: Vysoké u ení technické v Brn, Fakulta elektrotechniky a komunika ních technologií. Ústav biomedicínského inženýrství, 2013. 44 s. Diplomová práce. Vedoucí práce: prof. Ing. Ivo Provazník, Ph.D.

PROHLÁŠENÍ Prohlašuji, že svou semestrální práci na téma Ur ování genetické odlišnosti zarovnáváním signálu biologických sekvencí DNA jsem vypracoval samostatn pod vedením vedoucího semestrální práce a s použitím odborné literatury a dalších informa ních zdroj, které jsou všechny citovány v práci a uvedeny v seznamu literatury na konci práce. Jako autor uvedené semestrální práce dále prohlašuji, že v souvislosti s vytvo ením této semestrální práce jsem neporušil autorská práva t etích osob, zejména jsem nezasáhl nedovoleným zp sobem do cizích autorských práv osobnostních a/nebo majetkových a~jsem si pln v dom následk porušení ustanovení 11 a následujících zákona. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o zm n n kterých zákon (autorský zákon), ve zn ní pozd jších p edpis, v etn možných trestn právních d sledk vyplývajících z ustanovení ásti druhé, hlavy VI. díl 4 Trestního zákoníku. 40/2009 Sb. V Brn dne...... (podpis autora) POD KOVÁNÍ D kuji vedoucímu bakalá ské práce. prof. Ing. Ivo Provazník, Ph.D. za ú innou metodickou, pedagogickou a odbornou pomoc a další cenné rady p i zpracování mé bakalá ské práce. V Brn dne...... (podpis autora) 1

OBSAH Obsah 1 ÚVOD 2 4 2 Základy genetiky 5 2.1 DNA... 5 2.2 Genetický kód... 7 3 Bioinformatická analýza 9 3.1 Zdroje sekven ních dat... 9 3.2 Orientace v databázích... 10 3.3 Vyhledávání dat... 11 4 Zarovnávání dvou sekvencí 13 4.1 Vznik skórovací matice... 14 4.2 Algoritmy ur ování podobnosti sekvencí... 15 4.2.1 Needleman v-wunsch v algoritmus... 15 4.2.2 Smit v - Waterman v algoritmus... 17 4.3 Porovnávání sekvencí... 18 4.3.1 Aplikace BLAST... 18 4.3.2 Aplikace FASTA... 19 5 Obrazové vykreslení sekvencí 20 5.1 CGR (Chaos game representation)... 20 5.2 FGCR (Chaos Game Representation of Frequencies)... 22 6 Zarovnání více sekvencí 24 6.1.1 Matice PAM... 26 6.1.2 Matice BLOSUM... 26 6.2 Metody zarovnání více sekvencí... 27 6.2.1 Metoda sumy pár... 27 6.2.2 Metoda CLUSTAL... 28 6.2.3 Metoda spojování soused... 28 6.3 Další metody zarovnání více sekvencí... 28 2

7 popis programu 29 7.1 Použitý hardware... 29 7.2 T lo programu... 29 8 Ur ování genetické odlišnosti 33 8.1 Vylepšení programu... 39 9 Záv r 10 Literatura 40 41 11 P íloha 11.1 Obsah p iloženého CD:... 43 43 12 Seznam ZKRATEK 44 3

1 ÚVOD Tato práce se bude zabývat ur ováním genetické odlišnosti zarovnáváním signál biologických sekvencí DNA. Úvodem této práce bude stru ný popis skladby DNA následovaný informacemi o bioinformatické analýze. Poté se práce bude zabývat vlastním zarovnáváním sekvencí, bude se zabývat lokálním a globálním zarovnáváním. Podrobn ji pak o Needleman - Wunschov globáln zarovnávacím algoritmu a Smit - Watermanov lokáln zarovnávacím algoritmu. V další ásti se práce zabývá obrazovým srovnáváním sekvencí pomocí metod Chaos Game Representation (CGR) a Chaos Game Representation of Frequencies (FCGR) NA konci této práce bude popsán program, který zobrazuje jednotlivé metody zarovnávání a bude popsána diskuze k tomuto tématu. 4

2 ZÁKLADY GENETIKY Genetika je v da zabývající se d di ností a prom nlivostí živých soustav. Pat í mezi biologické v dy a vyd luje se podle hlediska studia organism (podobn jako anatomie - která se zabývá t lesnou stavbou nebo fyziologie - která se zabývá jednotlivými pochody a procesy v organizmu). Genetika sleduje variabilitu, rozdílnost a p enos druhových a d di ných znak mezi rodi i a potomky i mezi potomky navzájem. Genetika je jednou z nejd ležit jších (ne-li p ímo nejd ležit jší) teoretických v d z hlediska popisu jakékoli živé soustavy. U genetické informace je po átek každého sou asného živého organismu. Genetická informace ur uje budoucí anatomickou stavbu organismu, ur uje, jaké látky budou ú astníky biochemických a fyziologických proces v organismu a v neposlední ad je nepostradatelnou sou ástí pohlavního i nepohlavního rozmnožování. Poznatky genetiky jsou velmi d ležité pro celou adu p írodov dných obor, nap íklad evolu ní biologii, antropologii, mikrobiologii a mnoho dalších. V oboru molekulární biologie se kombinují poznatky genetiky, biochemie a bun né biologie.[5] 2.1 DNA DNA (deoxyribonukleová kyselina) je makromolekula, která obsahuje genetické informace o celém organismu. Tém každá bu ka v t le lov ka má stejnou DNA. V tšina DNA se nachází v bun ném jád e. DNA je tvo ená et zci nukleotid. Jednotlivé nukleotidy se skládají ze t í složek: - fosfátu (vazebný zbytek kyseliny fosfore né) - deoxyribózy (p tiuhlíkový cukr neboli pentóza) - nukleové báze (konkrétní dusíkaté slou eniny). Nukleotidy jsou uspo ádány ve dvou dlouhých pramenech, které tvo í spirálu neboli dvojitou šroubovici. Struktura dvojité šroubovice vypadá jako žeb ík z pár nukleonových bází, které tvo í p í ky žeb íku. V DNA se v r zných kombinacích vyskytují ty i nukleové báze. Tyto ty i báze se rozd lují na dv skupiny, jedna z nich je purinová, kam pat í Adenin (A), Guanin (G) a druhá pyrimidinová Thymin (T), Cytosin (C). 5

Obr. 2.1 Komplementární pár tvo ený adeninem a thyminem Obr. 2.2 Komplementární pár tvo ený guaninem a cytosinem. Párování nukleotid zajiš uje stabilitu genetické informace, zapsané po adím nukleotid v DNA. Pokud ur itým muta ním procesem zm níme toto po adí, bude to mít za následek zm nu specifiky genu.[7] Další d ležitou vlastností DNA je replikace a vytvá ení kopií samy sebe, což je d ležité p i d lení bun k, protože každá nová bu ka pot ebuje mít kopii DNA.[5] Obr. 2.1 Dvojitá šroubovice DNA [2] 6

Replikace DNA je schopnost zajiš ující d di nost. Pro rozmnožování je nezbytné, aby potomek dostal plnohodnotnou genetickou informaci. P i replikaci vzniknou z jedné mate ské molekuly DNA dv naprosto stejné DNA dce iné (každá s jedním vláknem z p vodní DNA). Klí ovou roli p i replikaci DNA mají enzymy (DNA polymerázy). U lov ka se vyskytuje 5 druh enzym ozna ované jako DNA dependentní DNA polymerázy. P i své práci vždy postupují od konce 5' ke konci 3'. Aby DNA polymeráza mohla zahájit p ipojování nukleotid nového vlákna DNA, musí být vodíkové m stky = vazby mezi ob ma vlákny nejprve narušeny (využití DNA dependentní RNA polymerázy). Místa kde tato narušení vzniknou, jsou ozna ovány jako replika ní po átky. Poté co jsou k p edlohovým (templátovým) vlákn m dosyntetizována vlákna nová, je replikace DNA dokon ena. Replikace DNA je semikonzervativní d j, nebo v obou nov vzniklých DNA je jedno vlákno z p vodní dvoušroubovice. [5] Obr. 2.2 schéma replikace DNA[5] 2.2 Genetický kód Genetická informace (GI) je informace primárn obsažená v nukleotidové sekvenci pomocí ty deoxyribonukleotid v DNA et zcích (A, T, G, C) nebo ty ribonukleotid v RNA et zcích (A, U, G, C), která se d dí. Tato sekvence se pak m že rozd lit na tzv. kodóny, neboli triplety to jsou posloupnosti t í po sob jdoucí nukleotidy, které tvo í práv jednu aminokyselinu. Vzájemnými kombinacemi t chto triplet m že vzniknout 64 (4 3 ) r zných kodón. Kv li tomu, že genetický kód je degenerovaný, m že být jedna aminokyselina kódována i n kolika r znými triplety. 7

Existuje 64 triplet, ale pouze 20 aminokyselin. Kodóny UAA a UAG a UGA nekódují žádnou aminokyselinu, ale signalizují ukon ení (stop) et zce polypeptidu. Kodón AUG kóduje nejen aminokyselinu methionin (Met), ale signalizuje také start et zce polypeptidu. Obr. 2.3 P ehled kodón a minokyselin mrna, místo thyminu je zde zastoupen uracil [5] 8

3 BIOINFORMATICKÁ ANALÝZA Bioinformatická analýza je metoda, která shromaž uje, analyzuje a vizualizuje soubory biologických dat. Typickými p edstaviteli dat u bioinformatické analýzy jsou: Sekvence protein a nukleových kyselin (DNA, RNA) Struktura makromolekul (hlavn protein ) Údaje o aktivit a expresi gen Údaje o funkcích gen a jejich produkt Údaje o interakcích mezi proteiny a DNA V této práci se budeme zabývat sekven ními daty (DNA). Sekven ními daty se rozumí jakákoli forma zápisu lineární posloupností monomer v molekule biologické makromolekuly, nej ast ji DNA nebo proteinu. Ve své nejb žn jší podob jsou sekvence zapsány, v posloupnosti monomer spojených do dlouhých lineárních molekul. Abychom s nimi mohli pracovat, musíme sekven ní informaci p enést do posloupnosti znak, kterou lze zapsat na elektronické médium. Ve v tšin p ípad se to dnes d je prost ednictvím sekvenování DNA.[12] Sekvenování DNA vytvá í neupravené výsledky. Obsahují nadbytek informace, které jsou bez následné analýzy nerozeznatelné. K vytažení této informace a odkrytí nových pohled musí být prozkoumány jednoduché sekvence nukleotid. Prvním krokem výzkumu je identifikace získané sekvence. Ve ejné sekven ní databáze již obsahují informace mnoha organism a gen, a proto je tato identifikace jednoduchá a v p ímém o ekávání dokon ení databází a vymezení vyhledávacích metod.[3] 3.1 Zdroje sekven ních dat Primární databáze mezinárodního konsorcia (International Nucleotide Sequence Database), které zve ej ují nukleotidové sekvence, jsou podporovány na t ech kontinentech. V Evrop EMBL (Europen Molecular Biology Laboratory) databáze, kterou lze najít na http://www.ebi.ac.uk/embl/. V Americe GenBank databáze, p ístupná na http://www.ncbi.nlm.nih.gov/ a v Japonsku DDBJ (DNA Data Bank of Japan) na http://www.ddbj.nig.ac.jp/. Informace ve všech t ech databázích je každý den vzájemn synchronizována, takže stejná data mohou být získána ve stejnou dobu z kterékoli z nich. V primárních databázích se m žeme setkat s n kolika typy datových záznam. Mezi nejb žn jší pat í: 9

Standardní originální nukleotidové sekvence získané sekvenováním fragment genomové DNA i cdna získané reverzní transkripcí mrna. Sekvence EST (expressed semence tags) áste né sekvence konc jinak necharakterizovaných cdna, které jsou obvykle nižší než sekvence standardní. Dosud neposkládané a neanotované surové sekvence ze sekvenování genom. Referen ní sekvence již poskládaných anotovaných kompletních genom. Sekvence anotované jinými než p vodními autory.[12] 3.2 Orientace v databázích Typický záznam ve t ech nejv tších databázích nukleotidových sekvencí je ur en p ístupovým kódem (Accession Number), který se skládá z prom nlivého po tu písmen a íslic. P ístupový kód m že být brán jako ekvivalent k rodnému íslu, z stává nezm n n po celou dobu jeho existence a umož uje kdykoli p íslušný databázový záznam vyhledat. V GenBank databázi pak záznam získá ješt jedine né íslo GI (GenBank Identifier).[12] Obr. 3.1 P íklad identifikátoru databázového záznamu pro GenBank databázi Popis sekvence je textový ádek poskytnutý autorem, který sekvenci uploadoval. Obvykle obsahuje všechny základní informace, které jsou k rozpoznání sekvence nezbytné název organismu, název a lokace gen a identifikace haplotypu. Tato data jsou v aktuálním sekven ním záznamu poskytnuta s více detaily v p íslušných polích. V sou asnosti v tšina v deckých asopis požaduje, aby všechny zmi ované sekvence byly za azeny do ve ejných databází. Taková informace je pak odkazována mezi asopisovými lánky, kde jsou p ístupová ísla poskytována, a nukleotidovou databází, kde je lánek citován a kde je dostupný, ur ený svým kódem. Sama sekvence je poskytována s anotacemi. Ty detailn p edstavují informaci o sekven ním p vodu 10

(organismus, lokace genu, íslo vzorku, lokalita vzorku, datum sb ru, atd.), geny, které jsou p ítomné v sekvenci a informaci o proteinech kódovaných sekvencí, v etn jejich translace do sekvence aminokyselin.[12] 3.3 Vyhledávání dat Ukládání p vodních dat do databází bylo, je a vždy bude záležitostí pom rn úzké ásti aktivní výzkumné komunity. Naproti tomu získávat data z databází a dále je analyzovat m že kdokoli. K vyhledávání a stahování záznam z databází slouží webové rozhraní. Tyto rozhraní má každá databáze jiná na rozdíl od obsahu dat. Pro p ístup k databázím se používá rozhraní SRS (Sequence Retrival System) pro EMBL nebo prost ednictvím rozhraní Entrez databáze GenBank.[12] Konkrétní provedení se mezi SRS a Entrez výrazn liší. Rozhraní SRS má více nástroj než Entrez, na druhou stranu, ale práv pro tuto obsáhlou nabídku nástroj se stává rozhraní SRS více nep ehledné. Rozhraní NCBI Entrez umož uje nejen p ístup k databázi GenBank a p idruženým sekven ním databázím, ale i k prohledávání dalších zdroj (v tšina zam ena na medicínu a lidskou genetiku). 11

Obr. 3.2 P íklad celého záznamu GenBank databáze 12

4 ZAROVNÁVÁNÍ DVOU SEKVENCÍ Zarovnávání sekvencí je definováno jako procedura porovnávání dvou a více sekvencí. Porovnávání dvou i více sekvencí a zjiš ování míry jejich vzájemné podobnosti je centrálním tématem praktické bioinformatiky.[12] Pokud chceme, aby m lo m ení podobnosti smysl, musíme být p edevším schopni rozlišit, které sekvence jsou si doopravdy podobné. V ideálním p ípad tedy hledáme postup, který by identickým sekvencím p i adil podobnost maximální a dv ma náhodn vybraným náhodným sekvencím podobnost minimální (nepodobnost). Obecný postup stanovení míry podobnosti dvou sekvencí by mohl vypadat takto: Sekvence po celé délce p iložíme k sob, tj. zapíšeme je do dvou pod sebou umíst ných ádk tak, aby byly identické pozice (báze i aminokyseliny) ležely pod sebou. Takovému zápisu se íká p i azení (alignment). Vypo teme celkovou hodnotu (score) podobnosti tak, že se teme hodnoty podobnosti všech jednotlivých pozic p i azení. Hodnoty podobnosti stanovíme podle p edem zvolených kritérií. V nejjednodušším p ípad m žeme p i adit jakékoli identické dvojici pozic (pár - match) hodnotu 1 a jakékoli neidentické dvojici (nepár - mismatch) hodnotu 0. Chceme-li porovnávat míru podobnosti r zn dlouhých dvojic sekvencí, vyd líme celkovou hodnotu podobnosti délkou p i azení. Nyní si ukážeme modelový postup pro stanovení vzájemné podobnosti M jme ty i výchozí sekvence: A ATTGCTCTGT B ATAGCTCGGT C ATTGCACTGTAATGCCATGT D ATTGCTCTGAAATGCCCTGT Nyní p i adíme pod sebe sekvence A a B, C a D. 13

Výpo et normalizované podobnosti: S = (po et pár x hodnota páru + po et nepár x hodnota nepáru)/po et pozic Pro sekvence A, B Sab = ( 8 1+ 2x0) /10 = 0,8 Pro sekvence C, D Sab = ( 17 1+ 3x0) / 20 = 0,85 Z tohoto p íklad vidíme, že sekvence C a D jsou si podobn jší než sekvence A a B. 4.1 Vznik skórovací matice Biologické sekvence (DNA, RNA, sekvence aminokyselin) se m ní v ase a podléhají evoluci. A tudíž ne všechny zm ny probíhají se stejnou pravd podobností. Váhy všech možných pár i nepár aminokyselin nebo nukleotid udává substitu ní matice (skórovací matice). Substitu ní matice je tvercová tabulka, kde ádky i sloupce odpovídají jednotlivým symbol v sekvenci. íselná hodnota na pr se íku ádku a sloupce odpovídá p ísp vku p íslušné kombinace symbol k celkové hodnot podobnosti. Matice je symetrická podle diagonály, proto hodnoty p isouzené jednotlivým nepár m nezávisí na po adí symbol. [12] Obr. 4.2 Nejjednodušší substitu ní matice, použitá pro výpo et podobnosti nukletidových sekvencí Pro sekvence nukleových kyselin se prakticky používají varianty jediné matice, tzv. matice IUPAC ili matice identity (identity matrix). Tato matice p i azuje všem pár m konstantní kladnou hodnotu, a všem nepár m rovn ž konstantu nulovou i zápornou.[12] 14

4.2 Algoritmy ur ování podobnosti sekvencí Hlavními metodami zarovnávání sekvencí jsou analýza bodových matic, dynamické programování a metoda slov (k-tic). Podrobn ji se práce bude zabývat pouze metodou dynamického programování. [1] Dynamické programování je metoda nalezení optimální cesty k ešení problému. Musíme definovat ur ité kritérium optimality v tšinou jde o maximalizaci skóre. Dynamické programování porovnává každý možný pár v sekvenci a generuje zarovnání, toto zarovnání zahrnují odpovídající páry, neodpovídající páry a mezery. Používá se pro DNA sekvence i pro proteinové sekvence. Umož uje globální i lokální zarovnání. Aby metoda fungovala, musíme zavést skórovací matici. Mezi p íklady zarovnávání založené na dynamickém programování se uvádí tyto: BALSA bayesovský algoritmus pro lokální zarovnávání, SSEARCH Smit v Waterman v algoritmus vyhledávání podobností mezi sekvencí a skupinou sekvencí stejného typu, SIM zarovnávací nástroj pro proteinové sekvence. Jako poslední se uvede p íklad globálního zarovnání Needleman v Wunsch v algoritmus.[1] Dále budou rozvedeny n které vyjmenované algoritmy podrobn ji. 4.2.1 Needleman v-wunsch v algoritmus Needleman v-wunsch v algoritmus pat í k jednomu ze základních algoritm pro globální zarovnávání sekvencí. Globální zarovnání se pokouší zarovnat dv sekvence podél celé jejich délky a je nejužite n jší, když se sekvence v dotazované sad podobají a jsou zhruba stejné velikosti. Algoritmus ru í za nalezení optimálního globálního zarovnání. (nejvyšší možné skóre). Co se tý e principu, d ležitými parametry jsou vstupní dv sekvence, skórovací matice a hodnota sankce za vložení mezery. Existují t i cesty k nejlepšímu skóre F(i,j), kde F je matice která se napl uje, i a j jsou indexace pro jednotlivé sekvence, pak F(i,j) je skóre nejlepšího zarovnání. x i je zarovnáno k y j, pak F(i,j) = F(i-1, j-1) + s(x i,y j ) kde s(x i,y j ) je shoda nebo neshoda ve skorovací matici x i je zarovnáno k meze e, pak F(i,j) = F(i-1, j) d, kde d je penalizace mezery y i je zarovnáno k meze e, pak F(i,j) = F(i, j-1) d. Inicializace je F(i,j), pro všechna i a j, po té se matice plní shora zleva sm rem dol do prava. 15

Obr. 4.3 Výpo et prvku na pozici F(i,j)[1] P íklad vypln né matice dvou sekvencí by vypadal takto, p i emž modré šipky znamenají p edch dce jednotlivých polí a ervenými šipkami je zna ena cesta optimálního zarovnání maticí s výsledkem. Penalizace za otev ení mezery je v tomto p ípad gap= -4. Obr. 4.4 P íklad nalezení optimální cesty u N-W algoritmu A T C G A C : : : : C A - T A C Tab. 4.5 Výsledek zarovnávacího algoritmu Optimální cesta je výstupem dynamického programování a odpovídá optimálnímu zarovnání (s nejvyšším možným celkovým skóre). Cesta kon í v horním rohu (0,0), kde se nachází hodnota F(0,0) = 0. Needleman v-wunsch v algoritmus má však velmi vysoké výpo etní a pam ové nároky, protože pro každé íslo musíme vypo ítat t i sou ty a jedno maximum. 16

4.2.2 Smit v - Waterman v algoritmus Smit v Waterman v algoritmus používá k zarovnání sekvencí lokální metodu. Lokální zarovnání se používá pro odlišné sekvence, které jsou vyšet ovány, zda obsahují oblasti podobnosti nebo podobné sekven ní motivy v rámci jejich širšího sekven ního kontextu. Lokální zarovnání dosahuje tém dokonalých shod mezi sekvencemi na lokálním m ítku s velkými oblastmi mezer, kde se sekvence neshodují. Nejvhodn jší je pro sekvence r zných délek, vzdálen p íbuzných sekvencí, kde mohou být p edpokládány pouze zachované oblasti podobnosti. Zarovnání celé sekvence najednou je výpo etn náro ným úkolem. Z toho d vodu Smith v-waterman v algoritmus rozloží problém na menší úlohy, najde jejich ešení, a pak je dá všechny dohromady do tvaru nejvýhodn jšího zarovnání. K ur ení skóre pro jednotlivé možnosti zarovnání využívá dynamické programování. Optimálním zarovnáním je dráha s nejlepším skóre.[3] P íklad zarovnání Smith Watermanovým algoritmem si ukážeme na sekvencích ATCAG a GTCAG. Skórovací matice bude vypadat takto: Tab. 4.6 P íklad skórovací matice V tomto p ípad bude penalizace za otev ení mezery gap= -2 - - A T C A G - 0 0 0 0 0 0 G 0 0 0 0 0 1 T 0 0 1 0 0 0 C 0 0 0 2 0 0 A 0 1 0 0 3 1 G 0 0 0 0 1 4 Tab. 4.7 P íklad nalezení optimální cesty u S-W algoritmu 17

Výsledné zarovnání bude poté vypadat takto: T C A G T C A G 4.3 Porovnávání sekvencí Pro vyhledávání a porovnávání sekvencí, které jsou uloženy na výše zmín ných serverech, slouží speciální aplikace. Tyto aplikace pak zjiš ují podobnost analyzované struktury s knihovnami a databázemi jednotlivých systém.[7] Mezi aplikace, které se zabývají porovnáváním sekvencí, pat í BLAST a FASTA 4.3.1 Aplikace BLAST BLAST je zkratka Basic Local Alignment Search Tool v NCBI, který umož uje prohledat sekven ní databáze, kde dotaz p edstavuje poskytnutou neznámou sekvenci. Kdykoli ze svých experiment získá sekvence, BLAST je prvním krokem k postupu s nezpracovanými daty.[3] Ve skute nosti je výsledkem BLAST vyhledávání seznam sekvencí, které se dotazu nejvíce podobají. Takový seznam informuje, jaké druhy sekvence nejspíše dotaz p edstavuje (protein který protein, RNA sekvence která RNA, nekódovaná oblast) a ze kterých organism m že pocházet. Pro projekt, kde je gen nebo organismus znám, poskytuje BLAST vyhledávání základní ujišt ní, že byl sekvenován sv j cílový organismus a gen, ne artefakt nebo ne istota.[3] BLAST neporovnává celou dotazovanou sekvenci oproti bilion m pár bází v databázích, ale rozláme dotaz na slova. V typické DNA se p i vyhledávání prohledávají 11 bází dlouhá slova. Tvo ení slov pro BLAST vyhledávání je docela jednoduché, ale s malým há kem. Nejprve musí být odstran ny málo složité oblasti. Tyto oblasti, jako jsou repetice, dlouhé úseky stejného nukleotidu nebo nejasné oblasti, vrací nap í databází mnoho detekcí, které jsou nejspíš nehomologní. Zbylá sekvence je rozlámaná na slova takovým zp sobem, že první slovo p edstavuje prvních 11 pozic zbývající sekvence, druhé slovo je tvo eno z pozic 2-12, t etí 3-13 atd.[3] Dále jsou slova skórována podle své podobnosti. U DNA slov je shoda skórována 18

jako +5 a neshoda jako -4. Nejlepší shody dávají nejvyšší skóre, a BLAST udržuje a sepisuje nejlépe ohodnocená slova a vy azuje ta, jejichž skóre je pod hranicí. Pak jsou zbylá vysoce ohodnocená slova organizována do výkonného vyhledávacího stromu. Nakonec je databáze prohledávána pro ur ité shody vysoce ohodnocených slov. Pokud algoritmus najde p esnou shodu slova, je toto slovo použito jako po átek pro zarovnání mezi dotazem a sekvencemi z databáze. [3] 4.3.2 Aplikace FASTA FASTA umož uje porovnávat proteinové a nukleotidové et zce všech hlavních databázových systém.[7] Tato aplikace zaru uje vysokou úrove citlivosti pro hledání podobnosti p i vysoké rychlosti.fasta vytvá í optimální lokální zarovnání skóre pro srovnání dotazu každé sekvence v databázi. Tato aplikace je mnohem citliv jší než BLAST. 19

5 OBRAZOVÉ VYKRESLENÍ SEKVENCÍ 5.1 CGR (Chaos game representation) Další možností porovnávání dvou a více sekvencí m že být metoda chaos game reprezentace. Tato reprezentace p evádí sekvenci na obraz. Metoda vychází z algoritmu pro konstrukci Sierpinského trojúhelníku. Princip konstrukce Sierpinského trojúhelníku spo ívá ve spojování st ed stran. Prvním spojením st ed stran vzniknou t i menší trojúhelníky, to je tzv. první iterace. V každé další iteraci se pak vezmou všechny vytvo ené trojúhelníky a provede se s nimi stejný proces. P esnost Sierpinského trojúhelníku je dána po tem iterací, což je p ímo úm rné po tu vykreslovaných bod. Obr. 5.1 P íklad Sierpinského trojúhelníku vlevo pro 5000 iterací, vpravo pro 100 000 iterací[13] Pokud chceme použít chaos game reprezentaci, musíme konstrukci upravit. Základem reprezentace chaos game je tverec, jehož vrchol m p i adíme jednotlivé nukleotidové báze, A bude na pozici vrcholu [0 2], C [0 0], G[2 2], T [2 0]. Oproti Sierpinského trojúhelníku neza ínáme st edy stran, ale za neme ve st edu tverce na bodu [1 1]. Poté se p emístíme na polovinu cesty k rohu odpovídajícímu první nukleové kyselin v kódované sekvenci, zde umístíme první bod. Takto postupujeme dokud se nedostaneme na konec kódované sekvence. Pro lepší p edstavu si nyní ukážeme p íklad pro sekvenci TAGCGA (viz Obrázek 5.2). Jak bylo zmín no výše, za íná se ve st edu tverce. Na polovin cesty k prvnímu nukleotidu v sekvenci T umístíme bod (1). Od tohoto bodu pokra ujeme k polovin cesty k nukleotidu A, op t umístíme bod (2). Stejným zp sobem pokra ujeme až k poslednímu nukleotidu v zadané sekvenci.[13] 20

Obrázek 5.2 Postup pro sestavení Chaos game obrazu pro sekvenci TAGCGA[13] Takto lze vykreslovat i dlouhé sekvence, na obrázku uvedu p íklad sekvence Human beta globin region on chromosome 11, jejíž locus je HUMHBB a délka sekvence 73308 bp. Tato metoda má nevýhodu v asové náro nosti na výpo et. Za výhodu považuji její p esnou reprezentaci nukleotid, kdy do bílého pozadí zapíšeme informaci o jednotlivých nukleotidech pomocí erného bodu. Obrázek 5.3 P íklad vykreslení sekvence Human beta globin region on chromosome 11 metodou chaos game 21

5.2 FGCR (Chaos Game Representation of Frequencies) FGCR je modifikovaná metoda CGR. Vychází z toho, že obraz je rozd len do tverc 4 n, kde n je délka bází, která je v jednotlivých tvercích zastoupena. Každý tverec poté odpovídá jednomu bázi (spojení nukleotidu). Podle toho s jakou etností jsou nukleotidy reprezentovány v jednotlivých tvercích, se ur ují odstíny šedi, nulové zastoupení znamená bílou barvu, maximální zastoupení ernou. Pro lepší p edstavu zde nyní uvedu n kolik p íklad se sekvencí Human beta globin region on chromosome 11. První p íklad je složen z 64 tverc to znamená, že délka slova bude 3 (4 3 ) ve tvercích budou zastoupeny trinucleotidy. Trinucleotidy v sekvenci "ACGTAAAA" budou vypadat následovn ACG, CGT, GTA, TAA, AAA. [14] Obr. 5.4. P íklad vykreslení sekvence HUMHBB metodou FGCR pro délku slova 3 Obr. 5.5 P íklad vykreslení sekvence pro délku slova 5 (vlevo) a 7 (vpravo) 22

ím v tší je délka slova zastoupená v obraze FCGR, tím více vidíme podobnost mezi CGR a FCGR. Tuto podobnost nem žeme pozorovat p i analýze krátkých sekvencí. Obr. 5.6. Porovnání metody FGCR (vlevo-délka slova 6) a CGR (vpravo) Metoda FGCR má oproti CGR výhodu v rychlejším výpo tu, oproti CGR, který používá zobrazení pomocí grafické závislosti, pracujeme s FCGR jako s maticí hodnot ili máme v tší možnosti zpracování. Základní nevýhodou u zobrazení pomocí FCGR je to, že jeden z nukleotid bude mít oproti ostatním výrazn vyšší etnost. V zobrazení se nám poté ukáže pouze jeden erný bod. Obr. 5.6 P íklad zobrazení sekvence p i vyšší etnosti báze T 23

6 ZAROVNÁNÍ VÍCE SEKVENCÍ Zarovnávání více sekvencí je dalším úkolem bioinformatiky. Zarovnávání více sekvencí je možností klonovat po sob jdoucí velké fragmenty jedné DNA molekuly a sekvenovat fragmenty popo ad. Jednou z možných variant je sekvenovat velké množství náhodných fragment (s náhodnou pozicí v DNA) a vyhledat p ekryv.[1] Zarovnání více sekvencí DNA nebo protein m že odhalit, zda je i není evolu ní souvislost mezi nimi (mezi všemi). Zarovnání více sekvencí je rozší ení zarovnání pomocí dynamického programování, které generuje optimální zarovnání. Po et sekvencí, které mohou být optimáln zarovnány, jsou však limitovány. D vodem limitace je exponenciální nár st pam ových nárok a po tu operací nutných k výpo tu. [1] Nap íklad sekvence TGCC, AGCTG a AGCG mohou být zarovnány takto: T - G C - G - A G C T G - A G C - G Tab. 5.1 P íklad zarovnání 3 sekvencí [1] P i zarovnání 3 sekvencí vzniká t írozm rná skórovací matice. Povrch matice je tvo en dvourozm rnými skórovacími maticemi zarovnání dvou sekvencí bez ohledu na zbývající (t etí). Obr. 6.1 P íklad zarovnání t í sekvencí[1] 24

Po et porovnání nutných k zarovnání m proteinových sekvencí, každá o délce 300 aminokyselin bude vypadat následovn : m=2: 90000 porovnání m=3: 7 2,7 10 porovnání m=4: m=5: 9 8 10 porovnání 12 2,4 10 porovnání Jedním z možných ešení výpo etních nárok na zarovnání více sekvencí m že být, p i zarovnání dvou sekvencí systémem pár po páru. Optimální ešení této metody bývá nalezeno v malém prostoru kolem diagonály skórovací matice. Tuto myšlenku lze p evést do vícerozm rného systému, do tzv. skórovací hyperkrychle. K tomu se asto využívá Carrillova-Lipmanova omezení, které definuje polyhedron(geometrický tvar) kolem diagonály hyperkrychle. Tím je po et možných ešení omezen.[1] Obr. 6.2 Omezení cesty optimálního ešení[1] K tomu abychom nalezli optimální ho zarovnání více sekvencí je pot eba vhodný skórovací systém. Mohou to být nap. Metoda sumy pár, Metoda CLUSTAL a Metoda spojování soused. K tomu abychom si popsali blíže tyto metody, pot ebujeme ješt znát informace o skórovacích maticích typu PAM a BLOSUM. 25

6.1.1 Matice PAM Matice PAM (Point Accepted Mutation) vznikají na základ skute ného výskytu substitucí v p írod. Sledují se substituce v zarovnaných sekvencích podobných analyzovaným sekvencím. Matice PAM vyjad ují pravd podobnost zm ny jedné aminokyseliny v jinou, v podobných proteinových sekvencích b hem evoluce. Matice PAM jsou normalizovány. Nap íklad matice PAM1 popisuje jednu mutaci na sto aminokyselin a je vhodná pro skórování sekvencí, které jsou hodn podobné. PAM250 je ekvivalentní 250 substitucím na 100 aminokyselin. Obr. 6.3 Matice PAM1 pro sekvence DNA[1] Matice PAM1 p edstavuje 99% konzervaci sekvence a 1% mutací. 6.1.2 Matice BLOSUM Matice BLOSUM (Blocks Amino-acid Substitution Matrices) je vývojov mladší než matice PAM. Matice BLOSUM jsou odvozeny z množiny zarovnávaných bezmezerových region z rodin protein uložených v databázi EMBL-EBI. Sekvence podstoupily shlukování. Dv sekvence spadají do stejného shluku v p ípad, že procento identických reziduí p esáhne jistou úrove L%. Poté jsou vypo ítány etnosti A ab pozorování rezidua a v jednom shluku zarovnaného s reziduem b v jiném shluku. Výpo et etnosti je korigován na velikost shluku váhováním každého výskytu hodnotou 1/( n 1n2 ), kde n 1 a n2 jsou velikosti p íslušných shluk. 26

Obr. 6.4 P íklad matice BLOSUM62[1] 6.2 Metody zarovnání více sekvencí 6.2.1 Metoda sumy pár Tato metoda je realizována následujícím algoritmem: m jme sadu N zarovnaných sekvencí délky L ve form zarovnávací matice M velikost LxN substitu ní matici (PAM nebo BLOSUM) udávající skóre s(x,y) pro zarovnání dvou znak x, y potom skóre SP(m i ) pro i-tý sloupec matice M je vypo ítán podle i k l SP ( m ) = s( m, m ), kde m je k-tý prvek v i-tém sloupci a m je l-tý prvek k< l i i k i v stém sloupci. Celkové skóre SP pro kone né zarovnání M je sumou skóre pro každý sloupec m i v zarovnání SP M ) = SP( m ) + p íklad ( i l i Metoda sumy pár má velké výpo etní nároky. Zarovnání N sekvencí o délce L pot ebuje ( L + 1) N (2N 1) r zných matic. Velké výpo etní nároky má i p i aplikaci Carrillova-Lipmanova omezení.[1] 27

6.2.2 Metoda CLUSTAL Je progresivní metoda pro zarovnání více sekvencí. Progresivní metody za ínají zarovnáním pár po páru ve všech sekvencích, aby byly zjišt ny co nejvíce podobné sekvence. Dále progresivn p idávají mén podobné sekvence nebo skupiny sekvencí k po áte nímu zarovnání. Metoda CLUSTAL má v sou asné dob t i verze: CLUSTAL: všechny sekvence uvažuje se stejnou vahou CLUSTALW: uživatel m že zvolit r zné váhy u jednotlivých sekvencí a m nit parametry metody CLUSTALX: CLUSTAL s genetickým rozhraním Princip metody je rozd len do t í krok. První krok zjistí všechna zarovnání dvojic sekvencí a ur í míru podobnosti mezi jednotlivými dvojicemi sekvencí. V druhém kroku se vytvo í strom podobností a ve t etím se zkombinuje zarovnání po ínaje zarovnáním nejvíce podobných sekvencí a pokra uje k zarovnání mén podobných sekvencí.[1] 6.2.3 Metoda spojování soused Pro metodu spojování soused nejprve vypo ítáme divergenci sít pro každou sekvenci se tením všech vzdáleností asociovaných se sekvencemi. Poté vypo ítáme novou matici vzdáleností pro každý pár sekvencí. Dále vybereme dv sekvence s nejmenší vzdáleností jako sousedy, zam níme tyto dv sekvence za nový interní uzel. Nakonec vypo ítáme délky v tví. 6.3 Další metody zarovnání více sekvencí CLUSTAW2 algoritmus obecného použití pro globální zarovnávání DNA a proteinových sekvencí. PRALINE algoritmus pro globální zarovnání DNA a proteinových sekvencí s optimalizací (p edzpracováním) sekvencí. SAGA genetický algoritmus pro globální i lokální zarovnání DNA a proteinových sekvencí. HMMER (Hidden Markov Models) algoritmus zarovnávání proteinových sekvencí s využitím skrytých Markových model. 28

7 POPIS PROGRAMU Program se spouští pomocí jednoho souboru hledani.m v programovém prost edí Matlab. Program byl zpracováván ve verzi Matlab 7.10.0. (R2010a) i v jeho uživatelském prost edí GUI. 7.1 Použitý hardware Program se vyvíjel na osobním po íta i s t mito parametry: Typ procesoru Intel Celeron 2,5GHz RAM 2GB Opera ní systém - Windows XP 32 bit servis pack 3 7.2 T lo programu Úvodní obrazovka je len na do t í blok. První blok obsahuje zp sob zadávání a vyhodnocení dvou sekvencí. Druhý blok vyhodnocuje zarovnání pomoci N-W a S-W algoritm. T etí a nejv tší blok zobrazuje výsledné grafické obrazy. Blok - 1 Blok - 3 Blok - 2 Obr. 7.1 Úvodní obrazovka programu 29

První blok má na starost na tení sekvencí a to jak pomocí ru ního zadávání tak p edevším pomocí na ítání dat z databáze NCBI. Jak m žeme vid t tak první blok provádí výpo et metodou CGR i metodou FGCR. Jak bylo již zmín no výše zobrazení sekvencí pomocí metody CGR je provád no pomocí matlabovské funkce plot, která na bílém pozadí vnáší erné body sekvence. Oproti tomu metoda FCGR je založena na realizaci obrazu, kde na po átku máme prázdný bílý obraz. Do n j pak zasazujeme pomocí algoritmu jednotlivé etnosti nukleotid. Po na tení celé sekvence je u této metody d ležité invertovat obraz, abychom výsledky mohli porovnat i s metodou CGR. Obr. 7.2 Rozdíl mezi neinvertovaným (vlevo) a invertovaným (vpravo) zobrazením FCGR Správnost obou metod provedu s porovnáním s v deckými lánky. U CGR budu porovnávat sekvenci Human beta globin region on chromosome 11 s locusem HUMHBB a po tem 73308 bp [15]. 30

Obr. 7.2 Porovnání metody CGR pomocí sekvence HUMHBB ze zdroje [15] (vlevo) a programem hledání.m FCGR bude porovnávána se sekvencí Escherichia coli str. K-12 substr. MG1655, kompletní genom, jehož íslo locusu je NC_000913 a má délku 4639675 bp, která je zobrazena ve zdroji [14]. Porovnání bude provád no p i délce slova 4, tzn. 256 pixel. Obr. 7.3 Porovnání metody FCGR pomocí sekvence NC_000913 ze zdroje [14] (vlevo) a programem hledání.m Porovnání výsledku pomocí zobrazení pomocí CGR ze zdroje [15] a obrázku vytvo eného pomocí program hledani.m lze považovat za vizuáln stejné, ili m žeme tvrdit, že program vykresluje metodu CGR správn. Totéž lze tvrdit i o metod FCGR jelikož porovnání obraz p i 256 pixelech vypadá naprosto stejn. 31

Pokud již na teme sekvenci jakoukoli metodou, tla ítko po et bází v sekvenci, zobrazí po et jednotlivých bází v sekvenci. Jako poslední tla ítko v prvním bloku je tla ítko ode ti, které nám provede rozdíl mezi dv ma na tenými sekvencemi metodou FCGR. Rozdíl sekvencí m že být provád no bu ode tením první sekvence od druhé, nebo naopak. Jako p íklad bude uvedeno rozdíl sekvencí s locusem NC_000913 a HUMHBB. Obr. 7.3 Porovnání rozdílu sekvencí mezi sekvencemi NC_000913(vlevo dole) a HUMHBB (vpravo dole), ode tení první sekvence od druhé (vlevo naho e) a druhé sekvence od první (vpravo naho e), (velikost obrazu 4096 pixel ) Druhý blok tvo í dv tla ítka, která sekvence zarovnávají globáln (Nedleman- Wunsch algoritmus) a lokáln (Smit - Waterman algoritmus). Tyto algoritmy byly podrobn popsány v kapitolách 4.2.1 a 4.2.2. U obou algoritm byla použita skórovací matice BLOSUM50. Poslední blok pouze ukazuje výsledné grafy i obrazy. 32

8 UR OVÁNÍ GENETICKÉ ODLIŠNOSTI Pro ur ování genetické odlišnosti pomocí zarovnávání sekvencí použijeme vytvo ený program hledani.m a ve ejn dostupnou databázi sekvencí NCBI. Nejprve se zam íme na zarovnání sekvencí pomocí dynamického programování. Porovnávat budeme sekvenci Mus musculus beta-hexosaminidase alpha-subunit (Hexa) gene, exon 1 s locusem MMHEXAS0, tedy myš domácí se sekvencí Human Human beta-hexosaminidase alpha chain (HEXA) gene, exon 1 s lucusem HUMBHA01. Hexosaminidase je zásadní hydrolitycký enzym, nalezený v lysozomech. Obr. 8.1. Zarovnání sekvencí MMHEXAS0 a HUMBHA01 pomocí N-W algoritmu 33

Jak je vid t na obrázku 8.1 vidíme, že výsledek podobnosti mezi výše zmín nými sekvencemi iní 39%. Nyní provedeme se stejnými sekvencemi zarovnání lokální, tedy pomocí algoritmu Smith-Watermanova. Zde vidíme, že lokální podobnost dosáhla 79%. Obr. 8.2. Zarovnání sekvencí MMHEXAS0 a HUMBHA01 pomocí S-W algoritmu Jako další p ípad zarovnání sekvencí budeme testovat bakterie Streptococu první bude JP 2010535500-A/40: Immunogenic Streptococus proteins jejíž locus je HV586313, druhá je JP 2010535500-A/38: Immunogenic Streptococus proteins s locusem HV586311. 34

Obr. 8.3. Zarovnání sekvencí HV586313 a HV586311 pomocí N-W algoritmu 35

Obr. 8.4. Zarovnání sekvencí HV586313 a HV586311 pomocí S-W algoritmu Jako poslední p íklad otestujeme sekvence myši norské Rattus Norvegicus melanocortin 3 receptor AY671938, s myší domácí Mus musculus melanocortin 3 receptor BC105668 zarovnání N-W vyšlo s podobností 66% a pomocí S-W algoritmu vyšla podobnost 91%. Podle t chto t í testovaných pár sekvencí, lze íci, že podle o ekávání má lokální zarovnávání v tší podobnost mezi sekvencemi než globální zejména p i v tším rozdílu délek mezi ob ma sekvencemi. P i ur ování genetické odlišnosti m žeme tyto dva algoritmy použít p i hledání podobnosti mezi dv ma sekvencemi. 36

Dále se bude práce zabývat testováním metod CGR a FCGR p i hledání podobnosti pomocí obrazu. Jako testovací sekvence budeme používat celé geny. První testovaná sekvence bude Homo sapiens mrna for collagen, complete cds s locusem HUMCO a délkou 6378bp, druhá testovaná sekvence bude Homo sapiens G-gamma globin and A- gamma globin genes, complete cds, HUMGAMGLOB s délkou 11393 bp. Metodu FCGR budeme zobrazovat v rozlišení 64 pixel, abychom mohli ur it rozdílnost dopadu jednotlivých nukleotid do tripletu neboli kodónu. Obr 8.5. Porovnání sekvencí HUMCO a HUMGAMGLOB pomocí metod CGR a FCGR Z uvedeného p íkladu m žeme ur it pomocí metody FCGR, jaké kodóny mají spole né odstíny šedi a které ne, tudíž m žeme vypozorovat podobnost obou sekvencí. Pro výše zmín né sekvence vidíme, že oblasti viz obr. 8.6. jsou shodné oblasti bez dopadu triplet. Triplety s nejv tším po tem dopad jsou naopak zcela rozdílné. 37

Obr. 8.6. P íklad shodných dopad triplet v obou sekvencích V dalším p íkladu budeme porovnávat sekvence Homo sapiens collagen, type VI, alpha 5 (COL6A5) locus NM_153264, se sekvencí Homo sapiens G-gamma globin and A- gamma globin genes s locusem M91037. Obr. 8.7 Porovnání sekvencí NM_153264 a M91037 pomocí metod CGR a FCGR 38

U t chto sekvencí m žeme vypozorovat, že jsou si obrazov více podobné, jak pomocí metody CGR tak pomocí FCGR. Zde m žeme vid t, že ob sekvence mají místo s nejv tším dopadem nukleotid ve vrcholu AAA tento triplet pat í aminokyselin s názvem Lysin. Obr. 8.7. P íklad shodných dopad triplet v obou sekvencích 8.1 Vylepšení programu P i delším používání programu byly nalezeny, n které nedostatky, které budou níže zmín ny. První v c, která by byla uživatelsky p ív tivá, je možnost zm ny velikosti výsledného obrazu FCGR, v této práci je to zajišt no pouze zm nou prom nné velikostobr p ímo v programu matlab. Další d ležitá v c, u metody FCGR, jenž by pomohla p i porovnávání sekvencí, by byla možnost spo tení jednotlivých nukleotid v daném tripletu. Dále by práce mohla obsahovat barevné odlišení jednotlivých triplet (místo šedotónového rozlišení) pro lepší porovnání. 39

9 ZÁV R Tato diplomová práce se zam ila na získání p ehledu a orientace v problematice ur ování genetické odlišnosti pomocí zarovnání sekvencí. V prvních ástech byla probrána tématika skladby DNA a základné pohled na dopady nukleotid do tripletu. Následuje stru né seznámení se skórovacími maticemi. Dále byla probírána teorie problematiky zarovnání sekvencí pomocí globálního Needleman - Wunschovova algoritmu a lokálního Smit - Watermanova algoritmu. Zde bych se pozastavil nad použitím obou algoritm. Needleman Wunsch v algoritmus je vhodné použít pro kratší sekvence nebo pro sekvence, které mají tém shodnou délku a to kv li výpo tové náro nosti. Naopak Smit Waterman v lokální algoritmus je vhodný pro delší sekvence. Práce se také zabývá možnostmi zarovnání více sekvencí, zmín ny zde byly metoda sumy pár, metoda CLUSTAL a metoda spojování soused. V další ásti se práce zabývala srovnáním sekvencí pomocí obrazu za pomocí metod CGR a FCGR. Obrazové srovnání sekvencí je vhodné pro dlouhé sekvence nap íklad pro celé geny, kde m žeme porovnat dopady jednotlivých nukleotid do daných triplet. M žeme také zobrazit po et jednotlivých nukleotid v sekveci, nebo také m žeme ode íst sekvence zobrazené metodou FCGR. Všechny zmín né sekvence, pro zarovnávání pomocí dynamického programování nebo pomocí obrazových metod srovnání, byly stahovány z internetové databáze NCBI. 40

10 LITERATURA [1] PROVAZNÍK, PH.D., Prof. Ing. Ivo. Zarovnávání sekvencí. In P ednášky. [s.l.] : [s.n.], [200?]. s. 38. [2] Biotechnologyonline [online]. 29. dubna 2011 [cit. 2011-04-29]. Co je to DNA?. Dostupné z WWW: <http://www.biotechnologyonline.gov.au/biotec/whatisdna.html>. [3] Analýza genomických a proteomických dat [online]. 29. dubna 2011 [cit. 2011-04-29]. Analýza DNA sekvencí. Dostupné z WWW: <http://telemedicina.med.muni.cz/genomic-proteomic-analysis/index.php?pg=home>. [4] Loschmidt [online]. 4. ervence 2010 [cit. 2011-04-29]. Bioinformatika. Dostupné z WWW: <http://loschmidt.chemi.muni.cz/peg/lecture/biochem_prednaska.pdf>. [5] Genetika-Biologie [online]. 5. prosince 2010 [cit. 2013-04-25]. DNA, RNA, nukleove kyseliny. Dostupné z WWW: <http://www.genetika-biologie.cz/deoxyribonukleova-kyselina>. [6] KOLÁ, Jan. Získávání a analýza dat z bioinformatických databází. [s.l.], 2007. 54 s. Bakalá ská práce. VUT Brno,FEKT, stav BMI. [7] European Bioinformatics Institute [online]. 28. dubna 2011 [cit. 2011-04-29]. FASTA Protein Similarity Search. Dostupné z WWW: <http://www.ebi.ac.uk>. [8] VALLA, Ing. Martin. Skrýté Markovovy modely. In Metody v záznamu, hodnocení a zpracování genomických sig. [s.l.] : [s.n.], [200?]. s. 48. [9] BALDI, Pierre ; BRUNAK, Soren. Bioinformatics : The machine learning apporoarch. 2001.Massachusetts : [s.n.], 2001. 452 s. ISBN 026202506X. [10] COHEN, A. Hidden Markov Models in Biomedical Signal Processing. Conference of the IEEE Engineering in Medicine and Biology Society,. 1998, 20, s. 1145-1150 [11] CVR KOVÁ, Fatima. Úvod do praktické bioinformatiky. 1. vyd. Praha: Academia, 2006. ISBN 80-200-1360-1. [12] PITNER, V. Reprezentace a zpracování genomických signál. Brno: Vysoké u ení technické v Brn, Fakulta elektrotechniky a komunika ních technologií, 2011. 43 s., 7 p íl., Vedoucí bakalá ské práce Ing. Martin Valla. [13] BIKANDI, J.; MIRA, A.: OligoWeb. Chaos Game Representation: CGR/FCGR/ZCGR <http://insilico.ehu.es/oligoweb/info/cgr.php>. 41

[14] JEFFREY, H. J. Chaos Game Representation of gene structure. Nucleic Acids Research. 1990,. 18, s. 2163-2170. [15] ALMEIDA, J. S., CARRICO, J. A. MARETZEK, A., NOBLE, P. A., FLETCHER, M. Analysis of genomic sequences by Chaos Game Representation. Bioinformatics. 2001,. 17, s. 429-437. 16] Molekulární genetika: Biomach, výpisky z biologie:. [online]. [cit. 2013-05-21]. Dostupné z: <http://www.biomach.cz/genetika/molekularni-genetika>. 42

11 P ÍLOHA 11.1 Obsah p iloženého CD: diplomová práce (DP) v pdf + obrázky obrázky obsažené v diplomové práci program hledání.m + hledání.fig seznam locusu sekvencí použitých v DP 43

12 SEZNAM ZKRATEK DNA - Deoxyribonukleová kyselina N-W Needleman-Wunsch S-W - Smith-Waterman CGR Chaos Game Representation FCGR - Chaos Game Representation of Frequencies NCBI - National Center for Biotechnology Information EST - expressed semence tags Obr. - obrázek 44