MENDELOVA UNIVERZITA V BRNĚ AGRONOMICKÁ FAKULTA BAKALÁŘSKÁ PRÁCE

Podobné dokumenty
USING OF AUTOMATED DNA SEQUENCING FOR PORCINE CANDIDATE GENES POLYMORFISMS DETECTION

Sekvenování DNA. stanovení pořadí nukleotidů v molekule DNA (primární struktury)

DNA TECHNIKY IDENTIFIKACE ŽIVOČIŠNÝCH DRUHŮ V KRMIVU A POTRAVINÁCH. Michaela Nesvadbová

Sekvenování nové generace. Radka Reifová

Sekvenování nové generace. Radka Reifová

Inovace studia molekulární a buněčné biologie

Sekvenování příští generace (Next Generation Sequencing, NGS)

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

PŘEHLED SEKVENAČNÍCH METOD

Molekulární genetika

V. letní škola metod molekulární biologie nukleových kyselin a genomiky Ústav morfologie, fyziologie a genetiky zvířat AF MENDELU

Výzkumné centrum genomiky a proteomiky. Ústav experimentální medicíny AV ČR, v.v.i.

Bi5130 Základy práce s lidskou adna

Biotechnologický kurz. II. letní škola metod molekulární biologie nukleových kyselin a genomiky

REPLIKACE A REPARACE DNA

Inovace studia molekulární a buněčné biologie

Molekulárně biologické metody princip, popis, výstupy

Hybridizace nukleových kyselin

Analýza DNA. Co zjišťujeme u DNA

Biotechnologický kurz. II. letní škola metod molekulární biologie nukleových kyselin a genomiky

Biotechnologický kurz. III. letní škola metod molekulární biologie nukleových kyselin a genomiky

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti NUKLEOVÉ KYSELINY

Analýza DNA. Co zjišťujeme u DNA DNA. PCR polymerase chain reaction. Princip PCR PRINCIP METODY PCR

Klonování DNA a fyzikální mapování genomu

Determinanty lokalizace nukleosomů

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

SEKVENAČNÍ METODY NOVÉ GENERACE: JEJICH PRINCIPY A POTENCIÁLNÍ VYUŢITÍ V GENETICE ČLOVĚKA, ETICKÉ ASPEKTY

Elektroforéza Sekvenování

Sekvenování DNA. stanovení pořadí nukleotidů v molekule DNA (primární struktury)

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Genetický polymorfismus

Co zjišťujeme u DNA ACGGTCGACTGCGATGAACTCCC ACGGTCGACTGCGATCAACTCCC ACGGTCGACTGCGATTTGAACTCCC

Genetika zvířat - MENDELU

NUKLEOVÉ KYSELINY. Základ života

Typy nukleových kyselin. deoxyribonukleová (DNA); ribonukleová (RNA).

UNIVERZITA KARLOVA 1. lékařská fakulta BAKALÁŘSKÁ PRÁCE

PCR IN DETECTION OF FUNGAL CONTAMINATIONS IN POWDERED PEPPER

Využití metagenomiky při hodnocení sanace chlorovaných ethylenů in situ Výsledky pilotních testů

Základy molekulární biologie KBC/MBIOZ

Struktura a funkce nukleových kyselin

EKO/MEM - Molekulární ekologie mikroorganizmů Klonování a sekvenování přírodní DNA základ pro fylogenetickou analýzu společenstva

Ondřej Scheinost Nemocnice České Budějovice, a.s.

Co zjišťujeme u DNA ACGGTCGACTGCGATGAACTCCC ACGGTCGACTGCGATCAACTCCC ACGGTCGACTGCGATTTGAACTCCC

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Mikrosatelity (STR, SSR, VNTR)

2 Inkompatibilita v systému Rhesus. Upraveno z A.D.A.M.'s health encyclopedia

Základy molekulární biologie KBC/MBIOZ

2. Z následujících tvrzení, týkajících se prokaryotické buňky, vyberte správné:

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Molekulární základy genetiky

Ivo Papoušek. Biologie 8, 2015/16

Microfluidic systems, advantages and applications Monika Kremplová, Mgr.

INTRODUCING OF SNAPSHOT METHOD FOR POLYMORPHISM DETECTION ZAVEDENÍ SNAPSHOT METODIKY PRO DETEKCI POLYMORFISMŮ

MOLEKULÁRNĚ BIOLOGICKÉ METODY V ENVIRONMENTÁLNÍ MIKROBIOLOGII. Martina Nováková, VŠCHT Praha

DIAGNOSTICKÝ KIT PRO DETEKCI MINIMÁLNÍ REZIDUÁLNÍ CHOROBY U KOLOREKTÁLNÍHO KARCINOMU

5. Sekvenování, přečtení genetické informace, éra genomiky.

UNIVERZITA KARLOVA V PRAZE PŘÍRODOVĚDECKÁ FAKULTA. Studijní program: Biologie Studijní obor: Biologie

Využití molekulárních markerů v systematice a populační biologii rostlin. 11. Next generation sequencing (NGS)

Exprese genetické informace

Nukleové kyseliny Replikace Transkripce, RNA processing Translace

Projekt SIPVZ č.0636p2006 Buňka interaktivní výuková aplikace

Polymorfizmy detekované. polymorfizmů (Single Nucleotide

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti. Translace, techniky práce s DNA

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

Využití DNA markerů ve studiu fylogeneze rostlin

Základy molekulární biologie KBC/MBIOZ

DIAGNOSTICKÝ KIT PRO DETEKCI MINIMÁLNÍ REZIDUÁLNÍ CHOROBY U KARCINOMU PANKREATU

Metody molekulární biologie

Implementace laboratorní medicíny do systému vzdělávání na Univerzitě Palackého v Olomouci. reg. č.: CZ.1.07/2.2.00/

Polymerázová řetězová reakce. Základní technika molekulární diagnostiky.

Molekulárn. rní. biologie Struktura DNA a RNA

Laboratorní přístrojová technika

1. Definice a historie oboru molekulární medicína. 3. Základní laboratorní techniky v molekulární medicíně

SYNTETICKÉ OLIGONUKLEOTIDY

Pokročilé biofyzikální metody v experimentální biologii

EKONOMICKÉ ASPEKTY GENETICKÝCH VYŠETŘENÍ. I. Šubrt Společnost lékařské genetiky ČLS JEP

Ivo Papoušek. Biologie 6, 2017/18

Mendelova zemědělská a lesnická univerzita v Brně Agronomická fakulta Ústav morfologie, fyziologie a genetiky zvířat

CLP ANALYSIS OF MOLECULAR MARKERS DIGITAL IMAGE ANALYSIS OF ELECTROPHOEROGRAMS CZECH VERSION

Inovace studia molekulární a buněčné biologie

Mendelova genetika v příkladech. Genetické markery

Molekulární metody ve studiích kořenových systémů. Jiří Košnar, 2016

Izolace, klonování a analýza DNA

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy

Masivně paralelní sekvenování

Výukový materiál zpracován v rámci projektu EU peníze školám

MOLEKULÁRNÍ BIOLOGIE. 2. Polymerázová řetězová reakce (PCR)

Univerzita Karlova v Praze Přírodovědecká fakulta

Amplifikační metody umožňují detekovat. k dispozici minimálně kopií DNA,

Inovace studia molekulární a buněčné biologie

Laboratoř sekvenace DNA Servisní laboratoř biologické sekce PřF UK

Metody studia historie populací. Metody studia historie populací

NUKLEOVÉ KYSELINY. Složení nukleových kyselin. Typy nukleových kyselin:

Současné metody sekvenování nukleových kyselin Bakalářská práce

6. Nukleové kyseliny

Sekvenace aplikace ve virologické diagnostice. Plíšková Lenka FN Hradec Králové

GENETIKA dědičností heredita proměnlivostí variabilitu Dědičnost - heredita podobnými znaky genetickou informací Proměnlivost - variabilita

Tento projekt je spolufinancován Evropským sociálním fondem a Státním rozpočtem ČR InoBio CZ.1.07/2.2.00/

Osekvenované genomy. Pan troglodydes, Neandrtálec, 2010

Mgr. et Mgr. Lenka Falková. Laboratoř agrogenomiky. Ústav morfologie, fyziologie a genetiky zvířat Mendelova univerzita

Transkript:

MENDELOVA UNIVERZITA V BRNĚ AGRONOMICKÁ FAKULTA BAKALÁŘSKÁ PRÁCE BRNO 2012 KRISTÝNA KLEMENTOVÁ

Mendelova univerzita v Brně Agronomická fakulta Ústav morfologie, fyziologie a genetiky zvířat Sekvenování nukleových kyselin - sestavení sekvence DNA podle výsledku genetického analyzátoru Bakalářská práce Vedoucí práce: prof. RNDr. Aleš Knoll, Ph.D. Vypracovala: Kristýna Klementová Brno 2012

PROHLÁŠENÍ Prohlašuji, ţe jsem bakalářskou práci na téma Sekvenování nukleových kyselin - sestavení sekvence DNA podle výsledku genetického analyzátoru vypracovala samostatně a pouţila jen pramenů, které cituji a uvádím v přiloţeném seznamu literatury. bakalářská práce je školním dílem a můţe být pouţita ke komerčním účelům jen se souhlasem vedoucího bakalářské práce a děkana Agronomické fakulty Mendelovy univerzity v Brně. dne podpis bakaláře.

PODĚKOVÁNÍ Tímto bych chtěla poděkovat svému vedoucímu bakalářské práce prof. RNDr. Aleši Knollovi, Ph.D., za umoţnění vypracování práce pod jeho vedením. Také bych ráda poděkovala své konzultantce Mgr. Zuzaně Vykoukalové Ph.D., za cenné rady a za pomoc při sestavování a opravě práce.

SHRNUTÍ Moje práce se zabývá průřezem literatury v oblasti sekvenování nukleových kyselin, obsahuje základní informace o klasických metodách sekvenace, Maxam-Gilbertově a Sangerově metodě. Dále se zde zabývám moderními metodami sekvenování tzv. Next generation sequencing, k nimţ patří Roche 454, SOLiD a Illumina. V praktické části se zabývám sestavením sekvence DNA v programech Sequencing Analysis Software v5.1, Sequence Scanner v1.0, SeqScape v2.1 a ClustalW2. Vzorkem je DNA z prasečí krve. V závěru porovnávám 3 vzorky části DNA genu MYF6 osekvenované vţdy přímým a zpětným primerem. Klíčová slova: Maxam-Gilbertova metoda, Sangerova metoda, Next generation sequencing, sekvenování, genom SUMMARY My work is focused on the literature about nucleic acid sequencing, contains basic information about classical methods of sequencing, Maxam-Gilbert and Sanger method. Further I deal with modern methods of sequencing, also known as "Next Generation Sequencing", which include Roche 454, SOLiD and Illimina. In the practical part I focus on assembling of sequencing DNA in Sequencing Analysis Software v5.1, Sequence Scanner v1.0, SeqScape v2.1 a ClustalW2 programmes. The sample used is a pig's blood. In the conclusion I compare three DNA samples with the MYF6 gene, always sequenced with the direct and reverse primer. Key words: Maxam-Gilbert sequencing, Sanger sequencing, Next generation sequencing, sequencing, genome

OBSAH 1 ÚVOD...9 2 CÍL PRÁCE... 11 3 LITERÁRNÍ PŘEHLED... 11 3.1 Klasické metody... 11 3.1.1 Maxam-Gillbertova metoda... 11 3.1.2 Sangerova metoda... 13 3.2 Metody Next-Generation... 15 3.2.1 Systém 454/Roche... 15 3.2.1.1 Princip pyrosekvenování... 16 3.2.1.2 Princip metody 454/ROCHE... 16 3.2.2 Illumina (dříve Solexa)... 17 3.2.2.1 Příprava knihovny... 17 3.2.2.2 Průběh sekvenování pomocí metody Illumina... 19 3.2.3 SOLiD... 19 3.2.3.1 Příprava DNA knihovny a PCR... 20 3.2.3.2 Postup sekvenace metodou SOLiD... 22 3.2.3.3 Dvoubarevné dekódování... 23 3.3 Celogenomové sekvenování... 24 4 MATERIÁL A METODIKA... 26 4.1 Vzorky... 26 4.2 Sequencing Analysis v5.1 Software... 26 4.3 SeqScape v2.1 Software... 27 4.4 Sequence Scanner Software v1.0... 27

4.5 ClustalW2... 27 5 VÝSLEDKY A DISKUZE... 28 5.1 MYF6... 28 5.2 Sequencing Analysis v5.1 Software... 28 5.3 Sequence Scanner v1.0... 32 5.4 SeqScape v2.1... 32 5.5 ClustalW2... 33 5.6 Sestavení kompletní sekvence PCR produktu genu MYF6... 35 6 ZÁVĚR... 37 7 POUŢITÁ LITERATURA... 38 8 SEZNAM OBRÁZKŮ... 41 9 SEZNAM ZKRATEK... 43 10 PŘÍLOHY... 44

1 ÚVOD Uţ jako malé dítě jsem si všímala okolního prostředí. Zjišťovala jsem, ţe kaţdý organismus, i kdyţ má podobnou stavbu těla, je částečně rozdílný. V té době jsem tomu nevěnovala pozornost a brala jsem ostatní organismy tak, jak jsou. Postupem času jsem se začala zajímat čím to je, ţe jedna květina stejného druhu kvete modře a druhá růţově, proč jeden člověk je vysoký, má hnědé oči a hnědé vlasy a proč druhý člověk je malý a má světlé vlasy. V této době jsem se dozvěděla o obsahu nukleové kyseliny v buňkách organismu. V organismech jsou obsaţeny 2 druhy nukleových kyselin, DNA a RNA. Rozdíl v těchto nukleových kyselinách je pouze ve dvou aspektech, za prvé se liší přítomná cukerná sloţka, kdy RNA obsahuje D-ribózu a DNA 2-D-ribózu, a za druhé se rozdíl projevuje v typech dusíkatých bází, kdy RNA je sloţena z adeninu, uracilu, cytosinu a guaninu, zatímco DNA je sloţena z adeninu, guaninu, cytosinu a thyminu. Ovšem pokud by záleţelo pouze na těchto dusíkatých bázích, tak by všichni lidé byli stejní. Důleţité je jejich uspořádání v genetickém kódu. Genetický kód kaţdého organismu je jiný, dva jedinci se stejným genetickým kódem neexistují. Všichni lidé mají DNA shodnou z více neţ 99 %. Zbývající necelé 1% rozdílů způsobuje právě to, ţe kaţdý vypadáme jinak. (STORCHOVÁ, 2000) Postupným vývojem mohli lidé zkoumat organismy od fenotypových projevů genetického kódu, které zkoumaly většinou pouze pomocí smyslových vjemů aţ po zkoumání genetického kódu v dnešní době. Díky odhalení sloţení DNA a RNA lidé přišli na mnoho moţností, jak tyto informace vyuţít, ať uţ ve šlechtění zvířat či rostlin, pro vyšší produkci potřebných látek, či pro boj s nemocemi, které vznikly chybou v genetickém kódu. Při zdokonalování metod analýzy nukleových kyselin byly vyvinuty metody sekvenování, jejichţ cílem je stanovit primární strukturu nukleotidů v DNA nebo v RNA. Tyto metody nám napomáhají v dekódování a pochopení genomu a k odhalení genetických mutací. 9

V této bakalářské práci se budu zabývat postupným vývojem sekvenčních metod od klasické Sangerovy a Maxam-Gilbertovy metody aţ po tzv. metody Next-generation, neboli metody příští generace. 10

2 CÍL PRÁCE Cílem mé práce je zpracovat dostupnou literaturu v problematice týkající se sekvenování DNA od klasických aţ po nejmodernější (tzv. Next generation ) metody. Následně mám zpracovat surová data ze sekvenátoru ABI PRISM 3100-Avant a porovnat počítačové aplikace Sequencing Analysis Software v5.1 a Sequence Scanner v1.0. Ze surových dat mám následně vytvořit konečnou sekvenci. 3 LITERÁRNÍ PŘEHLED 3.1 Klasické metody K sekvenování DNA byly původně vyvinuty dvě principiálně odlišné metody. První, tvz. Maxam-Gilbertova metoda neboli metoda chemické degradace, je zaloţena na specifické degradaci řetězců nukleových kyselin pomocí chemických sloučenin (MA- XAM a GILBERT, 1977). Druhá metoda vyuţívá naopak syntézy řetězců DNA s vyuţitím specificky modifikovaných nukleotidů a je označována jako terminační metoda, nebo téţ Sangerovo sekvenování (SANGER et al., 1977). I kdyţ se obě metody svým principem liší, je v obou případech základním poţadavkem pro zahájení sekvenování příprava molekul DNA s přesně definovanými konci. Nejčastěji pouţívaným výchozím materiálem pro sekvenování DNA jsou proto restrikční fragmenty, naklonované ve vhodném klonovacím vektoru, nebo fragmenty získané PCR (ŠMARDA et al., 2005). 3.1.1 Maxam-Gillbertova metoda Tato metoda se zakládá na rozštěpení DNA molekuly chemickými činidly v místech bází určitého typu. 5 konec DNA řetězce označíme radioaktivním fosforem a následně vlákno rozdělíme do čtyř vzorků. Kaţdý necháme reagovat s jiným činidlem, které rozštěpí fragment v místě specifické báze. Následně pomocí gelové elektroforézy seřadíme fragmenty podle délky. Delší fragmenty jsou těţší, a proto se v gelu pohybují pomaleji, 11

oproti kratším a lehčím fragmentům (MAXAM a GILBERT, 1977). Sekvenci přečtěme pomocí speciálního snímacího systému, který převede označené fragmenty do počítače. Tyto fragmenty se vizualizují pomocí autoradiografie do podoby prouţků. Sekvence se přečte identifikováním stopy, ve které se fragment vyskytuje. Začíná se fragmentem, který v gelu doputoval nejdál. Průběh sekvenování je zobrazen na obr. 1. Obr. 1: Schéma sekvenace Maxam-Gilbertovou metodou (http://www.nd.edu/~aseriann/maxam.html) I kdyţ se v dnešní době provádí sekvenování většinou Sangerovou terminační metodou, Maxam-Gilberova metoda (chemickou degradací) se stále občas pouţívá. Zvláště v případě, kdy templát DNA můţe tvořit pevně spárované smyčky, které mohou při terminační metodě blokovat postup DNA polymerázy při syntéze řetězců a tím redukovat mnoţství syntetizovaných vláken. Mohou rovněţ sniţovat pohyblivost výsledných molekul během elektroforézy, coţ ztěţuje čtení sekvence. Při sekvenování metodou chemické degradace smyčky nepřekáţejí, proto tato metoda můţe být pouţita jako alternativa pro sekvenování těchto problematických templátů (BROWN, 2007). 12

3.1.2 Sangerova metoda Při sekvenování Sangerovou metodou je DNA, jejíţ sekvence má být stanovena, pouţita jako matrice pro syntézu komplementárních řetězců prostřednictvím DNApolymerázy. Syntéza řetězce podle matricové DNA je zahájena od místa, kde je připojen sekvenčně specifický primer pro sekvenování, a ukončena v místě, v němţ je do rostoucího řetězce inkorporován místo normálního deoxyribonukleosidtrifosfátu (dntp) jeho analog 2, 3 - dideoxyribonukleosidtrifosfát (ddntp). Ten postrádá 3 - OH skupinu, potřebou pro navázání dalšího dntp. ddntp má tedy po začlenění do rostoucího řetězce DNA funkci koncového inhibitoru (terminátoru) syntézy DNA (ŠMARDA et al., 2005). Z toho důvodu se tato metoda téţ označuje jako dideoxy nebo terminační metoda sekvenování. 3.1.2.1 Princip metody K templátové DNA, např. klonovanému fragmentu nebo produktu polymerázové řetězové reakce, se nejprve přidá značený primer, DNA polymeráza a všechny čtyři dntp. Reakce se potom rozdělí do čtyř stejných částí, do kaţdé z nich se přidají odděleně ddntp (ddatp, ddttp, ddctp a ddgtp) (ŘEHOUT et al., 2000). Za specifických teplotních podmínek proběhne v kaţdém vzorku syntéza nových řetězců. Výsledkem amplifikace je pak směs různě dlouhých fragmentů, které začínají primerem a končí specifickým ddntp. Tyto fragmenty se pomocí gelové elektroforézy se seřadí podle délky a následně se z jejich pořadí odečte původní sekvence. Průběh Sangerovy metody znázorňuje obr. 2. 13

Obr. 2: Schéma sekvenace Sangerovou metodou (www.ornl.gov/sci/techresources/human_genome/publicat/tko/05b_img.html) Původně se ke značení primerů pouţívaly radioaktivní látky, např. fosfor. V dnešní době se ke značení pouţívají fluorescenční značky, kterými se mohou značit buď primery, nebo terminátory. Pokud se v reakci pouţívají značené primery, musí reakce probíhat ve čtyřech oddělených zkumavkách. Při pouţití značených terminátorů se provádí reakce v jedné zkumavce. Sangerova metoda je stále nejpouţívanější a nejpřesnější sekvenační metodou, na jeden běh zvládne osekvenovat fragment dlouhý 700 aţ 800 bp. K jejímu urychlení velmi přispěla automatizace některých kroků sekvence elektroforetická separace fragmentů a její vyhodnocení pomocí poloautomatických sekvenátorů. Dříve se pouţívaly sekvenátory gelové, např. od firem Life Technologies, Rio-Rad a Beckman. Při kaţdé sekvenaci se musel ručně připravit polyakrylamidový gel, coţ bylo velmi pracné. V současnosti se pouţívají kapilárové sekvenátory. Zde gelová elektroforéza probíhá v kapiláře vyplněné polyakrylamidovým gelem nebo speciálním polymerem. Mnoţství 14

kapilár se liší podle typu sekvenátoru a výrobce, od 1, 4, 8, 16, 24, 48, aţ po 96 kapilárové, které vyrábějí firmy Life Technologies, Amersham Pharmacie, BioTech, Beckman 3.2 Metody Next-Generation I přes postupné zavádění a zdokonalování automatických sekvenárorů je v současnosti klasickým Sangerovým sekvenováním standardně dosahováno přečtení aţ přibliţně 1000 bází v jednom běhu, tato metoda je tedy vhodná spíš pro sekvenování de novo a resekvenování krátkých úseků. Avšak trend dnešní doby je více zaměřen na sekvenování celých genomů. Pouţité přístupy vycházející z automatizované Sangerovy metody se jiţ dostaly na maximum kapacitních moţností, sekvenování genomů touto metodou je časově i finančně velmi náročné. Další rozvoj sekvenování genomů je podmíněn vznikem nových výkonnějších a levnějších technologií, schopných zpracovat velké mnoţství dat během krátké doby (tzv. masivně paralelní sekvenování, sekvenování další generace). Prvním komerčním sekvenátorem této tzv. nové generace byl systém Roche/454 GS FLX, uvedený na trh v roce 2005, vyuţívající princip pyrosekvenování. O necelý rok později následoval Genome Analyzer od firmy Illumina (původně nazývaný Solexa) vyuţívající reverzibilních terminátorů syntézy DNA. V létě 2007 byl firmou Applied Biosystems (nyní Life Technologies) představen třetí typ sekvenátoru nazvaný SOLiD, kde probíhá sekvenace pomocí ligace a detekce oligonukleotidů (POSPÍŠILOVÁ et al., 2009). 3.2.1 Systém 454/Roche Sekvenátor 454 GS funguje na principu pyrosekvenování, vysoce přesném sekvenování DNA v reálném čase, které nevyţaduje značené primery nebo značené nukleotidy (ŠMARDA et al., 2005). Přestoţe tato metoda byla popsána uţ v roce 1985 (NYREN a LUNDIN, 1985), první komerčně vyuţívaný sekvenátor nové generace na principu pyrosekvenování byl pouţit aţ v roce 2005. Jednalo se o přístroj GS FLX od firmy ROCHE (POSPÍŠILOVÁ et al., 2009). 15

3.2.1.1 Princip pyrosekvenování Pyrosekvenováním se označuje série enzymatických reakcí, během kterých se zaznamenává začlenění jednotlivých dntp do syntetizovaného řetězce díky uvolněnému viditelnému záření. DNA templát je inkubován s několika enzymy, včetně DNA polymerázy a ATP sulfurylázy. Začlenění kteréhokoliv ze čtyř dntp během syntézy komplementárního řetězce sekvenované DNA vede k uvolnění pyrofosfátu. Ten je dále pomocí ATP sulfurylázy převeden na ATP, které je následně enzymem převedeno na světený signál zachycovaný CCD senzorem. Zbylé nezačleněné dntp jsou následně z reakce odstraněny apyrázou a celý cyklus se opakuje (ŢÁK, 2009). 3.2.1.2 Princip metody 454/ROCHE V prvním kroku je nejprve genomová DNA mechanicky rozštěpena na kratší fragmenty (300-800 bp). K těmto fragmentům se připojí dva specifické adaptory, z nichţ jeden je označen biotinem a slouţí k imobilizaci fragmentu na kuličky potaţené streptavidinem. Adaptory současně slouţí jako templát pro primery v tzv. emulzní polymerázové řetěţové reakci (empcr), která probíhá na streptavidinových kuličkách ponořených v olejové emulzi. Ke kaţdé kuličce je připojena pouze jedna molekula jednořetězcové DNA, která je pak během empcr namnoţena. Ke konci PCR reakce je na jedné kuličce přichyceno průměrně 10 miliónů stejných kopií původní jednořetězcové DNA. Kuličky jsou následně vpraveny do jamek speciální tzv. pikotitrační destičky (PTP) společně s dalšími kuličkami, na kterých jsou přichyceny enzymy nezbytné pro pyrosekvenační reakci (DNA polymeráza, luciferáza, sulfuryláza a apyráza). Všechny tyto kroky nahrazují pracné klonování jednotlivých DNA molekul nezbytných při klasické sekvenaci. Výhodou je i to, ţe se tím eliminují moţné chyby vzniklé klonováním (ŢÁK, 2009). Naplněná pikotitrační destička se poté vloţí do přístroje, který řídí průtok dntp nad jejím povrchem v přesně daném pořadí. Přitom dochází v kaţdé jamce k prodluţování řetězce komplementárního k templátové DNA a ke vzniku ATP a následné produkci světla. Řídící počítač zaznamenává tyto světelné signály z kaţdé jamky a zpracovává tento primární signál na tzv. flowgramy a nakonec na sekvence DNA 16

(ŢÁK, 2009). Kapacita pikotitrační destičky je přibliţně 1,6 milionů jamek, v kaţdé je sekvenován fragment o délce 400 aţ 500 bazí. Délka čtení závisí na řadě faktorů, např. na obsahu AT a GC v sekvenovaném úseku. Sekvence, které obsahují přibliţně stejný poměr AT a GC, mají čtené úseky delší neţ sekvence bohatší na AT nebo GC páry (DROEGE a HILL, 2008). Délka trvání jednoho cyklu sekvenace u metody 454 je 7,5 hodiny, za tuto dobu je sekvenováno zhruba 210 Mbp. Přesnost této metody je 99,95%, s výskytem homopolymerních úseků se však spolehlivost sniţuje. Obr. 3: Sekvenační reakce při pyrosekvenování pomocí přístroje Genome Sequencer Systém FLX (ŢÁK, 2009) 3.2.2 Illumina (dříve Solexa) Systém Illumina (dříve Solexa) byl poprvé představen v roce 2006. Sekvenování je zde zaloţeno na rozbití genomové DNA na krátké fragmenty (tzv. vytvoření knihovny), určení jejich sekvence a jejich spojení počítačovým programem podle navzájem se přesahujících úseků (http://www.biogen.cz/illumina). Určení sekvence jednotlivých fragmentů je zaloţeno, stejně jako u metody 454/Roche, na sekvenaci syntézou s vyuţitím reverzibilních terminátorů (ANSORGE, 2009). 3.2.2.1 Příprava knihovny DNA je štěpena na menší fragmenty, většinou o velikosti 200 aţ 400 bp. Na 3 konec je pomocí polymerázy navázán adenin (Obr. 4), umoţňující navázání adaptorů, jenţ se kovalentní vazbou naváţí na povrch pro sekvenaci (POMRANING et al., 2009). 17

Jednotlivé fragmenty jsou nejprve jedním koncem přichyceny na povrch destičky. Po přidání enzymu pro amplifikaci dochází k ohnutí fragmentu do mostu (Obr. 5) (ANSORGE, 2009). Následnou amplifikací vznikají dva řetězce, z nichţ kaţdý má jeden volný a jeden pevný konec. Po denaturaci jsou fragmenty srovnány a uspořádány do shluků o hustotě 1000 kopií fragmentu na µm 2 povrchu. Na celém povrchu pro sekvenování je tak dosaţeno hustoty deseti miliónů shluků na cm 2 (ILLUMINA,2011). Obr. 4: Příprava DNA knihovny. Na fragmentu DNA (A) dochází k napojení adeninu (B) a za pomoci adaptérů (C) dochází k výběru fragmentu (D) (upraveno dle AN- SORGE, 2009) Obr. 5: Přichycení a ohnutí fragmentu do mostu (upraveno dle ANSORGE, 2009) 18

3.2.2.2 Průběh sekvenování pomocí metody Illumina Na jednotlivé fragmenty se naváţou sekvenační primery, přidané ve směsi s DNA polymerázou a fluorescenčně značenými nukleotidy. Nukleotidy jsou na 3 - konci modifikovány tak, aby způsobovali vratné ukončení prodluţujícího řetězce DNA, čímţ je zajištěno, ţe v kaţdém cyklu se řetězec prodlouţí o jednu bázi. Tento proces se neustále opakuje a řetězec se prodluţuje, aţ do doby, kdy je zachycen obraz celé sekvence (Obr. 6)(ILLUMINA, 2011). Délka čtených úseků je u této metody 30-40 bp, za dobu 4 dnů systém vyprodukuje přibliţně 1500 Mbp s přesností 99,99 %. Obr. 6: Průběh zachycení celé sekvence (upraveno dle ANSORGE, 2009) 3.2.3 SOLiD V roce 2007 byl na trhu představen sekvenátor nazývaný SOLiD (Applied Biosystems, nyní Life Technologies), jehoţ název je odvozen z anglického Sequencing by Oligo Ligation and Detection, tj. sekvenace pomocí ligace a detekce oligonukleotidů (POSPÍŠILOVÁ et al., 2009). 19

Obr. 7: Sekvenování pomocí metody SOLiD (upraveno dle APPLIED BIOSYS- TEMS, 2011) 3.2.3.1 Příprava DNA knihovny a PCR Prvním krokem přípravy vzorků pro sekvenování pomocí systému SOLiD je příprava knihovny (APPLIED BIOSYSTEMS, 2009). Tento systém vyuţívá dva typy knihoven, fragmentovou a párovou (APPLIED BIOSYSTEMS, 2011). Pro vznik fragmentové knihovny je nejprve nutné DNA nastříhat na krátké fragmenty o délce 100 aţ 110 bp a na kaţdý jejich konec navázat adaptory P1 a P2. Následně jsou fragmenty seřazeny podle velikostí pomocí gelové elektroforézy (APPLIED BIOSYSTEMS, 2009). Obr. 8: Průběh přípravy základního fragmentu knihovny (upraveno dle APPLIED BIOSYSTEMS, 2009) Při přípravě párové neboli mate pair knihovny se genomová DNA rozštěpí na fragmenty o velikosti od 600 bp do 6 kb. Po rozštěpení se na gelu rozdělí podle velikos- 20

tí. Na konce fragmentů o velikosti přibliţně 3 kbp se naváţou adaptory, které způsobí zacyklení DNA fragmentu. Poté se provede další sestřih, který z cyklického fragmentu vytvoří lineární fragment s vnitřním adaptorem uprostřed a na volné konce se naváţí adaptory P1 a P2. Na DNA fragmenty se naváţe mikrokulička o velikost 1 µm (AP- PLIED BIOSYSTEMS, 2009). Obr. 9: Znázornění vzniku fragmentu DNA s vnitřním adatorem (upraveno dle AP- PLIED BIOSYSTEMS, 2009) Následně jsou DNA knihovny a primery přidány do PCR emulze, která obsahuje nukleotidy a polymerázu. Výsledným produktem PCR reakce jsou amplifikované templáty na mikrokuličkách (APPLIED BIOSYSTEMS, 2009). Kuličky jsou naneseny na destičku, kterou je moţné rozdělit na 1, 4, nebo 8 oblastí (POSPÍŠILOVÁ et al., 2009). Typy základních fragmentů pro sekvenaci za pomoci metody SOLiD jsou znázorněny na obrázku č. 10. 21

Obr. 10: Stavba základních úseků fragmentové a párové knihovny (upraveno dle APPLIED BIOSYSTEMS, 2009) 3.2.3.2 Postup sekvenace metodou SOLiD Metoda SOLiD se od předchozích dvou metod liší tím, ţe k sekvenaci vyuţívá hybridizace krátkých fluorescenčně značených sond, které mají definovány první dva nukleotidy (POSPÍŠILOVÁ et al., 2009). Celkem čtyři různá barviva označují šestnáct moţných kombinací na prvních dvou pozicích templátu. V prvním kroku se k adaptéru na konci fragmentu připojí primer, následně je k DNA segmentu přidána směs oligonukleotidových oktamerů. Pokud jsou první dva nukleotidy sondy komplementární s prvními dvěmi nukleotidy templátu, sonda se napojí na primer a pomocí fluorescence je zachycen barevný signál vydaný sondou. Po té se sonda štěpí za pátou bází, čímţ se odstraní fluorescenčně označené úseky, a ligace opakuje celkem sedmkrát. Ve druhém kroku jsou určeny báze 9 a 10, ve třetím báze 14 a 15, atd. (ANSORGE, 2009). Poté je celý proces zopakován s primerem o jeden nukleotid kratší neţ původní primer, čímţ se v sekvenovaném úseku získají báze 5 a 6, 10 a 11, 15 a 16, atd. Postupným sekvenováním s primery kratšími ještě o dva, tři a čtyři nukleotidy se tak zajistí vyplnění chybějících úseků vzniklých vazbou sond aţ k pátému nukleotidu sondy předchozí. 22

Obr. 11: Schéma čtení sekvence (upraveno dle APPLIED BIOSYSTEMS, 2011) 3.2.3.3 Dvoubarevné dekódování Při tomto postupu sekvenování je kaţdá pozice v sekvenci charakterizována dvěma fluorescenčními signály, je tak zajištěna vyšší spolehlivost správného určení báze (POSPÍŠILOVÁ et al., 2009) a snadno lze odlišit jednonukleotidové polymorfismy od systémových chyb. Systém pracuje se 4 základními bázemi a pro barevné zobrazení výsledku platí několik pravidel: - báze jsou prezentovány jako 0, 1, 2 a 3 (modrá, ţlutá, zelená a červená); - pokud jsou dvojice bází reverzní (např. AC a CA), ve výsledku se zobrazí stejnou barvou; - pokud dvojice bází má počáteční bázi stejnou, ale liší se ve druhé bázi (např. AC a AG), barevné zobrazení bude rozdílné, stejně tak v případě, ţe počáteční báze jsou různé a druhá báze je stejná (např. AC a GC); - dvojice stejných bází se barví stejnou barvou (např. AA a CC) (APPLIED BI- OSYSTEMS, 2011) 23

Obr. 12: Znázornění dvoubarevného dekódování (upraveno dle MARDIS, 2007) Délka čtených úseků se u systému SOLiD pohybuje okolo 25-35 bp a je schopný vyprodukovat během 5 dní 3 aţ 4 Gb sekvenčních dat za jeden běh (MARDIS, 2008) s přesností 99,94%. 3.3 Celogenomové sekvenování Během posledních let, projekty sekvenování genomu postupovaly velmi rychle, více neţ 400 virových, 16 bakteriálních, 6 archaea a 2 eukaryotických genomů jsou nyní kompletní. Jeden z největších úspěchů je pak více neţ 3000 milionů bází lidského genomu, které byly sekvenovány a celý 3286 MB by mělo být dokončeno v roce 2003. To bude mít velký vliv na budoucnost medicíny, kdyţ vstoupíme do říše funkční genomiky s údaji sekvencí DNA pouţívaných pro širokou škálu programů léčby pacienta, jako jsou: - stanovení genetických faktorů citlivosti na běţné choroby (rakovina, diabetes, srdeční choroby) - mapování specifických genetických mutací - určení genetických faktorů resistence na léky - klasifikace bakteriální a virové infekce - rozvoj genetických vakcín 24

- gen určený k léčbě mutovaných nebo nedostatečných genů (GRAHAM a HILL, 2001) 25

4 MATERIÁL A METODIKA V rámci této bakalářské práce byla studována výstupní sekvenční data, k jejichţ analýze byly postupně pouţity 4 různé programy. Prvním z nich je Sequencing Analysis v5.1, druhým je Sequence Scanner v1.0, třetím je SeqScape v2.1 a poslední je ClustalW2. 4.1 Vzorky K analýze bylo pouţito celkem 6 výstupů (.ab1 soubory) ze sekvenátoru ABI PRISM 3100-Avant Genetic Analyzer (Life Technologies). Jednalo se o sekvence získané sekvenováním PCR produktu prasečího genu MYF6 u tří jedinců, vţdy s přímým (2A) a zpětným (2B) primerem: - SKR2012_MYF6[V61]_2A_001_0999.ab1 - SKR2013_MYF6[V61]_2B_002_0999.ab1 - SKR2014_MYF6[V71]_2A_003_1001.ab1 - SKR2015_MYF6[V71]_2B_004_0999.ab1 - SKR2016_MYF6[V87]_2A_001_1000.ab1 - SKR2017_MYF6[V87]_2B_002_1000.ab1 4.2 Sequencing Analysis v5.1 Software Sequencin Analysis v5.1 software je placený program od firmy Applied Biosystems. Umoţňuje uţivateli prohlíţet si, tisknout a exportovat výstupní sekvenační data, editovat báze v získané sekvenci, upravovat začátek a konec sekvence, buď v grafické části nebo za pomoci nastavení hodnot v souhrnné tabulce. Systém zpracovává ab1 soubory generované genetickými analyzátory ABI PRISM 310, 377, 3700, 3100-Avant, 3100 a 3730/3730xl (Applied Biosystems). Více informací na: http://www.enggen.nau.edu/files/seqanalysis5.1_quickguide.pdf 26

4.3 SeqScape v2.1 Software Software SeqScape v2.1, je placený program od firmy Applied Biosystems. Umoţňuje uţivateli prohlíţet si a tisknout sekvenční data, porovnávat sekvence mezi sebou nebo mezi referenčním vzorkem. Přehledně zobrazuje rozdíly mezi porovnávanými sekvencemi mezinárodními zkratkami pro smíšené báze. Software zpracovává pouze.ab1 soubory generované genetickými analyzátory ABI PRISM 310, 377, 3700, 3100-Avant, 3100, 3130/3130xl a 3730/3730xl (Applied Biosystems). Více informací na: http://www.bitcet.sk/documents/cms_041480.pdf 4.4 Sequence Scanner Software v1.0 Sequence Scanner Software v1.0 umoţňuje uţivateli prohlíţet si, tisknout a exportovat výstupní sekvenační data, editovat báze v získané sekvenci, manuálně upravovat její rozsah čtení. Software zpracovává pouze.ab1 soubory generované genetickými analyzátory ABI PRISM 310, 377, 3700, 3100-Avant, 3100, 3130/3130xl a 3730/3730xl (Applied Biosystems). Lze jej volně stáhnout z: http://www.appliedbiosystems.com/absite/us/en/home/support/softwarecommunity/ free-ab-software.html 4.5 ClustalW2 Software ClustalW2 umoţňuje uţivateli porovnat sekvence DNA nebo proteinů. Stejné báze označí hvězdičkou. Chybějící hvězdička znázorňuje rozdíl mezi porovnávanými sekvencemi. Software zpracovává pouze fasta formát. Lze jej volně stáhnout z: http://www.ebi.ac.uk/tools/msa/clustalw2/ 27

5 VÝSLEDKY A DISKUZE Cílem mé práce bylo vyhodnotit data získaná sekvenováním části prasečího genu MYF6 s vyuţitím různých nebo softwarů a sestavit kompletní sekvenci daného PCR produktu. U pouţitých programů jsem srovnávala moţnosti zpracování získaných dat, přehlednost a vybavenost jednotlivých programů. 5.1 MYF6 MYF6 (myogenní faktor 6 nebo také MRF4 - svalový regulační faktor 4 patří do MYOD rodiny proteinů ovlivňujících vývoj svalových vláken). Tento gen pomáhá v procesu myogeneze, při regeneraci svalových vláken a konečné diferenciaci myoblastů do svalových fibril. Rodina MYOD ovlivňuje celkovou kvalitu masa. 5.2 Sequencing Analysis v5.1 Software Sequencing Analysis Software v5.1 je součástí softwarového vybavení automatického 4-kapilárního sekvenátoru ABI PRISM 3100-Avant (Applied Biosystems). Tento program zpracovává surová data získaná sekvenováním vzorků pouze na genetických analyzátorech firmy Applied Biosystems (ABI PRISM 310, 377, 3700, 3100-Avant, 3100, 3130/3130xl and 3730/3730xl). Vstupním formátem pro analýzu v tomto softwaru jsou soubory.ab1. Po analýze je pak moţné získat několik různých výstupů: - Annotation přehled základních údajů o analyzovaném vzorku (název, umístění na platu, číslo kapiláry, ve které byl analyzován, podmínky elektroforézy a následné analýzy, apod.) - Sequence - sekvence v textové formě - Electropherogram grafické znázornění výsledné sekvence po analýze surových dat, tzv. elektroforetogram - Raw - grafické znázornění surových dat - EPT grafické znázornění průběhu elektroforézy napětí, proud, teplota, laser, apod. 28

U surových dat (Raw) hodnotíme především jejich intenzitu, tj. jak je vzorek slabý nebo naopak silný. U velmi slabých vzorků je většinou kvalita analyzované sekvence nízká, můţe být aţ nečitelná. U velmi silných vzorků naopak spolu s intenzitou analyzované sekvence roste i signál pozadí, coţ můţe ztěţovat nebo znemoţňovat např. identifikaci heterozygotů v dané sekvenci. V obou případech je pak vhodné vzorek nejprve zopakovat s upravenými podmínkami elektroforézy (např. delší x kratší doba injektáţe, tj. nabírání vzorku), příp. připravit novou sekvenční reakci. U dat, která jsem měla k dispozici, byla intenzita analyzovaných vzorků optimální. Obr. 13: Surová data V elektroforetogramu je sekvence znázorněna ve formě tzv. píků specifické barvy (červená T, zelená A, modrá C, černá G). Z tohoto výstupu lze hodnotit, zda je výsledkem sekvenování pouze specifická sekvence (kaţdá báze je prezentována pouze jediným píkem), nebo byl sekvenován smíšený templát (u jednotlivých bází se kromě hlavního píku, vyskytují na pozadí ještě sekundární píky). O kvalitě sekvence vypovídají také tzv. QV hodnoty (Quality Value) uvedené nad jednotlivými píky. Jsou prezentovány různě vysokými sloupci tří barev modrá, červená a ţlutá. Výška sloupce ukazuje hodnotu QV, barva to, zda je kvalita optimální (modré sloupce), nebo ne (ţluté a červené sloupce). V případě ţlutých a červených hodnot je potřeba sekvenci zkontrolovat, příp. manuálně upravit, coţ tento software umoţňuje báze lze mazat a vkládat. Je moţné také měnit rozsah analyzované oblasti výsledné sekvence (začátek a konec čtené sekvence, buď přímo v grafické části nebo za pomocí nastavení hodnot začátku a konce 29

sekvence v souhrnné tabulce a následné reanalýze vzorku) nebo velikost zobrazení. Sekvence, které jsem měla k dispozici pro svou práci, měly optimální kvalitu v elektroforetogramu se nevyskytovaly na pozadí sekundární píky, tzn. ţe se jedná o specifickou sekvenci. Pouze v případě vzorku V71 se v obou sekvencích (s přímým i zpětným primerem) na pěti místech vyskytovaly smíšené báze (dva přibliţně stejně vysoké píky přes sebe), které poukazují na to, ţe daný jedinec je v těchto lokusech heterozygot (obr. 14). Sequencing Analysis Software v těchto případech umoţňuje dvojí moţné označení smíšených bází buď do výsledné sekvence zapíše pouze jednu ze dvou alel, nebo daný lokus označí mezinárodní značkou pro smíšené báze (pak je ale nutné definovat výšku menšího píku, podle které software daný pík vyhodnotí ještě jako pozadí nebo uţ jako alelu). V případě mých sekvencí byla zvolena první moţnost, tedy označení jen jedné z alel. Obr. 14: Smíšené báze vzorku V71 V daných sekvencích jsem provedla jen drobné manuální úpravy, omezila jsem rozsah analyzované oblasti špatně separované píky na začátku sekvence a jeden nukleotid (A) na konci sekvence, který přidává polymeráza pouţitá pro amplifikaci PCR produktu, a který do sekvence nepatří. 30

Obr. 15: Grafická forma sekvence Veškeré změny v sekvenci provedené v grafickém výstupu se promítnou do textové sekvence (Sequence). Tu je moţné pomocí tohoto softwaru exportovat do souborů různého formátu, např..seq nebo.fasta. (příloha 1) Já jsem sekvence exportovala ve formátu.fasta, abych je mohla vyuţít pro další analýzy pomocí programu ClustalW2. Vyhledávání rozdílů mezi sekvencemi je určen např. program SeqScape (viz. Kap. 5.4). Jako největší výhodu bych viděla, ţe program umí utvořit reverzní komplement, coţ ostatní programy neumí a pro tuto funkci se musí vyhledat další programy. Sekvence, které jsem ve své práci analyzovala, vznikly oboustranným sekvenováním PCR produktu, tedy s přímým a zpětným primerem. K tomu, abych mohla z těchto sekvencí sestavit kompletní sekvenci PCR produktu, je nutné nejprve vytvořit ze sekvence získané se zpětným primerem její reverzní komplement. K tomu jsem vyuţila právě tento software. Pomocí Sequencing Analysis Softwaru je moţné přímo detekovat polymorfismy, ale pouze v případě, ţe je mezi analyzovanými sekvencemi heterozygot, který je patrný na první pohled. V opačném případě si zde můţeme srovnávat více sekvencí pod sebou zároveň, ale software nedokáţe vyhledat mezi těmito sekvencemi rozdíly. 31

5.3 Sequence Scanner v1.0 Sequence scanner v1.0 je volně dostupný software od firmy Applied Biosystems (APPLIED BIOSYSTEMS, 2012). Aţ na drobné rozdíly funguje obdobně jako Sequencing Analysis Software v5.1. Kromě moţnosti samostatně zobrazit surová dat (záloţka Raw) a analyzovaná data (záloţka Analysed) umoţňuje i přímé srovnání těchto dvou výstupů (záloţka Raw+Analysed). Rozmezí analyzované části sekvence můţeme nastavovat pouze v grafické části výstupu, ne přes změnu hodnot začátku a konce sekvence v souhrnné tabulce. Nedostatkem je, ţe v tomto programu nemůţeme vytvořit reverzní komplement. Na obr. 16 a je znázorněn grafický výstup k analyzované sekvenci. V příloze 2 je zobrazen textový výstup. Obr. 16: Grafická forma sekvence z programu Sequence scanner 5.4 SeqScape v2.1 Tento program slouţí pro srovnání daných sekvencí (v grafické i textové podobě) a vyhledání rozdílů mezi nimi. Vstupními daty jsou soubory.ab1. Sekvence jsou následně srovnávány s referenční sekvencí (sekvence získaná z databáze nebo sekvenováním), kterou je nutné před vlastní analýzou do programu naimportovat. Nalezené rozdíly jsou pak zvýrazněny a označeny mezinárodními zkratkami pro smíšené báze (např. R = A/G, Y = C/T, M = A/C, S = G/C atd.) a lze je ve výstupu snadno dohledat (příloha 3). Vý- 32

hodou programu je, ţe v případě srovnávání sekvencí s přímým a zpětným primerem není nutné předem vytvářet reverzní komplement k jedné z nich, program to umí sám. Srovnáním mých sekvencí v programu SeqScape jsem v těchto sekvencích detekovala rozdíly v 5 lokusech. V souladu s výsledky zjištěnými pomocí Sequencing Analysis Softwaru byl vzorek V71 ve všech těchto lokusech heterozygotní, další analýza pak prokázala, ţe vzorek V61 je ve všech lokusech homozygot pro jednu alelu a vzorek V87 homozygot pro druhou alelu zkoumaných lokusů (Obr. 17). Obr. 17: Porovnání sekvencí v grafické formě a zvýraznění rozdílu v sekvencích 5.5 ClustalW2 ClustalW2 je program volně přístupný online (EUROPEAN BIOINFORMATICS INSTITUTE, 2012) nebo ve verzi pro staţení do počítače. Pokud chceme pracovat se tímto programem, tak textovou sekvenci musíme uloţit ve formátu *.fsta (Obr. 18), který můţeme vytvořit např. v programu Sequence Scanner v1.0. Velkou výhodou tohoto programu je, ţe dokáţe porovnat větší počet sekvencí v jenom procesu. 33

>V61 TGCTGCACCGGCTGGATCAGCAGGACAAAATGCAGGAGCTAGGCGTGGACCCCTTCAGCTACAGACCCAAGCAAGAGA ATGTAAGCCCAGACGCCGCCGGGGCAGGGGAATGCAAAAGCTGATTAGAAGCCTTCCTTGGGGCCTTTACTTCCAGCT GCTCCTCTTGGTTCCCGTCCCCCTTCCTCGACCCCACCCTCTCCCACTCCGCTCCCCCTCTAATGAACCCCCACTGAC CCGTGAACACGGGGTGCCTGCAACAGGCAGGAAATCTGTACTTGGCCTGAGGAACCAGGGGAGACACCCCCCAGCCCC CGGAACGTTGCTTTTGCCTAATCTGCTGCCTCTCTCTTCCTCCAGCTTGAGGGTGCGGATTTCCTGC Obr. 18: Sekvence ve fasta formátu Nevýhodou je, ţe tento program neumí vytvořit reverzní komplement. Tento komplement musíme vytvořit za pomoci jiného programu, např. přímo během analýzy výsledku sekvenování v Sequence Analysis Softwaru, nebo pomocí některého volně dostupného online programu. Výstupem z ClustaluW2 jsou navzájem srovnané textové sekvence. Hvězdička pod jednotlivými bázemi značí, ţe srovnávané sekvence jsou v tomto místě shodné. Rozdíly v porovnávaných sekvencích tedy snadno zjistíme pomocí chybějící hvězdičky pod seřazenými bázemi. (Obr. 19) V61_2A ----------------------------AATGCAGGAGCTAGGCGTGGACCCCTTCAGCT 32 V61_2B_rev TGCTGCACCGGCTGGATCAGCAGGACAAAATGCAGGAGCTAGGCGTGGACCCCTTCAGCT 60 ******************************** V61_2A ACAGACCCAAGCAAGAGAATGTAAGCCCAGACGCCGCCGGGGCAGGGGAATGCAAAAGCT 92 V61_2B_rev ACAGACCCAAGCAAGAGAATGTAAGCCCAGACGCCGCCGGGGCAGGGGAATGCAAAAGCT 120 ************************************************************ V61_2A GATTAGAAGCCTTCCTTGGGGCCTTTACTTCCAGCTGCTCCTCTTGGTTCCCGTCCCCCT 152 V61_2B_rev GATTAGAAGCCTTCCTTGGGGCCTTTACTTCCAGCTGCTCCTCTTGGTTCCCGTCCCCCT 180 ************************************************************ V61_2A TCCTCGACCCCACCCTCTCCCACTCCGCTCCCCCTCTAATGAACCCCCACTGACCCGTGA 212 V61_2B_rev TCCTCGACCCCACCCTCTCCCACTCCGCTCCCCCTCTAATGAACCCCCACTGACCCGTGA 240 ************************************************************ V61_2A ACACGGGGTGCCTGCAACAGGCAGGAAATCTGTACTTGGCCTGAGGAACCAGGGGAGACA 272 V61_2B_rev ACACGGGGTGCCTGCAACAGGCAGGAAATCTGTACTTGGCCTGAGGAACCAGGGGAGACA 300 ************************************************************ V61_2A CCCCCCAGCCCCCGGAACGTTGCTTTTGCCTAATCTGCTGCCTCTCTCTTCCTCCAGCTT 332 V61_2B_rev CCCCCCAGCCCCCGGAACGTTGCTTTTGCCTAATCTGCTGCCTCTCTCTTCCTCCAGC-- 358 ********************************************************** V61_2A GAGGGTGCGGATTTCCTGC 351 V61_2B_rev ------------------- Obr. 19: Srovnání reverzního komplementu fragmentu DNA a DNA fragmentu sekvenovaného přímým primerem 34

5.6 Sestavení kompletní sekvence PCR produktu genu MYF6 Cílem mé práce bylo mimo jiné také sestavit kompletní sekvenci PCR produktu prasečího genu MYF6 ze sekvencí získaných oboustranným sekvenováním daného PCR produktu (s přímým primerem 2A a zpětným primerem 2B) u tří různých jedinců (V61, V71 a V87) a pokusit se najít v této sekvenci rozdíly mezi jednotlivými jedinci. Dané sekvence (ve formátu.ab1) jsem nejprve vyhodnotila pomocí Sequence Analysis Softwaru v 5.1 (viz. Kap. 5.2), k sekvencím se zpětným primerem vytvořila reverzní komplement a exportovala ve fasta formátu. Na základě srovnání sekvencí v ClustaluW2 jsem nejprve sestavila sekvenci PCR produktu u jednotlivých vzorků (v sekvenci získané přímým primerem jsem doplnila chybějící část ze sekvence získané zpětným primerem. (Obr. 20). U vzorků V61 a V87 nebyly mezi sekvencí s přímým a zpětným primerem ţádné rozdíly. U vzorku V71 bylo nalezeno pět rozdílů. Je to způsobeno tím, ţe vzorek V71 je v těchto lokusech heterozygot a program Sequencing Analysis Software je nastavený tak, ţe při analýze sekvence označí pouze jednu z alel. V tomto případě označil v sekvenci s přímým primerem jednu alelu a v sekvenci se zpětným primerem alelu druhou. V71_2A ----------------------------AATGCAGGAGCTAGGCGTGGACCCCTTCAGCT 32 V71_2B_rev TGCTGCACCGGCTGGATCAGCAGGACAAAATGCAGGAGCTAGGCGTGGACCCCTTCAGCT 60 ******************************** V71_2A ACAGACCCAAGCAAGAGAATGTAAGCCCAGACGCCGCCGGGGCAGGGGAATGCAAAAGCT 92 V71_2B_rev ACAGACCCAAGCAAGAGAATGTAAGCCCAGACGCCGCCGGGGCAGGGGAATGCAAAAGCT 120 ************************************************************ V71_2A GATTAGACGCCTTCCTTGGGGCCTTTACTTCCAGCTGCTCCTCTTGGTTCCCGTCCCCCT 152 V71_2B_rev GATTAGAAGCCTTCCTTGGGGCCTTTACTTCCAGCTGCTCGTCTTGGTTCCCGTCCCCCT 180 *******.******************************** ******************* V71_2A TCCTCGACCCCACCCTCTCCCACCCCGCTCCCCCTCTAATGAACCCCCACTGACCCGTGA 212 V71_2B_rev TCCTCGACCCCGCCCTCTCCCACTCCGCTCCCCCTCTAATGAACCCCCACTGACCCGTGA 240 ***********.*********** ************************************ V71_2A ACACGGGGTGCCTGCAACAGGCAGGAAATCTGTACTTGGCCCGAGGAACCAGGGGAGACA 272 V71_2B_rev ACACGGGGTGCCTGCAACAGGCAGGAAATCTGTACTTGGCCTGAGGAACCAGGGGAGACA 300 ***************************************** ****************** V71_2A CCCCCCAGCCCCCGGAACGTTGCTTTTGCCTAATCTGCTGCCTCTCTCTTCCTCCAGCTT 332 V71_2B_rev CCCCCCAGCCCCCGGAACGTTGCTTTTGCCTAATCTGCTGCCTCT--------------- 345 ********************************************* V71_2A GAGGGTGCGGATTTCCTGC 351 V71_2B_rev ------------------- 35

V71 TGCTGCACCGGCTGGATCAGCAGGACAAAATGCAGGAGCTAGGCGTGGACCCCTTCAGCTACAGACCCAAGCAAGAGA ATGTAAGCCCAGACGCCGCCGGGGCAGGGGAATGCAAAAGCTGATTAGAAGCCTTCCTTGGGGCCTTTACTTCCAGCT GCTCGTCTTGGTTCCCGTCCCCCTTCCTCGACCCCGCCCTCTCCCACTCCGCTCCCCCTCTAATGAACCCCCACTGAC CCGTGAACACGGGGTGCCTGCAACAGGCAGGAAATCTGTACTTGGCCTGAGGAACCAGGGGAGACACCCCCCAGCCCC CGGAACGTTGCTTTTGCCTAATCTGCTGCCTCTCTCTTCCTCCAGCTTGAGGGTGCGGATTTCCTGC Obr. 20: Příklad srovnání sekvencí s přímým a zpětným primerem u vzorku V71 pomocí programu ClustalW2 a následné sloţení kompletní sekvence PCR produktu V61 TGCTGCACCGGCTGGATCAGCAGGACAAAATGCAGGAGCTAGGCGTGGACCCCTTCAGCT 60 V71 TGCTGCACCGGCTGGATCAGCAGGACAAAATGCAGGAGCTAGGCGTGGACCCCTTCAGCT 60 V87 TGCTGCACCGGCTGGATCAGCAGGACAAAATGCAGGAGCTAGGCGTGGACCCCTTCAGCT 60 ************************************************************ V61 ACAGACCCAAGCAAGAGAATGTAAGCCCAGACGCCGCCGGGGCAGGGGAATGCAAAAGCT 120 V71 ACAGACCCAAGCAAGAGAATGTAAGCCCAGACGCCGCCGGGGCAGGGGAATGCAAAAGCT 120 V87 ACAGACCCAAGCAAGAGAATGTAAGCCCAGACGCCGCCGGGGCAGGGGAATGCAAAAGCT 120 ************************************************************ V61 GATTAGAAGCCTTCCTTGGGGCCTTTACTTCCAGCTGCTCCTCTTGGTTCCCGTCCCCCT 180 V71 GATTAGAAGCCTTCCTTGGGGCCTTTACTTCCAGCTGCTCGTCTTGGTTCCCGTCCCCCT 180 V87 GATTAGACGCCTTCCTTGGGGCCTTTACTTCCAGCTGCTCGTCTTGGTTCCCGTCCCCCT 180 *******.******************************** ******************* V61 TCCTCGACCCCACCCTCTCCCACTCCGCTCCCCCTCTAATGAACCCCCACTGACCCGTGA 240 V71 TCCTCGACCCCGCCCTCTCCCACTCCGCTCCCCCTCTAATGAACCCCCACTGACCCGTGA 240 V87 TCCTCGACCCCGCCCTCTCCCACCCCGCTCCCCCTCTAATGAACCCCCACTGACCCGTGA 240 ***********.*********** ************************************ V61 ACACGGGGTGCCTGCAACAGGCAGGAAATCTGTACTTGGCCTGAGGAACCAGGGGAGACA 300 V71 ACACGGGGTGCCTGCAACAGGCAGGAAATCTGTACTTGGCCTGAGGAACCAGGGGAGACA 300 V87 ACACGGGGTGCCTGCAACAGGCAGGAAATCTGTACTTGGCCCGAGGAACCAGGGGAGACA 300 ***************************************** ****************** V61 CCCCCCAGCCCCCGGAACGTTGCTTTTGCCTAATCTGCTGCCTCTCTCTTCCTCCAGCTT 360 V71 CCCCCCAGCCCCCGGAACGTTGCTTTTGCCTAATCTGCTGCCTCTCTCTTCCTCCAGCTT 360 V87 CCCCCCAGCCCCCGGAACGTTGCTTTTGCCTAATCTGCTGCCTCTCTCTTCCTCCAGCTT 360 ************************************************************ V61 GAGGGTGCGGATTTCCTGC 379 V71 GAGGGTGCGGATTTCCTGC 379 V87 GAGGGTGCGGATTTCCTGC 379 ******************* Obr. 21: Porovnání 3 kompletních sekvencí PCR produktu genu MYF6 Na základě srovnání kompletních sekvencí PCR produktů všech tří vzorků jsem pak v této části genu MYF6 nalezla 5 lokusů, ve kterých se tito tři jedinci liší (obr. 21). Výsledky této analýzy jsou v souladu s tím, co jsem zjistila pomocí programu SeqScape (viz. Kap. 5.4). Délka kompletního PCR produktu je 379 bp. 36

6 ZÁVĚR Za nejlepší software pro vyhodnocení sekvencí, který jsem mohla zkusit, bych vyhodnotila software SeqScape v2.1. Přestoţe je program placený, jeho rozsah funkcí mi přijde velmi rozsáhlý. Porovnávání sekvencí je velmi přehledné a velkým kladem je okamţité označení rozdílů v porovnávaných sekvencích a označení těchto bodů mezinárodními zkratkami pro smíšení báze (R = A/G, Y = C/T, M = A/C, S = G/C). Výhodou také je, ţe nemusíme převádět reverzní komplement, protoţe s tím to si program automaticky poradí a vyřeší tuto záleţitost za nás. Nemohla bych vyzdvihnout jen jediný program, např. softwary Sequencing Analysis v5.1, který je součástí softwarového vybavení automatického 4-kapilárního sekvenátoru ABI PRISM 3100-Avant, a Sequence Scanner v1.0, který je volně dostupný. Oba podporují, jak grafické znázornění, tak znázornění textové. Jejich funkce jsou velmi podobné. Sequence Scanner v1.0 navíc umoţňuje přímé srovnání analyzovaných a surových dat (záloţka Raw+Analysed). Na neposlední místo bych zmínila software ClustalW2, který je volně dostupný. Velkou nevýhodou je, ţe pracuje pouze s textovou formou sekvence, neumí vytvořit reverzní komplement a pro zpracování musí být sekvence ve fasta formátu. Výhodou je porovnání a seřazení více sekvencí na jednou a výrazné označení (pomocí hvězdiček pod jednotlivými páry bází) shodných porovnávaných bází. Při vlastním zkoumání vzorků jsem potvrdila, ţe v různých softwarech jsem došla vţdy ke stejným závěrům, tzn., ţe vzorek V71 je heterozygotní a liší se v 5 lokusech. Na základě porovnání tří vzorků, V61, V71 a V87, jsem zjistila, ţe se tyto sekvence liší také v 5 lokusech. Závěrem bych chtěla říct, ţe ţádný z těchto programů není špatný. Kaţdý má své klady a zápory. Ovšem pokud to porovnám ze svého hlediska, jako nejlepší a nejpřehlednější software se mi jeví SeqScape v2.1. 37

7 POUŽITÁ LITERATURA AHMADIAN, A. a EHN M. a HOBER S. Pyrosequencing: History, biochemistry and future. Clinica Chimica Acta. 2006, roč. 363, 1-2, s. 83-94. ISSN 00098981. DOI: 10.1016/j.cccn.2005.04.038. ANSORGE, W.J. Next-generation DNA sequencing techniques. 2009, no. 4, vol. 25, s 195-203. APPLIED BIOSYSTEMS [online]. 2011 [cit. 2012-04-21]. Dostupné z: <http://www.appliedbiosystems.com>. APPLIED BIOSYSTEMS, Free Applied Biosystems Software. [online]. 2011 [cit. 2012-04-26]. Dostupné z: <http://www.appliedbiosystems.com/absite/us/en/home/support/softwarecommunity/free-ab-software.html>. APPLIED BIOSYSTEMS SOLiD 3 System Library Preparation Guide. Firemní manuál Applied Biosystem, 4407413 Rev. B, USA 2009. 272 str. BROWN, T.A. Klonování genů a analýza DNA: úvod. 1. české vyd. Překlad Martin Fellner. V Olomouci: Univerzita Palackého, 2007, 389 s. ISBN 978-802-4417-196. ClustalW2-Multiple Sequence Alignment [online]. 2012 [cit. 2012-04-21]. Dostupné z: <http://www.ebi.ac.uk/tools/msa/clustalw2/>. DROEGE, M. a HILL, B. The Genome Sequencer FLX Systém-Longer reads, more applications, straight forward bioinformatics and more complete data sets. 2008, vol. 136, s. 3-10. DOI: 10.1016/j.jbiotec.2008.03.021. GRAHAM, Colin A. a HILL, Alison J. DNA sequencing protocols. 2nd ed. Totowa, NJ: Humana Press, 2001, 244 s. Methods in molecular biology (Clifton, N.J.), v. 167. ISBN 08-960-3716-9. 38

ILLUMINA [online]. 2011 [cit. 2012-04-21]. Dostupné z: <http://www.illumina.com>. ILLUMINA [online]. 2012 [cit. 2012-04-24]. Dostupné z: <http://www.biogen.cz/illumina>. MARDIS, Elaine R. The impact of next-generation sequencing technology on genetics. Trends in Genetics. 2008, vol. 24, no. 3, s. 133-141. ISSN 01689525. DOI: 10.1016/j.tig.2007.12.007. MAXAM, A.M. a GILBERT, W. A new method for sequencing DNA. 1997, no. 2, vol. 74, s. 560-564. NYREN, P a A LUNDIN. Enzymatic method for continuous monitoring of inorganic pyrophosphate synthesis. Analytical Biochemistry. 1985, vol. 151, no. 2, s. 504-509. DOI: 10.1016/0003-2697(85)90211-8. POMRANING, K.R. - SMITH K.M a FREITAG M. Genome-wide high throughput analysis of DNA methylation in eukaryotes. Methods. 2009, vol. 47, no. 3, s. 142-150. DOI: 10.1016/j.ymeth.2008.09.022. POSPÍŠILOVÁ, Š. - TICHÝ, B. a MAYER, J. Sekvenování lidského genomu - technologie nové generace aneb budeme rutinně sekvenovat lidské genomy?. Časopis lékařů českých, Praha, 2009. vol. 148, no. 7, 296-302 s. ISSN 1803-6597. ŘEHOUT, V. - ČÍTEK J. a SÁKOVÁ L. Genetika I.: (úvod do studia genetiky). 1. vyd. České Budějovice: Jihočeská univerzita, Zemědělská fakulta, 2000, 256 s. ISBN 80-704-0405-1. SANGER, F. - NICKLEN S. a COULSON. DNA sequencing with chain-terminating inhibitors. DNA sequencing with chain-terminating inhibitors. 1977, vol. 74, no. 12, 5463-5467. SNUSTAD, D. Peter a SIMMONS, Michael J. Genetika. 5th ed. Brno: Masarykova univerzita, 2009, 871 s. ISBN 978-80-210-4852-2. 39

STORCHOVÁ, Z. Homo sapiens sapiens: přečteno!. Vesmír: přírodovědecký časopis. roč. 2000, č. 79, 427-429. ISSN 1214-4029. ŠMARDA, Jan - DOŠKAŘ, Jiří - PANTŮČEK, Roman - RŮŢIČKOVÁ, Vladislava - KOPTÍKOVÁ, Jana.Metody molekulární biologie.brno: Masarykova univerzita, 2005, 188 s. ISBN 80-210-3841-1. TUCKER, T. MARRA M. a FRIEDMAN J.M. Massively Parallel Sequencing: The Next Big Thing in Genetic Medicine. The American Journal of Human Genetics. 2009, vol. 85, no. 2, s. 142-154. DOI: 10.1016/j.ajhg.2009.06.022. Dostupné z: <www.ncbi.nlm.nih.gov/pmc/articles/pmc2725244/>. ŢÁK, P. Nové moţnosti v sekvenování-sekvenátor GS-FLX. Labor Aktuell, 2009, no. 9, [cit. 2012-04-21] s 27-31. Dostupné z: <www.roche-diagnostics.cz/download/la/0309/sekvenator.pdf>. 40

8 SEZNAM OBRÁZKŮ Obr. 1 Schéma sekvenace Maxam-Gilbertovou metodou Obr. 2 Schéma sekvenace Sangerovou metodou Obr. 3 Sekvenační reakce při pyrosekvenování pomocí přístroje Genome Sequencer Systém FLX Obr. 4 Příprava DNA knihovny. Na fragmentu DNA (A) dochází k napojení adeninu (B) a za pomoci adaptérů (C) dochází k výběru fragmentu (D) Obr. 5 Přichycení a ohnutí fragmentu do mostu Obr. 6 Průběh zachycení celé sekvence Obr. 7 Sekvenování pomocí metody SOLiD Obr. 8 Průběh přípravy základního fragmentu knihovny Obr. 9 Znázornění vzniku fragmentu DNA s vnitřním adatorem Obr. 10 Stavba základních úseků fragmentové a párové knihovny Obr. 11 Schéma čtení sekvence Obr. 12 Znázornění dvoubarevného dekódování Obr. 13 Surová data Obr. 14 Smíšené báze vzorku V71 Obr. 15 Grafická forma sekvence Obr. 16 Grafická forma sekvence z programu Sequence scanner Obr. 17 Porovnání sekvencí v grafické formě a zvýraznění rozdílu v sekvencích 41

Obr. 18 Sekvence ve fasta formátu Obr. 19 Srovnání reverzního komplementu fragmentu DNA a DNA fragmentu sekvenovaného přímým primerem Obr. 20 Příklad srovnání sekvencí s přímým a zpětným primerem u vzorku V71 pomocí programu ClustalW2 a následné sloţení kompletní sekvence PCR produktu Obr. 21 Porovnání 3 kompletních sekvencí PCR produktu genu MYF6 42

9 SEZNAM ZKRATEK ATP adenosintrifosfát CCD senzor elektronická součástka pouţívaná pro snímání obrazové informace (z anglického Charge-Coupled Device) ddntp - 2, 3 - dideoxyribonukleosidtrifosfát DNA dideoxyribonukleová kyselina dntp deoxyribonukleosidtrifosfátu empcr emulzní polymerázová řetězová reakce IHGSC - International Human Genome Sequencing Consortium PCR polymerázová řetězová reakce (z anglického Polymerase Chain Reaction) PTP - pikotitrační destička RNA ribonukleová kyselina SOLiD sekvenace pomocí ligace a detekce oligonukleotidů (z anglického Sequencing by Oligonucleotide Ligation and Detection) 43

10 PŘÍLOHY Příloha 1 Příloha 2 Textová forma sekvence z programu Sequencing Analysis v5.1 Software Textová forma sekvence z programu Sequence scanner Příloha 3 Porovnání sekvencí s referenčním vzorkem v programu SeqScape v2.1

Příloha 1 Textová forma sekvence z programu Sequencing Analysis v5.1 Software Příloha 2 Textová forma sekvence z programu Sequence scanner v1.0 I

Příloha 3 Porovnání sekvencí s referenčním vzorkem v programu SeqScape v2.1 II