Sekvence. Genom. Základní informace. Výstupy z výukové jednotky

Podobné dokumenty
Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

2. Z následujících tvrzení, týkajících se prokaryotické buňky, vyberte správné:

Vyhledávání podobných sekvencí BLAST

Genetika zvířat - MENDELU

1. Téma : Genetika shrnutí Název DUMu : VY_32_INOVACE_29_SPSOA_BIO_1_CHAM 2. Vypracovala : Hana Chamulová 3. Vytvořeno v projektu EU peníze středním

Exprese genetického kódu Centrální dogma molekulární biologie DNA RNA proteinu transkripce DNA mrna translace proteosyntéza

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy

Molekulárn. rní. biologie Struktura DNA a RNA

Exprese genetické informace

Struktura a funkce nukleových kyselin

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Inovace studia molekulární a buněčné biologie

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Využití metagenomiky při hodnocení sanace chlorovaných ethylenů in situ Výsledky pilotních testů

Sekvenování příští generace (Next Generation Sequencing, NGS)

Typy nukleových kyselin. deoxyribonukleová (DNA); ribonukleová (RNA).

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

DNA TECHNIKY IDENTIFIKACE ŽIVOČIŠNÝCH DRUHŮ V KRMIVU A POTRAVINÁCH. Michaela Nesvadbová

NUKLEOVÉ KYSELINY. Základ života

Centrum aplikované genomiky, Ústav dědičných metabolických poruch, 1.LFUK

Exprese genetické informace

TEST: GENETIKA, MOLEKULÁRNÍ BIOLOGIE

Centrální dogma molekulární biologie

Predikce genů a anotace sekvence DNA

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Molekulární základy genetiky

Využití DNA markerů ve studiu fylogeneze rostlin

Sekvenování nové generace. Radka Reifová

Molekulárně biologické metody princip, popis, výstupy

19.b - Metabolismus nukleových kyselin a proteosyntéza

REPLIKACE A REPARACE DNA

EKO/MEM - Molekulární ekologie mikroorganizmů Klonování a sekvenování přírodní DNA základ pro fylogenetickou analýzu společenstva

NUKLEOVÉ KYSELINY. Složení nukleových kyselin. Typy nukleových kyselin:

Inovace studia molekulární a buněčné biologie

Výzkumné centrum genomiky a proteomiky. Ústav experimentální medicíny AV ČR, v.v.i.

a) Primární struktura NK NUKLEOTIDY Monomerem NK jsou nukleotidy

Nukleové kyseliny Replikace Transkripce translace

Základy molekulární biologie KBC/MBIOZ

MOLEKULÁRNÍ BIOLOGIE. 2. Polymerázová řetězová reakce (PCR)

Nukleové kyseliny. DeoxyriboNucleic li Acid

Sekvenování nové generace. Radka Reifová

Nukleové kyseliny Replikace Transkripce, RNA processing Translace

Implementace laboratorní medicíny do systému vzdělávání na Univerzitě Palackého v Olomouci. reg. č.: CZ.1.07/2.2.00/

Základy molekulární a buněčné biologie. Přípravný kurz Komb.forma studia oboru Všeobecná sestra

Mgr. et Mgr. Lenka Falková. Laboratoř agrogenomiky. Ústav morfologie, fyziologie a genetiky zvířat Mendelova univerzita

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

6. Nukleové kyseliny

5. Sekvenování, přečtení genetické informace, éra genomiky.

Molekulární základ dědičnosti

Klonování DNA a fyzikální mapování genomu

V. letní škola metod molekulární biologie nukleových kyselin a genomiky Ústav morfologie, fyziologie a genetiky zvířat AF MENDELU

Biotechnologický kurz. II. letní škola metod molekulární biologie nukleových kyselin a genomiky

Molekulární genetika

Genetický polymorfismus jako nástroj identifikace osob v kriminalistické a soudnělékařské. doc. RNDr. Ivan Mazura, CSc.

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Inovace studia molekulární a buněčné biologie

Bakteriální transpozony

Nukleosidy, nukleotidy, nukleové kyseliny, genetická informace

Základní pojmy obecné genetiky, kvalitativní a kvantitativní znaky, vztahy mezi geny

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Biotechnologický kurz. III. letní škola metod molekulární biologie nukleových kyselin a genomiky

Biologie buňky. systém schopný udržovat se a rozmnožovat

GENETIKA dědičností heredita proměnlivostí variabilitu Dědičnost - heredita podobnými znaky genetickou informací Proměnlivost - variabilita

Referenční lidský genom. Rozdíly v genomové DNA v lidské populaci. Odchylky od referenčního genomu. Referenční lidský genom.

Základy molekulární biologie KBC/MBIOZ

Inovace studia molekulární a buněčné biologie

PŘÍLOHA č. 1 SEZNAM ZKRATEK A MYSLIVECKÝCH A GENETICKÝCH POJMŮ

Translace (druhý krok genové exprese)

NGS analýza dat. kroužek, Alena Musilová

Těsně před infarktem. Jak předpovědět infarkt pomocí informatických metod. Jan Kalina, Marie Tomečková

Úvod do studia biologie. Základy molekulární genetiky

Analýza DNA. Co zjišťujeme u DNA DNA. PCR polymerase chain reaction. Princip PCR PRINCIP METODY PCR

Molecular Ecology J. Bryja, M. Macholán MU, P. Munclinger - UK

Nukleové kyseliny příručka pro učitele. Obecné informace:

ANOTACE vytvořených/inovovaných materiálů

Biologie - Oktáva, 4. ročník (humanitní větev)

PŘEHLED SEKVENAČNÍCH METOD

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti. Translace, techniky práce s DNA

Molekulární metody ve studiích kořenových systémů. Jiří Košnar, 2016

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti. Vztah struktury a funkce nukleových kyselin. Replikace, transkripce

7. Regulace genové exprese, diferenciace buněk a epigenetika

Tomáš Oberhuber. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Základy molekulární biologie KBC/MBIOZ

Metody studia historie populací. Metody studia historie populací

Biotechnologický kurz. II. letní škola metod molekulární biologie nukleových kyselin a genomiky

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti NUKLEOVÉ KYSELINY

Gymnázium, Brno, Elgartova 3

Seminář izolačních technologií

1. Definice a historie oboru molekulární medicína. 3. Základní laboratorní techniky v molekulární medicíně

Mikrosatelity (STR, SSR, VNTR)

Inovace studia molekulární a buněčné biologie

APLIKACE METAGENOMIKY PRO HODNOCENÍ PRŮBĚHU SANAČNÍHO ZÁSAHU NA LOKALITÁCH KONTAMINOVANÝCH CHLOROVANÝMI ETHYLÉNY

Biologie - Oktáva, 4. ročník (přírodovědná větev)

Genetická diverzita masného skotu v ČR

Obecná biologie a genetika B53 volitelný předmět pro 4. ročník

RIGORÓZNÍ OTÁZKY - BIOLOGIE ČLOVĚKA

Využití molekulárních markerů v systematice a populační biologii rostlin. 10. Další metody

Genetický polymorfismus

Co se o sobě dovídáme z naší genetické informace

Transkript:

Sekvence Základní informace Následující text je součástí učebních textů předmětu Analýza sekvencí DNA a je určen hlavně pro studenty Matematické biologie. Může být ovšem přínosný i pro další studenty biologických oborů - zejména molekulární biologie, genetiky, botaniky a zoologie. U studentů se předpokládá základní znalost molekulární biologie a genetiky. Výstupy z výukové jednotky Studenti: *vysvětlí pojem hypotéza *popíší strukturu genomů prokaryotických a eukaryotických organismů a složení a strukturu DNA *porovnají metody Sangerova a celogenomového sekvenování *identifikují genomové sekvence v databázích Ensembl a GenBank *sestaví sekvenci DNA z grafických výstupů Sangerova sekvenování *posoudí kvalitu získané sekvence ve vztahu k vyhledávání mutací *pefinují terminologii sestavování sekvencí DNA *vyhledají sekvence DNA požadovaných vlastností v databázích GenBank a EMBLbank *zkontrolují vlastnosti genů ve veřejných databázích Genom Pro předmět Analýza sekvencí DNA jsou důležité základní znalosti molekulární biologie a genetiky. Ty, bez kterých pochopení látky předmětu není realistické, jsou předmětem úvodní kapitoly. Genom se nachází v buňce a to buď v jádru nebo v cytoplasmě. Tvoří jej dvouřetězcová deoxyribonukleová kyselina (DNA), ve které je genetická informace zapsána v pořadí čtyř základních nukleotidů. Nukleotid se skládá z cukru deoxyribózy, fostátové skupiny a nukleotidových bází adeninu (A), cytozinu (C), tyminu (T) a guaninu (G). Zde se budou nukleotidové báze nazývat abeceda x s prvky A, C, T a G. Jelikož je DNA dvouřetězcová, řetězce nukleotidů jsou spojeny vzájemně komplementárními nukleotidovými bázemi (A-T se spojují dvěma vodíkovými vazbami a C-G třemi) a řetězce se nazývají dopřední a reversní (F a R z anglického forward a reverse). Genetická informace na R řetězci se bude číst z druhé strany (reversně) a bude obsahovat komplementární báze k F řetězci. Jednotka délky DNA na úrovni její sekvence, se kterými budeme pracovat, je bázový pár (bp). DNA je organizována do chromozomů, co mohou být lineární, komplexní struktury (chromozomy eukaryot) anebo kruhové molekuly (bakteriální chromozom, mitochondriální DNA).

Výjimka: Genom virů může představovat jak dvouřetězcová DNA, tak i jednořetězcová RNA, ale známé jsou i viry s jednořetězcovou DNA a dvouřetězcovou RNA. Jejich genom může být rozdělený na více částí zvaných segmenty. Genetická informace se dědí do další generace buněk tak, že se zkopíruje během dělení buněk v procesu zvaném replikace. Při replikaci DNA polymeráza za pomocí dalších proteinů klouže podél jednoho z rozpletených řetězců DNA a postupně přidává nukleotidy, které jsou komplementární k existujícímu řetězci DNA. Použití genetické informace v buňce zabezpečují procesy transkripce a translace. Při transkripci se gen na jednom z řetězců DNA přepíše do molekuly RNA. RNA obsahuje místo tyminu uracil (U) a má regulační (mirna, sirna), strukturní (rrna), transportní (trna) nebo kódující funkci (mrna). Mediátorová RNA (mrna), které kóduje proteiny, se následně překládá do sekvence aminokyselin při translaci. Aminokyseliny se přiřaďují na základě genetického kódu, kde každá aminokyselina koresponduje s trojicí nukleotidových bází, s kodonem. Genetický kód je známý v několika verzích, specifických pro některé skupiny organizmů anebo cytoplazmatické genomy. Sekvenování genomu První lidský genom byl osekvenován mezi lety 1990-2006, přičemž první verze byla zveřejněna v roce 2000, první kompletní verze v roce 2003 a poslední kompletní verze v roce 2006. Důvodem je, že v ranních fázích sekvenování lidského genomu se používalo Sangerovo sekvenování, které umožňuje přečíst <1000 bp v jedné reakci. V dnešní době je díky technologickému pokroku možné získat první, hrubou verzi genomické sekvence za dva týdny laboratorní práce a několik měsíců bioinformatické. Umožňuje to masivní paralelizace sekvenování. Zpracování dat z celogenomového sekvenování (genome assembly) je nad rámec tohoto předmětu a tak si k němu probereme základní pravidla, ale ne konkrétní postup. Zpracujeme data ze Sangerova sekvenování, které je dodnes intenzivně využívané při studiu konkrétních genů. Jednotlivé osekvenované úseky DNA se nazývají čtení (read). Kvalitně osekvenovaný úsek bude takový, který bude přečtený opakovaně. Opakovaným čtením stejného úseku DNA se říká pokrytí (coverage) a absolutní minimum je dvojnásobné pokrytí (2x) akceptovatelné u Sangerova sekvenování. U celogenomového sekvenování by se pokrytí mělo pohybovat od desítek po tisíce čtení v závislosti na použití. 1. De-novo sekvenování genomu organizmus ještě nemá osekvenovaný genom, celý se sestavuje od začátku, pokrytí alespoň 20-100x. 2. Opakované sekvenování (resequencing) sekvenování dalších jedinců druhu, který již má známou sekvenci genomu, pokrytí 10-50x. 3. Sekvenování krátkých úseků (amplicon sequencing, mutation detection) sekvenování PCR produktů genu, pro který nás zajímá frekvence mutací v populaci, pokrytí i nad 1000x, pokud je ve vzorku smíchána DNA z několika jedinců.

Polymerázová řetězcová reakce Téměř všechny metody sekvenování jsou založeny na namnožení DNA polymerázovou řetězovou reakcí (polymerase chain reaction, PCR). Při ní se na krátkém úseku genomu napodobuje proces DNA replikace. 1. Řetězce DNA se od sebe oddělí působením vysoké teploty. 2. Na řetězce nasednou krátké oligonukleotidy, primery, které jsou reverzně komplementární k danému řetězci. 3. DNA polymeráza od 3 konce primeru doplňuje nukleotidy po určitý čas anebo do konce templátového řetězce. Tyto kroky se cyklicky opakují tak, že exponenciálně roste počet kopií úseku DNA mezi zvolenýma primerama. U běžné PCR je specificita produktu daná specificitou použitých primerů. Pokud nasedají v genomu jenom na jedno místo, výsledkem bude vysoce koncentrovaná DNA namnoženého úseku. Celogenomové sekvenování ale vyžaduje efektivnější přístup, který by nebyl závislý na znalosti sekvence templátové DNA. Proto se genomická DNA v přípravně fázi naláme na kratší úseky, ke kterým se naligují speciální sekvence, adaptory, sloužící jako jakési kotvy a primery zároveň. Od těch bude začínat PCR. Ale zároveň připojená sekvence umožní úsek DNA zachytit k nosiči, který bude úsek izolovat. Používají se k tomu dvě hlavní metody. Emulzní PCR a amplifikace na mostech. Emulzní PCR Řetězce úseků DNA s adaptory se napojí na kuličky, na kterých je reverzně komplementární adaptor, v takové koncentraci, aby se na každou kuličku přichytila jedna molekula DNA. Z těch se našlehá emulze z vodního roztoku a oleje, kde by v každé vodní kapičce měla být jedna kulička s jednou molekulou DNA. PCR reakce takové emulze by měly namnožit klony úseků DNA na každou kuličku. Amplifikace na mostech Podobně jako emulzní PCR se i amplifikace na mostech snaží namnožit odizolované, unikátní úseky DNA. Dosáhne toho tak, že přichytí řetězce úseků DNA s adaptory na sklíčko, na kterém jsou adaptory kompatibilní s těmi na úsecích DNA. Každý konec úseku DNA se napojí na adaptor na sklíčku, který je k němu komplementární a vytvoří most. Při amplifikaci se dosyntetizuje komplementární řetězec a proces se opakuje, až se vytvoří ostrovy kopií konkrétních úseků DNA. Celogenomové sekvenování Všechny platformy pro celogenomové sekvenování produkují velké množství sekvencí, řádově do stovek gigabází (Gb = 1 miliarda bp). Lidský genom má např. velikost 3,2 Gb a tedy teoreticky by se měl dát osekvenovat celý v jednom běhu. Bohužel všechny platformy masivně paralelního sekvenování sekvenují některé úseky genomu přednostně a navíc v příliš krátkých úsecích na to, aby se z nich dal přímo sestavit celý genom.

Pyrosekvenování Emulzní PCR vytvoří mnoho kopií jednoho úseku DNA na jednotlivých magnetických zrníčkách. Ty se nalijí na destičku s póry, které pojmou právě jedno zrníčko. Destička se zalije zrníčky s enzymy sulfurylázou a luciferázou. Destička se promývá sérií roztoků, které postupně syntetizuje komplementární řetězec DNA. Při komplementaritě nukleotidů se tyto přiřadí k rostoucímu řetězci DNA a uvolní se fosfát. Ten reaguje s enzymy sulfurylázou a luciferázou tak, že vytvoří záblesk světla. Místo na destičce rozsvítí. Pyrosekvenování (Roche, 454) má výhodu v schopnosti číst relativně dlouhé úseky DNA (cca. 400 bp). Je v současnosti na ústupu a nahrazuje jej sekvenování jednotlivých molekul DNA. Sekvenování pomocí syntézy Úsek DNA se amplifikuje na mostech na destičce. Čtení sekvence probíhá jenom na jednom z řetězců DNA tak, že se syntetizuje komplementární řetězec z modifikovaných nukleotidů. Ty umožňují připojení jenom jednoho nukleotidu v každém cyklu. Zachyceným signálem je fluorescence z připojeného nukleotidu. Před dalším cyklem je fluorescenční barva chemicky odstraněna. Sekvenování pomocí syntézy (Illumina) generuje největší množství dat a často se používá. Iontové polovodičové sekvenování Při navázaní komplementárního nukleotidu v PCR v mikronádržích se uvolňuje pyrofosfát (využívá i pyrosekvenování) a vodík H+. Mikronádrže jsou promývané jednotlivými deoxynukleotidy v konkrétním pořadí. Chemický roztok v mikronádrži má po uvolnění H+ do roztoku změněné ph, které se detekuje. Iontové polovodičové sekvenování (Ion Torrent) je levné, ale poskytuje relativně nízký počet přečtených bází. Navíc při sekvenování homopolymerů (opakování stejného nukleotidu) dochází k nepřesnostem. Sekvenování jedné molekuly DNA Detekce jedné molekuly DNA bez předchozí amplifikace PCR vyžaduje mimořádně citlivý detekční mechanizmus. Ten poskytuje vlnovod nultého módu (zero-mode waveguide, ZMW), který má tak malý průměr, že do jeho hloubky proniká jenom světlo se snižující se vlnovou délkou. Na dně komůrky vlnovodu je připevněna DNA polymeráza, přes kterou prochází řetězec DNA při syntéze. Doplňují se fluorescenčně značené nukleotidy, které se detekují. Sekvenování jedné molekuly DNA v reálném čase (single molecule real time sequencing, SMRT, Pacific Biosciences) je vysoce perspektivní pro sekvenování celých genomů, protože umožňuje čtení molekul delších než 10 kb. Bohužel je zatím značně chybové.

Sangerovo sekvenování Sangerovo sekvenování umožňuje v každé reakci přečíst jenom jeden namnožený úsek DNA bez masivní paralelizace. Sekvenační PCR probíhá za přítomnosti jednoho sekvenačního primeru a směsi deoxyribonukleotidů a fluorescenčně značených dideoxyribonukleotidů. Pokud se do syntetizovaného řetězce přiřadí dideoxyribonukleotid, PCR se zastaví. Výsledkem je směs různě dlouhých PCR produktů, které mají na konci fluorescenčně značený poslední připojený nukleotid. Tato směs se rozdělí podle délky pomocí kapilárové elektroforézy a laserem se přečte fluorescenční signál (obr. Kontig.1). Sestavení sekvence Sestavení celého genomu (genome assembly) anebo jednotlivé sekvence (kontig z anglického contig) vzniká z postupných kroků podle úrovně aktuálních znalostí. Nejdřív se pro jednotlivá čtení určí jejich směr (F nebo R) a seřadí se tak, aby jejich sekvence maximálně vzájemně odpovídala. Takto sestavená sekvence je kontig. Po případných ručních opravách kontigu se sestaví sekvence z nejčastěji se vyskytujících nukleotidových bází v jednotlivých pozicích konsenzuální sekvence. Pokud z kontigů potřebujeme sestavit celý genom, v dalším kroku se analyzuje, v jakém pořadí kontigy za sebou následují. Toto je v genomech komplikované kvůli výskytu repetitivních sekvencí a tak se laboratorními metodami zjišťuje, jak daleko od sebe se kontigy vyskytují a ke kterému řetězci patří. Sekvence, kde známe pořadí nukleotidů v některých úsecích a víme, jak daleko od sebe osekvenované úsek jsou, ale už ne jaká je mezi nimi sekvence, se jmenují superkontigy (anglicky také scaffold). Kontig se sestavuje vždy ze čtení z jednoho jedince. Jeho výsledkem má být reálně existující sekvence DNA. Porovnání sekvencí více jedinců je alignment (odkaz na kapitolu Alignment). Pro sestavení sekvence ze Sangerova sekvenování platí, že přímý výstup ze sekvenátoru jsou obrázky, které zachycují změnu intenzity světelného signálu a jmenují se chromatogramy. V závislosti na úspěšnosti sekvenační reakce můžou být chromatogramy různě čitelné a zpracovávat by se měly jenom ty s kvalitním signálem (obr. Kontig.1), aby se do konsenzuální sekvence nevkládaly chyby v sekvenování, které by následně mohly být vyhodnoceny jako mutace (obr. Kontig.2). Postup sestavování kontigu Sestavení kontigu (obr. Kontig.3) je v komerčních programech (CodonCode Aligner, Geneious, Sequencher) často automatizované, ale je dobré uvědomit si jednotlivé kroky pro případné řešení komplikací. 1. Vyvolat analýzu kvality signálu v obrazovém souboru sekvence (některé soubory již tuto informaci obsahují. Skóre kvality QS > 20 je dostatečně dobré) base calling. 2. Určit, která část sekvenovaných úseků má příliš nízkou kvalitu a vymazat ji a. Některá čtení můžou selhat (obr. Kontig.1). b. Konce úseků čtení mají nízkou kvalitu trim ends.

c. Pokud byl v laboratoři použitý k amplifikaci bakteriální vektor (klonování), je nutné jej vymazat vector editing. 3. Určit, které sekvence by měli být zpracované jako reverzně komplementární. 4. Zarovnat čtení tak, aby se maximálně shodovaly osekvenované nukleotidové báze. Detekce mutací v kontigu Rozdíly v přečtených bázích na chromatogramech jednotlivých čteních můžou představovat chyby v sekvenování (obr. Kontig.2) anebo výskyt polymorfismu na dané pozici (obr. Kontig.4). Upozornění: Kontig je sestavení čtení sekvence z jednoho jedince. K rozlišení těchto dvou možností přispívá znalost očekávaného počtu kopií sekvenovaného lokusu v genomu. Např. mitochondriální DNA se dědí klonálně po mateřské linii a tedy každý mitochondriální gen by se měl vyskytovat v jedné kopii. Polymorfizmus je u takových genů vzácný. Naopak jaderný gen u diploidního jedince bude v genomu ve dvou kopiích po jedné od každého z rodičů. Pokud je sekvenovaný jedinec heterozygot, projeví se jako dvě alternativy genu. Reálný polymorfismus na jedné pozici je na chromatogramu patrný jako zdvojený vrchol (peak), který má zhruba poloviční výšku než sousedící vrcholy (obr. Kontig.4). Sekvence konkrétní alely genu ale nemusí být ze Sangerova sekvenování PCR produktů zjistitelná. Templátová DNA totiž obsahuje kopie všech úseků, na které při amplifikaci nasedaly primery, ale příslušnost k alele není zjistitelná. Laboratorně je možné alely odhalit klonováním (PCR produkt se včlení do plazmidu a ten se namnoží v bakteriální kultuře a následně osekvenuje). Anebo se haplotypy vypočítají ze sekvence, která obsahuje identifikovaná místa polymorfizmů. Takový výpočet je přesnější, pokud je k dispozici populační vzorek sekvencí více jedinců. Výsledná konsenzuální sekvence se exportuje do textového formátu, kde je zachována jenom informace o pořadí nukleotidových bází. Genetické databáze Genetická informace je uchovávána ve třech lokálních verzích databází: GenBanka v Severní Americe na adrese http://www.ncbi.nlm.nih.gov, EMBLbanka (neboli European Nucleotide Archive, ENA) v Evropě na adrese http://www.ebi.ac.uk a DDBJ (DNA Data Bank of Japan) v Asii na adrese http://www.ddbj.nig.ac.jp. Jejich spolupráci zastřešuje International Nucleotide Sequence Database Collaboration (INSDC, http://www.insdc.org). Všechny údaje v genetických databázích jsou veřejně dostupné a denně aktualizované mezi databázemi. Primární údaje do databází vkládají uživatelé, kteří jsou zároveň odpovědní za jejich správnost. Tyto údaje jsou nejčastěji ve formě DNA sekvencí, které obsahují základní informace o původu sekvence a jejím obsahu. Z vložené sekvence (odkaz na kapitolu Anotace) se dál údaje používají k propojení na související databáze, např. na proteinovou databázi, taxonomickou databázi nebo databázi referenčních sekvencí. Propojení zabezpečí správa databází, uživatel vkládá sekvenci.

Vyhledávání v databázích Vyhledávání dostupných genetických informací probíhá formou vyhledávání textu doplňujících informací k sekvenci (organizmus, gen, autor sekvence, publikace, přístupové číslo sekvence, a pod., obr. db.1) anebo pomocí hledání podobnosti na úrovni samotné sekvence (odkaz na kapitolu Blast). Organizmus uživatel zadává jednak ve formě druhového jména a jednak uvádí i kompletní linii (lineage) všech taxonomických úrovní, do kterých je druh kategorizován. I prohledávání je tak možné omezit na konkrétní taxonomickou skupinu. Gen, neboli název lokusu, uvádí uživatelé často jako jedno z možných synonym, ale je nutné počítat i s překlepy a chybami. Synonyma názvů genů a jejich produktů přehledně uvádí databáze Gene Ontology (www.geneontology.org) a při vyhledávání sekvencí je užitečné zadat alternativní názvy genu nebo produktu. U proteinkódujících genů název genu představuje sekvenci DNA a v textu by měl být psaný kurzívou; produkt tohoto genu je protein, který kóduje. Jelikož jsou všechny tři světové verze genetických databází propojeny, je volbou uživatele, ze které k nim bude přistupovat. Liší se uživatelským rozhraním a organizací výsledků vyhledávání. Např. GenBanka při vyhledávání zobrazí počet záznamů, které odpovídají zadanému dotazu v každé z dostupných databází (obr. db.1) a ENA přednostně zobrazí nukleotidové sekvence, kam přiřadí i sekvence oligonukleotidů, které byly laboratorně syntetizovány (obr. db.2). Přístupové číslo sekvence Každá sekvence má dvě vlastní, jednoznačné čísla, která k ní odkazují. Jedná se o GI číslo (z anglického GenInfo Identifier) a přístupové číslo sekvence (Accession Number). GI čísla jsou pořadová čísla sekvencí, která jsou přiřazována od zavedení genetických databází. Používaly se na sledování aktualizací sekvencí. Pokud byl záznam aktualizován, dostal nové GI číslo. Mezi třemi databázemi na jednotlivých kontinentech nebyly GI čísla ujednoceny a někdy každá databáze přiřadila sekvenci vlastní číslo. Přístupová čísla naopak jsou sjednocená globálně. U sekvence DNA má přístupové číslo ve formátu dvě písmena, šest číslic, tečka, číslo (např. AB012345.1). Starší přístupová čísla jsou složena z jednoho písmena a pěti číslic. Číslo za tečkou představuje aktuální verzi dané sekvence. Pokud je to databáze vložena sekvence DNA, dostane nové GI číslo a nové přístupové číslo s verzí 1. Pokud je tato sekvence aktualizována, dostane nové GI číslo a zvýší se jí číslo verze u stávajícího přístupového čísla. Další formáty přístupových čísel charakterizují typ dat, na která odkazují. Např. formát dvou písmen, podtržítka a šesti čísel jsou referenční sekvence (databáze RefSeq). Referenční sekvence jsou vybrané sekvence genomů, proteinů a transkribovaných RNA, které představují aktuálně nejspolehlivější neredundantní záznamy. Jsou to vybrané kopie záznamů.

Sekvence v GenBance Každá sekvence obsahuje povinné informace, které umožňují její zařazení a zpracování. Kompletní údaje jsou viditelné při zobrazení v GenBank formátu. Popis sekvence (definition) obsahuje jméno organismu, název genu a specifikaci jedince. Zdroj (source) v jaké části genomu se sekvence vyskytuje (jaderná, mitochondriální, plasmid) u daného organismu. Organismus (organism) latinské, binomické jméno a jeho taxonomická linie. Autoři sekvence (authors) Publikace (title, journal) název odborné publikace a časopis s paginací, kde se sekvence poprvé použila anebo název nepublikovaného projektu, v rámci kterého byla sekvence přečtena. Vlastnosti (features) obsahují anotaci obsahu sekvence. o Detailní informace, které identifikují zdroj (source): organismus, organela, typ molekuly, číslo jedince, poddruh nebo forma. o Lokalizace a název pojmenovaných částí sekvence: kódující sekvence (CDS), gen (gene), jiný pojmenovaných úsek (např. doména, repetice). Sekvence (origin) pořadí nukleotidových bází na jednom řetězci DNA nebo na RNA. Anotovaná protein-kódující sekvence uvádí i informaci o translační tabulce a otevřeném čtecím rámci, ve kterém se sekvence DNA překládá do sekvence aminokyselin. Přeložený protein je uvedený přímo u sekvence dané kódující oblasti, ale je k němu i přiřazen odkaz na odpovídající záznam v proteinové databázi. Upozornění: Gen je pojmenovaný úsek sekvence DNA, který má pro buňku určitou funkci, ale může se vyskytovat ve více kopiích. Lokus je sekvence DNA s konkrétní lokalizací v genomu. Může to být gen, ale i jiný úsek, o kterém je známo, kde se nachází i když ne jeho funkce. Např. krátké tandemové repetice (mikrosatelitní markery) většinou nemají známou funkci, ale využívají se pro populační studie nebo určování otcovství. Nukleotidová databáze (Nucleotide) je jenom jednou z mnoha genetických databází v GenBance. Další obsahují navazující údaje (publikace PubMed, aminokyselinové sekvence Protein), údaje získané z jiných typů dat (genotypování polymorfismů SNP, informace k testům geneticky podmíněných nemocí GTR, krátké exprimované sekvence RNA EST) nebo souhrnné informace (souhrn dat o genu z genetických databází Gene, známé informace o genech u člověka OMIM). Genomické sekvence představují celou známou informaci o konkrétním genomu, která může mít délku řádově od 10 5 bp u virů, plasmidů nebo cytoplasmatických genomů po 10 9 u dlouhých chromosomů. V GenBance jsou genomické sekvence dostupné přes několik databází v závislosti na charakteru dat a jejich zpracování. Kompletně sestavena sekvence genomu je uvedena v databázi Genome, postupně zpracovávaná sekvence z kontigů nebo superkontigů bývá v databázi Assembly. Údaje o genomických sekvencích bývají publikovány rychle, i bez důsledného bioinformatického zpracování a takové projekty je možné dohledat přes BioProject a BioSample databáze. Přímo nezpracovaná data jsou pak ve WGS nebo Trace Archive databázích.

Robustní možnosti prohlížení genomických sekvencí poskytuje prohlížeč Ensembl (http://www.ensembl.org). Výchozí stránka uvádí genomy modelových obratlovců, ale poskytuje i odkaz na Ensembl prohlížeč pro genomy dalších taxonomických skupin. Ensembl prohlížeč klade důraz na dodatečné informace o genomické sekvenci, jako jsou např. pokrytí daného úseku, nebo důkazy o transkripci exonů a alternativním slicingu. Silnou stránkou prohlížeče Ensembl je možnost základních komparativních studií přímo v prohlížeči, kde se zobrazí ortology daného genomického úseku u jiných organismů i paralogy kopie genů v genomu, případně genové rodiny. Stahování sekvencí Hromadné stahování sekvencí je možné z celé řady programů, které dokážou komunikovat s GenBankou (Geneious, BioEdit, R, Genome Workbench). Liší se mírou uživatelské přívětivosti a možnostmi přímo GenBanku zevnitř programu i prohledávat. Webové rozhraní s vyhledanými sekvencemi rovněž umožňuje stáhnout vybrané anebo všechny sekvence, které odpovídají zadanému dotazu (obr. db.3). Pro další práci se sekvencemi je výhodné stáhnout je ve formátu fasta. Stažená sekvence tak bude obsahovat jenom popis sekvence s přístupovým číslem a samotnou sekvenci: >GI databáze přístupové číslo rod druh, gen ACTGACTGACTG Na prvním řádku fasta formátu je znaménko > a název sekvence. Stáhnutá sekvence obsahuje v názvu speciální znaky (,. -:;), které je vhodné pro další zpracování nahradit podtržítkem a celý název zkrátit. Na druhém řádku (a případně dalších, až do nejbližšího znaménka >) je samotná sekvence DNA. Velké množství sekvencí je vhodné stahovat buď v noci nebo o víkendu. Případně využít možnost stáhnout si velkou část databáze přes ftp přístup. Informační zdroje pro proteiny Databáze Protein v GenBance obsahuje sekvence aminokyselin, které jsou propojeny s odpovídajícími sekvencemi DNA. Struktura záznamu je podobná informacím v databáze Nucleotide. Detailnější informace o proteinech je možné nalézt v databázi UniProtKB (http://www.uniprot.org). Tato databáze byla původně ručně revidována a představovala nejspolehlivější záznamy o proteinech. Kvalita informací je doteď na velmi vysoké úrovni, ale UniProtKB již musí používat i automatizované záznamy kvůli inflaci genetických informací v posledních letech. Záznam v databázi UniProtKB souhrnně uvádí informace o funkci proteinu včetně odkazů na původní data, organizmus, z kterého pochází, odkazy na 3D strukturu a domény, které se v daném proteinu vyskytují. Zápis o funkci proteinu uvádí strukturu, jakou má tato informace v databáze Gene Ontology. Funkce produktu genu uvedena na třech úrovních informací: 1. Biologický proces jaký biologický proces vykonává daný protein, např. transport elektronů přes membránu. 2. Součást buňky kde v buňce se protein vyskytuje, např. integrální součást buněčné membrány.

3. Molekulární funkce co konkrétní vykonává na molekulární úrovni, např. aktivita při přenosu elektronů. Gene Ontology (GO) databáze se snaží zavést řád a standardizovat terminologii názvů genů a jejich produktů. Každý známý gen zařadí do konkrétní kategorie podle funkce, přičemž funkce jsou hierarchicky organizované od obecných zařazení po specifické. Hierarchická organizace umožňuje najít geny, které se podílejí na dané aktivitě v buňce. Na rozdíl od databází pro metabolické dráhy (KEGG, MetaCyc) GO neříká, jak spolu molekuly interagujú, ale co dělají. Obsah: Sekvence... 1 Základní informace... 1 Výstupy z výukové jednotky... 1 Genom... 1 Sekvenování genomu... 2 Polymerázová řetězcová reakce... 3 Emulzní PCR... 3 Amplifikace na mostech... 3 Celogenomové sekvenování... 3 Pyrosekvenování... 4 Sekvenování pomocí syntézy... 4 Iontové polovodičové sekvenování... 4 Sekvenování jedné molekuly DNA... 4 Sangerovo sekvenování... 5 Sestavení sekvence... 5 Postup sestavování kontigu... 5 Detekce mutací v kontigu... 6 Genetické databáze... 6 Vyhledávání v databázích... 7 Přístupové číslo sekvence... 7 Sekvence v GenBance... 8 Stahování sekvencí... 9 Informační zdroje pro proteiny... 9