Predikce genů a anotace sekvence DNA

Podobné dokumenty
Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

Exprese genetické informace

Exprese genetického kódu Centrální dogma molekulární biologie DNA RNA proteinu transkripce DNA mrna translace proteosyntéza

Vyhledávání podobných sekvencí BLAST

2. Z následujících tvrzení, týkajících se prokaryotické buňky, vyberte správné:

Molekulárn. rní. biologie Struktura DNA a RNA

Genetika zvířat - MENDELU

Počítačové vyhledávání genů a funkčních oblastí na DNA

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Nukleové kyseliny Replikace Transkripce translace

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy

b) Jak se změní sekvence aminokyselin v polypeptidu, pokud dojde v pozici 23 k záměně bázového páru GC za TA (bodová mutace) a s jakými následky?

7. Regulace genové exprese, diferenciace buněk a epigenetika

Bakteriální transpozony

Základy molekulární biologie KBC/MBIOZ

Centrální dogma molekulární biologie

Struktura a funkce nukleových kyselin

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

TEST: GENETIKA, MOLEKULÁRNÍ BIOLOGIE

Využití DNA markerů ve studiu fylogeneze rostlin

1. Téma : Genetika shrnutí Název DUMu : VY_32_INOVACE_29_SPSOA_BIO_1_CHAM 2. Vypracovala : Hana Chamulová 3. Vytvořeno v projektu EU peníze středním

Základy molekulární a buněčné biologie. Přípravný kurz Komb.forma studia oboru Všeobecná sestra

Digitální učební materiál

Inovace studia molekulární a buněčné biologie

Exprese genetické informace

NUKLEOVÉ KYSELINY. Základ života

DUM č. 10 v sadě. 37. Bi-2 Cytologie, molekulární biologie a genetika

Sekvence. Genom. Základní informace. Výstupy z výukové jednotky

Syntéza a postranskripční úpravy RNA

Struktura a organizace genomů

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

19.b - Metabolismus nukleových kyselin a proteosyntéza

a) Primární struktura NK NUKLEOTIDY Monomerem NK jsou nukleotidy

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Molekulární základy genetiky

DETEKCE GENŮ V DNA SEKVENCÍCH

ve srovnání s eukaryoty (životnost v řádu hodin) u prokaryot kratší (životnost v řádu minut) na životnost / stabilitu molekuly mají vliv

Typy nukleových kyselin. deoxyribonukleová (DNA); ribonukleová (RNA).

Schéma průběhu transkripce

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti. Vztah struktury a funkce nukleových kyselin. Replikace, transkripce

DUM č. 11 v sadě. 37. Bi-2 Cytologie, molekulární biologie a genetika

Těsně před infarktem. Jak předpovědět infarkt pomocí informatických metod. Jan Kalina, Marie Tomečková

Inovace studia molekulární a buněčné biologie

6) Transkripce. Bakteriální RNA-polymeráza katalyzuje transkripci všech uvedených typů primárních transkriptů (na rozdíl od eukaryot).

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Gymnázium, Brno, Elgartova 3

MOLEKULÁRNÍ ZÁKLADY DĚDIČNOSTI

Co se o sobě dovídáme z naší genetické informace

AUG STOP AAAA S S. eukaryontní gen v genomové DNA. promotor exon 1 exon 2 exon 3 exon 4. kódující oblast. introny

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Nukleové kyseliny. DeoxyriboNucleic li Acid

Úvod do studia biologie. Základy molekulární genetiky

NUKLEOVÉ KYSELINY. Složení nukleových kyselin. Typy nukleových kyselin:

IV117: Úvod do systémové biologie

Základní pojmy obecné genetiky, kvalitativní a kvantitativní znaky, vztahy mezi geny

Využití metod strojového učení v bioinformatice David Hoksza

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Genetika bakterií. KBI/MIKP Mgr. Zbyněk Houdek

Molekulární genetika: Základní stavební jednotkou nukleových kyselin jsou nukleotidy, které jsou tvořeny

BAKTERIÁLNÍ GENETIKA. Lekce 12 kurzu GENETIKA Doc. RNDr. Jindřich Bříza, CSc.

Genetická diverzita masného skotu v ČR

Proteiny Genová exprese Doc. MVDr. Eva Bártová, Ph.D.

Obecná biologie a genetika B53 volitelný předmět pro 4. ročník

Nukleové kyseliny Replikace Transkripce translace

Nukleosidy, nukleotidy, nukleové kyseliny, genetická informace

Struktura a funkce biomakromolekul

Translace (druhý krok genové exprese)

Projekt SIPVZ č.0636p2006 Buňka interaktivní výuková aplikace

ENZYMY A NUKLEOVÉ KYSELINY

Garant předmětu GEN: prof. Ing. Jindřich Čítek, CSc. Garant předmětu GEN1: prof. Ing. Václav Řehout, CSc.

Využití metagenomiky při hodnocení sanace chlorovaných ethylenů in situ Výsledky pilotních testů

Úloha protein-nekódujících transkriptů ve virulenci patogenních bakterií

Inovace studia molekulární a buněčné biologie

Inovace studia molekulární a buněčné biologie

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Nukleové kyseliny příručka pro učitele. Obecné informace:

Deoxyribonukleová kyselina (DNA)

Inovace studia molekulární a buněčné biologie

TRANSLACE - SYNTÉZA BÍLKOVIN

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Bílkoviny a rostlinná buňka

Nukleové kyseliny Replikace Transkripce, RNA processing Translace

Genetický polymorfismus

Inovace studia molekulární a buněčné biologie

Molekulární základy dědičnosti

Genetika - maturitní otázka z biologie (2)

jedné aminokyseliny v molekule jednoho z polypeptidů hemoglobinu

Biologie buňky. systém schopný udržovat se a rozmnožovat

Inovace studia molekulární a buněčné biologie

Strom života. Cíle. Stručná anotace

-nukleové kyseliny jsou makromolekulární látky, jejichž základní stavební jednotkou je nukleotid každý nukleotid vzniká spojením:

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií BAKALÁŘSKÁ PRÁCE

Molekulární základ dědičnosti

Definice genu. = základní jednotka genetické informace zapsaná v NK

Vzdělávací materiál. vytvořený v projektu OP VK CZ.1.07/1.5.00/ Anotace. Biosyntéza nukleových kyselin. VY_32_INOVACE_Ch0219.

Odvětví genetiky zkoumající strukturu a funkci genů na molekulární úrovni

Úvod do studia biologie. Základy molekulární genetiky

Chromosomy a karyotyp člověka

Transkript:

Predikce genů a anotace sekvence DNA Základní informace Následující text je součástí učebních textů předmětu Analýza sekvencí DNA a je určen hlavně pro studenty Matematické biologie. Může být ovšem přínosný i pro další studenty biologických oborů - zejména molekulární biologie, genetiky, botaniky a zoologie. U studentů se předpokládá základní znalost molekulární biologie a genetiky. Výstupy z výukové jednotky Student: *naplánují alternativní metody, jak v genomické sekvenci najít geny *zhodnotí míru nejistoty anotace záznamu a vyjádří ji *využijí nástroje na vyhledávání genů v genomech prokaryotických a eukaryotických organismů *skombinují nově navržené geny s informacemi z komparativní anotace *sestaví anotaci sekvence v podobě, ve které se vkládá do genové databáze *určí problémy při anotaci genů kódujících proteíny a jiné RNA *zanalyzují složení a strukturu sekvence DNA vzhledem k identifikaci genomických ostrovů a CpG ostrovů Sekvence DNA složená do kontigů (odkaz na kapitolu Sekvence) anebo celých chromozomů představuje pořadí nukleotidových bazí na jednom řetězci DNA molekuly u daného organizmu. Dalším krokem zpracování sekvence DNA je nalezení a identifikace úseků, o kterých předpokládáme, že nesou specifickou informaci pro funkci anebo představují jiný pojmenovaný úsek DNA (např. konkrétní repetitivní sekvence). Sestavíme takzvanou anotaci sekvence. Anotace představuje definici počátku a konce konkrétního úseku DNA (lokusu), informaci o tom, co daný úsek představuje a případně jakou má funkci (Obr. Anotace.1). Kde? Lokalizace pro anotaci je vždy konkrétní, ale zároveň nemusí představovat celý gen na dané sekvenci. Nekompletní začátek nebo konec anotovaného úseku se v GenBankovém formátu zápisu sekvence označuje znaménkama < a >. Co? Anotovaný úsek má jméno, minimálně ve formě, že se jedná o predikovaný nebo hypotetický protein (odkaz na sekci Nejistova v anotaci), případně ribozomální, transferovou nebo jinou malou molekulu RNA. Poznámka: Při anotování genomické sekvence je nutné rozlišovat mezi genem a jeho produktem. Gen bude sekvence DNA, jeho produkt je konkrétní bílkovina nebo jiná molekula RNA. U protein-kódujících genů je jejich název psaný kurzívou a často představuje zkratku názvu proteinu (např. IRBP). Název proteinu je pak buď zkratka

psaná obyčejným písmem (IRBP) anebo vypsané celé jméno konkrétní bílkoviny (bílkovina vážící interfotoreceptor = interphotoreceptor-binding protein). Vyhledávání úseků pro anotaci probíhá dvojím způsobem. Porovnáním sekvence s již známými anotovanými geny komparativní anotace. Anebo predikcí genů na nové sekvenci anotace od začátku, ab initio. Komparativní anotace Mechanismus komparativní anotace je založený na prohledávání genetických databází pomocí blastu (odkaz na kapitolu Blast). Pokud jsou nalezené sekvence (hits) dostatečně podobné zájmové sekvenci (query), anotované úseky z nalezených sekvencí se můžou použít pro anotaci nové sekvence. Ideálně by měli být při komparativní anotaci přísně nastaveny hraniční hodnoty (threshold) prohledávání u míry shody s nalezenou sekvencí (max ident), překrytí sekvencí (query coverage) a E- hodnoty (E-value). Otázka: Jaký výsledek můžeme očekávat pokud budeme vyhledávat blastem podobné sekvence pro celý chromozom? Nalezené zřejmě budou jenom kompletní sekvence daného chromozomu u stejného nebo blízko příbuzného druhu. Anebo nalezené sekvence budou tvořit se zájmovou sekvencí lokální alignment jenom na krátkém úseku chromozomu. Otázka: Proč? U velmi dlouhých sekvencí je možné očekávat jiné pořadí genů a u vzdáleně příbuzných organizmů i přítomnost různých genů. Dlouhé sekvence by se pro optimální výsledek měli prohledávat rozdělené na kratší úseky. Pokus o komparativní anotaci má velký význam u modelových organizmů a jejich blízkých příbuzných, pro které je v databázích k dispozici množství kvalitně (v rámci možností) zpracovaných sekvencí. U nemodelových organizmů má komparativní anotace taky informativní význam, ale s částečně modifikovaným přístupem. Zájmová sekvence by měla být rozdělena na kratší úseky (řádově asi 10 4 až 10 5 bp), které se částečně překrývají (klouzavé okno sliding window). Před anotováním nalezených homologických úseků by měly být nalezené homologie co nejdůvěryhodněji ověřené. Např. překlad potenciální anotace do sekvence aminokyselin by měl v proteinových databázích (UniProtKB, Swissprot, Pfam) odpovídat anotaci z nalezeného záznamu. Ideální ověření anotací ale představuje laboratorní experiment, při kterém se osekvenují molekuly RNA přítomné v živých buňkách. Zjistí se tak, že daný gen je v buňce aktivní a překládá se do RNA. V genetických databázích jsou taková data ukládána do databáze EST (expressed sequence tags database), anebo se v nukleotidové databáze vyskytují s poznámkou, že se jedná o osekvenovanou molekulu RNA, nejčastěji mrna. Samozřejmě, buňky využívají různé geny v různých fázích růstu a životních podmínkách a tak je tato metoda limitované variabilitou života. To je ale základní problém celé biologie, kde živý organizmus, aby přežil, nemusí být skvělý, ale jenom dost dobře fungující v daném momentě.

Nejistota v anotaci Často ale není možné ověřit laboratorně všechny anotované geny. V takových případech je vhodné sekvenci anotovat s přiznáním nejistoty v anotaci. Typy přiznané nejistoty anotací genů, jak se vyskytují v záznamech genetických databází: Hypothetical - neznámá funkce, bez podobného záznamu v GenBance Conserved hypothetical - neznámá funkce, podobný záznam již existuje -like - protein vypadá podobně jako známý protein, ale bez jistoty, zda jde o ortology o Ortology homologické sekvence u různých druhů o Paralogy homologické sekvence v jednom genomu po duplikaci lokusu Putative - pravdepodobně se jedná o protein Predicted - predikovaný protein bez biochemického ověření Samotný název proteinu by měl být používaný jen v případech, kdy daný gen byl u daného organismu jednoznačně identifikovaný (např. EST). Zároveň je hypotetické proteiny potřeba brát v úvahu jako možný cíl budoucího výzkumu. Např. cvičení ke kapitole Genetické databáze gen pro protein microcin S měl v databázích ortology se 100% shodou sekvence aminokyselin, které byly značené jako hypothetical protein Anotace ab initio - od začátku Anotace od začátku vyhledává a pojmenovává úseky genomu, které kódují funkční produkt gen. Geny můžou kódovat bílkoviny; přímo mrna; anebo jiné molekuly RNA. Na vyhledávání každého takového typu genu se používají odlišné algoritmy, které jsou specifické pro charakter sekvence kódující různé RNA molekuly. Jsou založené na vyhledávání určitého obsahu sekvence (content sensor) anebo specifického signálu (signal sensor). Oba přístupy se kombinují tak, aby se zvýšila přesnost a správnost predikce. Sensory obsahu sekvence předpokládají, že kódující sekvence DNA má odlišné složení od nekódující DNA. Vzhledem ke zbytku genomu mívají kódující sekvence vyšší obsah guaninu a cytozinu (GC content). Jev se vysvětluje tím, že molekula DNA s vyšším obsahem G a C je termostabilnější; genetický kód definuje stop kodony s vysokým obsahem T a A, takže v nekódujících oblastech by se podobné sekvence mohli vyskytovat častěji; anebo metylací DNA, kdy se na cytozin sousedící s guaninem v neaktivních oblastech genomu často váže metylová skupina a metylovaný cytozin snadno mutuje na tymin. Podobný princip může být patrný i u výskytu di- a trinukleotidů (dinucleotide and codon bias), které se v kódujících sekvencích nacházejí v jiné frekvenci než ve zbytku genomu. Příkladem odlišné frekvence dinukleotidů v různých oblastech genomu jsou právě CpG ostrovy, nebo-li isochory. Tyto dinukleotidy (zkratka značí cytozin-fosfát-

guanin, aby se konkrétní dinukleotid odlišil od obsahu guaninu a cytozinu v sekvenci) se podílejí na regulaci exprese genů. Vyskytují se často v promoterech a pokud v oblasti promoteru dochází k DNA metylaci, exprese genu se snižuje. Navázání metylové skupiny na cytozin sousedící s guaninem jakoby vypíná geny a umožňuje např. specializaci buněk. Jenomže pokud metylovaný cytozin deaminací zmutuje na tymin, promoterové sekvence budou částečně poškozené. Organizmy s mutovanými sekvencemi v promoterech můžou hůře přežívat, co se na sekvencích projeví zdánlivě nižší frekvencí mutací v dané oblasti. Pro predikci genů je důležité, že v kódujících oblastech se dinukleotid CpG bude vyskytovat častěji než jinde v genomu, kde jej bude nahrazovat TpG. Sensory signálu vyhledávají konkrétní sekvenci, o které předpokládáme, že se bude vyskytovat ve funkčním genu. Typickým signálem je start (ATG) a stop kodon (TAA, TGA, TAG), nebo konkrétní sekvence, které se vyskytují v promoterech a v úsecích, kde se mrna váže na ribozom (TATA box, Pribnowova sekvence, Shine-Dalgarnova sekvence). Genomické ostrovy Genomické ostrovy jsou úseky v genomu, které daný organizmus získal horizontálním přenosem genů, tzn. jinak než z přímých předků na potomky. Horizontálním přenosem můžou organizmy skokově získávat nové vlastnosti, jenž jsou často adaptivní. Typickým příkladem je přenos plazmidů kódujících geny pro rezistenci vůči antibiotikům mezi nepříbuznými bakteriemi. V nemocničním prostředí, kde dochází relativně často ke kontaktu různých patogenních kmenů, je rezistence vůči antibiotikům silně selektována a nositeli přináší výhodu. Kromě rezistence k léčivům jsou velké skupiny známých horizontálně přenesených genů takové, které kódují využití nových substrátů u mikroorganizmů (včetně schopnosti napadnout živé tkáně), toleranci k podmínkám prostředí (odlišné ph nebo teplota), včlenění retrovirů do genomu, a pod. Horizontálně přenesené geny se můžou inkorporovat i přímo do genomu a v takovém případě jim říkáme genomické ostrovy. Sekvence DNA, která pochází z jiného organizmu, bude mít obsah charakteristický pro původní organizmus. Sensor obsahu, např. obsah GC nukleotidových bází, bude indikovat nejenom potenciální kódující sekvence, ale i velice zajímavé genomické ostrovy. Genomický ostrov může taky kódovat sekvenci proteinu, který je známý u jiného organismu nebo který má u jiných organismů vysokou expresi. Při anotaci genomické sekvence má identifikace genomických ostrovů značný význam. V nich kódovaná informace bude mimořádně zajímavá a může vést k zásadním objevům. Otevřený čtecí rámec Signál v sekvenci je nutný pro úspěšnou predikci genů prokaryot a eukaryot, ale využití přímo při hledání kandidátních úseků DNA má hlavně u prokaryotických genomů. Prokaryotické organizmy mají totiž geny blízko u sebe, někdy se dokonce i překrývají (Obr. Anotace.1). Jejich regulace bývá zjednodušená, kdy je několik genů

sdružených do jednoho operonu se společnou regulací jedním promoterem. Predikce genů u prokaryot proto vychází z vyhledávání otevřených čtecích rámců (open reading frame ORF; Obr. Anotace.2). Jsou to úseky na jednom z řetězců DNA, které začínají start kodonem a končí stop kodonem. Výjimka: Aminokyselina selenocystein je kódována kodonem TGA, což je běžně v genetickém kódu stop kodon. Změna kódování je signalizována sekvencí přímo navazující na kodon TGA, který by měl kódovat selenocystein. Některé nové algoritmy na predikci genů v současnosti začínají rozlišovat i selenoproteiny. V minulosti se ale selenoproteiny nepredikovaly. ORF je nutné vyhledávat pro správně zvolenou translační tabulku. Genetický kód se totiž u některých skupin organizmů anebo u cytoplazmatických genomů (mitochondriální, chloroplatostový) částečně odlišuje od standartního genetického kódu. Otázka: Kolik otevřených čtecích rámců je v sekvenci genomu RNA virů? Tři, protože molekula RNA je jednořetězcová. Otázka: Jaká je teoretická pravděpodobnost výskytu start kodonu v DNA sekvenci, která má obsah GC 40%? Předpokládejte, že nukleotidové báze se v sekvenci vyskytují na sobě nezávisle. Guanin je komplementární k cytozinu, a proto v dvoušroubovici DNA s GC obsahem 40% bude guaninu i cytozinu po 20%. Obdobně, všechny bázové páry, které v DNA nejsou GC jsou AT a jejich obsah je tedy 60%; adeninu a tyminu po 30%. Start kodon se na libovolném řetězci DNA bude vyskytovat s frekvencí: P(ATG) = P(A) * P(T) * P(G) = 0.018 Ne všechny start a stop kodony v sekvenci DNA prokaryot představují začátek nebo konec čtení kódující sekvence. Zúžení počtu kandidátních ORF probíhá na základě dodatečných informací: očekávané délky ORF (průměrná délka prokaryotického genu je asi 1kb) a výskytu specifických sekvencí v promoteru (Pribnowova sekvence: TATAAT v pozici 10bp a -35 sekvence TTGACA 35bp před začátkem transkripce. Pozor, počátek transkripce se vyskytuje vždy dřív než počátek translace - start kodon). V transkribované části genu se vyskytuje Shine-Dalgarnova sekvence, která má konsenzuální pořadí nukleotidů AGGAGG a představuje místo, kterým se mrna navazuje na ribozom asi 8bp před start kodonem. Jak je v biologických systémech obvyklé, uvedené sekvence se v genech téměř nikdy nevyskytují přesně. Mutace přímo v signálních sekvencích anebo v jejich vzdálenosti od start kodonu jsou běžné. Pro predikci genů z toho vyplývá, že charakterizace kontextu pro ORF je založena na pravděpodobnosti výskytu určitých nukleotidových bází v okolí start kodonu spíš než na vyhledání konkrétní sekvence. Jednoduché pravidlo pro uživatele na kontrolu predikovaného genu je blast. Predikovaný gen se přeloží do sekvence aminokyselin a pomocí proteinového blastu se porovná se záznamy z genetických databází. K výsledkům je ale nutno přistupovat kriticky. Někdy se v databázích vyskytují anotace predikovaných genů jenom u několika organizmů. Může se jednat o chybné anotace, které se opakují při nezávislých predikcích a autoři je do databáze vložili bez ověření. Takové sekvence

by vždy měly nést označení míry nejistoty anotace. Je na uživateli, zda u své sekvence podobnou anotaci uvede, nebo raději zvolí konzervativní přístup a anotuje jenom spolehlivě ověřitelné predikované geny. Predikce eukaryotických genů V eukaryotickém genomu tvoří pojmenované geny často méně než 2% celé genomické sekvence. Nalézt takové geny je proto komplikovanější než u prokaryot a vyhledávání ORF není dostatečné. Otázka: Proč nestačí vyhledat u eukaryot ORF a následně vytřídit vhodné kandidáty na základě promoterových sekvencí jako u prokaryot? Skutečných ORF by bylo velice málo v porovnaní s možnými kombinacemi start a stop kodonů. Délka genů je mnohem variabilnější než u prokaryot a většina eukaryotických genů obsahuje introny, které můžou posouvat ORF při přímém čtení. Struktura genů u eukaryot je komplexnější a výjimkou nejsou ani geny, které mají délku řádově v 10 5 bp. Velmi dlouhé geny budou rozděleny na exony a introny, přičemž introny budou výrazně delší než exony (Obr. Anotace.3). Pro účely predikce genů je dobré si uvědomit, že eukaryotický gen se přepisuje do mrna včetně nepřekládaných oblastí na 5 a 3 koncích (UTR) a intronů. UTR ale nejsou predikovány a přesný rozsah přepisovaného genu není z predikcí patrný. Predikují se kódující sekvence od start po stop kodon a určuje se lokace a počet intronů a pro zjištění UTR oblastí je potřebné osekvenovat mrna molekulu. Zároveň tyto experimenty poskytují důkazy o expresy daného predikovaného genu, zlepšují určení intronů a případně poskytují informace i o alternativním sestřihu u daného genu. Predikce eukaryotických genů je založena na vyhledávání regulačních sekvencí pro transkripci. Příklady takových sekvencí jsou: TATA box = TATAAA (podobné Pribnowově sekvenci u prokaryot - TATAAT) iniciační element = YYANWYY GC box = GGGCG CAAT box = GGCCAATCT BRE (z angl. B recognition element) = SSRCGCC Symboly N, S, R, Y a W v sekvencích představují kódy nejistoty v DNA (Tab. Contig.1). Jak konkrétně bude daná sekvence vypadat u toho kterého genu a organizmu může být značně specifické a/nebo variabilní. Na jejich vyhledávání je proto znovu potřeba sofistikovanějších metod, jako např. skryté markovovy modely, neurální sítě nebo diskriminace vzoru. Všechny tyto metody mají jedno zásadní omezení. Jsou parametrizované a je tedy nutné před samotnou predikcí určit hodnoty pro dané parametry natrénovat danou metodu na známých datech. Po identifikaci oblasti DNA sekvence, která by mohla kódovat gen u eukaryot, je dále nutné zjistit, kde konkrétně jsou kódující úseky, čili exony. Taková predikce musí pro úspěšnou translaci funkčního proteinu splňovat několik vlastností. První exon začíná start kodonem a poslední končí stop kodonem. Introny nesmí rozdělovat start a stop kodony, ale můžou rozdělit vnitřní kodony. Po sestřihu mrna musí sekvence představovat souvislý ORF.

Predikce lokalizace intronů probíhá kombinací sensorů obsahu a signálu. Signál je v tomto případě obvyklá donorová sekvence GT na začátku intronu a akceptorová AG na jeho konci. Sensor signálu představuje očekávaná frekvence nukleotidů v okolí predikovaného začátku a konce intronu (Obr. Anotace.4). Skrytý markovův model Skryté markovovy modely (HMM z angl. hidden Markov model) představují robustní ale flexibilní, a proto často využívaný přístup k vyhledávání motivů v sekvenci DNA. V těchto aplikacích HMM generují sekvenci tak, že s jistou pravděpodobností mění (emitují) stavy mezi diskrétními hodnotami. Jejich základní vlastnosti si uvedeme na příkladu lidských genů pro interleukiny. Pokud nebude uvedeno jinak, trénovací sada bude obsahovat sekvence genů IL4, IL15, IL20, IL22 a IL31 a testovací IL3 a IL25. Modelování začátku intronu Sekvence protein-kódujících genů eukaryotů obecně obsahují exony a introny, které je nutno definovat. Nejjednodušší příklad hodnocení sekvence, která by mohla obsahovat intron, je pomocí váhových matic. Váhové matice obsahují hodnoty pravděpodobnosti pro emisi konkrétního nukleotidu na konkrétní pozici sekvence. Můžou mít libovolnou délku a pozici jevu, který predikují. V příkladu na obr. Anotace.4 má délku hodnocené sekvence 22 bp a intron začíná na pozici 7. Pravděpodobnost, že testovací sekvence bude obsahovat začátek intronu na stejné pozici při použití této váhové matice, bude součin hodnot pravděpodobností pro konkrétní nukleotidové báze na konkrétních pozicích. Pravděpodobnost, že sekvence X o délce L bude obsahovat intron na základě váhové matice M, je pak:,, Jelikož u delších sekvencí násobení pravděpodobností rychle vede k nule, uvedený výraz se počítá v logaritmické škále:,, V příkladu je emise jakéhokoliv nukleotidu v pozici nezávislá na tom, který nukleotid se v sekvenci vyskytoval před ním. Jedná se tedy o HMM nultého řádu. Úloha: Vypočítejte pomocí váhové matice na obr. Anotace.4, kde a s jakou pravděpodobností bude začínat intron v sekvenci z genu IL3: AAAGCAGCCACCTTTGCCTTTGCTGGTGAGTAGCTTGGATAAGACTGGC CTGCAGCAGTGAGGGGTGGT Upozornění: Váhová matice je sestavena z frekvencí nukleotidových bází v trénovací sadě a obsahuje nuly.

Modelování frekvence kodonů Skryté markovovy řetězce vyšších řádů si budeme demonstrovat na příkladu predikování sekvence kodonů. U kodonů je intuitivně pochopitelné, že nukleotidová báze na druhé a třetí pozici se může vyskytovat s různou pravděpodobností podle toho, která báze se vyskytuje na prví pozici. Např. pokud je na prví pozici tymin a jedná se o protein-kódující gen, tak na dalších pozicích by měly být nukleotidy, které spolu nevytvoří stop kodon (Obr. Anotace.5). Predikce jiných RNA molekul Geny kódující proteiny se překládají do mrna a jejich predikce je v samostatných podkapitolách. Ostatní RNA molekuly predikujeme jinými metodami. trna transferová RNA musí mít specifickou strukturu, aby mohla úspěšně přenášet aminokyselinu k ribozomu a správně se navázat antikodonem na kodon mrna. Program trnascan vyhledá kandidátní sekvence, které by mohly představovat trna geny, na základě predikce promoterových sekvencí. Tyto kandidáty následně ověří tak, že se pokusí sestavit sekundární strukturu trna molekuly a zhodnotí, zda se jedná o funkční gen. Program je natolik spolehlivý, že i když vznikl v minulém století, dodnes se používá. rrna ribozomální RNA je nejčastěji predikována na základě homologie se známými sekvencemi (blast) anebo pomocí skrytých markovových modelů (HMM hidden Markov model). HMM se nejdřív natrénují na známých datech z již anotovaných rrna sekvencí a takto parametrizovaný model používají k vyhledávání dalších kandidátních genů. srna malé RNA mají regulační funkce v buňce. V současnosti se ně zaměřuje intenzivní výzkum a jejich klasifikace na hlavní rodiny je v databázi Rfam. Predikci srna molekul komplikuje fakt, že jsou různé délky, nemají ustálenou sekvenci mezi vzdáleně příbuznými organizmy ani sekundární strukturu a není u nich znám odlišitelná frekvence bází nebo oligonukleotidů (jako obsah GC u protein-kódujících genů). Jejich detekce je založena na hledání podobných sekvencí známých srna a ověřují se pomocí studia termodynamické stability molekuly nebo její sekundární struktury. V současnosti jsou tyto metody málo spolehlivé z výše uvedených důvodů. Příprava sekvence do genetických databází Po sestavení kontigů a ověření identity sekvence, genů, které kóduje a jejich rozsahu, je možné přistoupit ke vkládání sekvence do genetických databází. Databáze jsou vzájemně propojené, ale jednotlivé jejich verze mají specifika pro vkládání nových údajů. Následující informace se týká vkládání jednotlivých sekvencí a nikoliv celých genomů.

WebIn webová aplikace na vkládání sekvencí do Evropského nukleotidového archivu (ENA). Obsahuje předpřipravené šablony pro nejčastěji vkládané lokusy (např. ITS, 16S rrna, etc.), které výrazně urychlují a zjednodušují proces. BankIt - webová aplikace pro malý počet sekvencí vkládaných do GenBanky. Sequin - program pro přípravu a formátování souboru více sekvencí určených pro principiálně pro GenBanku, i když je schopen exportovat sekvence i ve formátu, který akceptují ENA a DDBJ. Exportovaný soubor se posílá do GenBanky emailem. Údaje pro vkládání sekvencí Každá sekvence má přirazené nasledující údaje: Autoři sekvence, adresy a kontaktní údaje. Autoři a název výzkumu, případně publikační údaje, kde se sekvence poprvé objevila. Anotace genů počátek, konec, zda je kompletní, na kterém řetězci se gen vyskytuje, translační tabulka, název produktu a genu. Sequin validuje uvedené údaje, ale na možné chyby v anotaci, jako např. netypické donorové a akceptorové sekvence v intronech, jenom upozorní. Riziko zanesení nesprávných údajů do genetických databází je na uživateli. Při anotacích, ať už komparativních nebo ab initio, by měly být predikce shodné u alespoň dvou třetin testovaných metod. V případě nejistoty by se měly konzistentně používat popisky sekvencí s přiznanou nejistotou, anebo by se na sekvenci neměl sporný úsek anotovat. Důkazy, že je gen správně anotovaný, které akceptuje genomický prohlížeč Ensembl zahrnují výskyt proteinové sekvence v databáze UniProtKB, sekvence genu je v RefSeq databázi, v GenBance je nachází sekvence mrna daného genu, sekvenci je možné dohledat v EST databázi. Některé sekvence mohou obsahovat pseudogeny. Jsou to kopie lokusu, které akumulací mutací ztratili funkci. Znakmi pseudogenů jsou sekvence transkribovaných genů, které se v jednom lokusu vyskytují bez intronů a v jiném je rozdělený na několik exonů, v lokusu převládají repetitivní sekvence anebo dochází k posunu ORF. Obsah: Predikce genů a anotace sekvence DNA... 1 Základní informace... 1 Výstupy z výukové jednotky... 1 Komparativní anotace... 2 Nejistota v anotaci... 3 Anotace ab initio - od začátku... 3 Genomické ostrovy... 4 Otevřený čtecí rámec... 4 Predikce eukaryotických genů... 6 Skrytý markovův model... 7 Predikce jiných RNA molekul... 8 Příprava sekvence do genetických databází... 8 Údaje pro vkládání sekvencí... 9