Co se o sobě dovídáme z naší genetické informace



Podobné dokumenty
Osekvenované genomy. Pan troglodydes, Neandrtálec, 2010

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

NUKLEOVÉ KYSELINY. Základ života

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Bioinformatika. Jiří Vondrášek Ústav organické chemie a biochemie Jan Pačes Ústav molekulární genetiky

Exprese genetického kódu Centrální dogma molekulární biologie DNA RNA proteinu transkripce DNA mrna translace proteosyntéza

Genetika zvířat - MENDELU

Klonování DNA a fyzikální mapování genomu

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

O původu života na Zemi Václav Pačes

Využití metod strojového učení v bioinformatice David Hoksza

Inovace studia molekulární a buněčné biologie

Využití metagenomiky při hodnocení sanace chlorovaných ethylenů in situ Výsledky pilotních testů

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Možné účinky XENOBIOTIK

2. Z následujících tvrzení, týkajících se prokaryotické buňky, vyberte správné:

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy

Propojení výuky oborů Molekulární a buněčné biologie a Ochrany a tvorby životního prostředí. Reg. č.: CZ.1.07/2.2.00/

GENETIKA dědičností heredita proměnlivostí variabilitu Dědičnost - heredita podobnými znaky genetickou informací Proměnlivost - variabilita

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

b) Jak se změní sekvence aminokyselin v polypeptidu, pokud dojde v pozici 23 k záměně bázového páru GC za TA (bodová mutace) a s jakými následky?

1. Definice a historie oboru molekulární medicína. 3. Základní laboratorní techniky v molekulární medicíně

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Inovace studia molekulární a buněčné biologie

BAKTERIÁLNÍ GENETIKA. Lekce 12 kurzu GENETIKA Doc. RNDr. Jindřich Bříza, CSc.

Molekulárn. rní. biologie Struktura DNA a RNA

Genetický polymorfismus

Struktura a funkce nukleových kyselin

Inovace studia molekulární a buněčné biologie

Inovace studia molekulární a buněčné biologie

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

1. Téma : Genetika shrnutí Název DUMu : VY_32_INOVACE_29_SPSOA_BIO_1_CHAM 2. Vypracovala : Hana Chamulová 3. Vytvořeno v projektu EU peníze středním

GENETIKA 1. Úvod do světa dědičnosti. Historie

Inovace studia molekulární a buněčné biologie

MIKROBIOLOGIE V BIOTECHNOLOGII

Využití DNA markerů ve studiu fylogeneze rostlin

Obecná biologie a genetika B53 volitelný předmět pro 4. ročník

Exprese genetické informace

MIKROBIOLOGIE V BIOTECHNOLOGII

V. letní škola metod molekulární biologie nukleových kyselin a genomiky Ústav morfologie, fyziologie a genetiky zvířat AF MENDELU

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Molekulární základy genetiky

Biologie - Oktáva, 4. ročník (přírodovědná větev)

Nukleové kyseliny Replikace Transkripce translace

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

Metody studia historie populací. Metody studia historie populací

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Biologie - Oktáva, 4. ročník (humanitní větev)

Molekulární biotechnologie č.8. Produkce heterologního proteinu v eukaryontních buňkách

Typy nukleových kyselin. deoxyribonukleová (DNA); ribonukleová (RNA).

Genomika. Obor genetiky, který se snaží. stanovit úplnou genetickou informaci. organismu a interpretovat ji v. termínech životních pochodů.

Replikace, transkripce a translace

Predikce genů a anotace sekvence DNA

Aplikovaná bioinformatika

Biotechnologický kurz. II. letní škola metod molekulární biologie nukleových kyselin a genomiky

Exprese genetické informace

Struktura a organizace genomů

Potřebné genetické testy pro výzkum a jejich dostupnost, spolupráce s neurology Taťána Maříková. Parent projekt. Praha

Výuka genetiky na Přírodovědecké fakultě UK v Praze

Molekulární biotechnologie č.9. Cílená mutageneze a proteinové inženýrství

Těsně před infarktem. Jak předpovědět infarkt pomocí informatických metod. Jan Kalina, Marie Tomečková

TEST: GENETIKA, MOLEKULÁRNÍ BIOLOGIE

Příprava rekombinantních molekul pro diagnostické účely

Genové knihovny a analýza genomu

Translace (druhý krok genové exprese)

Proteiny Genová exprese Doc. MVDr. Eva Bártová, Ph.D.

Inovace studia molekulární a buněčné biologie

IV117: Úvod do systémové biologie

DNA se ani nezajímá, ani neví. DNA prostě je. A my tancujeme podle její muziky. Richard Dawkins: Řeka z ráje.

Biotechnologický kurz. III. letní škola metod molekulární biologie nukleových kyselin a genomiky

Genetický kód. Jakmile vznikne funkční mrna, informace v ní obsažená může být ihned použita pro syntézu proteinu.

Nukleové kyseliny Replikace Transkripce, RNA processing Translace

Gymnázium a Střední odborná škola pedagogická, Čáslav, Masarykova 248

-nukleové kyseliny jsou makromolekulární látky, jejichž základní stavební jednotkou je nukleotid každý nukleotid vzniká spojením:

Kdo jsme. Centrum strukturní a funkční genomiky rostlin Ústavu experimentální botaniky AV ČR, v.v.i.

Mgr. et Mgr. Lenka Falková. Laboratoř agrogenomiky. Ústav morfologie, fyziologie a genetiky zvířat Mendelova univerzita

A. chromozómy jsou rozděleny na 2 chromatidy spojené jen v místě centromery. B. vlákna dělícího vřeténka jsou připojena k chromozómům

Tomáš Oberhuber. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Lesnická genetika. Dušan Gömöry, Roman Longauer


Propojení výuky oborů Molekulární a buněčné biologie a Ochrany a tvorby životního prostředí. Reg. č.: CZ.1.07/2.2.00/

Struktura biomakromolekul

Okruhy otázek ke zkoušce

Struktura a funkce biomakromolekul

TRANSLACE - SYNTÉZA BÍLKOVIN

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti. Vztah struktury a funkce nukleových kyselin. Replikace, transkripce

Deoxyribonukleová kyselina (DNA)

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Deriváty karboxylových kyselin, aminokyseliny, estery

Bioinformatika. hledání významu biologických dat. Marian Novotný. Friday, April 24, 15

Exprese rekombinantních proteinů

Externí kontrola kvality sekvenačních analýz

GENETIKA. Joalis s.r.o. Všechna práva vyhrazena

Genetika. Genetika. Nauka o dědid. dičnosti a proměnlivosti. molekulárn. rní buněk organismů populací

Molekulární genetika IV zimní semestr 6. výukový týden ( )

19.b - Metabolismus nukleových kyselin a proteosyntéza

První testový úkol aminokyseliny a jejich vlastnosti

Modelov an ı biologick ych syst em u Radek Pel anek

Transkript:

Genomika a bioinformatika Co se o sobě dovídáme z naší genetické informace Jan Pačes, Mgr, Ph.D Ústav molekulární genetiky AVČR, CZECH FOBIA (Free and Open Bioinformatics Association) hpaces@img.cas.cz Molekulární genetika v datech 1859 Darwinova práce O původu druhů 1865 Mendelovy zákony dědičnosti 1869 Poprvé izolovaná DNA 1879 Objev mitózy 1902 Dědičné choroby se řídí mendelovými zákony 1902 Chromozómová teorie dědičnosti 1909 Vznik termínu gen 1911 Na mušce octomilce dokázána chromozómová teorie dědičnosti 1911 Gen jako základní jednotka dědičnosti 1941 Jeden gen, jeden enzym 1943 Rentgenová difrakce DNA 1944 DNA (ne proteiny) je transformující princip 1952 Geny jsou z DNA

1953 Dvoušroubovicová struktura DNA 1955 Člověk má 46 chromozómů 1955 DNA polymeráza enzym kopírující DNA 1958 Semikonzervativní replikace DNA 1959 Identifikovány chromozomové abnormality (Downův syndrom) 1961 mrna přenáší genetickou informaci v buňce 1961 První kontrola dědičných metabolických poruch u novorozenců 1966 Rozluštěn genetický kód 1968 Objev prvního restrikčního enzymu 1972 První rekombinantní DNA 1973 Naklonován první zvířecí gen 1975 Sekvenování DNA 1977 Objev intronů 1981 První transgení myš a moucha 1982 Vznik GenBank, databáze přečtené DNA 1983 Identifikován první gen zodpovědný za genetickou chorobu (Huntingtonova nemoc) 1983 Vynález PCR 1987 Genetická mapa lidského genomu 1989 Genetické markery (mikrosatelity, STS) 1990 HUGO: Projekt sekvenace lidského genomu 1994 Prodej první geneticky modifikované plodiny: FLAVR SAVR rajče 1994 Detailní genetická mapa člověka 1994 První mikrobiální genomový projekt 1995 První mikrobiální genom osekvenován: Haemofilus influenza 1996 První eukaryotický genom osekvenován: kvasinka Saccharomyces cerevisiae 1996 První archea genom osekvenován: Methanococcus janaschii 1996 Začátek faktické sekvenace lidského genomu 1998 Privátní projekt sekvenace lidského genomu (Celera) 1998 První mnohobuněčný organismus osekvenován: červ Caenorhabtitis elegans 1999 Osekvenován nejmenší lidský chromozóm 22 2000 Osekvenován genom mušky octomilky 2000 Lidský chromozóm 21 2000 První pracovní verze kompletního lidského genomu 2002 Finální verze lidského genomu

2004 Šimpanzí chromozóm 22 Současný stav genomiky Současné metody sekvenování DNA jsou tak účinné, že se daří stanovit nukleotidové sekvence celých genomů. Obor genomiky se zaměřuje na komplexní analýzu genomů založenou právě na znalosti pořadí nukleotidů v DNA. V současné době je známa úplná struktura téměř stovky genomů (viz například HThttp://www.genome.ad.jp/kegg/catalog/ org_list.htmlth nebo HThttp://www.tigr.org/tdb/mdbTH). Většina jsou bakteriální genomy. Tyto genomy jsou zpravidla tvořeny jedním chromozómem případně ještě jedním nebo několika malými cirkulárními molekulami DNA zvanými plazmidy. Celkový počet nukleotidů v prokaryotickém genomu se pohybuje v řádu miliónů. Byly ale již stanoveny úplné nukleotidové sekvence genomů vyšších organismů, například kvasinky Saccharomyces cerevisiae (12 Mbp), hlístice Caenorhabditis elegans (97 Mbp) a mušky octomilky (137 Mbp). V roce 2000 byla stanovena prakticky úplná nukleotidová sekvence lidského genomu (3 Gbp). Další genomy (myš, krysa, ryba Danio rerio, rostlina Arabidopsis thaliana, šimpanz ) následovaly a následují se stále se zrychlující frekvencí. Z těchto čísel je zřejmé, že není možné zpracovávat takové množství nukleotidových sekvencí v genomech bez velmi účinného počítačového vybavení. Vznikl nový obor, bioinformatika, který se mimo jiné věnuje právě zpracování a počítačové analýze velkých souborů nukleotidových sekvencí, jaké jsou generovány například právě v genomových projektech a na ní navazující analýze aminokyselinových sekvencí proteinů. Pro získání úplné nukleotidové sekvence genomu skládáme do kontinuálních lineárních řetězců nukleotidové sekvence získané sekvenováním jednotlivých klonů. V typickém případě stanovíme jedním sekvenováním pořadí několika set až jednoho tisíce nukleotidů. Z takových parciálních sekvencí pak postupně skládáme delší a delší řetězce (tzv. kontigy) až v ideálním případě získáme celou sekvenci, například sekvenci genomu nebo velkého úseku DNA který studujeme. To jsou první počítačové operace v sekvenačních projektech. Takto získanou sekvenci pak podrobíme další počítačové analýze. Snažíme se identifikovat všechny geny přítomné ve stanovené nukleotidové sekvenci, jejich strukturu (například exon-intronovou organizaci), elementy regulující expresi genů (například promotory, enhancery, terminátory transkripce) a další důležité úseky DNA. Geny překládáme do sekvence aminokyselin proteinů a stanovíme jejich základní charakteristiky,

například základní rysy sekundární struktury. Obvykle stanovíme celkovou charakteristiku DNA, jako je zastoupení jednotlivých bází. Po této základní charakterizaci DNA přistupujeme zpravidla ke srovnání nukleotidové sekvence s údaji v mezinárodních databázích. Ty jsou dnes již velmi rozsáhlé. Například databáze nukleotidových sekvencí EMBL obsahuje skoro čtrnáct miliard nukleotidů tvořících mnoho genů a genomů z různých organismů. Následuje vyhodnocování identifikovaných homologií. Z něho potom můžeme sestavit mnoho metabolických drah, které tvoří podstatu života buňky. Srovnávací genomika Důležitou součástí počítačové analýzy genomů a genomiky vůbec je takzvaná komparativní (srovnávací) genomika. Pomocí ní můžeme identifikovat rozdíly mezi jednotlivými druhy a identifikovat ty rozdíly, která byly během vývoje pro daný druh klíčové. Pro nás jako příslušníky druhu Homo sapiens je zejména zajímavé porovnání našeho genomu s jinými druhy, zejména s druhem nám nejbližším, naším bratrancem šimpanzem (Pan troglodytes). Historie vzniku druhu Homo sapiens sestavená na základě fosilních nálezů nedává jasnou odpověď na otázku, co dělá člověka člověkem, která ze změn nás odlišila od ostatních primátů. Obr 1. Evoluční strom primátů.

Při porovnávání dvou nukleotidových sekvencí se nemusíme zabývat tím, jak si jsou jednotlivé nukleotidy v páru příbuzné a vystačíme s totožností (i když ani toto zjednodušení neplatí vždy). Jiná je situace u aminokyselinových sekvencí. Při porovnávání evolučně příbuzných sekvencí bylo objeveno, že pro funkčnost enzymu je často důležitá pouze obecná biochemická vlastnost jeho aminokyselin na určitém místě (například hydrofóbní aminokyseliny v transmembránové doméně) a proto můžeme jednotlivé aminokyseliny seskupit podle jejich biochemické příbuznosti (hydrofobicita, náboj, velikost, polárnost atd.). Záměna podobných aminokyselin pak může být při sledování příbuznosti hodnocena lépe než záměna aminokyselin nepříbuzných. Zároveň bychom také měli uvažovat i genetickou (evoluční) příbuznost. Například tryptofan je kódován pouze jedním kodónem, UGG. Jednokrokovou mutací z něj může vzniknout kodón pro glycin (GGG), serin (UCG) a leucin (UUG), dva kodóny pro cystein (UGU,UGC), arginin (CGG,AGG) a dva tzv. stop kodóny (UGA,UAG). Je tedy pravděpodobnější, že dojde k změně tryptofanu na arginin než například na glycin. Přesto jsou biochemické vlastnosti tryptofanu a argininu maximálně odlišné tryptofan je hydrofóbní aromatická aminokyselina, arginin naopak hydrofilní polární kladně nabitá aminokyselina. Z těchto úvah vycházíme při tvorbě tabulek pravděpodobností fixace různých mutací, na jejichž základě se pak můžeme pokusit rekonstruovat evoluční historii daného genu nebo třeba celého druhu. Kde na internetu začít Veškerá data získaná sekvenováním a mnoho analýz a databází je přístupných veřejně na internetu. V České republice je při Centru aplikované genomiky organizována databáze užitečných bioinformatických linek na adrese HThttp://bio.img.cas.cz/linksTH. Velká bioinformatická centra v Evropě, která nabízejí celou řadu zajímavých služeb a databází, jsou na adresách HThttp://www.ebi.ac.ukTH (European Bioinformatic Institute) a HThttp://www.expasy.orgTH (Expert Protein Analysis System). V USA je jednou z nejhojněji navštěvovaných adres HThttp://www.ncbi.nlm.nih.govTH (National Center for Biotechnology Information). Databáze a analýzy lidského, šimpanzího a dalších genomů jsou k dispozici například na adresách HThttp://genome.ucsc.eduTH nebo HThttp://www.ensembl.orgTH.

Nejpoužívanější biologické databáze a formáty dat EMBL databáze Databáze EMBL je organizována Evropskou molekulárně biologickou laboratoří (EMBL). Je to veřejná evropská primární nukleotidová databáze se sídlem v Anglii na adrese HThttp://www.ebi.ac.uk/emblTH. Databáze je vytvářena v součinnosti s ostatními nukleotidovými databázemi GENBANK (USA) a DDBJ (Japonsko) a je velmi dobře přístupná spolu s mnoha odvozenými a dalšími databázemi přes SRS (Sequence Retrieval System) například na adrese HThttp://srs.ebi.ac.ukTH. Databáze obsahuje všechna data zaslaná vědeckou komunitou, a to bez kontroly. Z tohoto důvodu může obsahovat určité procento chyb SWISSPROT SWISSPROT je formát proteinových sekvencí podobný formátu EMBL. Databáze SWISSPROT je anotovaná proteinová databáze organizovaná hlavně švýcarským bioinformatickým institutem. Přístupná je na adrese HThttp://www.expasy.ch/sprotTH. Úzce spolupracuje s EMBL a společně vytvářejí TrEMBL, také proteinovou databázi. Tyto dvě databáze dohromady pokrývají všechny "existující" či "smysluplné" proteinové sekvence. Autoři z literatury průběžně doplňují nové informace a v současné době se pravděpodobně jedná o nejkvalitnější molekulárně-biologickou databázi. Pro vědecké použití je SWISSPROT volně k dispozici. GENBANK Distribuční formát nukleotidové databáze GENBANK, který je podobný formátu EMBL je lépe čitelný místo dvoupísmenného identifikátoru používá celé slovo. Databáze GENBANK je nukleotidová databáze, kterou organizuje Národní institut zdraví (NIH) v USA. Díky výměnné spolupráci s ostatními nukleotidovými databázemi obsahuje v podstatě stejná data jako EMBL. GENBANK je výborně propojena s mnoha dalšími databázemi a výše uvedená adresa je výchozím bodem hledání pro velkou část vědecké komunity. Bohužel, je třeba mít při práci na paměti, že (stejně jako EMBL) neobsahuje všechny dostupné sekvence, hlavně z velkých genomových projektů. Podrobnější informace o databázi lze najít například na adrese HThttp://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.htmlTH

PIR Stejně jako v případě EMBL/SWISSPROT je i formát PIR formát požíván pro proteiny. Organizován je podobně jako GENBANK v NCBI. Zde s dalšími organizacemi vytváří PIR-International, anotovanou databázi analogickou SWISSPROT. Obě databáze jsou přístupné na adrese HThttp://www-nbrf.georgetown.eduTH.