GENOMOVÉ PROJEKTY
Osekvenované genomy Haemophilus influenze, 1995 první osekvenovaná bakterie Saccharomyces cerevisiae, 1996 první osekvenovaný eukaryotický organimus Caenorhabditis elegans, 1998 první osekvenovaný mnohobuňěčný organismus Drosophila melanogaster, 2000 Arabidopsis thaliana, 2000 Homo sapiens, 2001 - draft, 2004 - euchromatin, 2006 - complete Mus musculus, Oryza sativa, Takifugu rubripes, 2002. Pan troglodydes, 2005. Neandrtálec, 2010.
Příklady osekvenovaných genomů Prokaryota: E.coli Viry: SARS Rostliny: rýže (Oryza sativa, 2002), huseníček rolní (Arabidopsis thaliana, 2000), kukuřice setá (Zea mays), topol chlupatoplodý (Populus trichocarpa, 2006), mech Physcomitrella patens (2008), vinná réva (Vitis vinifera, 2007), papája (Carica papaya, 2008), čirok (Sorghum bicolor, 2009) Hmyz: D. melanogaster (2000), komár Anopheles, včela medonosná (2004), bourec morušový (91% v 2004) Ryby: zebřička (Danio rerio), čtverzubec fugu (Takifugu rubripes, 2002), čtverzubec černozelený (Tetraodon nigroviridis, 2004) Obojživelnící: drápatka Xenopus tropicalis Ptáci: kur bankivský (Gallus gallus, 2004) Savci: myš (2002), skot, prase (2005), šimpanz (2005), pes (boxer)
Organismy s osekvenovanými genomy v prohlížeči genomů Ensembl
První genomové projekty - začátek éry genomiky 1977: první kompletní genom (virus) - bakteriofág phix174 Sanger et al., Nature 265, 687-695. 1995: první kompletní genom autonomního organizmu - bakterie Haemophilus infuenzae (1.38 Mb) Fleischmann et al., Science 269, 496-512. 1996: první eukaryotický organizmus - kvasinka Saccharomyces cerevisiae Goffeau et al., Science 274, 563-567.
Genomové projekty 1996: Saccharomyces cerevisiae (12 Mb/ 6548 genes) 1998: Caenorhabditis elegans (97 Mb/19 099 genů) 2000: Drosophila melanogaster (137 Mb/13 500 genů) Mus musculus (3 300 Mb) 2000: Arabidopsis thaliana (125 Mb/25 500 genů)
Jak zjistit stav genomových projektů http://www.genomesonline.org/cgi-bin/gold/index.cgi
Postup při přípravě genomového projektu 1. Volba genomu (druhu), vč. odhadu nákladů a možných přínosů vědeckých, ekonomických. 2. Stanovení sekvence a předání příslušnému sekvenačnímu centru (např. JGI Joint Genome Institute). 3. Genomová sekvence je zaznamenána na několika úrovních, DNA, protein, genová dráha, nebo komparativně.
Objem dat v databázích roste exponenciálně
Genome Sequencing Projects on GOLD October 2011, 10031 projects
Bacterial, Archeal, Eukaryal, Microbial
Funding Relevance of Bacterial Genome Projects
Hlavní databáze Genbank - sekvence DNA, veřejně přístupná SWISS-PROT - sekvence proteinů, popis funkce, struktury domén dbest - sekvence cdna z různých organizmů REBASE - restriktázy a metylázy PEDANT - kompletní nebo parciální sekvence genomů PDB - 3D koordináty makromolekulárních struktur
Databáze EMBL 1980, databanka nukleotidových sekvencí, zřízená Evropskou molekulárně biologickou laboratoří (EMBL - European Molecular Biology Laboratory) ve Velké Británii. Přístupná na stránkách Evropského institutu pro bioinformatiku (EBI - European Bioinformatic Institute) http://www.ebi.ac.uk. Databáze DDBJ 1984, shromažďuje data především z japonských výzkumů. Spravována Centrem informační biologie (CIB - Center for Information Biology, založen 1995 jako oddělení Národního genetického institutu) v Japonsku. Přístupná na adrese http://www.ddbj.nig.ac.jp/.
GenBank založena 1992. Databázi nukleotidových sekvencí spravuje Národní centrum biotechnologických informací (NCBI - National Center for Biotechnology Information). Přístupná na http://www.ncbi.nlm.nih.gov/. Swiss-Prot a TrEMBL zřízená 1986 Švýcarským institutem pro bioinformatiku (SIB - Swiss Institute of Bioinformatics). Obsahuje aminokyselinové sekvence proteinů, přístupná na http://www.expasy.org/sprot/.
Množství molekulárně-biologických dat se zvyšuje tak rychle, že je nezbytné mít k dispozici prostředky, pomocí kterých můžeme k těmto datům snadno přistupovat. Existují tři prostředky na získávání informací, které jsou vstupním bodem do několika (až 80) integrovaných databází: Entrez vyvinut v NCBI, http://www.ncbi.nlm.nih.gov/entrez/, SRS Sequence Retrieval System, vyvinut v EBI, http://srs.ebi.ac.uk/ DBGET/Link DB Integrated Database Retrieval System, vyvinut v Institutu pro chemický výzkum v Japonsku, http://www.genome.ad.jp/dbget/)
Nukleotidové sekvence můžeme pomocí počítačových analýz dále zpracovávat. Pomocí vhodného softwaru je možné identifikovat geny, jejich strukturu (exony a introny), nebo regulační oblasti (např. promotory, terminátory transkripce atd.). Na základě nalezených genů můžeme, opět s použitím vhodného softwaru, stanovit aminokyselinovou sekvenci proteinů kódovaných těmito geny a stanovit jejich základní charakteristiky (např. sekundární strukturu). Software vhodný k podobným analýzám je volně přístupný na Internetu např. na adresách http://www.ensembl.org nebo http://www.expasy.org.
Kromě výše zmíněné základní charakterizace lze také srovnávat nukleotidové sekvence různých buněk (organizmů, druhů atd.) mezi sebou, což je náplní komparativní (srovnávací) genomiky. Můžeme např. identifikovat rozdíly mezi genomy příbuzných druhů a určit tak jejich evoluční příbuznost.
Sekvenování lidského genomu
Sekvenování Stanovení pořadí bází v molekulách NK Dideoxy metoda terminace řetězce (Sanger a Barell, 1977) Metoda chemického štěpení (Maxam a Gilbert, 1977) Next generation sequencing: 454 pyrosekvenování, SOLiD, Solexa, Helicos, Ion-Torrent
Sekvenování dvou lidských genomů (automatické sekvenátory) stálo 300 milionů dolarů, každý chromozom se sekvenoval několik týdnů. Pyrosekvenovaný genom J. Watsona byl celý hotový za 2-3 týdny, celková cena 100 tisíc dolarů.
Sekvenování Dideoxy metoda terminace řetězce (Sanger a Barell, 1977) + -
Sekvenování Dideoxy metoda terminace řetězce - současnost
Automatické sekvenátory