Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Podobné dokumenty
Vyhledávání podobných sekvencí BLAST

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Thursday, February 27, 14

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Využití internetových zdrojů při studiu mikroorganismů

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Počítačové vyhledávání genů a funkčních oblastí na DNA

Co se o sobě dovídáme z naší genetické informace

Využití metod strojového učení v bioinformatice David Hoksza

Základy praktické Bioinformatiky

Osekvenované genomy. Pan troglodydes, Neandrtálec, 2010

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

V. letní škola metod molekulární biologie nukleových kyselin a genomiky Ústav morfologie, fyziologie a genetiky zvířat AF MENDELU

Univerzita Pardubice. Fakulta ekonomicko-správní

Biotechnologický kurz. II. letní škola metod molekulární biologie nukleových kyselin a genomiky

Biotechnologický kurz. II. letní škola metod molekulární biologie nukleových kyselin a genomiky

Biotechnologický kurz. III. letní škola metod molekulární biologie nukleových kyselin a genomiky

OPVK CZ.1.07/2.2.00/

Inovace studia molekulární a buněčné biologie

MATEMATICKÁ BIOLOGIE

Využití DNA sekvencování v

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

Nové přístupy v modifikaci funkce genů: CRISPR/Cas9 systém

Bioinformatika je nová disciplína na rozhraní počítačových věd, informačních technologií a biologie. Bioinformatika zahrnuje studium biologických dat

Bioinformatika a funkční studie

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Využití metagenomiky při hodnocení sanace chlorovaných ethylenů in situ Výsledky pilotních testů

Počítačová analýza lokálních podobností mezi biologickými sekvencemi

Inovace studia molekulární a buněčné biologie

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Aplikovaná bioinformatika

P ro te i n o vé d a ta b á ze

Bioinformatika pro PrfUK 2003

MOLEKULÁRNÍ METODY V EKOLOGII MIKROORGANIZMŮ

Využití DNA markerů ve studiu fylogeneze rostlin

Bioinformatika. Jiří Vondrášek Ústav organické chemie a biochemie Jan Pačes Ústav molekulární genetiky

Molekulární biotechnologie č.9. Cílená mutageneze a proteinové inženýrství

Využití strojového učení k identifikaci protein-ligand aktivních míst

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

SYNTETICKÉ OLIGONUKLEOTIDY

Výuka genetiky na Přírodovědecké fakultě UK v Praze

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ VYHLEDÁVÁNÍ HOMOLOGNÍCH GENŮ DIPLOMOVÁ PRÁCE

Věc: VZ: CEITEC Software k vyhodnocení výsledků pulzní gelové elektroforézy, dodatečné informace č.1 odpověď na dotaz uchazeče

NGS analýza dat. kroužek, Alena Musilová

b) Jak se změní sekvence aminokyselin v polypeptidu, pokud dojde v pozici 23 k záměně bázového páru GC za TA (bodová mutace) a s jakými následky?

11. Bioinformatika a proteiny II

Kdo jsme. Centrum strukturní a funkční genomiky rostlin Ústavu experimentální botaniky AV ČR, v.v.i.

analýzy dat v oboru Matematická biologie

O původu života na Zemi Václav Pačes

Inovace studia molekulární a buněčné biologie

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

ÚVOD DO MATEMATICKÉ BIOLOGIE I.

Metody studia historie populací. Metody studia historie populací

Genové knihovny a analýza genomu

Predikce genů a anotace sekvence DNA

Centrum aplikované genomiky, Ústav dědičných metabolických poruch, 1.LFUK

PRODUKTY. Tovek Tools

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Doprovodný materiál k práci s přípravným textem Biologické olympiády 2014/2015 pro soutěžící a organizátory kategorie B

Na rozdíl od genomiky se funkční genomika zaměřuje na dynamické procesy, jako je transkripce, translace, interakce protein - protein.

Genetický polymorfismus

Potřebné genetické testy pro výzkum a jejich dostupnost, spolupráce s neurology Taťána Maříková. Parent projekt. Praha

Profilová část maturitní zkoušky 2013/2014

Libor Hájek, , Centrum regionu Haná pro biotechnologický a zemědělský výzkum, Přírodovědecká fakulta, Šlechtitelů 27, Olomouc

PB050: Modelování a predikce v systémové biologii

ÚVOD DO BIOINFORMATIKY

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Inovace studia molekulární a buněčné biologie

Biologie. Autorské řešení kvalifikační úlohy

Proměnlivost organismu. Mgr. Aleš RUDA

Od sekvencí k chromozómům: výzkum repetitivní DNA rostlin v Laboratoři molekulární cytogenetiky BC AVČR

Dědičnost pohlaví Genetické principy základních způsobů rozmnožování

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Polyfázová identifikace kmenů Aeromonas encheleia

DATABÁZE ACCESS Vytváření tabulek TENTO PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY.

Klonování DNA a fyzikální mapování genomu

SEQUENCE ALIGNMENT MOLEKULÁRNÍ TAXONOMIE

IV117: Úvod do systémové biologie

Molekulární genetika IV zimní semestr 6. výukový týden ( )

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Sekvenování nové generace. Radka Reifová

Výuka genetiky na PřF OU K. MALACHOVÁ

Genetická diverzita masného skotu v ČR

Inovace studia molekulární a buněčné biologie

Mutace jako změna genetické informace a zdroj genetické variability

Molekulárně biologické metody princip, popis, výstupy

PREDIKTOR VLIVU AMINOKYSELINOVÝCH SUBSTITUCÍ NA FUNKCI PROTEINŮ

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Atestace z lékařské genetiky inovované otázky pro rok A) Molekulární genetika

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy

Modelov an ı biologick ych syst em u Radek Pel anek

APLIKACE METAGENOMIKY PRO HODNOCENÍ PRŮBĚHU SANAČNÍHO ZÁSAHU NA LOKALITÁCH KONTAMINOVANÝCH CHLOROVANÝMI ETHYLÉNY

Genetika zvířat - MENDELU

Bioinformatika. hledání významu biologických dat. Marian Novotný. Friday, April 24, 15

S databázemi se v běžném životě setkáváme velmi často. Uvádíme běžné použití databází velkého rozsahu:

Genetický polymorfismus jako nástroj identifikace osob v kriminalistické a soudnělékařské. doc. RNDr. Ivan Mazura, CSc.

Transkript:

Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Oddělení funkční genomiky a proteomiky Laboratoř molekulární fyziologie rostlin

Základy genomiky I. Zdrojová literatura ke kapitole I: Plant Functional Genomics, ed. Erich Grotewold, 2003, Humana Press, Totowa, New Jersey Úvod do praktické bioinformatiky, Fatima Cvrčková, 2006, Academia, Praha

Základy genomiky I. Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY Databáze Spektrum on-line zdrojů PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze GENOMOVÉ zdroje Analytické nástroje Vyhledávání homologií Vyhledávání sekvenčních motivů, otevřených čtecích rámců, restrikčních míst. Další www genomové nástroje

Základy genomiky I. GENOMIKA-co to je? V širším pojetí-zkoumá STRUKTURU a FUNKCI genomů Předpokladem je znalost genomu (sekvencí)- práce s databázemi V užším pojetí zkoumá FUNKCI jednotlivých genů - FUNKČNÍ GENOMIKA používá zejména přístupy REVERZNÍ GENETIKY

GENOMIKA-co to je? role BIOINFORMATIKY ve FUNKČNÍ GENOMICE Přístupy klasické genetiky Reverzně genetický přístup 5 TTATATATATATATTAAAAAATAAAATAAA AGAACAAAAAAGAAAATAAAATA.3 BIOINFORMATIKA inzerční mutageneze FUNKČNÍ GENOMIKA 3 : 1?

Základy genomiky I. Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY Databáze Spektrum on-line zdrojů

Databáze Spektrum on-line zdrojů

Databáze Spektrum on-line zdrojů EBI http://www.ebi.ac.uk/services NCBI http://www.ncbi.nlm.nih.gov/

Základy genomiky I. Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY Databáze Spektrum on-line zdrojů PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze

Primární databáze zahrnují soubory primárních dat sekvencí DNA a proteinů Sekvence v databázích tzv. Velké trojky : EMBL, http://www.ebi.ac.uk/embl/ GenBank,http://www.ncbi.nih.gov/Genbank/Genb anksearch.html DDBJ, http://www.ddbj.nig.ac.jp denně vzájemná výměna a zálohování dat velká datová náročnost (kapacita i software) září 2003 27,2 x 10 6 záznamů o zhruba 33 x 10 9 bp

Primární databáze zahrnují soubory primárních dat sekvencí DNA a proteinů Proteinové sekvence: PIR, http://pir.georgetown.edu/ MIPS, http://www.mips.biochem.mpg.de SWISS-PROT, http://www.expasy.org/sprot/

Primární databáze Typy sekvencí v primárních databázích standardní nukleotidové sekvence získané kvalitním sekvencováním ESTs (Expressed Sequence Tags) HGTS (High Throughput Genome Sequencing) - neanotované surové výsledky sekvenačních projektů referenční sekvence anotovaných genomů TPAs (Third Party Annotation) - sekvence anotované jinými než původními autory

Primární databáze GenBank (NCBI) http://www.ncbi.nlm.nih.gov/

Primární databáze Přístupový kód

Proteinové sekundární databáze databáze funkčních nebo strukturálních motivů získaných srovnáváním primárních dat (sekvencí) PROSITE, PRINTS, http://www.bioinf.man.ac.uk/dbbrowser/prints/ http://www.expasy.org/prosite/

Sekundární databáze DNA TRANSFAC http://www.gene-regulation.com/

Strukturální databáze PDB http://www.rcsb.org/pdb/

Základy genomiky I. Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY Databáze Spektrum on-line zdrojů PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze GENOMOVÉ zdroje

Primární data-genomové zdroje

Primární data-genomové zdroje

Primární data-genomové zdroje

Primární data-genomové zdroje

Primární data-genomové zdroje Human Genome Browser http://genome.ucsc.edu/

Primární data-genomové zdroje TAIR, The Arabidopsis Information Resource, http://www.arabidopsis.org

Základy genomiky I. Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY Databáze Spektrum on-line zdrojů PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze GENOMOVÉ zdroje Analytické nástroje Vyhledávání homologií

Analytické nástroje porovnávání dvou sekvencí Globální vs. lokální přiřazení Cvrčková, Úvod do praktické bioinformatiky globální přiřazení pouze u sekvencí, které jsou si podobné po celé délce srovnávané sekvence (za cenu vnášení mezer do jedné nebo obou sekvencí) globální přiřazení se používá především v případě mnohačetného přiřazování (CLUSTALW, viz dále) lokální přiřazení umožní identifikaci a srovnání i v případě porovnávání pouze úseků sekvencí s významnou mírou podobnosti, např. i při záměně pořadí proteinových domén během evoluce

Analytické nástroje porovnávání dvou sekvencí Volba správného typu přiřazení pomocí bodového diagramu (dotplot) Cvrčková, Úvod do praktické bioinformatiky vynesení sekvencí proti sobě identifikace shody v okně o dané velikosti (např. 2 bp) odfiltrování diagonál o délce menší než je mezní hodnota (threshold)

Analytické nástroje porovnávání dvou sekvencí příklady srovnání sekvencí pomocí bodového diagramu Cvrčková, Úvod do praktické bioinformatiky globálně lze srovnávat pouze sekvence A, B ostatní sekvence prošly během evoluce záměnou domén a je nutné je porovnávat lokálně bodový diagram lze získat pomocí srovnávání programem BLAST2 (viz dále)

Analytické nástroje BLAST http://ncbi.nlm.nih.gov/blast/

Podstata algoritmu BLAST (Basic Local Alignment Search Tool) Velikost vyhledávacího slova (word size): 10-11 bp, resp. 2-3 aa Primární podobnosti (seed matches) Rozšiřování oblasti homologie doprava i doleva Hodnocení homologie pomocí matice PAM (Point Accepted Mutation) nebo BLOSUM (BLOcks Substitution Matrix) Matrice PAM 250 Zobrazení výsledků Cvrčková, Úvod do praktické bioinformatiky MRKEV [delece] MRKE [záměna] MRKY [inzerce] MRAKY M R. K E V : M R A K Y.

Analytické nástroje E= expectancy value expectancy value udává předpokládaný počet sekvencí se stejnou nebo lepší podobnosti při vyhledávání ve stejně velké databázi složené z náhodných sekvencí výsledek udává frakci totožných a u proteinů i podobných pozic, příp. počet vložených mezer

Analytické nástroje specializované typy BLASTu V současnosti existuje celá řad specializovaných verzí programu BLAST vyhledávání podle zdroje (organismu) sekvencí, např. známých genomů mikroorganismů BLASTP vyhledávání podobnosti k proteinu v databázi proteinových sekvencí BLASTN vyhledávání podobnosti k nukleotidové sekvenci v databázi nukleotidových sekvencí další varianty jako např. MEGABLAST pro identifikaci totožných nebo velice podobných sekvencí (vyhledává dlouhé podobné úseky nukl. sekvencí) BLASTX vyhledávání podobnosti k proteinu v databázi nukleotidových sekvencí přeložených do sekvence aa

Analytické nástroje specializované typy BLASTu V současnosti existuje celá řad specializovaných verzí programu BLAST TBLASTN vyhledávání k sekvenci nukleotidů přeložené do sekvence aa v databázi proteinů TBLASTX vyhledávání k sekvenci nukleotidů přeložené do sekvence aa v databázi nukleotidových sekvencí přeložených do sekvence aa

Analytické nástroje specializované typy BLASTu V současnosti existuje celá řad specializovaných verzí programu BLAST PSI-BLAST (Position-Specific Iterated Blast) Prvním krokem je standardní BLAST, při kterém PSI- BLAST identifikuje skupinu podobných sekvencí s E hodnotou lepší než minimální hodnota (standardně 0,005) PSI-BLAST vytváří pro každé přiřazení tzv. PSSM (position specific substitution matrix) PSSM matice zohledňuje výskyt jedné aminokyseliny ve stejné pozici se zvýšenou frekvencí u sekvencí identifikovaných jako podobné v prvním kole pomocí BLAST, což může znamenat funkční konzervovanost

Analytické nástroje specializované typy BLASTu V současnosti existuje celá řad specializovaných verzí programu BLAST PHI-BLAST (Pattern-Hit InitiatedBlast) Určen k identifikaci specifické sekvence, např. motivu (pattern) v sekvenci podobných proteinových sekvencí Sekvenci motivu je třeba vložit pomocí speciálního syntaxu [LVIMF] znamená buď Leu, Val, Ile, Met nebo Phe - je oddělovník (neznamená nic) x(5) znamená 5 jakýchkoliv aminokyselin x(3, 5) znamená 3 až 5 jakýchkoliv aminokyselin

Analytické nástroje specializované typy BLASTu Příklad vyhledávání pomocí PHI-BLAST

Základy genomiky I. Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY Databáze Spektrum on-line zdrojů PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze GENOMOVÉ zdroje Analytické nástroje Vyhledávání homologií Vyhledávání sekvenčních motivů, otevřených čtecích rámců, restrikčních míst.

Analytické nástroje http://workbench.sdsc.edu/

Analytické nástroje

Analytické nástroje

Analytické nástroje

Analytické nástroje

Analytické nástroje

Analytické nástroje

Analytické nástroje VPCR http://elanor.sci.muni.cz/lmfr/vpcr/

Analytické nástroje

Základy genomiky I. Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY Databáze Spektrum on-line zdrojů PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze GENOMOVÉ zdroje Analytické nástroje Vyhledávání homologií Vyhledávání sekvenčních motivů, otevřených čtecích rámců, restrikčních míst. Další www genomové nástroje

www analytické nástroje TIGR (The Institute for Genomic Research, http://www.tigr.org/software/)

Základy genomiky I. shrnutí Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY Databáze Spektrum on-line zdrojů PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze GENOMOVÉ zdroje Analytické nástroje Vyhledávání homologií Vyhledávání sekvenčních motivů, otevřených čtecích rámců, restrikčních míst. Další www genomové nástroje

Základy genomiky I. dotazy