NGS analýza dat. kroužek, Alena Musilová

Podobné dokumenty
PŘEHLED SEKVENAČNÍCH METOD

Sekvenování nové generace. Radka Reifová

Sekvenování nové generace. Radka Reifová

Ondřej Scheinost Nemocnice České Budějovice, a.s.

Moderní metody analýzy genomu

Mgr. Veronika Peňásová Laboratoř molekulární diagnostiky, OLG FN Brno Klinika dětské onkologie, FN Brno

Výzkumné centrum genomiky a proteomiky. Ústav experimentální medicíny AV ČR, v.v.i.

EKONOMICKÉ ASPEKTY GENETICKÝCH VYŠETŘENÍ. I. Šubrt Společnost lékařské genetiky ČLS JEP

Masivně paralelní sekvenování

Masivně paralelní sekvenování

Ceník Agilent SureSelect

Genotypování: Využití ve šlechtění a určení identity odrůd

STRATEGIE NEXT-GENERATION SEKVENOVÁNÍ PRO REALIZACI PROJEKTŮ MALÉHO AŽ STŘEDNÍHO ROZSAHU NÁVOD NA OBJEDNÁNÍ

AUG STOP AAAA S S. eukaryontní gen v genomové DNA. promotor exon 1 exon 2 exon 3 exon 4. kódující oblast. introny

Využití metagenomiky při hodnocení sanace chlorovaných ethylenů in situ Výsledky pilotních testů

Základy praktické Bioinformatiky

Ceník Agilent SureSelect

Struktura a analýza rostlinných genomů Jan Šafář

Centrum aplikované genomiky, Ústav dědičných metabolických poruch, 1.LFUK

APLIKACE METAGENOMIKY PRO HODNOCENÍ PRŮBĚHU SANAČNÍHO ZÁSAHU NA LOKALITÁCH KONTAMINOVANÝCH CHLOROVANÝMI ETHYLÉNY

P1 AA BB CC DD ee ff gg hh x P2 aa bb cc dd EE FF GG HH Aa Bb Cc Dd Ee Ff Gg Hh

Laboratoř sekvenace DNA Servisní laboratoř biologické sekce PřF UK

Využití metod strojového učení v bioinformatice David Hoksza

Moderní metody analýzy genomu NGS aplikace

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Molekulárně biologické metody princip, popis, výstupy

Inovace studia molekulární a buněčné biologie

Mgr. et Mgr. Lenka Falková. Laboratoř agrogenomiky. Ústav morfologie, fyziologie a genetiky zvířat Mendelova univerzita

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Nové přístupy v modifikaci funkce genů: CRISPR/Cas9 systém

Využití DNA markerů ve studiu fylogeneze rostlin

Referenční lidský genom. Rozdíly v genomové DNA v lidské populaci. Odchylky od referenčního genomu. Referenční lidský genom.

Stručný návod k použití softwaru

Sekvenování příští generace (Next Generation Sequencing, NGS)

Bioinformatika a sekvenování nové generace

Sekvenace aplikace ve virologické diagnostice. Plíšková Lenka FN Hradec Králové

Metody studia historie populací. Metody studia historie populací

Bioinformatika. hledání významu biologických dat. Marian Novotný. Friday, April 24, 15

Vyhledávání podobných sekvencí BLAST

Inovace studia molekulární a buněčné biologie

Externí kontrola kvality sekvenačních analýz

OPTIMALIZACE ZAROVNÁNÍ DAT Z NEXT-GENERATION

Bakteriální transpozony

Cytogenetika. chromosom jádro. telomera. centomera. telomera. buňka. histony. páry bazí. dvoušroubovice DNA

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Genové knihovny a analýza genomu

Charakterizace hybridních trav pomocí cytogenetických a molekulárních metod

Molekulární diagnostika pletencové svalové dystrofie typu 2A

Vývoj vykazování a úhrad metod molekulárněgenetické diagnostiky a PGT ze zdravotního pojištění

Nestabilita RNA. izolace a analýza RNA : speciální přístup i techniky

Proměnlivost organismu. Mgr. Aleš RUDA

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Mutace jako změna genetické informace a zdroj genetické variability

Masivně paralelní sekvenování v diagnostice závažných časných epilepsií. DNA laboratoř KDN 2.LF a FN v Motole

Bioptická laboratoř s.r.o. a Šiklův ústav patologie Lékařské fakulty UK v Plzni

Základy molekulární biologie KBC/MBIOZ

KAM KRÁČÍŠ DĚTSKÁ NEUROLOGIE? Prof. MUDr. Pavel Kršek, Ph.D. Klinika dětské neurologie 2. LF UK a FN Motol

Seznam vyšetření. Nesrážlivá periferní krev nebo kostní dřeň

Seznam vyšetření. Detekce markerů: F2 (protrombin) G20210A, F5 Leiden (G1691A), MTHFR C677T, MTHFR A1298C, PAI-1 4G/5G, F5 Cambridge a Hong Kong

Využití rekombinantní DNA při studiu mikroorganismů

Genetický polymorfismus

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Transpozony - mobilní genetické elementy

Inovace studia molekulární a buněčné biologie

Příloha Odůvodnění účelnosti veřejné zakázky pro účely předběžného oznámení veřejného zadavatele

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

Molekulární genetika II zimní semestr 4. výukový týden ( )

Od sekvencí k chromozómům: výzkum repetitivní DNA rostlin v Laboratoři molekulární cytogenetiky BC AVČR

Mikročipy v mikrobiologii

Inovace studia molekulární a buněčné biologie

Metagenomika NGS (454, Illumina, IonTorrent) Petra Vídeňská, Ph.D.

Základní pojmy obecné genetiky, kvalitativní a kvantitativní znaky, vztahy mezi geny

Vztah genotyp fenotyp

velké fragmenty střední fragmenty malé fragmenty

Klonování DNA a fyzikální mapování genomu

NUKLEOVÉ KYSELINY. Základ života

Počítačové vyhledávání genů a funkčních oblastí na DNA

MOLEKULÁRNÍ BIOLOGIE. 2. Polymerázová řetězová reakce (PCR)

VÝZNAM NĚKTERÝCH FAKTORŮ PREANALYTICKÉ FÁZE V MOLEKULÁRNÍ BIOLOGII

Využití molekulárních markerů v systematice a populační biologii rostlin. 11. Next generation sequencing (NGS)

Bioinformatika je nová disciplína na rozhraní počítačových věd, informačních technologií a biologie. Bioinformatika zahrnuje studium biologických dat

b) Jak se změní sekvence aminokyselin v polypeptidu, pokud dojde v pozici 23 k záměně bázového páru GC za TA (bodová mutace) a s jakými následky?

Aplikace molekulárně biologických postupů v časné detekci sepse

Na rozdíl od genomiky se funkční genomika zaměřuje na dynamické procesy, jako je transkripce, translace, interakce protein - protein.

VYKAZOVÁNÍ PRO ZDRAVOTNÍ POJIŠŤOVNY

Genetický polymorfismus jako nástroj identifikace osob v kriminalistické a soudnělékařské. doc. RNDr. Ivan Mazura, CSc.

SALSA MLPA probemix P378-D1 MUTYH

Stanovení Ct hodnoty. Stanovení míry variability na úrovni izolace RNA, reverzní transkripce a real-time PCR

Terapeutické klonování, náhrada tkání a orgánů

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Struktura, vlastnosti a funkce nukleových kyselin, DNA v jádře, chromatin.

Metody studia exprese mrna. jádro a genová exprese 2007

Tématické okruhy pro státní závěrečné zkoušky

Využití strojového učení k identifikaci protein-ligand aktivních míst

Exprese genetické informace

DNA microarrays Josef Srovnal, Michaela Špenerová, Lenka Radová, Marián Hajdúch, Vladimír Mihál

1. Definice a historie oboru molekulární medicína. 3. Základní laboratorní techniky v molekulární medicíně

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/


ANALÝZA DAT ZE SEKVENOVÁNÍ PŘÍŠTÍ GENERACE KE STUDIU AKTIVITY TRANSPOSONŮ V NÁDOROVÝCH BUŇKÁCH

Transkript:

NGS analýza dat kroužek, 16.12.2016 Alena Musilová

Typy NGS experimentů Název Materiál Cílí na..? Cíl experimentu? amplikon DNA malý počet vybraných genů hledání variant exom DNA všechny geny hledání variant transkriptom (RNA-seq) RNA dle typu RNA, nejčastěji protein-kódující hledání exprimovaných variant, exprese RNA ChIP-seq DNA sekvence DNA, které váže vybraný protein hledání vazebných míst proteinů CLIP-seq RNA sekvence RNA, které váže vybraný protein interakce proteinů s RNA............

Příprava knihovny a sekvenace 1) izolace DNA / RNA 2) RNA na cdna / DNA 3) fragmentace 4) adaptery 5) sekvenování @HWI-7001454:80:C3PEGACXX:5:1207:11848:82728 GCAGAAGAGAAGGCGTGGCATAAGAGAAGACGCGGTTGTTCTGTAGAGAG +??<D;?22AA;;;E:1@EDC3CE<9?;@DADDD<DDD<AC@8=C######

Základní schéma analýzy NGS dat l 1. Primární data Sekvence (ready) ve formátu fastq @HWI-7001454:80:C3PEGACXX:5:1207:11848:82728 GCAGAAGAGAAGGCGTGGCATAAGAGAAGACGCGGTTGTTCTGTAGAGAG +??<D;?22AA;;;E:1@EDC3CE<9?;@DADDD<DDD<AC@8=C###### - několik desítek milionů sekvencí (50 150 bází), což odpovídá několika GB dat na 1 experiment single-end vs pair-end sekvenování single-end kontrola kvality primárních dat (např. program FastQC) FastQC pair-end

Základní informace o experimentu vždy FastQC

Kvalita sekvenace Distribuce Phred skóre jedn. bází FastQC DOBŘE ŠPATNĚ varování: Q < 10, median < 25 chyba: Q < 5, median < 20 pozice báze v readu Co s tím? ŘEŠENÍ: ořez koncových bází Phred skóre = -log10 * P (pravděpodobnost nesprávného určení báze)

Kontaminace Nadměrně zastoupené sekvence sekvenace 1) Adaptery 5' adapter DNA sekvence 3' adapter 2) Technické artefakty Co s tím? ŘEŠENÍ: programy, které umí adaptery z dat odstranit FastQC Co s tím? ŘEŠENÍ: nedojde k alignmentu na referenční genom

Základní schéma analýzy NGS dat l 2. Alignment (mapování) x assembly - mapování sekvencí na referenční genom - de novo skládání genomu

Základní schéma analýzy NGS dat l 2. Alignment (mapování) x assembly - mapování sekvencí na referenční genom - de novo skládání genomu

Základní schéma analýzy NGS dat l 2. Alignment (mapování) x assembly - mapování sekvencí na referenční genom - de novo skládání genomu - výhodný, když je dostupný referenční genom - rychlý, provede i normální stolní počítač - problém u repetitivních sekvencí - alignery (BWA, STAR,..) - pokud není dostupný referenční genom nebo pokud chceme individuální referenční genom - velmi náročný: čas, výkon stroje - velké problémy u repetitivních sekvencí

Alignment reference: AAATGCCGTACCGTCGTCGCCTACGAGAGGATTACTCGGTTTACCGTATCG read 1 TACCGTCGCTA

Alignment reference: AAATGCCGTACCGTCGTCGCCTACGAGAGGATTACTCGGTTTACCGTATCG read 1 TACCGTCGTCG

Alignment reference: AAATGCCGTACCGTCGTCGCCTACGAGAGGATTACTCGGTTTACCGTATCG read 1 TACCGTCGTCG CGCCTACCAGA read 2

Alignment reference: AAATGCCGTACCGTCGTCGCCTACGAGAGGATTACTCGGTTTACCGTATCG read 1 read 2 read 3 read 4 read 5 read 6 TACCGTCGTCG CGCCTACCAGA ACCAGAGGATT CAGAGGATTAC GTCGCCTACCA CTACCAGAGG

Mapping kvalita Počet bp Kontrola kvality alignmentu mapping quality = -10 * log 10 Pr (Pr = pravděpodobnost, že je read nesprávně namapován) reference mapping kvalita Co s tím? ŘEŠENÍ: ready s nízkou map. kvalitou nejsou ve většině analýz brány v potaz

Kontrola kvality experimentu Pokrytí Je třeba vždy zvolit vhodnou referenci (např. exom: omezení pouze na vybírané regiony při přípravě sekvenační knihovny) pokrytí reference Co s tím? ŘEŠENÍ: např. exom: k označení SNVs je potřeba určité pokrytí dané báze

počet readů Kontrola kvality experimentu PCR duplikáty kolikrát je read duplikován Co s tím? ŘEŠENÍ: ve většině experimentů nejsou brány v analýze v potaz

Základní schéma analýzy NGS dat l 3. Specifické kroky analýzy dle NGS experimentu Variant calling (hledání variant) amplikon, exon, RNA-seq Typy variant: - SNVs (single nucleotide variant) = záměna 1 báze - indely = krátké inzerce nebo delece (1 100 bází) CGCCTACGAGA CGCCTACCAGA CGC----AGA x CGCCTATATCCAGA - CNVs (copy number variants) = duplikace nebo delece velkých oblastí - strukturální = translokace nebo inverze velkých oblastí beze změny počtu těchto oblastí v genomu - somatické (nedědičné) - germinální (dědičné)

l 3. Specifické kroky analýzy dle NGS experimentu Variant calling (hledání variant) amplikon, exon, RNA-seq reference: AAATGCCGTACCGTCGTCGCCTACGAGAGGATTACTCGGTTTACCGTATCG read 1 read 2 read 3 read 4 read 5 read 6 TACCGTCGTCG CGCCTACCAGA ACCAGAGGATT CAGAGGATTAC GTCGCCTACCA CTACCAGAGG SNVs: G C, allele frequency 100 %

l 3. Specifické kroky analýzy dle NGS experimentu Variant calling (hledání variant) amplikon, exon, RNA-seq IGV

l 3. Specifické kroky analýzy dle NGS experimentu Hledání fúzních genů RNA-seq read pairs junction reads

l 3. Specifické kroky analýzy dle NGS experimentu Exprese RNA / genů RNA-seq - počítání countů (readů)

l 3. Specifické kroky analýzy dle NGS experimentu Exprese RNA / genů RNA-seq - počítání countů (readů)

l 3. Specifické kroky analýzy dle NGS experimentu Příklad: hledání fúzních genů & exprese RNA - RNA-seq preb-all s přestavbami v genu DUX4-4 % všech preb-all, 16 % z B-others - objev roku 2016 - skupina preb-all se specifickým expresním profilem a častými delecemi genu ERG

Děkuji za pozornost!