Sekvenovanie a zostavovanie genómov (genome sequencing and assembly) Tomáš Vinař

Podobné dokumenty
Kombinatorická pravdepodobnosť (opakovanie)

Moderné vzdelávanie pre vedomostnú spoločnosť/projekt je spolufinancovaný zo zdrojov EÚ. Grafy

ZÁKLADY TEÓRIE GRAFOV

Zdravotné postihnutie verzus kúpa osobného motorového vozidla

Kombinatorická pravdepodobnosť (opakovanie)

Imagine. Popis prostredia:

Nová maturita - zmeny v maturite 2013

Uvoľnené úlohy v medzinárodných testovaniach a ich využitie vo vyučovaní

Zachovanie mentálnej mapy pri interakcií s grafom. RNDr. Jana Katreniaková PhD.

TEÓRIA FARIEB, FAREBNÉ MODELY

Preprava lítiových batérií. Začať

Návod na použitie zápisníka jedál

Astronomická fotografia -- kuchárka pre digitálnu fotografiu

Autoindex nad DNA sekvencemi

Funkcia - priradenie (predpis), ktoré každému prvku z množiny D priraďuje práve jeden prvok množiny H.

Studentove t-testy. Metódy riešenia matematických úloh

PROGRAM VZDELÁVACEJ ČINNOSTI. Anotácia predmetu

Jednoduchá správa pamäte

Obvod štvorca a obdĺžnika

Centrum pedagogicko-psychologického poradenstva a prevencie Letná 44, Rožňava

Matematika test. 1. Doplň do štvorčeka číslo tak, aby platila rovnosť: (a) 9 + = (b) : 12 = 720. (c) = 151. (d) : 11 = 75 :

Teória grafov. Stromy a kostry 1. časť

Sekvenování nové generace. Radka Reifová

Skrutka M6x20 mm (1) Skrutka M5x20 mm (1) Skrutka 5/8 " 32 x 5/ 8 (1) Skrutka 1/4 " 32 x 5/ 2 (2) Plastová podložka M5x1/8 (1)

Matematika test. Cesta trvala hodín a minút.

KATEDRA DOPRAVNEJ A MANIPULAČNEJ TECHNIKY TESTOVANIE ŠTATISTICKÝCH HYPOTÉZ

Súmernosti. Mgr. Zuzana Blašková, "Súmernosti" 7.ročník ZŠ. 7.ročník ZŠ. Zistili sme. Zistite, či je ľudská tvár súmerná

Rozhodovanie za rizika a neistoty. Identifikácia, analýza a formulácia rozhodovacích problémov

Výsledky testovania žiakov 5. ročníka vybraných ZŠ v školskom roku 2014/2015 Testovanie v papierovej forme

Prognózy pre lekárne 2018

VECIT 2006 Tento materiál vznikol v rámci projektu, ktorý je spolufinancovaný Európskou úniou. 1/4

Metóda vetiev a hraníc (Branch and Bound Method)

Základy algoritmizácie a programovania

PODPROGRAMY. Vyčlenenie podprogramu a jeho pomenovanie robíme v deklarácii programu a aktiváciu vykonáme volaním podprogramu.

KOMUNIKÁCIA PROSTEDNÍCTVOM IKT INTERNET IV. Interaktívna komunikácia, diskusné skupiny a fóra

Import cenových akcií FRESH

Podlimitná zákazka Verejný obstarávateľ

P RSO S N O ALIST S IKA K A RIADENIE UDSK S Ý K CH

Fenotypová a genetická analýza produkčných a reprodukčných ukazovateľov čistokrvných cigájskych oviec vo vybraných chovoch Prešovského kraja.

Názov: Osmóza. Vek žiakov: Témy a kľúčové slová: osmóza, koncentrácia, zber dát a grafické znázornenie. Čas na realizáciu: 120 minút.

ROZHODOVANIE O VÝBERE TRHU

Osoba podľa 8 zákona finančné limity, pravidlá a postupy platné od

Finančný manažment, finančná matematika a účtovníctvo

Skupiny finančných nástrojov a produktov zodpovedajúce typu investora

Kontrola väzieb výkazu Súvaha a Výkaz ziskov a strát Príručka používateľa

Prevody z pointfree tvaru na pointwise tvar

Skákalka. Otvoríme si program Zoner Callisto, cesta je Programy Aplikácie Grafika Zoner Callisto.

Výsledky žiakov podľa stupňa najvyššieho dosiahnutého vzdelania

Riešené úlohy Testovania 9/ 2011

Plánovanie procesov a vlákien

Prijímacie skúšky kritériá pre školský rok 2017/2018

1. Otec, mama a dcéra majú spolu 69 rokov. Koľko rokov budú mať spolu o 7 rokov? a) 76 b) 90 c) 83 d) 69

15. Príkazy vetvenia

M úlohy (vyriešené) pre rok 2017

Informatika a jej jednotlivé oblastí

Používateľská príručka: MOODLE

Správa o výsledkoch riešenia projektu

Sekvenování nové generace. Radka Reifová

Súťaž Vráťme knihy do škôl je tu už po 7-krát!

Modré obrázkové slová skladanie slov z písmen

Textový editor WORD. Práca s obrázkami a automatickými tvarmi vo Worde

Pan-európsky prieskum verejnej mienky o ochrane zdravia a bezpečnosti pri práci Reprezentatívne výsledky za 27 členských štátov Európskej únie

Molekulární genetika IV zimní semestr 6. výukový týden ( )

Uvedenie knihy Podzemie Malých Karpát. Marianka,

Ružové obrázkové slová skladanie slov z písmen

TEMATICKÝ OKRUH VEK DETÍ TÉMA

Aktivizujúce úlohy k téme tuky

Multiplexor a demultiplexor

1.5 Spoločné a rozdielne vlastnosti kvapalín a plynov PL KEGA 130UK/2013

Erasmus+ Online jazyková podpora (OLS) Využite svoj pobyt Erasmus+ naplno!

Limita funkcie. Čo rozumieme pod blížiť sa? y x. 2 lim 3

v y d á v a m m e t o d i c k é u s m e r n e n i e:

Operačná analýza 2-12

Ing. Peter Delinčák 9 / 2011

Súťaž Vráťme knihy do škôl je tu už po 5-krát!

Obrázok Časový plán projektu, určite kritickú cestu. Obrázok Časový plán projektu, určite kritickú cestu

Humanoidné systémy... počítačové videnie... Peter Sinčák & Mária Virčíková

Rozšírený zápis ZoznamŠkôl.eu

Ak si plánujete založiť účet, tento článok je určený pre Vás. Pozrite sa na prehľad služieb a ceny všetkých bánk na slovenskom trhu.

Matematika pre tretiakov. Ako reaguje séria učebných materiálov M. Belica a J. Striežovskej na zmeny v išvp

Praderov-Williho a Angelmanov syndróm: príklady poruchy genómového imprintingu Lívia Lukáčková

Vysvetlivky ku kombinovanej nomenklatúre Európskej únie (2011/C 189/06)

Užívateľská príručka systému CEHZ. Základné zostavy Farmy podľa druhu činnosti

Veľké porovnanie HD technológií - HD-TVI, HD-CVI, HD-SDI, analógové a IP kamery

PPC brief. Zadanie pre tvorbu PPC reklamnej kampane

Peter Javorský BNK I 2003/2004

Každá značka má svoje DNA

KOMBINATORICKÉ PRAVIDLO SÚČINU

Návrh postupu pre stanovenie počtu odborných zástupcov na prevádzkovanie verejných vodovodov a verejných kanalizácií v správe vodárenských spoločnosti

Externé zariadenia Používateľská príručka

TEMATICKÝ OKRUH VEK DETÍ TÉMA

Vážení používatelia programu WISP.

VYHODNOTENIE ANONYMNÉHO DOTAZNÍKA ŽIAKOV V ŠKOLSKEJ JEDÁLNI ZŠ s MŠ FRANCISCIHO V POPRADE ZA ŠK. ROK 2014/2015

Kvadratické funkcie, rovnice, 1

Diplomový projekt. Detská univerzita Žilinská univerzita v Žiline Matilda Drozdová

PRAVIDLA HRY / PRAVIDLÁ HRY

Smernica pre výkon finančnej kontroly na Mestskom úrade v Lipanoch

N i t r i a n s k y s a m o s p r á v n y k r a j Štefánikova 69, NITRA

Základy optických systémov

Úvod Cytológia Bunka Chemické zloženie živej hmoty Membránové štruktúry bunky... 17

Transkript:

Sekvenovanie a zostavovanie genómov (genome sequencing and assembly) Tomáš Vinař 22.9.2016 1

Sangerovo sekvenovanie Výsledok: sekvenovací profil (trace) Ďalej sa spracuje pomocou programu PHRED: Na každej pozícii (kde sa dá) určí bázu (A,C,G,T) Pre každú bázu odhadne kvalitu q (10 q/10 je pravdepodobnosť chyby, t.j. bázy s kvalitou q > 40 sú správne na 99.99%) Sangerovo sekvenovanie produkuje čítania (reads) dlhé 500-1000 bp Ako osekvenovať dlhú DNA sekvenciu? 2

Typický priebeh sekvenovania 1. Chromozómy náhodne rozsekáme na menšie kúsky (napr. pomocou sonikácie) 2. Menšie kúsky namnožíme (napr. pomocou PCR, bakteriálneho klonovania a pod.) 3. Konce týchto kúskov osekvenujeme niektorou zo sekvenovacích technológií mnoho krátkych reťazcov, ktoré nazývame čítania 4. Čítania výpočtovo zostavíme späť do chromozómov 3

Prehľad sekvenovacích technológií Technológia Dĺžka čítania Chybovosť Za deň Cena za MB 1. generácia Sanger do 1000 bp < 2% 3 MB $4000 2. (next) generácia (cca 2004) Illumina 2 150bp < 2% 30 GB < $1 3. generácia (práve nabieha) PacBio 6-25 Kbp 15% 1 GB $2 Oxford Nanopore up to 100kbp 30% 4

Bioinformatický problém: Zostavenie genómu (sequence assembly) Vstup: krátke čítania sekvenovanej DNA Cieľ: zostaviť pôvodnú DNA riadime sa zhodou v prekrývajúcich častiach čítaní Dôležité faktory: dĺžka genómu pokrytie (coverage) koľko krát čítania pokrývajú genóm? 5

Formulácia problému Najkratšie spoločné nadslovo (shortest common superstring) Úloha: Daných je niekoľko reťazcov (čítaní), nájdite najkratší reťazec, ktorý obsahuje všetky vstupné reťazce ako (súvislé) podreťazce. Motivácia: čo najviac využiť prekryvy medzi čítaniami Príklad: Vstup: GCCAAC, CCTGCC, ACCTTC Výstup: CCTGCCAACCTTC (najkratšie možné) 6

Najkratšie spoločné nadslovo Problém je NP ťažký takže nepoznáme rýchly algoritmus, ktorý vždy nájde najlepšie riešenie Jednoduchá heuristika: opakovane nájdi dva reťazce, ktoré sa prekrývajú najviac a zlúč ich do jedného reťazca Príklad: CATATAT, TATATA, ATATATC Optimum: CATATATATC, dĺžka 10 Heuristika: CATATATCTATATA, dĺžka 14 V skutočnosti táto heuristika aproximačný algoritmus: Nájdené riešenie je najviac 3,5 horšie ako optimálne T.j. je to 3,5-aproximačný algoritmus (možno aj 2-aproximačný, otvorený problém) Existuje aj 2,5-aproximačný algoritmus 7

Najkratšie spoločné nadslovo: Čo sme nezahrnuli do formulácie V sekvenovaní sa vyskytujú chyby (cca 1 zo 100 báz) Polymorfizmus Orientácia čítaní (vlákno, strand) Kontaminácia cudzou sekvenciou (napr. baktérie, v ktorých sa segmenty DNA klonovali), chiméry Viac chromozómov, neúplné pokrytie čítaniami Repetitívna sekvencia (sequence repeats, opakovania) cca 50% ľudského genómu Príklad: 10xTTAATA, 10xATATTA, 3xTTAGCT TTAATATTAGCT? TTAATATTAATATTAATATTAATATTAGCT? TTAATATTA + ATATTAGCT? 8

Najkratšie spoločné nadslovo: Zľahčujúce faktory Prídavná informácia: spárované čítania (Pair-end reads) 500bp znama vzdialenost 500bp plazmid 2 10 kb kozmid 40 kb Zjednodušenie: nemusíme spojiť všetko do jedného reťazca, spájame len časti spojené viacerými čítaniami konzervatívny prístup (radšej menej pospájať, ale nerobiť chyby) 9

Najkratšie spoločné nadslovo: Zhrnutie Nerealistická formulácia, ťažký výpočtový problém Ale teoretický problém môže poskytnúť nejaký posun k pochopeniu skutočného problému Overlap-Layout-Consensus prístup motivovaný greedy algoritmami pre najkratšie spoločné nadslovo 10

Skladanie krátkych čítaní: de Bruijnove grafy Predpokladajme jednu orientáciu, žiadne chyby, jeden chromozóm úplne pokrytý čítaniami Nasekajme čítania na (prekrývajúce sa) kúsky dĺžky k Zostavme z nich de Bruijnov graf vrcholy: podreťazce dĺžky k všetkých čítaní hrany: nadväzujúce k-tice v rámci každého čítania (s prekryvom k 1) Graf je orientovaný (hrany majú smer) Príklad: k = 2, čítania: CCTGCC, GCCAAC CA AA AC CC CT TG GC 11

Ako použiť de Bruijnove grafy? CA AA AC CC CT TG GC jediný chromozóm a žiadne nejednoznačné k-tice zostavenie = Eulerovská cesta (cesta v grafe, ktorá použije každú hranu práve raz) Eulerovskú cestu možno nájsť v čase O(m+n) v realistickom prípade: zostavenie genómu zodpovedá niekoľkým pochôdzkam v de Bruijnovom (nazývame kontigy), ktoré dohromady pokrývajú veľkú časť hrán 12

Príklad: sada čítaní a zodpovedajúci debruijnov graf GTCGAGCAAGTACGAGCATAG TCGAGCA AGCATAG AGCAAaT AGCATAG GTCGAcC GTACGAG GTCGAGC TACGAGC CGAGCAA ACGAGCA AGTgCGA CAAGTAC GCAAGTA GAGCAT GAGCAAG GAGCATA TACGAGC GTC AAa AaT 2x GTA 2x TAC 2x 3x TCG ACG 3x 4x 8x CGA GAG GAc 9x AGC AcC 9x GCA 4x CAT 3x ATA 2x TAG CAA 3x AAG 2x AGT GTg TgC gcg 4x 13

Príklad: zjednodušovanie de Bruijnovho grafu GTC AAa AaT 2x GTA 2x TAC 2x 3x TCG ACG 3x 4x 8x CGA GAG GAc 9x AGC AcC 9x GCA 4x CAT 3x ATA 2x TAG CAA 3x AAG 2x AGT GTg TgC gcg 4x Spojíme jednoznačné cesty do vrcholov AAGT GTgCG CAA AAaT GTACG GTCG CGA GAcC GAGCA CATAG 14

Príklad: odstraňovanie chýb z de Bruijnovho grafu AAGT GTgCG CAA AAaT GTACG GTCG CGA GAcC GAGCA CATAG Odstránenie chýb (výbežkov a bublín s nízkym pokrytím) GTCG CGA GAGCA CATAG CAA AAGT GTACG Spájaním dostaneme 4 kontigy (pôv. GTCGAGCAAGTACGAGCATAG) GTCG CGAGCA CATAG CAAGTACG 15

Typické výsledky zostavovania genómov Veľa kratších kontigov, ktoré možno ďalej kombinovať do väčších celkov (scaffolds) pomocou ďalšej informácie (napr. spárované čítania) Niektoré časti nemožno jednoznačne zostaviť z dôvodu dlhých opakujúcich sa sekvencií Príklad: človek chr14, 88 Mbp, 70 pokrytie Metóda Počet kontigov Chýb N50 po korekcii Velvet (základný de Bruijn) >45000 4910 2.1 kbp Velvet (scaffolding) 3565 9156 27 kbp AllPaths-LG 225 45 4.7 Mbp N50: kontigy s touto alebo dlhšou dĺžkou pokrývajú 50% genómu korekcia: rozsekneme všetky zle spojené kontigy 16

História sekvenovania genómov 1976 MS2 (RNA vírus) 40 kb 1988 projekt sekvenovania ľudského genómu (15 rokov) 1995 baktéria H. influenzae 2 MB, shotgun (TIGR) 1996 S. cerevisiae 10 MB, BAC-by-BAC (Belgicko, Británia) 1998 C. elegans 100 MB, BAC-by-BAC (Wellcome Trust) 1998 Celera: ľudský genóm do troch rokov! 2000 D. melanogaster 180 MB, shotgun (Celera, Berkeley) 2001 2x ľudský genóm 3 GB (NIH, Celera) po 2001 Myš, potkan, kura, šimpanz, pes, makak,... 2007 Watsonov a Venterov genóm (454) 2012 1000 ľudských genómov čoskoro 10k genómov stavovcov 17

Zhrnutie Sekvenovanie genómu je zložitý proces, v ktorom hrá bioinformatika dôležitú úlohu V súčasnosti niekoľko nových technológií, nízka cena, krátke čítania Problém zostavovania genómu, najkratšie spoločné nadslovo Overlap-Layout-Consensus Praktické riešenie: de Bruijnove grafy V zostavenej sekvencii môžu byť chyby, medzery, viaceré kontigy Pokrytie genómu a veľkosť čítania hrajú najdôležitejsiu úlohu pri tom, ako fragmentovaný bude výsledok: pre Sanger: 7-10 pokrytie pre NGS: 40-70 pokrytie 18

Použitie NGS: Populačná genetika Sekvenujeme krátke čítania z genómu určitého človeka Ako sa môj vlastný genóm líši od genómu priemerného človeka? Ako jednoduché genetické rozdiely ovplyvňujú fenotyp? Personalizovaná medicína Populačná štruktúra, história ľudstva Etické otázky Problémy: Mapovanie krátkych čítaní na referenčnú sekvenciu Identifikácia rozdielov (malých a väčších) 19

Použitie NGS: Environmentálne sekvenovanie Metagenomika Aké mikroorganizmy žijú v našich telách? črevná a žalúdočná flóra, ústna dutina, koža,... Diverzita mikroorganizmov v rôznych ekosystémoch Ťažké izolovať jednotlivé organizmy Sekvenujeme zmes čítania z rôznych genómov Snažíme sa zostaviť aspoň krátke kontigy Problémy: Oddelenie čítaní/kontigov patriacich do rôznych genómov 20

DNA: RNA: gén transkripcia do RNA replikácia RNA: RNA: spracovanie RNA proteín: translácia do proteínu regulácia 21

Použitie NGS: Hľadanie génov, väzobných miest,... Sekvenovať môžeme aj RNA, dostávame gény v genóme Chip-Seq: vyfiltrujeme kúsky DNA, na ktoré je naviazaný určitý proteín, sekvenujeme, mapujeme na genóm Problémy: Identifikácia miest zostrihu Identifikácia väzobných miest podľa hĺbky pokrytia 22