MASARYKOVA UNIVERZITA Přírodovědecká fakulta Ústav experimentální biologie Oddělení genetiky a molekulární biologie SEKVENOVÁNÍ NOVÉ GENERACE PŘI STUDIU REGULACE GENŮ U ROSTLIN Bakalářská práce David Vlk VEDOUCÍ PRÁCE: Doc. RNDr. Jana Řepková, CSc. Brno 2016
Bibliografický záznam Autor: Název práce: Studijní program: Studijní obor: Vedoucí práce: David Vlk Přírodovědecká fakulta, Masarykova univerzita Ústav experimentální biologie Sekvenování nové generace při studiu regulace genů u rostlin Experimentální biologie Molekulární biologie a genetika Doc. RNDr. Jana Řepková, CSc. Akademický rok: 2015/2016 Počet stran: 57 Klíčová slova: sekvenování nové generace; regulace genů; šlechtění; RNA-sekvenování; mikro RNA; epigenetika
Bibliographic Entry Author: Title of Thesis: David Vlk Faculty of Science, Masaryk University Department of Experimental Biology New generation sequencing for the study of plant gene regulation Degree Programme: Experimental Biology Field of Study: Supervisor: Molecular Biology and Genetics Doc. RNDr. Jana Řepková, CSc. Academic Year: 2015/2016 Number of Pages: 57 Keywords: Next-generation sequencing; gene regulation; breeding; RNA-sequencing; micro RNA; epigenetics
Abstrakt Cílem této bakalářské práce je shrnout poznatky o současných možnostech využití sekvenování nové generace u rostlin, se zaměřením na studium regulace genů. Práce se věnuje základním sekvenačním technikám a jejich principům při určování pořadí bází, v další části je popsán potenciál využití sekvenování nové generace u rostlin při následné aplikaci těchto poznatků ve výzkumu a šlechtění. V současné době se sekvenování nové generace stává významným nástrojem ve šlechtění prostřednictvím poznání regulace klíčových genů determinujících vlastnosti, jako je odolnost ke stresům. K tomuto účelu se využívají celogenomové studie nebo studie transkriptomů, exomů, biosyntetických drah anebo skupin genů určité funkce. Abstract The aim of this thesis is to summarize contemporary knowledge on the possibilities of use of next-generation sequencing in plants, especially in the study of gene regulation. At first, the common sequencing techniques and their principles for finding of the sequence of DNA are described, then the thesis deals with a potential of use of next-generation sequencing in plants and subsequent application in research and breeding. Nowadays, the next-generation sequencing becomes an important tool for plant breeding through knowledge of the regulation of important features such as resistance to stress. For this purpose, whole-genome studies, studies of transcriptomes, exomes, biosynthetic pathways or groups of genes of specific function are used.
Poděkování Na tomto místě chci poděkovat své školitelce Doc. RNDr. Janě Řepkové, CSc. za rady, připomínky a čas, který mi věnovala během vypracovávání této bakalářské práce.
Obsah: Seznam zkratek... - 9-1 Úvod... - 11-2 Sekvenování nové generace... - 12-2.1 454 Genome Sequencer - Roche... - 13-2.2 Illumina Genome Analyzer... - 14-2.3 AB SOLiD System - The Applied Biosystems... - 16-2.4 HeliScope - Helicos Biosciences... - 17-2.5 PacBio RS - Pacific Biosciences... - 17-2.6 Ion Semiconductor System - Ion Torrent... - 18-2.7 Oxford Nanopore... - 19-3 Sekvenování nové generace a jeho aplikace u rostlin... - 20-3.1 Vývoj molekulárních markerů... - 22-3.2 Fylogenetické a evoluční analýzy... - 23-3.3 Výzkum transkriptomu... - 24-3.4 Epigenetické studie... - 25-3.5 Šlechtění... - 26-4 Sekvenování nové generace a regulace genů u rostlin... - 29-4.1 Expresní analýzy a studium regulačních oblastí DNA... - 29-4.1.1 Regulace genů při působení stresů... - 31-4.1.2 Regulace genů při vývoji a růstu... - 32-4.2 Výzkum mikro RNA... - 32-4.3 Studium epigenetické regulace genů... - 34-5 Závěr... - 36-6 Literatura... - 38 -
Seznam zkratek 5-mC 5 -RATE AGI APS ATP BAC bp CbCC cdna circrna CUC ddntp dntp EST GS GWAS KNOX lncrna MAPK MAS mirisc mirna MPSS MTA NGS ns nt QTL PCR PPi rdna SAGE 5-metylcytosin z angl. rapid analysis of 5 transcript ends Arabidopsis Genome Initiative adenozin-5 -fosfosulfát adenozin trifosfát umělý bakteriální chromozom (z angl. bacterial artificial chromosome) párů bází (z angl. base pair) z angl. coverage-based consensus calling komplementární DNA kružnicová RNA (z angl. circular RNA) z angl. cup-shaped cotyledon dideoxynukleotid deoxynukleotid místo s expresní adresou (z angl. expressed sequence tag) genomická selekce (z angl. genomic selection) celogenomová asociační studie (z angl. genome-wide association study) z angl. knotted 1-like homeobox protein dlouhá nekódující RNA (z angl. long non-coding RNA) z angl. mitogen activated protein kinase selekce pomocí markeru (z angl. marker-assisted selection) z angl. micro RNA-induced silencing complex mikro RNA masivní paralelní sekvenování (z angl. massive parallel signature sequencing) marker vázaný k určitému genu (z angl. marker-trait association) sekvenování nové generace (z angl. next-generation sequencing) nanosekunda nukleotidů lokus kvantitativního znaku (z angl. quantitative trait loci) polymerázová řetězová reakce (z angl. polymerase chain reaction) anorganický pyrofosfát ribozomální DNA sériová analýza genové exprese (z angl. serial analysis of gene expression)
SBS SMRT SNP srna SOLiD SSR TALEN tsms UBC UTR ZFN ZMW sekvenace pomocí syntézy (z angl. sequencing by synthesis) sekvenování jednotlivých molekul v reálném čase (z angl. single molecule real-time) jednonukleotidový polymorfismus (z angl. single nucleotide polymorphism) small RNA sekvenace pomocí ligace (z angl. sequencing by oligo ligation and detection) jednoduchá repetitivní sekvence (z angl. single sequence repeat) z angl. transcription activator like effector nuclease skutečné sekvenování jedné molekuly (z angl. true single molecule sequencing) ultra-barkódování (z angl. ultra-barcoding) nepřekládaný region (z angl. untranslated region) zinc-finger nukleáza dutinka v čipu snižující pozadí fluorescence (z angl. zero-mode waveguide)
1 Úvod Sekvenování DNA je metoda umožňující určení pořadí bází v řetězci DNA. Její počátky sahají do roku 1977, kdy dva vědecké týmy nezávisle na sobě publikovaly vlastní techniky umožňující určení pořadí bází. Maxam-Gilbertova metoda se kvůli obtížnějšímu postupu záhy přestala užívat, naopak Sangerova metoda byla až do počátku nového tisíciletí nejužívanější technikou sekvenace DNA. S nástupem 21. století se na trhu začínají objevovat nové sekvenační přístroje, které znamenají začátek tzv. sekvenování nové generace. Tyto přístroje umožňují masivní paralelní sekvenování a vyznačují se vysokou rychlostí, výkonem a nízkou cenou. Přístroje sekvenování nové generace byly zpočátku využívány ke studiu genomů modelových druhů, s postupem času se ale začaly díky svým nesporným výhodám používat ke studiu druhů nemodelových, a to i u rostlin. V současné době se stále rozšiřují oblasti, kde tyto metody přispívají k novým poznatkům a aplikacím s velkým přínosem. Současné trendy jsou zaměřeny jak na studium aktivity různých genů, tak i na studie celého transkriptomu, které umožňují studovat genomy organismů bez potřeby referenčního genomu. Význam těchto informací roste i ve šlechtění, kde tato data umožňují selektovat rostliny nesoucí žádané znaky, jakou jsou geny rezistence vůči stresům. Cílem této práce je vystihnout potenciál studia regulace genů u rostlin pomocí metod sekvenování nové generace. V práci jsou nejdříve popsány běžnější techniky sekvenování, dále se práce zabývá současným využitím těchto technik u rostlin a hlavní část je věnována perspektivám a dosaženým výsledkům při studiu cílových genů a jejich regulace, a to jak na transkripční, tak i postranskripční úrovni. Na úrovni regulace transkripce se jedná především o studium exprese genů odolnosti vůči různým druhům stresu, tyto poznatky se pak dále uplatňují ve šlechtění, problematika postranskripční úrovně je zaměřena především na roli mikro RNA při regulaci genové exprese. - 11 -
2 Sekvenování nové generace Poté, co se na konci 60. let 20. st podařilo rozvinout první metody umožňující určování pořadí bází v RNA a osekvenovat tak první molekuly RNA (Barrel et Sanger, 1969), začaly se v následující dekádě vyvíjet metody sekvenování DNA. V roce 1977 tak byly nezávisle na sobě publikovány dvě práce představující nové metody sekvenování: Maxam-Gilbertova metoda a Sangerova metoda. Maxam-Gilbertova chemická metoda využívala ke zjišťování sekvence štěpení molekuly DNA pomocí chemických činidel, která jsou schopna narušit řetězec v místech specifických pro danou bázi (Maxam et Gilbert, 1977). Pro štěpení purinových nukleotidů byl využíván dimethylsulfát a pro štěpení pyrimidinových nukleotidů hydrazin. Vzniklé různě dlouhé fragmenty byly přeneseny na elektroforézu, kde podle pozice proužků ve sloupcích odpovídajícím daným nukleotidům bylo možno určit sekvenci DNA. Během vývoje druhé, enzymatické metody Sanger a kol. využili znalostí o působení dideoxynukleotidu (ddntp) jako inhibitoru syntézy DNA při jeho začlenění do řetězce (Atkinson et al., 1969) a navázali na svou předchozí práci o sekvenaci DNA pomocí systémů plus a mínus (Sanger et Coulson, 1975). Princip metody spočívá v prodlužování řetězce DNA pomocí DNA polymerázy ve směsi, která kromě čtyř standardních deoxynukleotidů (dntp) obsahuje v nižším poměru i ddntp (Sanger et al., 1977). Ve čtyřech paralelních reakcích tak vznikají různě dlouhé fragmenty DNA přerušené v místech pro specifickou bázi díky navázání příslušného ddntp. Tyto fragmenty jsou přeneseny na elektroforézu a podle pozic jednotlivých proužků je opět určeno pořadí jednotlivých bází. Sangerova metoda se díky své relativní jednoduchosti stala na příští dvě dekády nejpoužívanější metodou sekvenace DNA, přičemž se dočkala řady vylepšení jako nahrazení radioaktivního značení fluorescenčními značkami (Smith et al., 1985) anebo zavedení kapilární elektroforézy (Swerdlow et Gesteland, 1990). Postupem času však klasická metoda sekvenování přestává dostačovat zvyšujícím se nárokům, a proto se s nástupem nového tisíciletí objevují na trhu přístroje umožňující masivní paralelní sekvenování s vysokým výkonem a nízkou cenou, které se stávají základem pro tzv. sekvenování nové generace (NGS). - 12 -
2.1 454 Genome Sequencer - Roche V roce 2005 uvedla firma Roche na trh první komerčně dostupný sekvenační přístroj NGS. FLX Genome Sequencer pracuje na principu, který byl poprvé popsán v roce 1985 a který do povědomí vešel jako pyrofosfátová detekce (Nyrén et Lundin, 1985). Více než deset let pak trvalo, než se popsaná metoda začala rutinně využívat během sekvenování (Ronaghi et al., 1996). Sekvenování DNA probíhá v několika navazujících krocích. Jako vstupní materiál může být použita genomová DNA, produkt PCR, vektory umělých bakteriálních chromozomů (BAC) anebo komplementární DNA (cdna), přičemž k sekvenaci postačuje 500 ng vzorku (www.454.com 1 ). Nejdříve se připraví knihovna, která obsahuje fragmenty DNA o maximální délce 1 kb, delší vzorky jsou štěpeny nebulizací. Ke každému naštěpenému fragmentu se připojí adaptéry, které jsou důležité pro přečištění, amplifikaci a následné sekvenační kroky. Fragmenty s připojenými adaptéry jsou pak specificky navázány na mikrokuličku pomocí jednoho z adaptérů. Následující simultánní amplifikace všech vzorků probíhá pomocí emulzní PCR, kdy jednotlivé mikrokuličky s navázaným unikátním jednovláknovým fragmentem DNA jsou izolovány v oddělených kapičkách obsahujících směs pro PCR (Margulies et al., 2005). Tyto kapičky slouží jako separované mikroreaktory, ve kterých paralelně probíhá amplifikace všech vzorků vytvářející přibližně 10 7 kopií templátu na každé mikrokuličce. Každá mikrokulička je následně umístěna do jamky v pikotitrační destičce tak, aby v každé jamce byla pouze jedna kulička. Do každé jamky jsou pak přidány další kuličky obsahující DNA polymerázu, ATP sulfurylázu a luciferázu, které jsou nezbytné pro vytvoření světelného signálu. Na fragmenty jsou dále připojeny primery, které umožní průběh samotné sekvenace pomocí syntézy (SBS). Ta probíhá tak, že při promývání pikotitrační destičky vždy jedním druhem dntp dochází v případě začlenění báze do rostoucího řetězce ke vzniku pyrofosfátu, který je za účasti enzymu ATP sulfurylázy přeměněn na ATP, která je dále využívána luciferázou k přeměně luciferinu na oxyluciferin za vyzáření světelného signálu (Nyrén et Lundin, 1985) (obr. 1). Vzniklý signál je přenesen pomocí optického vlákna a zachycen citlivou CCD kamerou (Margulies et al., 2005). Data jsou dále zpracována pomocí software a konečným výstupem je graf, ze kterého lze určit pořadí bází. - 13 -
Obr. 1. Princip pyrosekvenování. V případě začlenění dntp do řetězce (1.) se uvolní pyrofosfát (2.), který je v přítomnosti substrátu adenosin-5 -fosfosulfátu (APS) přeměněn enzymem ATP sulfurylázou na ATP (3.) ATP je dále luciferázou využita k přeměně luciferinu na oxyluciferin za uvolnění světelného signálu (4.), který se v grafu projeví jako pík odpovídající danému dntp (5.) Nespotřebované dntp a ATP jsou pak degradovány enzymem apyrázou (6.) (www.bitesizebio.com; převzato a upraveno). Firma v současné době nabízí dva typy sekvenačních přístrojů, z nichž GS Junior + System je příruční typ s nižšími náklady na pořízení i na sekvenování a délkou čtených fragmentů 700 párů bází (bp) s přesností 99 % (www.454.com 2 ). GS FLX + System je vhodný pro náročné celogenomové sekvenování s délkou čtených fragmentů až 1000 bp a přesností 99,997 % (www.454.com 3 ). Na podzim roku 2013 firma oznámila ukončení vývoje sekvenačních přístrojů 454 z důvodu finančních škrtů a tlaku konkurenčních produktů, přičemž podpora těchto přístrojů definitivně skončí v polovině roku 2016 (www.genomeweb.com). 2.2 Illumina Genome Analyzer Druhý komerčně dostupný přístroj NGS představila firma Solexa v roce 2006 nedlouho předtím, než firmu odkoupila firma Illumina (www.illumina.com 1 ). Tento systém jako první využívá amplifikaci vzorku na pevném podkladu, metodu, která byla vyvinuta pouze o pár let dříve (Adessi et al., 2000). Sekvenování předchází příprava knihovny, kterou tvoří fragmenty DNA nebo RNA, zpravidla dlouhé 200-500 bp (www.illumina.com 2 ). Jako vstupní materiál pro běžné postupy sekvenování navíc postačuje pouze 10 ng vzorku (Sengupta et al., 2011). K 5 a - 14 -
3 koncům připravených fragmentů vzorku se připojí adaptéry, které jsou komplementární k adaptérům navázaným na povrchu skleněného čipu (tzv. flow cell), což je skleněná destička s 8 oddělenými řádky obsahujícími 2 druhy oligonukleotidů komplementární k adaptérům na fragmentech vzorku (www.illumina.com 2 ). Následná amplifikace probíhá pomocí tzv. můstkové PCR (z angl. bridge PCR). Jednořetězcové fragmenty se jedním koncem navazují na povrch čipu pomocí jednoho adaptéru a následně se celý fragment ohýbá díky připojení druhého adaptéru k destičce a vytváří tak tzv. můstek. Výsledkem následné PCR je paralelní amplifikace milionů fragmentů uchycených k čipu, vytvářejících tak shluky (z angl. clusters) asi 1000 kopií templátu. Dále i v tomto případě probíhá sekvenace pomocí syntézy (SBS). Po přidání polymerázy a fluorescenčně značených dntp vystupujících jako reverzibilní terminátoři (Bennett, 2004) dochází k začleňování příslušných dntp do řetězce. Po začlenění báze je fluorescenční barva detekována laserem a poté enzymaticky naštěpena, čímž pak umožňuje začlenění další báze a proces se stále opakuje. Začleňování probíhá v přítomnosti všech čtyř dntp, využívá se tedy přirozené kompetice, čímž se minimalizují chyby v inkorporaci (www.illumina.com 2 ). Původně se pro značení dntp využívaly čtyři fluorescenční barvy, což se označovalo jako čtyřkanálová SBS (tzv. Four-channel SBS), kde bylo potřeba k detekci bází potřeba 4 odlišných obrázků (www.illumina.com 3 ). Od roku 2014 se ale přistupuje k dvoukanálové SBS (tzv. Two-channel SBS), která místo čtyř barev využívá kombinaci barev, díky čemuž je možno báze detekovat pouze pomocí dvou obrázků (viz obr. 2.), čímž se celý proces sekvenace zrychluje a zjednodušuje. Obr. 2. Zobrazení pomocí technologie Two-channel SBS. Po pořízení dvou obrázků, jednoho s červeným filtrem, druhého se zeleným, dochází k určování bází. Adenin se zobrazí na obou snímcích (žlutá barva), cytosin pouze v červeném obrazu, thymin pouze v zeleném a guanin ani v jednom z obou snímků. (www.illumina.com 3 ; převzato a upraveno). Illumina zpočátku umožňovala čtení úseků dlouhých pouze 35 bp a byla tak vhodná pro resekvenování genomu (Farrer et al., 2008), v současné době už ale nabízí několik typů přístrojů od příručních, MiSeq s délkou čtení bází až 300 bp, až po přístroje řady HiSeq +, které umožňují provádět náročná celogenomová studia (www.illumina.com 4 ). - 15 -
2.3 AB SOLiD System - The Applied Biosystems Třetí přístroj NGS na bázi sekvenace pomocí ligace (angl. Sequencing by Oligo Ligation and Detection - SOLiD) od firmy The Applied Biosystems byl představen v roce 2007. Od této doby také patří mezi sekvenační technologie s nejvyšší přesností při určování bází. Příprava knihovny probíhá buď klasicky pomocí fragmentace vzorku DNA anebo vytvořením párové knihovny (angl. mate-pair) (www.thermofisher.com 1 ). Amplifikace vzorku navázaného na mikrokuličku je prováděna pomocí emulzní PCR, dále jsou mikrokuličky s denaturovanými fragmenty vloženy na skleněnou destičku, kde se k templátovému řetězci pomocí adaptérové sekvence navazují primery (Morey et al., 2013). Následně jsou na destičku přiváděny sondy tvořeny 8 nukleotidy, u nichž je specifita určena dvojicí bází na pozici 1 a 2. Každá dvojice je označena jednou ze čtyř fluorescenčních značek. Tyto sondy soutěží o ligaci na templátový řetězec; po navázání určité sondy je zachycen světelný signál a poslední tři báze včetně značky jsou odštěpeny. Na templátu tedy zůstává navázaných 5 nukleotidů, z nichž identita prvních dvou je určena značkou, 3 jsou nespecifické a další ligace pak probíhá stejným způsobem na volných místech za sondou. Po ukončení jednoho cyklu je prodlužovaný řetězec odstraněn a na templát je nasazen nový primer, o jeden nukleotid kratší než ten předchozí (www.thermofisher.com 2 ), čímž se dosáhne určení bází, které byly v předchozím cyklu vynechány. Po pěti cyklech vyměňování primerů je tak dosaženo určení každé báze dvakrát (tzv. dvoubázové dekódování) (obr. 3.), což umožňuje rozeznat SNP od systémové chyby a zvyšuje tak přesnost detekce. V současné době systém čte fragmenty dlouhé 50 až 75 bp (www.thermofisher.com 3 ) a od roku 2011 zavádí technologii tzv. Exact Call Chemistry, která umožňuje trojbázové dekódování (www.thermofisher.com 4 ), poskytující extrémně vysokou přesnost až 99,9999 %. Obr. 3. Princip dvoubázového dekódování (www.thermofisher.com 2 ; převzato a upraveno). - 16 -
2.4 HeliScope - Helicos Biosciences V době vývoje prvních přístrojů NGS publikoval Braslavsky et al. (2003) práci o možnosti sekvenování jednotlivých molekul pomocí SBS a fluorescenčního značení, což následně patentovala a v roce 2007 na trh uvedla firma Helicos Biosciences jako první přístroj sekvenování třetí generace. Tyto přístroje nevyžadují amplifikaci vzorku a k sekvenaci jim postačuje jedna molekula DNA. Systém pracující na technologii tzv. skutečného sekvenování jedné molekuly (z angl. true Single Molecule Sequencing, tsms) nevyžaduje amplifikaci vzorku, ani přípravu knihovny (www.seqll.com 1 ), díky čemuž se vyvaruje chybám vzniklých při amplifikaci, ztrátě komplexity vzorku anebo nedostatečného zastoupení vzácných transkriptů. Příprava vzorků je bez nutnosti amplifikace jednoduchá a jejím výsledkem jsou jednořetězcové templáty s 3 polyadenylovaným (poly-da) koncem (Ozsolak et al., 2010). Pomocí poly-da konců jsou templáty uchyceny na skleněné sklíčko s komplementárními oligomery, které dále slouží jako primery. Poté jsou na sklíčko přidávány polymeráza a jeden ze čtyř fluorescenčně značených dntp (Harris et al., 2008). Po začlenění báze je pomocí citlivého detekčního systému určena poloha příslušného templátu, značka je odštěpena a cyklus se opakuje. Přístroj tak dokáže tímto způsobem sekvenovat statisíce molekul DNA současně a navíc díky individuálnímu sledování každé molekuly není nutné udržovat sekvenační kroky ve stejné fázi (tzv. asynchronní syntéza), což eliminuje možnost začlenění špatné báze díky její pomalejší kinetice. Firma v současné době nabízí jeden přístroj, HeliScope TM Single Molecule Sequencer (www.seqll.com 2 ), který čte fragmenty o délce 20 až 60 bp. 2.5 PacBio RS - Pacific Biosciences Druhý systém sekvenování třetí generace představený v roce 2008 umožňuje sekvenování jednotlivých molekul v reálném čase (z angl. Single Molecule Real-Time, SMRT), tzn. přímé sledování rostoucího řetězce v daném čase (Eid et al., 2009). Sekvenace probíhá po přípravě templátu na čipu, který je pokrytý desetitisíci jamkami označovaných jako zero-mode waveguides (ZMW). Čip představuje nanofotonickou strukturu s malými jamkami, ve kterých lze díky přesně definovanému tvaru a velikosti koncentrovat fluorescenci na dno těchto dutinek s minimálním rozptylem, což se projevuje výrazným snížením pozadí fluorescence (Levene et al., 2003). Díky tomu lze na malé ploše provádět - 17 -
masivní paralelní reakce s užitím vysokých koncentrací fluoroforů a zároveň vysokou citlivostí (Flusberg et al., 2010). Prodlužování templátu probíhá na dně těchto jamek, kde je selektivně imobilizována DNA polymeráza a templát (Korlach et al., 2008), poté jsou do jamek přiváděny čtyři druhy odlišně značených dntp, při jejichž začlenění je vyzářené světlo zachyceno citlivým detekčním systémem (www.pacb.com 1 ). Mimo využití ZMW jako místa polymerace používá technologie SMRT nově také dntp, které mají fluorofor navázaný ne přímo na bázi, ale na fosfát v terminální části, jenž se odštěpuje společně se začleněním dntp do řetězce (Eid et al., 2009). Do řetězce se tak dostávají pouze přírodní neznačené dntp, což umožňuje přímé začlenění dalšího dntp v reálném čase. Firma v současné době nabízí dva přístroje, z nichž Sequel-System se používá pro celogenomové sekvenování de novo, zatímco PacBio RS II. je vhodný pro celogenomové sekvenování menších genomů s délkou čtených fragmentů až 60 kb (www.pacb.com 2 ). 2.6 Ion Semiconductor System - Ion Torrent První sekvenační technologie nepoužívající jako zdroj detekce začleňované báze světelný signál byla představena v roce 2011. Oproti ostatním platformám nabízí systém spadající pod firmu Life Technologies rychlejší a méně nákladnou variantu sekvenování díky vynechání časově náročných zobrazovacích kroků. Příprava vzorku DNA před sekvenací probíhá pomocí jeho fragmentace a navázání na adaptéry, čímž se vytvoří knihovna na adaptér vázaných fragmentů (Rothberg et al., 2011). Dále probíhá klonální amplifikace fragmentů navázaných na mikrokuličku pro vytvoření dostatečného signálu, což mj. znamená, že Ion Torrent není technologií třetí generace. Mikrokuličky s amplifikovanými templáty jsou poté umístěny na dno jamek polovodičového čipu, k nim se přidají primery a DNA polymeráza a následně se přidává vždy jeden typ dntp. Samotná sekvenace je variantou pyrosekvenační techniky (Golan et Medvedev, 2013), jenom s tím rozdílem, že určování bází probíhá na polovodičovém čipu s integrovaným obvodem, který využívá skutečnosti, že při začlenění báze dochází k hydrolýze daného dntp. Během této reakce se uvolní do roztoku vodíkový ion (www.thermofisher.com 5 ), který asi o 0,02 jednotky změní ph okolního roztoku (obr. 4.). Tato změna se projeví změnou povrchového potenciálu, kterou zaznamenává kovová senzitivní vrstva na dně jamky. Celý přístroj tedy slouží jako citlivý ph metr, který díky vynechání zobrazovacích kroků a přímým převedením chemického signálu do elektronické podoby umožňuje rychlé a masivní sekvenování s výkonem až 10 Gb za jeden dvou až čtyřhodinový běh (www.thermofisher.com 6 ). - 18 -
Obr. 4. Sekvenování technologie Ion Torrent. a) Při začlenění dntp do rostoucího řetězce vázaného na mikrokuličku v jamce čipu se uvolní vodíkový ion (H + ), který změní ph roztoku (ΔpH). Tato změna indukuje změnu povrchového potenciálu (ΔQ) kovové senzitivní vrstvy a změnu potenciálu (ΔV) S elektrody unipolárního tranzistoru, která se dále šíří až k přijímači. b) Detail začlenění dntp do rostoucího řetězce spojeného s jeho hydrolýzou a uvolnění H + (Mardis, 2013; převzato a upraveno). V současné době firma nabízí dva stolní přístroje Ion PGM System a výkonnější Ion Proton System, které čtou fragmenty o průměrné délce 200 bp (www.thermofisher.com 6 ). Třetí přístroj, Ion 5S System, je pak vhodný pro sekvenování cílených částí genomu. 2.7 Oxford Nanopore Potřeba sekvenování za nízkou cenu vedla mimo vývoje technik spoléhajících na fluorescenční značení a DNA polymerázu i k přístupům zkoumajícím méně nákladné varianty sekvenování, z nichž největší potenciál mělo užití membránového nanopóru (Kasianowicz et al., 1996). V roce 2006 byla vypracována metoda, která umožňovala tímto způsobem detekci jednotlivých dntp z exonukleázou předem naštěpeného řetězce DNA (Astier et al., 2006). Nedlouho poté bylo možno díky kovalentně vázanému adaptéru provádět již nepřetržité detekování bází při průchodu nanopórem (Clarke et al., 2009) a v roce 2012 firma Oxford Nanopore oznámila vyvinutí první sekvenační platformy na bázi nanopóru - MinION, který byl poprvé dostupný v roce 2014 (www.nanoporetech.com 1 ). Sekvenování pomocí nanopóru nepotřebuje fluorescenční značení, přidání enzymů ani žádnou další chemickou úpravu vzorku a spoléhá pouze na elektrický signál, který vzniká při průchodu DNA nanopórem (Timp et al., 2010). Kvalita sekvence je navíc během čtení konstantní, což umožňuje používání čtených fragmentů o velikosti desítek kb s rychlostí - 19 -
sekvenování 1 bp/10 ns. Příprava knihovny pro sekvenaci spočívá ve fragmentaci vzorku, navázání adaptéru a třídění fragmentů podle velikosti, fragmenty knihovny jsou nadále smíchány s pufrem a vloženy přímo do sekvenátoru (Mikheyev et Tin, 2014). Sekvenace dále probíhá na čipu obsahujícím miliony nanopórů. V ranějších fázích vývoje se používal proteinový nanopór tvořený α-hemolysinem (α-hl) ponořený v lipidové membráně (Timp et al., 2010), obě tyto komponenty měly ale funkční a strukturní nevýhody, a proto se postupem času přešlo na synteticky tvořené nanopóry v pevné membráně (angl. solid-state nanopore), tvořené převážně z nitridu křemíku nebo grafenu (www.nanoporetech.com 2 ). Nastavením určitého napětí na membráně začne nanopórem procházet proud iontů, kdy přítomnost určité molekuly v nanopóru se pak projeví jako narušení tohoto proudu, které je pro každou molekulu charakteristické (viz obr. 5). Měřením těchto narušení vznikají křivky, z nichž lze pak v DNA určit pořadí dntp, včetně modifikovaných bází. Firma nabízí tři přístroje, od přenosné platformy MinION, přes PromethION vhodný pro analýzu DNA, RNA a malých molekul, až po GridION schopný provádět komplexní analýzy v reálném čase (www.nanoporetech.com 3 ). Navzdory velkým výhodám se přístroje na bázi nanopóru stále potýkají s vysokou mírou chyb při určování sekvence (Laver et al., 2015), což prozatím brání jejich širšímu užití v základním výzkumu. Obr. 5. Sekvenování pomocí nanopóru. a. 1.) Protein na bázi helikázy rozplete DNA helix do dvou řetězců. 2.) Proteinový pór prochází membránou a obsahuje adaptér 3.) Pórem prochází proud iontů, jehož stupeň narušení je pro každou bázi typický. 4.) Molekula adaptéru v nanopóru udržuje báze na místě po dobu potřebnou k identifikaci. b. Každá báze narušuje proud pouze do určité míry, což je na tomto záznamu rozlišeno pomocí čtyř barev zastupujících jednotlivé báze (www.technologyreview.com; převzato a upraveno (a.); Clarke et al., 2009; převzato a upraveno (b.)). - 20 -
3 Sekvenování nové generace a jeho aplikace u rostlin Před nástupem sekvenování nové generace bylo určování sekvence u rostlin náročné kvůli jejich rozsáhlému genomu, vysokému obsahu repetitivních sekvencí a častým výskytům duplikací, často v kombinaci s polyploidií organismu. Po zdokonalení Sangerovy metody v 90. letech 20. st. se u rostlin poprvé podařilo určit sekvence části exprimovaných genů u modelového druhu Arabidopsis thaliana pomocí techniky tzv. expressed sequence tags (místa s expresní adresou; EST) (Newman et al., 1994). V roce 1996 byla založena nadnárodní společnost The Arabidopsis Genome Initiative (AGI) s cílem osekvenovat celý genom tohoto druhu. V roce 1999 už byla známa sekvence chromozómů 2 a 4 (Lin et al., 1999; Mayer et al., 1999) a o rok později AGI oznámila úspěšné de novo osekvenování genomu rostliny A. thaliana (115 Mb) jako prvního rostlinného druhu vůbec (The Arabidopsis Genome Initiative, 2000). Sekvenace se prováděla pomocí přístupu BAC-by-BAC, kdy se celý genom rozdělí na fragmenty, které se klonují pomocí vektorů (např. BAC) a poté se po vytvoření skupiny klonů obsahujících kompletní sekvenci provádí fragmentace těchto klonů a tzv. shotgun sekvenování. To znamená opakované sekvenování daných úseků s dostatečnými překryvy, které jsou pak do konsenzuální sekvence poskládány pomocí počítačového algoritmu. Podobným přístupem byla později získána sekvence genomu rýže (Oryza sativa L., 371 Mb) (International Rice Genome Sequencing Project, 2005). I přes zmíněné pokroky se stále nedařilo osekvenovat rostlinné genomy větší než 1 Gb anebo genomy s četnými repeticemi, takže např. genom kukuřice (Zea mays L.) odolával pokusům o sekvenování až do nástupu NGS. Přístroj firmy Roche byl díky svým dlouhým čteným úsekům úspěšně použit např. při sekvenování transkriptomu pelyňku (Artemisia tridentata Nutt.; Bajgain et al., 2011) a identifikaci nových transkriptů u A. thaliana (Weber et al., 2007). Metoda Illumina byla zpočátku kvůli svým krátkým čteným úsekům používána pouze k expresním analýzám (Filichkin et al., 2010) a resekvenování genomu (Huang et al., 2009), v současné době se už její uplatnění rozšířilo i na de novo sekvenování, např. u druhu Thellungiella parvula (140 Mb) (Dassanayake et al., 2011). Obdobně byla také využívána platforma SOLiD, a to pro analýzu transkriptomu (Autran et al., 2011) a resekvenačním projektům (Ashelford et al., 2011) u druhu A. thaliana. Metody třetí generace nejsou prozatím tak využívané jako metody druhé generace, nejpoužívanější z nich je technologie SMRT firmy Pacific Biosciences, která díky dlouhým čteným úsekům (<16 kb) dokáže osekvenovat celý genom včetně intronových sekvencí, které byly kvůli vysoké četnosti repetic dosud pouze - 21 -
obtížně sestavovány do souvislé sekvence. Pomocí této metody byl tak např. osekvenován genom druhu Oropetium thomaeum (244 Mb) (Buren et al., 2015). Stále rostoucí počet rostlin s osekvenovaným genomem nachází dále své využití především při vývoji molekulárních markerů, dále jsou běžné fylogenetické studie a v současné době se stále větší pozornost ubírá ke studiu transkriptomu a epigenetiky, které umožňují zcela nové náhledy na problematiku realizace genetické informace ve vztahu k vnějšímu prostředí. 3.1 Vývoj molekulárních markerů Jako molekulární marker se označuje známý úsek DNA na určité pozici v genomu, na které může být poté snadno identifikován. Mezi mnoha typy molekulárních markerů se k nejvýznamnějším řadí jednonukleotidový polymorfismus (SNP) a jednoduchá repetitivní sekvence (SSR). SNP, záměna jednotlivých bází v DNA, je nejužívanějším typem díky stabilitě a vysoké četnosti v genomech většiny populací, a to i u rostlin. Před nástupem NGS se pro identifikaci SNP využívalo Sangerova sekvenování amplikonů nebo výzkumu exprimovaných genů pomocí techniky EST (Lai et al., 2005), nové technologie poté umožnily identifikaci SNP v rámci celého genomu, přesto však byly zpočátku omezeny pouze na modelové druhy huseníčku (Atwell et al., 2010), kukuřice (Barbazuk et al., 2007) a rýže (Xu et al., 2012). S postupným zdokonalením sekvenačních technik byla dále umožněna identifikace SNP u významných druhů bez referenční sekvence, jako jsou obilniny nebo fazol (Trebi et al., 2011; Cortés et al., 2011), ovšem u jiných ekonomicky významných druhů se stále přístroje potýkaly s vysokou nepřesností při identifikaci SNP z důvodů nekompletního referenčního genomu, přítomnosti repetitivních elementů anebo chyb při samotné sekvenaci. Azam et al. (2012) proto vyzkoušeli nový přístup s názvem coverage-based for consensus calling (CbCC), který spočíval ve využití čtyř volně dostupných nástrojů pro přikládání krátkých sekvencí Maq, BowTie, Novoalign a SOAP2 pro identifikaci SNP. Autoři demonstrovali tento přístup při hledání SNP u cizrny (Cicer arietinum L.), kde se podařilo identifikovat 4543 markerů tohoto typu. Současným použitím zmíněných nástrojů lze dosáhnout vyšší přesnosti a větší hloubky při hledání SNP, a to navíc i u druhů bez referenčního genomu, čímž tato metoda výrazně rozšířila možnosti studia genomů nemodelových druhů rostlin. - 22 -
Markery SNP dále nacházejí uplatnění při konstrukci vazbových map, analýzách genetické diverzity anebo ve šlechtění prostřednictvím přiřazení daných SNP ke konkrétní fenotypové variantě. Markery SSR neboli mikrosatelity jsou opakující se sekvence bází o délce 1 až 6 nukleotidů, které je možné nalézt ve všech prokaryontních a eukaryontních genomech. Vzhledem k tomu, že tyto tandemové repetice mutují vysokou rychlostí od 10-7 do 10-3 na lokus za generaci (Vigouroux et al., 2002), počet opakujících se jednotek se může lišit mezi jednotlivými genotypy, což mikrosatelity jako vysoce polymorfní znaky předurčuje stát se vhodným nástrojem pro genetické analýzy. Proces identifikace SSR zahrnuje vytvoření genomové knihovny s využitím rekombinantní DNA obohacené o několik cílených motivů SSR, následnou izolaci a sekvenování klonů obsahujících dané SSR (Li et al., 2010). Uvedený proces byl však pomocí klasické Sangerovy techniky drahý a náročný, a tak až přístroje NGS díky svému výkonu a pokryvu umožnily masivní hledání mikrosatelitů v rámci celého genomu. Nejužívanější technologií NGS pro identifikaci SSR se staly díky dlouhým čteným úsekům přístroje firmy Roche, které byly úspěšně použity např. pro analýzu SSR u okurky (Cucumis sativus L.; Cavagnaro et al., 2010) a brusinky (Vaccinium macrocarpon Ait.; Zhu et al., 2012), přičemž u obou studií se podařilo identifikovat více než 100 000 nových SSR. Další užívaná metoda, Illumina, byla pak využita při studiu transkriptomu u cizrny, kde se mj. podařilo detekovat 4816 SSR (Garg et al., 2011). Uplatnění markerů SSR zahrnuje konstrukci vazbových map, mapování lokusů kvantitativního znaku (QTL), selekci pomocí markerů anebo navazující evoluční a fylogenetické analýzy. 3.2 Fylogenetické a evoluční analýzy I evoluční biologové a ekologové byli při studiích založených na mezidruhovém srovnávání, mnohdy na úrovni celého genomu, odkázáni před nástupem technik NGS pouze na modelové druhy organismů, které měly již své genomy osekvenovány klasickou Sangerovou technikou anebo alespoň disponovaly knihovnami sekvencí exprimovaných genů (EST). Později ale přichází Grover et al. (2012) s prací, která popisuje potenciál využití sekvenování cílených oblastí genomů (tzv. targeted sequencing) pomocí výkonných technik NGS, které jsou schopné rychle a efektivně zacílit na sekvence konkrétních genů a posoudit tak polymorfismy a rozdílnosti v daných úsecích mezi stovkami nebo tisíci jedinci. To může být dále využito při určování původu druhů, fylogeografie, genového toku anebo domestikace a šlechtění. - 23 -
Ve stejném roce byla pak metoda Illumina použita při fylogenetické analýze dvou linií jednoděložných rostlin, řádu Asparagales a trav z čeledi Poaceae (Steele et al., 2012). Při této studii bylo zjištěno, že při sekvenování nejaderné DNA lze i s nízkým pokrytím získat data vysoce repetitivních regionů v kvalitě umožňující zkoumat fylogenezi i u blízce příbuzných druhů a relativně nedávno oddělených taxonů. Velkých pokroků bylo dosaženo pomocí metody Illumina při sekvenování plastidové a ribozomální DNA (rdna) za účelem vytvoření tzv. DNA barkódů, což jsou molekulární profily specifické pro každý taxon. Kane et al. (2012) tak získal kompletní genomy plastidů a skoro 6000 bází jaderné rdna při výzkumu devíti genotypů u tří variet kakaovníku (Theobroma cacao L.), dále jedince druhu Theobroma cacao a jedince příbuzného druhu Theobroma grandiflorum. Obrovské množství získaných znaků výrazným způsobem překročilo charakter tradičního barkódování, které využívá pouze krátké sekvence z definovaných regionů, a proto byl tento nový přístup nazván ultra-barcoding (UBC). UBC tak tvoří vhodný doplněk k tradičnímu barkódování, protože dokáže zaznamenat rozdíly v evoluci na úrovni nižší než druh. Na nejaderné sekvence DNA se dále zaměřil Straub et al. (2012), který aplikoval techniku tzv. genome skimming, tedy hrubé sekvenování, u kterého se zaměřil na vícekopiové oblasti s cílem získat obsáhlé sekvence rdna a plastidového a mitochondriálního genomu pro navazující fylogenetické analýzy. Přestože metody NGS výrazně snížily ceny za fylogenetické studie, stále se jedná vzhledem k vyšším nárokům na techniku i cenu kvůli potřebě velkého množství vzorků o doménu spíše větších vědeckých center než soukromých laboratoří. V ČR je to mj. vědecké centrum CEITEC, kde se skupina doc. Lysáka věnuje zkoumání evoluce australských druhů čeledi brukvovitých (Brassicaceae) (www.plantcytogenomics.org). 3.3 Výzkum transkriptomu Transkriptom je soubor molekul RNA v buňce a jeho množství a složení v ní závisí na genové expresi. Díky tomu lze sekvenováním transkriptomu (neboli RNA-seq) získat údaje o exprimovaných sekvencích v konkrétních tkáních v přesně definovaném čase, a to včetně vzácných a neznámých transkriptů díky patřičné hloubce sekvenování. Další výhodou je možnost sekvenování nemodelových druhů, tedy druhů bez referenčního genomu (Novaes et al., 2008), což umožňuje skutečnost, že při studiu transkriptomu je sekvenování omezeno - 24 -
na kódující oblasti, které jsou více konzervované a které je možné porovnávat s exprimovanými sekvencemi jiných druhů. K výzkumu transkriptomu se původně využívaly sériové analýzy genové exprese (SAGE; Velculescu et al., 1995), techniky microarray (Schena et al., 1995) a metody masivního paralelního sekvenování (MPSS; Brenner et al., 2000); po nástupu NGS byly ale postupně nahrazeny těmito moderními a výkonnými technologiemi, z nichž mezi nejvíce užívané patří platforma firmy Roche, která byla úspěšně použita při sekvenování transkriptomu u řady nemodelových druhů, jako např. olivovníku evropského (Olea europaea L.; Alagna et al., 2008) anebo kultivaru Ynuong 201 u pšenice seté (Triticum aestivum L.; Zhang et al., 2016). Metoda Illumina byla díky lepšímu pokrytí pak mj. použita při RNA-sekvenování novozélandského druhu Pachycladon enysii (Collins et al., 2008) nebo himalájského endemita Gentiana straminea (Zhou et al., 2016). Jiné technologie NGS se zatím ke studiu transkriptomu u rostlin používají zřídka, naopak díky dlouhým čteným úsekům stále ještě přetrvává Sangerova technika EST (Swarbreck et al., 2011). Data získaná sekvenováním transkriptomu jsou univerzální a můžou být tak dále použita k charakterizaci genů (Dassanayake et al., 2009), získání nových a neznámých transkriptů (Denoeud et al., 2008), sledování genové exprese (Riggins et al., 2010), vývoji molekulárních markerů (Trick et al., 2009) nebo detekci alternativního sestřihu (Li et al., 2014). V poslední době se navíc stále více rozvíjí odvětví zkoumající tzv. RNA strukturom, strukturní variabilitu molekul RNA a s ní související funkce během kontroly translace, alternativního sestřihu anebo regulace genů (Ding et al., 2014). 3.4 Epigenetické studie Termín epigenetika byl použit již v roce 1942, když byly popisovány mechanismy, kterými dochází během vývoje k regulaci fenotypu pomocí vzájemné interakce genů (Waddington, 1942), později pak byl tento termín vymezen pro studium genetické informace zahrnující biochemické modifikace DNA a asociovaných proteinů, které sice regulují transkripci a ovlivňují genovou expresi, ale zároveň nezasahují do primární struktury DNA. Do epigenetických modifikací pak patří některé stálé změny ve struktuře proteinů, exprese tzv. small RNA (srna) a modifikace chromatinu, které dále zahrnují metylaci DNA, různé varianty histonů, remodelování chromatinové struktury a úpravy histonových konců jako acetylace, - 25 -
metylace, ubiquitinace a fosforylace. Epigenetické změny hrají roli při buněčném vývoji, embryogenezi, buněčné diferenciaci a odpovědi na vnější faktory. Z původních metod pro studium epigenetiky se pro zkoumání metylace používaly restrikční endonukleázy citlivé na metylaci, dále protilátky specifické vůči 5-metyl cytosinu a technika siřičitanové konverze. Tyto metody byly však omezeny pouze na určitá místa v genomu, a proto byly následně spojeny s technikou microarray, kdy se chromatinovou imunoprecipitací s využitím protilátky vůči 5-metyl cytosinu (tzv. metoda ChIP-chip) podařilo provádět celogenomové epigenetické studie (Gitan et al., 2002). Touto metodou se také později u rostlin podařilo prokázat, že i ve vysoce repetitivních oblastech heterochromatinu, jako je centromera, existují mezidruhové rozdíly v degenerovatelnosti a úrovni metylace repetitivních sekvencí (Zhang et al., 2008). Výzkum epigenetiky pak patřil mezi první oblasti, kde byly technologie NGS zavedeny a zkombinovány se stávajícími technikami, protože umožňovaly komplexní a nezkreslený pohled na epigenom. Technologie firmy Roche byla tak použita při zkoumání vlivů jednotlivých genů Dicer-like na funkci srna, umlčování genů a metylaci DNA u druhu A. thaliana (Henderson et al., 2006) nebo při mapování oblastí centromer a histony vázajících subdomén u rýže (Yan et al., 2008). Firma Illumina pak nabízí široké množství nástrojů a technik pro studium epigenetiky, přičemž se nejvíce zaměřuje na analýzy metylace DNA, a to buď klasickými přístroji NGS, anebo přístroji tzv. Methylation Arrays (www.illumina.com 5 ), a dále Illumina umožňuje analýzy interakcí mezi DNA a proteiny pomocí techniky kombinující MPSS a chromatinovou imunoprecipitaci (www.illumina.com 6 ). Illumina pak byla využita např. při rozsáhlé studii orgánově specifických epigenetických modifikací a jejich vlivů na mrna a srna u kukuřice (Z. mays; Wang et al., 2009). Od roku 2014 se do studia epigenetiky začínají také zapojovat metody sekvenování třetí generace, konkrétně Pacific Biosciences (www.pacb.com 3 ), ovšem ty se zatím zaměřují pouze na genomy člověka, a tak na rutinní analýzy epigenomů rostlin bude třeba ještě pár let počkat. 3.5 Šlechtění Šlechtění rostlin bývá výsledkem všech výše uvedených aplikačních oblastí a také konečným krokem procesu, na jehož počátku je sekvenování DNA (obr. 6.). Sekvenování genomů významných plodin se tak stává výchozím bodem pro zjištění organizace genomu a evoluce, následné resekvenační procesy umožňují odhalit genetickou variabilitu mezi jedinci - 26 -
(Turner et al., 2010). Určení sekvence pak umožňuje cílené modifikace konkrétních genů pomocí technologií editace genomů anebo identifikace vhodných mutací, které v konečném důsledku vedou k vytvoření nových alelických forem. Obr. 6. Souhrn postupů pro novodobé šlechtění rostlin. * pan genom je kompletní sada genů přítomná v určité skupině jednotlivců (např. druh)(barabaschi et al., 2016; převzato a upraveno). Před vývojem technik NGS bylo šlechtění rostlin závislé výhradně na selekci pomocí fenotypu, rychle se rozvíjející výkonné technologie však dávají stále větší prostor selekci na základě molekulárních a genotypových znaků (Myles et al., 2010), a to díky rozvíjejícím se znalostem o genetické podstatě agronomicky významných vlastností. Klíčovým faktorem je schopnost využít obrovského množství genomických dat k systematické charakterizaci fenotypů, k čemuž slouží specializované techniky, tzv. fenotypovací platfromy (phenotyping platforms; Tisné et al., 2013), které s využitím snímacích technik a příslušných softwarových aplikací umožňují nedestruktivní záznam široké škály fenotypových znaků v určitém čase, jak bylo prováděno např. u ječmene (Hordeum vulgare L.; Chen et al., 2014a) nebo u rajčete (Solanum lycopersicum L.; Petrozza et al., 2014). Pro identifikaci molekulárních markerů lokalizovaných uvnitř nebo v sousedství cílového genu (tzv. marker-trait association, MTA) se používají celogenomové asociační studie (angl. genome-wide association studies, GWAS), které šlechtitelům umožňují přímé využití MTA pro návrhy plodin s požadovanými vlastnostmi. Navzdory množství provedených GWAS u kulturních plodin se však pouze v několika případech podařilo ověřit očekávaný efekt kandidátního genu (Chen et al., 2014b), - 27 -
a to proto, že pro definitivní přiřazení určitého markeru k danému genu je většinou potřeba několika nezávislých studií. Dalším krokem po sekvenování genomu a detekci MTA je selekce pomocí molekulárních znaků, která může být prováděna dvěma způsoby. V prvním případě se využívá molekulárních markerů, které se nacházejí uvnitř nebo poblíž lokusu se známým fenotypovým efektem, což je proces známý pod termínem marker-assisted selection (MAS). Tento proces je používán během selekce relativně malého souboru genů s velkým fenotypovým účinkem a používá se většinou u agronomicky významných druhů, jako je např. kukuřice (Kuchel et al., 2005). Druhý selekční proces pak využívá všechny dostupné molekulární markery jako prediktory udávající tzv. breeding value. Tento proces, označovaný jako genomická selekce (GS), byl s úspěchem proveden i u plodin s rozsáhlým a komplexním genomem, jako je kukuřice (Windhausen et al. 2012), pšenice (Lado et al., 2013) nebo červená řepa (Würschum et al., 2013). Další alternativu pro šlechtění představuje technologie editace genomu, tedy cílené genové modifikace za účelem získání nových alelických forem v genomu kultivovaných jedinců. Editace genomu je založena na indukci dvouřetězcových zlomů v cílovém místě DNA použitím tzv. DNA-binding proteinů. U eukaryontních organismů se využívají sekvenčně specifické nukleázy (Ainley et al., 2013), a to hlavně tzv. zinc finger nukleázy (ZFN) a nukleázy označované jako TALEN (transcription activator like effector nucleases). Nukleázami indukované zlomy pak mají za následek sadu mutací v cílovém genu, mnohonásobné dvouřetězcové zlomy se také využívají při homologní rekombinaci mezi chromozomální a cizí donorovou DNA. Indukovaná mutaganeze genů pro acetolaktát syntázu pomocí ZNF tak přinesla výsledky u tabáku (Nicotiana tabacum L.), u kterého se podařilo navodit rezistenci k imidazolinonovým herbicidům (Townsend et al., 2009) a TALEN byly pak mj. použit při cílené mutagenezi genů rýže souvisejícími s morfologickými a jakostními znaky (Shan et al., 2013). - 28 -
4 Sekvenování nové generace a regulace genů u rostlin Do regulace genové exprese patří všechny kontrolní mechanismy, které jsou buňkou využívány ke zvýšení či snížení produkce určitého genového produktu, přičemž cílem je zajištění exprese genů ve správný čas a na správném místě. Tyto mechanismy bývají ovlivněny jak signály z prostředí, tak signály z okolních buněk nebo tkání a během samotného procesu exprese genů působí na několika úrovních. Transkripční kontrola ovlivňuje místo a čas transkripce daného genu, posttranskripční kontrola zajišťuje správný sestřih primárního transkriptu a dále pak existuje selekce mezi RNA, která se transportuje do cytoplazmy. Mimo jádro je to pak výběr mrna, která bude na ribozomech překládána, tzv. translační kontrola, a selektivní degradace mrna v cytoplazmě. Poslední úroveň, posttranslační kontrola, zahrnuje selektivní modifikace a aktivace již nasyntetizovaných proteinů. O existenci epigenetických procesů a jeho určitému vlivu na regulaci genů se vědělo již ve 40. letech 20. st (Waddington, 1942), o deset let později byla pak popsána první interakce mezi různými geny, když McClintock (1951) objevila funkci transpozonů (Ac/Ds) při tvorbě barvy semen u kukuřice. První regulační systém na bázi operonu (lac operon) byl objeven až o dalších deset let později. V 90. letech pak přišel objev mikro RNA u druhu Caenorhabditis elegans, kde produkty genu lin-4 regulovaly larvální vývoj háďátka represí genu lin-14 (Lee et al., 1993). Po roce 2000 se již prováděly výzkumy mikro RNA i u rostlin (Kurihara et Watanabe, 2004). V kontextu NGS jsou důležité ty mechanismy regulace, které více či méně souvisejí s primární strukturou DNA, a proto v této problematice nacházejí sekvenační technologie uplatnění při analýzách genové exprese a sekvenování regulačních oblastí DNA (Wilhelm et al., 2008), při analýzách mikro RNA pomocí sekvenování transkriptomu (Song et al., 2010) a při studiu regulace genů pomocí epigenetických procesů (Cokus et al., 2008). 4.1 Expresní analýzy a studium regulačních oblastí DNA Snaha identifikovat a kvantifikovat mrna organismů v různých podmínkách anebo v odlišných tkáních vyvrcholila v průběhu 90. let 20. st., kdy byly vyvinuty první techniky ke studiu genové exprese založené na sekvenaci fragmentů DNA. První z nich byla metoda SAGE, která používá sekvenčně specifické restrikční endonukleázy k získání fragmentů cdna o délce 9 až 14 bp (tzv. tagy) imobilizovaných na streptavidin na svém 3 konci (Velculescu et al., - 29 -
1995). Tyto fragmenty jsou pak opět štěpeny a následně spojeny do konkatemerů. Po amplifikaci pomocí PCR jsou úseky osekvenovány za účelem získání expresního profilu odpovídající mrna. O pět let mladší metoda MPSS také nejdříve přepisuje mrna do cdna a dává vzniknout krátkým fragmentům cdna, které jsou vzápětí navázány na oligonukleotid, jenž umožňuje jejich amplifikaci pomocí PCR a navázání na mikrokuličku (Brenner et al., 2000). Následuje určení sekvence na každé mikrokuličce pomocí hybridizačních nebo fluorescenčních sond, kdy fluorescenční snímač zachytí signál ze všech kuliček na destičce a sekvence je tak určena ze všech kuliček současně. Druhou, koncepčně odlišnou metodu k měření genové exprese představuje technika microarray, kde jsou fragmenty cdna hybridizovány na čip pokrytý oligonukleotidovými sondami, které jsou komplementární k sekvencím zjišťovaných genů (Schena et al., 1995). Množství jednotlivých mrna je odvozováno pomocí intenzity hybridizace k odpovídajícím sondám na čipu. Navzdory nesporným výhodám však tyto metody neumožňovaly díky malé hloubce sekvenování detekci vzácných transkriptů a nenabízely tak kompletní přehled transkriptomu v dané buňce. NGS však díky svému výkonu tento nedostatek překonávají, a proto došlo k zavedení těchto technik do studia genové exprese. Metoda s názvem DeepSAGE tak kombinuje klasickou metodu SAGE se sekvenační technologií firmy Roche, jejíž účinnost byla demonstrována při analýze transkriptomu rajčete, při které bylo nalezeno množství vzácných transkriptů (Nielsen et al., 2006). Další technika pro výzkum mrna s názvem 5 -RATE (rapid analysis of 5 transcript ends) kombinuje úpravu 5 konců mrna, SAGE a sekvenační techniku firmy Roche, jejíž efektivita byla představena na výzkumu transkriptomu kukuřice (Gowda et al., 2006). NGS také usnadňuje vytváření knihoven EST, což je sada jednotlivých exprimovaných sekvencí cdna, které se používají k vytváření expresních profilů. Pomocí technologie Roche tak byla vytvořena knihovna EST druhu A. thaliana (Weber et al., 2007; Jones-Rhoades et al., 2007), dále modelového druhu leguminóz, druhu Medicago truncatula (Cheung et al., 2006), a kukuřice (Ohtsu et al., 2007). V neposlední řadě pak byla vyvinuta metoda zaměřující se na sekvence ve 3 nepřekládaných regionech (3 -UTR) genů, která umožňuje rozlišení blízce příbuzných transkriptů, což lze nadále využít při studiu alelově specifických transkriptů (Eveland et al., 2008). Velmi rozšířené jsou i metody klasického sekvenování RNA pomocí metod NGS, které pomocí specializovaných softwarů umožňují kvantitativní, rychlé a přesné měření genové exprese (Hoen et al., 2008). - 30 -