DNA mikročip je mikročip složen z krátkých DNA sekvencí (oligonukleotidů)

Podobné dokumenty
Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Inovace studia molekulární a buněčné biologie

Mikročipy v mikrobiologii

Hybridizace nukleových kyselin

Popisná statistika kvantitativní veličiny

Metody studia exprese mrna. jádro a genová exprese 2007

Pokročilé biofyzikální metody v experimentální biologii

Výzkumné centrum genomiky a proteomiky. Ústav experimentální medicíny AV ČR, v.v.i.

Centrum aplikované genomiky, Ústav dědičných metabolických poruch, 1.LFUK

DNA TECHNIKY IDENTIFIKACE ŽIVOČIŠNÝCH DRUHŮ V KRMIVU A POTRAVINÁCH. Michaela Nesvadbová

Statistika pro geografy

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

co to je genový čip (DNA microarray)? DNA šikování

Amplifikační metody umožňují detekovat. k dispozici minimálně kopií DNA,

2. Z následujících tvrzení, týkajících se prokaryotické buňky, vyberte správné:

Klonování DNA a fyzikální mapování genomu

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

NGS analýza dat. kroužek, Alena Musilová

6. Kde v DNA nalézáme rozdíly, zodpovědné za obrovskou diverzitu života?

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

vzorek vzorek

Metoda Live/Dead aneb využití fluorescenční mikroskopie v bioaugmentační praxi. Juraj Grígel Inovativní sanační technologie ve výzkumu a praxi

genové čipy co to je genový čip (DNA microarray)? DNA šikování 15/03/2010

Zpracování astronomických snímků (Část: Objekty sluneční soustavy) Obsah: I. Vliv atmosféry na pozorovaný obraz II. Základy pořizování snímků planet

studium množství určitého transkriptu v daném vzorku a v množství dané molekuly mrna v dané buňce a v daném

ZDRAVOTNÍ NEZÁVADNOST POTRAVIN

SYNTETICKÉ OLIGONUKLEOTIDY

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Stanovení Ct hodnoty. Stanovení míry variability na úrovni izolace RNA, reverzní transkripce a real-time PCR

AUG STOP AAAA S S. eukaryontní gen v genomové DNA. promotor exon 1 exon 2 exon 3 exon 4. kódující oblast. introny

Robustní odhady statistických parametrů

Jednofaktorová analýza rozptylu

Exprese genetické informace

Implementace laboratorní medicíny do systému vzdělávání na Univerzitě Palackého v Olomouci. reg. č.: CZ.1.07/2.2.00/

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Metody studia genové exprese

Určení koncentrace proteinu fluorescenční metodou v mikrotitračních destičkách

7. Rozdělení pravděpodobnosti ve statistice

Nukleosidy, nukleotidy, nukleové kyseliny, genetická informace

Fluorescence (luminiscence)

Referenční lidský genom. Rozdíly v genomové DNA v lidské populaci. Odchylky od referenčního genomu. Referenční lidský genom.

Rekombinantní protilátky, bakteriofágy, aptamery a peptidové scaffoldy pro analytické a terapeutické účely Luděk Eyer

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba nelineárních regresních modelů v analýze dat. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Genetický polymorfismus

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Laboratoř molekulární patologie

DIAGNOSTICKÝ KIT PRO DETEKCI MINIMÁLNÍ REZIDUÁLNÍ CHOROBY U KOLOREKTÁLNÍHO KARCINOMU

Polymerázová řetězová reakce. Základní technika molekulární diagnostiky.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Polymorfizmy detekované. polymorfizmů (Single Nucleotide

Posouzení přesnosti měření

Fluorescenční mikroskopie

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Hybridizace. doc. RNDr. Milan Bartoš, Ph.D.

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Analýza dat na PC I.

Ústav experimentální medicíny AV ČR úspěšně rozšířil přístrojové vybavení pro vědce z peněz evropských fondů

Molekulární biotechnologie č.9. Cílená mutageneze a proteinové inženýrství

GENOTOXICITA A ZMĚNY V GENOVÉ EXPRESI

Potlačování šumu v mikroskopických snímcích pomocí adaptivního non-local means filtru

Algoritmy a struktury neuropočítačů ASN - P11

DIAGNOSTICKÝ KIT PRO DETEKCI MINIMÁLNÍ REZIDUÁLNÍ CHOROBY U KARCINOMU PANKREATU

Inovace studia molekulární a buněčné biologie

Principy a instrumentace

Robustní statistické metody

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Testování hypotéz o parametrech regresního modelu

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Inovace studia molekulární a buněčné biologie

Číselné charakteristiky a jejich výpočet

Chyby měření 210DPSM

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Analýza DNA. Co zjišťujeme u DNA

Molekulová spektroskopie 1. Chemická vazba, UV/VIS

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Analýza DNA. Co zjišťujeme u DNA DNA. PCR polymerase chain reaction. Princip PCR PRINCIP METODY PCR

2 Hlavní charakteristiky v analýze přežití

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Agilent 5110 ICP-OES vždy o krok napřed

Charakterizace hybridních trav pomocí cytogenetických a molekulárních metod

ABSORPČNÍ A EMISNÍ SPEKTRÁLNÍ METODY

nastavení real-time PCR cykleru Rotor Gene 3000

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

Metodologie pro Informační studia a knihovnictví 2

StatSoft Jak se pozná normalita pomocí grafů?

Na rozdíl od genomiky se funkční genomika zaměřuje na dynamické procesy, jako je transkripce, translace, interakce protein - protein.

IDENTIFIKACE BIMODALITY V DATECH

Testování hypotéz o parametrech regresního modelu

13 Barvy a úpravy rastrového

DNA microarrays Josef Srovnal, Michaela Špenerová, Lenka Radová, Marián Hajdúch, Vladimír Mihál

Návrh a vyhodnocení experimentu

Požadavky na značení léčivých přípravků

Diskrétní náhodná veličina

Genetika zvířat - MENDELU

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

Korelace. Komentované řešení pomocí MS Excel

Tabulkový procesor. Základní rysy

Transkript:

1 Úvod Ve výukové jednotce Současné výzvy a technologie genomiky a proteomiky, kapitole 2.1 Mikročipy jsme si vysvětlili základní princip technologie mikročipů. Tato výuková jednotka se bude věnovat podrobněji jejich nejrozšířenější skupině DNA mikročipů. Kromě definice si blíže vysvětlíme princip těchto mikročipů, jejich další rozdělení podle technologie vzniku, jak probíhá kvantifikace měření a jak vzniká základní datové matice. Každá technologie má svoje specifika, které se odráží ve způsobu analýzy jejich dat. Také si v této části vysvětlíme některé obecné, šíře aplikovatelné teoretické principy. 2 Princip a rozdělení DNA mikročipů DNA mikročip je mikročip složen z krátkých DNA sekvencí (oligonukleotidů) imobilizovaných rovnoměrněě na pevný podklad, používaný k detekci DNA nebo RNA (obvykle ve formě cdna) ve vzorku (Obr. 1). Fragmenty DNA/cDNA ze vzorku se párují s komplementárními řetězci sond na mikročipu a tím dochází k jejich jich imobilizaci. Takto imobilizované molekuly cdna, předtím označeny ny fluorescenčním enčním barvivem se pak dají detekovat s pomocí UV skeneru jako signál, který vytvoří obraz, který se následně analyzuje speciálními programy, které signál kvantifikují. Nejčastěji se používá k Měření změn v hladinách genové exprese (gene expression profiling, detekce RNA pomocí cdna) expresní mikročipy Detekci strukturních změn genomu (změny v počtě kopií genů, nebo jednonukleotidové polymorfizmy) arraycgh, SNP arrays Detekci vazebních míst proteinů na DNA ChIP-on-chip Detekci alternativního sestřihu (exon junction arrays) nebo přesnou detekci neznámých nebo nepredikovaných edikovaných transkriptů (tiling arrays) Jednotlivé kroky mikročipového experimentu si popíšeme v následující kapitole. Obrázek 1 Vizualizace izace rozdělení spotů a sond u cdna mikročipového sklíčka. 1

2.1 Základní kroky DNA mikročipového experimentu Pro správnou analýzu dat DNA mikročipů je nutné znát kroky, které vedou k vytvoření finální datové matice. 1. Výroba mikročipového sklíčka Způsob výroby a tedy typ samotného mikročipu přímo ovlivňuje způsob analýzy jeho dat. 2. Příprava vzorku Nejprve se ze vzorku, který má být analyzován, vyizolují molekuly, které chceme studovat (DNA nebo mrna). Molekula mrna je přepsána do cdna a amplifikována použitím RT-PCR. DNA je amplifikována pomocí PCR. Amplifikovaná DNA (nebo cdna) je pak označena fluorescenčním barvivem (nejčastěji Cy3 nebo Cy5), a to buď přímo, nebo nepřímo. U nepřímého značení je nejprve do cdna včleněna reagující skupina (obvykle primární amin), a pak je v oddělené reakci připojeno k této skupině fluorescenční barvivo. 3. Hybridizace Dvouřetězcová molekula DNA (cdna) je denaturována teplotou okolo 100 C. Při této teplotě vodíkové vazby, které drží komplementární páry bází a tudíž helixové řetězce pohromadě, jsou přerušeny a šroubovice se velmi rychle odděluje do dvou samostatných řetězců. Za specifických podmínek je denaturace DNA reverzibilní (vratná). U mikročipu se tedy nastolí podmínky Fluorescenčně označená jednořetězcová DNA má tendenci vázat se s komplementárními řetězci sondy na mikročipu, vytváří tak samostatný dvouřetězcový hybrid (duplex). Tento proces se nazývá hybridizace. 4. Skenování a kvantifikace 5. Normalizace Tento poslední krok má za cíl odstranit z dat zdroje nežádoucího šumu a systematických odchylek a sjednotit rozdělení expresí u všech mikročipů. Následující videa znázorňují proces DNA mikročipového experimentu: MAXANIM YOUTUBE animace Následující video ukazuje princip různých typů mikročipů (včetně proteinových čipů) YOUTUBE rozdíly mezi čipy 2.2 Výroba DNA mikročipového sklíčka Mikročipová sklíčka jsou vyráběna buď komerčně nebo na zakázku v jednotlivých laboratořích. Výhodou komerčních DNA mikročipů je jejich vysoká kvalita. Většina společností nabízí celogenomové DNA mikročipy navržené pro nejvíce studované organismy, jako jsou člověk, myš, krysa, nebo kvasinky. Mnoho společností také nabízí specializované čipy, které jsou vhodné ke konkrétnějším výzkumům (čipy rakoviny tlustého střeva, čipy rakoviny prsu, ). Na druhé straně, zakázková výroba mikročipů umožňuje specifický design i výrobu v malých seriích. To ovšem vyžaduje laboratoř, která má mikročipovou tiskárnu nebo spotovací zařízení k výrobě čipu. Existuje několik technik, které se používají k výrobě mikročipů, snad nejvíce používané je spotování a in-situ syntéza. Další je technika BeadArray

Spotování - Sondy (oligonukleotidy, cdna klony) o velikosti 500-5000 párů báz jsou syntetizovány ještě dříve, než jsou naneseny na povrch čipu, a pak jsou umístěny do spotů na povrch mikročipu. Tato procedura je vykonávána robotickou rukou s jemnými jehlami. Během procesu potisku jsou jehly vnořeny do nádob obsahujících sondy (jedna jehla na jednu sondu), které jsou pak přeneseny a natisknuty do určené oblasti na povrchu sklíčka. Jelikož lze sondy a tisková místa jednoduše přizpůsobovat, je tato technika celosvětově používána k výrobě zakázkových mikročipů výzkumnými týmy ve vlastních laboratořích. Následující video ukazuje spotujícího mikročipového robota v akci: http://www.youtube.com/watch?v=pjr1oyc0kry&feature=related Speciální přístup je technika BeadArray od firmy Illumina, která sondy neumístňuje na spoty přímo na sklíčko, nýbrž na mikroskopické kuličky. Ty jsou pak náhodně umístěny na povrch mikročipu s malými prohlubněmi. In situ syntéza - Tato metoda syntetizuje krátké sekvence sond (oligonukleotidy) přímo na sklíčku a je založena na fotolitografické syntéze. Při této metodě se používá světlo a světlocitlivé látky, které maskují nukleotid. V každém kroku dochází k navázání jednoho typu nukleotidu pouze na ty sondy, které byli světlem odmaskovány za pomoci selektivní mřížky (Pease et al., 1994). Po navázání nukleotidu se opět všechny zamaskují pomocí světlocitlivé látky a celý proces se opakuje až kým všechny sondy nedosáhnou svou konečnou délku. Hezkou demonstraci celého procesu lze vidět na tomto videu: http://www.youtube.com/watch?v=ui4botwjexs&feature=related 2.3 Rozdělení mikročipů Mikročipy můžeme dělit podle typu výrobní technologie (Affymetrix, Illumina, Agilent) délky sond na mikročipu (cdna mikročipy a oligonukleotidové mikročipy) počtu vzorků, které jsou na jeden mikročip hybridizovány (jednokanálové vs dvoukanálové, nebo i vícekanálové) typu organismu, pro který je mikročip navržen Rozdělení podle délky sond a počtu kanálů odráží způsob jejich výroby a zároveň přímo ovlivňuje způsob odhadu šumu a metody úprav základních datových matic. cdna mikročipy sondami jsou 500-5000 párů bází dlouhé cdna klony vybraného genu nebo známé sekvence. Obvykle jsou syntetizovány ještě předtím, než jsou použitím spotovacího robota imobilizovány na pevný povrch metodou spotování. Výhodou těchto dlouhých sond je, že jejich specificita k jednotlivým cílovým genům a v případě úspěšné hybridizace s cílovou vzorkovou DNA můžeme téměř jistě předpokládat, že se opravdu jedná o danou sekvenci. Nevýhodou u těchto mikročipů je, že není znám přesný počet sond na každém spotu, a proto signál jednotlivých sond není porovnatelý jak mezi jednotlivými spoty v rámci mikročipu, tak mezi mikročipy různých vzorků. Z tohoto důvodu se na cdna mikročipy obvykle hybridizují dva vzorky naráz, odlišené fluorescenčním barvivem (dvoukanálový experiment). V jednom kanálu hybridizujeme vzorku, kterou studujeme, ve druhém pak referenční DNA, která by měla být stejná pro všechny vzorky v studii. Případný

signál nespecifický sondě se odhaduje různými algoritmy z pozadí prostoru v okolí spotu. Tento typ čipů produkuje komerčně například firma Agilent. Oligonukleotidové mikročipy - zde e jsou sondy reprezentovány oligonukleotidy, onukleotidy velmi krátkými sekvencemi (obvykle ne více než 25 párů bází). Jsou syntetizovány ny buď in situ (nejčastěji), nebo obvyklou následnou imobilizací na povrch. Výhodou těchto sond je, že mohou být spotovány napříč čipem ve vyšší hustotě a poměrně přesně. In-situ syntéza zaručuje stejné množství sondy v každém ze spotů, a proto není nutná hybridizace referenčního vzorku. Tyto mikročipy jsou proto pouze jednokanálové. Tyto sondy jsou ovšem příliš krátké, aby byly specifické, proto je celý systém navržen tak, aby více těchto sond (nejčastěji 11) odpovídalo různým částem sekvence známého nebo předpokládaného otevřeného čtecího rámce (obr. 2). Měření všech sond odpovídající jedné sekvenci (anglicky probeset) jsou pak v další analýze sumarizovány do jednoho čísla představujícího danou sekvenci. Nejběžnější čipy v této kategorii jsou GenChip čipy (výrobce: Affymetrix Inc., GeneChip--> ), obvykle zvané Affymetrix čipy. Stejnou technologii využívá firma ALMAC. Obrázek 2 Design sond oligonukleotidového DNA mikročipu. 2.4 Design dvoukanálových cdna experimentů 3 Skenování a kvantifikace matice signálu, vytvoření základní datové Vlastnosti fluorescenčních barviv umožňují detekci hybridů DNA za použití laserových skenerů. Laser jisté vlnové délky excituje fluorescenční barvivo přítomné v každém spotu mikročipu ipu a barvivo emituje záření, které je zachycováno fotonásobičem. Množství emitovaného signálu je přímo úměrné množství barviva a tedy množství zachycené DNA ze vzorku na spotu mikročipu. Tyto hodnoty jsou získány a kvantitativně vyjádřeny na skeneru, který tak vytváří obrázek mikročipového sklíčka.

3.1 cdna mikročipy Každé fluorescenční fluorescenční barvivo je excitováno podle odlišných UV vlnových délek, tato vlastnost umožňuje porovnávat dva vzorky na stejném mikročipovém sklíčku. Toho se využívá u dvoukanálových cdna DNA mikročipů (Obr. 3). 3). Zde je DNA jednoho vzorku označena jedním fluorescenčním barvivem (např. Cy3, zelená barva), DNA druhého vzorku je označena jiným fluorescenčním fluorescenčním barvivem (např. Cy5, červená barva). Oba vzorky jsou pak hybridizovány na mikročipovém sklíčku, kde se kompetitivně vážou na sondách s komplementárními sekvencemi. Skener zachytí obrázek pro každý kanál (fluorescenční barvivo) individuálně a sekvencemi. dva obrázky jsou později v procesu analýzy obrazu sloučeny dohromady. Obrázek 3 Princip dvoukanálové fluorescence využíván u cdna mikročipů mikročipů. 3.1.2 Kvantifikace vantifikace signálu Po skenovaní sa obrázky obou kanálů microarray sklíčka uloží ve formátě.tiff, který pak vstupuje do programu pro analýzu obrazu, který kvantifikuje signál. Program pro analýzu obrazu je obvykle v softvérovej výbave skeneru. Kvantifikac fikaci signálu předchází dva kroky, kroky které slouží k identifikaci spotů a pozadí: 1. Lokalizace center er spotů 2. Segmentace Segmentace - nalezení spotů, odlíšení intensity spotů od pozadí 3. Kvantifikace Kvantifikace signálu na spotu i na pozadí Lokalizace center spotů se provede poloautomaticky, pomocí nasazení mřížky. Mřížka (anglicky grid) je speciální datový soubor, který obsahue informace o rozmístnění spotů a jejich průměru. Normálně jej dodává vá výrobce cdna mikročipu, spolu s informací o tom, jakou sekvenci (sondu) (sondu) každý spot obsahuje.

Tyto informace pak slouží jako vstupní informace pro algoritmus segmentace. Existuje více algoritmů segmentace, nejčastější jsou Pevný kruh (anglicky fixed circle) jednoduše fixně určí spoty na základě informací ze síťky o pozici a průměru spotu, všechny spoty tak mají stejnou velikost. Tento postup je nevhodný v případě spotů odlišného průměru (celkem běžné). Adaptivní kruh (anglicky adaptive circle) průměr je odhadován pro každý spot zvlášť. Problematické v případě spotů nekruhového tvaru. Adpaptivní tvar (ada adaptive shape) po stanovení středu spotu algoritmus rozšiřuje spot přidáváním nových pixelů na základě porovnání jejich intenzity a průměrné intenzity pixelů v okolí. Dokáže přesně určit i spoty nepravidelného tvaru. Adaptivní histogram (adaptive histogram) ) určí čtvercový region kolem centra spotu, který je větší než spot. Pak na základě histogramu intenzit kde se předpokládá bimodální rozdělení identifikuje pixely pozadí (průměr v 5-20 percentilu histogramu) a spotu (průměr cca v 80 percentilu histogramu). Po segmentaci následuje samotná kvantifikace intenzity fluorescenčního záření (a tedy vlastne intensity pixelů) na pozadí i ve spotu. Připomeňme si, že celková fluorescence spotu je proporcionální množství hybridizovaných sond na spotu a tedy množství sledované sekvence ve vzorku. U kvantifikace proto rozlišujeme pojem intenzita spotu,, který je definován jako součet intenzit pixelů v regionu spotu. Protože ale v dalších analýzách počítáme s poměry intenzit studovaného vzorku (kanál 1) k referenčnímu erenčnímu vzorku (kanál 2), stačí nám vyjádřit intenzitu jako průměr, nebo medián hodnot intenzit pixelů ve spotu. Medián je vhodnější, protože je robustnější k případným chybám v segmentaci, nebo k nepravidelným tvarům spotů (obr. 4). Obrázek 4 Vliv kvality spotu na statistiky intenzity signálu. Kvantifikace intenzity pozadí je motivována předpokladem, že naměřená intenzita spotu zahrnuje také signál nespecifické hybridizace, případně jiných zloučenin na sklíčku vše představující nežádoucí šum.

Fluorescence regionů, které nejsou okupovány DNA by se měla tedy lišit od fluorescence regionů spotů. V analýze se pak kvantifikována hodnota pozadí obvykle odečítá od hodnot signálu (ne vždy, ja si ukážeme později). Protože intenzita pozadí může takto výrazně ovlivnit finální hodnotu signálu (po odečtení), je důležité, aby byla kvantifikace pozadí robustní. Existují různé metody kvantifikace pozadí: pozadí Lokální metoda (local local background) background Morfologické otevření (morphological (morphological opening) opening Konstantní/globální metoda (constant/global constant/global background) background Obrázek 5 Vizualizace oblastí lokálního odhadu intensity pozadí u tří různých metod analýzy obrazu cdna mikročipu. Většina programů pro analýzu obrazu využívá lokální metodu odhadu pozadí. Jejím principem je odhad intenzity jako medián pixelů z malých regionů v okolí spotu. Obrázek 5 zobrazuje regiony,, které používají tři různé metody. GenePix a QuantArray neberou v úvahu pixely pozadí v úzké blízkosti samotného spotu, a proto jsou méně citlivé k výsledkům segmentačního algoritmu, který může špatně odhadnout hranici hranici spotu. Metoda morfologické orfologického otevření (obr. 6) 6 používá vá čtvercové elementy element o rozměrech několika spotů, ze kterých pak spoty odstraní a vytvoří nový obraz, který je odhadem pozadí celého sklíčka. Pro jednotlivé spoty se pozadí pak odhaduje jako hodnota signálu v centru spotu tohoto nového obrazu. Signál pozadí odhadnut touto metodou je nižší a méně variabilní (robustnější vůči případným lokálním extrémům). extrémům Obrázek 6 Schematické znázornění metody morfologického otevření pro odhad signálu pozadí cdna mikročipu. Výše zmíněné metody operují s odhadem signálu pozadí v okolí spotu. Nicméně, některé studie naznačují, že intenzita signálu signálu na spotu u negativních kontrol (tedy tam, kde jsou sondy

pro mrna jiného organismu, než pro který je sklíčko určeno a kde by tedy nemělo vůbec docházet k hybridizaci se vzorkem) bývá nižší než v okolí spotů. Proto by hodnota pozadí měla být spíše odhadnuta jako konstanta pro všechny spoty (konstantní/globální metoda), nejlépe jako průměr intenzit spotů negativní kontroly. V případě, že tyto kontroly na sklíčku nejsou, doporučuje se signál pozadí odhadnout jako třetí percentil rozdělení signálů všech spotů. Ne všichni se ale shodují na tom, zda je nutno odečítání pozadí vůbec provádět. Obecně se uznává i postup, při kterém se signál pozadí vůbec neodečítá. Lokální a globální metoda odečítání pozadí má větší vliv na spoty s nízkou expresí (a tedy nízkým signálem), v porovnání s metodou morfologického otevření nebo bez odečítání, takže u těchto spotů je obtížné rozlišit mezi opravdovým signálem a šumem. 3.1.2 Parametry kontroly kvality V ideálním případě mají spoty stejnou velikost, jsou opravdu rovnoměrně rozloženy, míra hybridizace (případně nastavení skeneru) nevyústila v saturaci pixelů na spotech a segmentace proběhla bezchybně. Ve skutečnosti to však tak není, a proto program analýzy obrazu generuje informaci o kvalitě jednotlivých spotů a jejich měření. Tyto informace jsou pak součástí výstupní základní datové matice, a slouží k vytvoření proměnné Flags, která obsahuje kategorie kvality ve formě kvalitativní proměnné kódované obvykle celočíselnými hodnotami. Kategorie kvality jsou určeny na základě pravidel buď defaultně nastavených programem, nebo manuálně uživatelem. Parametry kvality nejčastěji zahrnují: Cirkularitu spotu Počet pixelů ve spotu Průměr spotu (v pixelech) Počet/procento saturovaných pixelů Poměr intenzity signálu a šumu (pozadí) anglicky signal to noise ratio b-hodnotu: podíl pixelů pozadí s intensitou menší než je medián intensity spotu p-skóre: jak velice se odlišuje centrum spotu od síťkou předepsané pozice Program pro analýzu obrazu obvykle nechává uživateli možnost vizuální inspekce výsledku segmentace a manuálního označení nekvalitních spotů. Příklady nekvalitních a kvalitních spotů ukazuje obrázek 7.

Obrázek 7 A) Saturovaný spot, B) Koblihový spot, C) Spot nekruhového tvaru, D) Kvalitní spot kruhového tvaru 3.1.3 Základní datová matice Z programu pro analýzu obrazu se exportuje základní matice dat jako textový soubor se specifickým formátem, v závislosti od typu použitého softwaru. Pro každý mikročip vzniká jedna základní datová matice. Například data z GenePix softvéru pro analýzu obrazu mají příponu.gpr, data z Affymetrix příponu.cel atd. Všechny tyto to soubory jsou čitelné jakýmkoli klasickým textovým nebo tabulkovým editorem. Informace uložené v textových souborech se mohou lišit podle typu mikročipového experimentu a softvéru použitého k analýze obrazu; nicméně nejdůležitější informace jsou společné pro všechny z nich. Každý řádek reprezentuje jeden spot na mikročipu a sloupce reprezentují různé proměnné. Pro cdna čipy to jsou zpravidla: identifikační číslo sondy na spotu (vlastní každé mikročipové platformě), případně i další identifikace (pozice na chromozomu, symbol genu,..) pozice spotu na mikročipu (buď v pixelech, nebo souřadnicích na mřížce, obojí je obvyklé) informace o kvalitě spotu (viz 3.1.2 parametry kontroly kvality) intensita signálu spotu (pro všechny kanály) a odvozené statistiky (střední hodnota, medián, směrodatná odchylka) intensita signálu pozadí (pro všechny kanály) a odvozené statistiky (střední hodnota, medián, směrodatná odchylka) další odvozené charakteristiky (logaritmus intenzit, logaritmus podílu intenzit mezi dvěma kanály, ) Z dalších odvozených charakteristik akteristik se zastavme u proměnné logaritmus podílu intenzit signálů spotu mezi dvěma kanály. Vzhledem k tomu, že u mikročipů dochází ke kvantifikaci hodnot světlosti pixelů obrazu, kvantifikované hodnoty se můžou pohybovat v rozmezí 0 a 65 536. Rozložení těchto hodnot je tedy silně zešikmené zprava. Pro všechny analýzy proto tyto hodnoty transformujeme me logaritmem, nejčastěji o základě dva. V případě nuly se před logaritmovaním nahrazuje nula číslem jedna. Logaritmus poměru intensit spotů dvou kanálů je finální hodnota transkriptu, která vstupuje do dalších analýz. Označuje se

, (1) Kde R představuje intensitu kanálu obsahujícího studovaný vzorek (nejčastěji Cy5, tedy červená) a G intensitu kanálu referenčního vzorku (nejčastěji Cy3, tedy zelená). Příklady základních datových souborů k nalezení zde: GenePix [odkaz na soubor] Agilent [odkaz na soubor] 3.2 Oligonukleotidové mikročipy U jednokanálových oligonukleotidových mikročipů je použita pouze jedna vlnová délka a vytvořen je pomocí UV skeneru pouze jeden obraz. U Affymetrix mikročipů je tento obraz ve formátu DAT, a je zpracován v softvéru firmy Affymetrix. 3.2.1 Kvantifikace signálu U těchto čipů jsou všechny spoty čtvercové a tesně příléhají, ke kontrole kvality hybridizace (ve smyslu její specificity) se proto používá párový systém sond (na odhad pozadí jako u cdna mikročipů). Pro každý spot na čipu obsahující sondu perfektní komplementarity k cílové sekvenci (anglicky perfect match probe, zkratka PM) existuje spot obsahující stejnou sondu, avšak se zaměneným nekomplementárním nukleotidem na 13 pozici (anglicky mismatch probe, zkratka MM, obr. 2). Nekomplementární sonda měří intenzitu signálu nespecifické hybridizace, která v závislosti od algoritmu kvantifikace může nebo nemusí být započítána do odhadu signálu sondy. 3.2.2 Parametry kontroly kvality Affymetrix softvér po analýze obrazu svých GeneChip čipů poskytuje několik parametrů kontroly kvality, a to průměrný signál pozadí variabilitu procento přítomných sond (podle algoritmu Affymetrix) 3 /5 poměr míra kvality RNA, vypočtena jako poměr signálu sond kontrolních genů pro b-actin a GADPH 3.2.3 Základní datová matice Kvantifikace intenzit probíhá pomocí speciálního Affymetrix softvéru za vzniku základní datové matice, která se ukládá do souboru s příponou.cel. Tento soubor obsahuje identifikátory a intenzity PM i MM spotů (sond), spolu s dalšími informacemi o kvalitě dat. Tyto data obvykle doprovází soubor CDF, který obsahuje další informaci o sondách, a to konkrétně, do které sady sond patří a jestli je PM nebo MM.

Na rozdíl od cdna mikročipů, spot (tedy sonda) reprezentuje pouze část cílové sekvence, proto pro další analýzy je potřebné hodnoty sond ze každé sady sumarizovat. Podobně jako u cdna mikročipů dochází k logaritmování hodnot intenzit signálů, avšak pouze v jednom kanálu. Hodnota M je počítána speciálními funkcemi s pomocí PM (a případně i MM). U oligonukleotidových mikročipů tedy lze M definovat jako,, (2) Kde f představuje funkci příslušnou metodám MAS5, RMA nebo dchip, které si popíšeme blíže ve výukové jednotce 3. V následující, třetí výuková jednotce se budeme věnovat úpravám základních datových matic, od dalších kontrol kvality přes jejich normalizaci až po vytvoření finálního datového souboru. Doporučená literatura Yang, Y. H., Buckley, M. J., Dudoit, S. and Speed, T. P. (2001), Comparisons of methods for image analysis on cdna microarray data. Technical report #584, Department of Statistics, University of California, Berkeley. Yang, Y. H., Buckley, M. J. and Speed, T. P. (2001), Analysis of cdna microarray images. Briefings in bioinformatics, 2 (4), 341-349 [http://www.maths.usyd.edu.au/u/jeany/papers/imagereviewbib.pdf] Draghici, S. (2001) Data Analysis Tools For DNA Microarrays. Chapman & Hall/CRC. Gentleman, R., Carey V.J., Huber, W., Irizarry, R.A., Dudoit, S. (2005). Bioinformatics and Computational Biology Solutions Using R and Bioconductor. Springer. McLachlan, G., Do, K., Ambroise, Ch. (2004). Analyzing microarray gene expression data. Wiley Series in Probability and Statistics. John Wiley & Sons, Inc.