UNIVERZITA PALACKÉHO V OLOMOUCI P Ř Í R O D O V Ě D E C K Á F A K U L T A KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY BAKALÁŘSKÁ PRÁCE

Transkript

1 UNIVERZITA PALACKÉHO V OLOMOUCI P Ř Í R O D O V Ě D E C K Á F A K U L T A KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY BAKALÁŘSKÁ PRÁCE Tutoriál statistických metod pro populační asociační studie Vedoucí diplomové práce: Mgr. Jana Vrbková Rok odevzdání: 2010 Vypracovala: Martina Vrzalová ME, III. Ročník 1

2 Prohlášení Prohlašuji, že jsem tuto bakalářskou práci vypracovala samostatně pod vedením Mgr. Jany Vrbkové, a že jsem v seznamu použité literatury uvedla všechny použité zdroje. V Olomouci dne

3 Poděkování Ráda bych tímto poděkovala především své vedoucí diplomové práce paní Mgr. Janě Vrbkové, za její ochotu, trpělivost a čas, který mi věnovala v době konzultací a za psychickou podporu při časovém presu. Poděkování si zaslouží i má rodina, která mě po celý čas studia podporovala. 3

4 Obsah Úvod Populační asociační studie, základní pojmy DNA, geny, znaky Přenos genetické informace Hardyho-Weinbergova rovnováha (HWE Hardy-Weinberg equilibrium) Vazebná nerovnováha Studie případů a kontrol Typy výzkumů Zpracovávaná data Kontingenční tabulky pro binární znak Poměr šancí (odds ratio) Poměr šancí v R Poměr šancí v systému SAS Pearsonův χ 2 test Pearsonův χ 2 test v systému R Pearsonův χ 2 test v systému SAS Fisherův exaktní test Fisherův exaktní test v systému R Fisherův exaktní test v systému SAS Korelace Cochran-Armitage test (test trendu) C-A test v systému R C-A test v systému SAS Vícevýběrové testy kvantitativního znaku Dvouvýběrový t-test Dvouvýběrový t-test v systému R Dvouvýběrový t-test v systému SAS Wilcoxonův dvouvýběrový test Wilcoxonův dvouvýběrový test v R Wilcoxonův dvouvýběrový test v systému SAS Analýza rozptylu (ANOVA)

5 3.3.1 Analýza rozptylu v R ANOVA v systému SAS Kruskalův Wallisův test Kruskalův Wallisův test v R Kruskalův-Wallisův test v systému SAS Závěr Seznam použité literatury:

6 Úvod Tato práce pojednává o základních statistických procedurách užívaných v rámci populačních asociačních studií. Populační asociační studie zkoumají asociace mezi polymorfismy a výskytem nemoci a berou v úvahu do studie pouze jedince, mezi nimiž není prokázán příbuzenský stav. Cílem této práce je poskytnout čtenáři přehled základních statistických metod užívaných v populačních asociačních studiích, se zaměřením na asociaci založenou na jednonukleotidovém polymorfismu (SNP). Vycházím zejména z knihy Applied Statistical Genetics with R For Population-based Association Studies, Andrey S. Foulkes. [1]. Kromě popisu jednotlivých statistických procedur se zaměřím i na samostatné zpracování dat s podporou statistických softwarů R a SAS. Jako příklad zpracování v systému R používám již publikované příklady v literatuře [1], které podrobněji komentuji, a tytéž příklady samostatně zpracovávám v softwaru SAS. Pro pochopení mé práce předpokládám u čtenáře znalost statistických pojmů a alespoň základní znalost prostředí systémů R a SAS. 6

7 1 Populační asociační studie, základní pojmy V současné době je na světě přes 6 miliard lidí, přesto nepotkáte více lidí, kteří vypadají stejně (kromě jednovaječných dvojčat či vícerčat). Nejen náš vzhled, ale i výskyt onemocnění a zdravotních potíží, je určován nespočetným množstvím faktorů, jak genetických, tak negenetických. Genetika patří mezi biologické vědy a zabývá se dědičností a proměnlivostí živých soustav. Má mnoho specializačních oblastí a jednou z nich je právě populační asociační genetika, která je náplní této práce. Populační asociační studie se zaměřují na odhalení asociace mezi genotypem člověka a daným znakem (nemocí či jejím projevem). Jsou založeny na dvou stěžejních konceptech, konceptu Hardyho-Weinbergovy rovnováhy a vazebné nerovnováhy. Za použití vybraných statistických metod, za určitých předpokladů, asociační studie zkoumají, zda výskyt dané nemoci je podmíněn právě genetickou změnou v sekvenci DNA. Důležitou úlohou populačních asociačních studií je také pečlivě zvážit specifika pacienta (proměnné), která by mohla být potenciálními zavádějícími faktory nebo modifikátory. Zvážení vlivu těchto faktorů na vztah mezi genotypem a znakem přispívá ke správným závěrům studie. 1.1 DNA, geny, znaky DNA (kyselina deoxyribonukleová) je zobrazována jako dvojitá spirála (šroubovice). Je tvořena řetězci chemických částic nukleotidů, které jsou vzájemně propojeny vazbami na základě typu báze, která je obsažena v nukleotidu. Řetězec si představíme jako sled bází. Existuje šest druhů bází adenin (A), guanin (G), thymin (T), cytosin (C) a uracil (U). V DNA se vyskytují pouze čtyři z nich a spojují se dle komplementarity bází vazby se tvoří mezi A T a C G (uracil nahrazuje ve vazbách thymin u RNA kyseliny ribonukleové). 7

8 Obr. 1 DNA, upraveno dle [3] Úsek molekuly DNA, který nese genetickou informaci pro určitý znak, se nazývá gen. Jeho umístění je dáno lokusem místem na chromozomu v buňce daného organismu. Geny se dělí na dvě skupiny. Geny velkého účinku, kdy jeden gen má velký fenotypový účinek (na tvorbě kvalitativního znaku se podílí často jen jeden gen) a okolní prostředí má na projevení znaku malý význam. Druhou skupinou jsou geny malého účinku, jejichž fenotypový účinek je zanedbatelný. Na tvorbě kvantitativního/polygenního znaku, se podílí celý soubor genů a prostředí má velký vliv. Kvalitativní znaky se vyskytují u jedinců v různých alternativách a nelze je číselně vyjádřit. Patří mezi ně např. barva oči, krevní skupina. Kvantitativní, neboli polygenní znaky se objevují u jedinců v různých hodnotách. Můžeme je částečně číselně vyjádřit a jsou ovlivněny ze značné části prostředím. Např. tělesná výška, inteligence. U diploidních organismů, mezi které patří i člověk, se nachází 2 sady chromozomů. Chromozomy tvoří páry homologních chromozomů, z nichž jeden chromozom pochází od matky a druhý od otce. Prvních 22 párů se nazývají autozomy, poslední dva chromozomy se nazývají gonozomy a netvoří homologní pár. Soubor všech chromozomů v jádře buňky se nazývá karyotyp. 8

9 Obr. 2 Karyotyp normálního muže, upraveno dle [4] Diploidní buňku s kompletní sadou chromozomů (u člověka 2 x 23) nazýváme zygota. Alelou se rozumí konkrétní forma genu. V diploidní buňce jsou obsaženy vždy dvě alely. Kombinace alel mohou být buď stejné, homozygotní (AA-dominantní homozygot, aa recesivní homozygot) nebo různé, heterozygotní (Aa). Souhrn všech forem genů (alel) organismu nazýváme genotypem a to, jak se znaky projeví navenek, fenotypem. Specifická kombinace alel odkazující na různé lokusy, avšak děděná společně, představuje haplotyp (haploidní genotyp). 1.2 Přenos genetické informace Přenos genetické informace mezi generacemi probíhá na základě rozmnožování. Lidé dědí genetickou informaci od svých rodičů při procesech zvaných mitóza a meióza. Mitóza je proces buněčného dělení, jehož výsledkem je vytvoření sesterských buněk, které nesou kopie kompletního souboru chromozomů. Při meióze dochází k produkci buněk s redukovaným počtem chromozomů. Zplozením potomka dochází k nové, odlišné (diverzitní) kombinaci alel, získaných od otce i od matky. Při přenosu genetické informace může dojít k různým změnám, tzv. mutacím. Mutacemi vznikají nové formy genů, a tím vytvářejí větší genetickou variabilitu. Ke 9

10 změnám vyvolaným v důsledku faktorů vnějšího prostředí může dojít na úrovni struktury DNA, při transkripci nebo translaci. Transkripce je proces přepisu genetické informace z vlákna DNA na mrna (promediátorová kyselina RNA, která nese genetickou informaci, důležitou pro tvorbu bílkovin). Translací se rozumí překlad genetické informace z mrna do pořadí aminokyselin v řetězci bílkoviny. Podle rozsahu genetické informace, které mutace postihují, se může jednat o genové mutace (týkají se nukleotidové sekvence jednoho genu), chromozomové mutace (postihují DNA na úrovni chromozomů změna struktury chromozomů) či genomové mutace (způsobují změnu počtu chromozomů). Mezi mutace na úrovni genů patří inzerce vložení jednoho či více nukleotidů, delece ztráta jednoho nebo více nukleotidů a substituce záměna nukleotidů. Rozlišují se dva typy substitucí tranzice a tranzverze. Tranzicí se rozumí záměna purinové báze (báze A, G) za jinou purinovou bázi nebo pyrimidinové báze (báze T, C, U) za jinou pyrimidinovou bázi a tranzverze znamená záměnu purinu (báze A, G) za pyrimidin (báze T, C, U) nebo naopak. Tranzice AT na GC Tranverze AT na CG C C G C A A G MUTACE C C G G A A G G G C G T T C G G C C T T C Inzerce C C T G A replikace G T C A Delece C C G T A A G G G C A T T C C C G T A A G G G C A T T C C C G T A A G G G C A T T C replikace C C G C T A A G G G C G A T T C Původní sekvence DNA replikace C C G T A G G G C A T C Obr. 3 Genové mutace, upraveno dle [6] 10

11 Změny ve struktuře DNA mohou podmínit vznik strukturních změn chromozomů. Mezi takové změny patří právě polymorfismus chromozomů, jež je variantou některých chromozomů, ale neprojeví se na venek (nemají fenotypový efekt). Další příčinou variability populace, kdy nedochází k vytvoření nových alel, ale k formování nových kombinací známých alel, je tzv. crossing-over (rekombinace). Rekombinace probíhá ve fázi meiózy, při tvorbě gamet (pohlavních buněk). Mezi homologickými chromozómy v těsné blízkosti proběhne vzájemná záměna úseků DNA, naruší se vazba genů. Pravděpodobnost rekombinace vrůstá se vzdáleností částí DNA na chromozomech. A B A B A B A B A B A b a b a b a B a b a b a b Obr. 4 Rekombinace, upraveno dle [7] Mírami genetické variability je polymorfismus a heterozygotnost populace. Polymorfismus je velké množství variant genů (alel) v jednom lokusu a je způsoben mnohými mutacemi a změnami v DNA. Udává podíl polymorfních lokusů v populaci. Přes 80% polymorfismů, jsou polymorfismy vzniklé na základě záměny jednoho nukleotidu jednonukleotidové polymorfismy, značené SNP (single-nucleotid polymorfism). [9] Heterozygotnost populace je častěji používanou mírou genetické variability, protože je přesnější a spolehlivější. Stanoví se tím způsobem, že se určí četnosti heterozygotních jedinců v každém lokusu a vypočítá se průměr pro všechny lokusy. Je to tedy průměrná četnost heterozygotů v jednotlivých lokusech. 11

12 1.3 Hardyho-Weinbergova rovnováha (HWE Hardy-Weinberg equilibrium) HWE představuje nezávislost alel na daných lokusech mezi homologními chromozomy. Jinými slovy, znamená, že výskyt alely na jednom homologním chromozomu nezávisí na tom, jaká alela se vyskytuje na druhém homologním chromozomu. Je speciálním modelem pro předpověď genotypových četností v populaci. Vyjadřuje vztah mezi genotypovými a alelovými četnostmi. Tento předpoklad (HWE) platí pouze za přesně daných podmínek: - organizmy jsou diploidní, - rozmnožování probíhá pohlavní cestou, - v populaci se nevyskytuje migrace, - lze zanedbat mutace, - populace je panmiktická (páření je náhodné), - populace je dostatečně velká. Faktorem narušujícím platnost H.-W. zákona může být tzv. inbreeding. Při inbreedingu dochází k páření mezi příbuznými jedinci, tudíž je porušen předpoklad panmixie (náhodného páření). Snižuje se heterozygotnost populace (míra genetické variability). Jsou-li dané podmínky splněny, lze v populaci stanovit genotypové četnosti pro gen se dvěma alelami. Označíme-li p frekvenci alely A a q frekvenci alely q, pak platí, že frekvence tří fenotypů budou následující: pro AA: p 2, pro Aa: 2pq, pro aa: q 2. Pro frekvence alel vždy platí vztah p + q = 1 a pro frekvence genotypů zase p 2 +2pq+q 2 =1 12

13 Důležitým důsledkem HWE je, že četnosti alel v následující generaci zůstávají stejné (stálé) jako v generaci původní. 1.4 Vazebná nerovnováha Vyjadřuje nenáhodné kombinace alel ve dvou či více lokusech v populaci a dochází k ní např. vlivem genetické vazby mezi alelami na jednom homologním chromozomu. Způsobuje, že změny v četnosti alel na jednom lokusu působí na změny v jiném lokusu. Vztahuje se i na asociaci více lokusů v těsné vazbě. Vazebná analýza je přístup, který se užívá v rodinných studiích, které na rozdíl od populačních asociačních studií, zahrnují příbuzné jedince. Testuje spoluvýskyt markeru a fenotypu nemoci v rodině. 1.5 Studie případů a kontrol Populační asociační studie mívají nejčastěji podobu studie případů a kontrol (casecontrol study). Probíhá tak, že se nejprve stanoví skupina případů (jedinců se sledovanou nemocí) a tato skupina je pak porovnávána se skupinou jedinců, kteří nevykazují danou nemoc (kontroly). Navíc se bere v úvahu, zda byla v takto stanovených skupinách v minulosti expozice (vystavení) potenciálnímu rizikovému faktoru. Pokud je expozice vyšší mezi případy, pak tento faktor může být opravdu rizikovým. Pokud je tomu na opak, může zase jít o protektivní (ochranný) faktor. U tohoto typu studie je velmi důležité precizně stanovit skupinu případů. Je třeba brát v úvahu to, že případy mají reprezentovat celou populaci. Důležitou úlohou je také vybrat vhodné kontroly, tzn. takové jedince, kteří se co nejvíce budou podobat případům, až na to, že se u nich nevyskytl sledovaný znak. Výběr kontrol je komplikovaný, jelikož jedinci, kteří nevykazují sledovaný znak, mohou mít jiné zdravotní potíže, což může být zavádějící. Zavádějící faktor (confounding factor) je definován jako proměnná, která souvisí s expozicí a je v přímém či nepřímém vztahu k následku. Např. zkoumáme-li asociaci mezi 13

14 expozicí užívání alkoholu, a znakem hladinou cholesterolu, matoucím faktorem může být kouření. Souvisí se sledovaným znakem a zároveň se více vyskytuje u jedinců požívajících ve velké míře alkohol. Matoucí faktor se neobjevuje jako mezikrok v příčinné posloupnosti (causal pathway) k nemoci. Neuvážení zavádějících faktorů může vést k chybnému závěru o sledované asociaci. Zavádějící faktor Expozice Následek Obr. 5 Zavádějící faktor, upraveno dle [14] Jednou z nejužívanějších metod k potlačení zavádějícího faktoru v případě kategoriálních dat, je stratifikace. Celý soubor rozdělíme na skupiny (strata), uvnitř nichž je potenciální matoucí faktor neměnný. Asociaci spočteme jednotlivě v každé skupině, pak vypočteme ukazatel asociace váženým průměrem ukazatelů jednotlivých skupin. 1.6 Typy výzkumů Populační asociační studie mohou být rozděleny do těchto čtyř kategorií: kandidátní polymorfismus, kandidátní gen, detailní mapování, celogenomová studie. Studie kandidátního polymorfismu jsou výzkumy asociací genotyp znak. Polymorfismus je zde definován jako genetická varianta v jednom lokusu, která se vyskytuje minimálně v 1% populace. Cílem je testovat výskyt asociace a hypotézu, že daný polymorfismus (SNP) nebo více polymorfismů ovlivňují znak přímo (jsou funkční). Ve studiích kandidátních genů se vyžaduje určení více SNP v rámci genu. Výběr SNP záleží na vazebné nerovnováze. Předpokladem těchto studií je, že tyto vybrané SNP zachycují informaci o genetické variabilitě genu, ačkoli nemusí přímo ovlivňovat znak 14

15 (nemoc), tj. nemusí být nutně funkční. Tyto SNP nejbližší k lokaci varianty podmiňující nemoc se nazývají markery, jsou asociovány s variantou, která nemoc působí. MARKERY Část DNA SNP 1 SNP 2 SNP 3 Lokus varianty způsobující nemoc Obr. 6 Markery, upraveno dle [1] Cílem studií, nazývaných detailní mapování, je v genomu s vysokou mírou přesnosti určit umístění varianty způsobující nemoc. Znalost tohoto umístění umožňuje vyhnout se studiím založených na lokusech markerů. Poslední typ studií, celogenomová studie, je zaměřena na zkoumání genetických variant v celém genomu - souboru všech struktur nesoucích genetickou informaci ve formě DNA (genom člověka obsahuje přes genů [15]). Celogenomová studie je navržena tak, aby identifikovala asociace s pozorovanými znaky a určila tak známé sekvence DNA markery pro výskyt nemoci. Pro celogenomové výzkumy je třeba větší počet SNP. 1.7 Zpracovávaná data V průběhu dalšího textu budu užívat ke zpracování v systémech R (volně stažitelný na stránkách a SAS (produkt společnosti SAS Institute, veřejně dostupná data, která lze najít na webové stránce Jedná se o funkční SNP asociované s velikostí a sílou svalů. Data byla shromážděna za účelem identifikace 15

16 rozhodujících činitelů velikosti a síly kosterního svalstva před a po cvičení (cvičení po dobu 12 týdnů). Soubor obsahuje data od 1397 jedinců (dobrovolníků z řad vysokoškolských studentů), celkem 225 SNP. V souboru dat jsou genotypy SNP v genech a jsou zahrnuty i další proměnné (covariates) jako je období studijního roku (semestr) - term (1 - jaro, 2 - léto, 3- podzim), pohlaví (Gender), věk (age), rasa (race), %-ní změna síly dominantního deltového svalu před a po cvičení (DRM.CH) a %-ní změna síly nedominantního deltového svalu před a po cvičení (NDRM.CH). 16

17 2 Kontingenční tabulky pro binární znak 2.1 Poměr šancí (odds ratio) Poměr šancí je dán jako poměr mezi šancemi výskytu jevu (onemocnění) v exponované populaci a neexponované populaci. Šance výskytu (pravděpodobnost) jevu v exponované populaci je rovna O(D + E + ) = P(D + E + ) 1 P(D + E + ). Podobně šance výskytu jevu v neexponované populaci Poměr šancí definujeme jako O(D + E ) = P(D + E ) 1 P(D + E ). OR = O(D+ E + ) O(D + E ) = P D + E+ 1 P D + E + P D + E 1 P D + E, (1) kde D + značí výskyt nemoci, D nepřítomnost nemoci, E + expozici faktoru, E neexponovanou populaci. Uvažujme, že budeme zkoumat asociaci mezi genotypem jedince a výskytem nemoci. Jak už jsem se zmiňovala, genotyp SNP může být dominantně homozygotní (AA), heterozygotní a recesivně homozygotní (aa). V případě, že se jedná o binární znak, můžeme data shrnout do kontingenční tabulky typu 2 x 3, kde n ij znamená počet jedinců, pro i = 1,2 a j = 1,2,3. 17

18 Genotyp aa Aa AA Znak + n 11 n 12 n 13 n 1. n 11 - n 21 n 22 n 23 n 2. n.1 n.2 n.3 n Počet jedinců, u kterých se projevila nemoc a vykazují genotyp aa V genetice se nejčastěji počítá poměr šancí všech genotypů ve vztahu ke genotypu AA, tzn. OR aa,aa a OR Aa,AA. Výpočet (dle vztahu (1)) bude vypadat takto OR aa,aa = (n 11 /n.1 ) / (n 21 /n.1 ) (n 13 /n.3 ) / (n 23 /n.3 ). Po zkrácení dostaneme Podobně pro poměr šancí genotypu Aa vzhledem k AA ORaa,AA = n 11 n 23 n 21 n 13. (2) OR Aa.AA = (n 12 /n.2 ) / (n 22 /n.2 ) (n 13 /n.3 ) / (n 23 /n.3 ) = n 12n 23 n 22 n 13. Výsledek nám říká, kolikrát vyšší je šance výskytu nemoci u exponované populace než u neexponované populace. Expozicí se zde přitom rozumí daný genotyp Poměr šancí v R V systému R lze poměr šancí jednoduše spočítat pomocí funkce oddsratio() z balíčku epitools nebo přímým výpočtem z definice. Pro data v tabulce 1 vypočítáme poměr šancí OR aa,aa přímo dle definice. 18

19 aa Aa AA celkem znak znak celkem Tabulka 1 Data uspořádáme do matice pomocí funkce matrix(), kde volba nrow indikuje počet řádků matice a volba byrow zadává, že zadaná data se budou načítat do řádků, nikoli do sloupců, jak by tomu bylo, kdybychom tento příkaz vynechali. Funkcí colnames() zadáváme názvy sloupců, funkcí rownames() zase názvy řádků. > data=matrix(c(332,164,215,230,262,225),nrow=2,byrow=t) > colnames(data)=c("aa","aa","aa") > rownames(data)=c("znak+","znak-") > data aa Aa AA znak znak Spočítáme poměr šancí genotypu aa vzhledem ke genotypu AA, tedy OR aa,aa dle vztahu (2). > or.aaaa=(data[1,1]*data[2,3])/(data[2,1]*data[1,3]) > or.aaaa [1] Výsledek vypovídá, že šance výskytu nemoci u exponované populace je přibližně 1,5-krát vyšší než u neexponované populace (expozice = daný genotyp) Poměr šancí v systému SAS Pro čtyřpolní kontingenční tabulky, které vzniknou vyloučením jedné z variant genotypu, např. kombinace alel Aa (heterozygot), lze vypočítat poměr šancí prostřednictvím úlohy Table Analysis v sekci Describe SAS Enterprise Guide (SAS EG). 19

20 Vhodné uspořádání dat pro úlohu Table Analysis je ve formátu kategoriálních proměnných pro znak (varianty např. 1 = přítomnost znaku, 2=nepřítomnost znaku) a pro genotyp (varianty 1 = aa, 2 = Aa, 3 = AA) a četnostní proměnné. Pro data z příkladu řešeného v systému R vypadá takováto datová množina např. takto a lze ji získat např. prostřednictvím kódu: Obr.7 data oddsratio; input znak alela pocet; datalines; ; run; Po úpravě (např. dotazem vytvořeným nástrojem Query Builder - volba Filter and Query... v menu Data), tj. vyloučením varianty Aa v proměnné alela a úpravou formátu této proměnné získáme vstupní datovou množinu pro úlohu Table Analysis (viz obr. 8). Obr.8 V úloze Table Analysis nastavíme role jednotlivých proměnných tak, jak je uvedeno na obr

21 Obr. 9 Dále v sekci Tables vytvoříme tabulku pro analýzu kombinací sloupcové proměnné alela a řádkové znak (viz obr. 10). Obr.10 V sekci Table Statistics a podsekci Association nastavíme výpočet poměru šancí zaškrtnutím první volby v části Measures of association (obr. 11). 21

22 Obr. 11 Ve výstupu úlohy potom vidíme vlastní kontingenční tabulky pro vybrané varianty genotypu a vypočtený poměr šancí OR aa,aa (obr. 12). Obr Pearsonův χ 2 test Pomocí Pearsonova χ 2 testu nezávislosti testujeme nulovou hypotézu, že náhodná veličina (znak) a expozice (genotyp) jsou nezávislé, tj. H 0 : OR = 1. Důležitým předpokladem pro použití tohoto testu je, že máme k dispozici dostatečně velký výběr z populace a nejmenší četnost v kontingenční tabulce splňuje 22

23 podmínku n ij > 5, i=1,..,r, j=1,..,s, kde i a j jsou varianty statistických znaků uspořádaných do kontingenční tabulky. Pokud není tento předpoklad splněn, není užití Pearsonova testu vhodné a upřednostníme místo něj tzv. Fisherův exaktní test. Při aplikaci Pearsonova χ 2 testu postupujeme tak, že odvodíme očekávané četnosti E ij, i=1,..,r, j=1,..,s, za předpokladu nezávislosti genotypu a znaku. Dostaneme je tedy tak, že vynásobíme pravděpodobnosti genotypu a znaku a podělíme rozsahem výběru, tj. E ij = n i.n.j n, kde i=1,..r, j=1,..,s a n je celkový počet pozorování (jedinců), tj. rozsah výběru. Pozorované četnosti označíme jako náhodnou proměnnou O ij, za kterou potom v konkrétním případě dosazujeme hodnoty četností n ij. Testová statistika Pearsonova χ 2 testu je obecně dána předpisem χ 2 = r i=1 s j=1 O ij E ij 2 E ij ~ χ 2 (r 1)(s 1) Statistika má asymptoticky χ 2 rozdělení o (r-1)(s-1) stupních volnosti, kde r představuje počet řádků a s počet sloupců kontingenční tabulky. Pokud vypočtená hodnota testovací statistiky splňuje podmínku χ 2 χ 2 r 1 s 1 (1 α), kde χ 2 r 1 s 1 (1 α) je (1-α)-kvantil rozdělení χ 2 (r - 1)(s - 1), hypotézu H 0 zamítáme na hladině významnosti α (obvykle 0,05 nebo 0,01). Místo porovnání hodnoty testovacího kriteria s kritickou hodnotou (kvantilem) můžeme použít též p-hodnoty, která bývá využívána zejmena při práci se softwary. P-hodnota je pravděpodobnost, s jakou testovací statistika nabývá hodnot více svědčících proti testované hypotéze, udává mezní hladinu významnosti, při které bychom hypotézu ještě zamítali. Pokud je p-hodnota menší než stanovená hladina významnosti α, hypotéza H 0 se zamítá. 23

24 2.2.1 Pearsonův χ 2 test v systému R Předpokládejme, že chceme zjistit, zda existuje asociace mezi některým SNP v genu esr1 a BMI (body mass indexem) větším jako 25 na základě dat, která máme k dispozici. Začneme specifikací umístění dat. Objekt fms bude proměnná uchovávající URL odkaz na umístění souboru s daty na internetu. Stejně tak lze použít i odkaz na umístění souboru s daty na disku počítače, tzv. cestu, ať už relativní (začíná v aktuálním pracovním adresáři) nebo absolutní (začíná označením diskové jednotky počítače). > fms = " Následně použijeme k vložení dat do R funkci read.delim(), která slouží k načítání dat oddělených specifikovaným oddělovačem, nejčastěji čárkou soubory ve formátu CSV (Comma Separated Value). Specifikací header = T určíme, že první řádek souboru bude obsahovat názvy proměnných, tzv. hlavičku. Volba sep= \t znamená, že vkládáme data, kde oddělovačem je tabulátor. > fms = read.delim(file=fms, header=t, sep="\t") Určíme názvy všech SNP genu esr1prostřednictvím funkce names(), která vrací názvy proměnných v objektu a funkce substr(), která nalezne podřetězec v zadaném řetězci. > NamesEsr1Snps = names(fms)[substr(names(fms),1,4)=="esr1"] > NamesEsr1Snps [1] "esr1_rs " "esr1_rs " "esr1_rs " "esr1_rs " [5] "esr1_rs " "esr1_rs " Zápis substr(names(fms),1,4)=="esr1" znamená porovnání ( ==..rovnost) prvních čtyř (1.. první znak podřetězce=1, 4..počet znaků podřetězce=4) znaků každého řetězce z vektoru názvů, který vrací funkce names() aplikovaná na objekt fms, s řetězcem esr1. Výsledkem tohoto porovnání je vektor logických hodnot (TRUE..pravda, FALSE..nepravda), který poté slouží k výběru vyhovujících prvků 24

25 z řetězce názvů proměnných. V našem případě vyhovuje této podmínce celkem šest proměnných, jak je vidět, když zobrazíme hodnotu proměnné NamesEsr1Snps. Genotypovou matici nyní můžeme definovat výběrem sloupců (druhá dimenze objektu fms, proto je podmínka výběru uvedena až za znakem,, vynechání výběru v první dimenzi znamená, že vybíráme všechny řádky objektu fms), které odpovídají názvům esr1 SNP. > fmsesr1 = fms[,is.element(names(fms),namesesr1snps)] Funkce is.element()je jednou z tzv. informačních funkcí, které vracejí logickou hodnotu pro každý prvek objektu, který je zadán jako jejich první argument. V našem případě prohledáváme prvky vektoru názvů proměnných v objektu fms a porovnáváme je s názvy uloženými v proměnné NamesEsr1Snps, která je uvedena jako druhý parametr. Jako znak nadefinujeme skutečnost, kdy BMI (body mass index, proměnná pre.bmi) > 25. Funkce as.numeric() patří mezi konverzní funkce, které slouží ke konverzi formátů objektů. V tomto případě konvertujeme logickou hodnotu TRUE nebo FALSE na číslo 1 nebo 0. > Trait = as.numeric(pre.bmi>25) Následně nadefinujeme funkci newfunction, která vypíše tzv. p-hodnoty generované prostřednictvím χ 2 -testu, tedy funkce chisq.test(). > newfunction = function(geno){ + ObsTab = table(trait,geno) + return(chisq.test(obstab)$p.value) + } Funkce table() vytváří tabulku četností. V našem případě kontingenční tabulku četností znaku Trait (BMI > 25) a znaku, který bude do funkce předán jako parametr Geno. Tyto proměnné by měly mít stejnou délku (neznamená to však stejný počet variant 25

26 znaku). Zápis chisq.test(obstab)$p.value)znamená, že z tzv. návratové hodnoty funkce chisq.test() chceme pouze tu část, která je označena jako p.value (odpovídá p-hodnotě χ 2 testu aplikovaného na konkrétní data). Vytvořenou funkci použijeme na sloupce, jejichž název je uložen v proměnné fmsesr1. Využijeme k tomu funkci apply(), která aplikuje funkci newfunction (3. parametr) na sloupce (2..sloupce, 1..řádky) objektu fmsesr1 (1. parametr). > apply(fmsesr1,2,newfunction) esr1_rs esr1_rs esr1_rs esr1_rs esr1_rs esr1_rs Na základě výsledků, vidíme, že je pravděpodobná asociace mezi druhým SNP (esr1_rs ) a BMI. U této proměnné je p-hodnota χ 2 testu nezávislosti menší než stanovená hodnota hladiny významnosti 0,05) Pearsonův χ 2 test v systému SAS Předpokládejme, že máme vytvořenou datovou množinu, která obsahuje pouze proměnné id, esr1_rs , esr1_rs , esr1_rs , esr1_rs , esr1_rs , esr1_rs a proměnnou Trait, která vznikla na základě podmínky pre.bmi>25 (obr. 13). Obr

27 Pearsonův χ 2 test můžeme opět realizovat prostřednictvím úlohy Table analysis jako u poměru šancí. Nastavení rolí provedeme dle obr. 14. Obr. 14 V sekci Tables můžeme nadefinovat kontingenční tabulky pro všechny vybrané SNP (obr. 15). Obr

28 V sekci Table Statistics, podsekci Association, části Test of association zaškrtneme první volbu Chi-square tests (obr. 16). Obr. 16 Pro SNP např. esr1_rs , u kterého jsme zpracováním v R zjistili možnou závislost, pak ve výsledcích najdeme kontingenční tabulku i p-hodnotu Pearsonova testu (viz obr. 17) a zjistíme, že p-hodnoty v obou softwarech vyjdou podobně, tedy je možná závislost mezi tímto SNP a znakem (BMI > 25). Obr

29 2.3 Fisherův exaktní test Jak už bylo řečeno, užití Fisherova exaktního (faktoriálového) testu je vhodnější, pokud máme malý rozsah výběru n nebo je nejmenší četnost v kontingenční tabulce menší než 5. Při aplikaci Fisherova exaktního testu postupujeme tak, že nejprve vypíšeme všechny možnosti kontingenčních tabulek, při daných marginálních četnostech n 1., n 2., n.1, n.2. Následně u nich vypočteme hodnoty pravděpodobností P P = P(n 11,n 12,n 21,n 22 ) R = n 1.!n 2.!n.1!n.2! n!n 11!n 12!n 21!n 22! A hodnoty logaritmických interakcí δ, dle vztahu δ = ln p 11 p 22 p 12 p 21, přičemž součet všech pravděpodobností P musí dát 1. Provedení testu nezávislosti hypotézy H 0 : δ = 0 (3) při oboustranné alternativě H A : δ 0 probíhá tak, že sečteme pravděpodobnosti P všech tabulek, u nichž absolutní hodnota logaritmické interakce je větší nebo rovna absolutní hodnotě logaritmické interakce výchozí kontingenční tabulky. Pokud je výsledný součet menší jak stanovená hladina významnosti α, zamítáme H 0 (3), tudíž není prokázána asociace mezi sledovanými znaky Fisherův exaktní test v systému R Budeme nás opět zajímat asociace mezi SNP esr1 genu a BMI > 25. Vytvoříme funkci, která vypočítá p-hodnoty Fisherova exaktního testu asociace mezi každým SNP a znakem (BMI). Fisherův exaktní test provádí funkce fisher.test(). 29

30 > newfunction = function(geno){ + ObsTab = table(trait,geno) + return(fisher.test(obstab)$p.value) Tuto novou funkci aplikujeme na sloupce esr1, tj. sloupce objektu fmsesr1, opět pomocí funkce apply(). > apply(fmsesr1,2,newfunction) esr1_rs esr1_rs esr1_rs esr1_rs esr1_rs esr1_rs P-hodnoty Fisherova exaktního testu jsou srovnatelné s p-hodnotami χ 2 testu. Stejně jako u χ 2 testu výsledek naznačuje asociaci mezi druhým SNP a BMI > 25 (zde je p-hodnota menší jak α = 0,05) Fisherův exaktní test v systému SAS Analogicky jako pro Pearsonův test nezávislosti, využijeme v prostředí SAS EG úlohu Table Analysis. Při zadávání postupujeme stejně jako u χ 2 testu, pouze v sekci Table Statistics, podsekci Association zaškrtneme volbu Fisher s exact test for r x c tables (obr. 18). 30

31 Obr.18 Pro SNP esr1_rs , u kterého výpočtem v systému R vyšla p-hodnota značící závislost mezi tímto SNP a znakem, nalezneme ve výsledcích podobnou p-hodnotu Fisherova exaktního testu (obr. 19). Obr Korelace Termín korelace je často používán ve smyslu závislosti mezi dvěma proměnnými. Pro výpočet korelace se užívá Pearsonův a Spearmanův korelační koeficient. 31

32 Pearsonův korelační koeficient vyjadřuje lineární závislost dvou náhodných spojitých veličin X,Y. Může nabývat hodnot z intervalu 1, 1. Pokud jsou náhodné veličiny X,Y normálně rozdělené a korelační koeficient rovná 0 (jejich kovariance je nulová), není mezi X,Y lineární závislost. Musíme si však uvědomit, že závislost může existovat i jiná než lineární. Pearsonův korelační koeficient mezi náhodnou veličinou X a Y se vypočítá dle vztahu ρ XY = S xy S x 2 S y 2 = E XY E X E(Y) E(X 2 ) E 2 (X) E Y 2 E 2 (Y) Pokud sledujeme dva znaky, které nabývají dvou různých variant, např. výskyt nemoci vzhledem ke genotypům AA,aa a Aa, můžeme možnosti shrnout do kontingenční tabulky typu 2x2 AA,aa Aa Nemoc se vyskytuje n 11 n 12 n 1. Nemoc se nevyskytuje n 21 n 22 n 2. n.1 n.2 n a počítáme tzv. výběrový korelační koeficient takto r XY = n 11n 22 n 12 n 21 n 1. n 2. n.1 n.2 r XY = -1 r XY = 1 rxy = 1 Obr. 20 Lineárně závislá data, upraveno dle [15] 32

33 Spearmanův korelační koeficient je neparametrická metoda zjištění korelace, založená na pořadích jedinců uspořádaných dle velikosti, vzhledem ke dvěma sledovaným veličinám. Užívá se v případě, že je narušen předpoklad normality nebo nemůžeme-li hodnoty náhodných veličin přesně zjistit, ale máme k dispozici pořadí veličin Q (pořadí jedinců dle první veličiny) a R (pořadí jedinců dle druhé veličiny). Jsou-li si tato pořadí podobná, značí to závislost mezi náhodnými veličinami. Spearmanův korelační koeficient vypočítáme za pomocí diferencí d i = Q i - R i, i = 1,..,n podle vztahu r s = 1-6 n(n 2 1) n 2 i=1 d i Spearmanův korelační koeficient rovněž nabývá hodnot mezi -1 a 1 a pokud je roven 0, naznačuje, že mezi sledovanými veličinami není lineární závislost. 2.5 Cochran-Armitage test (test trendu) Test trendu užíváme k odhalení lineárního trendu. Předpokladem pro užití Cochran Armitage testu je, že veličiny v kontingenční tabulce jsou ordinální (založené na uspořádaných kategorií, např. expozice nízká, střední, vysoká). Pokud je veličina spojitá, můžeme test trendu použít, pokud ji převedeme na ordinální, tzn. vhodně uspořádáme do kategorií. Musíme však brát v úvahu, že počet kategorií by neměl být příliš velký, jelikož k testování lineárního trendu se užívá statistika χ 2 testu, a mohlo by se stát, že v kategoriích klesne obsazení tak, že bude porušen předpoklad minimální četnosti Eij > 5, i=1,..,r, j=1,..,s. Pro jednoduchost se omezíme na případ s obecně k ordinálně uspořádanými kategoriemi expozice a dvěma kategoriemi následku. Uvažujme, že budeme zkoumat vztah mezi expozicí (genotypem) a výskytem nemoci. Genotypy můžeme převést do tří (k = 3) uspořádaných kategorií na základě počtu alely A, tj. 33

34 AA 2, Aa 1, Aa 0. Hodnoty četností genotypu a znaku (např. nemoci) shrneme do kontingenční tabulky pro test trendu. Kategorie Skór Nemoc + (případy) Nemoc (kontroly) Celkem Podíl jedinců se znakem 0 x 0 y 0 n 0 y 0 n 0 y 0 /n 0 1 x 1 y 1 n 1 y 1 n 1 y 1 /n 1 2 x 2 y 2 n 2 y 2 n 2 y 2 /n 2 V každé kategorii se předpokládá binomické rozdělení počtu následků (přítomnosti nemoci). Pravděpodobnost že v v i-té kategorii nastane znak (vyskytne se nemoc) je π i = α + βx i, kde i = 0,1,2 a x i jsou skóry. Skóry kvantifikují postavení kategorie v kontextu ostatních. Mohou jimi být středy tříd (např. medián) nebo je volíme symetricky kolem nuly (-1,0,1), popřípadě jako pořadí (1, 2, 3). Testem lineárního trendu testujeme nulovou hypotézu, že směrnice přímky je rovna 0 (neexistuje lineární závislost) H 0 : β = 0. (4) Postupujeme podobně jako u lineární regrese a dostaneme odhady pravděpodobností π i = a + bx i. Odhad směrnice β vypočteme takto b = 2 i=0 n i p i p (x i x), 2 i=0 n i (x i x) 2 34

35 kde p je celkový podíl případů p = 2 i=0 y i n a x vypočítáme dle vztahu x = k i=1 x i n i n, přičemž n je celkový počet jedinců, zahrnutých do studie. Absolutní člen a dopočteme dle vztahu a = p - bx. Nyní můžeme porovnat p i s odhadem π i. Pokud jsou si hodnoty v kategoriích blízké, můžeme předpokládat lineární závislost π i na hodnotách x i.. Náš předpoklad ověříme testovou statistikou testu dobré shody χ 2 linearita = 2 i=0 n i (p i π i ) 2 p(1 p) ~ χ 2 k-2. Za platnosti našeho předpokladu existuje lineární asociace mezi π i a x i, i = 1,,k. Nyní můžeme přejít k testovací statistice Cochranova-Armitageova testu a ověřit, zda lineární trend je statisticky významný, vrátíme se tedy k hypotéze (4). Za předpokladu, že platí nulová hypotéza (4), pak platí χ 2 směrnice = b2 2 i=0 n i (x i x) 2 p(1 p) ~ χ 2 1. Je-li hodnota testovací statistiky rovna nebo větší jak hypotézu ve prospěch hypotézy alternativní, že lineární trend je významný. χ 2 1(1-α), zamítáme nulovou C-A test v systému R C-A test se aplikuje pomocí funkce independence_test() z balíčku coin. V příkladu se zaměříme na asociaci mezi esr1_rs SNP a BMI (binární znak BMI 25, BMI > 25). 35

36 Začneme nainstalováním potřebného balíčku coin. Můžeme postupovat prostřednictvím nabídky Packages, a volby Install Package(s)... spolu s volbou Load package... nebo použít funkci install.packages() a funkci library(). První volbu (resp. funkci) použijeme jen jednou slouží k instalaci balíčku na náš počítač, druhou pokaždé, když chceme nějakou funkci nebo data z konkrétního balíčku použít. Druhý způsob je výhodnější, pokud chceme provádět C-A test v rámci nějakého komplexnějšího skriptu. > install.packages("coin") > library(coin) Nyní nadefinujeme genotyp a znak (není nutné vyřadit pozorování s chybějícími hodnotami genotypů). > attach(fms) > Geno = esr1_rs > Trait = as.numeric(pre.bmi>25) Funkce attach(fms) umožní vstup dovnitř objektu fms, tj. nebude nutné pro přístup k proměnným tohoto objektu používat předponu fms$. Toto nastavení rušíme pomocí funkce detach(). V následujícím kroku uspořádáme genotypy do ordinálních kategorií 0 (aa), 1(Aa), 2 (AA) dle počtu alel A a aplikujeme funkci independence_test(). Zvolíme-li testat = quad, bude aplikován C-A test. Skóry specifikují vztah mezi kategoriemi genotypů. Funkce ordered() (analogie funkce as.ordered()) zajistí, že jednotlivé úrovně faktorové (kategoriální) proměnné budou chápány jako ordinální (uspořádané). Zápis Trait~GenoOrd znamená předpis (formuli) používaný pro vyjádření závislosti proměnných. Funkce list() vytváří objekt typu list, tj. seznam (heterogenní struktura, v našem případě složená z jediného prvku, a to vektoru označeného jako GenoOrd). Funkce c() vytváří vektor (homogenní datovou strukturu prvky musí být stejného typu) o složkách zadaných jako parametry této funkce. > GenoOrd = ordered(geno) 36

37 > independence_test(trait~genoord,teststat="quad", scores=list(genoord=c(0,1,2))) Asymptotic General Independence Test data: Trait by GenoOrd (AA < GA < GG) chi-squared = , df = 1, p-value = V případě užití testu trendu je p-hodnota větší než při užití χ 2 testu. Můžeme vidět, že poměr jedinců s BMI větším než 25 neklesá lineárně s genotypem tohoto SNP. Pokud si zobrazíme do matice počty jedinců s jednotlivými genotypy a binární znak (BMI 25 (0), BMI > 25 (1)) a spočítáme poměry jedinců s daným genotypem, s BMI > 25 (1), můžeme vidět, že poměr jedinců s BMI větším než 25 neklesá lineárně s genotypem tohoto SNP. > data=matrix(c(30,246,380,30,130,184,60,376,564),nrow=3,byrow=t) > colnames(data)=c("aa","ga","gg") > rownames(data)=c("0","1","celkem") > data AA GA GG celkem > pomery=c(data[2,1]/data[3,1],data[2,2]/data[3,2],data[2,3]/data[3,3]) > pomery [1] C-A test v systému SAS Ve stejné úloze Table Analysis, ve které jsme již řešili nezávislost proměnných uspořádaných do kontingenční tabulky pomocí Pearsonova χ2 testu a Fisherova exaktního testu, lze nastavit i výpočet Cochran Armitage testu. Tentokrát budeme volit v sekci Table Statistics, podsekci Trend Test a zde zaškrtneme volbu Cochran-Armitage test (obr. 21). 37

38 Obr. 21 Ve výsledcích si pak můžeme ověřit, že získáme stejnou hodnotu p-value pro SNP esr1_rs jako v případě použití softwaru R (obr. 22) Obr

39 3 Vícevýběrové testy kvantitativního znaku 3.1 Dvouvýběrový t-test Dvouvýběrový t- test se užívá k testování nulové hypotézy o rovnosti středních hodnot ve dvou populacích. H 0 : µ 1 = µ 2 Můžeme např. definovat, že µ 1 je střední hodnotou populace jedinců s genotypem AA a µ 2 střední hodnotou populace jedinců s genotypy Aa a aa. Důležitým předpokladem pro použití tohoto testu je, že výběry jsou nezávislé a mají normální rozdělení se stejným rozptylem (předpoklad stejného rozptylu se otestuje pomocí F-testu). Testovací statistika pro t-test vypadá takto T = X n Y m (µ 1 µ 2 ) (n 1)S n 2 +(m 1)Sm 2 nm(n+m 2) n+m ~ t n + m 2, kde X n, Y m jsou výběrové průměry obou populací (populace s AA a populace s Aa,aa), S 2 n, S 2 m jsou výběrové rozptyly a n, m jsou rozsahy výběrů. Pro připomenutí výběrový průměr spočítáme jako X = 1 n n X i i=1 a výběrový rozptyl S n 2 = 1 n 1 n i=1. (X i X) 2 Za platnosti nulové hypotézy má testovací statistika Studentovo t-rozdělení o n+m 2 stupních volnosti. Je-li T t n+m 2 (1 α 2 ), nulovou hypotézu H O: µ 1 = µ 2 zamítneme ve prospěch H A : η 1 η 2. 39

40 3.1.1 Dvouvýběrový t-test v systému R Chceme zjistit, zda alespoň jedna varianta alely pro nějaký SNP v resistin genu je asociována s proměnnou NDRM.CH (%-ní změnou síly nedominantního deltového svalu před a po cvičení). Jako první, vytvoříme vektor názvů SNP v resistin genu a odpovídající matici genotypů. > NamesResistinSnps = names(fms)[substr(names(fms),1,8)=="resistin"] > fmsresistin = fms[,is.element(names(fms),namesresistinsnps)] Následně vytvoříme novou funkci, která konvertuje vektor genotypů na binární prvky (hodnoty 0 a 1) a vygeneruje p-hodnoty t-testu rovnosti středních hodnot znaků výsledných 2 skupin. K tomu bude potřeba nainstalovat a načíst balíček genetics. Definujeme také binární proměnnou genotypu GenoBin jako indikátor nejméně jedné varianty alely v odpovídajícím lokusu. > library(genetics) > TtestPval <- function(geno){ + allelemajor <- allele.names(genotype(geno, sep="", reorder="freq"))[1] + GenoWt <- paste(allelemajor, allelemajor, sep="") + GenoBin <- as.numeric(geno!=genowt)[!is.na(geno)] + Trait <- NDRM.CH[!is.na(Geno)] + return(t.test(trait[genobin==1],trait[genobin==0])$p.value) + } Funkce genotype() mění objekt na typ objektu genotype, se kterým se v balíčku pracuje. Funkce allele.names() vyextrahuje z objektu typu genotype názvy alel. Volba reorder= freq ve funkci genotype() zajistí změnu v pořadí alel dle četnosti výskytu alely. Do proměnné allelemajor se tedy uloží hodnota nejčetnější alely. Funkce paste() spojuje řetězce zadané jako její parametry. Volba sep= zajistí, že mezi jednotlivými složkami řetězce se nebude vkládat žádný další znak. Funkce is.na() patří mezi informační funkce a vrací logickou hodnotu TRUE nebo FALSE podle toho, zda je hodnota jejího argumentu rovna konstantě NA, tj. chybějící hodnotě. Logický operátor! má význam negace, proto také zápis!= znamená nerovnost. 40

41 Nyní můžeme funkci TtestPval aplikovat na každý sloupec genotypové matice fmsresistin. > apply(fmsresistin,2,ttestpval) resistin_c30t resistin_c398t resistin_g540a resistin_c980g resistin_c180g resistin_a537c Stanovíme-li opět hladinu významnosti na 0,05, pak dvouvýběrový t-test poukazuje na skutečnost, že první a pátý SNP v genu resistin mohou být asociovány s NDRM.CH Dvouvýběrový t-test v systému SAS Předpokládejme, že máme data připravená ve tvaru binární proměnné SNP (1=homozygot v nejčetnější alele, 0=jinak) klasifikační proměnná, a zkoumané proměnné. Pro SNP resistin_c30t by mohla datová množina vypadat jako na obr. 23 (CC je homozygot, kde C je nejčetnější alela, Recode_resistin_c30t odpovídající binární klasifikační proměnná a fms$ndrm#ch analyzovaná proměnná). Obr

42 Analýzu prostřednictvím Studentova t-testu provedeme pomocí úlohy t Test v nabídce Analyze, podnabídce ANOVA. Nastavíme role dle obr. 24. Jinak nemusíme nic nastavovat. Obr. 24 Ve výsledcích uvidíme jak F-test pro shodu rozptylů, tak jednotlivé varianty t-testu (pro shodné rozptyly i aproximaci pro různé rozptyly). Poněvadž F-test vyšel významně (p-value = ), použijeme jako výsledek t-testu řádek označený jako Satterthwaite (ve sloupci Variances je uvedeno Unequal) a zjistíme, že p-hodnota pro oboustranný test je rovna číslu 0.044, což odpovídá výsledkům získaným pomocí softwaru R. Obr

43 3.2 Wilcoxonův dvouvýběrový test Wilcoxonův dvouvýběrový test, známý též jako Mannův-Whitneyův test je neparametrickou analogií dvouvýběrového t-testu. Jeho použití je vhodné, pokud máme malé rozsahy výběrů (n 1,n 2 ) nebo není zajištěna normalita výběrů. Testujeme hypotézu, že rozdělení obou populací je shodné. Postupujeme tak, že seřadíme hodnoty obou populací od nejnižších po nejvyšší a určíme pořadí. Potom provedeme součty pořadí v jednotlivých populacích. Součet pořadí v populaci 1 označíme jako S 1 a součet pořadí v druhé populaci S 2. Nyní můžeme spočítat hodnoty testovací statistiky U 1 a U 2 U 1 = n 1 n 2 - n 1(n 1 +1) 2 - S 1 U 2 = n 1 n 2 - n 2(n 2 +1) 2 - S 2 Pro U 1 a U 2 platí vztah, že U 1 + U 2 = n 1 n 2, lze tedy vypočítat jen jednu ze statistik a druhou dopočítat z tohoto vztahu. Menší z hodnot statistik U 1 a U 2 porovnáme s kritickou hodnotou pro dvouvýběrový Wilcoxonův test. Pokud min(u 1,U 2 ) je menší nebo rovno kritické hodnotě, zamítneme nulovou hypotézu, tedy rozdělení v populacích není stejné. Speciálně v případě, kdy jsou rozsahy výběrů n 1 a n 2 velké (alespoň 20) vypočteme veličinu Z, která má normované normální rozdělení N(0,1) Z = U n 1n n 1n 2 (n 1 + n 2 +1) Vypočtenou hodnotu z porovnáme s kritickou hodnotou, (1- α 2 )-kvantilem normálního rozdělení z(1- α 2 )Pokud je absolutní hodnota z rovna nebo větší jak z(1- α 2 ), zamítneme hypotézu H 0 na hladině významnosti α. 43

44 3.2.1 Wilcoxonův dvouvýběrový test v R Provádí se podobně jako dvouvýběrový t-test, s tím rozdílem, že funkci t.test() nahradíme funkcí wilcox.test(). > attach(fms) > NamesResistinSnps = names(fms)[substr(names(fms),1,8)=="resistin"] > fmsresistin = fms[,is.element(names(fms),namesresistinsnps)] > library(genetics) > WilcoxTPval = function(geno){ + allelemajor = allele.names(genotype(geno, sep="", + reorder="freq"))[1] + GenoWt = paste(allelemajor, allelemajor, sep="") + GenoBin = as.numeric(geno!=genowt)[!is.na(geno)] + Trait = NDRM.CH[!is.na(Geno)] + return(wilcox.test(trait[genobin==1], Trait[GenoBin==0])$p.value) + } Aplikujeme funkci WilcoxTPval. > apply(fmsresistin,2,wilcoxtpval) resistin_c30t resistin_c398t resistin_g540a resistin_c980g resistin_c180g resistin_a537c Wilcoxonův test na rozdíl od dvouvýběrového t-testu vypovídá o tom, že pouze pátý SNP v resistin genu může být asociován s NDRM.CH (zde je p-hodnota menší než α) Wilcoxonův dvouvýběrový test v systému SAS Pro stejnou datovou množinu jakou jsme použili u t-testu, provedeme nyní analýzu prostřednictvím Wilcoxonova neparametrického testu. K tomuto účelu využijeme úlohy Nonparametric One-Way ANOVA, která se skrývá ve stejné nabídce jako úloha t Test, tj. Analyze, ANOVA. Nastavení rolí je uvedeno na obr

45 Obr. 26 V sekci Analysis ponecháme zatrženou pouze volbu Wilcoxon (obr. 27). Obr. 27 Ve výsledcích poté zjistíme p-hodnotu oboustranného dvouvýběrového Wilcoxonova testu, která odpovídá hodnotě získané prostřednictvím softwaru R, tj (viz obr. 28). 45

46 Obr Analýza rozptylu (ANOVA) Analýza rozptylu nám umožňuje porovnávat více nezávislých výběrů (můžeme porovnávat populace s genotypy AA, aa, Aa) a testovat hypotézu o rovnosti středních hodnot v k výběrech oproti alternativní hypotéze, kdy alespoň dva populační průměry se od sebe liší. H 0 : µ 1 =.. = µ k (5) Důležitým předpokladem pro užití analýzy rozptylu je, že výběry mají normální rozdělení se stejnou směrodatnou odchylkou. Matematický model se zapisuje takto Yij = µ + α i + Ɛ ij j-té pozorování i-té skupiny Společná střední hodnota Efekt faktoru A v i-tém výběru Náhodné chyby 46

47 Variabilita uvnitř skupin určuje, jak se hodnoty v jednotlivých skupinách liší od průměru skupiny. Vypočteme ji pomocí reziduálního součtu čtverců S E. Nejprve určíme skupinový průměr pro všechny skupiny dle vztahu Y i. = 1 n i n j=1 Y ij, kde n i je počet pozorování v i-té skupině (výběru). Potom můžeme spočítat S E jako sumu druhých mocnin rozdílů hodnot a příslušného skupinového průměru k n S E = (Y ij Y i. ) 2 i i=1 j=1. Variabilitu jednotlivých pozorování kolem celkového průměru (průměru všech pozorování) charakterizuje celkový součet čtverců S T. Nejdříve musíme určit celkový průměr. Y.. = 1 n k n i i=1 j=1 Y ij = 1 n k i=1 n i Y i., kde n je celkový počet pozorování (ve všech skupinách). S T určíme tak, že od každé hodnoty pozorování odečteme celkový průměr a výsledné rozdíly umocníme na druhou k n S T = (Y ij Y.. ) 2 i i=1 j=1. Variabilita mezi skupinami ukazuje, jak se liší skupinové průměry od celkového průměru. Zjistíme ji výpočtem skupinového součtu čtverců S A S A = S T S E. Porovnání variabilit uvnitř a mezi skupinami provedeme pomocí F-testu. Vypočtené hodnoty dosadíme do testovací statistiky F A, která má za platnosti nulové hypotézy F rozdělení o k - 1, n - k stupních volnosti, kde k je počet skupin a n je celkový počet pozorování F A = S A S E n k k 1. 47

48 Pokud hodnota testovací statistiky F A F k 1,n k (1 α), zamítneme hypotézu (5) na hladině významnosti α. Výsledky výpočtů se pro přehlednost shrnují do tabulky typické pro analýzu rozptylu. Zdroj variability Součet čverců Stupně volnosti F A p-hodnota Skupiny S A k-1 S A n k Reziduální S E n-k S E k 1 P(F k 1,n k F A ) Celkový S T n Analýza rozptylu v R Chceme odhalit asociaci mezi resistin_c180g SNP a procentní změnou síly nedominantního svalu před a po cvičení (NDRM.CH). Začneme načtením genotypových dat proměnné resistin_c180g SNP a definováním znaku. Funkce as.factor() změní typ proměnné na faktor. > attach(fms) > Geno = as.factor(resistin_c180g) > Trait = NDRM.CH K provedení analýzy rozptylu užijeme funkce lm(). Nejprve nadefinujeme, že chceme vyloučit jedince s chybějícími hodnotami znaku (v souboru dat značeno NA). Toho dosáhneme pomocí podmínky na.action==na.exclude. Funkcí summary() vyvoláme výstup, jehož součástí je tabulka v obvyklém formátu pro ANOVA test. Alternativně lze provést pomocí funkce aov(), s tím rozdílem, že výstup vyvoláme příkazem print(). > AnovaMod = lm(trait ~ Geno,na.action=na.exclude) > summary(anovamod) 48

49 Call: lm(formula = Trait ~ Geno, na.action = na.exclude) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** GenoCG * GenoGG Signif. codes: 0 *** ** 0.01 * Residual standard error: on 603 degrees of freedom (791 observations deleted due to missingness) Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 603 DF, p-value: Protože p-hodnota je větší než α, středních hodnot (5). nemůžeme zamítnout hypotézu o rovnosti ANOVA v systému SAS Předpokládejme, že máme k dispozici datovou množinu odpovídající klasifikační proměnné SNP resistin_c180g a proměnnou analyzovanou, v našem případě NDRM.CH (viz obr. 29). Obr

50 Pro jednocestnou analýzu rozptylu je v SAS EG k dispozici přímo úloha One-Way ANOVA v nabídce Analyze, podnabídce ANOVA. Přiřazení rolí provedeme dle obr. 30. Obr. 30 V sekci Tests můžeme zaškrtnout Bartlettův test k ověření hypotézy, že výběry pochází z normálně rozdělených souborů se stejným rozptylem (ověření homoskedasticity), viz obr. 31. Obr. 31 Jinak nemusíme nic nastavovat. Ve výsledcích vidíme, že Bartlettův test nezamítl hypotézu shody rozptylů v jednotlivých skupinách a můžeme také porovnat p-hodnotu získanou v SAS EG s tou, kterou jsme získali prostřednictvím softwaru R (obr. 32). 50

51 Obr Kruskalův Wallisův test Kruskalův-Wallisův test je vlastně neparametrickou obdobou jednofaktorové analýzy rozptylu. Jde o zobecnění Wilcoxonova dvouvýběrového testu pro k výběrů. Jeho použití je vhodnější u výběrů s malým rozsahem. U této metody nemusí být splněn předpoklad normality výběrů, budeme proto předpokládat, že každý z k výběrů pochází z rozdělení se spojitou distribuční funkcí a otestujeme, zda výběry pochází ze stejného rozdělení. Postupujeme tak, že seřadíme všech n prvků od nejmenšího po největší a přiřadíme prvkům pořadí. Potom spočteme součet pořadí i-tého výběru T i, kde i = 1, k a následně určíme hodnotu veličiny Q Q = 12 n(n+1) k T i 2 i=1 3(n + 1), n i kde n i je rozsah i-tého výběru, i = 1, k a n je k i=1 n i. Za platnosti hypotézy, že výběry pochází z téhož rozdělení má veličina Q asymptotické χ 2 2 rozdělení s počtem stupňů volnosti k 1. Je-li q χ k 1 (1 α), zamítáme hypotézu na hladině významnosti α. 51

Zobrazit více