1 Úvod Vybrané partie z biostatistiky 10.7.2017, Běstvina Marie Turčičová (turcic@karlin.mff.cuni.cz), MFF UK Pracovat budeme v programu R a jeho nástavbě RStudio, které si můžete bezplatně stáhnout zde: https://cran.r-project.org/ https://www.rstudio.com/products/rstudio/download/ Analýzy si můžeme ukázat například na datech Iris.csv. Tato data byla nasbírána Edgarem Andersonem v roce 1935 a obsahují naměřené údaje o třech druzích rostlin (Iris setosa, versicolor a virginica). Od každého druhu bylo zkoumáno 50 jedinců a měřeny byly tyto veličiny: ˆ sepal length (délka lístku kalicha) ˆ sepal width (šířka lístku kalicha) ˆ petal length (délka okvětního lístku) ˆ petal width (šířka okvětního lístku) ˆ Species (odrůda). 2 Zahájení práce a načtení dat rm(list=ls()) # vyčištění pracovního prostředí Iris <- read.csv("popis/cesty/iris.csv", sep=";", dec = ",", header=true) attach(iris) # přímý přístup k jednotlivým proměnným v datech Nezapomeňte si uložit skript! # data 3 Základní popisné statistiky Na n náhodně vybraných jedincích jsme naměřili hodnoty znaku X. Máme tedy X 1, X 2,..., X n (tzv. náhodný výběr). Výběrový průměr (mean) mean(vyber) X = 1 n (X 1 + X 2 +... + X n ) = 1 n n i=1 X i Výběrový rozptyl (variance) Charakterizuje rozptýlenost (variabilitu) našich hodnot. s 2 = 1 [ (X1 n 1 X) 2 + (X 2 X) 2 +... + (X n X) 2] = 1 n 1 n (X i X) 2 Odmocnina z rozptylu se nazývá směrodatná odchylka (standard deviation), značí se s a opět charakterizuje rozptýlenost dat. i=1 var(vyber) sd(vyber) # výběrový rozptyl # výběrová směrodatná odchylka 1
Medián Hodnota, který se v uspořádaném výběru nachází uprostřed. Je-li hodnot sudý počet, je mediánem průměr dvou prostředních hodnot. Obvykle se značí X. median(vyber) p% kvantil Hodnota, která v uspořádaném výběru odděluje p% nejmenších hodnot. Např. 5% kvantil ja takové číslo, že 5 % hodnot v datech je menších než toto číslo a 95 % je větších. Významné kvantily: medián - 50% kvantil dolní kvartil - 25% kvantil (čtvrtina dat je menších nebo rovno tomuto číslu), značí se Q 1 horní kvartil - 75% kvantil (75 % dat je menších nebo rovno tomuto číslu), značí se Q 3 první decil - 10% kvantil quantile(vyber, prob=p) # p musí být číslo mezi 0 a 1 Užitečné grafy Krabicový graf (boxplot) boxplot(vyber) boxplot(vyber~faktor) # faktor určuje podskupiny Bodový graf (scatter plot) plot(vybery ~ vyberx) Sloupcový graf (barplot) barplot(table(vyber)) Koláčový graf (pie chart) pie(table(vyber)) 2
QQ-plot qqnorm(vyber) qqline(vyber) Histogram hist(vyber) QQ-plot: Pocházejí-li data z normálního rozdělení, měly by v QQ-plotu ležet přibližně na přímce. Příklad: Pro jednotlivé druhy vykreslete boxploty pro délku okvětního lístku (Petal Length). 4 Populace vs. výběr Principem statistiky je usuzování o celé populaci na základě několika (náhodně) vybraných jedinců (tzv. náhodného výběru). Hodnoty vypočtené z výběru jsou jen odhadem hodnot populačních. Populace Výběr populační průměr, výběrový průměr ( X) střední hodnota (µ) rozptyl (σ 2 ) výběrový rozptyl (s 2 ) populační medián výběrový medián Výběrový průměr je tedy pouze odhadem populačního průměru a je třeba k tomu tak přistupovat. Samozřejmě čím větší náš výběr je, tím jsou naše odhady přesnější. Stejně tak v následujících testech se testují hypotézy o populaci, avšak závěr činíme na základě výběru. Je zde tedy riziko chybného závěru. Pravděpodobnost chyby se vždy snažíme udržet malou, a to pomocí hladiny testu, což je maximální povolená pravděpodobnost chybného zamítnutí nulové hypotézy. Tato pravděpodobnost se vždy volí malá, typicky 0.05, a hraje důležitou roli v každém testu. Možnost chybného závěru musíme mít celou dobu na paměti a být opatrní ve formulování svých závěrů. Nezamítneme-li H 0, pak správný závěr je: Nelze zamítnout hypotézu, že...(tvrzení H 0 )... Zamítneme-li H 0, pak správný závěr je: Na hladině 5 % jsme prokázali, že...(tvrzení H 1 )...!!! Nikdy nezapomeňte ověřit předpoklady zvoleného testu!!! 5 t-testy Jednovýběrový t-test Předpokládejme, že rozdělení hodnot X 1, X 2,..., X n je normální (Gaussovo) se střední hodnotou µ a rozptylem σ 2 (tj. N(µ, σ 2 )). Testujeme hypotézu H 0 : µ = µ 0 (např. střední hodnota délky okvětního lístku je 5 cm) 3
proti jedné z alternativních hypotéz: H 1 : µ µ 0 H 1 : µ > µ 0 H 1 : µ < µ 0. Test se provádí pomocí testové statistiky T = X µ 0 n, s která má za platnosti nulové hypotézy rozdělení t n 1 (Studentovo t-rozdělení s n 1 stupni volnosti). Připomeňme, že s = 1 n (X i n 1 X) 2. i=1 Hypotézu H 0 zamítneme, pokud bude X příliš daleko od µ 0, tj. hodnota T bude velká. Hranice, od které už je T považováno za moc velké je dána kvantily rozdělení t n 1. Kuchařka: ˆ Nejprve spočítáme hodnotu T = X µ 0 s n. ˆ Pro H 0 : µ = µ 0, H 1 : µ µ 0 je rozhodovací pravidlo tvaru: T t n 1 (1 α 2 ), pak zamítáme H 0 ( Na hladině α jsme prokázali, že µ µ 0. ) T < t n 1 (1 α 2 ), pak nezamítáme H 0 ( Nelze zamítnout hypotézu, že µ = µ 0. ) ˆ Pro H 0 : µ = µ 0, H 1 : µ > µ 0 je rozhodovací pravidlo tvaru: T t n 1 (1 α), pak zamítáme H 0 ( Na hladině α jsme prokázali, že µ > µ 0. ) T < t n 1 (1 α), pak nezamítáme H 0 ( Nelze zamítnout hypotézu, že µ = µ 0. ) ˆ Pro H 0 : µ = µ 0, H 1 : µ < µ 0 je rozhodovací pravidlo tvaru: T t n 1 (1 α), pak zamítáme H 0 ( Na hladině α jsme prokázali, že µ < µ 0. ) T > t n 1 (1 α), pak nezamítáme H 0 ( Nelze zamítnout hypotézu, že µ = µ 0. ) Hodnota α se nazývá hladina testu a většinou se volí 5 %, tj. 0.05 (pak je 1 α 2 = 0.975 a 1 α = 0.95). Hodnoty kvantilů t n 1 (1 α 2 ) a t n 1(1 α) si musíme najít v tabulkách. V praxi se rozhodování provádí na základě tzv. p-hodnoty, přičemž hypotézu H 0 zamítneme, bude-li p-hodnota menší než zvolená hladina testu (většinou 5 %, tj. 0.05). V opačném případě nulovou hypotézu nezamítáme. t.test(vyber,mu=mu0) t.test(vyber,mu=mu0,alternative="less") t.test(vyber,mu=mu0,alternative="greater") # pro H1: mu různé od mu0 # pro H1: mu < mu0 # pro H1: mu > mu0 P-hodnota (angl. p-value) udává pravděpodobnost, že za platnosti H 0 dostaneme data, která budou ještě horší než ta, co máme. (Horší ve smyslu: ještě více svědčící proti H 0 ). Lze ji také definovat jako nejmenší hladinu, na které bychom už H 0 zamítli. Předpoklad normality ohodnotíme pomocí Shapirova-Wilkova testu: H 0 : výběr pochází z normálního rozdělení H 1 : výběr nepochází z normálního rozdělení 4
shapiro.test(velicina) Je-li p-hodnota z tohoto testu větší než 0.05, tak nezamítáme, že data pocházejí z normálního rozdělení a můžeme to tedy předpokládat. Okometricky lze normalitu ohodnotit pomocí histogramu (zda má tvar Gaussovy křivky), nebo pomocí tzv. QQ plotu (pokud data pocházejí z normálního rozdělení, měly by body v tomto grafu ležet na přímce). hist(vyber,prob=true) qqnorm(vyber) qqline(vyber) # normální QQ graf # proloží přímku QQ grafem Neparametrické alternativy ˆ jednovýběrový Wilcoxonův test Předpokládá, že výběr X 1,..., X n pochází ze (spojitého) symetrického rozdělení (ohodnotíme okometricky pomocí histogramu). Testované hypotézy mají tvar: H 0 : populační medián je roven µ 0 H 1 má opět jeden z tvarů : H 1 : populační medián je µ 0 wilcox.test(velicina,mu=mu0) H 1 : populační medián je < µ 0 H 1 : populační medián je > µ 0 Testová statistika je založená na součtu pořadí hodnot X i µ 0 v případech, kdy X i > µ 0. Součet pořadí by za platnosti H 0 neměl být příliš malý ani příliš velký. V praxi se opět rozhodujeme pomocí p-hodnoty (vyjde-li p-hodnota menší než 0.05, zamítáme H 0, v opačném případě nezamítáme). ˆ znaménkový test Předpokládá pouze, že výběr pochází ze spojitého rozdělení. Tvar H 0 i H 1 je stejný jako u Wilcoxonova testu. Testová statistika je založená pouze na počtu rozdílů X i µ 0, které mají kladné znaménko. Hypotézu H 0 pak zamítáme, je-li tento počet příliš malý nebo velký. V praxi se opět rozhodujeme pomocí p-hodnoty. U <- sum(velicina > mu0) # počet kladných znamének n2 <- sum(velicina!= mu) # úprava počtu pozorování prop.test(u, n2) # znaménkový test Testujeme-li jednostrannou alterantivu, doplníme do příkazů alternative="less" nebo alternative="greater". Příklad: Otestujte nulovou hypotézu, že šířka lístku kalicha (Sepal Width) u odrůdy virginica je rovna 3.1 cm proti oboustranné alternativě. Hladinu testu uvažujte 5 %. Dvouvýběrový t-test Mějme dva výběry (klidně různě velké): X 1, X 2,..., X n N(µ 1, σ 2 ) Y 1, Y 2,..., Y m N(µ 2, σ 2 ), 5
Testujeme nulovou hypotézu proti jedné z alternativ H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 H 1 : µ 1 > µ 2 H 1 : µ 1 < µ 2. Testová statistika je založena na rozdílu výběrových průměrů X Ȳ a má tvar X T = Ȳ nm(n + m 2), (n 1)s 2 x + (m 1)s 2 n + m y kde s 2 x je výběrový rozptyl vypočtený z výběru X 1,..., X n a s 2 y je výběrový rozptyl vypočtený z Y 1,..., Y n. Tato statistika T má za platnosti nulové hypotézy rozdělení t n+m 2. Hypotézu H 0 zamítáme, pokud budou X a Ȳ od sebe příliš daleko (toto příliš daleko je kvantifikováno pomocí kvantilů rozdělení t m+n 2 ). Kuchařka: ˆ Nejprve spočítáme hodnotu T = X Ȳ (n 1)s 2 x +(m 1)s 2 y nm(n+m 2) n+m. ˆ Pro H 0 : µ 1 = µ 2, H 1 : µ 1 µ 2 je rozhodovací pravidlo tvaru: T t n+m 2 (1 α 2 ), pak zamítáme H 0 ( Na hladině α jsme prokázali, že µ 1 µ 2. ) T < t n+m 2 (1 α 2 ), pak nezamítáme H 0 ( Nelze zamítnout hypotézu, že µ 1 = µ 2. ) ˆ Pro H 0 : µ 1 = µ 2, H 1 : µ 1 > µ 2 je rozhodovací pravidlo tvaru: T t n+m 2 (1 α), pak zamítáme H 0 ( Na hladině α jsme prokázali, že µ 1 > µ 2. ) T < t n+m 2 (1 α), pak nezamítáme H 0 ( Nelze zamítnout hypotézu, že µ 1 = µ 2. ) ˆ Pro H 0 : µ 1 = µ 2, H 1 : µ 1 < µ 2 je rozhodovací pravidlo tvaru: T t n+m 2 (1 α), pak zamítáme H 0 ( Na hladině α jsme prokázali, že µ 1 < µ 2. ) T > t n+m 2 (1 α), pak nezamítáme H 0 ( Nelze zamítnout hypotézu, že µ 1 = µ 2. ) Kvantily t n+m 2 (1 α 2 ) a t n+m 2(1 α) si musíme najít v tabulkách. V praxi činíme závěr opět pomocí p-hodnoty (pro p-hodnotu menší než α zamítáme H 0 ). t.test(vyberx,vybery,var.equal = TRUE) Testujeme-li jednostrannou alterantivu, doplníme do příkazu opět alternative="less" nebo alternative="greater". Ověřování předpokladů: Předpokladem dvouvýběrového t-testu je normální rozdělení obou výběrů (nutno otestovat QQplotem: qqnorm(vyberx), qqnorm(vybery)) nebo Shapiro-Wilkovým testem (shapiro.test(vyberx), shapiro.test(vybery)) a rovnost rozptylů obou výběrů (lze otestovat F-testem: var.test(vyberx,vybery).) Jsou-li p-hodnoty těchto testů větší než 0.05, můžeme považovat předpoklady našeho t-testu za splněné. Modifikace pro nestejné rozptyly: Má-li každý z výběrů jiný rozptyl (tj. X 1,..., X n N(µ 1, σ1 2) a Y 1,..., Y n N(µ 2, σ2 2 )), tak nevadí, použijeme modifikaci dvouvýběrového t-testu: t.test(vyberx,vybery,var.equal = FALSE) 6
Neparametrická alternativa: dvouvýběrový Wilcoxonův test Též zvaný Mannův-Whitneyův test. Hypotézy mají malinko jiný tvar než výše: H 0 : oba výběry pocházejí ze shodného rozdělení (tj. mají i stejnou střední hodnotu) H 1 : výběry pocházejí z odlišného rozdělení. V rámci spojených výběrů se jednotlivým hodnotám (X 1,..., X n, Y 1,..., Y m ) přiřadí pořadí (od nejmenšího po největší) a vypočte se součet pořadí odpovídajících druhému výběru. Tento součet označme W y. Pokud H 0 platí, tak by se pořadí v obou výběrech neměla moc lišit. Hypotézu H 0 tedy zamítneme, pokud W y bude moc malé nebo moc velké. V praxi se rozhodujeme pomocí p-hodnoty. wilcox.test(vyber1,vyber2) wilcox.test(vyber~faktor) # nebo # faktor určuje rozdělení na výběry Příklad: Otestujte nulovou hypotézu, že délka lístku kalicha (Sepal Length) u odrůdy Virginica a Setosa je stejná oproti alternativě, že odrůda Virginica má kališní lístky delší. Hladinu testu uvažujte 5 %. 6 Analýza rozptylu (ANOVA) Potřebujeme-li otestovat rovnost středních hodnot u více než dvou výběrů, použijeme metodu zvanou analýza rozptylu (analysis of variance, ANOVA). Mějme k výběrů X 11, X 12,..., X 1n1 N(µ 1, σ 2 ) X 21, X 22,..., X 2n2 N(µ 2, σ 2 ). X k1, X k2,..., X knk N(µ k, σ 2 ). Výběry nemusejí mít stejnou velikost, ale mají shodný rozptyl. Testovat budeme rovnost středních hodnot: H 0 : µ 1 = µ 2 =... = µ k H 1 : alespoň jedna µ j se liší Na rozdíl od dvouvýběrového t-testu není test založen na porovnávání průměrů z jednotlivých výběrů, ale na rozkladu celkového rozptylu na (i) rozptyl průměrů jednotlivých skupin a (ii) rozptyl uvnitř skupin. Bude-li rozptyl průměrů skupin (neboli meziskupinový rozptyl) zanedbatelný v porovnání s rozptylem uvnitř skupin, znamená to, že rozdíl ve středních hodnotách je malý a H 0 tedy nelze zamítnout. Dobře je to vidět na následujícím obrázku (pro případ 3 skupin), kde jsou průměry jednotlivých skupin vyznačeny červeně. Testová statistika je rovna podílu rozptylu průměrů a rozptylu uvnitř skupin. F A = 1 k 1 1 k n k i=1 k i=1 n i( X i X ) 2 ni j=1 (X ij X i ), 2 kde X i je průměr i-tého výběru, X je celkový průměr vypočtený z hodnot ze všech výběrů a n je celkový počet hodnot, tj. n = n 1 + n 2 +... + n k. Pokud bude tento podíl výrazně větší než jedna (což je kvantifikováno pomocí kvantilu F -rozdělení), tak H 0 zamítáme. 7
(a) Zde bychom asi H 0 zamítli. (b) Zde bychom asi H 0 nezamítli. Kuchařka: ˆ Vypočtu průměry v jednotlivých skupinách (tj. X 1, X 2 až X k ) ˆ Z hodnot ze všech výběrů vypočtu celkový průměr X (Pozor! Obecně není roven průměru z průměrů jednotlivých skupin!) ˆ Vypočtu statistiku F A = 1 k k 1 i=1 n i( X i X ) 2 1 k ni n k i=1 j=1 (X ij X. i ) 2 ˆ Je-li F A F k 1,n k (1 α), pak zamítáme H 0 ( Na hladině 5 % jsme prokázali, že skupiny nemají stejné střední hodnoty. ) Je-li F A < F k 1,n k (1 α), pak nezamítáme H 0 ( Nelze zamítnout hypotézu, že všechny skupiny mají stejné střední hodnoty. ) Kvantily F k 1,n k (1 α) jsou kvantily Fisherova F-rozdělení (zvané též Fisherovo- Snedecorovo rozdělení) se stupni volnosti k 1 a n k (toto rozdělení má dvoje stupně volnosti). Hodnoty kvantilů pro konkrétní α najdeme v tabulkách. V praxi se opět rozhodujeme pomocí p-hodnoty. Příkazy v R jsou: mod <- aov(vyber~faktor) summary(mod) # vytvoření modelu # tabulka analýzy rozptylu Při zamítnutí H 0 lze pak pomocí mnohonásobného porovnání zjistit, které výběry se od sebe signifikantně liší: TukeyHSD(mod) # mnohonásobné porovnání Jsou to ty, u nichž vyjde p-hodnota v Tukeyho testu nižší než 0.05. Ověřování předpokladů: Otestování předpokladu normality výběrů se dělá až na konci celé analýzy, a to pomocí tzv. standardizovaných reziduí: shapiro.test(rstandard(mod)) # test normality (provedený na rezidua) Shodu rozptylů σ 1 = σ 2 =... = σ k lze ohodnotit okometricky z boxplotů, nebo pořádně otestovat pomocí Leveneova či Bartlettova testu (bartlett.test(vyber faktor)). Jsou-li p-hodnoty těchto testů větší než 0.05, tak můžeme považovat předpoklady ANOVy za splněné. Modifikace pro nestejné rozptyly: Pokud nám rozptyly nevyjdou stejné, nevadí - lze použít modifikaci ANOVy pro nestejné rozptyly: oneway.test(vyber~faktor) # analýza rozptylu při nestejných rozptylech 8
Neparametrická alternativa: Kruskalův-Wallisův test Předpokládá pouze, že výběry pocházejí ze spojitého (ne nutně normálního) rozdělení. Hypotézy mají opět malinko jiný tvar: H 0 : výběry pocházejí ze stejného rozdělení H 1 : výběry nepocházejí ze stejného rozdělení Testová statistika je založená na součtu pořadí (ve sdruženém výběru) pro každý z dílčích výběrů. Platí-li H 0, pak by žádný dílčí výběr neměl mít součet příliš velký ani příliš malý. V praxi se rozhodujeme opět pomocí p-hodnoty. kruskal.test(vyber~faktor) # faktor určuje rozdělení do výběrů Příklad: Otestujte nulovou hypotézu, že střední šířka lístku kalicha (Sepal Width) je u všech tří odrůd stejná. Hladinu testu uvažujte 5 %. 7 Raoův skórový test Jednovýběrový Zajímá nás, zda je pravděpodobnost p výskytu nějakého znaku rovna číslu p 0. Tedy H 0 : p = p 0 H 1 : p p 0. Mějme výběr n jedinců. Spočteme si počet výskytů daného znaku v našem výběru a označíme toto číslo jako Y. Testová statistika je založena na porovnání této napozorované četnosti Y s teoretickou (očekávanou) četností np 0 : Q = (Y np0 ) 2 np 0 (1 p 0 ) Platí-li H 0, neměla by být hodnota této statistiky moc velká (jako hranice se berou kvantily rozdělení χ 2 1 ). V praxi se rozhodujeme pomocí p-hodnoty. prop.test(y,n,p=p0) Příklad: Z 30 hodů kostkou padla šestka 7 krát. Není kostka cinknutá? Dvouvýběrový Tento test slouží pro porovnání pravděpodobností výskytu nějakého znaku ve dvou populacích. H 0 : p 1 = p 2 H 1 : p 1 p 2. Z první populace máme výběr o velikosti n 1, ze druhé výběr o velikosti n 2. V obou výběrech určíme četnosti sledovaného znaku ( Y 1 a Y 2 ). Test je založen na porovnání Y 1 /n 1 a Y 2 /n 2, tedy porovnání odhadů p 1 a p 2 v obou výběrech: Q = ( Y1 n 1 Y 2 n 2 ) 2 ( ) ( ). Y 1 +Y 2 n 1 +n 2 1 Y 1+Y 2 1 n 1 +n 2 n 2 + 1 n 2 Platí-li H 0, neměly by být odhady Y 1 /n 1 a Y 2 /n 2 od sebe příliš daleko, tedy Q by mělo být malé (posuzuje se porovnáním s kvantily χ 2 1 rozdělení). V praxi se rozhodujeme na základě p-hodnoty. 9
prop.test(c(y1,y2),c(n1,n2)) Příklad: V roce 1954 byla provedena studie ohledně očkování proti obrně. Z 200 tisíc očkovaných dětí dostalo obrnu 57. Z 200 tisíc neočkovaných dětí dostalo obrnu 142. Má očkování smysl? 8 χ 2 test dobré shody Nějaký znak může nabývat k různých kategorií a my chceme ověřit, zda jsou pravděpodobnosti těchto kategorií (p 1,..., p k ) v populaci rovny nějakým předepsaným číslům (p 0 1,..., p0 k ). Hypotézy tedy mají tvar H 0 : p 1 = p 0 1, p 2 = p 0 2,..., p k = p 0 k H 1 : neplatí H 0 Našimi daty jsou četnosti jednotlivých kategorií v nějakém náhodném výběru (tzv. empirické četnosti). Označme si je Y 1, Y 2,..., Y k. Velikost našeho výběru opět označme n. Test provedeme tak, že porovnáme napozorované četnosti s četnostmi, které by odpovídali platnosti H 0. Tyto očekávané (teoretické) četnosti jsou samozřejmě rovny np 0 1, np0 2,..., np0 k. Porovnání provedeme pomocí testové statistiky X 2 = k i=1 (Y i np 0 i )2 np 0, i která má za platnosti H 0 přibližně (pro velké n) rozdělení χ 2 k 1. Empirické četnosti by se neměly od těch teoretických příliš lišit, což je kvantifikováno pomocí kvantilů χ 2 k 1. V praxi se rozhodujeme na základě p-hodnoty. chisq.test(nn,p=pp) # nn=napozorované četnosti, pp=teoretické pravděpodobnosti chisq.test(nn,p=pp)$expected # očekávané teoretické četnosti Předpokladem testu je, že všechny teoretické četnosti np 0 i jsou 5. Příklad: Rozhodněte, zda četnosti 95, 169, 89 odpovídají ideálnímu štěpnému poměru 1:2:1. 9 Korelace Na n jedincích jsme naměřili hodnoty dvou znaků (X a Y ). Máme tedy dva výběry X 1, X 2,..., X n Y 1, Y 2,..., Y n. Korelační koeficienty měří sílu závislosti mezi znaky X a Y. Nabývají přitom hodnot od -1 do 1, přičemž 0 odpovídá nezávislosti, 1 a -1 pak perfektní závislosti. Pozor! Korelace neznamená příčinnost!!! Pearsonův korelační koeficient Měří sílu lineární závislosti, tj. nabývá hodnoty 1 nebo -1, pokud mezi X a Y je lineární vztah (tj. graf X vs. Y bude přímka). r = n i=1 (X i X)(Y i Ȳ ) n i=1 (X i X) 2. n i=1 (Y i Ȳ )2 10
Má-li vektor (X, Y ) dvourozměrné normální rozdělení (ohodnotíme okometricky z bodového grafu), pak lze testovat hypotézu H 0 : X, Y nezávislé, (tj. jejich korelace je 0) H 1 : X, Y závislé pomocí statistiky T = r 1 r 2 n 2, která má za platnosti H 0 rozdělení t n 2. Za platnosti H 0 by neměla být hodnota r (a tedy ani T ) příliš vzdálená od 0. Jako hranice onoho moc daleko se berou kvantily t n 2 rozdělení. V praxi se rozhodujeme standardně pomocí p-hodnoty. cor(vyber1,vyber2) cor.test(vyber1,vyber2) # Pearsonův korelační koeficient # test nezávislosti Je-li p-hodnota větší než 0.05, tak nezamítáme nezávislost veličin X a Y. V opačném případě jsme na hladině 5 % prokázali jejich závislost. Spearmannův korelační koeficient Měří sílu monotonní závislosti (ne jen lineární). Hodí se, chceme-li otestovat nezávislost dvou veličin, ale je porušen předpoklad normality. r = n i=1 (R i R)(Q i Q) 6 n i=1 (R i R) 2 n i=1 (Q i Q) = 1 2 n(n 2 1) n (R i Q i ) 2, i=1 kde R i je pořadí X i v rámci X 1,..., X n a Q i je pořadí Y i v rámci Y 1,..., Y n. K testu nezávislosti není potřeba normální rozdělení (X, Y ). cor(vyber1,vyber2,method="spearman") cor.test(vyber1,vyber2,method="spearman") # Spearmanův korelační koeficient # test nezávislosti Je-li p-hodnota větší než 0.05, tak nezamítáme nezávislost veličin X a Y. V opačném případě jsme na hladině 5 % prokázali jejich závislost. Příklad: Pomocí Pearsonova korelačního koeficientu otestujte závislost délky kališního a okvětního lístku (veličiny Sepal Length a Petal Length) pro odrůdu Setosa. Hladinu testu uvažujte 5 %. 11