IV. CVIENÍ ZE STATISTIKY Vážení studenti, úkolem dnešního cviení je nauit se analyzovat data kvantitativní povahy. K tomuto budeme opt používat program Excel 2007 MS Office. 1. Jak mžeme analyzovat kvantitativní data? Krátce si pipomeme základní fakta ze statistické teorie testování hypotéz. a) Hodnocení rozdíl dvou výbrových prmr nezávislých soubor dvouvýbrový t-test. Teoretický úvod: Pedpokládejme, že máme dva nezávislé soubory reprezentující dv populace. Pedpokládejme, že sledovaná numerická veliina je v obou populacích normáln rozložená s neznámými populaními prmry µ 1 a µ 2. Nulová hypotéza pedpokládá nulový rozdíl mezi populaními prmry, tedy že µ 1 = µ 2. K tomu, abychom mohli prmry dvou populací porovnat, je teba spoítat testovou statistiku t. Výpoet je založen na rozdílu mezi prmry obou výbr, variabilit sledované veliiny a velikosti obou výbr. Pesný vzorec naleznete ve výukových textech. Tato testová statistika je rozložena podle Studentova t-rozdlení s n 1 + n 2-2 stupni volnosti. Stupn volnosti jsou parametrem t-rozdlení. Pomocí statistického modulu programu Excel najdeme pesnou p-hodnotu. Tato pravdpodobnost odpovídá pravdpodobnosti výskytu takovéto nebo ješt extrémnjší hodnoty testového kritéria t za pedpokladu platnosti nulové hypotézy. Pokud je menší než 0,05, nulovou hypotézu zamítáme. Znamená to, že pravdpodobnost, že by pozorované rozdíly vznikly pouze náhodou, je menší než 5 %. Klasický dvouvýbrový t-test, krom normálního rozložení sledované veliiny, pedpokládá také, že rozptyly jsou v obou populacích shodné. Tento pedpoklad se testuje na základ výbrových odhad smrodatných odchylek s 1 a s 2 F-testem. V pípad nestejných smrodatných odchylek se použije modifikovaný výpoet testové statistiky t a také poet stup volnosti je výsledkem pomrn složitého výpotu. Data, se kterými budete pracovat, naleznete v souboru F:\SOFTWARE\biostatistika\data\analýza dat.xlsx 1
Na listu dvouvýbrový t-test jsou data 237 zamstnanc nemocnice. Ve sloupci A Zamstnanec. je uvedena identifikace. Druhý sloupec (B) Vk udává vk zamstnance v letech. Tetí sloupec (C) Cholesterol obsahuje informaci o hodnot celkového cholesterolu meného v mmol/l, ve sloupci D je zadána hodnota body mass indexu BMI každého zamstnance a znak Kouení rozlišuje kuáky (kódováno 1) a nekuáky (kódováno 2). Zadání úkolu Vaším úkolem bude provit, jestli zamstnanci, kteí kouí, jsou stejn staí jako zamstnanci, kteí nekouí i zda se tyto skupiny vkov odlišují. Dále je teba zjistit, jestli má kouení vliv na hodnoty celkového cholesterolu a BMI. Stanovíme nulové a alternativní hypotézy: 1. Nulová hypotéza: Kuáci a nekuáci se neliší ve vku. Alternativní hypotéza: Kuáci a nekuáci se liší ve vku. 2. Nulová hypotéza: Kuáci a nekuáci se neliší v celkovém cholesterolu. Alternativní hypotéza: Kuáci a nekuáci se liší v celkovém cholesterolu. Postup ovení první hypotézy: 1. Pomocí F-testu ovíme zda, rozptyl veliiny Vk je stejný v populaci kuák a v populaci nekuák. Tento nástroj je obsažen v položce Analýza dat. (Analýzu dat nastavte stejným zpsobem jako pi použití nástroje Popisná statistika kliknte na ikonu, otevete Možnosti aplikace Excel, vyberte položku Doplky, nastavte Analytické nástroje jako 2
Aktivní doplnk k dispozici a kliknte na tlaítko Pejít, zaškrtnte Analytické nástroje a potvrte OK. 2. Z hlavního menu vyberte položku Data a kliknte na položku Analýza dat. 3. Ze seznamu analytických nástroj vyberte Dvouvýbrový F-test pro rozptyl. Vyplte dialogové okno Dvouvýbrový F-test pro rozptyl. Do pole 1. soubor zadejte adresu bunk, které obsahují vk kuák buky B2:B97. Do pole 2. soubor zadejte adresu bunk, které obsahují vk nekuák buky B98:B238. Hladinu alfa ponechte nastavenou na standardní hodnotu 0,05 a do pole Výstupní oblast zadejte adresu buky K1. Potvrte tlaítkem OK. Dostanete výstupní tabulku: 3
Soubor 1 pedstavuje kuáky, Soubor 2 nekuáky. St. hodnota je aritmetický prmr veliiny Vk pro 1. i 2. soubor. Rozptyl nám udává hodnotu rozptylu v obou souborech. V ádku Pozorování je uvedeno, kolik pacient bylo zaazeno do jednotlivých soubor. Položka Rozdíl nám udává poet stup volnosti. Název rozdíl je pekladatelskou chybou. Dále je uvedena hodnota testového kriteria F, dosažená hladina statistické významnosti P a kritická hodnota F krit. Pokud je p-hodnota vtší nebo rovna 0,05, znamená to, že rozptyly v obou populacích jsou shodné. Pokud je p-hodnota menší než 0,05, rozptyly ve sledovaných populacích nejsou shodné. V tomto pípad p = 0,205, což je vtší než 0,05, rozptyly jsou tedy shodné. Provedení t-testu. 4. Kliknte na Analýza dat a z nabídky analytických nástroj vyberte Dvouvýbrový t-test s rovností rozptyl. 5. Vyplte dialogové okno Dvouvýbrový t-test s rovností rozptyl obdobným zpsobem jako v pípad F-testu. Soubory jsou totožné, hypotetický rozdíl stedních hodnot je roven 0, hodnotu hladiny alfa nechejte na hodnot 0,05. 6. Do pole Výstupní oblast zadejte adresu buky K12. Kliknte na OK 4
Tabulka s výsledky t-testu Soubor 1 pedstavuje opt kuáky, Soubor 2 zamstnance nekuáky. St. hodnota je aritmetický prmr veliiny Vk u kuák a nekuák. Rozptyl nám udává hodnotu rozptylu v obou souborech. V ádku Pozorování je uvedeno, kolik osob bylo zaazeno do jednotlivých soubor. V následujícím ádku je spoítán Spolený rozptyl pro 1. a 2. soubor. Hyp. rozdíl stedních hodnot je nulový, což je v souladu s naší nulovou hypotézou. Položka Rozdíl nám udává poet stup volnosti. K výpotu bylo použito vzorce n 1 + n 2-2 = 95 + 141 2 = 235. Dále je uvedena hodnota testového kriteria t Stat, dosažená hladina statistické významnosti P (1) pro jednostranný test (1) a kritická hodnota t krit pro jednostranný test. Vzhledem k oboustranné formulaci alternativní hypotézy nás zajímá hladina dosažené statistické významnosti pro oboustranný test P (2) = 0,026. Je zejmé, že dosažená hodnota signifikance je podstatn menší než stanovená hladina 0,05, je tedy oprávnné zamítnout nulovou hypotézu. Závr testování: Zamítáme nulovou hypotézu: Kuáci a nekuáci se neliší ve vku. Dvouvýbrovým t-testem bylo prokázáno, že kuáci jsou statisticky významn mladší než nekuáci. Prmrný vk kuák je 34,8 rok, nekuák 38,2 rok. Postup ovení druhé hypotézy: Nulová hypotéza: Kuáci a nekuáci se neliší v celkovém cholesterolu. Alternativní hypotéza: Kuáci a nekuáci se liší v celkovém cholesterolu. Postup bude obdobný jako v prvním píkladu: 1. Pomocí F-testu opt ovte zda, rozptyl veliiny celkový cholesterol je stejný v populaci kuák a v populaci nekuák. 2. Vyberte položku Data v hlavním menu a kliknte na Analýza dat. Vyplte dialogové okno Dvouvýbrový F-test pro rozptyl: 5
Potvrte tlaítkem OK. Tabulka s výsledky F-testu:. Soubor 1 pedstavuje kuáky, Soubor 2 nekuáky. St. hodnota je aritmetický prmr celkového cholesterolu pro 1. i 2. soubor. Rozptyl nám udává hodnotu rozptylu v obou souborech. V ádku Pozorování je uvedeno, kolik osob bylo zaazeno do jednotlivých soubor. Položka Rozdíl nám udává poet stup volnosti. Dále je uvedena hodnota testového kriteria F, dosažená hladina statistické významnosti P a kritická hodnota F krit. Dosažená hladina statistické významnosti pro F-test nabyla hodnoty 0,011, je tedy menší než 0,05, rozptyly v obou populacích tedy nejsou shodné. Vidíme, že veliina celkový cholesterol je ve skupin kuák variabilnjší (má vtší rozptyl) než ve skupin nekuák. Provete dvouvýbrový t-test. 3. Zvolte Analýza dat a z nabídky analytických nástroj vyberte Dvouvýbrový t-test s nerovností rozptyl. 6
4. Vyplte dialogové okno Dvouvýbrový t-test s nerovností rozptyl obdobným zpsobem jako v pípad F-testu. Soubory jsou totožné, hypotetický rozdíl stedních hodnot je roven 0, hodnotu hladiny alfa nechejte na hodnot 0,05. 5. Kliknte na OK. Tabulka s výsledky t-testu Soubor 1 pedstavuje kuáky, Soubor 2 nekuáky. St. hodnota je aritmetický prmr celkového cholesterolu kuák a nekuák. Všimnte si tchto hodnot, které se píliš neliší (5,096 mmol/l u kuák a 5,0132 u nekuák). Položka Rozptyl nám udává hodnotu rozptyl sledované veliiny v obou souborech. 7
V ádku Pozorování je uvedeno, kolik osob bylo zaazeno do jednotlivých soubor. Položka Rozdíl nám udává poet stup volnosti. K výpotu potu stup volnosti bylo použito složitjšího vzorce než v pedchozím píkladu, kde byl splnn pedpoklad rovnosti rozptyl. Dále je uvedena hodnota testového kriteria t Stat, dosažená hladina statistické významnosti P (1) pro jednostranný test a kritická hodnota t krit pro jednostranný test (1). Vzhledem k oboustranné formulaci alternativní hypotézy nás zajímá hladina dosažené statistické významnosti pro oboustranný test P (2) = 0,590. Je zejmé, že dosažená hodnota signifikance je vtší než stanovená hladina 0,05, a tudíž není možné zamítnout nulovou hypotézu. 1) Závr testování: Pijímáme nulovou hypotézu: Kuáci a nekuáci se neliší v celkovém cholesterolu. Úkol k samostatnému ešení: Zjistte, zda kouení ovlivuje tlesnou hmotnost zamstnanc nemocnice. Tlesná hmotnost je vyjádena indexem BMI. Návod: Stanovte nulovou a alternativní hypotézu. Ovte, zda rozptyly veliiny BMI jsou shodné v obou zkoumaných populacích (u kuák a nekuák). Zvolte vhodný typ dvouvýbrového t-testu. Provete t-test a na základ dosažené hladiny statistické významnosti (p-hodnoty) rozhodnte o platnosti dané nulové hypotézy. b) Hodnocení rozdíl dvou výbrových prmr párových dat párový t-test. Teoretický úvod: Nyní uvažujme situaci, kdy na skupin vybraných jedinc provedeme urité mení a potom znovu za jiných okolností nebo po provedení uritého zásahu (léby apod.) provedeme totéž mení na týchž jedincích ješt jednou. Pjde o to zjistit, zda ml zásah vliv na prmrnou hodnotu sledované veliiny, jinými slovy, zda se prmr ped zásahem µ 1 rovná prmru po zásahu µ 2. Nulová hypotéza opt pedpokládá, že se tyto prmry neliší. Ze sledované populace poídíme náhodný výbr o rozsahu n jedinc. Provedeme dvakrát mení dané numerické veliiny jednou ped zásahem, podruhé po zásahu a spoteme rozdíl tchto hodnot pro každého jedince. Získáme tak n dvojic mení a n rozdíl. Spoteme prmr tchto rozdíl (diferencí) a oznaíme d. Pokud platí nulová hypotéza a zásah neml na menou veliinu žádný vliv, bude d velice blízký nule. Bude-li naopak d od nuly daleko, bude to svdit o tom, že zásah uritým zpsobem ovlivnil sledovanou numerickou veliinu. K tomu abychom mohli vyjádit, jak daleko je d od nuly, spoítáme hodnotu testové statistiky t. Výpoet statistiky t vychází z prmrné diference d, rozptylu diferencí a rozsahu náhodného výbru. Pesný vzorec naleznete ve výukových textech. Tato testová statistika je rozložena podle Studentova t-rozdlení s n - 1 stupni volnosti. Pomocí statistického modulu programu Excel najdeme pesnou p hodnotu. Tato pravdpodobnost odpovídá pravdpodobnosti výskytu takovéto nebo ješt extrémnjší hodnoty testového kritéria za pedpokladu, že platí 8
nulová hypotéza. Pokud je dosažená hladina statistické významnosti p menší než 0,05, nulovou hypotézu zamítáme. Znamená to, že pravdpodobnost, že by pozorované rozdíly vznikly pouze náhodou, je menší než 5 %. Data, se kterými budete pracovat, naleznete v souboru F:\SOFTWARE\biostatistika\data\analýza dat.xlsx na listu párový t-test Na listu párový t-test jsou zaznamenána data pacient, kterým byla transplantována ledvina. Ve sloupci (A) Pacient. je uvedena identifikace. Ve sloupci (B) je zaznamenán Vk pacienta v letech, ve sloupci (C) jeho Pohlaví a ve sloupci (D) je uvedeno Imunosupresivum, které pacienti po transplantaci užívali. Ve sloupcích (E) a (F) najdete hodnoty Kreatininu namené ped transplantací a 6 msíc po transplantaci v µmol/l. Ve sloupcích (G) a (H) jsou hodnoty Albuminu namené ped transplantací a 6 msíc po transplantaci v g/l. Ve sloupcích (I) a (J) najdete hodnoty Kyseliny moové namené ped transplantací a 6 msíc po transplantaci v µmol/l. Je zejmé, že všechny veliiny ve sloupcích (E) až (J) jsou kvantitativního typu a byly získány opakovaným mením. Jedná se tedy o párová data páry jsou vyznaeny barevným oznaením sloupc stejnou barvou. Zadání úkolu Vaším úkolem bude posoudit, zda vlivem transplantace došlo ke zmnám biochemických parametr kreatininu, albuminu a kyseliny moové. Stanovíme nulovou a alternativní hypotézu: Nulová hypotéza: Hladina kreatininu 6 msíc po transplantaci ledviny se neliší od hladiny ped transplantací. Alternativní hypotéza: Hladina kreatininu 6 msíc po transplantaci ledviny se liší od hladiny ped transplantací. 9
Postup ovení hypotézy: 1. Kliknte na položku Analýza dat v hlavním menu a z nabídky analytických nástroj vyberte Dvouvýbrový párový t-test na stední hodnotu. Slovo dvouvýbrový zde nemá opodstatnní, pracujeme pouze s jedním výbrem, jedná se opt o pekladatelskou chybu. Výbr potvrte tlaítkem OK. Dostanete dialogové okno: 2. Do pole 1. soubor zadejte adresu oblasti bunk s hodnotami ze sloupce E Kreatinin ped transplantací. 3. Do pole 2. soubor zadejte adresu oblasti bunk s hodnotami ze sloupce F Kreatinin 6 msíc po transplantaci. 4. Do pole Hypotetický rozdíl stedních hodnot napište íslo nula (nulová hypotéza pedpokládá, že rozdíl stedních hodnot (prmr) je roven nule). 5. Zatrhnte políko Popisky, protože jste v polích 1. a 2. soubor zadali data i s bukami v prvním ádku, kde jsou popisky. Do pole Výstupní oblast zadejte adresu L1. 6. Kliknte na OK.. 10
Dostanete následující tabulku: V prvním ádku je uveden aritmetický prmr hladiny kreatininu zjištný ped transplantací (1. sloupec) a po transplantaci (2. sloupec). Všimnte si znaného rozdílu mezi obma hodnotami. V druhém ádku jsou uvedeny rozptyly veliiny, tetí ádek Pozorování nás informuje o potu jedinc, kteí byli zaazeni do sledování. Na dalším ádku je vypoítán Pearsonv korelaní koeficient, jehož hodnota vypovídá o tém nulové korelaci mezi hodnotami zjištnými ped transplantací a po transplantaci. Hyp. rozdíl st. hodnot je roven 0, tak jak to pedpokládá stanovená nulová hypotéza. Položka Rozdíl udává poet stup volnosti vypoítaný podle vzorce n 1 = 50 1 = 49. Dále je uvedena hodnota testové statistiky t Stat, dosažená hladina statistické významnosti P pro jednostranný test (1), kritická hodnota pro jednostranný test. Pro posouzení platnosti nulové hypotézy je nejdležitjší hodnota dosažené statistické významnosti pro oboustranný test P(2), která je v našem pípad rovna 2,968*10-26. Je zejmé, že dosažená hodnota signifikance je podstatn menší než stanovená hladina 0,05, jsme tedy oprávnni zamítnout nulovou hypotézu. 7. Uiníme závr testování: Zamítáme nulovou hypotézu: Hladina kreatininu 6 msíc po transplantaci ledviny se neliší od hladiny ped transplantací. a pijímáme alternativní hypotézu: Hladina kreatininu 6 msíc po transplantaci ledviny se liší od hladiny ped transplantací. Prmrná hladina kreatininu se vlivem transplantace ledviny statisticky významn snížila, z prmrné hodnoty 642,14 µmol/l na prmrnou hodnotu 124,64 µmol/l. Pro porovnání uvádíme tabulku s referenními mezemi kreatininu: 11
Úkol k samostatnému ešení: Posute, zda vlivem transplantace došlo ke zmnám dalších biochemických parametr albuminu a kyseliny moové. Návod: Stanovte nulové a alternativní hypotézy. Provete t-testy, v prvním pípad porovnejte hodnoty sloupc G a H, ve druhém úkolu porovnejte hodnoty obsažené ve sloupcích I a J. Na základ dosažených hladin statistické významnosti (p-hodnoty) rozhodnte o platnosti nulových hypotéz. 12