Úkol: S využitím popisné statistiky analyzujte vliv proměnné vekkat na proměnnou bmi (body mass index). (Datový soubor biometrie.csv - http://homen.vsb.cz/am/lit40/data/.) Úlohu si rozdělíme do několika podúkolů: 1. Import dat (ve standardním datovém formátu) do RkWardu. 2. Vizualizace sledované závislosti (vícenásobný krabicový graf) + překódování ordinální proměnné do číselných kódů. 3. Identifikace odlehlých pozorování a deklarování proměnné bez odlehlých pozorování. 4. Vizualizace sledované závislosti a výpočet významných výběrových charakteristik pro data bez odlehlých pozorování. 5. Příprava souhrnné zprávy. Řešení: 1. Nejdříve data importujeme do RkWardu záložka File/Import/Import format/import Text / CSV data. 1
2. Pro danou analýzu nás budou zajímat pouze proměnné: index tělesné hmotnosti - body mass index (bmi) a věková kategorie pacienta (vekkat). Abychom si udělali představu o analyzované závislosti, data vizualizujeme. Sledujeme vliv kategoriální (ordinální) proměnné na proměnnou numerickou. Vhodným grafem tedy bude vícenásobný krabicový graf. Zvolíme záložku Plot/Box Plot. Všimněte si, že vzhled grafu není optimální. Chybí popis vertikální osy a vzhledem k tomu, že faktor, jehož vliv na proměnnou bmi sledujeme, je ordinální, uvítali bychom, kdyby pořadí krabicových grafů odpovídalo seřazeným variantám proměnné vekkat, tj. aby se změnilo pořadí prvních dvou krabicových grafů. Pro snadnější zpracování analýzy si kategoriální proměnnou vekkat překódujeme na číselné kódy. Zvolme záložku Data/Recode Categorical Data. 2
Nyní můžeme pravidla pro překódování potvrdit tlačítkem Submit. V datovém souboru biometrie můžeme vidět, že překódování proběhlo. 3
Nyní vytvoříme vícenásobný krabicový graf tak, aby odpovídal naším požadavkům včetně popisu os. 4
3. Nyní je grafická prezentace analyzované závislosti v pořádku a my se můžeme pustit do identifikace odlehlých pozorování. Připomeňme si, že způsob vypořádání se z odlehlými hodnotami by měl být v praxi vždy založen na konzultaci se zadavatelem analýzy a měl by být zmíněn v souhrnné zprávě o datové analýze. My odlehlá pozorování stanovíme metodou vnitřních hradeb a následně je z další analýzy odstraníme. Označíme-li si pozorované hodnoty závislé proměnné x i, i = 1, 2,, n, kde n je rozsah výběru, pak jako odlehlá pozorování označíme hodnoty, pro které platí: (x i < x 0,25 1,5 IQR(x)) (x i < x 0,75 + 1,5 IQR(x)). Zjednodušeně, v souvislosti s krabicovým grafem, řečeno odlehlé hodnoty jsou hodnoty, které jsou od krabice vzdálenější než 1,5 násobek interkvartilového rozpětí. Meze x 0,25 1,5 IQR(x) a x 0,75 + 1,5 IQR(x) označujeme jako vnitřní hradby. 5
Jak nalézt vnitřní hradby? S využitím R Console: # uložení výběrových charakteristik proměnné biometrie$bmi pro seskupení dle proměnné biometrie$vekkat do proměnné souhrn > souhrn<-tapply(biometrie$bmi,biometrie$vekkat,summary) # uložení interkvartilových rozpětí proměnné biometrie$bmi pro seskupení dle proměnné biometrie$vekkat do proměnné ir > ir<-tapply(biometrie$bmi,biometrie$vekkat,iqr) # uložení vnitřních hradeb proměnné biometrie$bmi pro seskupení dle proměnné biometrie$vekkat do proměnných dolni.mez, horni.mez > horni.mez<-c(souhrn$'1'[5]+1.5*ir[1], souhrn$'2'[5]+1.5*ir[2], souhrn$'3'[5]+1.5*ir[3]) > horni.mez<-c(souhrn$'1'[5]+1.5*ir[1], souhrn$'2'[5]+1.5*ir[2], souhrn$'3'[5]+1.5*ir[3]) # zjednodušení pojmenování proměnných biometrie$bmi a biometrie$vekkat > bmi<-biometrie$bmi > vekkat<-biometrie$vekkat # vytvoření proměnné biometrie$bmi.out, v níž budou uloženy hodnoty bmi bez odlehlých pozorování > biometrie$bmi.out=bmi # nahrazení odlehlých pozorování symbolem NA (not available) ( OR = ;AND= & ) > biometrie$bmi.out[((bmi<dolni.mez[1] bmi>horni.mez[1]) & vekkat==1) ((bmi<dolni.mez[2] bmi>horni.mez[2]) & vekkat==2) ((bmi<dolni.mez[3] bmi>horni.mez[3]) & vekkat==3)]<-na 6
V datovém souboru biometrie můžeme zkontrolovat, jak odstranění odlehlých pozorování proběhlo. 4. Na závěr vizualizujeme sledovanou závislost na základě dat bez odlehlých pozorování a určíme významné výběrové charakteristiky. Pro vizualizaci využijeme postup, který byl popsán v řešení podúkolu 2. Na grafu opět vidíme odlehlé pozorování. Nejedná se však o odlehlé pozorování z původního datového souboru, další úpravu datového souboru proto již neprovádíme. Pomocí R Console převedeme data ze standardního datového formátu do datové matice a následně využijeme záložku Summary/Numerical Variable. # převod dat ze standardního datového formátu do datové matice > data.matrix<-split(biometrie$bmi.out,biometrie$vekkat) 7
Všechny výstupy potřebné pro učinění závěrů o sledované závislosti máme připraveny a tak zbývá poslední krok tvorba souhrnné zprávy, tj. grafická prezentace sledované závislosti, správné zaokrouhlení výběrových charakteristik, jejich přehledná prezentace a v neposlední řadě jejich správná smysluplná interpretace. To již zcela jistě zvládnete samostatně 8