M. Litschmannová: Scénař videa Analýza závislosti kvantitativní proměnné na proměnné kategoriální příklad



Podobné dokumenty

VŠB Technická univerzita Ostrava BIOSTATISTIKA

VŠB Technická univerzita Ostrava


Dobývání znalostí z databází (MI-KDD) Přednáška číslo 9 Využití doménových znalostí

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Získávání znalostí z dat

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Vzdělávání v egoncentru ORP Louny

Vzorová prezentace do předmětu Statistika

Návrhy dalších možností statistického zpracování aktualizovaných dat

IBM SPSS Decision Trees

Stručný obsah. K2118.indd :15:27

Laboratorní cvičení - Integrální počet v R

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Tvorba grafů v programu ORIGIN

Analýza dat s využitím MS Excel

2 Spojité modely rozhodování

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

8. Posloupnosti, vektory a matice

+ ω y = 0 pohybová rovnice tlumených kmitů. r dr dt. B m. k m. Tlumené kmity

KORELACE. Komentované řešení pomocí programu Statistica

PREZENTACE PRÁVNÍCH SLUŽEB POSKYTOVANÝCH NA ÚZEMÍ ČESKÉ REPUBLIKY A SLOVENSKÉ REPUBLIKY

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Novinky v programu Účtárna 2.05

Centrální databáze nežádoucích událostí

Korelace. Komentované řešení pomocí MS Excel

Verifikační systémy na cestě časem praktické zkušenosti

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Pomůcka pro cvičení: 3. semestr Bc studia

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Nejčastější chyby v explorační analýze

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

10. Seznam příloh. 1. Seznam zkratek 2. Seznam tabulek 3. Seznam grafů 4. Úvod k dotazníkům 5. Žádost o dotazníkovou činnost 6.

Skalární součin je nástroj, jak měřit velikost vektorů a úhly mezi vektory v reálných a komplexních vektorových prostorech.

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

StatSoft Jak vyzrát na datum

DYNAMICKÉ PROGRAMOVÁNÍ A PROBLÉM BATOHU

různé typy přehledových studií integrativní typ snaha o zobecnění výsledků z množství studií

Microsoft Excel 2007 pokročilé metody a funkce

OPTIMALIZACE VIRTUÁLNÍHO PROTOTYPU PRŮMYSLOVÉ PŘEVODOVKY

Západočeská univerzita v Plzni. Fakulta aplikovaných věd Katedra matematiky. Geometrie pro FST 1. Pomocný učební text

Dodávka CNC frézky s vysokofrekvenčním vřetenem pro projekt CENTEM

Microsoft Excel 2010 pokročilé metody a funkce

WOOW OFFICE. řada kancelářského nábytku

KTE / PPEL Počítačová podpora v elektrotechnice

Regulární matice. Věnujeme dále pozornost zejména čtvercovým maticím.

ÚKOL ,77 5,00 5 2,531,003,056 -,869,113

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Hledání závislostí technologických a nákladových charakteristik při tavení oceli na elektrických obloukových pecích

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová Ing. Miloš Uldrich

Jak pracovat s absolutními hodnotami

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Analýza rozptylu dvojného třídění

Výukový modul SKOOOL FOOTBALL obsahuje řadu poutavé výuky. Aktivity jsou vložené do dvou hlavních částí:

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Diferenciální počet funkcí jedné proměnné

Elektronická Kniha jízd.

STATISTIKY ČSÚ

Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Kateřina Raichová. Materiál je publikován pod licencí Creative Commons.

Analýza dat na PC I.

Konstrukce robota s mechanickým převodem II. Tematický celek: Pohyb těles. Úkol:

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ

Marketingový výzkum turistické oblasti Opavské Slezsko Dotazování provozovatelů zařízení

Popisná statistika. Komentované řešení pomocí MS Excel

Textové popisky. Typ dat

Ukázka knihy z internetového knihkupectví

Návod k obsluze hořáku Ferroli SUN 7, SUN 12


Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?


Analýza spolehlivosti tlakové nádoby metodou Monte Carlo

Uživatelská příručka. Software DataPlot nástroj pro vizualizaci csv dat

Mendelova zemědělská a lesnická univerzita v Brně

Lineární regrese. Komentované řešení pomocí MS Excel

Základní charakteristiky zdraví, nemocnosti a úmrtnosti (Tabulka 5)

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Výskyt nadváhy a obezity

Jasné definování dodávky / služby / stavebních prací tzn. jasný popis, specifikace toho, co se má v rámci zakázky realizovat.

Nadváha a obezita, PaedDr. & Mgr. Hana Čechová

Základy matematiky pro FEK

Veřejné zakázky, veřejné rozpočty, vlastnické struktury a anonymní vlastnictví

PREZENTACE DAT: JEDNODUCHÉ GRAFY

Statistika. Zpracování informací ze statistického šetření. Roman Biskup

DODATEČNÉ INFORMACE dle 49 zákona č. 137/2006 Sb., o veřejných zakázkách

eeebid.com Inc. Elektronické aukce jako nástroj snižování nákupních cen a nákladů firmy

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Software laktát technická a funkční specifikace

Princip gradientních optimalizačních metod

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010

Evropské výběrové šetření o zdravotním stavu v ČR - EHIS CR Index tělesné hmotnosti, fyzická aktivita, spotřeba ovoce a zeleniny

Klíčení obilek pro všechny úlohy společné

4.4 Exploratorní analýza struktury objektů (EDA)

Informace ze zdravotnictví Karlovarského kraje

2. Numerické výpočty. 1. Numerická derivace funkce

Příprava dat a) Kontrola dat

Transkript:

Úkol: S využitím popisné statistiky analyzujte vliv proměnné vekkat na proměnnou bmi (body mass index). (Datový soubor biometrie.csv - http://homen.vsb.cz/am/lit40/data/.) Úlohu si rozdělíme do několika podúkolů: 1. Import dat (ve standardním datovém formátu) do RkWardu. 2. Vizualizace sledované závislosti (vícenásobný krabicový graf) + překódování ordinální proměnné do číselných kódů. 3. Identifikace odlehlých pozorování a deklarování proměnné bez odlehlých pozorování. 4. Vizualizace sledované závislosti a výpočet významných výběrových charakteristik pro data bez odlehlých pozorování. 5. Příprava souhrnné zprávy. Řešení: 1. Nejdříve data importujeme do RkWardu záložka File/Import/Import format/import Text / CSV data. 1

2. Pro danou analýzu nás budou zajímat pouze proměnné: index tělesné hmotnosti - body mass index (bmi) a věková kategorie pacienta (vekkat). Abychom si udělali představu o analyzované závislosti, data vizualizujeme. Sledujeme vliv kategoriální (ordinální) proměnné na proměnnou numerickou. Vhodným grafem tedy bude vícenásobný krabicový graf. Zvolíme záložku Plot/Box Plot. Všimněte si, že vzhled grafu není optimální. Chybí popis vertikální osy a vzhledem k tomu, že faktor, jehož vliv na proměnnou bmi sledujeme, je ordinální, uvítali bychom, kdyby pořadí krabicových grafů odpovídalo seřazeným variantám proměnné vekkat, tj. aby se změnilo pořadí prvních dvou krabicových grafů. Pro snadnější zpracování analýzy si kategoriální proměnnou vekkat překódujeme na číselné kódy. Zvolme záložku Data/Recode Categorical Data. 2

Nyní můžeme pravidla pro překódování potvrdit tlačítkem Submit. V datovém souboru biometrie můžeme vidět, že překódování proběhlo. 3

Nyní vytvoříme vícenásobný krabicový graf tak, aby odpovídal naším požadavkům včetně popisu os. 4

3. Nyní je grafická prezentace analyzované závislosti v pořádku a my se můžeme pustit do identifikace odlehlých pozorování. Připomeňme si, že způsob vypořádání se z odlehlými hodnotami by měl být v praxi vždy založen na konzultaci se zadavatelem analýzy a měl by být zmíněn v souhrnné zprávě o datové analýze. My odlehlá pozorování stanovíme metodou vnitřních hradeb a následně je z další analýzy odstraníme. Označíme-li si pozorované hodnoty závislé proměnné x i, i = 1, 2,, n, kde n je rozsah výběru, pak jako odlehlá pozorování označíme hodnoty, pro které platí: (x i < x 0,25 1,5 IQR(x)) (x i < x 0,75 + 1,5 IQR(x)). Zjednodušeně, v souvislosti s krabicovým grafem, řečeno odlehlé hodnoty jsou hodnoty, které jsou od krabice vzdálenější než 1,5 násobek interkvartilového rozpětí. Meze x 0,25 1,5 IQR(x) a x 0,75 + 1,5 IQR(x) označujeme jako vnitřní hradby. 5

Jak nalézt vnitřní hradby? S využitím R Console: # uložení výběrových charakteristik proměnné biometrie$bmi pro seskupení dle proměnné biometrie$vekkat do proměnné souhrn > souhrn<-tapply(biometrie$bmi,biometrie$vekkat,summary) # uložení interkvartilových rozpětí proměnné biometrie$bmi pro seskupení dle proměnné biometrie$vekkat do proměnné ir > ir<-tapply(biometrie$bmi,biometrie$vekkat,iqr) # uložení vnitřních hradeb proměnné biometrie$bmi pro seskupení dle proměnné biometrie$vekkat do proměnných dolni.mez, horni.mez > horni.mez<-c(souhrn$'1'[5]+1.5*ir[1], souhrn$'2'[5]+1.5*ir[2], souhrn$'3'[5]+1.5*ir[3]) > horni.mez<-c(souhrn$'1'[5]+1.5*ir[1], souhrn$'2'[5]+1.5*ir[2], souhrn$'3'[5]+1.5*ir[3]) # zjednodušení pojmenování proměnných biometrie$bmi a biometrie$vekkat > bmi<-biometrie$bmi > vekkat<-biometrie$vekkat # vytvoření proměnné biometrie$bmi.out, v níž budou uloženy hodnoty bmi bez odlehlých pozorování > biometrie$bmi.out=bmi # nahrazení odlehlých pozorování symbolem NA (not available) ( OR = ;AND= & ) > biometrie$bmi.out[((bmi<dolni.mez[1] bmi>horni.mez[1]) & vekkat==1) ((bmi<dolni.mez[2] bmi>horni.mez[2]) & vekkat==2) ((bmi<dolni.mez[3] bmi>horni.mez[3]) & vekkat==3)]<-na 6

V datovém souboru biometrie můžeme zkontrolovat, jak odstranění odlehlých pozorování proběhlo. 4. Na závěr vizualizujeme sledovanou závislost na základě dat bez odlehlých pozorování a určíme významné výběrové charakteristiky. Pro vizualizaci využijeme postup, který byl popsán v řešení podúkolu 2. Na grafu opět vidíme odlehlé pozorování. Nejedná se však o odlehlé pozorování z původního datového souboru, další úpravu datového souboru proto již neprovádíme. Pomocí R Console převedeme data ze standardního datového formátu do datové matice a následně využijeme záložku Summary/Numerical Variable. # převod dat ze standardního datového formátu do datové matice > data.matrix<-split(biometrie$bmi.out,biometrie$vekkat) 7

Všechny výstupy potřebné pro učinění závěrů o sledované závislosti máme připraveny a tak zbývá poslední krok tvorba souhrnné zprávy, tj. grafická prezentace sledované závislosti, správné zaokrouhlení výběrových charakteristik, jejich přehledná prezentace a v neposlední řadě jejich správná smysluplná interpretace. To již zcela jistě zvládnete samostatně 8