ŘEŠENÍ PRAKTICKÝCH ÚLOH UŽITÍM SOFTWARE STAT1 A R Obsah 1 Užití software STAT1 1 2 Užití software R 3 Literatura 4 Příklady k procvičení 6 1 Užití software STAT1 Praktické užití aplikace STAT1 si ukažme na dvou konkrétních příkladech. Příklad 1.1 V rámci tělesné přípravy byla u jedné skupiny vojáků (experimentální skupina) zavedena inovovaná alternativní forma tělesné přípravy. Cílem bude zodpovědět otázku, zda tento nový přístup vede ke zlepšení fyzické výkonnosti vojáka, konkrétně se zaměříme na počet sedů-lehů za minutu. Máme k dispozici 2 datové soubory obsahující výkony v dané disciplíně pro sledovanou experimentální skupinu (46 vojáků), u níž byla tělesná příprava prováděna novými alternativními postupy, a pro kontrolní skupinu (57 vojáků), kde probíhala tělesná příprava obvyklým způsobem. Vstupní výkonnostní úroveň obou skupin v uvedené disciplíně byla shodná. Řešení: Ke statistickému řešení daného problému užijeme aplikaci STAT1. Oba datové soubory vložíme do datového listu pod názvy sed/leh experimentální skupina a sed/leh kontrolní skupina, viz obr. 1. Východiskem pro řešení úlohy bude exploratorní analýza dat, kterou provedeme na obou souborech. Vzhledem k povaze dat provedeme intervalové rozdělení četností (list intervalové rozdělení), ze kterého je patrné (viz obr. 2), že data jsou homogenní, rozdělení téměř symetrické a bez odlehlých hodnot, součástí jsou i výběrové charakteristiky (na obr. 2 je uvedeno intervalové rozdělení četností pro data kontrolní skupiny, pro intervalové rozdělení četností dat sed/leh experimentální skupina platí totéž). Dále lze pro oba výběry ověřit, že pochází z normálního rozdělení (pro data sed/leh experimentální skupina viz obr. 3). Řešení dané úlohy má charakter dvouvýběrového problému, v rámci kterého je nutné porovnat střední hodnoty výkonů u experimentální a kontrolní skupiny. Zavedení inovované tělesné přípravy se reálně projevilo tak, že se zvýšila hodnota výběrového průměru u experimentální skupiny vzhledem ke kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační číslo projektu: CZ.1.07/2.2.00/28.0326 PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY.
Obrázek 1: Datové soubory hypotéze µ 1 < µ 2. Obě proměnné mají normální rozdělení, použijeme tedy list 2V-normální, v jehož horní části provedeme výběr obou proměnných a zvolíme rovněž hladinu významnosti testu α = 0, 05. Nejprve je nutné provést test na shodu rozptylů (např. v [5]) a v závislosti na jeho výsledku pokračujeme testem o shodě středních hodnot (předpokládáme homoskedasticitu, tedy stejné rozptyly, nebot test tuto shodu nezamítl). Výsledkem je konstatování, že na hladině významnosti 5 % se hypotéza o shodě obou středních hodnot zamítá, viz obr. 4. Prakticky to tedy znamená, že s 95% spolehlivostí můžeme tvrdit, že inovovaná forma tělesné přípravy vede k lepším výkonům v disciplíně sed-leh. Otevírá se samozřejmě prostor pro formulace dalších praktických problémů, které lze na základě našich obou měření řešit. Například je možné využít list 2V-párový test pro posouzení progrese ve výkonnosti vybrané skupiny za dané období apod. Při řešení následující úlohy použijeme chí-kvadrát test nezávislosti v kontingenční tabulce, který lze v praxi využít např. při zpracování nejrůznějších typů dotazníkových šetření. Jedná se o vyhodnocení odpovědí na jednu konkrétní otázku z dotazníku určeného pro sběr empirických dat, které budou podkladem pro vyhodnocení stavu dalšího profesního vzdělávání skupiny personalistů Společných sil AČR. Příklad 1.2 V následující tabulce 1 jsou shrnuty odpovědi 112 náhodně vybraných respondentů na otázku Je součástí plánování Vašeho kariérního rozvoje plán dalšího profesního vzdělávání?. Úkolem bude na hladině významnosti 5 % prokázat závislost mezi popsaným způsobem plánování kariérního rozvoje (respondenti vybrali jednu nabídnutou odpověd na škále určitě ano spíše ano spíše ne určitě ne) a dosaženým stupněm vzdělání respondentů. Řešení: Nejprve je zapotřebí sloučit vhodné kategorie sledované veličiny tak, abychom dosáhli dostatečného počtu odpovědí ve všech buňkách kontingenční tabulky a splnili tak nutnou podmínku pro provedení chí-kvadrát testu v kontingenční tabulce. V našem případě je tato podmínka splněna. 2
Obrázek 2: Intervalové rozdělení četností a výběrové charakteristiky Hodnoty zapíšeme do listu Kontingenční tabulka část Empirické četnosti (viz obr. 5). Závěrem je konstatování, že na zvolené hladině významnosti 5 % je závislost v kontingenční tabulce statisticky významná, neboli s 95% spolehlivostí můžeme tvrdit, že nejvyšší dosažené vzdělání personalistů AČR má vliv na způsob plánování kariérního rozvoje. 2 Užití software R 3
Literatura Základní Obrázek 3: Ověření normality MANN, P.S. Introductory Statistics. 6th edition. Hoboken: Wiley, 2007. ISBN 978-0-471-75530-2. MOUČKA, J., RÁDL, P. Matematika pro studenty ekonomie. 1. vyd. Grada 2010. ISBN 978-80- 247-3260-2. NEUBAUER, J., SEDLAČÍK, M., KŘÍŽ, O. Základy statistiky Aplikace v technických a ekonomických oborech. Grada 2012.ISBN: 978-80-247-4273-1. vzdělání určitě ano spíše ano spíš ne určitě ne Celkem SŠ 13 17 10 11 51 VŠ 36 14 9 2 61 Celkem 49 31 19 13 112 Tabulka 1: Kontingenční tabulka 4
Obrázek 4: Dvouvýběrový test o shodě středních hodnot ŘEZANKOVÁ, H. Analýza dat z dotazníkových šetření. 2. vydání, Professional Publishing, 2010. ISBN: 9788074310195. Doporučená AGRESTI, A. Categorical Data Analysis. Second Edition. Wiley 2002. ISBN: 0-471-36093-7. ANDĚL, J. Statisticke metody. 3. vydání. Praha: Matfyzpress, 2003. ISBN 80-86732-08-8. ANDĚL, J. Základy matematické statistiky. 2. vyd. Praha: Matfyzpress, 2007, 358 s. ISBN 978-80-7378-001-2. VÁGNER, M. Integrální počet funkcí jedné proměnné. 1. vydání. Brno: UO, 2005,126 s. ISBN 80-7231-025-9. VÁGNER, M., KAŠTÁNKOVÁ, V. Posloupnosti a řady. 1. vydání. Brno: UO, 2006. ISBN 80-7231-131-X. 5
Samostatná práce Obrázek 5: Test nezávislosti v kontingenční tabulce Zpracování semestrální práce na zadané téma (formulace problému, sběr dat, statistické vyhodnocení užitím zvoleného software, interpretace), struktura a obsah práce v požadovaném formátu. Práce zahrnuje eplorativní analýzu dat, induktivní statistiku a základní analýzu závislostí. 6