VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY BAKALÁŘSKÁ PRÁCE Robin Jiráň

Transkript

1 VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY BAKALÁŘSKÁ PRÁCE 2014 Robn Jráň

2 VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY Název bakalářské práce: Statstcké metody v R Autor: Katedra: Obor: Vedoucí práce: Robn Jráň Katedra statstky a pravděpodobnost Statstka a ekonometre Ing. Tomas Löster,Ph.D.

3 Prohlášení: Prohlašuj, že jsem bakalářskou prác na téma Statstcké metody v R zpracoval samostatně. Veškerou použtou lteraturu a další podkladové materály uvádím v seznamu použté lteratury. V Praze dne 9. ledna Robn Jráň

4 Poděkování: Rád bych na tomto místě poděkoval Ing. Tomáš Lösterov, Ph.D. za vedení mé bakalářské práce a za podnětné návrhy, které j obohatly.

5 Abstrakt Název práce: Autor: Katedra: Vedoucí práce: Statstcké metody v R Robn Jráň Katedra statstky a pravděpodobnost Ing. Tomáš Löster, Ph.D. Tato práce se zabývá nejdůležtějším statstckým metodam, způsoby výpočtů a syntaxí v prostředí statstckého programu R. Obsahem úvodních částí bakalářské práce je vytvoření stručného teoretckého základu k hlavním kaptolám praktcké část. Dále je vysvětleno samotné využtí programu R k výpočtům statstckých úloh. Představeny jsou jednotlvé součást zápsu funkcí v programu R a pops důležtých argumentů, předvedení náhledů výstupů, a to jak textových tak grafckých. Klíčová slova: argument, funkce, graf, parametr, proměnná. Abstract Ttle: Author: Department: Supervsor: Statstcal methods n R Robn Jráň Department of Statstcs and Probablty Ing. Tomáš Löster, Ph.D. Ths thess deals wth the most mportant statstc methods, ways of calculatng and syntax n the envronment of R statstc programme. The ntal parts of the bachelor thess content a bref theoretcal bass for the man chapters of the practcal part. In the followng chapters the use of R programme tself for calculatng statstc tasks s explaned. The partcular parts of recordng functons n R programme are presented, mportant arguments are descrbed and both text and graphcal nputs are dsplayed. Keywords: argument, functon, graph, parameter, varable.

6 1 OBSAH 1 ÚVOD TEORETICKÁ ČÁST ÚVOD DO POPISNÉ STATISTIKY Míry polohy Míry varablty ÚVOD DO REGRESE Jednoduchá regrese Vícenásobná regrese TESTOVÁNÍ HYPOTÉZ GRAFICKÉ VÝSTUPY Hstogram Výsečový graf Krabčkový graf (boxplot) Sloupcový graf Spojncový graf Bodový graf ZÁKLADNÍ INFORMACE A PŘEDSTAVENÍ R PRAKTICKÁ ČÁST NAČÍTÁNÍ DAT A ÚPRAVA DAT Postup př načítání dat VYTVÁŘENI NÁHODNÉHO VÝBĚRU V R Pops funkce sample Provedení náhodného výběru z celého datového souboru Provedení náhodného výběru z hodnot jedné proměnné VYTVÁŘENÍ NOVÉHO SOUBORU DAT Přejmenovávání a vkládán nových proměnných Vkládání nové proměnné do souboru POPISNÁ STATISTIKA A MÍRY POLOHY A VARIABILITY V R NEJDŮLEŽITĚJŠÍ DISKRÉTNÍ ROZDĚLENÍ A SPOJITÉ ROZDĚLENÍ V R Dskrétní rozdělení Spojté rozdělení TESTY NA NORMALITU V R Shapro-Wlkův test Kolmogorov-Smrnovův test Jarque Berův test D'Agostnho test na normaltu TESTOVÁNÍ HYPOTÉZ V R Parametrcké testy o střední hodnotě Neparametrcké testy o střední hodnotě: Testy o populační relatvní četnost REGRESNÍ ANALÝZA V R Lneární regresní analýza Vícerozměrná regresní analýza... 51

7 3.9 GRAFIKA V R Hstogram v R Výsečový graf v R Boxplot v R Sloupcový graf v R Spojncový a bodový graf v R ZÁVĚR SEZNAM POUŽITÉ LITERATURY PŘÍLOHY

8 3 1 ÚVOD V dnešní době je velce důležté ovládat co nejvíce statstckých programů, nebo mít alespoň základní přehled o výhodách jných statstckých programů než běžně využívaných př výukách statstky na vysoké škole. Z tohoto důvodu se tato práce zaměří na program R, který je sce nový, ale zárověň už velm rozšířený. Velkou výhodou tohoto programuje jeho dostupnost. Problém je, že tento program nemá vytvořené grafcké prostředí pro jednoduchou ovladatelnost, ovládá se pomocí příkazů. Cílem této práce bude představení statstckého programu R, jako adekvátního substtutu komerčních statstckých programů jako jsou např. SPSS a SAS. Práce by měla předvést a demonstrovat prác s tímto programem, ukázat, jakým způsobem pracovats daty, jak zapsovat funkce, aby byl řešen zvolený problém, a následně předvést výstup v programu R. Práce je rozdělena do dvou částí. První, teoretcká část, bude obsahovat nezbytný základ statstcké teore, na kterou navazuje praktcká část. Praktcká část bude zaměřena na jednotlvé výpočty a funkce v prostředí statstckého programu R. V úvodu praktcké část budou vysvětleny základnínformacek prác s daty. Poté bude následovat praktcké využtí na vzorových příkladech. Na příkladech bude předvedena možnost využtí programu k výpočtům týkajících se popsné statstky, testování hypotéz, regresní analýzy a vytváření grafckých výstupů. Data pro tuto prác budou převážně smyšlená, tak aby odpovídala požadavkům pro demonstrování možností statstckých výpočtů v R.

9 4 2 TEORETICKÁ ČÁST 2.1 Úvod do popsné statstky Př statstckých zkoumání jsou předmětem zájmu obvykle hromadné jevy nebo procesy, u kterých se zjšťují zákontost, jež se projevují u velkého počtu prvků. Pozorované (zkoumané) prvky nazýváme statstcké jednotky. Vlastnost statstckých jednotek, jnak nazývané znaky nebo velčny, jsou předmětem statstckého zkoumání. Souhrn velčn tvoří data. Př zkoumání dat se využívají dva druhy statstk, tj. popsná a nterferenční statstka. Popsná statstka zjšťuje a sumarzuje nformace a vypočítává jejch číselné charakterstky jako průměr, rozptyl, percently atd. Interferenční statstka vytváří závěry na základě získaných údajů (dat) z daných šetření, prováděných pro vybraný datový soubor respondentů, analyzuje data a vytváří z nch zobecnění pro základní soubor. Základním souborem se rozumí soubor všech statstckých jednotek. Výběrový soubor je poté částí základního souboru. Prostý náhodný výběr lze chápat jako náhodný výběr ze základního souboru. Tvoří se tak, že ze základního souboru vybereme náhodně jednotky, přčemž každá z nch má stejnou pravděpodobnost výběru. Pokud je možné vybrat tentýž jednotku vícekrát, jedná se o výběr s vracením. Pokud opakovat výběr té samé jednotky není možný, jedná se o výběr bez vracení. Popsná statstka Vlastnost, které se pro jednotlvé jednotky mění, se nazývají velčnam, případně statstckým znaky nebo proměnným. Vyskytují se velčny dvojího druhu. První jsou kvanttatvní velčny popsané číselnou hodnotou (mzdy, ceny), druhou možností jsou kvaltatvní velčny popsané vlastnostm (muž, žena, dosažené vzdělání). Kvanttatvní velčny mohou být dskrétní nabývající hodnot ze zadané konečné množny, nebo spojté, které nabývají hodnot ze zadaného ntervalu. Pozorováním nebo měřením hodnot zkoumané velčny na několka statstckých jednotkách se získávají vstupní data. Soubor těchto údajů se nazývá datový soubor. Tento soubor je jednorozměrný, jestlže se sleduje jeden znak, nebo vícerozměrný pokud je sledováno více znaků.

10 Míry polohy Jako míru polohy pro kvanttatvní proměnnou lze použít průměrnou hodnotu, medán nebo další kvantly. Za předpokladu kategorální proměnné se může použít modus. Průměrná hodnota a medán určují střed souboru. V případě symetrckého rozdělení četností se hodnoty artmetckého průměru a medánu shodují. Pro výpočet průměrné hodnoty se nejčastěj využívá vzorec pro prostý artmetcký průměr (2.1). V případech, kdy je nutno přřadt hodnotám určté váhy, je využíván vážený artmetcký průměr (2.2) vz [7]., (2.1). (2.2) Vyskytují se stuace, kdy jsou údaje zadané takovým způsobem, že nelze zmíněné průměry využít pro získání požadované průměrné hodnoty. Za takových stuací se použje harmoncký průměr (2.3) nebo geometrcký průměr (2.4)., (2.3). (2.4)

11 Míry varablty Charakterstky varablty udávají koncentrac nebo rozptýlení (varabltu) hodnot kolem zvoleného středu skupny. Rozpětí je defnováno jako rozdíl největší (maxmální) a nejmenší (mnmální) hodnoty. Mezkvartlové rozpětí (IQR) je defnováno jako rozdíl horního a dolního kvartlu. Ncméně základní mírou pro určení varablty je rozptyl. V případech proměnné s malým počtem varant se vypočítá jako (2.5) Př větším obsahu varant hodnot se zapsuje výpočetní vzorec ve tvaru. (2.6) Rozptyl lze defnovat jako průměrnou čtvercovou odchylku jednotlvých hodnot od průměru, udává se ve čtvercích jednotek, v nchž jsou uváděny jednotlvé hodnoty proměnné. Odvozeným míram od rozptylu jsou směrodatná odchylka a varační koefcent V. více vz [7]. Výpočetní vzorce pro směrodatnou odchylku a varační koefcent jsou ve tvaru, (2.7). (2.8)

12 7 2.2 Úvod do Regrese Jednoduchá regrese Hlavním úkolem regresní analýzy je vysthnout pomocí regresní funkce na základě znalost dvojc emprckých hodnot X a Y průběh závslost mez oběma proměnným. Dále umožňuje provést odhad hodnot závslé proměnné Y na základě zvolených hodnot nezávsle proměnné X vz[4]. Jednoduchá regresní analýza popsuje závslost dvou číselných proměnných, z nchž jedna proměnná vystupuje jako vysvětlující a jedna jako vysvětlovaná pomocí regresní funkce na základě znalost dvojc emprckých hodnot X a Y.. Je nutné rozlšt emprckou regresní funkc a teoretckou regresní funkc. Teoretcká regresní funkce je model průběhu proměnné Y př systematckých změnách vysvětlující proměnné X, teoretcká regresní funkce je nepozorovatelná. Považuje-l se teoretcká regresní funkce za model průběhu proměnné Y př systematckých změnách vysvětlující proměnné X, pak emprcké regresní funkce se považuje za odhad modelu na základě získaných pozorování. Emprcká regresní funkce je odhad modelu na základě získaných pozorování. Označí-l se teoretcká regresní funkce jako η, pak pro každé konkrétní pozorování bude platt rovnce: y = η + ε (2.9) y = 1,2,, n, kde y je -tá hodnota vysvětlované proměnné, η je -tá hodnota teoretcké regresní funkce a ε je odchylka y od η. K odchylce dochází jednak z toho důvodu, že na proměnnou y působí jné proměnné než jenom uvažovaná vysvětlující proměnná X a že forma hypotetcké regresní funkce není přesným obrazem nezměřtelné závslost, jednak proto, že na emprcké pozorování působí náhodné chyby. Svojí podstatou je ε náhodnou velčnou. Je výhodné předpokládat, že chyba ε nezkresluje hodnoty y systematckých způsobem, nebol že její střední hodnota je nulová.vz[3].

13 8 Označí-l se dále parametry regresní funkce jako β 0, β 1,, β k, takže η = f(x ; β 0, β 1,, β k ). (2.10) Hlavním úkolem je určt konkrétní formu této funkce a odhadnout její parametry. Označí-l se odhady uvedených parametrů jako b 0, b 1,, b k, pak emprckou regresní funkc lze psát ve formě Y = f(x ; b 0, b 1,, b k ). (2.11) Velčna Y vyjadřuje, že -tá hodnota emprcké regresní funkce je zároveň odhadem teoretcké hodnoty η odpovídající hodnotě vysvětlující proměnné X. Emprcký regresní model Stanovení emprcké regresní funkce v podstatě znamená, že každou emprckou hodnotu Y nahradí určtá vyrovnaná hodnota Y, která bude ležet na zvolené regresní čáře. = 1,2,, n y = Y + e (2.12) y jsou hodnoty vysvětlované proměnné, Y je emprcká regresní funkce, která je odhadem teoretcké regresní funkce, zároveň je funkcí proměnné X a neznámých parametrů b 0, b 1,, b k, tj.: Y = f(x ; b 0, b 1,, b k ), (2.13) Hledá se objektvní krtérum, jež by dovollo určt přímku, která danou závslost nejlépe vysthuje. Jako první je kladen požadavek, který odpovídá představě o ε, tj. aby se v souhrnu kompenzovaly kladné a záporné odchylky emprckých hodnot od hodnot vyrovnaných, jnak řečeno, aby platlo: (2.14) kde e (tzv. rezduum) je odhad hodnoty náhodné složky ε. Tato podmínka však ještě nevede k jednoznačnému řešení, protože regresních funkcí splňujících výše uvedenou podmínku, je rovněž neomezeně mnoho.

14 9 Podmínku je proto třeba doplnt krtérem, které jž vede k jednoznačnému řešení. Takovým krtérem je požadavek, aby součet čtverců chyb ε byl mnmální, tj. aby platlo S R n 1 n 2 2 ( y ) mnmální (2.15) 1 Tedy je požadováno, aby součet čtverců odchylek emprckých hodnot y závslé proměnné od hodnot teoretckých η byl mnmální. Metoda určování parametrů regresních funkcí založená na této podmínce se nazývá metoda nejmenších čtverců. V regresním modelu je předpoklad, že 1. X je nestochastcká (nenáhodná) proměnná, jejíž hodnoty jsou pevně dané, 2. y a ε jsou náhodné velčny, 3. ε, = 1,..., n, jsou normálně rozdělené náhodné velčny, pro které platí, že mají nulovou střední hodnotu, konstantní rozptyl a jsou vzájemně lneárně nezávslé E(ε ) = 0, E(ε 2 ) = s2, E(ε ε j ) = 0, j, = j = 1,..., n. Přímková regrese Je předpokládáno, že mez proměnným X a Y je lneární vztah. Následně teoretcká regresní funkce má formu regresní přímky = 1,..., n, y = β 0 + β 1 x + ε (2.16) jejím odhadem je regresní funkce = 1,..., n. Y = b 0 + b 1 x (2.17) Regresních přímek vysthujících danou závslost může být neomezeně mnoho, z tohoto důvodu je potřeba najít takovou přímku, která ze všech regresních přímek vysthuje danou závslost nejlépe. Metodou nejmenších čtverců se najde jedná přímka, která prochází nejblíže všem bodům, resp. vybere se ze všech možných přímek taková, pro kterou je součet čtverců (druhých mocnn) chyb ε od přímky mnmální, tzn., že se mnmalzuje rezduální součet čtverců emprckých hodnot y od vyrovnaných hodnot Y

15 10 mnmální ) ( n n R Y y S (2.18) Mnmalzace rezduálního součtu čtverců emprckých hodnot y od vyrovnaných hodnot Y mnmální ) ( n n R Y y S (2.19) mn. ) ( n n R x y S (2.20) S R je mnmální tehdy, jsou-l všechny parcální dervace podle jednotlvých parametrů b rovny nule 2. : 0 / ) )( ( 2 2 : 0 / 1) )( ( n R n R x x b b y b S x b b y b S (2.21) Po úpravě vznkne tzv. soustava normálních rovnc, n n n n n x b x b x y x b nb y (2.22) ze kterých se získají odhady parametrů x b y x x n x y x x y b s s x x xy xy x x n y x x y n b n n n n n n x xy n n n n n (2.23) b 1 = b yx (závsle proměnnou je Y a nezávsle proměnnou X) - tzv. regresní koefcent, který je směrncí regresní přímky, udává průměrnou změnu závsle proměnné y př jednotkové změně nezávsle proměnné X (tj. o kolk se změní závsle proměnná y, jestlže se nezávsle proměnná x změní o jednotku) (2.24)

16 Vícenásobná regrese Ve vícerozměrných modelech je zkoumáno, jak závsí proměnná Y nejen na vysvětlující proměnné X 1, ale též na dalších vysvětlujících proměnných X 2, X 3,, X p. Metody zkoumání závslostí tohoto typu se nazývají vícenásobnou regresí a korelací. Rozšíří se počet vysvětlujících proměnných, jmž je možné vysvětlt chování závslé proměnné, tedy je zkoumáno, jak závsí proměnná y nejen na vysvětlující proměnné x1, ale též na dalších vysvětlujících proměnných x 2, x 3,,x p. Odpadá zde možnost zachycení grafckého průběhu závslost logckého posouzení vhodnost určtého typu regresní funkce. Př hledání vhodného typu vícenásobné regresní funkce se převážně využívají matematcko-statstcká krtéra (míry těsnost, směrodatné chyby regresních koefcentů, různé testy apod.), které zpravdla z velkého okruhu různých typů regresních funkcí umožní vybrat tu nejvhodnější. Jestlže je závslá proměnná y lneárně závslá na každé z vysvětlujících proměnných x 1,x 2,, x p a jsou-l zároveň tyto vysvětlující proměnné vzájemně nezávslé (nebo alespoň ovlvňují změny závsle proměnné všechny jedním směrem), používá se pro vystžení vývoje závsle proměnné mnohonásobnou lneární funkc proměnných x 1, x 2,,x k. Vícenásobná regrese Jedná se o model s větším počtem vysvětlujících proměnných. V tomto případě je zkoumáno, jak závsí proměnná y na vysvětlujících proměnných x 1,, x k: za předpokladu, že závslost lze charakterzovat rovncí: y = η + ε (2.25) kde ε jsou odchylky, které lze nterpretovat jako důsledek působení nahodlých vlvů včetně nedokonalost zvolené regresní funkce vz [3], lze regresní funkc η vyjádřt jako: η = x x k x k (2.26) kde β 0, β 1,,β p jsou neznámé parametry regresní funkce a x 1, x 2,,x p jsou vysvětlující proměnné. Odhadnutou regresní funkc lze zapsat ve tvaru:

17 12 Y = b 0 + b 1 x 1 + b 2 x b k x k (2.27) nebo jako Y b0 byx x x x x byx x x x x byx x x x x k k 2... k k 1 k (2.28) Parametry se nazývají dílčí (parcální) regresní parametry a udávají odhad toho, jak se v průměru změnla vysvětlovaná (závslá) proměnná Y př jednotkové změně vysvětlující proměnné před tečkou, za předpokladu konstantní úrovně proměnných uvedených za tečkou (např. udává, jak se změní v průměru vysvětlovaná proměnná Y př jednotkové změně vysvětlující proměnné x 2 za předpokladu, že proměnné x 1 ax 3 zůstanou konstantní).vz[3].

18 Testování hypotéz Statstckou hypotézou se rozumí předpoklad o náhodných velčnách. Může se jednat o předpoklad o jednom parametru nebo charakterstce. Obecněj se jedná o výrok o jedné funkc nebo o více parametrech a typu rozdělení jedné náhodné velčny. Pokud by se jednalo o případ několka populací nebo vícerozměrnou úlohu, mohou to být předpoklady o nezávslost dvou a více náhodných velčn, náhodnost provedených výběrů, způsoby uspořádání dat a další. Testovaný předpoklad, který je ověřován, se nazývá testovanou nebo nulovou hypotézou a je označený obvykle H 0. Jedná se o současný stav poznání o rozdělení sledovaných náhodných velčn. Testovaná hypotéza se považuje za pravdvou do prokázání opaku výběrových dat. Aprorní nesouhlas nebo pochybnost o pravdvost testové hypotézy vyjadřuje alternatvní hypotéza. Alternatvní hypotéza se značí H 1. Jedná se o výrok, který neguje nebo nějakým způsobem zpochybňuje nulovou hypotézu. V případech, kdy je podezření, že nulová hypotéza není pravdvá, se podrobí tato hypotéza statstckému testu. Statstckým testem hypotézy se rozumí rozhodovací postup, kdy se na základě náhodného výběru provede rozhodnutí o pravdvost hypotézy H 0 nebo H 1. V dané stuac testu jsou hypotézy postaveny tak, aby mohla být pravdvá pouze a právě jedna. Konečné rozhodnutí se zjstí podle vhodně zvolené statstky T, která se nazývá testovým krtérem. Testované krtérum je náhodná velčna se známým pravděpodobnostním rozdělením. Množnu hodnot testovaného krtéra lze rozložt na dvě podmnožny obor přjetí testované hypotézy H 0 značený V a krtcký obor zamítnutí hypotézy H 0 značený W. Krtcký obor tvoří množna testovaného krtéra, která je za předpokladu platnost H 0 extrémní, tak že pravděpodobnost výskytu je velm malá. Pokud hodnota testového krtéra padne do krtckého oboru W, dochází k zamítnutí hypotézy H 0 a přjetí alternatvní hypotézy H 1. Obor přjetí obsahuje hodnoty testového krtéra T, př kterých nedojde k zamítnutí hypotézy H 0.

19 14 Jelkož tvrzení týkající se populace je vyhodnocováno na základě nformace získané ve vzorku, může dojít k dvojí chybě, vz[6]. S pravděpodobností α může dojít chybě I. druhu, kdy testovaná hypotéza platí, ncméně hodnota testového krtéra se nachází v krtckém oboru a vede k mlnému zamítnutí. Pravděpodobnost mylného zamítnutí je rovno hladně významnost testu. S pravděpodobností β muže dojít k chybě II. druhu, kdy testovaná hypotéza není zamítnuta, ačkolv neplatí. Pravděpodobnost správného zamítnutí testové hypotézy 1-β se považuje za sílu testu více o testování hypotéz, vz [7], [3]. 2.4 Grafcké výstupy Grafcké výstupy jsou občas nejdůležtějším částm statstky. Dávají názorný náhled na danou stuac, lehčej se prezentují. Někdy je lze použít jako test hypotéz, jelkož vzuální náhled dokáže o výběru dost prozradt. V další část se budu zabývat hlavním typy všeobecně využívaných grafů, jako jsou hstogram, krabčkový graf, výsečový graf, spojncový graf a bodový graf Hstogram Jde o zvláštní varantu sloupcového grafu pro ntervalové rozdělení četností. Na ose x se vyznačují meze ntervalu hodnot sledované proměnné, pro které se četnost vyznačují pomocí výšky sloupce. U jž vytvořeného grafu lze konkrétní četnost (absolutní nebo relatvní) zjstt na ose y. Na rozdíl od sloupcového grafu se jednotlvé sloupce navzájem dotýkají, vz[7]. Pravdla pro nastavování šíře sloupců jsou: Sturgesovo pravdlo je vhodné pro gaussovská data (normálně rozdělená) a není vhodné pro velké výběry. Řídí se zápsem: k = (1+ ), (2.29) Kde n je počet pozorování, k je počet ntervalů. Scottovo pravdlo není moc vhodné pro gaussovská data, nterval pro šířku sloupců se získá v následujících krocích, které popsují vzorce 2.15 a 2.16.

20 15 kde h ý ě é ě é h. Poté se nterval šíře sloupců vypočítá takto: h=3,5,, (2.30) k = (2.31) Freedman-Daconsovo pravdlo je vhodné pro gaussovská data a je robustní, funguje v přítomnost vybočujících pozorování. Šíře ntervalu se vypočítá jako: h=2,. (2.32) Výsečový graf Tento graf zobrazuje strukturu zkoumaného souboru. Využívá se pro znázornění četností hodnot nomnálních proměnných. Jednotlvé výseče znázorňují podíly jednotlvých kategorí na celku Krabčkový graf (boxplot) Využívá se k zachycení robustních statstk. Základem grafu je obdélník (box), jehož spodní hranou je dolní kvartl, horní pak horní kvartl. Uvntř obdélníku tudíž leží 50% všech případů. Hvězdčka uvntř obdélníku označuje medán. Kvartlový graf zobrazuje také dvě kategore hodnot výrazně se odchylujících od ostatních. Pozorování s hodnotou větší než je trojnásobek rozdílu mez horním a dolním kvartlem (délky boxu) od horní hrance boxu, a na druhé straně pozorování s hodnotou menší než je trojnásobek délky boxu od dolní hrance, se nazývají extrémní hodnoty. Označují se písmenem E. Pozorování s hodnotou mez jedením a půl a trojnásobkem délky boxu se nazývají odlehlá a označují se písmenem O. V grafu je vyznačena také největší a nejmenší pozorovaná hodnota, kterou už nelze zahrnout mez odlehlá pozorování Sloupcový graf Výška sloupce představuje počet statstckých jednotek, u nchž se hodnota sledovaného znaku rovná určté kategor (výška může také reprezentovat relatvní četnost těchto statstckých jednotek). Sloupcový graf lze rovněž využít pro znázornění ntervalového rozdělení četností pro dskrétní proměnnou s větším počtem varant hodnot,

21 16 např. na ose x jsou vyznačeny jednotlvé varanty hodnot analyzované proměnné ročník studa, pro které se četnost vyznačují pomocí výšky sloupce, na ose y jsou pak absolutní četnost Spojncový graf Vyjadřuje průběh časové řady nebo slouží ke znázornění rozdělení absolutních a relatvních četností spojtého znaku Bodový graf Využívá se především ke znázornění závslostí pomocí bodů v soustavě pravoúhlých souřadnc.

22 Základní nformace a představení R Program R je volně přístupný statstcký software. Tento software nevyužívá žádné grafcké rozhraní pro pracovní prostředí, jaké je známo z ostatních statstckých programů např. z SPSS. Veškeré funkce je třeba napsat pomocí příkazů, což dělá z tohoto programu unverzální matematcký a statstcký program, který nabízí volnost a varabltu k prác. Program R nabízí možnost programování statstckých funkcí pomocí programovacího jazyka, který vychází z jazyka S. Programovací jazyk je relatvně snadný a je přímo orentován na vývoj statstckých aplkací. Z tohoto důvodu je využíván k vědecké čnnost a k pokročlejším statstckým a matematckým výpočtům. Velkou výhodou tohoto programu je rychlost a dobře zpracovaný systém nápovědy. Program dsponuje vynkajcí grafkou výstupů s možností vykreslování 2D 3D grafů. Zmíněný software je spusttelný ve všech nejužívanějších počítačových systémech jako jsou Wndows, Mac OS, Lnux. Webová stránka, kde se dá volně stáhnout program R je Na této stránce lze nalézt jednotlvé tutoraly a manuály potřebné k obsluze softwaru. Po spuštění programu R se zobrazí okno programu s konzolí, do kterése píší jednotlvé příkazy. V konzol jsou napsané základní nformace o softwaru, jeho verz a základní nformace o funkcích, jak vypnout R nebo jak využít nápovědy. Tyto úvodní popsy lze jednoduše smazat zkratkou Ctrl+L. Tato zkratka se využívá na vyčštění hlavní konzole kdykolv v průběhu práce.

23 18 3 PRAKTICKÁ ČÁST V praktcké část budou vysvětleny jednotlvé postupy př výpočtech a tvorbě grafů v prostředí statstckého programu R. Vše bude demonstrováno na příkladech. Pro lepší orentac v této část je nutné zmínt několk pojmů a způsobyjejch vyznačování v textu. Každý použtý základní nebo výběrový datový soubor je ohrančený uvozovkam a jeho označení začíná velkým písmenem. Příkladem zápsu využtí datového souboru je Novy. Každá proměnná vyskytující se v textu je zvýrazněna uvozovkam a začíná malým písmenem,např. salary nebo z, z důvodu kompatblty ze vstupy. Vstupující záps (funkce) do R je zvýrazněn červenou barvou a jným formátem písma. Příklad zápsu vstupu do R je >mean(salary). Jným fontem písma a barvou je označen výstup z R. Příkladem může být například tato řada spočtených údajů:[1] Používaná funkce je pro daný výpočet problému zapsána ve tvaru mean( ). Závorka a tř tečky značí prostor pro vypsání argumentů, které ovlvňují výpočet. Tzv. argumenty ovlvňující výpočet jsou v textu zvýrazněny tučně a kurzívou, např.:alternatve.

24 Načítání dat a úprava dat Tato kaptola bude zaměřena na načítání dat v programu R a jejch úpravu. Program R je schopen načítat tabulková data ve dvou formátech, tj..csv a.txt. Jednotlvé příkazy k načítání dat se lší především základním nastavením argumentů pro čtení desetnné čárky a způsobem oddělení buněk. Pro představu datový soubor vytvořený v Mcrosoft Offce Excel a exportovaný do formátu.csv odděluje jednotlvé buňky středníkem a desetnná čárka má znak čárky nkolv tečky. V tomto případě by byla správně zvolená funkce read.csv2( ). Tabulka 3.1 Možnost a alternatvy funkce read.***( ) pro načítání dat Funkce header Sep Dec read.table( ) FALSE " " "." read.csv( ) TRUE "," "." read.csv2( ) TRUE ";" "," read.delm( ) TRUE "\t" "." read.delm2( ) TRUE "\t" "," Zdroj - Nápověda k načítání dat R Argument header nastavuje hlavčku datového souboru. Pokud se nastaví ve tvaru: header = TRUE, výsledkem bude chápání prvního řádku datového souboru jako řádek s názvy proměnných (muž, ženy, věk, platy). Za předpokladu opačného zapsání funkce ve tvaru header = FALSE by byl tento řádek chápán jako součást dat. Argumentem sep se upravuje způsob oddělení buněk jednotlvých hodnot v načítaném datovém souboru a argumentem dec se nastavuje, jakým způsobem je zapsána desetnná čárka v souboru. K načítání datového souboru lze použít jakoukolv výše zmíněnou funkc, pokud se dobře nastaví argumenty sep a dec pro všechny typy datového souboru. Správné zvolení načítací funkce zkrátí čas potřebný k opakování načítání.

25 Postup př načítání dat Nejprve je nutné zjstt, který adresář je nastavený jako výchozí. R pracuje prmárně s daty z tohoto adresáře a zároveň je sem opět ukládá. Pro zjštění výchozího pracovního adresáře se využívá funkce getwd( ), která vypíše cestu k pracovnímu adresář. >getwd(), po zadání a odeslání příkazu se zobrazí cesta k výchozímu adresář např. v tomto tvaru: [1] "C:/Users/ username /Documents" Pro případnou změnu pracovního adresář lze použít příkaz setwd( ), kde se místo teček mez závorky vypíše kompletní cesta k novému adresář. Např. příkaz pro změnu pracovního adresáře na pctures má tvar: >setwd("c:/users/ username /pctures"). Po potvrzení této změny se budou veškeré výstupy a pracovní soubory ukládat do adresáře "C:/Users/ username /pctures". Pro načítání je důležté s budoucí pracovní soubor vhodně pojmenovat, v tomto případě např.ukol1. Ukázka načtení datového souboru s názvem Employee.csv pro případ špatně zvolené funkce read.***( ) je: >Ukol1 = read.csv("c:\\users\\ username \\Document\\Employee.csv") Funkce head( ), která vždy zobrazuje hlavčku a prvních 6 hodnot tabulky, bude v tomto případě generovat výstup vypadající např. takto: >head(ukol1) d.gender.bdate.educ.jobcat.salary.salbegn.jobtme.prevexp.mnorty 1;m;2/3/1952;15;3;57000;27000;98;144;0 2;m;5/23/1958;16;1;40200;18750;98;36;0 3;f;7/26/1929;12;1;21450;12000;98;381;0 4;f;4/15/1947;8;1;21900;13200;98;190;0 5;m;2/9/1955;15;1;45000;21000;98;138;0 6;m;8/22/1958;15;1;32100;13500;98;67;0 Z výstupu je zřejmé, že zvolený druh načítací funkce není optmální, jelkož jednotlvé buňky jsou od sebe separovány středníkem.

26 21 Př použtí správné načítací funkce budou data zobrazovaná v zarovnané tabulce. Syntaxe v R př využtí správné načítací funkce pro zvolená data je: >Ukol1=read.csv2("C:\\Users\\ username \\Documents\\Employee.csv") >head(ukol1) V tomto případě bude výstup vypadat takto: d genderbdateeducjobcatsalarysalbegnjobtmeprevexp 1 1 m 2/3/ m 5/23/ f 7/26/ f 4/15/ m 2/9/ m 8/22/ Př zadání pouze nově zvoleného názvu pro datový soubor, v tomto případe zapsáním do R jako Ukol1, načetl by se kompletní datový soubor zobrazený ve stejném tabulkovém stylu jako v případě použtí náhledové funkce head( ). Další způsob, jakým lze data načíst, je použtí funkce fle.choose( ), která se zadá v argumentu funkce read.***( ) místo vypsování celé cesty k uloženému souboru dat. Načítání dat je poté shodné s běžně užívanou funkcí Otevřít u standardních programů. Pro správné načtení datového souboru Employee.csv by byl příkaz zapsaný do R tento: >Ukol1 = read.csv2(fle.choose()) Úprava datové tabulky Úprava dat se provádí pomocí funkce fx( ), která otevře okno data edtoru, kde lze přepsovat jakékolv hodnoty názvy proměnných. Uložení a přepsání hodnot se provádí automatcky př ukončení okna křížkem vpravo nahoře. Syntaxe vypadá následovně: >fx(ukol1) Poté se zobrazí okno data edtoru, které až do svého uzavření zamezuje veškerou prác v základním okně. Příklad okna data edtoru vz Obrázek 3.1.

27 22 Obrázek 3.1- Data edtor př aktvac funkce fx( ) Zdroj - Výstup z R

28 Vytvářen náhodného výběru v R Povětšnou není nutné pracovat s celým základním souborem, stačí využít jen část vybranou za určtých podmínek. Pokud je výběr proveden nezávsle na dalších aspektech, jedná se o výběr náhodný. Pro vytvoření náhodného výběru v prostředí R se využívá funkce sample( ) Pops funkce sample Funkce sample( ) obsahuje několk důležtých argumentů, náhled vzhledu zápsu funkce v R a pops nejdůležtějších argumentů. Vypadá následovně: sample(x.sze, replace = FALSE, prob = NULL) Argument x u funkce sample( ) zastupuje základní soubor (proměnnou nebo datový soubor), z kterého je náhodný výběr pořzován. Sze určuje konečný rozsah výběru. Argument replace muže nabýt hodnot TRUE nebo FALSE. Tento argument dává odpověď na otázku, jestl bude zadaný výběr s vracením nebo bez vracení. Poslední důležtý argument je prob, jež nastavuje pravděpodobnost vybrání určtých hodnot ze základního souboru Provedení náhodného výběru z celého datového souboru. Funkce pro výběr s celého datového souboru o rozsahu 50 řádků bude mít následující tvar > Vyber1 =Ukol1[sample(nrow(Ukol1), 50), ] kde Vyber1 je nové jméno datového souboru o rozsahu 50, který obsahuje výběr z původního datového souboru Ukol1. Náhled výstupu datového souboru Vyber1 s využtím funkce head( ) d gender bdateeducjobcatsalarysalbegnjobtmeprevexp m 4/21/ m 2/16/ f 6/20/ f 6/13/ f 2/27/ f 7/25/

29 24 V prvním sloupc výstupu datového souboru Vyber1 je číslo původní pozce řádku v základním souboru Ukol1. Počet řádků (hodnot)základního souboru před provedením náhodného výběru byl 474 a zobrazí se pomocí funkce nrow( ). Funkce pro zjštění počtu řádků hodnot souboru Ukol1 je následující: >nrow(ukol1) [1] 474. Po provedení náhodného výběru byl počet řádků souboru 50, což bylo požadováno. Verfkace se provede znovu funkcí nrow( ) u souboru Vyber1 >nrow(vyber1) [1] 50. Pro zopakování náhodného výběru tak, aby měl stále stejné hodnoty, se využívá funkce set.seed( ). Mez závorky se napíše lbovolné číslo, které ukotví algortmus náhodného výběru. Funkce set.seed( ) musí být použta vždy před funkcí pro náhodný výběr Provedení náhodného výběru z hodnot jedné proměnné. Pro provedení náhodného výběru z jedné proměnné se znovu využívá funkce sample( ). Pouze za proměnou x se dosazuje proměnná, ze které je výběr vytvořen. Záps funkce v R má následně tento tvar: >Vybsalbegn = sample(ukol1$salbegn,100) kde Vybsalbegn je nový název datového souboru obsahující pouze výběr 100 hodnot z proměnné salbegn. Pro kontrolu je dobré s zobrazt rozsah proměnné po provedení výběru a porovnat to s požadovanou hodnotou. Rozsah hodnot u jedné proměnné se zobrazí využtím funkce length( ) >length(vybsalbegn) [1] 100.

30 Vytváření nového souboru dat Nový soubor dat je vytvářen pomocí funkce data.frame( ). Tento typ funkce je výhodný, pokud se pracuje s větším balíkem dat s více proměnným a cílem je analyzovat jen některá z nch. Příklad funkce v R a vytvoření nového datového souboru s názvem Novy, který bude obsahovat proměnné salary, salbegn a tender z datového souboru Ukol1. Záps funkce na vytvoření nového datového souboru s daným požadavky je následující: >Novy = data.frame(ukol1$salary,ukol1$salbegn,ukol1$gender) Pro úplnost zobrazení hlavčky a prvních 6 hodnot nového datového souboru pomocí funkce head( ): >head(novy) Ukol1.salary Ukol1.salbegn Ukol1.gender m m f f m m Přejmenovávání a vkládán nových proměnných Pro přejmenování proměnných v R jsou dvě možnost. První možností je změna jména proměnné pomocí funkce fx( ) a její následná úprava v tabulce. Druhou možností je nstalace a použtí balíčku reshape obsahujícího funkc rename( ). Postup je poté rozdělen do následujících kroků. Nejdříve se pomocí funkce lbrary( )aktvuje balíček reshape. >lbrary(reshape)

31 26 Poté lze přejmenovat názvy proměnných pomocí funkcí rename( ). Původní proměnné datového souboru Novy (Ukol1.salary, Ukol1.salbegn, Ukol1.gender) budou přejmenovány na nové (pnyní, pnazačátku, sex). Syntaxe v R je následující: >Novy=rename(Novy1,c(Ukol1.salary="pnyní",Ukol1.salbegn="pnazačát ku",ukol1.gender="sex")). Nyní se může pomocí funkce names( ) ověřt změnu názvů proměnných: >names(novy1) [1] "pnyní" "pnazačátku" "sex" Vkládání nové proměnné do souboru Vložt novou proměnou do souboru je snadno provedtelné za splnění podmínky, že bude nová proměnná stejného rozsahu jako stávající proměnné v původním souboru dat. Bude vytvořena nová proměnná rozdíl, která bude mít hodnotu rozdílu proměnných salary a salbegn z původního datového souboru Ukol1 a přdána do datového souboru Novy. Následující záps kódu lustruje přdání proměnné rozdíl do datového souboru Novy. > Novy1$rozdíl = Ukol1$salary - Ukol1$salbegn Funkcí head( ) se opět ověří přdání proměnné do souboru. >head(novy1) pnynípnazačátku sex rozdíl m m f f m m Proměnná rozdíl se nyní bude zobrazovat vždy v datovém souboru Novy.

32 27 Pokud je třeba nějakou proměnou odstrant stačí napsat příkaz, který odkazuje na tu proměnnou, kterou je třeba smazat a přřadt j hodnotu NULL. Syntaxe v R má tento tvar: >Novy$rozdl = NULL Nemalou výhodou práce s daty v programu R je, že jsou neustále k dspozc veškeré výběry základní soubor. Přejmenovávání je zde také trošku složtější, než je běžné u SPSS.

33 Popsná statstka a míry polohy a varablty v R V této část se práce zaměřuje na popsnou statstku, míry polohy a jejch výpočet v programu R. Bude se jednat o základní statstky, které jsou středem zájmu u kvanttatvní proměnné jako první. Jako data bude použt znovu soubor Emploee, obsahující proměnné salbegn a salary. Ukol1$salbegn je studovanou proměnnou obsahující číselné hodnoty o výš počátečních příjmů tázaných respondentů. Artmetcký průměr se tvoří pomocí funkce mean( ). V R se zapíše pro zvolenou proměnnou následovně: >mean(ukol1$salbegn) [1] Podobně se postupuje př hledání medánu užtím funkce medan ( ), kde se mez závorky zapíše studovaná proměnná. >medan (Ukol1$salbegn) [1] Pro výpočet hodnoty modu nemá R předdefnovanou funkc. Proto je nutné užít pomocných výpočtů. Je známé, že modus hledá nejčastěj vyskytovanou hodnotu, a tudíž se nejprve musí vytvořt tabulka absolutních četností hodnot pro zvolenou proměnnou tímto způsobem: > mod1 = table (as.vector(ukol1$salbegn)). Následně je třeba nalézt hodnotu s maxmální četností výskytu. Tento krok popsuje v R tento záps: >names(mod1)[mod1 == max(mod1)] [1] "15000". Maxmum a mnmum se vypíše po zadání funkcí max( ) a mn( ). Pro lustrac záps a výstup funkcí v R: >mn(ukol1$salbegn) [1] 9000 >max(ukol1$salbegn) [1]

34 29 Rozptyl studované proměnné se zjstí pomocí funkce var( ). >var(ukol1$salbegn) [1] Výpočet směrodatné odchylky je vyvolán pomocí funkce sd( ) nebo jako odmocnna z rozptylu. sd(ukol1$salbegn) [1] Kvantly lze zobrazt pomocí funkce qunatl (x,kolkátý kvantl je požadován). Jako příklad je zvoleno vypsání 75 procentního kvantlu u proměnné salbegn. >quantle (Ukol1$salbegn,0.75) 75% Pro řadu kvantlů je nutné využít příkaz, který upřesňuje, jaké kvantly je potřeba vypsat. Pro vyhledání například řady declů se využje funkce seq(mn,max,by), kde argument mn označuje počáteční hodnotu, max označuje konečnou hodnotu řady a argumentem by se nastavuje velkost jednotlvých úseků řady. Výsledný záps a výstup v R má tuto podobu: >quantle (Ukol1$salbegn,seq(0.1,0.9, by = 0.1)) 10% 20% 30% 40% 50% 60% 70% 80% 90% Mazkvartlové rozpětí se zobrazí po zadání funkce IQR( ) > IQR(Ukol1$salbegn) [1] Pro nalezení hodnot 3. a 4. momentové funkce, nebol koefcentu špčatost a škmost se musí využít balíček moments, který obsahuje mmo jné funkce pro výpočet špčatost a škmost. Balíček, pokud je nanstalovaný, se přpojí opět pomocí funkce lbrary( ). >lbrary(moments) Zobrazení koefcentu špčatost pomocí funkce kurtoss( ) se provádí v R následovně: >kurtoss(ukol1$salbegn) [1] a koefcent špčatost pomocí funkce skewness( )se provádí v R následovně: >skewness(ukol1$salbegn) [1]

35 Nejdůležtější dskrétní rozdělení a spojté rozdělení v R Tato kaptola se zaměří na nejdůležtější rozdělení a nalezení kvantlů, hodnot v určtém bodě a vytváření náhodných výběrů z rozsahu rozdělení. Dále se zaměří na pops vytváření funkcí a vysvětlení nejdůležtějších parametrů funkcí R. Pro každé rozdělení budou představeny funkce pro zjštění hustoty, hodnot dstrbuční funkce, generování náhodných hodnot s určtých rozdělení a hledání kvantlů hodnot z těchto rozdělení. První část se zaměří na hledání hodnot z dskrétních rozdělení a druhá část na hledání hodnot ze spojtých rozdělení. Více o rozděleních nabízí např. [5] Dskrétní rozdělení Mez nejdůležtější dskrétní rozdělení patří bnomcké rozdělení, Possonovo rozdělení, Lambda rozdělení, geometrcké a hypergeometrcké rozdělení. Bnomcké rozdělení Bnomcké rozdělení má náhodná velčna X udávající počet nastoupení sledovaného jevu v posloupnost n vzájemně nezávslých pokusech vz [5]. Funkce v R pro výpočet hodnot z bnomckého rozdělení jsou dbnom( ), pbnom( ) qbnom( ), rbnom( ). První písmena u funkcí se vážou k určtému typu konkrétní funkce. Tato vazba je stejná u všech rozdělení. Svázanost je znázorněna zeleně. Pro výpočet hustoty pravděpodobnost z bnomckého rozdělení se využívá funkce dbnom( ). Dále pro výpočet dstrbuční funkce z bnomckého rozdělení se využívá funkce pbnom( ). Pro zobrazení hodnot kvantlů bnomckého rozdělení se užívá qbnom( ). Pro vytvoření náhodného výběru z bnomckého rozdělení o určtém rozsahu se využívá funkce rbnom( ). Jako příklad je uveden výpočet pravděpodobnost, že př pět hodech kostkou padne právě jednou číslo 2. Argument sze určuje počet pokusů, prob poté určuje pravděpodobnost úspěchu. Výpočetní formule zapsovaná do R pro daný problém je ve tvaru: >dbnom(n=2,sze = 5, prob = 1/6) [1]

36 31 Pravděpodobnost, že př pět pokusech padne právě jednou číslo 2, je 16,7 %. Possonovo rozdělení Possonovo rozdělení se obvykle užívá k vyjádření pravděpodobnost počtu nastoupení sledovaného jevu v určtém časovém období. Funkce v R pro výpočet hodnot z Possonova rozdělení jsou dpos( ), ppos( ) qpos( ), rpos( ). Vazba prvních písmen na typ funkce v R je stejná jako u předchozího rozdělení. Určující argument pro tyto funkce je lambda. Lambda u tohoto rozdělení je rovna střední hodnotě hodnotě rozptylu. Pro příklad je uvedena stuace, kdy průměrně jeden výrobek koupí tř zákazníc za hodnu a otázka zní, jaká je pravděpodobnost, že výrobek koupí méně než tř ldé za hodnu. Výpočet pro zadaný příklad v R je následující: >ppos(2, lambda = 3) [1] Pravděpodobnost, že výrobek koupí méně než 3 zákazníc za hodnu, je 42,3 %. Hypergeometrcké rozdělení Funkce v R pro hypergeometrcké rozdělení jsou dhyper( ), phyper( ) qhyper ( ), rhyper ( ). Syntaxe pro volbu funkce je stejná jako u jž zmíněných rozdělení. Geometrcké rozdělení Geometrcké rozdělení je rozdělení náhodné velčny, které lze defnovat jako počet neúspěšných pokusů do prvního úspěšného. Funkce pro toto rozdělení jsou: dgeom( ), pgeom( ), qgeom ( ), rgeom ( ). Důležtým parametrem je prob udávající pravděpodobnost úspěchu Spojté rozdělení Mez nejdůležtější spojté rozdělení se řadí rozdělení normální, exponencální, studentovo a rozdělení chí-kvadrát. Spárování prvních písmen u funkcí je stejné jako u rozdělení dskrétních. Normální rozdělení Funkce pro normální rozdělení jsou dnorm( ), pnorm( ), qnorm( ), rnorm( ).

37 32 Důležté argumenty ovlvňující funkce jsou mean a sd. Není nutné tyto argumenty blíže specfkovat, je totž jasné, že značí střední hodnotu a směrodatnou odchylku. Pro příklad bude představena tvorba náhodného výběru z normovaného normálního rozdělení o rozsahu Výstup bude zobrazovat hstogram na obrázku 3.2. >rnorm(1000,mean = 0, sd = 1) Obrázek 3.2 hstogram náhodného výběru z normovaného normálního rozdělení Zdroj vlastní výstup z R Exponencální rozdělení Exponencální rozdělení je vhodným modelem pro popsání doby čekání do výskytu určtého jevu. Funkce v R pro exponencální rozdělení jsou dexp ( ), pexp ( ),qexp ( ), rexp ( ). Studentovo rozdělení (t- rozdělení) Jde o důležté rozdělení př testovaní statstckých hypotéz. Funkce pro výpočet hodnot ze studentova rozdělení jsou dt( ), pt( ), qt( ), rt( ). Pro příklad ukázka výpočtu devadesát pět procentního kvantlu z t rozdělení o 10 stupních volnost: >qt(0.95,df =10) [1]

38 33 Chí-kvadrát rozdělení Chí kvadrát rozdělení je vhodné pro testování, zda množna hodnot odpovídá určté dstrbuční funkc. Funkce v R pro zmíněné rozdělení jsou dchsq( ), pchsq( ), qchsq( ), rchscq( ). Devadesát devít procentní kvantl z rozdělení chí-kvadrát s deset stupn volnost bude v R zobrazen takto: >qchsq(0.99,10) [1] Testy na normaltu v R Tato kaptola bude zaměřena na test na normaltu, která je důležtou podmínkou pro další statstcké analýzy z důvodu aplkace některých dalších testů, jako je například t-test. Budou zde představeny funkce, které se využívají ke konstrukc testů na normaltu v R, konkrétně Kolmogorov-Smrnovův test, Shapro-Wlkův test, Jarque Berův test a D'Agostnho test. Pro ukázku budou využta data o počtu získaných bodů z maturtní práce ve třech výukových skupnách. Tyto skupny jsou pojmenovány z1, z2, z3. Vytvoření proměnných se provádí následovně: > z1 = c(27,27,27,28,30,31) > z2 = c(21,20,19,20,18,21) > z3 = c(36,38,34,35,33,32). V dalším kroku je potřeba data sloučt do jedné proměnné. V tomto případě do proměnné z. Tento krok není úplně nezbytný, ale zjednodušuje následující záps funkcí na testování normalty: > z = c(z1,z2,z3). Aplkace testů na normaltu Data z proměnné z budou podrobeny jednotlvým testům pro potvrzení normalty vzorku.

39 Shapro-Wlkův test Vyvolání S-W testu na normaltu pro otestování hodnot obsažené v proměnné z se provádí v R pomocí funkce shapro.test( ), >shapro.test(z) Shapro-Wlk normalty test data: z W = , p-value = Výstupem je testovaná hodnota W a p-value o významnost testu. Testem je potvrzeno, že data mají přblžně normální rozdělení na deset procentní hladně významnost Kolmogorov-Smrnovův test Testována budou data z proměnné z. Ke konstrukc Kolmogorov-Smrnova testu se využívá funkce v R llle.test( ). Syntaxe pro tento test je následující: >llle.test (z) Lllefors (Kolmogorov-Smrnov) normalty test data: z D = , p-value = Výstup K S testu na normaltu obsahuje název testu, hodnotu D testové statstky a p-value hodnotu o nezamítnutí hypotézy H 0. Pro tento test je nutné s stáhnout a aktvovat balíček funkcí nortest nebo nějaký jný balíček obsahující zmíněnou funkc Jarque Berův test Pro aplkac Jarque Berova testu na normaltu se využívá funkce jarque.bera.test( ). Zmíněnému testu na normaltu budou podrobeny znovu hodnoty obsažené v proměnné z. Záps funkce v R je následující: >jarque.bera.test(z) Jarque Bera Test data: z X-squared = , df = 2, p-value = Jarque Berův test má ve výstupu testovou hodnotu chí kvadrát, počet stupňů volnost df a hodnotu p-value. Pro tento test je třeba s stáhnout a mít aktvní balíček tseres. Tento

40 35 test nezamítá hypotézu H 0 o normaltě rozdělení proměnné z na padesát procentní hladně významnost D'Agostnho test na normaltu D'Agostnho test nelze použít pro hodnoty proměnné z z důvodu nedostatečného rozsahu vzorku, proto budou použta jná obsáhlejší data. Nová data pro demonstrac tohoto testu obsahuje proměnná c. Hodnoty proměnné c jsou náhodně vygenerované hodnoty z normálního rozdělení se střední hodnotou 0 a směrodatnou odchylkou 1, což se provádí pomocí funkce rnorm( ). Zmíněný náhodný výběr o rozsahu 100 z normálního rozdělení se vytvoří následovně: > c = rnorm(100). Vstup a výstup př aplkování D Agostnho testu na normaltu v R je: >dagotest(c) Ttle: D'Agostno Normalty Test Test Results: STATISTIC: Ch2 Omnbus: Z3 Skewness: Z4 Kurtoss: P VALUE: Omnbus Test: Skewness Test: Kurtoss Test: Tento test byl zkoušen na vygenerovaných hodnotách z normálního rozdělení, jelkož hodnoty použté v předchozích testech nebyly dostatečné svým rozsahem. Je nutné, aby testovaná proměnná obsahovala alespoň 20 pozorování. Pro tento test musí být aktvní balíček fbascs, který obsahuje všechny tř výše zmíněné testy, jen s jnou syntaxí do R. Testování normalty vzorku má ve své podstatě podobný způsob úpravy dat testovaného vzorku, jako je běžné v SPSS. Ncméně výsledná tabulka je přehlednější.

41 Testování hypotéz v R Tato kaptola bude pojednávat o parametrckých neparametrckých testech o populační střední hodnotě a π alternatvního rozdělení a jejch aplkace v prostředí R. V následujících testech budou jednotlvé parametry zadávány různě v závslost na zvolených hypotézách. Důležté argumenty u funkcí testů jsou alternatve a conf.level. Argument alternatve nastavuje typ testovaného ntervalu. Pokud se jedná o jednostranný, tak by nabýval hodnot greater nebo less. V případě oboustranného jej není nutné zadávat, protože je tak nastavený v základu. Argument conf.level nastavuje hladnu významnost testu Parametrcké testy o střední hodnotě Následující podkaptola předvede možnost testování hypotéz o střední hodnotě pomocí t testu a F testu pro porovnávání více populací. Pro každý test bude v úvodu stanovená testovaná hypotéza, ze které bude vycházet úprava parametrů. t test se zadanou testovací hodnotou První ukázka předvádí použtí funkce t.test( ), pro řešení následující hypotézy. Předpokládá se, že hodnoty z proměnné a mají přblžně normální rozdělení, a též že data byla vybrána pomocí náhodného výběru. Testované hypotézy: H 0 : =8 H 1 :µ 1 >µ Tvorba datového vektoru proměnné a v R vypadá takto: >a = c(7.8,7.9,7.8,8,7.8,8.5,8.2,8.2,9.3) Hodnota argumentu alternatve bude ve tvaru greater, protože argument odpovídá alternatvní hypotéze. Argument mu zadává porovnávací hodnotu.vstupující funkce bude mít následující tvar:

42 37 >t.test(a,mu = 8,alternatve = "greater") One Sample t-test data: a t = 1.026, df = 8, p-value = alternatvehypothess: truemeansgreaterthan 8 95 percentconfdence nterval: Inf sample estmates: meanof x Výstup je popsán podrobně včetně alternatvní hypotézy, výsledku testované hodnoty t, počtu stupňů volnost df a p-value hodnoty hladny významnost o výsledku testu. Ve výstupu je zahrnut nterval spolehlvost 95 percentconfdence nterval pro parametr. Výstup je uzavřen průměrem hodnot a. Test v tomto případě nepotvrdl významnou odlšnost střední hodnoty vzorku od testované (referenční), dříve získané hodnoty 8. t test pro porovnávání středních hodnot ve dvou nezávslých vzorcích populace Tento test bude porovnávat průměrné teploty ve dvou letovscích. Naměřené teploty zahrnují proměnné b a b1. Testované hypotézy: H 0 :µ 1 = µ 2 H 1 : µ 1 µ 2 Hodnoty obou nezávslých pozorování mají přblžně normální rozdělení. V R se tyto vektory hodnot proměnných zapíší následovně: >b=c(47.2,48.5,43.2,46.9,47.3,45.5,45.9,47.6,46,46.2,46.1,47.9,48.2,4 6.4,48.5,49.10,46.4,44.8,41.7,44.8,46.4) >b1=c(46.4,48.5,43.1,46.5,47.8,44.9,46.1,47.7,45.6,46.2,45.9, 47.9,46.1,47.2,47.7,47.5,48.9,49.7,45.7,46.1,43.9,42.3,44.7,45.7). Jelkož je požadován oboustranný test s hladnou významnost 10 procent, musí dojít k přenastavení hodnoty parametru conf.level a nastavením argumentu alternatve se nastaví typ alternatvní hypotézy H 1.Záps a výstup v R s přenastaveným argumenty je následující:

43 38 >t.test(b,b1,alternatve = "two.sded",conf.level = 0.9) WelchTwo Sample t-test data: b and b1 t = , df = , p-value = alternatvehypothess: truedfference n meanss not equal to 0 90 percentconfdence nterval: sample estmates: meanof x meanof y Na základě testu není zamítnuta hypotéza H 0 o shodě středních hodnot dvou nezávslých výběrů na hladně významnost deset procent. Párový t- test Párovým t-testem se ověřuje, zda se měření ve dvou časových ntervalech na jednom vzorku populace výrazně lší. Vzorek pro tento test je populace o dvacet subjektech odpovídajících na určté otázky před a měsíc po přednášce. Testem se tedy ověřuje, zda přednáška přnesla vědomostní posun v určté oblast. Testované hypotézy: H 0 : µ 0 = µ 1 H 1 : non H 0 Data pro párový t-test obsahují proměnné d1 a d2. Jejch zapsání do R je následující: >d1=c(10,11,10,12,11,10,9,11,9,8,11,9,11,10,11,10,9,12,11,10) >d2=c(16,17,17,17,19,17,16,15,19,19,19,19,18,17,16,15,15,15,17,18) Pro párový t-test musí být nastaven argument pared jako TRUE. Požadovaná hladna významnost je pět procent. Záps a výstup pro daný test v R je následující: >t.test(d1,d2,pared = T) Pared t-test data: d1 and d2 t = , df = 19, p-value = 4.974e-12 alternatvehypothess: truedfference n meanss not equal to 0 95 percentconfdence nterval: sample estmates: meanofthedfferences -6.8

44 39 Na hladně významnost pět procent byl zjštěn významný nárůst hodnot u studovaného subjektu v rámc dvou měření ve dvou dskrétních časových úsecích. Z testu tedy vyplývá, že po měsíc mají tázaní respondent v pamět nformace z přednášky. Více nezávslých výběrů V této kaptole bude předvedeno, jak postupovat př aplkac F testu v R. Tento test potřebuje určtou úpravu dat. Nejdříve musí být vytvořena tabulka, kde v jednom sloupc budou hodnoty proměnných a ve druhém sloupc skupny, do kterých spadají. (pozn.: V podstatě shodně jako př prác v SPSS). Testované skupny obsahují proměnné e1, e2 a e3 : > e1 = c(21,20,19,20,18,21) > e3 = c(36,38,34,35,33,32) > e2 = c(27,27,27,28,30,31) Pro další pokračování je důležté sloučení hodnot do jedné proměnné. > e= c(e1,e2,e3) V dalším kroku je potřeba vytvořt datovou tabulku, kde první sloupec obsahuje skupny a druhý sloupec hodnoty proměnných e1, e2 a e3 : >data1=data.frame(e,group=factor(rep(rep(1:3,rep(6,3)),1))) Argument funkce group vytvoří skupny, kde část rep(6,3)nastaví počet hodnot ve skupně na hodnotu 6 a celkový počet skupn na hodnotu 3, dále část rep(1:3) upravuje kódování skupn a následně jednčka na konc závorky určuje celkový počet opakování cyklu. (Např. kdyby byla místo jednčky nastavena hodnota dvě, pokračoval by tento řetězec hodnot ještě jednou od začátku). K výpočtu anova testu se používá funkce lm( ), kde se mez závorky nastaví vektor hodnot, v tomto případě e, a vektor skupn, v tomto případě group, kde group je vektorem vah pro proměnnou e. Dále je potřeba zadat název datové tabulky data1. Hypotézy pro tento případ jsou: H 0 : µ 1 =µ 2 = = µ n H 1 : non H 0 (alespoň jedno µ je odlšné).

45 40 Záps a výstup v R vypadá takto: >anova(lm(e~group,data= data1)) Analyssof Varance Table Response: e Df Sum SqMeanSq F valuepr(>f) group e-09 *** Resduals Sgnf. codes: 0 *** ** 0.01 * Podle p-value hodnoty je patrné, že hypotéza H 0 o shodě středních hodnot u jednotlvých skupn musí být zamítnuta na základě výsledků provedeného F testu. Výstup z Anova se významně nelší od výstupu jných statstckých programů. Pro zjštění, zda a které skupny jsou významně rozdílné, se používá Tukeyův test. Tukeyův test Funkce pro Tukeyův test TukeyHSD( ). Záps a výstup Tukeyova testu se v R provádí následujícím předpsem: >TukeyHSD(aov(formula = e~group, data = data1)) Tukeymultplecomparsonsofmeans 95% famly-wseconfdencelevel Ft: aov(formula = e ~ group, data = data1) $groupdff lwr upr p adj e e e-05 Výstupy blízké k nule u hodnot ve sloupc p adj potvrdl významný rozdíl mez všem skupnam.

46 Neparametrcké testy o střední hodnotě: Pro ukázku neparametrckých testů o střední hodnotě budou využty data z testů parametrckých, ncméně bude teoretcky předpokládáno narušení nějaké podmínky pro použtí parametrckého testu. Výstupem je vždy výsledná hodnota testu, p-value hodnota hladny významnost testu a pops alternatvní hypotézy. Mann-Whtneyův test Tento test lze považovat za alternatvu k t-testu. V prostředí R se vytváří pomocí funkce wlcox.test( ).Jako data pro test budou opět použty hodnoty proměnných b a b1. Pokud je parametr correct nastaven jako TRUE, je u testu použta aproxmace normalty. Hypotézy pro případ tohoto testu: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 >wlcox.test(b,b1, correct = F) Wlcoxon rank sum test data: b and b1 W = 307, p-value = alternatvehypothess: truelocaton shft s not equal to 0 Výstup obsahuje záps o testovaných datech, výslednou hodnotu Mann-Whtneyova testu W, p-value hodnotu hladny významnost nezamítnutí H 0 a znění alternatvní hypotézy H 1. Zde na hladně významnost 69,49 procent není zamítnuta hypotéza H 0. Wlcoxův párový test Neparametrcká alternatva párového t-testu, která se vytváří znovu pomocí funkce wlcox.test( ). Jako data pro test jsou použty hodnoty proměnných d1 a d2. Wlcoxův párový test musí obsahovat parametr pared = TRUE, aby se jednalo o párový test.

47 42 Hypotézy pro tento případ jsou: H 0 : µ 0 = µ 1 H 1 : non H 0 Záps pro výpočet párového Wlcoxova testu je v R následující >wlcox.test(d1,d2, correct = F,alternatve = "greater", pared = T) Wlcoxonsgned rank test data: d1 and d2 V = 0, p-value = 1 alternatvehypothess: truelocaton shft sgreaterthan 0 Výstup obsahuje znovu výps testovaných proměnných, výslednou hodnotu Wlcoxova testu V,p-value hodnotu hladny významnost nezamítnutí H 0 a znění alternatvní hypotézy H 1. Zde na stoprocentní hladně významnost není zamítnuta hypotéza H 0. Kruskal Wallsův test Kruskal Wallsův test lze brát jako neparametrckou alternatvu Anovy. Pro tento test je použt datový soubor data1. V prostředí R se tento test zapsuje pomocí funkce kruskal.test ( ) Hypotézy pro tento případ jsou: H 0 : µ 1 =µ 2 = = µ n H 1 : non H 0 (alespoň jedno µ je odlšné). >kruskal.test(data1) Kruskal-Walls rank sum test data: data1 Kruskal-Wallsch-squared = , df = 1, p-value = 2.437e-07 Kruskal-Wallsův test využívá testovací hodnotu chí kvadrát. Dále výstup obsahuje počet stupňů volnost df a p-value hodnotu hladny významnost nezamítnutí H 0. Zde je hypotéza H 0 zamítnuta a přjata alternatva H 1

48 Testy o populační relatvní četnost Test o parametru π alternatvního rozdělení Hypotézy pro tento test mají tvar H 0 : π = π 0, alternatvní hypotéza H 1 pokrývá všechny ostatní možné nerovnost parametrů π a π 0. Funkce v R využívaná pro testování zmíněné hypotézy je prop.test( ). Důležté argumenty pro tuto funkc jsou argument p, alternatve, conf.level a correct. Argument p je roven testované hodnotě π 0. Argument alternatve upravuje typ alternatvní hypotézy, ve smyslu, že se jedná o jednostranný nebo oboustranný typ. Conf.level upravuje hladnu významnost testu. Argument correct nastavuje možnou aproxmac alternatvního rozdělení rozdělením normálním. Na příkladech bude předvedena syntaxe v R př využtí testů o populační relatvní četnost. Nyní bude proveden test na smyšleném vzorku 272 aut, která projela kolem slnčního radaru, z nchž 68 nezpomallo. Bude testováno, zda aut, která nezpomalí, bude méně než 30 procent. Hypotézy pro případ tohoto testu: H 0 : π= π 0 H 1 : π< π 0 Záps v R pro tento případ je: >prop.test(68,272,p = 0.3,alternatve ="less", conf.level = 0.95, correct = F) 1-sampleproportons test wthoutcontnutycorrecton data: 68 outof 272, null probablty 0.3 X-squared = , df = 1, p-value = alternatvehypothess: true p slessthan percentconfdence nterval: sample estmates: p 0.25 Výstupem je hodnota chí kvadrát, p value hodnota hladny významnost o nezamítnutí H 0, nterval spolehlvost pro parametr π a znění alternatvní hypotézy.

49 44 Zde test zamítá hypotézu H 0, že nezpomalí třcet procent aut, a přjímá alternatvní hypotézu, že jch nezpomalí méně než třcet procent na pět procentní hladně významnost. Test o rovnost parametrů dvou alternatvních rozdělení Hypotéza pro tento test má tvar H 0 : π 1 = π 2 oprot možným alternatvám H 1 o nerovnost parametrů π. K tomuto testu se využívá funkce prop.test( ) se stejným parametry jako předchozí test, lšící se pouze zápsem syntaxe v R. Testováno je, zda dobrovolné vstupné zaplatl stejný podíl návštěvníků hradu v březnu v dubnu. V březnu zaplatlo dobrovolné vstupné 310 ze 756 návštěvníků, v dubnu 718 z 1420 návštěvníků. Otázkou je, zda zaplatlo v obou případech stejné procento návštěvníků. Hypotézy pro tento test jsou: H 0 : π 1 = π 2 H 1 : π 1 π 2. Záps tohoto testu v R má podobu: >prop.test(c(310,718),c(756,1420),conf.level = 0.90,alternatve = "two.sded") 2-sample test forequaltyofproportonswthcontnutycorrecton data: c(310, 718) outof c(756, 1420) X-squared = , df = 1, p-value = 2.584e-05 alternatvehypothess: two.sded 90 percentconfdence nterval: sample estmates: prop 1 prop Výstup je podobný jako u předchozího případu. Tentokrát však nebyla neprovedena úprava argumentu correct.

50 45 Na základě výstupů lze zamítnout hypotézu H 0 o procentní shodě počtu návštěvníků platících dobrovolné vstupné v měsících březnu a dubnu na deset procentní hladně významnost. Testování hypotéz je mnohem přehlednější a snadnější než nabízí možnost SPSS. Vždy je napsána ve výstupu alternatvní hypotéza. Program R navíc přímo odlšuje jednostranné a oboustranné typy hypotéz.

51 Regresní analýza v R Tato kaptola bude zaměřena na jednorozměrnou a vícerozměrnou regresní analýzu v programu R, odhady, významnost jednotlvých parametrů a grafcké znázornění výstupů. Pro všechny grafy je nutné mít aktvní balíček car Lneární regresní analýza Pro ukázku výpočtu regresního modelu v prostředí R byly vybrány data o výš stávajících příjmů ( salnow ) a data o výš počátečních příjmů ( salbeg ). Je zkoumána závslost současných příjmů na počátečný příjem u vybraného vzorku respondentů. Funkce závslost se zadává pomocí příkazu lm( ). Mez závorky se zapsuje vztah závslost pomocí vlnovky ve tvaru lm(y~x, data = název zdrojového datového souboru zkoumaných proměnných). Celý model je nutné pojmenovat, například reg1. Konečný záps v R je: > reg1 = lm(salnow~salbeg,data = banka). V dalším kroku se celkový test vyvolá pomocí funkce summary( ): >summary(reg1) Call: lm(formula = salnow ~ salbeg, data = banka) Resduals: Mn 1Q Medan 3Q Max Coeffcents: EstmateStd. Error t valuepr(> t ) (Intercept) * salbeg <2e-16 *** --- Sgnf. codes: 0 *** ** 0.01 * Resdual standard error: 3246 on 472 degreesoffreedom Multple R-squared: , Adjusted R-squared: F-statstc: 1622 on 1 and 472 DF, p-value: < 2.2e-16. Ve výstupu jsou vypsány momentové a popsné statstky rezduí a hodnoty jednotlvých parametrů regresního modelu. Test významnost parametrů zde grafcky sgnalzují hvězdčky. Dále jsou zde zobrazeny hodnoty a vyrovnaného (adjustovaného). Celá tabulka je uzavřená F testem modelu, který potvrzuje významnost modelu jako celku. Regresní přímka modelu závslost počátečních příjmů na součastných příjmech by byla v tomto případě ve tvaru Y= X.

52 47 Pro vyvolání zobrazení pouze samostatných odhadů regresních koefcentů se využívá funkce coef( ), jež se zadá v R a výsledek zobrazí následovně: >coef(reg1) (Intercept) salbeg Je-l třeba zjstt nterval spolehlvost pro odhady parametrů regresního modelu, je k tomu využívána funkce confnt( ). Do závorek se zapsuje pojmenování regresního modelu. Vstup a výstup na pětprocentní hladně významnost analyzovaného příkladu v R je: >confnt(reg1) 2.5 % 97.5 % (Intercept) salbeg Graf závslostí Pro náhled rozložení hodnot kolem přímky regresního modelu se postupuje v následujících krocích. Nejprve se pomocí funkce plot( ) vykreslí hodnoty zkoumaných proměnných: >plot(salnow~salbeg, data = banka, man = "lnearnregresn model"), Ve druhém kroku se do tohoto grafu vloží regresní přímka použtím funkce ablne( ), kde se mez závorky vloží dříve zvolené pojmenování regresního modelu (v tomto případě reg1). Následující argument col upraví barvu a pch sílu přímky. >ablne(reg1,col = "blue",pch = 1) Konečnou podobu grafu znázorňuje obrázek 3.1.

53 salnow Graf 3.1. Graf závslostí v R lnearn regresn model salbeg Zdroj - Výstup z R Další možností, jak s nechat tento graf vykreslt, je použtí funkce avplot( ). Tato funkce vykreslí stejný graf jako je na obrázku 3.8.1, navíc ale obsahuje argument, který zobrazí v grafu nejodlehlejší hodnoty proměnných od regresní přímky. Argument který nastavuje počet zobrazených odlehlých hodnot se nazývá d.n. Argumentem d.cex se nastavuje velkost písma u zobrazeného bodu odlehlé hodnoty proměnné. Pomocí této funkce se vykreslí stejný graf jako předchozí a navíc se zobrazí nejodlehlejší hodnoty od regresní křvky. Následující záps v R vykreslí graf a vypíše počet odlehlých hodnot v grafu. >avplots(reg1, d.n=2, d.cex=0.7) Výstup lustruje obrázek 3.2.

54 salnow others Graf 3.2. Avplot v R salbeg others Zdroj - Výstup z R Q-Q graf v R Podle tvaru Q-Q grafu se dá posoudt symetre, normalta, špčatost a homogenta výběru. Hlavní využtí nachází v posouzení normalty datového souboru. Pro zobrazení Q-Q grafu se využívá funkce qqplot( ). V tomto ukázkovém příkladu se nechá vykreslt Q-Q graf pro hodnoty rezduí z modelu reg1. Záps vstupu pro tento požadavek je ve tvaru: >qqplot(reg1). Následný graf zobrazuje graf 3.3.

55 50 Graf 3.3 QQ plot Zdroj - Výstup z R Bonferronho test o odlehlých pozorováních Tento test odhalí nejodlehlejší hodnoty pozorování v modelu a označí je. Poté vypíše řádek ze základního datového souboru, kde se nacházejí. Vyvolá se pomocí funkce outlertest( ). Tento test na základě upraveného t-testu rozhoduje, jestl je významná odchylka nejodlehlejších hodnot od normálního rozdělení. Syntaxe v R a výstup je: >outlertest(reg1) rstudentunadjusted p-valuebonferonn p e e e e e e e e e e-02. Takřka nulová hodnota phodnota jak u klasckého t-testu, tak u Bonfernnho testu v posledním sloupc tabulky značí, že jde o odlehlou hodnotu.

56 51 Nelneární regresní modely Pokud by se jednalo o nelneární regres, mění se v R jen záps regresního modelu, jnak je postup stejný. Příklady zápsu dalších nelneárních funkcí v R: Logartmcký model > reg3 = lm(log(y) ~ log(x)) Polynomcký model > reg4 = y ~ poly(x,2,raw = T) Vícerozměrná regresní analýza Pro další analýzy bude použtá nejjednodušší varanta vícerozměrného regresního modelu se dvěma vysvětlujícím proměnným. Syntaxe v R je stejná jako u jednorozměrné regresní analýzy, jen je doplněn obecně funkční záps matematckých vztahů mez proměnným, jako obecný záps modelu. Bude ukázáno, jakým způsobem se zadává vstup pro více vysvětlovaných proměnných v R, kde je zkoumána závslost proměnných salnow na proměnných salbeg a edlevel. Název modelu pro další analýzy bude pojmenován reg2. > reg2 = lm(salnow ~ salbeg + edlevel, data = banka) Tímto je zapsán požadavek na model a celkový výstup analýzy se vyvolá příkazem: summary (zvolené pojmenování modelu)

57 52 >summary(reg2) Call: lm(formula = salnow ~ salbeg + edlevel, data = banka) Resduals: Mn 1Q Medan 3Q Max Coeffcents: EstmateStd. Error t valuepr(> t ) (Intercept) e e e-05 *** salbeg 1.673e e < 2e-16 *** edlevel 4.082e e e-10 *** --- Sgnf. codes: 0 *** ** 0.01 * Resdual standard error: 3119 on 471 degreesoffreedom Multple R-squared: , Adjusted R-squared: F-statstc: on 2 and 471 DF, p-value: < 2.2e-16 Ve výstupu jsou vypsány momentové a popsné statstky rezduí, hodnota jednotlvých parametrů regresního modelu a test jejch významnost, zde opět sgnalzované jak pomocí hvězdček, tak p-value hodnotou. Dále jsou zde zobrazeny hodnoty a vyrovnaného (adjustovaného). Celá tabulka je uzavřená F testem modelu, který potvrzuje významnost modelu jako celku. Výsledný tvar modelu tak bude: Y = *X ,2 *X 2, kde Y je hodnota současných příjmů, X 1 je hodnota počátečních příjmů, X 2 je věk respondenta. Test na heteroskedastctu Jelkož se jedná o průřezová data, je dobré s udělat test na heteroskedastctu, která je jednou z podmínek pro metodu nejmenších čtverců. Funkce pro tento test se nazývá ncvtest( ). Záps vstupu do R pro případ regresního modelu označeného jako reg2 je: >ncvtest(reg2) Non-constant Varance Score Test Varance formula: ~ ftted.values Chsquare = Df = 1 p = e-55 Testovým rozdělením je chí kvadrát, výstup obsahuje stupně volnost df a phodnotu hladny významnost pro zamítnutí hypotézy o homoskedastctě vzorku. Téměř nulová hodnota p značí zamítnutí hypotézy o homoskedastctě vzorku.

58 53 3D Graf pro hodnoty proměnných se vytváří pomocí funkce scatter3d( ). Výstupem je trojrozměrný graf, kde osy značí jednotlvé proměnné a hodnoty pozorování u jednotlvých proměnných jsou zobrazeny jako kulčky. Pokud je tento graf zobrazován v R, lze s ním lbovolně otáčet. Pro lustrační účely je vytvořena fotka (obrázek 3.4.). Funkce, kterou je graf vyvolán, se zapsuje do hlavní konzole v R v tomto tvaru: >scatter3d(salnow ~salbeg + edlevel, data =banka,col="red", pont.col = "red"). Obráze D bodový graf závslostí Zdroj - Výstup z R

59 54 Scatter plot pro vícerozměrnou regresní analýzu Vykreslení matcového scatter plotu se vytvoří příkazem scatterplotmatrx( ). Na hlavní dagonále jsou vykresleny hustoty rozdělení u vybraných proměnných v modelu. Změnou argumentu dagonal=c(" ") lze nastavt, aby byl na dagonále zobrazen například hstogram, boxplot nebo Q-Q graf. V lustračním případě je požadováno vykreslení grafů závslostí mez jednotlvým proměnným (grafy mmo dagonálu) a hstogramů jednotlvých proměnných, jž zkoumaných v regresním modelu z úvodu kaptoly o vícerozměrné regres. Záps v R je pro tento graf specfcký a má podobu: >scatterplotmatrx(~salnow + salbeg + edlevel, data = banka, dagonal=c( "densty")) Výstup se poté zobrazí přes celou obrazovku v R v tomto vzhledu: Graf 3.5. Matcový scatter plot Zdroj - Výstup z R

60 55 3D graf s vykreslením regresní rovny 3D scaterplot zobrazuje vzdálenost rovny regresního modelu od hodnot proměnných. Vyvolá se pomocí funkce scatter3d( ) a úpravou argumentu surface = T. V prostředí R lze s grafem lbovolně otáčet (lustrační graf je pouze jednou z možností z mnoha pohledů). Záps vstupu do R pro vykreslení výsledného grafu (graf 3.6.) je: >scatter3d(salnow ~ salbeg + edlevel, data = banka,surface = TRUE,col = "red",pont.col = "red"). Graf 3.6 3D plot s vykreslenou funkcí regresního modelu Zdroj - Výstup z R. Vzdálenost mez (regresní) rovnou a napozorovaným hodnotam je symbolzována úsečkam (tj. rozdíl mez naměřeným a vyrovnaným hodnotam). Úsečky nad rovnou mají zelenou barvu, pod rovnou červenou barvu.

61 Frequency Grafka v R Následující kaptola se zaměří na problematku tvorby grafckých výstupů v programu R. Také bude vysvětlen postup zápsu funkce do R a nejdůležtější argumenty u jednotlvých funkcí, které výrazně mnění výslednou podobu grafu Hstogram v R Ve své základní formě je tvorba grafu nenáročná. Základní funkce má název hst( ). Jelkož hstogram se využívá k zobrazení hodnot u spojté proměnné, užje se proměnná salary z původního datového souboru employee. Proměnná salary obsahuje hodnoty o výš platů tázaného výběru respondentů. Př načítání datového souboru emploee byl jž dříve zvolen název Ukol1 (vz kap. Načítání dat). Následující záps vstupu do R odpovídá požadavku na vytvoření hstogramu ze zvolené proměnné ve své základní podobě a graf 3.7 zobrazuje následný výstup. >hst(ukol1$salary) Graf 3.7 Úvodní hstogram Hstogram of Ukol1$salary Ukol1$salary Zdroj - Výstup z R

62 57 Základní graf lze chápat spíše jako náhled. Například osy x a y obvykle an nepokrývají celý rozsah grafu. Graf neobsahuje ttulek a popsky os jsou v základní formě. Další krok se tedy zaměří na změnu názvu jednotlvých os, přdání ttulku grafu a změnu barev výplně ohrančení sloupců. Funkce s argumenty, které upravují výsledný výstup, bude ve tvaru hst(x, xlm, ylm, xlab, ylab, man, col, border). Argument x zastupuje studovanou proměnou. Pomocí argumentů xlm a ylm se nastavuje rozsah zobrazení os. Argumenty xlab a ylab umožňují přepsání názvu os. Man je argument přdávající do grafu nadps. Poslední dva zmíněné argumenty col a border nastavují barvy výplní, col nastavuje barvu výplně sloupců a border barvu ohrančení sloupců. Následující záps demonstruje úpravu argumentů a graf 3.8. výstup: >hst(ukol1$salary,ylab = "četnost",xlab = "platy",ylm = c(0,250),xlm=c(0,160000),man = "HISTOGRAM - 1.ÚPRAVA ",col = "blue", border = "red" ) Graf 3.8 první úprava HISTOGRAM - 1.ÚPRAVA četnost platy Zdroj vlastní výstup z R

63 58 Ve druhém kroku bude předvedeno, jakým způsobem lze přdávat popsky nad jednotlvé sloupce a jak lze nastavt rozměry jednotlvých sloupců. Argument, který přdá popsky četností nad jednotlvé sloupce, má název lables. Popsky se nad jednotlvé sloupce přdají zadáním argumentu labels do vstupující funkce hst( ) ve tvaru labels = T. Nastavení šíře sloupců upravuje argument breaks. Nejjednodušším způsobem jak nastavt šíř sloupců je nastavt pevnou hodnotu o počtu sloupců např. nastavením argumentu ve tvaru breaks = c(50). Tím se zajstí, že výsledný hstogram bude mít 50 sloupců. Dalším způsobem je použtí jedno z pravdel popsaných v teoretcké část. Např. použtí Freedman-Daconsova pravdla se zajstí nastavení argumentu breaks ve tvaru breaks = FD. Konečný vstup do R s přdáním nastavených argumentu labels a breaks je: >hst(ukol1$salary,ylab = "četnost",xlab = "platy",ylm = c(0,250),xlm=c(0,160000),man = "HISTOGRAM - 2.ÚPRAVA ",col = "blue",border = "red", labels =T,breaks = "FD" ). Graf 3.9. druhá úprava 250 HISTOGRAM - 2.ÚPRAVA četnos t platy Zdroj vlastní výstup z R

64 Výsečový graf v R Výsečový graf zobrazuje zastoupení jednotlvých kategorí ve výběru. Pro ukázku tvorby zmíněného grafu v prostředí R byly vybrány počty hlasů parlamentních stran ve volbách Proměnná je pojmenovaná VOLBY. Funkce pro vytváření výsečového grafu má název pe( ). Základní požadavek na vytvoření grafu z hodnot proměnné volby je tedy: >pe(volby) Graf základní výsečový graf Zdroj vlastní výstup z R Graf je v této podobě spíše náhledem na zastoupení kategorí, neobsahuje žádné popsky, v základním nastavení se an njak nerozlšuje barevné schéma pro výseče. V následujících krocích bude představena úprava grafu v prostředí R. V prvním kroku bude přdán název grafu argumentem man. Dále budou přdány popsky k jednotlvým výsečím za využtí argumentu labels a nastavení barevného schématu argumentem col. Názvy stran obsahuje proměnná STRANY a barevné schéma vytvořené pro jednotlvé výseče proměnná barva * >STRANY = c("cssd","kscm","top09","ods","ano2011","usvit","kducsl") >barva=c("orange","red","bluevolet","blue","sprnggreen","cyan", "gold").

65 60 Záps s daným požadavky na změny konečného výstupu je: >pe(volby, labels = STRANY, col =barva,man = "VOLBY 2013") Graf výsečový graf 1. úpravy VOLBY 2013 KSCM CSSD TOP09 KDUCSL ODS USVIT ANO2011 Zdroj vlastní výstup z R Zvláštností výsečového grafu vytvořeného v R je, že výseče začínají na třetí hodně a jsou řazeny prot směru hodnových ručček. Argument, který změní začátek na dvanáct hodn a otočí rotac, je clockwse, který se přpíše do funkce ve tvaru clockwse= T. Tento typ grafu je velm často doprovázen legendou a u výsečí se objevují hodnoty v procentech. Vektor převádějící absolutní hodnoty u jednotlvých kategorí na procenta se vytvoří ve dvou následujících fázích, stejně jako přdání znaku procenta. V první fáz se vypíše vektor podílů bodů jednotlvých hráčů na celkovém počtu bodů. Ve druhém kroku se funkcí paste( ) pro přdají znaky procent. Záps požadavku do R na vytvoření vektoru hodnot relatvních četností a přdání znaku procenta vypadá tedy následovně:

66 61 >prc = round((100*(volby/sum(volby))),dgts = 1) > procenta = paste(prc, "%", sep="") Pro umístění legendy do grafu se používá funkce legend( ). První argument u funkce legend( ) umísťuje legendu na určtou pozc v grafu. Lze sce použít umístění pomocí xy souřadnc, ncméně mnohem jednoduší pro umístění legendy je použít hodnotu z Tabulky 2. Tabulka Umístění legendy v grafu TOPLEFT TOP TOPRIGHT LEFT VÝSEČOVÝ GRAF RIGHT BOTTOMLEFT BOTTOM BOTTOMLEFT Zdroj - Nápověda k funkc legend Další důležté argumenty ovlvňující funkc legend( ) jsou cex a fl. Argumentem cex se upraví velkost legendy a argumentem fll se přdá barevné přřazení výsečí do legendy. Celkový graf s procentuálním absolutním zobrazením hodnot u výsečí a přdání legendy se zadá v R následujícím zápsem: >pe(volby, labels = paste(volby,procenta),col = barva,man ="Graf s procenty") Tímto požadavkem se ale vytvořl pouze výsečový graf s žádaným popsky. Pro přdání legendy se použje následující kód a výsledný výstup zobrazuje graf >legend("bottomleft",strany, fll = barva, cex = 0.6)

67 62 Graf Přdání legendy a procentního označení u výsečí Graf s procenty 17.1% 23.4% 13.7% 7.8% 8.8% 7.9% CSSD KSCM TOP09 ODS ANO2011 USVIT KDUCSL 21.3% Zdroj - vlastní výstup z R Tvorba 3D výsečového grafu v R Pro vytvoření 3D výsečového grafu je nutné mít nanstalovaný a aktvní balíček plotrx. >lbrary(plotrx) Vytvářen 3D grafu je stejné jako u dvourozměrného grafu s tím rozdílem, že parametr clockvse nahradl parametr start a navíc přbyl parametr explode, který upravuje vzdálenost oddělení výsečí od sebe. Přdání legendy je stejné jako u 2D grafů. 3D výsečový graf s odskočeným jednotlvým výsečem se vykreslí po zadání následující funkce: >pe3d(volby, labels = STRANY, col =barva,man = "3D Výsečový graf",explode = 0.075).

68 63 Graf D výsečový graf s popsky 3D Výsečovýgraf KSCM CSSD TOP09 ODS ANO2011 USVIT KDUCSL Zdroj - Výstup z R Boxplot v R Tato kaptola bude zaměřena na další velm důležtý graf s názvem boxplot, nebol krabčkový graf. Bude vysvětlena tvorba grafu v prostředí R, výstupy, nejdůležtější parametry a grafcké úpravy. Je známo, že boxplot je deálním grafem pro náhled rozpětí hodnot pozorování u jednotlvých proměnných. Data budou opět použta z datového souboru employee. Základní boxplot se vytvoří pomocí funkce boxplot( ). V tomto případě bude využta proměnná salbegn. Záps kódu v R pro boxplot z proměnné salbegn zobrazeného na grafu je: >boxplot(ukol1$salbegn).

69 64 Graf Úvodní boxplot pro proměnnou salbegn Zdroj - Výstup z R Funkce vykreslla základní boxplot z proměnné. Pokud je potřeba znát přesné nformace, které vykresll boxplot, využje se funkce str( ), která vypíše celkovou strukturu boxplotu. Tento krok je nutné s pojmenovat, protože funkce str( ) zobrazí jenom náhled, což ukazuje následující výstup: >struktura = str(boxplot(ukol1$salbegn)) Lst of 6 $ stats: nteger [1:5, 1] $ n : num 474 $ conf : num [1:2, 1] $ out : num [1:60] $ group: num [1:60] $ names: chr "1" Například hodnot klasfkovaných jako odlehlé je celkem 60 ($ out : num [1:60]), a funkce zobrazla jen 5 hodnot z celé řady. Pro vypsání celé řady se musí využít příkazu struktura$out. Další důležté vypsané hodnoty funkce jsou $stats, která značí hodnoty jednotlvých vodorovných čar boxplotu od dolního fousu k hornímu. Hodnoty $n značí celkový počet pozorování. $out obsahuje záps o počtu odlehlých pozorování a jejch hodnoty.

70 65 Boxplot lze zobrazt vertkálně nebo horzontálně. Pro přetočení na horzontální zobrazení se využívá argument horzontal = TRUE. Tento argument lze použít u jných grafů. Pokud je vyžadováno zobrazení více boxplotů v závslost na další ordnální proměnné, výstup v R bude následující. (Pro příklad bude zobrazen boxplot počátečních platů salbegn v závslost na pohlaví gender. Zobrazení boxplot grafů bude horzontální.) >boxplot(ukol1$salbegn~ukol1$gender,col = c("red","blue"),man = "boxplot počátečních platů v závslost na pohlaví",horzontal = T) Graf 3.15 Horzontální pro dva boxploty Zdroj - Výstup z R

71 počty hlasů v ts Sloupcový graf v R Pro sloupcový graf v R se využívá funkce barplot( ). Důležté argumenty pro tvorbu tohoto grafu jsou ve své podstatě shodné jako u ostatních grafů. Navíc je u tohoto grafu pouze argument names.arg, který přdává popsky k jednotlvým sloupcům. Je rozdíl, pro jaká data je třeba vytvořt sloupcový graf. Požadavkem je vytvořt graf z absolutních čísel vázaných na určtou nomnální proměnnou. Například proměnná VOLBY obsahuje získané hlasy jednotlvých poltckých stran ve volbách do poslanecké sněmovny Postup vytvoření grafu v R je: >barplot(volby/1000,names.arg = STRANY,col = barva, ylm = c(0,max(volby)/ ),man = "sloupcový graf", sub = "strany",ylab = "počty hlasů v ts.",las = 1) Jelkož nelze přřadt automatcky popsky ke sloupcům, musí se požít argument names.arg, který sloupcům přdá názvy. Úpravou argumentu ylm(ylm = c(0,max(volby)/ ) se v tomto případě zajstí, že osa y bude mít rozsah větší než je výše sloupců. Argument sub přdá pod graf textové pole. Graf zobrazuje konečný výsledek. Graf sloupcový graf sloupcový graf CSSD KSCM TOP09 ODS ANO2011 USVIT KDUCSL strany Zdroj - Výstup z R

72 počty hlasů v ts. 67 Následující postup předvede přdání textového pole do sloupců. V tomto případě bude textové pole obsahovat hodnoty absolutních četností jednotlvých sloupců. Postup má dvě část. V první kroku je potřeba pojmenovat funkc pro vykreslení sloupcového grafu: >bp1=barplot(volby/1000,names.arg = STRANY,col = barva, ylm = c(0,max(volby)/ ),man = "sloupcový graf", sub ="strany",ylab = "počty hlasů v ts.",las = 1) Ve druhém kroku se využje funkce text( ) pro přdání textového pole. Tuto funkc lze použít pro všechny druhy a rozsahy sloupcových grafů, jen s adekvátní změnou podtržených oblastí ve funkc. Výsledek zobrazuje graf >text(bp1, 0, round(volby, 1),cex=1,pos=3) Graf přdání textového pole sloupcový graf CSSD KSCM TOP09 ODS ANO2011 USVIT KDUCSL strany Zdroj vlastní výstup z R Povětšnou je však nutné nejprve data uspořádat, než je možné z nch vytvořt graf. V případě sloupcového grafu je třeba nejdřív vytvořt z hodnot obsažených v určté proměnné tabulku četností. Požadavkem je například vytvoření sloupcového grafu s četnostm odpovědí na otázku o počtu výrobků koupených na úvěr. Odpověd jsou obsažené v proměnné pojmenované new2. Postup př vytváření tabulky absolutních četností se provádí pomocí funkce table( ) následujícím způsobem:

73 68 > x = table(new2) Tabulka absolutních četností se zobrazí v R následovně: > x new Nyní lze vytvořt sloupcový graf v R zadáním: >barplot(x, col = barva, ylm = c(0,50),sub = "počty úvěrů",ylab = "absolutní četnost") V zadání byl jž upraven rozsah osy y argumentem ylm, přdán název k ose y argumentem ylab a nastavena barva argumentem col. Grafcký výstup z R s těmto úpravam je: Graf Zobrazení tabulky četností sloupcovým grafem Zdroj - Výstup z R Spojncový a bodový graf v R Oba tyto grafy se vytvářejí v prostředí R pomocí funkce plot( ). Jedným rozdílem je úprava argumentu type, kde, pokud je zadán ve tvaru type = p, vykreslí se bodový graf, a pokud ve tvaru type= l, vykreslí se spojncový graf. Hodnoty, které zobrazuje graf, jsou obsaženy v datovém souboru ndc. Jednotlvé proměnné obsahují datovou hodnoty roků, druhá proměnná obsahuje hodnoty státního dluhu v jednotlvých letech od 1994 do Ukázky vlvu změny argumentu type na výsledný graf a tvorbu

Zobrazit více