VYSOK A ˇ SKOLA POLYTECHNICK A JIHLAVA Katedra matematiky Statistick a anal yza a ˇ casov e ˇ rady v pˇ r ıkladech Stanislava Dvoˇ r akov a 2015

Rozměr: px
Začít zobrazení ze stránky:

Download "VYSOK A ˇ SKOLA POLYTECHNICK A JIHLAVA Katedra matematiky Statistick a anal yza a ˇ casov e ˇ rady v pˇ r ıkladech Stanislava Dvoˇ r akov a 2015"

Transkript

1 VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra matematiky Statistická analýza a časové řady v příkladech Stanislava Dvořáková 2015

2 Stanislava Dvořáková STATISTICKÁ ANALÝZA A ČASOVÉ ŘADY V PŘÍKLADECH 1. vydání ISBN Vydala Vysoká škola polytechnická Jihlava, Tolstého 16, Jihlava, 2015 Tisk Ediční oddělení VŠPJ, Tolstého 16, Jihlava Za jazykovou a věcnou správnost obsah díla odpovídá autor. Text neprošel jazykovou ani redakční úpravou. c Ing. Stanislava Dvořáková, Ph.D., 2015

3 Úvodní slovo Tento studijní text je určen studentům bakalářského studia na Vysoké škole polytechnické v Jihlavě, především oboru Zdravotně sociální pracovník jako podpora při studiu předmětu Demografie a statistická analýza. Jedná se o studenty, kteří jsou ve větší či menší míře matematikou nezasaženi. Nicméně by měli mít alespoň povšední přehled o statistice a základním statistickém zpracování dat (např. z dotazníku). Zároveň je mohou použít i studenti jiných oborů jako podpůrný materiál (nikoli dostačující) při studiu statistiky. Tato skripta jsou rozdělena do tří základních kapitol. V první kapitole se jedná o popisnou statistiku, kde je zpracovávána jedna statistická proměnná. Vztah dvou proměnných je rozebrán ve druhé kapitole. Třetí kapitola se zaměřuje na základy časových řad. Učebnic o teorii statistické analýzy bylo už napsáno dosti. V těchto sktiptech se budu odkazovat převážně na dvoje, a to od kolegů B. Minaříka a J. Borůvkové (viz doporučená literatura na konci skript). V nich je statistické zpracování dat docela dobře a srozumitelně popsané. Oboje skripta jsou ale určena pro jiné obory, které mají statistiky ve výuce více, a některé kapitoly jsou popsány podrobněji. Proto v těchto skriptech nebudeme probírat detailně teorii, ale zaměříme se na ukázku konkrétního zpracovávání dat v příkladech. Ovšem, aby student pochopil probíraný příklad, je zapotřebí si prostudovat i příslušnou teorii. Příklady nejsou řazeny po sobě tak, jak to ve většině statistických učebnic bývá. Vždy se zaměříme na jednu otázku a budeme se snažit ji vyřešit od začátku do konce. Po delším přemýšlení jsem se rozhodla, že ukážu zpracování dat v programu MS Excel na konkrétních příkladech. Samozřejmě, že existují speciální statistické softwary, které během chvilky kýžené zpracování udělají bez větší námahy zpracovatele. Použití těchto progmamů má však několik ale. Za prvé musí mít uživatel některý program k dispozici. Za druhé ho musí umět ovládat (většina je v angličtině). A za třetí musí zpracovatel také rozumět výsledkům a umět je dobře interpretovat. Kdežto MS Excel (a jiné podobné tabulkové procesory) jsou hodně rozšířené a člověk v nich v podstatě vypočítá jen to, co umí a čemu rozumí. Což pro základní analýzu dat stačí. Autorka VŠP Jihlava, 2015 S. Dvořáková

4 Obsah Vysvětlivky k používaným symbolům 5 1 Základní zpracování dat Nominální proměnná Ordinální proměnná Kardinální proměnná nespojitá Kardinální proměnná spojitá Shrnutí Příklady k procvičení Závislosti dvou proměnných Kategoriální proměnné Korelační a regresní analýza Shrnutí Příklady k procvičení Časové řady Úvod Průměrování časových řad Míry dynamiky Dekompozice časových řad Shrnutí Příklady k procvičení Doporučená studijní literatura 83 VŠP Jihlava, 2015 S. Dvořáková

5 Vysvětlivky k používaným symbolům Osvětlení učiva Prohlubuje základní učivo a detailně popisuje použité vzorce nebo postupy. Pojmy k zapamatování Klíčové pojmy, které byste po prostudování měli umět vysvětlit a které se dále používají. Příklad Konkretizace problematiky v praxi či reálných případech. Shrnutí kapitoly Klíčové body pro opakování a signalizace k opakovanému studiu částí, kterým nerozumíte. Pojmy k zapamatování Výčet pojmů užitých v kapitole, které je zapotřebí si zapamatovat a znát jejich použití. Testy a otázky Prověřte do jaké míry jste učivo pochopili, zapamatovali si podstatné informace a pojmy. Věnujte jim maximální pozornost! Literatura Použitá literatura ve studijním materiálu, typy pro doplnění a rozšíření základních poznatků nabytých studiem opory. VŠP Jihlava, 2015 S. Dvořáková 5

6 1. Základní statistické zpracování dat třídění a charakteristiky V této kapitole se podíváme na základní statistické zpracování jedné proměnné. Jak bylo řečeno v úvodu, nebudeme zde rozebírat teorii (k tomu jsou již k dispozici jiná skripta uvedená v seznamu literatury), ale vše si postupně ukážeme na příkladech. Vycházíme z toho, že máme k dispozici výsledky nějakého statistického (např. dotazníkového) šetření. Příslušné otázky budeme brát postupně a budeme je jednotlivě zpracovávat od začátku do konce. Tzn. nejprve vytvoříme přehlednou tabulku, pak z ní uděláme graf a nakonec, pokud to bude možné, vypočítáme nějaká čísla, která nám budou charakterizovat výsledky šetření. Návod na to, jak vytvořit dotazník, formulovat otázky, posbírat data a jak je zpracovat do elektronické podoby, je popsán mimo jiné i ve skriptu [1]. Příklad 1.1. Z klientů denního stacionáře jsme vybrali 25 klientů, o nichž jsme zjistili mimo jiné i údaje uvedené v tabulce 1.1. Jedná se o číslo klienta (kvůli přehlednosti, většinou nahrazuje jméno apod.), pohlaví, rok narození, místo trvalého bydliště (kvůli zjednodušení ukázky statistické analýzy se jedná pouze o čtyři obce, ve skutečnosti se může jednat o více obcí a více klientů), počet vlastních dětí, velikost oblečení klienta, zda klient má vlastní zuby a částku jeho důchodu. V následujících příkladech si ukážeme pár možností, jak lze tyto údaje zpracovat metodami popisné statistiky. Většinu teorie k těmto metodám naleznete např. ve skriptech [2, Kap. 1 4] nebo [5, Moduly 1, 2]. Před samotnou analýzou by bylo zapotřebí data v tabulce klasifikovat. Je to nutné zejména k tomu, abychom si uvědomili, co vlastně máme za informace, jak k nim tedy máme přistupovat a jaké metody a charakteristiky lze použít, abychom nepočítali čísla, která nelze smysluplně interpretovat. Nejprve si ale trochu objasněme statistickou terminologii, se kterou se budeme nadále setkávat (viz [2, str. 8, 9]). Populace (základní soubor) je množina všech existujících předmětů pozorování, u nichž se vyskytuje sledovaná vlastnost. Např. všichni klienti VŠP Jihlava, 2015 S. Dvořáková 6

7 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT Tabulka 1.1: Údaje o klientech v denním stacionáři č.klienta pohlaví rok nar. bydliště poč. dětí velikost důchod v Kč vlastní zuby 1 muž 1941 Jihlava 0 S ano 2 žena 1928 Polná 2 L ano 3 muž 1931 Brtnice 2 S ne 4 muž 1930 Jihlava 3 XL ne 5 muž 1929 Brtnice 2 M ne 6 žena 1939 Stonařov 0 L ne 7 žena 1938 Polná 1 XL ano 8 muž 1927 Stonařov 3 M ne 9 žena 1928 Jihlava 4 XL ano 10 muž 1942 Jihlava 0 L ano 11 muž 1936 Jihlava 1 L ne 12 žena 1929 Stonařov 3 M ano 13 muž 1932 Jihlava 2 S ne 14 žena 1933 Brtnice 0 XL ne 15 žena 1938 Brtnice 0 M ano 16 žena 1934 Jihlava 4 L ne 17 muž 1935 Brtnice 1 S ano 18 žena 1932 Jihlava 2 L ano 19 muž 1935 Polná 1 L ne 20 muž 1930 Stonařov 5 XL ne 21 žena 1936 Jihlava 1 M ano 22 muž 1938 Jihlava 1 S ne 23 žena 1935 Brtnice 2 L ne 24 žena 1929 Polná 3 M ano 25 muž 1941 Stonařov 2 XL ne VŠP Jihlava, 2015 S. Dvořáková 7

8 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT denních stacionářů, všichni senioři (všeobecně), všichni studenti VŠPJ, všechna auta jezdící po dálnici, apod. Rozsah (velikost) populace se značí N. V našem případě rozsah základního souboru neznáme (tj. ze zadání nevíme, jaký je počet všech klientů denního stacionáře). Statistický soubor je množina všech zkoumaných objektů. V našem případě se jedná o 25 klientů denního stacionáře. Tento soubor může být shodný s populací (v našem případě není) nebo se jedná o výběrový soubor, v němž jsou určitým způsobem vybráni zástupci populace (vzorek). Většinou se jedná o náhodný výběr. Statistické jednotky (prvky, elementy) jsou jednotliví klienti. Každé jednotce náleží jeden řádek v tabulce 1.1. Rozsah souboru je počet všech jednotek souboru a značí se n. Platí n N (rozsah souboru nemůže být nikdy větší než velikost populace). V našem případě je n = 25 (počet vybraných klientů). Statistické znaky (proměnné) jsou vlastnosti statistických jednotek, které můžeme dále analyzovat. Jedná se tedy o názvy sloupců v tabulce, tj. pohlaví, rok narození, atd. Obměny statistického znaku jsou hodnoty, jichž každá proměnná nabývá. Jsou to údaje, které jsou napsány v jednotlivých buňkách tabulky. Proměnná bydliště má čtyři obměny, a to Brtnice, Jihlava, Polná a Stonařov. Podle obměn statistického znaku určujeme typy dat: Proměnná kvalitativní nominální (kategoriální, slovní... ) ordinální kvantitativní diskrétní spojitá (numerická, číselná... ) Nominální proměnné mají obměny slovní. V našem příkladu jsou to pohlaví (žena/muž), vlastní zuby (ano/ne) a bydliště (Brtnice/Jihlava/... ). V prvních dvou případech se jedná o slovní znak alternativní (binární), protože nabývají pouze a právě dvou obměn. VŠP Jihlava, 2015 S. Dvořáková 8

9 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.1 Nominální proměnná Ordinální proměnnou je velikost. Jedná se o slovní nebo číselnou obměnu. Důležité ale je, že jednotlivým variantám lze přiřadit logické pořadí. Může se jednat např. o spokojenost se službami (spokojen hodně/spokojen málo/nespokojen), dosažené vzdělání (základní/učňovské/s maturitou/vysokoškolské) nebo známku z matematiky v páté třídě základní školy. Ostatní proměnné jsou kardinální (měřitelné, číselné). Proměnná důchod je spojitá, protože může nabývat jakékoli hodnoty v určitém intervalu. Oproti dalším znakům ( rok narození, počet dětí ), které jsou diskrétní (lze mít jedno nebo dvě děti, ale ne 1,5 dítěte). Zmiňme ještě dva důležité pojmy. A to bodové a intervalové třídění. Bodové třídění používáme u slovních proměnných a u číselné proměnné, která má málo obměn. Intervalové třídění se používá u číselné proměnné s více obměnami a u spojité proměnné. Více lze najít např. v [2, Kap ]. 1.1 Nominální proměnná V následujícím příkladu si ukážeme, jak lze zpracovat nominální, nebo-li slovní, proměnnou z tabulky 1.1. Příklad 1.2. Proved me nyní statistickou analýzu proměnné bydliště. Jak bylo řečeno výše, jedná se o nominální (slovní) znak, který lze třídit pouze bodově. To znamená, že spočítáme, kolik klientů je z Brtnice a dalších obcí. Určíme tedy absolutní četnost n i pro každou obec a sečteme. (Musíme dostat rozsah souboru n = 25. Je to kontrola správnosti výpočtu, jestli se na nějakého klienta nezapomnělo.) Dále spočítáme relativní četnost p i = n i n. Ta vyjadřuje procento klientů (z celkového počtu vybraných 25 klientů), kteří bydlí v příslušné obci. Relativní četnost se bud vyjadřuje desetinným číslem nebo v procentech. (Součet sloupce relativní četnosti musí vyjít 1 = 100%.) Vše napíšeme do tabulky četností (frekvenční tabulky) a seřadíme podle velikosti (od nejpočetnější obce). Někdy lze tabulku seřadit i podle abecedy. Výsledek třídění nominální proměnné bydliště je ukázán v tabulce 1.2. V MS Excel lze použít funkci COUNTIF nebo nástroj Kontingenční tabulka, který najdeme v nabídce Vložit. Popisovat používání funkcí v MS Excel není náplní tohoto textu. (Předpokládá se totiž, že student má nějaké základní znalosti. At ze střední VŠP Jihlava, 2015 S. Dvořáková 9

10 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.1 Nominální proměnná Tabulka 1.2: Bodové třídění proměnné bydliště bydliště absolutní četnost relativní četnost x i n i p i Jihlava 10 10/25 = 0, 40 = 40 % Brtnice 6 6/25 = 0, 24 = 24 % Stonařov 5 5/25 = 0, 20 = 20 % Polná 4 4/25 = 0, 16 = 16 % celkem 25 1 =100 % školy nebo z předmětu Základy informatiky.) Nicméně u funkce COUNTIF se zastavíme, protože to je méně známá, ale velice užitečná věc. Tato funkce vrátí počet buněk v zadané oblasti, které splňují požadované kriterium. Tím kriteriem může být v našem případě název požadované obce (na obrázku 1.1 je název vložen odkazem na Jihlavu). Tuto funkci lze použít i v případě, že budeme chtít vědět např. kolik lidí má důchod menší nebo roven částce 7000 Kč (obrázek 1.2). Obrázek 1.1: Výpočet počtu klientů z Jihlavy pomocí funkce COUNTIF V dalším textu popíšeme, jak lze vytvořit kontingenční tabulku. Na kartě Vložit zvolíme Kontingenční tabulka. Za vstupní oblast můžeme označit celou tabulku 1.1 (je to jednodušší a přehlednější) a kontingenční tabulku je lepší umístit do nového prázdného listu. Proměnnou bydliště myší přesuneme do Řádky a klienta do Hodnoty (sem se může přesunout v podstatě jakákoli proměnná, č. VŠP Jihlava, 2015 S. Dvořáková 10

11 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.1 Nominální proměnná Obrázek 1.2: Výpočet počtu klientů mající důchod 7000 Kč pomocí COUNTIF ale č. klienta má jednoznačné a neopakující se hodnoty, takže je jistota, že budou četnosti spočítány správně). Musíme ještě zkontrolovat, že se počítá Počet a ne Součet hodnot (pokud se jedná o čísla, je automaticky nastaven právě součet). Popřípadě to musíme změnit v nabídce Nastavení polí hodnot, jak je ukázáno na obrázku 1.3. Kontrola je taková, že se podíváme na poslední řádek kontingenční tabulky, kde je součet všech hodnot (Celkový součet) a toto číslo musí být stejné jako rozsah souboru. V našem případě n = 25. Obrázek 1.3: Výpočet absolutních četností proměnné bydliště v kontingenční tabulce Relativní četnost získáme tak, že do pole Hodnoty přidáme znovu č. klienta a hodnoty necháme zobrazit jako % z celkového součtu (viz obrázek 1.4). Na závěr kontingenční tabulku seřadíme od nejčetnější obce (obrázek 1.5). Nástroj Kontingenční tabulka je relativně jednoduchý a rychlý. Nesmíme ovšem zapomínat na to, že MS Excel spoustu věcí nastavuje automaticky VŠP Jihlava, 2015 S. Dvořáková 11

12 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.1 Nominální proměnná (jak si myslí, že to má být) a my to tak občas nechceme. Proto nesmíme zapomenout pořádně zkontrolovat, jestli v tabulce máme opravdu to, co tam chceme mít. Dále je třeba si uvědomit, že se kontingenční tabulka sama nepřepočítá (tak, jak to dělají funkce). Při jakékoli změně původních dat je zapotřebí tabulku aktualizovat. Obrázek 1.4: Zobrazení relativní četnosti v kontingenční tabulce Obrázek 1.5: Seřazení kontingenční tabulky od nejčetnější obce Dále je vhodná grafická prezentace dat. Pro nominální proměnnou se hodí např. výsečový, sloupcový nebo pruhový graf (viz [2, Kap. 2.1]). Na obrázku 1.6 je ukázán jednoduchý výsečový graf. Nejčetnější statistická obměna znaku se nazývá modus. V našem případě se jedná o obec, ze které pochází nejvíce kientů, tj. ˆx =Jihlava. VŠP Jihlava, 2015 S. Dvořáková 12

13 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.2 Ordinální proměnná Obrázek 1.6: Výsečový graf proměnné bydliště To je vše, co se dá dělat s nominálními daty. Kumulativní četnost nebo různé charakteristiky (průměr atd.) nemá smysl počítat. V případě zobrazování relativní četnosti si dejte pozor na správnou interpretaci grafu, aby někdo neznalý problému z něho nevyvodil špatný závěr. Uved me si příklad: Zeptáme se dvou studentek, zda mají rády matematiku (zrovna jdou ze zkoušky ze Statistiky a dostaly výbornou). Pak napíšeme, že 100 % studentek má rádo matematiku. Graf proto musí být vždy zcela jasný, jednoznačný, dobře popsaný a pokud možno i jednoduchý (pokud je toho v grafu moc, špatně se v něm orientuje). Je lepší vytvořit graf vlastní a nepoužívat Kontingenční graf. Nelze v něm totiž měnit všechna nastavení, která by byla zapotřebí, aby byl graf pěkný, přehledný a měl tu správnou vypovídající schopnost. 1.2 Ordinální proměnná Při zpracovávání ordinální proměnné postupujeme ze začátku stejně jako u nominální proměnné. Je jedno, zda se jedná o slovní nebo číselné obměny. Důležité je, že je můžeme seřadit, tj. určit, která je menší a která větší. Frekvenční tabulku navíc rozšíříme o kumulativní četnost. Ukážeme si to v následujícím příkladu. VŠP Jihlava, 2015 S. Dvořáková 13

14 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.2 Ordinální proměnná Příklad 1.3. Proved me statistické zpracování proměnné velikost. Jedná se o slovní ordinální proměnnou. Její obměny můžeme logicky seřadit od nejmenší po největší: S, M, L, XL. Pro každou obměnu (velikost) spočítáme absolutní četnost (kolikrát se v souboru vyskytuje) a relativní četnost (procentuální zastoupení) a vytvoříme frekvenční tabulku analogicky jako v příkladu 1.2 pro nominální proměnnou (jenom tabulku nebudeme řadit podle četnosti, ale logicky (ne abecedně) podle znaku x velikosti), viz tabulka 1.3. Tabulka 1.3: Frekvenční tabulka pro proměnnou velikost četnosti velikost absolutní relativní kumulativní relativní x i n i p i kp i S 5 0,20 0, 20 M 6 0,24 0, 2 + 0, 24 = 0, 44 L 8 0,32 0, 2 + 0, , 32 = 0, 76 XL 6 0,24 0, 2 + 0, , , 24 = 1, 00 celkem 25 1,00 x (nesčítá se) Kumulativní absolutní četnost je počet hodnot, které nabývají varianty nižší nebo rovné variantě, pro kterou kumumulativní četnost počítáme. U kumulativní relativní četnosti se jedná o vyjádření v procentech a počítá se podle vzorce: i kp i = p j. j=1 Můžeme říci, že 76 % klientů má velikost L a menší. Logicky musí být kumul. rel. četnost v posledním řádku tabulky rovna 1 (100 %), protože jsou sečteni všichni klienti (klienta s větší velikostí už nemáme). Kumulativní relativní četnost necháme v kontingenční tabulce spočítat tak, že do pole Hodnoty přidáme znovu č. klienta a hodnoty zobrazíme jako % mezisoučtu (viz obrázek 1.7). Pro grafickou prezentaci ordinální proměnné se může použít sloupcový a pruhový graf. Vynášet můžeme četnosti absolutní, relativní a kumulativní. Na obrázku 1.8 je ukázka pruhového grafu relativní četnosti. VŠP Jihlava, 2015 S. Dvořáková 14

15 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.2 Ordinální proměnná Obrázek 1.7: Zobrazení kumulativní relativní četnosti v kontingenční tabulce Obrázek 1.8: Pruhový graf proměnné velikost Jednou z charakteristik, kterou zde má smysl uvádět je modus. Jedná se o nejčastější hodnotu, nejčetnější možnost, odpověd na otázku: Jakou velikost má nejvíce lidí?. Modus určíme z frekvenční tabulky nebo grafu. Nejvíce lidí má velikost L, tzn. modus ˆx = L. Dále je možno uvést charakteristiky, které se určují z kumulativní četnosti. Jedná se o tzv. kvantily. Nejpoužívanější je medián, dolní a horní kvartil. (Pozor na záměnu slůvek kvantil a kvartil!) Vysvětleme si podstatu mediánu, ostatní kvantily jsou obdobné. Mediánu se také někdy říká prostření hodnota. Takže se jedná o číslo, které je přesně uprostřed. Ale jak na něj přijít? Představme si, že klienty seřadíme do řady podle velikosti (jako v tělocviku) od nejmenšího po VŠP Jihlava, 2015 S. Dvořáková 15

16 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá největšího. Nebo je seřadíme od nejlehčího po nejtěžšího, od nejméně vzdělaného po nejvíce vzdělaného, od nejmladšího po nejstaršího, prostě je seřadíme podle znaku, který zrovna zkoumáme. Potom najdeme toho, který stojí přesně uprostřed řady a jeho velikost je žádaný medián. Problém je s tím přesně uprostřed. Pokud budu mít 3 lidi (lichý počet), prostřední je druhý a je to. Pokud ale budou 4 klienti (sudý počet), prostředního nemáme. Půlka je někde mezi druhým a třetím. Potom se obvykle spočítá průměr druhého a třetího a prohlásí se to za medián. Na medián se dá pohlížet i tak, že dělí soubor na dva stejně početné díly, kde v první polovině jsou všechny menší nebo stejné a ve druhé větší nebo stejné hodnoty. Proto hledáme prostředního, čili 50% klienta. Pokud máme spočítanou kumulativní četnost (nejlépe relativní), lze kvantily určovat z ní, protože máme klienty seřazené podle velikosti a postupně sečtené. Medián rozděluje soubor na poloviny, takže hledáme 50 %. Najdeme takový řádek frekvenční tabulky 1.3, kde kumulativní relativní četnost poprvé přesáhne 0,5 (tj. 50 %). Potom je medián x =L. Kvartily rozdělují soubor na 4 stejně početné díly. Dolní (první) kvartil určuje hodnota 25 % a horní (třetí) odpovídá 75 %. Hledají se obdobně jako medián. Dolní kvartil je tam, kde kumul. rel. četnost poprvné přesáhne 0,25, tj. x 0,25 =M. A horní kvartil je x 0,75 =L. Zkuste všech 25 klientů tabulky 1.1 seřadit podle velikosti a čárami je rozdělit na poloviny a čtvrtiny. Zjistíte, že hodnoty odpovídají námi vypočteným. Pozor! Průměr zde nemá smysl počítat. Bylo by to hezké říci: průměrná velikost klientů je.... Ale jak vypočítat průměr, když velikost máme danou písmeny? 1.3 Kardinální proměnná nespojitá Nespojitou číselnou proměnnou lze třídit bodově i intervalově. Rozhoduje počet obměn, rozsah souboru a účel statistického zpracování. Pro popis dat se použijí charakteristiky (míry). Statistické charakteristiky jsou taková čísla, která obsahují informace o podstatných statistických vlastnostech studovaného souboru. Význam charakteristik spočívá především v možnosti srovnávat, jak dalece se jednotlivé datové soubory ve svých vlastnostech shodují nebo liší. Nejčastěji se určují tři skupiny charakteristik: Míry polohy (úrovně) určují umístění na číselné ose (jestli se hodnoty pohybují v jednotkách nebo milionech). VŠP Jihlava, 2015 S. Dvořáková 16

17 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Míry variability (proměnlivosti) určují variabilitu hodnot, většinou kolem jedné (typické) polohy. Momentové charakteristiky nejznámější je asymetrie (šikmost) a špičatost. Detailnější popis charakteristik lze najít např. v [2, Kap ]. Příklad 1.4. Zpracujte počet dětí klientů denního stacionáře z tabulky 1.1. Proměnná počet dětí nabývá šesti hodnot, a to 0 až 5. Použijeme proto bodové třídění (počet obměn je rozumný ). Postupovat budeme stejně, jako v předchozím příkladu 1.3. Pomocí nástroje Kontingenční tabulka v MS Excel vytvoříme frekvenční tabulku obsahující absolutní, relativní a kumulativní četnosti. Toto bodové třídění je v tabulce 1.4. Tabulka 1.4: Bodové třídění proměnné počet dětí počet dětí abs. četnost relat. četnost kumulativní r. č. x i n i p i kp i 0 5 0,20 0, ,24 0, ,28 0, ,16 0, ,08 0, ,04 1,00 celkem 25 1,00 x Následně můžeme vytvořit graf. Vhodný je sloupcový, skládaný pruhový atd. (viz [2, Kap. 2.1]). Na osu y grafu můžeme vynést jakoukoli četnost (absolutní, relativní, kumulativní) podle toho, jak a na co graf potřebujeme. Na obrázku 1.9 je ukázka sloupcového grafu s relativní četností. Pro dobrý přehled o datech je vhodné spočítat některé statistické charakteristiky polohy ([2, Kap. 1.4]), charakteristiky variability ([2, Kap. 1.5]) a charakteristiky šikmosti a špičatosti ([2, Kap. 1.6]). V MS Excel lze k této záležitosti přistupovat několika způsoby: 1. Použitím nástroje Popisná statistika. 2. Použitím funkcí MS Excel. 3. Vypočítáním charakteristik z frekvenční tabulky. VŠP Jihlava, 2015 S. Dvořáková 17

18 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Obrázek 1.9: Sloupcový graf proměnné počet dětí Ke kýženým hodnotám je možno dobrat se i jiným způsobem, ale zde uvedené jsou nejjednodušší a relativně snadno pochopitelné. Při výběru způsobu výpočtu záleží na tom, zda máme k dispozici původní data nebo jenom zpracovanou tabulku četností, zda potřebujeme pouze jednu hodnotu (např. průměr) nebo více charakteristik. Pokud jsou k dispozici původní data, tzn. máme v tabulce všechny výsledky šetření tak jako v tabulce 1.1, potom můžeme použít kteroukoli metodu. Máme-li ovšem k dispozici pouze frekvenční tabulku, např. tabulku 1.4, první dvě metody použít nemůžeme! Ze cvičných důvodů si ukážeme všechny tři možnosti, každý uživatel necht si potom vybere takový, který mu bude vyhovovat. Začněme od poslední možnosti, nebot tam budeme počítat jednotlivé charakteristiky postupně a můžeme si tedy lépe a podrobněji popsat jejich interpretaci. Ad 3) Ruční počítání z frekvenční tabulky: Pokud máme k dispozici pouze tříděná data (v frekvenční tabulce), a ne původní hodnoty, nelze použít ani funkce MS Excel, ani nástroj Popisná statistika a musíme použít tento způsob výpočtu. Jedná se většinou o data odněkud stažená, např. ze statistického úřadu, kde jsou různé tabulky volně k dispozici. Tzn., že stáhneme (dostaneme) už zpracovanou tabulku obsahující pouze obměny statistického znaku a absolutní (případně relativní) četnost. Původní data k dispozici nemáme (v případě sčítání lidu ze statistického úřadu by se jednalo o miliony hodnot). Vzorce a popis výpočtů charakteristik lze najít např. v [2, Kap. 1]. Nebudeme proto výpočet popisovat detailně. Spočítejme nejprve aritmetický průměr. VŠP Jihlava, 2015 S. Dvořáková 18

19 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Na tomto místě dovolte malou odbočku od příkladu. Většině čtenářů, kterým je tento text určen, jsou uvedené vzorce pro výpočet váženého průměru (a dalších) na první pohled nečitelné. Nicméně, při malém zamyšlení je mohou sami odvodit a vysvětlit. Ukážeme si to na jablkách. Představte si, že v domově důchodců jsou tři muži a dvanáct žen. Každý muž sní čtyři jablka a každá žena jedno jablko za den. Kolik průměrně jablek každý bez ohledu na pohlaví sní? To umí spočítat děti na základní škole: Celkem se denně sní = 24 jablek. Vydělením celkovým počtem lidí (15) dostáváme průměrný počet jablek na jednoho klienta x = = 24 = 1, 6, tj. každý sní průměrně 1,6 jablka za den Co toto číslo znamená? Pokud by opravdu každý z 15-ti klientů snědl 1,6 jablka, rozdali bychom 24 jablek dohromady všem klientům. A ted si to převed me do řeči matematiky: máme proměnnou počet jablek ozn. x i, a absolutní četnost ozn. n i (kolik lidí sní příslušný počet jablek), přičemž celkový počet lidí je n = 15. (Proč zrovna počet jablek jsme označili x a počet lidí n a ne obráceně? Protože počítáme průměrný počet jablek na jednoho člověka a ne průměrný počet lidí na jedno jablko. A to, co počítáme, označujeme jako neznámou x.) Průměrný počet jablek jsme vypočítali tak, že jsme počet jablek vynásobili příslušným počtem lidí (x i n i ), sečetli (znak ) a vydělili celkovým počtem lidí ( 1 ). Když to vše složíme dohromady, n dostáváme vzorec pro výpočet aritmetického průměru: x = 1 n xi n i. Představme si, že nevíme, kolik lidí je v domově důchodců, ale víme, že je tam ( 3 =) 20 % mužů a ( 12 =) 80 % žen. Kolik průměrně jablek sní? Tak si řekneme, že v domově důchodců je 100 lidí, tedy 20 mužů a 80 žen, a výpočet průměru provedeme jako v předcházejícím případě: x = = = 1, Nebo si můžeme říci, že je tam jeden celek, z toho pětina mužů (20% = 0, 2) a čtyři pětiny žen (80% = 0, 8). Průměrný počet jablek je potom x = 0,2 4+0,8 1 = 1, 6. V tomto případě jsme použili místo absolutní četnosti 1 (n i ) četnost relativní (p i ) a vzorec pro výpočet aritmetického průměru je x = x i p i (děleno číslem jedna jsme vynechali). Z uvedených vztahů vyplývá, že je jedno, zda při výpočtu používáme absolutní nebo relativní četnost (výsledky musí vyjít stejně). Použití relativní četnosti je jednodušší v tom, VŠP Jihlava, 2015 S. Dvořáková 19

20 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá že nemusíme dělit rozsahem souboru. Nemusíme uvažovat o jablkách, můžeme seniorům rozdávat děti, důchody nebo věk a výpočet se bude provádět vždy stejným způsobem podle stejného vzorce. Při výpočtu postupujeme zevnitř vztahů. To znamená, že nejprve pro každý řádek vypočteme to, co je uvnitř sumy (to s indexy i) výhodné je použít kopírování výpočtů s odkazy na příslušné buňky. Potom celý sloupec sečteme, případně ještě vydělíme a dostaneme výsledek. Výpočet průměru je ukázán v tabulce 1.5 v pátém sloupci. Průměrný počet dětí klientů denního stacionáře je 1,8. Tabulka 1.5: Pracovní tabulka pro výpočet charakteristik proměnné počet dětí počet dětí abs.č. rel.č. kum.rel.č. pro průměr pro rozptyl x i n i p i kp i x i p i x 2 i p i 0 5 0,20 0, ,24 0,44 0,24 0, ,28 0,72 0,56 1, ,16 0,88 0,48 1, ,08 0,96 0,32 1, ,04 1,00 0,20 1, x 1,80 5,08 Nejčastější hodnota, nebo-li modus, se nejlépe určuje ze sloupcového grafu. Na obrázku 1.9 je jasně vidět, že nejvíce lidí má dvě děti. Modus je tedy ˆx = 2. Medián, kvartily, kvantily a percentily se určují z frekvenční tabulky, a to z kumulativní relativní četnosti. U těchto charakteristik máme vždy zadaná procenta (medián = 50 %, dolní kvartil = 25 % a horní kvartil = 75 %, popřípadě další). Na kterém řádku kumulativní rel. četnost poprvé překročí požadované procento, tam odečteme příslušnou charakteristiku. Proto je medián x = 2, dolní kvartil x 0,25 = 1 a horní kvartil x 0,75 = 3. Co nám vlastně tyto charakteristiky říkají? Pokud klienty seřadíme vedle sebe podle počtu dětí a vybereme prvních např. 25 % (tj. 6,25 klientů), můžeme s jistotou říci, že všichni budou mít jedno a méně dětí. VŠP Jihlava, 2015 S. Dvořáková 20

21 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Dovolte ještě malou poznámku o charakteristikách úrovně. Aritmetický průměr je tou nejpoužívanější charakteristikou. Jenže, oproti kvantilům (hlavně mediánu), je velice citlivý na extrémní hodnoty (at už nízké nebo vysoké). Představme si, že máme firmu s deseti zaměstnanci. Devět pracovníků má plat deset tisíc korun a ředitel padesát tisíc. Průměrný plat je = Kč. Ředitel si zvedne plat na pět set tisíc, takže 10 průměrný plat ve firmě vzroste na Kč. Kdežto 85% kvantil je neustále Kč. Závěr o statistikách, kde se mluví pouze o průměru, necht si každý laskavý čtenář vytvoří sám. Pokud nějaká charakteristika není citlivá na odlehlé hodnoty, mluví se o robustní charakteristice. Variační rozpětí je rozdíl mezi extrémy, vzdálenost mezi maximem a minimem, R = x max x min = 5 0 = 0. Jedná se o šířku intervalu, ve kterém se nachází všechny hodnoty souboru. Mezikvartilové rozpětí je rozdíl mezi dolním a horním kvartilem Q = x 0,75 x 0,25 = 3 1 = 2. Jedná se o šířku intervalu, ve kterém se nachází prostředních 50 % hodnot. Rozptyl je důležitá charakteristika variability. Zjednodušeně řečeno nám říká, jak moc jsou data rozptýlená (odchýlená) kolem průměru. Více o rozptylu a jeho vlastnostech lze najít např. v [5, Moduly 1, 2]. Nejznámější vzorec pro výpočet rozptylu je následující s 2 = (x i x) 2 p i. Pro praktický výpočet je lepší použít upravený vzorec, a to ( ) s 2 = x 2 i p i ( x) 2 = 5, 08 1, 8 2 = 1, 84. Výpočet první sumy ( x 2 i p i ) je ukázán v tabulce 1.5 v šestém sloupci. Opět lze pro výpočet použít kromě relativní četnosti i četnost absolutní podle vzorců s 2 = 1 (xi x) 2 n i = 1 ( ) x 2 i n i ( x) 2. n n Pokud v předešlém vzorci nedělíme velikostí souboru n, ale číslem n 1, jedná se o tzv. výběrový rozptyl. Mezi rozptylem a výběrovým rozptylem VŠP Jihlava, 2015 S. Dvořáková 21

22 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá je malý rozdíl a čím více máme dat, tím je tento rozdíl menší. Výběrový rozptyl se používá tam, kde nemůžeme z nějakého důvodu změřit všechny jednotky, tj. celou populaci, zapíšeme tedy jenom část jednotek (výběr, tj. místo všech klientů stacionáře změříme pouze pár náhodně vybraných klientů), ale výsledek vztáhneme na celou populaci (všechny klienty). S rozptylem je problém ten, že vyjadřuje počet dětí na druhou, což je těžko představitelné. Proto se zavádí směrodatná odchylka, kterou vypočítáme jako odmocninu z rozptylu s = s 2 = 1, 84 = 1, 36. Můžeme potom říci, že počet dětí klientů se pohybuje zhruba v hodnotách 1,8 dítěte plus minus 1,36 dítěte. Důležité je to slůvko zhruba, protože to není zcela přesná interpretace, ale pro základní představu to stačí. Pro porovnání rozptylů dvou různých proměnných nemůžeme použít rozptyl ani směrodatnou odchylku. Ty dvě porovnávané proměnné mohou totiž mít jiné jednotky, např. váha v kg a výška v cm. A pokud jsou ve stejných jednotkách, mohou se pohybovat v jiných číslech (mají jiný průměr), např. plat poslance a plat uklízečky. Vypočítáme proto variační koeficient v = s x = 1, 36 1, 8 = 0, 7556 = 75, 56 %. Jedná se o bezrozměrnou veličinu, pomocí které můžeme srovnávat různé proměnné, např. počet dětí věk klienta, a nezáleží na jejich jednotkách. Někdy je potřeba vědět, jak jsou data uspořádaná kolem průměru. K tomu nestačí směrodatná odchylka (variační koeficient). Pokud se podíváme na graf na obrázku 1.9, je vidět, že data jsou levostranná (vrchol grafu je vychýlen směrem k nižším hodnotám vlevo). Číselně nám to řekne koeficient šikmosti (asymetrie). Výpočet tohoto koeficientu ovšem uvádět nebudeme. Zájemci mohou příslušné vzorečky najít např. v [5]. Občas stačí určit asymetrii pouze z grafu a velikosti modu a průměru. Pokud je nejvyšší sloupec více v levo a modus je menší než průměr, jsou data levostranná. Pokud je nejvyšší sloupec vpravo a modus je větší než průměr, jsou data pravostranná. Pokud je nejvyšší sloupeček uprostřed a modus s průměrem se rovnají, lze říci, že data jsou symetrická. Schematicky je to znázorněno na obr Ale mějte na paměti, že je to pouze odhad. Někdy se také počítá koeficient špičatosti (excesu). Je-li tento koeficient roven nule, hovoří se o normální špičatosti. Pak může být podnormální a nadnormální špičatost. Tato hodnota je opět citlivá na odlehlé hodnoty a navíc ji VŠP Jihlava, 2015 S. Dvořáková 22

23 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Obrázek 1.10: Asymetrie statistických dat ovlivňuje i asymetrie. Proto se doporučuje při její interpretaci postupovat velmi opatrně. Vzorec pro výpočet najdete např. v [2, Kap. 1.6]. Samozřejmě zde nejsou popsané všechny charakteristiky, které lze počítat. Ukázali jsme jenom pár nejpoužívanějších. V případě potřeby lze další najít v různých učebnicích statistiky. Jedná se např. o percentily, různé odchylky kolem průměru nebo mediánu, atd. Ad 2) Předdefinované funkce MS Excel: Tyto funkce lze použít pouze a výhradně jenom na netříděná původní data!!! V tabulce 1.6 je přehled nejpoužívanějších funkcí se stručným popisem použití. Názvy funkcí jsou psané pro verzi MS Excel 2013, který se v součsné době používá k výuce na VŠPJ. U starších (případně novějších) verzí se některé názvy mohou lišit. Pokud budeme počítat více charakteristik, je výhodné oblast dat pojmenovat (obrázek 1.11). Poté můžeme do funkce napsat pouze název a nemusíme pokaždé příslušnou oblast dat vyznačovat. (Pro našich 25 hodnot to není takový problém, ale pokud budeme mít rozsah souboru větší, už by se mohly vyskytovat chyby v tom, že nemusí být pokaždé označena všechna data.) Výsledné hodnoty jsou uvedeny v tabulce 1.7. Poznamenejme k nim toliko: Pozor na funkci MODE.SNGL, ta najde jeden modus a pokud data obsahují modů několik (nebo žádný, záleží na úhlu pohledu), tak to nezjistí. Funkce MODE.MULT najde mody všechny, ale jedná se o maticovou funkci, která se vkládá kombinací kláves Ctrl+Shift+Enter. Pokud někdo neví, o co jde, tak to těžko použije. Dále je potřeba poznamenat, že koeficient špičatosti vypočítaný funkcí KURT je výběrový a o něco málo se liší oproti koeficientu špičatosti vypočtenému v bodě 3). To samé platí o koeficientu šikmosti a funkci SKEW. VŠP Jihlava, 2015 S. Dvořáková 23

24 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Tabulka 1.6: Výběr funkcí MS Excel 2013 pro popisnou statistiku ČETNOSTI COUNTIF CORREL KURT MAX MEDIAN MIN MODE.MULT MODE.SNGL PERCENTIL.INC POČET POČET2 PRŮMĚR QUARTIL.INC SKEW SMODCH.P SMODCH.VÝBĚR.S VAR.P VAR.S Matice absolutních četností na základě intervalů (maticová funkce) Absolutní četnost dat splňující dané kriterium Výpočet korelačního koeficientu Výběrová špičatost Maximum Medián Minimum Matice modů (maticová funkce) Modus Percentily Počet čísel Počet neprázdných buněk Aritmetický průměr Kvartily Koeficient asymetrie Směrodatná odchylka Výběrová směrodatná odchylka Rozptyl Výběrový rozptyl Ad 1) Popisná statistika: Používá se na původní data a jedná se o doplňkový nástroj MS Excel. Nemusí být tedy na každém počítači nainstalován. Při doinstalování postupujeme následovně (není zapotřebí instalační CD): Soubor Možnosti Doplňky a přidáme Analytické nástroje. Ty pak najdeme na kartě Data. V těchto nástrojích vybereme Popisná statistika a nastavíme požadované možnosti analýzy (data by měla být v jednom sloupci). Výstup je zobrazen na obrázku VŠP Jihlava, 2015 S. Dvořáková 24

25 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Obrázek 1.11: Nadefinování nového názvu v MS Excel Tabulka 1.7: Výsledky stat. analýzy proměnné počet dětí použitím funkcí počet 25 minumim 0 maximum 5 průměr 1,8 modus 2 medián 2 dolní kvartil 1 horní kvartil 3 rozptyl 1,840 směrodatná odchylka 1,356 Na jednotlivé hodnoty jsme se zaměřili v ostatních bodech. Na tomto místě jenom poznamenejme, že průměr je tu označen jako střední hodnota, počet je rozsah souboru. Rozptyl (a tím i směrodatná odchylka) je vypočítán jako výběrový rozptyl. Koeficienty šikmosti a špičatosti jsou také výběrové. VŠP Jihlava, 2015 S. Dvořáková 25

26 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.4 Kardinální proměnná spojitá Obrázek 1.12: Výsledek statistické analýzy proměnné počet dětí nástrojem Popisná statistika 1.4 Kardinální proměnná spojitá V této kapitole se zaměříme na zpracování kardinální proměnné spojité. Připomeňme, že se jedná o takový statistický znak, jehož hodnoty jsou čísla, a to v podstatě jakékoliv hodnoty (např. věk, výška, váha, plat, atd.). Pro spojitou číselnou proměnnou použijeme intervalové třídění (více [2, Kap ]). Než začneme třídění provádět, je potřeba se zastavit a pořádně zamyslet (nejednat zbrkle). Musíme zvolit počet intervalů (tříd) k, jejich šířku h a jejich hranice (meze). Intervaly volíme tak, aby se nepřekrývaly a těsně na sebe navazovaly. Dále je třeba rozhodnout, do kterého intervalu mají spadat krajní body intervalů, zda do pravého nebo levého, tj. zda budou intervaly zprava nebo zleva otevřené. Tzn. bud 10; 20) nebo (10; 20. Obvyklá bývá stejná šířka (h) pro všechny intervaly. Někdy se může vyskytnout případ, kdy je potřeba mít intervaly různě velké (jinak by třídění nemělo tu správnou vypovídající hodnotu). Jako příklad může posloužit demografické rozdělení obyvatelstva např. na dětskou složku do 14-ti let, produktivní věk 15 až 64 let a postproduktivní věk nad 65 let (senioři). Tímto problémem se ale zabývat nebudeme, je tam složitější výpočet potřebných charakteristik. VŠP Jihlava, 2015 S. Dvořáková 26

27 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.4 Kardinální proměnná spojitá Často se nechávají první a poslední interval otevřené pro extrémní hodnoty. Jejich šířku pro jednoduchost uvažujeme také rovnu h. Existují různé vzorce a předpisy pro určení počtu tříd. Záleží ovšem také na účelu zkoumání, jaká jsou data a rozsahu souboru. Méně než 5 tříd nemá smysl a neměli bychom ani volit přes 20 tříd, protože tak třídění ztrácí na přehlednosti. Hranice intervalů také volíme s rozvahou. Uvědomme si, že při výpočtu různých charakteristik jednotlivé intervaly nahrazujeme jedinou hodnotou, a to středem třídy (číslem, které je přesně uprostřed intervalu aritmetickým průměrem obou mezí třídy). Raději vytvoříme interval 10, 20), který má střed 15, než interval 10, 21) se středem 15, 5. Příklad 1.5. Proved me nyní statistickou analýzu proměnné důchod. Zjistíme rozsah souboru (n = 25), minimální (x min = 5 164) a maximální (x max = ) hodnotu, vypočítáme variační rozpětí R = Z podstaty dat vytvoříme 7 tříd s šířkou h = a prvním středem 5 500, viz tabulka 1.8. Tuto tabulku lze opět v MS Excel vytvořit několika způsoby: funkcí ČETNOSTI, do které se vkládá matice horních hranic intervalů a jedná se o maticovou funkci (ukazovat ji nebudeme). nástrojem Kontingenční tabulka. Z proměnné důchod vytvoříme kontingenční tabulku jako u proměnné bydliště v příkladu 1.2. Potom necháme sloupeček s důchody Seskupit (viz obrázek 1.13), kde většinou změníme Začátek a Přírůstek, oproti tomu, co MS Excel automaticky navrhne. Nezapomeňte zkontrolovat, zda se vytvořily intervaly tak, jak jste chtěli. Obrázek 1.13: Vytvoření intervalů v kontingenční tabulce VŠP Jihlava, 2015 S. Dvořáková 27

28 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.4 Kardinální proměnná spojitá Poznamenejme, že v MS Excel v kontingenční tabulce se intervaly tvoří zprava otevřené (např ; 7 000), 7 000; 8 000), atd.). To znamená, že důchod připadne do druhého intervalu. POZOR, funkce ČETNOSTI uvažuje intervaly přesně obráceně, tedy zprava uzavřené. Tabulka 1.8: Intervalové třídění proměnné důchod č. inter. interval střed inter. abs. četn. relat. četn. kumul. rel. č. x i n i p i kp i 1 do ,04 0, ,24 0, ,28 0, ,20 0, ,12 0, ,08 0, a více ,04 1, ,00 x Dále vytvoříme grafy. Pro spojitý kardinální znak se v MS Excel nejvíce hodí sloupcový nebo spojnicový graf (více v [2, Kap. 2.2]). Sloupcovému grafu se říká histogram a jeho specifikace je ta, že nemá mezery mezi sloupci. Je to z toho důvodu, že se jedná o spojitá čísla a měla by být v grafu zahrnuta všechna (tedy mez mezer). Ukázka histogramu je na obrázku Jako popis osy x můžeme použít střed třídy nebo intervaly při vynášení absolutní či relativní četnosti a horní hranice tříd při vynášení kumulativní četnosti. Hodně záleží na místu, které máme k dispozici pro zobrazení grafu, ale také na tom, zda příslušný graf použijeme v tiskové podobě v nějaké publikaci (např. bakalářské práci) nebo ho budeme někde prezentovat (např. při obhajobě práce). Při vytváření grafů nesmíme zapomenout na přehlednost. Mělo by platit pravidlo kouknu a vidím (a pochopím). Na obrázku 1.15 je ukázka spojnicového grafu kumulativní relativní četnosti. Na osu x vynášíme horní hranice tříd, přičemž vložíme ještě nultou třídu s nulovou četností, aby graf začínal od nuly (na ose y). Dále budeme počítat charakteristiky polohy a variability. Podrobný výpočet těchto charakteristik byl popsán v příkladu 1.4. VŠP Jihlava, 2015 S. Dvořáková 28

29 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.4 Kardinální proměnná spojitá Obrázek 1.14: Histogram proměnné důchod Obrázek 1.15: Graf kumulativní četnosti důchodů klientů Předefinované funkce MS Excel a nástroj Popisná statistika se používá na netříděná (původní) data. Pokud máme k dispozici pouze frekvenční tabulku, musíme charakteristiky počítat ručně pomocí vzorců (viz [2, Kap. 1.4, 1.5, 1.6]). Za x i dosazujeme středy tříd, jinak se vše počítá analogicky jako u bodového třídění. Výsledky jsou napsány v tabulce 1.9. Když se na výsledky výpočtů podíváme pozorně, zjistíme, že se čísla liší. Je to tím, že Popisná statistika a předdefinované funkce používají původní data, kdežto při ručním výpočtu za každé číslo v intervalu dosazujeme do vzorce střed třídy a tím je výpočet zkreslen. Popisná statistika počítá rozptyl jako výběrový rozptyl (a tím i směrodatnou odchylku). VŠP Jihlava, 2015 S. Dvořáková 29

30 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.4 Kardinální proměnná spojitá Tabulka 1.9: Charakteristiky proměnné důchod pomocí popisné funkcemi ručně z frekvenční statistiky MS Excel tabulky počet minimum x maximum x průměr 8 056, , ,0 modus x x 7 000; 8 000) medián ; 8 000) dolní kvartil x ; 7 000) horní kvartil x ; 9 000) rozptyl směrodatná odchylka variační koeficient x 0,188 0,184 Modus jsme určili z grafu nebo z frekvenční tabulky, jinak to nejde, protože každý důchod je jinak velký (každé číslo je v datech pouze jednou). Tím pádem jsme v podstatě neurčovali modus, ale modální interval (třídu). Tj. takový interval, ve kterém je zastoupeno nejvíce hodnot. V našem příkladu se jedná o 3. interval 7000; 8000). Popř. za modus prohlásíme střed příslušného modálního intervalu. Při určování kvantilů z frekvenční tabulky se postupuje tak, že se najde interval, který obsahuje příslušný kvantil, např. medián (50% kvantil). Pak za medián prohlásíme střed třídy. Pokud nám to takto nestačí a chtěli bychom medián určit přesněji, lze jej aproximovat. Tímto se ale zabývat nebudeme. Z grafu 1.14 můžeme usuzovat, že se jedná o mírně levostranná data. V tomto případě to lze odhadnout i z velikosti modu a průměru. Pro levostannou asymetrii je modus menší než průměr. Z vypočítaných charakteristik polohy lze sestrojit krabicový graf, který je vhodný mimo jiné pro porovnávání. Na obrázku 1.16 je ukázáno srovnání důchodů mužů a žen v denním stacionáři. Čárky nejvíce vlevo značí minimum, VŠP Jihlava, 2015 S. Dvořáková 30

31 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.4 Kardinální proměnná spojitá čárky nejvíce vpravo maximum. Levý kraj krabice je dolní kvartil, pravý kraj je horní kvartil. Čára uvnitř značí medián. Jinými slovy čárky čtené z levé strany znamenají: minimum, dolní kvartil, medián, hormí kvartil a maximum. Křížek uprostřed je průměr. Obrázek 1.16: Krabicový graf srovnání důchodů mužů a žen v denním stacionáři V podstatě pouhým pohledem můžeme okomentovat rozdíly mezi důchody mužů a žen. Muži mají větší rozsah důchodů než ženy. Ale více než 75 % žen (horní kvartil) má důchod menší než 50 % mužů (medián) a než je dokonce průměrný důchod u mužů. A tak podobně bychom mohli pokračovat dál. Tyto grafy lze umístit vodorovně i svisle. Nevýhodou je, že MS Excel krabicový graf neumí sám a jednoduše sestrojit. Je potřeba větší znalosti MS Excel nebo použít nějaký statistický program (Statistica, SPSS a další), který umí krabicový graf konstruovat jednoduše. VŠP Jihlava, 2015 S. Dvořáková 31

32 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.5 Shrnutí 1.5 Shrnutí Statistika se zabývá získáváním informací z dat. V prezentaci výsledků zpracování dat a analýzy se využívají tabulky a grafy. Statistické údaje dělíme na kardinální (číselná), ordinální (pořadová) a nominální (slovní). Základní metodou statistického zpracování dat je třídění. Bodové třídění se používá pro proměnou nominální, ordinální a nespojitou kardinální, obsahuje-li rozumný počet variant. Na spojitá kardinální data se použije intervalové třídění. Výsledkem třídění je frekvenční tabulka, která obvykle obsahuje hodnoty znaku, absolutní četnost, relativní četnost a kumulativní četnosti (absolutní či relativní). V datovém souboru lze najít určité významné hodnoty. Jedná se především o charakteristiky polohy (minumim, maximum, průměr, modus, medián, dolní a horní kvartil, atd.), charakteristiky variability (variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, atd.), koeficient šikmosti (asymetrie), koeficient špičatosti a mnoho dalších. Pro zpracování dat je důležité, zda máme k dispozici původní data nebo jenom frekvenční (kontingenční) tabulku. V prvém případě můžeme pro zpracování použít funkce MS Excel, nástroj kontingenční tabulka nebo Popisná statistika. Ve druhém případě požadované charakteristiky můžeme pouze počítat ručně z tabulky podle vzorečků. Pojmy k zapamatování: Statistický soubor, jednotky, znaky, proměnné, rozsah, obměny, statistické znaky nominální, ordinální, kardinální, spojité, nespojité, alternativní, četnost absolutní, relativní, kumulativní, frekvenční tabulka, graf sloupcový, spojnicový, výsečový, histogram, charakteristiky úrovně, variability, aritmetický průměr, modus, medián, kvantily, horní a dolní kvartil, variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, koeficient šikmosti, špičatosti. VŠP Jihlava, 2015 S. Dvořáková 32

33 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.6 Příklady k procvičení 1.6 Příklady k procvičení 1. Vymyslete příklad nominální alternativní proměnné. 2. Vymyslete dva příklady ordinální proměnné, a to slovní a číselnou. 3. Vymyslete příklad kardinální proměnné spojité. 4. Jaké třídění použijete na následující proměnnou? Jaký lze použít graf pro prezentaci? Jaké charakteristiky má smysl spočítat? (a) Nejoblíbenější četba s obměnami detektivka, román, pohádka, sci-fi, comics, (b) Známka z matematiky, (c) Věk dětí chodících do MŠ, (d) Věk bydlících na sídlišti Březinovy sady, (e) Výška studentů VŠPJ. 5. Proved te třídění proměnných pohlaví a rok narození z tabulky 1.1. Vytvořte vhodné grafy. Výsledky zkuste interpretovat. 6. V tabulce 1.1 vytvořte novou proměnnou věk, statisticky ji zpracujte a interpretujte. (Jaké třídění použijete? Jaký lze použít graf pro prezentaci? Jaké charakteristiky má smysl spočítat?) V dalším se budeme odkazovat na tabulku Jedná se o výsledky statistického šetření mezi zaměstnanci jedné firmy. Sloupce postupně znamenají: č. číslo zaměstnance kouříte Kouříte? pohlaví bydliště váha (v kg) výška (v cm) pijete Jak často pijete alkohol? změna Kolikrát jste změnili zaměstnání? délka délka nynějšího zaměstnání (v letech) plat (v Kč) 7. Klasifikujte všechny statistické znaky, tj. určete jejich typ, jejich obměny, a jaké se použije třídění na jejich zpracování. 8. Zpracujte proměnnou bydliště. Použijte bodové třídění, vypočtěte relativní četnost, vytvořte výsečový graf, určete modus a interpretujte. VŠP Jihlava, 2015 S. Dvořáková 33

34 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.6 Příklady k procvičení Tabulka 1.10: Výsledky šetření mezi zaměstnanci jedné firmy č. pohlaví bydliště váha výška kouříte pijete změna délka plat 1 muž Jihlava ne výjimečně žena Praha ne často muž Brno ne občas muž Ostrava ne často žena Plzeň ne často muž Praha ne občas muž Ostrava ne často muž Jihlava ne občas žena Plzeň ne občas žena Praha ano výjimečně muž Jihlava ne občas žena Brno ano nikdy muž Brno ano často muž Plzeň ano nikdy žena Praha ano výjimečně žena Brno ne nikdy muž Praha ano nikdy žena Ostrava ano občas muž Praha ne výjimečně muž Ostrava ano výjimečně žena Praha ne občas muž Brno ne často žena Ostrava ano nikdy žena Plzeň ne výjimečně žena Jihlava ne často muž Praha ne často muž Ostrava ano výjimečně žena Brno ne často muž Brno ano nikdy žena Plzeň ne občas VŠP Jihlava, 2015 S. Dvořáková 34

35 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.6 Příklady k procvičení 9. Statisticky zpracujte otázku Kolikrát jste změnili zaměstnání?. Použijte bodové třídění, vypočtěte relativní a kumulativní četnosti, vytvořte sloupcový graf, určete modus, průměr, medián a směrodatnou odchylku a interpretujte. Určování charakteristik vyzkoušejte jak pomocí funkcí MS Excel, tak z tabulky třídění. Tyto hodnoty porovnejte, jestli se od sebe liší. 10. Zpracujte proměnnou plat. Použijte intervalové třídění, vypočtěte relativní a kumulativní četnosti, vytvořte spojnicový graf, určete modus, medián, kvartily, průměr a směrodatnou odchylku a interpretujte. Určování charakteristik vyzkoušejte jak pomocí funkcí MS Excel, tak z tabulky třídění. Tyto hodnoty porovnejte, jestli se od sebe liší. Dále z vypočtených charakteristik sestrojte krabicový graf (stačí načrtnout rukou na papír). Výsledky Následují výsledky k předcházejícím úkolům. První čtyři otázky necht zodpoví každý čtenář sám (odpovědi lze v podstatě najít v ukázkových příkladech a ve výkladu v jednotlivých kapitolách). Výsledky dalších příkladů jsou napsány pouze odrážkově, interpretace chybí. Samozřejmě, že grafy může každý vytvořit podle sebe, takže budou vypadat jinak. U příkladů s intervalovým tříděním je mnoho možných výsledků, podle toho, jak každý utvoří intervaly. 5. U proměnné rok narození jsou ukázány dvě možnosti zpracování. V obou případech je šířka intervalu 3 roky, ale jsou zvoleny jiné hranice intervalů. pohlaví n i p i muž % žena % Celkem % VŠP Jihlava, 2015 S. Dvořáková 35

36 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.6 Příklady k procvičení rok narození x i n i p i kp i 1 do ,04 0, ,28 0, ,16 0, ,24 0, ,16 0, a více , ,00 x rok narození x i n i p i kp i 1 do ,24 0, ,20 0, ,20 0, ,20 0, a více , ,00 x 6. Stejně jako v předchozím příkladu, je zde ukázán jenom jeden příklad vytvoření intervalového třídění. věk n i p i kp i 1 do ,12 0, ,16 0, ,20 0, ,16 0, ,24 0, a více 3 0, ,00 x modální třída 83 85, medián x = 80, dolní kvartil x 0,25 = 76, horní kvartil x 0,25 = 84, aritmetický průměr x = 80, 16, rozptyl s 2 = 19, 65, směrodatná odchylka s = 4, 43, variační koeficient v = 5, 5 %. (Všechny hodnoty jsou spočítány pomocí funkcí MS Excel z původních dat.) VŠP Jihlava, 2015 S. Dvořáková 36

37 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.6 Příklady k procvičení 7. pohlaví nominální bodové třídění muž, žena alternativní bydliště nominální bodové třídění Brno, Jihlava, Ostrava, Plzeň, Praha váha kardinální intervalové třídění čísla od 50 do 96 kg spojitá výška kardinální intervalové třídění čísla od 154 do 187 cm spojitá kouříte nominální bodové třídění ano, ne alternativní pijete ordinální bodové třídění nikdy, výjimečně, občas, často změna kardinální bodové třídění čísla 0, 1, 2, 3, 4 diskrétní délka kardinální bodové i intervalové tř. čísla od 1 do 49 diskrétní záleží na počtu obměn plat kardinální intervalové třídění čísla od do Kč spojitá 8. Bydliště: modus = Praha bydliště n i p i Praha 8 26,7 % Brno 7 23,3 % Ostrava 6 20,0 % Plzeň 5 16,7 % Jihlava 4 13,3 % ,0 % 9. Kolikrát jste změnili zaměstnání? : ˆx = 2, x = 2, x = 1, 93, s = 1, 06 x i n i p i kp i % 6,67 % % 36,67 % % 73,33 % % 90,00 % % 100,00 % % VŠP Jihlava, 2015 S. Dvořáková 37

38 1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.6 Příklady k procvičení 10. Plat zaměstnanců : modální třída ; ), x = Kč, x 0,25 = Kč, x 0,75 = Kč, x = Kč, s = Kč plat [Kč] x i n i p i kp i do ,7 % 26,7 % 10000; 13000) ,0 % 56,7 % 13000; 16000) ,3 % 70,0 % 16000; 19000) ,3 % 83,3 % 19000; 22000) ,7 % 90,0 % 22000; 25000) ,7 % 96,7 % nad ,3 % 100,0 % % VŠP Jihlava, 2015 S. Dvořáková 38

39 2. Závislosti dvou proměnných Potřebujeme-li zkoumat zároveň dvě proměnné (např. vztah mezi pohlavím a věkem, vzděláním a platem, apod.), použijeme kombinační třídění. Výsledky tohoto třídění se zapisují do tzv. kontingenční tabulky. Při kombinačním třídění dvou alternativních znaků se tabulka nazývá asociační (čtyřpolní). (Alternativní znaky mají dvě obměny.) Při zkoumání vztahu mezi dvěma proměnnými se musí rozlišit, jedná-li se o číselné nebo slovní znaky. Detailněji si to rozebereme v následujících kapitolách. Nejprve se zaměříme na dva případy, kdy alespoň jedna zkoumaná proměnná je slovní. Potom si ukážeme dva příklady určování závislosti u dvou číselných proměnných. V příkladech se budeme opět odkazovat na tabulku 1.1 obsahující data o klientech v denním stacionáři. Stejně jako v předcházející kapitole o popisné statistice se nebudeme příliš zabývat teorií (tu lze v dostatečné míře najít např. v [2] nebo [5, Modul 5]), ale zaměřme se na praktické počítání. 2.1 Kategoriální proměnné Jako první si ukážeme příklad zpracování asociační tabulky, tzn. budeme zkoumat závislost dvou alternativních slovních znaků. Potom přistoupíme k příkladu, kde jedna proměnná je slovní a druhá číselná (nebo by druhá mohla být i slovní). Příklad 2.1. Prozkoumejme vztah mezi proměnnými pohlaví a vlastní zuby z tabulky 1.1. V MS Excel nástrojem Kontingenční tabulka vytvoříme tabulku kombinačního třídění (obrázek 2.1) do řádků dáme např. proměnnou pohlaví a do sloupců proměnnou vlastní zuby. Tím dostaneme čtyřpolní tabulku 2.1. Jak v asociační tabulce 2.1 číst? Žen, které mají vlastní zuby, je 8. Mužů, kteří vlastní zuby nemají, je 10. Žen je celkem 12 (součet druhého řádku 4 + 8), klientů s vlastními zuby je 11 (součet druhého sloupce 3 + 8). Klientů je celkem 25 (součet celé tabulky , součet posledního sloupce , součet posledního řádku ). V obecné asociační tabulce 2.1 jsou proměnné označené písmeny X, Y, jejich hodnoty jsou 0 a 1 (vyjadřují v podstatě ano/ne). Jednotlivé četnosti potom VŠP Jihlava, 2015 S. Dvořáková 39

40 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Tabulka 2.1: Asociační tabulka obecná a pro proměnné pohlaví a vlastní zuby vlastní zuby y = 0 y = 1 součet pohlaví ne ano celkem x = 0 n 00 n 01 n 0 muž x = 1 n 10 n 11 n 1 žena součet n 0 n 1 n celkem mají v indexu označení hodnot proměnných (n 01 je četnost pro x = 0 a y = 1). Symbol hvězdička znamená součet četností přes obě hodnoty v řádku, resp. sloupci, např. n 1 = n 01 + n 11 je součet četností ve sloupci označeném y = 1. Tyto četnosti se nazývají marginální četnosti. Rozsah souboru je n = n (součet četností přes všechny řádky a všechny sloupce). Umístění proměnných v kontingenční tabulce lze prohodit a dát pohlaví do sloupců. Záleží na zpracovateli, kterak se mu to líbí, protože musíme dostat vždy stejné výsledky o závislosti (tj. jestli pohlaví ovlivňuje vlastnictví zubů nebo ne). Je ale lepší tabulku seřadit podle četností tak, aby v součtovém sloupci a součtovém řádku byly marginální četnosti seřazeny od největší do nejmenší. Jakmile vytvoříme tabulku, je dobré místo Popisky řádků napsat jméno proměnné pohlaví a místo Popisky sloupců napsat vlastní zuby. V tomto konkrétním případě to není zase tak aktuální, protože muž a ano neprohodíme (prostě poznáme, který řádek a sloupec k čemu patří). Ale když budeme zpracovávat dvě proměnné, kdy obě budou mít obměny ano/ne, můžeme je nevědomky prohodit. Obrázek 2.1: Vytvoření kontingenční tabulky VŠP Jihlava, 2015 S. Dvořáková 40

41 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Pro grafické znázornění lze použít např. sloupcový 3D graf (obrázek 2.2) nebo jiné grafy z široké nabídky (záleží na četnostech a vkusu autora grafu). Je ovšem potřeba dáti pozor na to, aby se ve 3D grafu sloupce nepřekrývaly a bylo vidět vše, co má býti vidět. Je lepší používat sloupcový graf nežli např. kuželový. Ten velice zkresluje výsledky. Obrázek 2.2: Sloupcový 3D graf proměnných pohlaví a vlastní zuby Může nás např. zajímat, kolik procent mužů má vlastní zuby. Tady si musíme dát pozor, zda budeme počítat procenta jenom z mužů nebo ze všech klientů. Pokud budeme uvažovat první možnost, tzn. budeme ženy a muže počítat zvlášt, dostaneme relativní četnosti v tabulce 2.2. Zobrazit to můžeme do pruhového grafu na obrázku 2.3. Ale pozor! Je rozdíl, zda řekneme, že 3 = 23 % mužů má vlastní zuby nebo 13 že 3 = 12 % klientů jsou muži s vlastními zuby. V prvém případě jsme za % brali jenom muže, kdežto ve druhém jsme počítali i se ženami. Tabulka 2.2: Tabulka s výpočtem Kolik procent mužů a žen má vlastní zuby? vlastní zuby pohlaví ne ano muž 10/13 = 0, 77 = 77 % 3/13 = 0, 23 = 23 % žena 4/12 = 0, 33 = 33 % 8/12 = 0, 67 = 67 % VŠP Jihlava, 2015 S. Dvořáková 41

42 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Obrázek 2.3: Pruhový skládaný graf proměnných pohlaví a vlastní zuby pro relativní četnost v % Pro posouzení závislosti dvou alternativních proměnných počítáme koeficient asociace V = nn 11 n 1 n 1 n1 n 1 n 0 n 0 = = = 0, 439. Značení četností je vysvětleno výše a četnosti čteme v tabulce 2.1. Můžeme říci, že se jedná o střední pozitivní závislost, ženy mají více vlastních zubů než muži. Podotkněme ještě, že koeficient asociace může nabývat pouze hodnot z intervalu 1; 1. Pokud je V = 0, jsou proměnné zcela lineárně nezávislé. Naopak, pokud se koeficient asociace rovná jedné z krajních hodnot, tj. 1 nebo 1, jsou proměnné zcela lineárně závislé. V praxi ani jeden z těchto extrémů nenastává. Znaménko koeficientu asociace reprezentuje směr závislosti. Záporný koeficient značí negativní korelaci (při růstu jedné proměnné, druhá proměnná klesá, nebo naopak) a u kladného koeficientu mluvíme o pozitivní korelaci (obě proměnné zároveň rostou nebo klesají). V [2, Kap. 3] je uvedena tabulka pro interpretaci síly závislosti. Lze říci, že pod V = 0, 3 se jedná o slabou závislost a nad V = 0, 7 o silnou závislost. Více o koeficientu asociace lze najít např. v [5, Kap. 5.3]. VŠP Jihlava, 2015 S. Dvořáková 42

43 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Příklad 2.2. Prozkoumejme vztah mezi proměnnými pohlaví a počet dětí z tabulky 1.1. V tomto případě se jedná o jednu alternativní slovní proměnnou ( pohlaví ) a jednu číselnou ( počet dětí ). Postup zpracování bude stejný, i kdyby se jednalo o dvě slovní proměnné. Obrázek 2.4: Vytvoření kontingenční tabulky proměnných pohlaví a počet dětí V MS Excel vytvoříme kontingenční tabulku pomocí stejnojmenného nástroje (viz obrázek 2.4) v podstatě stejně jako v příkladu 2.1. (V tomto případě už tabulku neřadíme podle četností, ale logicky podle obměn znaku, tj. podle počtu dětí.) Uděláme také nějaký vhodný graf. Na obrázku 2.5 je ukázka sloupcového grafu. Lze samozřejmě vytvořit i jiné. Dobře vypadá pruhový, skládaný pruhový nebo 3D sloupcový (válcový) graf. Opět záleží na autorovi, jeho vkusu a výsledné přehlednosti grafu. Pro posouzení závislosti dvou proměnných v kontingenční tabulce počítáme čtvercovou kontingenci χ 2 (čteme chí kvadrát ). Tato charakteristika je podrobněji popsaná např. v [5, Kap. 5.2]. Pro výpočet χ 2 musíme nejprve spočítat tzv. vypočtenou četnost podle vztahu n ij = n in j n. VŠP Jihlava, 2015 S. Dvořáková 43

44 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Obrázek 2.5: Sloupcový graf počtu dětí klientů s ohledem na pohlaví klienta Tabulka 2.3: Tabulka s výpočtem čtvercové kontingence χ 2 původní četnosti n žena muž vypočtené četnosti n žena muž žena výpočet χ 2 muž ,4 2, ,88 3, ,36 3, ,92 2, ,96 1, ,48 0, ,150 0,138 0, ,269 0,248 0, ,039 0,036 0, ,003 0,003 0, ,127 1,040 2, ,480 0,443 0,923 2,067 1,908 3,976 Každou buňku (teoretickou vypočtenou četnost) kontingenční tabulky přepočítáme tak, že vždy vynásobíme součet příslušného řádku se součtem příslušného sloupce a vydělíme rozsahem souboru (součtem všech buněk tabulky), viz druhá tabulka 2.3. Např. pro ženu s 0 dětmi je n = 5 12 = 2, 4 25 a pro muže se 3 dětmi je n = 4 13 = 2, Tato vypočtená četnost je četnost, která by byla v případě, že by proměnné byly naprosto nezávislé. Protože se jedná o teoretické číslo, nemusí být celé (což většinou ani není). VŠP Jihlava, 2015 S. Dvořáková 44

45 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Dále už můžeme přistoupit k výpočtu žádané charakteristiky χ 2 = i (n ij n ij) 2 n j ij = 3, 976. Pro každou buňku v tabulce vypočítáme číslo uvnitř sum, tj. od skutečné četnosti odečteme vypočtenou, umocníme na druhou a vydělíme vypočtenou četností (v tomto pořadí). Např. pro ženu s 0 dětmi je (3 2,4)2 = 2,4 0, 150 a pro muže se 3 dětmi je (2 2,08)2 = 0, ,08 Potom všechna čísla v tabulce sečteme (dva znaky sumace) a dostaneme čtvercovou kontingenci χ 2 = 3, 976, viz tabulka 2.3. POZOR! Když si pořádně přečteme teorii k analýze závislostí a k příslušnému χ 2 testu, zjistíme, že nelze použít vždy. Podmínky jsou takové, že žádná z teoretických vypočtených četností n ij nesmí být menší než 2 a alespoň 80 % z nich musí být větší než 5. Někde se uvádí pouze, že většina četností n ij by měla být větší než 5. Pokud tyto podmínky splněny nejsou, což je i v našem příkladě, jedná se o velice hrubý odhad. Čím větší je rozsah souboru, tím jsou podmínky lépe splněny. My máme málo hodnot (pouze 25 klientů). Podle velikosti čtvercové kontingence nelze říci, jak moc jsou proměnné závislé (χ 2 může v podstatě být jakékoli kladné číslo, záleží na velikosti kontingenční tabulky a rozsahu souboru). Proto se počítají další koeficienty kontingence. Vypočítáme např. Pearsonův koeficient kontingence P = χ 2 χ 2 + n = 3, 976 = 0, 37. 3, Tento koeficient může nabývat hodnot mezi 0 a 1, přičemž 0 znamená naprostou nezávislost proměnných. Interpretace je podobná jako u koeficientu asociace. O dalších koeficientech kontingence je možno se dočíst v [5, Kap. 5.2]. Někdy je dobré ověření závislosti dvou promměnných udělat pomocí hypotéz. Teorii k tomuto tématu lze najít v [2, Kap. 5]. Princip je takový, že stanovíme tzv. nulovou hypotézu: Dvě sledované proměnné jsou nezávislé (není mezi nimi závislost). Potom protichůdnou alternativní hypotézu: Proměnné jsou závislé. Dále ještě musíme stanovit hladinu významnosti, tj. riziko, že se spleteme, např. α = 5 %. A nakonec musíme vybrat ten správný test. V našem případě se bude jednat o χ 2 test o nezávislosti. VŠP Jihlava, 2015 S. Dvořáková 45

46 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Z tabulek 2.3 pro výpočet hodnoty čtvercové kontingence vypočítáme tzv. p-hodnotu. Nejlepší je to udělat pomocí nějakého softwaru. V MS Excel lze použít funkci CHITEST, do které se vloží pozorované četnosti (první tabulka) a očekávané četnosti (druhá tabulka), jak je vidět na obrázku 2.6. Obrázek 2.6: Výpočet p-hodnoty pro χ 2 test o nezávislosti Tuto vypočtenou p-hodnotu, v našem případě vyšla 0,55, porovnáme s požadovaným rizikem. Pokud je p-hodnota větší 0, 55 > 0, 05, potom zamítáme alternativní hypotézu, že jsou proměnné závislé. Tudíž by mohly být nezávislé. Pozor při interpretaci závěrů hypotéz. Hypotézy vždy zamítáme. Nikdy bychom neměli říci, že některá hypotéza platí! Pokud by p-hodnota byla menší než požadovaná hladina významnosti α, zamítli bychom nulovou hypotézu o nezávislosti. Pokud si pořádně přečtete teorii k právě použitému χ 2 testu o nezávislosti, zjistíte, že jsme ho neměli použít. Jedna z podmínek je, že by očekávané četnosti měly mít hodnotu nejméně 5. Což v našem příkladu rozhodně není dodrženo! Závěry z hypotézy tudíž mohou být špatné. VŠP Jihlava, 2015 S. Dvořáková 46

47 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.2 Korelační a regresní analýza 2.2 Korelační a regresní analýza V této kapitole se budeme zabývat závislostmi mezi číselnými proměnnými. Jedná se o korelační a regresní analýzu. Teorii k této kapitole lze najít např. v [2, Kapitoly 3, 4] nebo [5, Modul 5]. Na začátku zkoumání závislostí si musíme objasnit, o jakou závislost se jedná. Máme jednostrannou a oboustrannou závislost. U jednostranné závislosti dokážeme říci, co je příčina a co důsledek, tj. můžeme určit nezávisle proměnnou x a závisle proměnnou y. Např. výkupní cena obilí přímo ovlivní prodejní cenu pečiva (ale ne obráceně). U oboustranné závislosti toto určit nedokážeme. Nemůžeme říci, co bylo dříve (příčina) a co později (důsledek). Např. cena pečiva a cena masa nějakou spojitost mají, ale nemůžeme říci, že cena masa vzrostla, protože zdražili rohlíky. Než přistoupíme k vlastnímu počítání, vytvoříme bodový graf. U jednostranné závislosti je to jasné, na osu x vyneseme nezávisle proměnnou, na osu y závisle proměnnou. U oboustranné závislosti je to jedno a záleží na nás, jak si označení proměnných vybereme (většinou v souladu se zadáním či cíli výzkumu). Každý bod grafu odpovídá jednomu páru dat (odpovědi jednoho člověka, hodnot z jednoho pokusu atd.). Při vytváření bodového grafu v MS Excel si dejte pozor, abyste vytvořili opravdu bodový graf a ne spojnicový (viz obrázek 2.7). Pro normálního uživatele v nich na první pohled není rozdíl, ale každý má jiné vlastnosti. Uživatelé MS Excel většinou používají Průvodce vytvořením grafu, ale někdy to není výhodné. Občas je lepší v grafu zvolit Vybrat data, Přidat řadu a příslušné proměnné (tj. x a y) označit ručně (obrázek 2.8). Obrázek 2.7: Vložení bodového grafu Graf může mnoho věcí napovědět. V první řadě by se neměly vyskytovat žádné odlehlé hodnoty. Jedná se o jednotlivé body, které jsou výrazně mimo ostatní. Nám prozatím postačí odlehlé hodnoty určit pohledem na graf. V [5, Kap. 5.2] VŠP Jihlava, 2015 S. Dvořáková 47

48 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.2 Korelační a regresní analýza Obrázek 2.8: Úprava dat v bodovém grafu lze najít teorii, jak přesněji odlehlé hodnoty určit a vyřadit z dat. Další důležitou vlastností je homogenita dat. Pokud data nejsou homogenní, v bodovém grafu se většinou objeví dva shluky bodů. Jedná se např. o rozdílnost v pohlavích (ženy jsou menší než muži, mají menší platy apod.). V takovém případě je zapotřebí každý shluk řešit zvlášt (tj. závislosti zkoumat zvlášt pro muže a zvlášt pro ženy). Více lze najít i v [2, Kapitola 3]. V prvním příkladu ukážeme, jak zjišt ovat intenzitu u oboustranné závislosti. Potom bude následovat příklad pro určování jednostranné závislosti. Příklad 2.3. Ptali jsme se dvanácti žen, kolik ročně utratí za kadeřníka a za manikúru. Výsledky průzkumu (v tis. Kč) jsou zaznamenámy v tabulce 2.4. Zjistěte, zda existuje závislost mezi těmito výdaji a jak je silná. Tabulka 2.4: Roční výdaje za kadeřníka a manikúru v tis. Kč č kadeřník 5,2 6,7 9 0,2 6 3,7 7,1 3,1 8,1 2 3,4 4,9 manikúra 3,7 6,2 9,7 0,1 7,3 4,8 8,2 5,2 6,7 0,5 1,2 1,8 Nejprve si bychom měli rozmyslet, o jakou závislost se jedná (o jedno nebo oboustrannou). Dokážeme určit příčinu a důsledek? V tomto případě ne, proto se jedná o oboustrannou závislost. Proměnné si tedy můžeme označit libovolně, např. x kadeřník a y manikúra. Dalším krokem je vytvoření bodového grafu. Ten je na obrázku 2.9. Po prozkoumání tohoto grafu můžeme říci, že tam není viditelná nehomogenita dat, ani odlehlé hodnoty. Můžeme tedy přistoupit k výpočtu. Pro určení síly závislosti použijeme korelační analýzu. Nejčastěji se používá Pearsonův korelační koeficient, označovaný písmenem r. Vzorec pro výpočet uvádět nebudeme, lze ho najít v různých učebnicích statistiky zabývajících se VŠP Jihlava, 2015 S. Dvořáková 48

49 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.2 Korelační a regresní analýza Obrázek 2.9: Bodový graf pro určování závislosti výdajů za kadeřníka a manikúru problematikou analýzy závislostí. V MS Excel tento koeficient zjistíme pomocí funkce CORREL. Nebo lze použít nástroj Analýza dat Korelace. V našem případě vyjde r = 0, 861. Hodnota r 2 = 0, 742 bývá označována jako koefecient determinace nebo spolehlivost. Závěr je takový, že mezi výdaji za kadeřníka a manikúru existuje docela silná pozitivní lineární závislost. Pearsonův koeficient korelace je velmi ovlivněn odlehlými hodnotami. Koeficient korelace r měří pouze sílu lineární závislosti! Pokud je skutečná závislost dat jiná (kvadratická, exponenciání apod.), hodnota tohoto koeficientu není vypovídající. Koeficient korelace se pohybuje v rozmezí hodnot 1 r 1. Znaménko koeficientu korelace určuje směr závislosti. Pozitivní závislost (kladné hodnoty) je tehdy, když se druhá proměnná zvětšuje při rostoucí první proměnné. Při negativní závislosti (záporné hodnoty) se druhá proměnná zmenšuje při rostoucí první proměnné. Naprosto nezávislé proměnné jsou tehdy, pokud r = 0. Čím více se koeficient korelace blíží k hodnotě 1 nebo 1, tím více jsou proměnné závislé. V krajních hodnotách, tj. pro r = 1, resp. r = 1, leží všechny body grafu na jedné přímce, a to na rostoucí, resp. klesající. Někdy se zařazují hodnoty korelace do pásem podle velikosti koeficientu r, např. malá závislost pro 0, 1 0, 3, střední pro 0, 3 0, 7 a velká pro 0, 7 1. Jiné dělení lze najít např. v [2, Kap ]. VŠP Jihlava, 2015 S. Dvořáková 49

50 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.2 Korelační a regresní analýza Příklad 2.4. Zjistěte případnou závislost mezi věkem a velikostí důchodu klientů denního stacionáře z tabulky 1.1. Lze předpokládat, že se jedná o jednostrannou závislost, protože věk ovlivňuje veliskost důchodu. Proto proměnnou věk označíme jako x a důchod jako y. (Pokud v datech nemáme proměnnou věk, lze ji dopočítat z roku narození.) Poté nakreslíme bodový graf (obrázek 2.10), abychom odhalili případné odlehlé hodnoty a nehomogenitu dat. Obrázek 2.10: Bodový graf závislosti velikosti důchodu na věku Pro určení síly závislosti použijeme korelační analýzu. Ta byla popsána v předchozím příkladu 2.3. Použijeme funkci CORREL a vyjde r = 0, 076. Lze říci, že závislost je velmi slabá. Korelační koeficient není úplným popisem dat i při velmi silném lineárním vztahu. Pro úplnější popis potřebujeme znát rovnici přímky, která vyjadřuje tvar vztahu. Proto přistoupíme k regresní analýze. V těchto skriptech budeme předpokládat pouze lineární vztah mezi proměnnými, tj. body v grafu proložíme přímkou y = a + bx, kde a je absolutní člen (v tomto bodě přímka protíná svislou osu y), b je směrnice (sklon) přímky. Je jasné, že všechny body grafu na přímce ležet nemohou. Pro prvotní orientaci stačí přímku narýsovat od ruky. Jenže existuje velmi mnoho možností, jak tuto přímku nakreslit. Regresní analýza hledá tu nejlepší přímku a to metodou nejmenších čtverců. Jedná se v podstatě o to, že v každém VŠP Jihlava, 2015 S. Dvořáková 50

51 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.2 Korelační a regresní analýza bodě vypočítáme rozdíl mezi skutečnou hodnotou y i a hodnotou na přímce y i (jedná se o vzdálenost ve směru svislé osy). Těmto hodnotám se říká rezidua. Když tyto rozdíly umocníme na druhou a sečteme pro všechny body grafu, dostaneme reziduální součet čtverců S = i (y i y i) 2. Hledáme tu přímku, pro kterou je tento součet nejmenší. Pro metodu nejmenších čtverců jsou již odvozeny vzorce pro výpočet koeficientů přímky, takže nemusíme používat složitější matematiku pro minimalizaci součtu. Nejjednodušší možností, jak regresní přímku zjistit, je v bodovém grafu přidat spojnici trendu (obrázek 2.11 vlevo). Nezapomeneme zaškrtnout možnost zobrazení rovnice a spolehlivosti (obrázek 2.11 vpravo). Výsledek je zobrazen na obrázku Obrázek 2.11: Přidání a nastavení spojnice trendu do bodového grafu Pokud bychom potřebovali znát koeficient korelace, hodnotu spolehlivosti odmocníme a doplníme znaménko (plus pro rostoucí a minus pro klesající přímku). Další možností, jak zjistit koeficienty regresní přímky, je použití funkcí MS Excel. Směrnici přímky získáme funkcí SLOPE a absolutní člen pomocí INTER- CEPT. Korelační koeficient potom zjistíme funkcí CORREL. VŠP Jihlava, 2015 S. Dvořáková 51

52 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.2 Korelační a regresní analýza Obrázek 2.12: Regresní přímka a spolehlivost pro závislost důchodu a věku K čemu potřebujeme znát rovnici regresní přímky? Pro odhad hodnot, které neznáme. Např. jaký bude asi mít důchod budoucí 74-letý klient? Toho ještě nemáme, ale je to věk nacházející se mezi věky stávajících klientů. Jedná se o tzv. interpolaci. Hodnotu 74 dosadíme za x do rovnice regresní přímky a dostaneme předpokládanou velikost důchodu = 7896 Kč. Při extrapolaci odhadujeme hodnotu, která leží mimo analyzované hodnoty. Toto číslo by se nemělo příliš vzdalovat od krajních hodnot. Např. budeme odhadovat velikost důchodu pro klienta, kterému je 88 let, tj = 8260 Kč. Samozřejmě, že v našem případě, kdy se jedná o velmi slabou závislost, nelze z interpolace a extrapolace dělat nějaké důležité závěry. Jedná-li se o složitější závislosti mezi proměnnými, než je lineární závislost, lze zase využít metodu nejmenších čtverců a spojnici trendu v bodovém grafu. Těmito případy se ale v tomto textu zabývat nebudeme. VŠP Jihlava, 2015 S. Dvořáková 52

53 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.3 Shrnutí 2.3 Shrnutí Při zpracovávání dat z nějakého statistického šetření nestačí zpracovávat každou otázku zvlášt. Někdy je zapotřebí dívat se na dvě proměnné najednou. Např. rozdělit si dotázané podle pohlaví, dosaženého vzdělání atd. K tomu slouží kombinační třídění. Pak je dobré zjišt ovat, zda jsou dvě proměnné spolu nějak provázané, jestli na sobě nějakým způsobem závisí. Pokud je alespoň jedna zkoumaná proměnná slovní, vytvoří se kontingenční tabulka a počítají se koeficienty kontingence. Lze použít i testování hypotéz o nezávislosti dvou proěnných. Jedná-li se o dvě číselné proměnné, přistoupí se ke korelační a regresní analýze, kde se nejprve vytvoří bodový graf, poté vypočítá koeficient korelace a určí se případná regresní křivka. Pojmy k zapamatování: Kombinační třídění, kontingenční tabulka, asociační tabulka, marginální četnosti, koeficient asociace, čtvercová kontingence, koeficienty kontingence, χ 2 test o nezávislosti proměnných, korelační a regresní analýza, jednostranná a oboustranná závislost, závislá a nezávislá proměnná, bodový graf, koeficient korelace, regresní křivka, lineární závislost. VŠP Jihlava, 2015 S. Dvořáková 53

54 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.4 Příklady k procvičení 2.4 Příklady k procvičení V dalším se budeme odkazovat na tabulku Jedná se o výsledky statistického šetření mezi zaměstnanci jedné firmy. Sloupce postupně znamenají: č. číslo zaměstnance kouříte Kouříte? pohlaví bydliště váha (v kg) výška (v cm) pijete Jak často pijete alkohol? změna Kolikrát jste změnili zaměstnání? délka délka nynějšího zaměstnání (v letech) plat (v Kč) 1. Zjistěte, zda to, že člověk kouří je ovlivněno pohlavím nebo ne. Vytvořte asociační tabulku, vypočtěte koeficient asociace a interpretujte. Vytvořte vhodný graf. 2. Zjistěte, zda je častější pití alkoholu ovlivněno tím, že člověk kouří. Vytvořte kontingenční tabulku, vypočtěte čtvercovou kontingenci, Pearsonův koeficient kontingence a interpretujte. Vytvořte vhodný graf. Testujte hypotézu o závislosti proměnných na hladině významnosti α = 0, Zjistěte, zda je plat zaměstnance nějak ovlivněn odpracovanými roky v nynějším zaměstnání. Určete, o jakou závislost se jedná. Vytvořte bodový graf, vypočtěte regresní koeficient, určete regresní přímku a interpretujte. Pomocí rogresní přímky odhadněte plat pro zaměstnance, který odpracuje 20 let. 4. Zjistěte, zda váha člověka závisí na jeho výšce. Určete, o jakou závislost se jedná. Vytvořte bodový graf, vypočtěte regresní koeficient, určete regresní přímku a interpretujte. Pomocí regresní přímky odhadněte váhu člověka s výškou 165 cm. 5. Z tabulky 1.10 vyberte dvě proměnné, jednu slovní a jednu číselnou a zjistěte jejich závislost. 6. Z tabulky 1.10 vyberte dvě číslené proměnné a zjistěte jejich závislost. 7. Testujte hypotézu na hladině významnosti 5 %, zda je úroveň neschopnosti lidí v domově důchodců závislá na věku. Dala o počtech jsou v následující tabulce: do nad 80 I. St II. St III. St VŠP Jihlava, 2015 S. Dvořáková 54

55 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.4 Příklady k procvičení Výsledky 1. koef. asociace V = 0, 018 skoro nezávislé Kouříte? muž žena ano ne χ 2 = 11, 43, Pearson P = 0, 52 středně závislé nulová hypotéza: jsou nezávislé; alternativní hypotéza: jsou závislé p-hodnota = 0, 009 < α = 0, 05 zamítáme nulovou hypotézu, tj. připouštíme závislost Kouříte? Pijete? ano ne nikdy výjimečně občas často jednostranná závislost (x odpracované roky, y plat), regr. přímka y = x, regr. koef. r = 0, 96 silně závislé, pro 20 odpracovaných let je odhad platu Kč. Na tomto příkladu je vidět, že přímkou lze body proložit (modrá čára v grafu), i regresní koeficient je vysoký, takže výše platu hodně závisí na odpracovaných letech. Ale když se pořádně podíváte na bodový graf, bylo by vhodnější body proložit jinou křivkou (červená čára v grafu). Jedná se o kvadratickou funkci, body lépe kopíruje a má větší hodnotu spolehlivosti r 2. VŠP Jihlava, 2015 S. Dvořáková 55

56 2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.4 Příklady k procvičení 4. jednostranná závislost (x výška, y váha), regr. přímka y = 137+1, 2x, regr. koef. r = 0, 86 závislé, pro výšku 165 cm je odhad váhy 67 kg (oranžový bod v grafu). do nad původní: I. st II. st III. st očekávané: do nad 80 I. st 23,18 25,84 15,2 11,78 II. st 20,13 22,44 13,2 10,23 III. st 17,69 19,72 11,6 8,99 p-hodnota= 0, 027 = 2, 7 % < 5 % zamítáme nezaávislost (připouštíme závislost) VŠP Jihlava, 2015 S. Dvořáková 56

57 3. ČASOVÉ ŘADY 3. Časové řady 3.1 Úvod Data, která získáváme v mnoha oblastech lidského konání a která chceme následně statisticky hodnotit, jsou často ve formě tzv. časových řad. Časová řada je posloupnost hodnot určitého statistického znaku (jevu např. věk, počet obyvatel, plat, cena, teplota, atd.) chronologicky uspořádaných z hlediska času ve směru od minulosti k přítomnosti. Časová řada je tedy změna určitého jevu v čase. Cílem analýzy časových řad je většinou konstrukce modelu, který nejlépe vystihuje chování zkoumané časové řady. Na základě konstrukce modelu můžeme odhalit, co ovlivňuje hodnoty příslušné časové řady a na čem naopak pravděpodobně nezávisí (jaký je mechanismus zkoumaných dat). Můžeme také podrobněji studovat vývoj a trend časové řady. Model můžeme také využít k predikci budoucích hodnot řady. Uvědomme si ale, že ani sebelepší model nám není schopen přesně určit budoucí hodnotu, můžeme ji pouze odhadnout. Problematika časových řad je velice rozsáhlá a neustále se rozvíjí. Ve většině analýz časových řad neexistuje jednoznačný postup a záleží na zkušenostech a vědomostech analytika. Pro hledání vhodného modelu k popisu chování časové řady existuje mnoho různých metod a jejich kombinací. Přičemž pochopitelně při různých postupech dosáhneme různých výsledků. Otázkou tedy je, jak posoudit vhodnost daného modelu. Tato skripta jsou ovšem určetna k tomu, aby si čtenář udělal prvotní představu o tom, co jsou vlastně časové řady zač. Pokud někdo bude potřebovat zaobírat se tímto tématem podrobněji, je nutné studovat speciální literaturu k tomu určenou. V dalším textu si ukážeme pouze jednu nejpoužívanější jednoduchou metodu. Než přistoupíme k příkladům, na kterých popíšeme zmíněný model pro analýzu časových řad, zmiňme pár důležitých drobností, nad kterými by se student měl zamyslet ještě před zpracováváním. Při stanovování hodnot časových řad se mohou vyskytnout následující problémy: Zastarávání údajů má mnoho příčin. Vlivem technického pokroku není výrobek, který je vyroben v dnešní době, ten stejný, jako výrobek vyroben před několika lety. Ceny se časem také vyvíjí a nelze nákup za 100 Kč před dvaceti lety srovnávat s nákupem za 100 Kč dnes. Pokud to lze, je VŠP Jihlava, 2015 S. Dvořáková 57

58 3. ČASOVÉ ŘADY 3.1 Úvod potřeba tyto údaje přepočítat. Je dobré se zamyslet na tím, jak dlouhou řadu hodnot potřebujeme pro příslušnou analýzu. Problém kalendářových variací je způsoben především tím, že každý měsíc má jiný počet dnů, pracovních dnů, víkendů a svátků. Největší problémy dělá přestupný rok a pohyblivé svátky (Velikonoce). V případě potřeby se provádí očišt ování řady od vlivu kalendářových variací. Hodnota za každý měsíc se přepočítá na průměrný (standartizovaný) měsíc, který má 365 =30, 42 dnů. Např. máme-li za leden 156 narozených dětí, dostaneme 12 přepočítanou hodnotu ,42 = 153, 08 narozených dětí za průměrný 31 měsíc (ukázka v příkladu 3.2). Někdy se za standartizovaný měsíc bere 30 dnů (rok má poté pouze 360 dnů). Podle potřeby se data očišt ují i na pracovní dny (nebere se v úvahu sobota, neděle a svátky). Ke zjištění počtu pracovních dnů v určitém měsíci a roce můžeme v MS Excel použít funkci NETWORKDAYS. Volbu časových okamžiků, příp. úseků, je potřeba dobře uvážit. Někdy nemá smysl volit pozorování příliš často (hodnoty jsou podobné a nedozvíme se nic nového, ale zvýšíme výpočtovou náročnost). Na druhou stranu nesmíme volit časové body příliš vzdálené, abychom neminuli nějakou podstatnou hodnotu. Pokud to situace dovolí, snažíme se volit pozorování se stejnými intervaly. Důležité u získávání hodnot časové řady je věcné a prostorové vymezení po celé sledované období. To znamená, že pokud se změní např. metodika získávání určitého ukazatele (počítání porodnosti z jiných statistik, tj. jestli je počet živě narozených dětí vztaženo na počet všech žen nebo jen na ženy v produktivním věku) nebo prostorové vymezení (počet obyvatel Jihlavy, kdy se k městu připojí další místní části), je třeba zabezpečit srovnatelnost hodnot pomocí více či méně složitých přepočtů. Podívejme se blíže na časový parametr řad. Podle zvyklosti se označuje t. Někdy udává přímo čas, ke kterému se příslušná hodnota časové řady vztahuje, např. t = Jindy se jedná o pořadí příslušné pozorované časové hodnoty, tj. t = 1 je pro první pozorování atd. Podle času získávání hodnot se časové řady dělí na: Časové řady okamžikové zjištěné hodnoty se vztahují k určitému časovému okamžiku. Vzdálenosti těchto okamžiků mohou být stejné (ekvidistantní) nebo různé. Součet hodnot této řady nelze smysluplně interpretovat. Může se jednat např. o počet klientů poradny poslední den v měsíci, počet obyvatel určité obce k 1.1. příslušného roku nebo inventuru zásob na skladě. VŠP Jihlava, 2015 S. Dvořáková 58

59 3. ČASOVÉ ŘADY 3.1 Úvod Časové řady úsekové (intervalové) zjištěné hodnoty se vztahují k určitému časovému úseku. Součet této řady má smysl. Součtem denních hodnot získáme týdenní, měsíční, čtvrtletní nebo roční údaje (což je vytvoření odvozené řady). Jedná se např. o počet narozených dětí za měsíc, počet přijatých (vyřízených) žádostí za den, atd. Okamžiky sledování hodnot časové řady lze na čáře (ose) času znázornit bodem, kdežto časový interval úsečkou. První důležitou součástí analýzy je grafické zobrazení zkoumané časové řady a na základě grafu je možno se rozhodnout o dalším postupu. Při prvním zobrazení stačí použít spojnicový graf. Někdy je lepší zvolit bodový. Záleží na povaze dat a zda máme zkoumané časové okamžiky stejně daleko od sebe či nikoli. Na osu x se vždy vynáší čas a na osu y hodnoty zkoumané časové řady. Příklad 3.1. V obci Třeskoprsky během roku 2015 zaznamenávali, kolik mají aktuálně počet obyvatel. Data jsou v tabulce 3.1. V tomto případě se jedná o okamžikovou časovou řadu, protože počet obyvatel je stanoven v určitý okamžik (datum). Když se blíže podíváme na tabulku 3.1, zjistíme, že datumy zjišt ování jsou různě vzdálené od sebe. Při vytváření grafu si na to musíme dát pozor. Pokud bychom sečetli např. první tři hodnoty, tj = 3757, nedostaneme žádnou smysluplnou hodnotu. Rozhodně to neznamená, že v obci Třeskoprsky bydlelo v prvním čtvrtletí dohromady 3757 obyvatel. U okamžikových časových řad totiž součet jednotlivých hodnot nemá smysl. datum poč. obyv Tabulka 3.1: Počet obyvatel obce Třeskoprsky v průběhu roku 2015 Na obrázcích 3.1 a 3.2 jsou ukázány dva grafy, které jsou vytvořené ze stejných dat (z tabulky 3.1), stejným typem grafu (spojnicový graf), s je- VŠP Jihlava, 2015 S. Dvořáková 59

60 3. ČASOVÉ ŘADY 3.1 Úvod Obrázek 3.1: Ukázka vytvoření grafu okamžikové řady s nestejně vzdálenými okamžiky spojnicový graf Obrázek 3.2: Ukázka vytvoření grafu okamžikové řady s nestejně vzdálenými okamžiky diným rozdílem, a to typem osy x. Na prvním obrázku 3.1 je typ Osa textu. Je vidět, že na ose x jsou přesně vypsány jednotlivé datumy zapisování počtu lidí, ale všechny body grafu jsou od sebe stejně vzdálené. Což neodpovídá realitě, protože mezi jednotlivými okamžiky zapisování údajů je různý počet dní. Kdežto na druhém obrázku 3.2, kde se jedná o typ Osa data, mají body grafu různé vzdálenosti (podle reality), ale na ose x nejsou vypsané přesné VŠP Jihlava, 2015 S. Dvořáková 60

61 3. ČASOVÉ ŘADY 3.1 Úvod datumy zapisování počtu obyvatel. Příslušné grafy jsou vytvořené v MS Excel Ve starších verzích se vlastnosti spojnicového grafu mohou trochu lišit (nemusí tam být výběr typu osy). Příklad 3.2. V obci Třeskoprsky během roku 2015 zaznamenávali, kolik se každý měsíc narodilo dětí. Data jsou v tabulce 3.2. měsíc leden únor březen duben květen červen počet narozených dětí měsíc červenec srpen září říjen listopad prosinec počet narozených dětí Tabulka 3.2: Počet narozených dětí v obci Třeskoprsky v průběhu roku 2015 V tomto případě se jedná o úsekovou (intervalovou řadu), protože číslo vždy vyjadřuje počet narozených dětí během celého měsíce a ne v určitý ukamžik. Pokud sečteme hodnoty např. z ledna až března, dostaneme počet narozených dětí v první čtvrtině roku ( = 56). Obrázek 3.3: Ukázka grafu intervalové řady počet narozených dětí v jednotlivých měsících VŠP Jihlava, 2015 S. Dvořáková 61

62 3. ČASOVÉ ŘADY 3.1 Úvod Jak bylo řečeno výše, u časových řad bývá problém s kalendářem, přesněji řečeno s různým počtem dnů jednotlivých měsíců. Pokud nám to z nějakého důvodu vadí, lze časovou řadu očistit, tj. hodnoty řady přepočítat na standartizovaný měsíc. Ukázka takového přepočtu je v tabulce 3.3 ve čtvrtém sloupci. Na příslušný vzoreček lze přijít i trojčlenkou. Vzhledem k tomu, že u úsekových časových řad má součet jednotlivých hodnot smysl, lze v tomto příkladu sestrojit i tzv. odvozené řady. Jedná se o kumulativní a klouzavou řadu. První zmíněná řada, kumulativní nebo-li součtová, vznikne postupným načítáním hodnot původní časové řady (podobně, jako je tomu u kumulativní četnosti ukázané v první části těchto skript). Hodnota kumulativní řady v červnu říká, že se od začátku roku až do června (včetně) narodilo v obci Třeskoprsky právě 100 dětí (viz tabulka 3.3 pátý sloupec). rok počet nar. počet dní přepočet na kumulativní klouzavá řada 2015 dětí v měsíci standar. měsíc řada p = 3 p = 4 leden ,42 31 = 20, 6 21 únor ,42 28 = 18, březen , duben , květen , červen , červenec , srpen , září , říjen , listopad , prosinec , součet ,12 x x x Tabulka 3.3: Přepočet hodnot na standartizovaný měsíc a odvozené řady Pokud chceme vypočítat klouzavou řadu, musíme si nejprve určit délku její klouzavé části p. V tabulce 3.3 jsou ukázány dvě klouzavé řady, a to tří- a čtyř- VŠP Jihlava, 2015 S. Dvořáková 62

63 3. ČASOVÉ ŘADY 3.2 Průměrování časových řad měsíční. Princip je podobný jako u kumulativní řady, ale nesčítámě hodnoty od začátku, nýbrž pouze posledních p hodnot. Pro tříměsíční (p = 3) kluzavou řadu hodnota v říjnu (63) vyjadřuje počet narozených dětí za srpen, září a říjen. V MS Excel lze klouzavé řady velice rychle spočítat pomocí funkce SUMA (kdy označíme příslušné hodnoty, které se mají právě sečíst), jak je ukázáno na obrázku 3.4. Poté zkopírováním do celého slouce dojde k vypočítání celé řady a to díky posunu příslušných odkazů. Obrázek 3.4: Ukázka výpočtu klouzavé řady 3.2 Průměrování časových řad Pokud chceme určit průměr hodnot časové řady, musíme rozlišit dva dříve zmíněné typy časových řad: úsekové časové řady výpočet se provádí klasicky pomocí aritmetického průměru (jak je ukázáno v příkladech 3.3 a 3.4). okamžikové časové řady aritmetický průměr nelze použít (protože součet hodnot okamžikové řady nedává smysl, jak bylo ukázáno v příkladu 3.1). Používá se tzv. chronologický průměr. Při jeho počítání musíme zohlednit, zda byly okamžiky měření stejně vzdálené, či nikoli. Vyskytuje se ve dvou formách (stejně jako aritmetický průměr): VŠP Jihlava, 2015 S. Dvořáková 63

64 3. ČASOVÉ ŘADY 3.2 Průměrování časových řad prostá forma v případě stejné vzdálenosti mezi jednotlivými okamžiky (ukázáno v příkladu 3.6) ȳ = y y y n 1 + yn 2 n 1, vážená forma v případě nestejných vzdáleností mezi jednotlivými okamžiky (viz příklad 3.5) ȳ = y 1 +y 2 2 (t 2 t 1 ) + y 2+y 3 2 (t 3 t 2 ) + yn 1+y n 2 (t n t n 1 ) t n t 1. Podrobnější popis teorie k výpočtu průměru časových řad (tzv. měření úrovně dynamiky jevů) lze najít např. v [5, Modul 6 Kap. 1.4]. Příklad 3.3. Spočítejme průměrný počet narozených dětí v obci Třeskoprsky za rok Příslušné údaje jsou v tabulce 3.2. Protože se jedná o úsekovou řadu, budeme průměr počítat klasicky aritmetickým průměrem. Za rok 2015 se narodilo celkem 205 dětí (součet hodnot ze všech měsíců). Průměrně se tedy v každém měsíci narodilo 205 = 17, 08 dětí. 12 Pokud by se opravdu každý měsíc narodilo 17,08 dětí, pak se za celý rok narodí celkem 12 17, 08 = 205 dětí. Příklad 3.4. V obci Třeskoprsky v průběhu roku 2015 zaznamenávali počet narozených dětí trochu nepořádně. V lednu se narodilo 21 dětí, v únoru 17, za březen, duben a květen dohromady 47 dětí, v červnu 15, o prázdninách (v červenci a srpnu) dohromady 35 dětí, v září 24 a do konce roku 46 dětí. Spočítejme průměrný počet narozených dětí. V tomto případě se jedná o úsekovou řadu s nestejně velkými intervaly. Pokud se ale zamyslíme, tak na výpočet logicky přijdeme. Za celý rok se narodilo dohromady = 205 dětí. A protože rok má 12 měsíců, tak průměrný počet narozených dětí každý měsíc je = 17, 08. Příklad 3.5. Spočítejme průměrný počet obyvatel obce Třeskoprsky v roce 2015 z příkladu 3.1. Data jsou v tabulce 3.1. Jedná se o okamžikovou řadu. Mezi jednotlivými daty zapisování počtu obyvatel je různý počet dní. Pro výpočet průměru se tedy musí použít chronologický průměr ve vážené formě. Nejprve musíme zjistit vzdálenost okamžiků, tj. počet dní mezi zapisováním údajů (v tabulce 3.4 třetí sloupec). (V MS Excel stačí dvě buňky s datumy od sebe odečíst.) Potom vypočítáme fiktivní intervalovou řadu VŠP Jihlava, 2015 S. Dvořáková 64

65 3. ČASOVÉ ŘADY 3.2 Průměrování časových řad datum počet obyvatel počet dní přepočítaná úsek. řada výpočet chronol. pr. t i y i t i t i 1 y i +y i 1 2 y i +y i 1 2 (t i t i 1 ) x x x = = = = = = , , , , součet x 364 x ,5 Tabulka 3.4: Výpočet chronologického průměru počtu obyvatel obce Třeskoprsky y 1 +y 2, y 2+y 3,... (čtvrtý sloupec). (V MS Excel bud vypočítáme pomocí vzorce 2 2 =(B3+B4)/2 s odkazy na příslušné buňky nebo funkcí PRŮMĚR(B3:B4) a zkopírováním do celého sloupce.) Dále hodnoty této řady vynásobíme příslušných počtem dnů mezi okamžiky a celé sečteme (pátý sloupec). Nakonec tento součet vydělíme počtem dní mezi prvním a posledním zápisem. Průměrný počet obyvatel je , 5 ȳ = = 1466, Příklad 3.6. Vždy prvního září evidujeme počet žáků střední školy. Počínaje rokem 2000 byly údaje následující: 601, 525, 405, 567, 593, 505, 621. Vypočítejme průměrný počet žáků za sledované roky. V tomto případě se jedná o okamžikovou řadu se stejně vzdálenými okamžiky (vždy jeden rok). Pro výpočet průměru tedy použijeme prostý chronologický průměr (viz výše). Za y 1,..., y n dosazujeme počty žáků v jednotlivých letech a n = 7 je počet zapsaných let. Potom průměrný počet žáků v období let 2000 VŠP Jihlava, 2015 S. Dvořáková 65

66 3. ČASOVÉ ŘADY 3.3 Míry dynamiky 2006 je: ȳ = = = 534, 33. Druhá možnost, jak vypočítat prostý chronologický průměr, je taková, že hodnoty okamžikové řady přepočítáme na teoretickou úsekovou řadu (jako v případě nestejně vzdálených okamžiků a váženého chronologického průměru v předchozím příkladu). Hodnoty nalezneme v tabulce 3.5. Z této přepočítané řady potom vypočítáme obyčejný aritmetický průměr (sečteme a vydělíme počtem): ȳ = = 534, 33. t rok počet žáků přepočítaná úseková řada x = = součet 3206 Tabulka 3.5: Výpočet chronologického průměru počtu žáků 3.3 Míry dynamiky Kromě průměrů nás mnohdy zajímají i základní míry dynamiky chování časových řad. Nechceme vědět pouze, že počet obyvatel za rok je průměrně 628, ale i např. jestli obyvatel během roku přibývá nebo naopak ubývá. Pro dále uvedené charakteristiky budeme uvažovat pouze časové řady, které nají stejnou délku časových úseků nebo stejně vzdálené časové okamžiky. Absolutní přírůstky nám říkají, o kolik se změnila hodnota řady mezi jed- VŠP Jihlava, 2015 S. Dvořáková 66

67 3. ČASOVÉ ŘADY 3.3 Míry dynamiky notlivými okamžiky. Jedná se o rozdíl hodnoty v určitém období a hodnotou období předcházejícího (nejedná se o jedno číslo, ale posloupnost čísel) t = y t y t 1 t = 2, 3,..., n. Pokud z řady absolutních přírůstků vypočítáme průměr, dostaneme průměrný absolutní přírůstek. Tedy v podstatě číslo průměrné změny mezi začátkem a koncem sledovaného období yn y 1. n 1 Pokud bychom chtěli vědět, o kolik procent se změnila hodnota časové řady mezi jednotlivými okamžiky, vypočítáme relativní přírůstky δ t = t y t = y t y t 1 y t t = 2, 3,..., n Koeficienty růstu udávají kolikrát se změnila časová řada mezi jednotlivými okamžiky. Jedná se tedy po podíl hodnoty k předcházející hodnotě v řadě (opět se jedná o řadu čísel) k t = y t t = 2, 3,..., n y t 1 Pro úplnost uvedeme ještě vztah pro průměrný koeficient růstu k = n 1 k 2 k 3 k n = n 1 yn y 1 (jedná se o geometrický průměr koeficientů růstu) udávající, kolikrát se průměrně změnila časová řada během sledovaného období. Průměrný relativní přírůstek potom udává, o kolik procent se průměrně změnila časová řada ve sledovaném období δ = ( k 1) 100. Příklad 3.7. Všechny předcházející pojmy ukážeme na jednom příkladu. Máme časovou řadu počtu narozených dětí v obci Třeskoprsky za rok 2015 (viz. tabulka 3.2). Spočítáme řadu absolutních přírůstků (v tabulce 3.6 čtvrtý sloupec). První hodnotu v únoru dostaneme tak, že počet narozených dětí v lednu odečteme od hodnoty v únoru, tj = 4. A tak dále až absolutní přírůstek v prosinci vypočteme jako rozdíl hodnoty v prosinci a listopadu = 2. Tyto hodnoty lze zobrazit do grafu, jak je ukázáno na obrázku 3.5. VŠP Jihlava, 2015 S. Dvořáková 67

68 3. ČASOVÉ ŘADY 3.3 Míry dynamiky počet absolutní relativní koeficienty naroz. dětí přírůstky přírůstky růstu t y t t δ t k t 1 leden 21 x x x 2 únor % 0, 81 3 březen , 9 % 1, duben , 8 % 0, květen , 1 % 1, červen , 3 % 0, červenec , 7 % 0, srpen % 1, 5 9 září , 3 % 1, říjen % 0, listopad , 7 % 0, prosinec , 3 % 0, 867 Tabulka 3.6: Výpočty měr dynamiky Každá příslušná hodnota absolutního přírůstku vyjadřuje o kolik dětí se v příslušném měsíci narodilo více (či méně) oproti předcházejícímu. Všechny výpočty lze v MS Excel udělat jednoduše tak, že první počítanou hodnotu uděláme pomocí odkazů na příslušné buňky a pak vzorec zkopírujeme do celého sloupečku. Pokud spočítáme průměr z řady absolutních přírůstků, dostaneme průměrný absolutní přírůstek. (Číslo v čitateli také spočítáme jako rozdíl poslední a první hodnoty v časové řadě počtu narozených dětí.) = = = 8 11 = 0, 73. VŠP Jihlava, 2015 S. Dvořáková 68

69 3. ČASOVÉ ŘADY 3.3 Míry dynamiky Obrázek 3.5: Graf absolutních přírůstků pro počet narozených dětí obce Třeskoprsky v roce 2015 Pokud by absolutní přírůstek (v našem případě spíše úbytek), byl každý měsíc stejný, tj. každý měsíc by se narodilo o 0,73 dítěte méně než ten předcházející, potom se z hodnoty 21 narozených dětí v lednu dotaneme na 13 narozených dětí v prosinci. (Což lze jednoduše ověřit výpočtem.) Řadu relativních přírůstků vypočítáme podle vzorce uvedeného výše. První hodnotu dostaneme jako = 19 %, druhou = 5, 9 % atd Každá hodnota relativního přírůstku vyjadřuje, o kolik procent se narodilo dětí více v určitém měsíci oproti měsíci předcházejícímu. Např. relativní přírůstek v srpnu je 50 %. V červenci se narodilo 14 dětí, polovina (50 %) z toho je 7 dětí. V srpnu se tedy narodilo = 21 dětí. Vydělením počtu narozených dětí v určitém měsíci a v měsíci předcházejícím dostaneme řadu koeficientů růstu. V tabulce 3.6 je to poslední sloupec. Koeficient růstu v říjnu je 0,75. Takže počet narozených dětí za říjen je na 75% počtu narozených dětí v září, tj. 0, = 18 (na tento výpočet lze přijít i použitím trojčlenky). Vypočítáním průměru z řady koeficientů růstu dostaneme průměrný koeficient růstu. Ale pozor! Nejedná se o obyčejný aritmetický průměr, nýbrž o průměr geometrický. Vynásobíme všechny koeficienty růstu mezi sebou a potom uděláme VŠP Jihlava, 2015 S. Dvořáková 69

70 3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad jedenáctou odmocninu: k = 11 0, 81 1, 059 0, 722 0, 833 0, 867 = 11 0, 7647 = 0, 957. Pokud by se každý měsíc počet narozených dětí zmenšil na 95,7 % počtu narozených dětí měsíce předcházejícího, potom z 21 narozených dětí v lednu dostaneme 13 narozených dětí v prosinci. Tj. v únoru by bylo 0, = 20, 27, v březnu 0, , 27 = 19, 55, v dubnu 0, , 55 = 18, 82 narozených dětí atd. V MS Excel lze geometrický průměr spočítat několika způsoby. Nejjednodušší je asi použití funkce GEOMEAN, kde za argument označíme celou řadu koeficientů růstu. Další možností je použít funkci SOUČIN pro vypočítání součinu všech koeficientů růstu (ty vložíme zase jako argument). Jedenáctou odmocninu potom vypočítáme funkcí POWER(buňka výsledku součinu;1/11). Průměrný koeficient růstu také spočítáme podle vzorečku uvedeného výše u teorie, tj. jedenáctá odmocnina z podílu posledního a prvního členu časové řady k = = 0, Dekompozice časových řad Princip dekompozice má velmi jednoduchou a krásnou myšlenku. Tím je představa, že časová řada obsahuje čtyři možné složky trend, sezonní složku, cyklickou složku a náhodnou složku. Ne každá časová řada musí nutně obsahovat všechny složky. Poslední složka se též někdy nazývá reziduum, jako jedinná obsahuje náhodu a vyskytuje se prakticky ve všech řadách. Trend (T) vyjadřuje dlouhodobé změny v chování časové řady, typ (tvar, funkci) dlouhodobého růstu či poklesu její střední hodnoty. Funkci trendu můžeme získat i využitím regresní analýzy. Sezonní složka (S) vyjadřuje periodické změny, které se odehrávají v průběhu nějakého období. Typicky tyto změny souvisejí se změnou ročního období (čtvrtletí, měsíce), průběhem pracovního týdne apod. Cyklická složka (C) vyjadřuje nějaké pravidelné fáze růstu a poklesu okolo trendu, které neodpovídají délce nějaké kalendářní jednotky (hodina, den, týden, měsíc, čtvrtletí, atd.). VŠP Jihlava, 2015 S. Dvořáková 70

71 3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad Náhodná složka (ε) představuje náhodné výkyvy, které nemají žádný systematický charakter. Sezonní a cyklické složce se dohromady říká periodická složka. Rozložit časovou řadu na jednotlivé složky není úplně jednoduché. Záleží na spoustě faktorů, podle kterých se vybírá nějaká vhodná metoda. Ta toto téma jsou napsány celé knihy. V těchto skriptech na důkladnější popis není místo, a ani to není jejich účelem, proto na příkladu ukážeme jednu nejjednodušší metodu. Teorii k této metodě lze najít v [5, Modul 6]. Klasický rozklad časové řady na složky předpokládá, že hodnoty obsahují převážně trend a periodickou složku (sezonní a cyklická), které jsou v celém průběhu řady neměnné a jsou předvídatelné. Toho se potom využívá v předpovědích budoucího chování časové řady. Tyto dvě složky dohromady dávají tzv. systematickou složku Y t, kterou můžeme dostat bud sečtením trendové a periodické složky (aditivní přístup) nebo jejich vynásobením (multiplikativní přístup). Rozdíl mezi skutečnou hodnotou časové řady y t a vypočtenou systematickou složkou Y t se nazývá reziduum a reprezentuje nepravidelnou náhodnou složku. Z internetových stránek Českého statistického úřadu lze stáhnout spoustu dat, i různé časové řady. Na adrese stáhneme excelovský soubor nazvaný Pohyb obyvatelstva v České republice v letech 1992 až 2015, absolutní měsíční údaje. Tento soubor obsahuje údaje o počtu obyvatel, o sňatcích a rozvodech, o živě narozených, potratech, zemřelých, o migraci (přistěhovalí a vystěhovalí) atd. A to vše v měsíčních, čtvrtletních a ročních hodnotách. Příklad 3.8. Zkusme rozložit časovou řadu živě narozených dětí za čtvrtletí v letech na jednotlivé složky. Data najdeme ve výše uvedeném souboru Českého statistického úřadu čtvrtletí čtvrtletí čtvrtletí čtvrtletí Tabulka 3.7: Počet živě narozeních v ČR v období Do tabulky 3.7 vykopírujeme pouze údaje, které potřebujeme. Takto jsou hodnoty docela přehledné, nicméně pro další zpracování pomocí MS Excel je VŠP Jihlava, 2015 S. Dvořáková 71

72 3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad lepší mít čísla v jednom sloupci pod sebou (obrázek 3.8). Pro dobrou představu o datech je dobré příslušnou časovou řadu zobrazit do grafu, viz obrázek 3.6. Obrázek 3.6: Časová řad živě narozených v ČR v letech Pokud se na tento graf podíváme pozorně, je vidět, že průměrný počet narozených dětí roste (trendová složka) více méně lineárně (po přímce). Pak se tam vyskytuje nějaká periodicita (sezonnost), protože ve třetím čtvrtletí je vždy narozených nejvíce a ve čtvrtém nejméně. Náhodná složka je tam očividně také, protože kolísání v jednotlivých letech není úplně stejné. Pro představu o sezonní složce lze z tabulky 3.7 vytvořit i graf na obrázku 3.7. Obrázek 3.7: Živě narození v ČR v letech po čtvrtletích VŠP Jihlava, 2015 S. Dvořáková 72

73 3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad Protože se jedná o úsekovou řadu, lze vytvořit kumulovanou řadu a různé klouzavé řady. Je to tak jednoduché, že už to v tomto příkladu dělat nebudeme. Ukázka výpočtu je v příkladu 3.2. Průměrný počet narozených dětí spočítáme obyčejným aritmetickým průměrem (hodnoty sečteme a vydělíme počtem nebo použijeme funkci PRŮMĚR): ȳ = = Dále se dají vypočítat průměry za každý rok, každé čtvrtletí a vše dát do grafů. Vždy je dobré rozvážit, co je vlastně potřeba vypočítat. Při zpracovávání časových řad nemá cenu počítat hodně věcí a různých charakteristik. Mnohdy jsou výsledky složitější než samotná časová řada. Tak jako u každého statistického zpracovávání dat, by se měly brát v úvahu především cíle nějakého projektu, tedy to, co od analýzy časové řady očekáváme a co potřebujeme vědět. Obrázek 3.8: Tabulka výpočtu dekompozice časové řady živě narozených v ČR v letech Při hledání trendové složky se úspěšně využívá regesní analýza. Trend je v podstatě regresní funkce, v našem případě regresní přímka. V těchto skriptech lze toto téma najít v kapitole 2.2, přesněji v příkladu 2.4. Abychom dokázali napsat rovnici trendové přímky, musíme ještě zavét nějakou časovou proměnnou (nemůžeme se odkazovat na slova jako 1. čtvrtletí, prostě VŠP Jihlava, 2015 S. Dvořáková 73

74 3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad potřebujeme čísla). Je několik metod, jak to udělat, ale nejjednodušší je asi první měření ( čtvrtletí) označit jako t = 1, druhé t = 2 atd. až poslední ( čtvrtletí) jako t = 20. Potom bud pomocí spojnice trendu v grafu nebo funkcemi SLOPE a INTER- CEPT vypočítáme směrnici a absolutní člen trendové přímky, jak je ukázáno na obrázku 3.9. Trendová přímka má tedy rovnici T t = 205, 56 t , 47. Obrázek 3.9: Výpočet směrnice a absolutního členu trendové přímky pomocí funkcí MS Excel Dále vypočítáme hodnotu trendu pro každý řádek tabulky, tj. pro všechna čtvrtletí let 2002 až Do předpisu trendové funkce se za t dosazuje zavedená časová proměnná. Nejrychlejší výpočet v MS Excel je pomocí okdazů na příslušné buňky, jak je ukázáno na obrázku Vzorec pro výpočet se potom zkopíruje do celého sloupce. Pro výpočet periodické složky použijeme empirický sezonní index I j. Protože počet narozených dětí je uveden ve čtvrtletích, lze předpokládat (a podle grafu je to i vidět), že délka periody bude 4 (za rok máme 4 čtvrtletí), tedy budeme mít i 4 indexy (pro každé čtvrtletí jeden). Vzorec pro výpočet empirických sezonních indexů je následující: I j = 1 k k i=1 y ij T ij, j = 1, 2,..., k. Což je aritmetický průměr podílů pozorovaných hodnot (y) a trendových hodnot (T ) z každého období. Přesný popis vzorečku a význam jednotlivých písmen čtenář nalezne v [5, Kapitola 3.2]. Praktický výpočet je ukázán dále na obrázcích. VŠP Jihlava, 2015 S. Dvořáková 74

75 3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad Obrázek 3.10: Výpočet směrnice a absolutního členu trendové přímky pomocí funkcí MS Excel Obrázek 3.11: Výpočet empirických sezonních indexů Pro všechny řádky vypočítáme podíly původních hodnot a trendu, tj. yt T t (obrázek 3.11). Potom z těchto hodnot vypočítáme průměr, ale vždy jen pro příslušné čtvrtletí. Kontrola správnosti výpočtu je ta, že součet sezonních indexů je přibližně 4 (protože máme 4 indexy). Kdybychom počítali periodu v měsících, měli bychom indexů 12 a jejich součet by byl také zhruba 12. Takto se počítá periodicita, pokud předpokládáme konstantní sezonnost. Pro proporcionální (měnící se) sezonnost se indexy počítají trošku jinak. Teorii k tomu lze najít v [5, Kapitola 3.3]. VŠP Jihlava, 2015 S. Dvořáková 75

76 3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad Pokud se na výsledné empirické sezonní indexy podíváme, lze říci, že v prvním a čtvrtém čtvrtletí je počet narozených dětí méně (indexy menší než 1) a ve druhém a třetím více (indexy větší než 1). Pomocí vypočítaných empirických indexů lze časovou řadu tzv. vyrovnat (určit systematickou složku). Tato složka časové řady obsahuje pouze trend a periodicitu. Neobsahuje tudíž náhodnou složku. Vyrovnané hodnoty Y vypočeteme jako součin trendu a příslušného empirického sezonního indexu Y t = T t I j. Je to ukázáno na obrázku Pro jednodušší výpočet vyrovnaných hodnot v MS Excel zkopírujeme empirické indexy pod sebe do jednoho sloupce. Pro všechny roky jsou indexy stejné. Potom pouze odkazy na příslušné buňky vypočítáme první vyrovnanou hodnotu a do celého sloupce vzorec výpočtu zkopírujeme. Obrázek 3.12: Vyrovnání časové řady výpočet systematické složky Zároveň můžeme předpovědět vývoj časové řady (počtu narozených dětí) na několik dalších období. V tabulce 3.8 je vypočítána předpoved na další rok Vše lze zobrazit do grafu na obrázku Při předpovědi nesmíme zapomenout na to, že se jedná pouze o teoretické hodnoty (protože neobsahují náhodnou složku, kterou nedokážeme předpovědět). Nemá také smysl předpovídat na mnoho období dopředu, protože skutečné hodnoty se potom velice liší. Pro jednoduchou kontrolu, zda je vyrovnání uděláno dobře, slouží rezidua, což je rozdíl mezi skutečnou a vyrovnanou hodnotu e t = y t Y t. Pravidel pro hodnocení kvality vyrovnání je více, ale nejjednodušší je to, že průměrná hodnota reziudí by měla býti rovna nule (respektive stačí jejich součet). V našem případě to platí, jak je vidět v tabulce 3.8 Nakonec ještě můžeme časovou řadu očistit od sezonnosti. Pokud každou pozorovanou hodnotu vydělíme příslušným sezonním indexem yt I j (obrázek 3.14), dostaneme očištěnou časovou řadu od sezonnosti, která obsahuje pouze trend a náhodnou složku, viz obrázek VŠP Jihlava, 2015 S. Dvořáková 76

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek 2-36. Oponenti: Patrik Novotný 2-36. Jakub Nováček 2-36. Click here to buy 2

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek 2-36. Oponenti: Patrik Novotný 2-36. Jakub Nováček 2-36. Click here to buy 2 Semestrální projekt do předmětu Statistika Vypracoval: Adam Mlejnek 2-36 Oponenti: Patrik Novotný 2-36 Jakub Nováček 2-36 Úvod Pro vypracování projektu do předmětu statistika jsem si zvolil průzkum kvality

Více

Střední škola informačních technologií a sociální péče, Brno, Purkyňova 97. Vybrané části Excelu. Ing. Petr Adamec

Střední škola informačních technologií a sociální péče, Brno, Purkyňova 97. Vybrané části Excelu. Ing. Petr Adamec INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Střední škola informačních technologií a sociální péče, Brno, Purkyňova 97 Vybrané části Excelu Ing. Petr Adamec Brno 2010 Cílem předmětu je seznámení se s programem Excel

Více

Matematická statistika

Matematická statistika Matematická statistika Daniel Husek Gymnázium Rožnov pod Radhoštěm, 8. A8 Dne 12. 12. 2010 v Rožnově pod Radhoštěm Osnova Strana 1) Úvod 3 2) Historie matematické statistiky 4 3) Základní pojmy matematické

Více

Funkce a vzorce v Excelu

Funkce a vzorce v Excelu Funkce a vzorce v Excelu Lektor: Ing. Martin Kořínek, Ph.D. Formátování tabulky V této kapitole si vysvětlíme, jak tabulku graficky zdokonalit, jak změnit nastavení šířky a případně výšky sloupců, jak

Více

Drsná matematika IV 7. přednáška Jak na statistiku?

Drsná matematika IV 7. přednáška Jak na statistiku? Drsná matematika IV 7. přednáška Jak na statistiku? Jan Slovák Masarykova univerzita Fakulta informatiky 2. 4. 2012 Obsah přednášky 1 Literatura 2 Co je statistika? 3 Popisná statistika Míry polohy statistických

Více

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Biostatistika a matematické metody epidemiologie- stručné studijní texty Biostatistika a matematické metody epidemiologie- stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev.

Více

Standardně máme zapnutý panel nástrojů Formátování a Standardní.

Standardně máme zapnutý panel nástrojů Formátování a Standardní. Zapnutí a vypnutí panelů nástrojů Standardně máme zapnutý panel nástrojů Formátování a Standardní. Úkol: Vyzkoušejte si zapnout a vypnout všechny panely nástrojů. Nechte zapnutý panely nástrojů Formátování

Více

Vzdělávání v egoncentru ORP Louny

Vzdělávání v egoncentru ORP Louny Zpracováno v rámci projektu č. CZ.1.04/4.1.00/40.00067 Vzdělávání v egoncentru ORP Louny Město Louny Obsah 1. Databáze... 4 2. Třídění pomocí filtrů... 5 3. Ukotvení a uvolnění příček... 6 3.1 Ukotvení

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

Teoretická rozdělení

Teoretická rozdělení Teoretická rozdělení Diskrétní rozdělení Obsah kapitoly Studijní cíle Doba potřebná ke studiu Pojmy k zapamatování Úvod Některá teoretická rozdělení diskrétních veličin: Alternativní rozdělení Binomické

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.

Více

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy Výrobní produkce divizí Ice Cream Polo ha planet Rozložený výsečový 3D graf Bublinový graf Ice Cream 1 15% Ice Cream 2 12% Ice Cream 3 18% Ice Cream 4 20% Statistika 40 30 20 Ice Cream 6 19% Ice Cream

Více

Vícekriteriální hodnocení variant metody

Vícekriteriální hodnocení variant metody Katedra aplikované matematiky a informatiky Jihočeská Univerzita v Českých Budějovicích, Ekonomická fakulta 2010 Metody vícekriteriální hodnocení variant (VHV) Jak jsme již zmiňovali, VHV obecně neposkytuje

Více

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika? Organizační pokyny k přednášce Matematická statistika 2012 2013 Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta UK hudecova@karlin.mff.cuni.cz http://www.karlin.mff.cuni.cz/

Více

Analýza výsledků testu čtenářské gramotnosti v PRO23 2010/11

Analýza výsledků testu čtenářské gramotnosti v PRO23 2010/11 Analýza výsledků testu čtenářské gramotnosti v PRO23 2010/11 Zpracoval: www.scio.cz, s.r.o. (15. 2. 2012) Datové podklady: výsledky a dotazníky z PRO23, test čtenářské gramotnosti, www.scio.cz, s.r.o.

Více

Metodologie pro ISK II

Metodologie pro ISK II Metodologie pro ISK II Všechny hodnoty z daného intervalu Zjišťujeme: Centrální míry Variabilitu Šikmost, špičatost Percentily (decily, kvantily ) Zobrazení: histogram MODUS je hodnota, která se v datech

Více

Přednáška 5. Výběrová šetření, Exploratorní analýza

Přednáška 5. Výběrová šetření, Exploratorní analýza Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika aneb jak popsat výběrový soubor Typy proměnných

Více

Číselné charakteristiky a jejich výpočet

Číselné charakteristiky a jejich výpočet Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky

Více

Jak pracovat s absolutními hodnotami

Jak pracovat s absolutními hodnotami Jak pracovat s absolutními hodnotami Petr Matyáš 1 Co to je absolutní hodnota Absolutní hodnota čísla a, dále ji budeme označovat výrazem a, je jeho vzdálenost od nuly na ose x, tedy je to vždy číslo kladné.

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 10. Mgr. David Fiedor 27. dubna 2015 Nelineární závislost - korelační poměr užití v případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí

Více

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120 KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Charakteristiky variability Mgr. Jakub Němec VY_32_INOVACE_M4r0120 CHARAKTERISTIKY VARIABILITY Charakteristika variability se určuje pouze u kvantitativních znaků.

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

StatSoft Odkud tak asi je?

StatSoft Odkud tak asi je? StatSoft Odkud tak asi je? Ukážeme si, jak bychom mohli vypočítat pravděpodobnosti, na které jsme se ptali v minulém newsletteru Úkolem bylo zjistit, z kterého kraje nejpravděpodobněji pochází náš výherce

Více

Číselné charakteristiky

Číselné charakteristiky . Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch

Více

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika Statistika Cvičení z matematické statistiky na PřF Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy léto 2012 Základní dělení popisná (deskriptivní)

Více

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE. Optimalizace trasy při revizích elektrospotřebičů

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE. Optimalizace trasy při revizích elektrospotřebičů VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY Hlavní specializace: Ekonometrie a operační výzkum Název diplomové práce Optimalizace trasy při revizích elektrospotřebičů Diplomant: Vedoucí

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Praktická statistika. Petr Ponížil Eva Kutálková

Praktická statistika. Petr Ponížil Eva Kutálková Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo

Více

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM CÍLE KAPITOLY Využívat pokročilé možnosti formátování, jako je podmíněné formátování, používat vlastní formát čísel a umět pracovat s listy. Používat

Více

Ten objekt (veličina), který se může svobodně měnit se nazývá nezávislý.

Ten objekt (veličina), který se může svobodně měnit se nazývá nezávislý. @001 1. Základní pojmy Funkce funkční? Oč jde? Třeba: jak moc se oblečeme, závisí na venkovní teplotě, jak moc se oblečeme, závisí na našem mládí (stáří) jak jsme staří, závisí na čase jak moc zaplatíme

Více

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis nekategorizovaných dat Co se dozvíte v tomto modulu? Kdy používat modus, průměr a medián. Co je to směrodatná odchylka. Jak popsat distribuci

Více

Tabulkové processory MS Excel (OpenOffice Calc)

Tabulkové processory MS Excel (OpenOffice Calc) Maturitní téma: Tabulkové processory MS Excel (OpenOffice Calc) Charakteristika tabulkového editoru Tabulkový editor (sprematuritníadsheet) se používá všude tam, kde je třeba zpracovávat data uspořádaná

Více

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Popisná statistika. Jaroslav MAREK. Univerzita Palackého Popisná statistika Jaroslav MAREK Univerzita Palackého Přírodovědecká fakulta Katedra matematické analýzy a aplikací matematiky Tomkova 40, 779 00 Olomouc Hejčín tel. 585634606 marek@inf.upol.cz pondělí

Více

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE Testy dobré shody Vedoucí diplomové práce: RNDr. PhDr. Ivo

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

Popisná statistika. Statistika pro sociology

Popisná statistika. Statistika pro sociology Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky

Více

Analýza dat s využitím MS Excel

Analýza dat s využitím MS Excel Analýza dat s využitím MS Excel Seminář aplikované statistiky Martina Litschmannová Několik fíglů na úvod Absolutní vs. relativní adresování změna pomocí F4 =$H$20 =H$20 =$H20 =H20 Posun po souvislé oblasti

Více

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,

Více

2 Spojité modely rozhodování

2 Spojité modely rozhodování 2 Spojité modely rozhodování Jak již víme z přednášky, diskrétní model rozhodování lze zapsat ve tvaru úlohy hodnocení variant: f(a i ) max, a i A = {a 1, a 2,... a p }, kde f je kriteriální funkce a A

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1 Náhodná proměnná Náhodná proměnná může mít rozdělení diskrétní (x 1, x 2,,x n ) spojité () Poznámky: 1. Fyzikální veličiny jsou zpravidla spojité, ale změřené hodnoty jsou diskrétní. 2. Pokud

Více

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá 1) Lineární i nelineární regrese prostá, korelace Naeditujeme data viz obr. 1. Obr. 1 V menu Statistika zvolíme submenu Pokročilé lineární/nelineární

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul V: Nekategorizovaná data Metodologie pro ISK 2, jaro 2014. Ladislava Z. Suchá Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis

Více

VŠB Technická univerzita Ostrava BIOSTATISTIKA

VŠB Technická univerzita Ostrava BIOSTATISTIKA VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: BIOSTATISTIKA Zadání 11 DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL 1: DOMÁCÍ ÚKOL

Více

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné

Více

Po nastudování této kapitoly byste měli být schopni:

Po nastudování této kapitoly byste měli být schopni: 4 Tvorba prezentací Cíl kapitoly Po nastudování této kapitoly byste měli být schopni: vytvořit jednoduchou prezentaci v Microsoft PowerPoint 2010, vkládat nové snímky, měnit návrh, rozvržení a přechody

Více

Statistika I (KMI/PSTAT)

Statistika I (KMI/PSTAT) Statistika I (KMI/PSTAT) Cvičení druhé aneb Kvantily, distribuční funkce Statistika I (KMI/PSTAT) 1 / 1 Co se dnes naučíme Po absolvování této hodiny byste měli být schopni: rozumět pojmu modus (modální

Více

Základní statistické charakteristiky

Základní statistické charakteristiky Základní statistické charakteristiky Základní statistické charakteristiky slouží pro vzájemné porovnávání statistických souborů charakteristiky = čísla, pomocí kterých porovnáváme Základní statistické

Více

Excel tabulkový procesor

Excel tabulkový procesor Pozice aktivní buňky Excel tabulkový procesor Označená aktivní buňka Řádek vzorců zobrazuje úplný a skutečný obsah buňky Typ buňky řetězec, číslo, vzorec, datum Oprava obsahu buňky F2 nebo v řádku vzorců,

Více

Obsah. Ukládáme sešit 31 První uložení sešitu 31 Jak pracovat se složkami 33 Ukládání již jednou uloženého sešitu 34 Ukončení práce v Excelu 36

Obsah. Ukládáme sešit 31 První uložení sešitu 31 Jak pracovat se složkami 33 Ukládání již jednou uloženého sešitu 34 Ukončení práce v Excelu 36 Obsah Úvodem 7 Co je třeba znát 7 Jak je kniha napsána 8 Jak psát na klávesnici 8 Jak ovládat myš 10 Kde je na monitoru ukazatel myši 10 Pohyb myši 10 Tlačítka myši co to znamená klepnout a poklepat 11

Více

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry

Více

Textové popisky. Typ dat

Textové popisky. Typ dat Textové popisky Newsletter Statistica ACADEMY Téma: Možnosti softwaru, datová reprezentace Typ článku: Tipy a triky Máte ve svých datech kategorie ve formě textu? Víme, že někdy není úplně jasné, jak Statistica

Více

DUM 01 téma: Obecné vlastnosti tabulkového editoru, rozsah, zápis do buňky, klávesové zkratky

DUM 01 téma: Obecné vlastnosti tabulkového editoru, rozsah, zápis do buňky, klávesové zkratky DUM 01 téma: Obecné vlastnosti tabulkového editoru, rozsah, zápis do buňky, klávesové zkratky ze sady: 02 tematický okruh sady: Tabulkový editor ze šablony: 07 KANCELÁŘSKÝ SOFTWARE určeno pro: 1-4. ročník

Více

Databáze pacientů. Petr Novák (Ing, Ph.D.) novakpe@labe.felk.cvut.cz 02.07.2014

Databáze pacientů. Petr Novák (Ing, Ph.D.) novakpe@labe.felk.cvut.cz 02.07.2014 Databáze pacientů Petr Novák (Ing, Ph.D.) novakpe@labe.felk.cvut.cz 02.07.2014 1 Obsah 1 Obsah... 1 2 Úvod... 1 3 Přidání pacienta... 3 4 Vymazání pacienta... 5 5 Výběr pacienta... 5 6 Výběr záznamu dat...

Více

VŠB Technická univerzita Ostrava

VŠB Technická univerzita Ostrava VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: PRAVDĚPODOBNOST A STATISTIKA Domácí úkoly Zadání 21 DATUM ODEVZDÁNÍ

Více

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ FIGALA V. a), KAFKA V. b) a) VŠB-TU Ostrava, FMMI, katedra slévárenství, 17. listopadu 15, 708 33 b) RACIO&RACIO, Vnitřní

Více

23. Matematická statistika

23. Matematická statistika Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti

Více

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE STATISTIKA 1 Adam Čabla Katedra statistiky a pravděpodobnosti VŠE KONTAKTY WWW: sites.google.com/site/adamcabla E-mail: adam.cabla@vse.cz Telefon: 777 701 783 NB367 na VŠE, konzultační hodiny: Pondělí

Více

Průměr je ve statistice často používaná hodnota, která se počítá jako aritmetický průměr hodnot.

Průměr je ve statistice často používaná hodnota, která se počítá jako aritmetický průměr hodnot. Průměr Průměr je ve statistice často používaná hodnota, která se počítá jako aritmetický průměr hodnot. Co je to průměr # Průměrem se rozumí klasický aritmetický průměr sledovaných hodnot. Můžeme si pro

Více

Teorie množin. kapitola 2

Teorie množin. kapitola 2 Teorie množin kapitola 2 kapitola 2 část 3 Intervaly Základní poznatky Teorie množin Co po tobě budu dneska chtít? V této podkapitole tě naučím pracovat s intervaly, správně je zapisovat a zakreslovat

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK. ANALÝZA DAT V R 2. POPISNÉ STATISTIKY Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz CO SE SKRÝVÁ V DATECH data sbíráme proto, abychom porozuměli

Více

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY) Charakteristiky kategoriálních veličin Absolutní četnosti (FREQUENCY) Charakteristiky kategoriálních veličin Relativní četnosti Charakteristiky kategoriálních veličin Relativní četnosti Charakteristiky

Více

Matice se v některých publikacích uvádějí v hranatých závorkách, v jiných v kulatých závorkách. My se budeme držet zápisu s kulatými závorkami.

Matice se v některých publikacích uvádějí v hranatých závorkách, v jiných v kulatých závorkách. My se budeme držet zápisu s kulatými závorkami. Maticové operace Definice Skalár Představme si nějakou množinu, jejíž prvky lze sčítat a násobit. Pěkným vzorem jsou čísla, která už známe od mala. Prvky takové množiny nazýváme skaláry. Matice Matice

Více

StatSoft Jak vyzrát na datum

StatSoft Jak vyzrát na datum StatSoft Jak vyzrát na datum Tento článek se věnuje podrobně možnostem práce s proměnnými, které jsou ve formě datumu. A že jich není málo. Pokud potřebujete pracovat s datumem, pak se Vám bude tento článek

Více

6. T e s t o v á n í h y p o t é z

6. T e s t o v á n í h y p o t é z 6. T e s t o v á n í h y p o t é z Na základě hodnot z realizace náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Používáme k tomu vhodně

Více

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.)

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.) Operační program Vzdělávání pro konkurenceschopnost Masarykova univerzita Brno Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.) doc. RNDr. PhMr. Karel

Více

Třídění statistických dat

Třídění statistických dat 2.1 Třídění statistických dat Všechny muže ve městě rozdělíme na 2 skupiny: A) muži, kteří chodí k holiči B) muži, kteří se holí sami Do které skupiny zařadíme holiče? prof. Raymond M. Smullyan, Dr. Math.

Více

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013 Cvičení ze statistiky Filip Děchtěrenko ZS 2012/2013 Cvičení ze statistiky Pondělí 16:40, C328 http://www.ms.mff.cuni.cz/~dechf7am Praktické zaměření Proč potřebuji statistiku, když chci dělat (doplň)?

Více

Finanční. matematika pro každého. f inance. 8. rozšířené vydání. věcné a matematické vysvětlení základních finančních pojmů

Finanční. matematika pro každého. f inance. 8. rozšířené vydání. věcné a matematické vysvětlení základních finančních pojmů Finanční matematika pro každého 8. rozšířené vydání J. Radová, P. Dvořák, J. Málek věcné a matematické vysvětlení základních finančních pojmů metody pro praktické rozhodování soukromých osob i podnikatelů

Více

MEZINÁRODNÍ AUDITORSKÝ STANDARD ISA 530 VÝBĚR VZORKŮ

MEZINÁRODNÍ AUDITORSKÝ STANDARD ISA 530 VÝBĚR VZORKŮ MEZINÁRODNÍ AUDITORSKÝ STANDARD VÝBĚR VZORKŮ (Účinný pro audity účetních závěrek sestavených za období počínající 15. prosincem 2009 nebo po tomto datu) OBSAH Odstavec Úvod Předmět standardu... 1 2 Datum

Více

Regresní a korelační analýza

Regresní a korelační analýza Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu)

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství 1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí

Více

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT EXPLORAČNÍ ANALÝZA DAT TEST Z TEORIE 1. Test ze Statistiky píše velké množství studentů. Představte si, že každý z nich odpoví správně přesně na polovinu otázek. V tomto případě bude směrodatná odchylka

Více

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků) Základní výpočty pro MPPZ Teorie Aritmetický průměr = součet hodnot znaku zjištěných u všech jednotek souboru, dělený počtem všech jednotek souboru Modus = hodnota souboru s nejvyšší četností Medián =

Více

EKONOMICKO-MATEMATICKÉ METODY

EKONOMICKO-MATEMATICKÉ METODY UNIVERZITA OBRANY KATEDRA EKONOMETRIE UČEBNÍ TEXT PRO DISTANČNÍ STUDIUM EKONOMICKO-MATEMATICKÉ METODY RNDr. Michal ŠMEREK doc. RNDr. Jiří MOUČKA, Ph.D. B r n o 2 0 0 8 Anotace: Skriptum Ekonomicko-matematické

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení ze 4ST201. Na případné faktické chyby v této prezentaci mě prosím upozorněte. Děkuji Tyto slidy berte pouze jako doplňkový materiál není v nich obsaženo

Více

Tabulka 1. Výběr z datové tabulky

Tabulka 1. Výběr z datové tabulky 1. Zadání domácího úkolu Vyberte si datový soubor obsahující alespoň jednu kvalitativní a jednu kvantitativní proměnnou s alespoň 30 statistickými jednotkami (alespoň 30 jednotlivých údajů). Zdroje dat

Více

Vzorové úlohy pro výuku hromadného zpracování dat v tabulkovém procesoru

Vzorové úlohy pro výuku hromadného zpracování dat v tabulkovém procesoru Vzorové úlohy pro výuku hromadného zpracování dat v tabulkovém procesoru Autor: Václav Šimandl Obsah Samostatné práce...3 Téma: Elementární manipulace s tabulkou...3 Téma: Hledání textu v tabulce...4 Téma:

Více

3. Středoškolská stereometrie v anaglyfech

3. Středoškolská stereometrie v anaglyfech 3. Středoškolská stereometrie v anaglyfech V předchozích dvou kapitolách jsme zjistili, jak se zobrazují tělesa ve středovém promítání a hlavně v lineární perspektivě, a jak pomocí těchto promítání vytvořit

Více

Protokol č. 1. Tloušťková struktura. Zadání:

Protokol č. 1. Tloušťková struktura. Zadání: Protokol č. 1 Tloušťková struktura Zadání: Pro zadané výčetní tloušťky (v cm) vypočítejte statistické charakteristiky a slovně interpretujte základní statistické vlastnosti tohoto souboru tloušťek. Dále

Více

2. popis prostředí, nastavení pracovní plochy

2. popis prostředí, nastavení pracovní plochy (c) mise 2013 1 2 1. úvod Tabulkový procesor program pro organizaci a správu dat pomocí tabulek určen pro zpracování dat převážně číselného charakteru Využití tabulkových procesorů přehledná prezentace

Více

5 Tabulky a seznamy dat Příklad 3 Excel 2010

5 Tabulky a seznamy dat Příklad 3 Excel 2010 TÉMA: Jednoduchá a rozšířená filtrace dat Ne vždy potřebujeme při běžné práci s tabulkami pracovat se všemi záznamy. Sekretářka společnosti Naše zahrada zpracovává seznamy prodejců, zaměstnanců a zboží

Více

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací! Statistika aneb známe tři druhy lži: úmyslná neúmyslná statistika Statistika je metoda, jak vyjádřit nejistá data s přesností na setinu procenta. den..00..00 3..00..00..00..00..00..00..00..00..00..00 3..00..00..00..00..00..00..00

Více

GRAFY A GRAFOVÉ ALGORITMY

GRAFY A GRAFOVÉ ALGORITMY KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO GRAFY A GRAFOVÉ ALGORITMY ARNOŠT VEČERKA VÝVOJ TOHOTO UČEBNÍHO TEXTU JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ

Více

8. Posloupnosti, vektory a matice

8. Posloupnosti, vektory a matice . jsou užitečné matematické nástroje. V Mathcadu je často používáme například k rychlému zápisu velkého počtu vztahů s proměnnými parametry, ke zpracování naměřených hodnot, k výpočtům lineárních soustav

Více

zejména Dijkstrův algoritmus pro hledání minimální cesty a hladový algoritmus pro hledání minimální kostry.

zejména Dijkstrův algoritmus pro hledání minimální cesty a hladový algoritmus pro hledání minimální kostry. Kapitola Ohodnocené grafy V praktických aplikacích teorie grafů zpravidla graf slouží jako nástroj k popisu nějaké struktury. Jednotlivé prvky této struktury mají často přiřazeny nějaké hodnoty (může jít

Více

VZDĚLÁVACÍ MATERIÁL III/2

VZDĚLÁVACÍ MATERIÁL III/2 VZDĚLÁVACÍ MATERIÁL III/2 Vy_32_inovace_011_Pl7 Vzdělávací oblast: Vzdělávací obor (okruh): Vyučovací předmět: Informační a komunikační technologie Informatika Informatika Téma: MS Excel 2007 Očekávaný

Více

STATISTICKÉ CHARAKTERISTIKY

STATISTICKÉ CHARAKTERISTIKY STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

Determinant. Definice determinantu. Permutace. Permutace, vlastnosti. Definice: Necht A = (a i,j ) R n,n je čtvercová matice.

Determinant. Definice determinantu. Permutace. Permutace, vlastnosti. Definice: Necht A = (a i,j ) R n,n je čtvercová matice. [] Definice determinantu BI-LIN, determinant, 9, P Olšák [2] Determinant je číslo jistým způsobem charakterizující čtvercovou matici det A 0 pro singulární matici, det A 0 pro regulární matici používá

Více

2.4.8 Další příklady s grafy funkcí s absolutní hodnotou

2.4.8 Další příklady s grafy funkcí s absolutní hodnotou ..8 Další příklady s grafy funkcí s absolutní hodnotou Předpoklady: 0-07 Pedagogická poznámka: Následující dva příklady je většinou nutné studentům dovysvětlit. Prohlížení vlastních poznámek jim většinou

Více

Karnaughovy mapy. Pravdivostní tabulka pro tři vstupní proměnné by mohla vypadat například takto:

Karnaughovy mapy. Pravdivostní tabulka pro tři vstupní proměnné by mohla vypadat například takto: Karnaughovy mapy Metoda je použitelná již pro dvě vstupní proměnné, své opodstatnění ale nachází až s větším počtem vstupů, kdy návrh takového výrazu přestává být triviální. Prvním krokem k sestavení logického

Více