VYSOK A ˇ SKOLA POLYTECHNICK A JIHLAVA Katedra matematiky Statistick a anal yza a ˇ casov e ˇ rady v pˇ r ıkladech Stanislava Dvoˇ r akov a 2015

Podobné dokumenty
Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Střední škola informačních technologií a sociální péče, Brno, Purkyňova 97. Vybrané části Excelu. Ing. Petr Adamec

Matematická statistika

Funkce a vzorce v Excelu

Drsná matematika IV 7. přednáška Jak na statistiku?

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Standardně máme zapnutý panel nástrojů Formátování a Standardní.

Vzdělávání v egoncentru ORP Louny

Popisná statistika. Komentované řešení pomocí MS Excel

Teoretická rozdělení

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Vícekriteriální hodnocení variant metody

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Analýza výsledků testu čtenářské gramotnosti v PRO /11

Metodologie pro ISK II

Přednáška 5. Výběrová šetření, Exploratorní analýza

Číselné charakteristiky a jejich výpočet

Jak pracovat s absolutními hodnotami

KGG/STG Statistika pro geografy

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

Základy popisné statistiky

StatSoft Odkud tak asi je?

Číselné charakteristiky

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE. Optimalizace trasy při revizích elektrospotřebičů

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zápočtová práce STATISTIKA I

Analýza dat na PC I.

Praktická statistika. Petr Ponížil Eva Kutálková

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

Ten objekt (veličina), který se může svobodně měnit se nazývá nezávislý.

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Metodologie pro Informační studia a knihovnictví 2

Tabulkové processory MS Excel (OpenOffice Calc)

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE

Statistika pro geografy

Popisná statistika. Statistika pro sociology

Analýza dat s využitím MS Excel

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2 Spojité modely rozhodování

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Metodologie pro Informační studia a knihovnictví 2

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Po nastudování této kapitoly byste měli být schopni:

Statistika I (KMI/PSTAT)

Základní statistické charakteristiky

Excel tabulkový procesor

Obsah. Ukládáme sešit 31 První uložení sešitu 31 Jak pracovat se složkami 33 Ukládání již jednou uloženého sešitu 34 Ukončení práce v Excelu 36

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Textové popisky. Typ dat

DUM 01 téma: Obecné vlastnosti tabulkového editoru, rozsah, zápis do buňky, klávesové zkratky

Databáze pacientů. Petr Novák (Ing, Ph.D.)

VŠB Technická univerzita Ostrava

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ

23. Matematická statistika

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Průměr je ve statistice často používaná hodnota, která se počítá jako aritmetický průměr hodnot.

Teorie množin. kapitola 2

Charakteristika datového souboru

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Matice se v některých publikacích uvádějí v hranatých závorkách, v jiných v kulatých závorkách. My se budeme držet zápisu s kulatými závorkami.

StatSoft Jak vyzrát na datum

6. T e s t o v á n í h y p o t é z

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.)

Třídění statistických dat

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Finanční. matematika pro každého. f inance. 8. rozšířené vydání. věcné a matematické vysvětlení základních finančních pojmů

MEZINÁRODNÍ AUDITORSKÝ STANDARD ISA 530 VÝBĚR VZORKŮ

Regresní a korelační analýza

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

EKONOMICKO-MATEMATICKÉ METODY

Tomáš Karel LS 2012/2013

Tabulka 1. Výběr z datové tabulky

Vzorové úlohy pro výuku hromadného zpracování dat v tabulkovém procesoru

3. Středoškolská stereometrie v anaglyfech

Protokol č. 1. Tloušťková struktura. Zadání:

2. popis prostředí, nastavení pracovní plochy

5 Tabulky a seznamy dat Příklad 3 Excel 2010

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

GRAFY A GRAFOVÉ ALGORITMY

8. Posloupnosti, vektory a matice

zejména Dijkstrův algoritmus pro hledání minimální cesty a hladový algoritmus pro hledání minimální kostry.

VZDĚLÁVACÍ MATERIÁL III/2

STATISTICKÉ CHARAKTERISTIKY

Determinant. Definice determinantu. Permutace. Permutace, vlastnosti. Definice: Necht A = (a i,j ) R n,n je čtvercová matice.

2.4.8 Další příklady s grafy funkcí s absolutní hodnotou

Karnaughovy mapy. Pravdivostní tabulka pro tři vstupní proměnné by mohla vypadat například takto:

Transkript:

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra matematiky Statistická analýza a časové řady v příkladech Stanislava Dvořáková 2015

Stanislava Dvořáková STATISTICKÁ ANALÝZA A ČASOVÉ ŘADY V PŘÍKLADECH 1. vydání ISBN 978-80-88064-18-3 Vydala Vysoká škola polytechnická Jihlava, Tolstého 16, Jihlava, 2015 Tisk Ediční oddělení VŠPJ, Tolstého 16, Jihlava Za jazykovou a věcnou správnost obsah díla odpovídá autor. Text neprošel jazykovou ani redakční úpravou. c Ing. Stanislava Dvořáková, Ph.D., 2015

Úvodní slovo Tento studijní text je určen studentům bakalářského studia na Vysoké škole polytechnické v Jihlavě, především oboru Zdravotně sociální pracovník jako podpora při studiu předmětu Demografie a statistická analýza. Jedná se o studenty, kteří jsou ve větší či menší míře matematikou nezasaženi. Nicméně by měli mít alespoň povšední přehled o statistice a základním statistickém zpracování dat (např. z dotazníku). Zároveň je mohou použít i studenti jiných oborů jako podpůrný materiál (nikoli dostačující) při studiu statistiky. Tato skripta jsou rozdělena do tří základních kapitol. V první kapitole se jedná o popisnou statistiku, kde je zpracovávána jedna statistická proměnná. Vztah dvou proměnných je rozebrán ve druhé kapitole. Třetí kapitola se zaměřuje na základy časových řad. Učebnic o teorii statistické analýzy bylo už napsáno dosti. V těchto sktiptech se budu odkazovat převážně na dvoje, a to od kolegů B. Minaříka a J. Borůvkové (viz doporučená literatura na konci skript). V nich je statistické zpracování dat docela dobře a srozumitelně popsané. Oboje skripta jsou ale určena pro jiné obory, které mají statistiky ve výuce více, a některé kapitoly jsou popsány podrobněji. Proto v těchto skriptech nebudeme probírat detailně teorii, ale zaměříme se na ukázku konkrétního zpracovávání dat v příkladech. Ovšem, aby student pochopil probíraný příklad, je zapotřebí si prostudovat i příslušnou teorii. Příklady nejsou řazeny po sobě tak, jak to ve většině statistických učebnic bývá. Vždy se zaměříme na jednu otázku a budeme se snažit ji vyřešit od začátku do konce. Po delším přemýšlení jsem se rozhodla, že ukážu zpracování dat v programu MS Excel na konkrétních příkladech. Samozřejmě, že existují speciální statistické softwary, které během chvilky kýžené zpracování udělají bez větší námahy zpracovatele. Použití těchto progmamů má však několik ale. Za prvé musí mít uživatel některý program k dispozici. Za druhé ho musí umět ovládat (většina je v angličtině). A za třetí musí zpracovatel také rozumět výsledkům a umět je dobře interpretovat. Kdežto MS Excel (a jiné podobné tabulkové procesory) jsou hodně rozšířené a člověk v nich v podstatě vypočítá jen to, co umí a čemu rozumí. Což pro základní analýzu dat stačí. Autorka VŠP Jihlava, 2015 S. Dvořáková

Obsah Vysvětlivky k používaným symbolům 5 1 Základní zpracování dat 6 1.1 Nominální proměnná......................... 9 1.2 Ordinální proměnná......................... 13 1.3 Kardinální proměnná nespojitá................... 16 1.4 Kardinální proměnná spojitá..................... 26 1.5 Shrnutí................................. 32 1.6 Příklady k procvičení......................... 33 2 Závislosti dvou proměnných 39 2.1 Kategoriální proměnné........................ 39 2.2 Korelační a regresní analýza..................... 47 2.3 Shrnutí................................. 53 2.4 Příklady k procvičení......................... 54 3 Časové řady 57 3.1 Úvod.................................. 57 3.2 Průměrování časových řad...................... 63 3.3 Míry dynamiky............................ 66 3.4 Dekompozice časových řad...................... 70 3.5 Shrnutí................................. 78 3.6 Příklady k procvičení......................... 79 Doporučená studijní literatura 83 VŠP Jihlava, 2015 S. Dvořáková

Vysvětlivky k používaným symbolům Osvětlení učiva Prohlubuje základní učivo a detailně popisuje použité vzorce nebo postupy. Pojmy k zapamatování Klíčové pojmy, které byste po prostudování měli umět vysvětlit a které se dále používají. Příklad Konkretizace problematiky v praxi či reálných případech. Shrnutí kapitoly Klíčové body pro opakování a signalizace k opakovanému studiu částí, kterým nerozumíte. Pojmy k zapamatování Výčet pojmů užitých v kapitole, které je zapotřebí si zapamatovat a znát jejich použití. Testy a otázky Prověřte do jaké míry jste učivo pochopili, zapamatovali si podstatné informace a pojmy. Věnujte jim maximální pozornost! Literatura Použitá literatura ve studijním materiálu, typy pro doplnění a rozšíření základních poznatků nabytých studiem opory. VŠP Jihlava, 2015 S. Dvořáková 5

1. Základní statistické zpracování dat třídění a charakteristiky V této kapitole se podíváme na základní statistické zpracování jedné proměnné. Jak bylo řečeno v úvodu, nebudeme zde rozebírat teorii (k tomu jsou již k dispozici jiná skripta uvedená v seznamu literatury), ale vše si postupně ukážeme na příkladech. Vycházíme z toho, že máme k dispozici výsledky nějakého statistického (např. dotazníkového) šetření. Příslušné otázky budeme brát postupně a budeme je jednotlivě zpracovávat od začátku do konce. Tzn. nejprve vytvoříme přehlednou tabulku, pak z ní uděláme graf a nakonec, pokud to bude možné, vypočítáme nějaká čísla, která nám budou charakterizovat výsledky šetření. Návod na to, jak vytvořit dotazník, formulovat otázky, posbírat data a jak je zpracovat do elektronické podoby, je popsán mimo jiné i ve skriptu [1]. Příklad 1.1. Z klientů denního stacionáře jsme vybrali 25 klientů, o nichž jsme zjistili mimo jiné i údaje uvedené v tabulce 1.1. Jedná se o číslo klienta (kvůli přehlednosti, většinou nahrazuje jméno apod.), pohlaví, rok narození, místo trvalého bydliště (kvůli zjednodušení ukázky statistické analýzy se jedná pouze o čtyři obce, ve skutečnosti se může jednat o více obcí a více klientů), počet vlastních dětí, velikost oblečení klienta, zda klient má vlastní zuby a částku jeho důchodu. V následujících příkladech si ukážeme pár možností, jak lze tyto údaje zpracovat metodami popisné statistiky. Většinu teorie k těmto metodám naleznete např. ve skriptech [2, Kap. 1 4] nebo [5, Moduly 1, 2]. Před samotnou analýzou by bylo zapotřebí data v tabulce klasifikovat. Je to nutné zejména k tomu, abychom si uvědomili, co vlastně máme za informace, jak k nim tedy máme přistupovat a jaké metody a charakteristiky lze použít, abychom nepočítali čísla, která nelze smysluplně interpretovat. Nejprve si ale trochu objasněme statistickou terminologii, se kterou se budeme nadále setkávat (viz [2, str. 8, 9]). Populace (základní soubor) je množina všech existujících předmětů pozorování, u nichž se vyskytuje sledovaná vlastnost. Např. všichni klienti VŠP Jihlava, 2015 S. Dvořáková 6

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT Tabulka 1.1: Údaje o klientech v denním stacionáři č.klienta pohlaví rok nar. bydliště poč. dětí velikost důchod v Kč vlastní zuby 1 muž 1941 Jihlava 0 S 8 453 ano 2 žena 1928 Polná 2 L 7 536 ano 3 muž 1931 Brtnice 2 S 9 531 ne 4 muž 1930 Jihlava 3 XL 8 123 ne 5 muž 1929 Brtnice 2 M 8 942 ne 6 žena 1939 Stonařov 0 L 6 813 ne 7 žena 1938 Polná 1 XL 9 532 ano 8 muž 1927 Stonařov 3 M 7 642 ne 9 žena 1928 Jihlava 4 XL 7 545 ano 10 muž 1942 Jihlava 0 L 6 952 ano 11 muž 1936 Jihlava 1 L 5 164 ne 12 žena 1929 Stonařov 3 M 7 501 ano 13 muž 1932 Jihlava 2 S 6 218 ne 14 žena 1933 Brtnice 0 XL 9 002 ne 15 žena 1938 Brtnice 0 M 6 805 ano 16 žena 1934 Jihlava 4 L 10 645 ne 17 muž 1935 Brtnice 1 S 6 237 ano 18 žena 1932 Jihlava 2 L 7 432 ano 19 muž 1935 Polná 1 L 8 543 ne 20 muž 1930 Stonařov 5 XL 11 543 ne 21 žena 1936 Jihlava 1 M 6 572 ano 22 muž 1938 Jihlava 1 S 10 812 ne 23 žena 1935 Brtnice 2 L 7 218 ne 24 žena 1929 Polná 3 M 7 892 ano 25 muž 1941 Stonařov 2 XL 8 756 ne VŠP Jihlava, 2015 S. Dvořáková 7

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT denních stacionářů, všichni senioři (všeobecně), všichni studenti VŠPJ, všechna auta jezdící po dálnici, apod. Rozsah (velikost) populace se značí N. V našem případě rozsah základního souboru neznáme (tj. ze zadání nevíme, jaký je počet všech klientů denního stacionáře). Statistický soubor je množina všech zkoumaných objektů. V našem případě se jedná o 25 klientů denního stacionáře. Tento soubor může být shodný s populací (v našem případě není) nebo se jedná o výběrový soubor, v němž jsou určitým způsobem vybráni zástupci populace (vzorek). Většinou se jedná o náhodný výběr. Statistické jednotky (prvky, elementy) jsou jednotliví klienti. Každé jednotce náleží jeden řádek v tabulce 1.1. Rozsah souboru je počet všech jednotek souboru a značí se n. Platí n N (rozsah souboru nemůže být nikdy větší než velikost populace). V našem případě je n = 25 (počet vybraných klientů). Statistické znaky (proměnné) jsou vlastnosti statistických jednotek, které můžeme dále analyzovat. Jedná se tedy o názvy sloupců v tabulce, tj. pohlaví, rok narození, atd. Obměny statistického znaku jsou hodnoty, jichž každá proměnná nabývá. Jsou to údaje, které jsou napsány v jednotlivých buňkách tabulky. Proměnná bydliště má čtyři obměny, a to Brtnice, Jihlava, Polná a Stonařov. Podle obměn statistického znaku určujeme typy dat: Proměnná kvalitativní nominální (kategoriální, slovní... ) ordinální kvantitativní diskrétní spojitá (numerická, číselná... ) Nominální proměnné mají obměny slovní. V našem příkladu jsou to pohlaví (žena/muž), vlastní zuby (ano/ne) a bydliště (Brtnice/Jihlava/... ). V prvních dvou případech se jedná o slovní znak alternativní (binární), protože nabývají pouze a právě dvou obměn. VŠP Jihlava, 2015 S. Dvořáková 8

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.1 Nominální proměnná Ordinální proměnnou je velikost. Jedná se o slovní nebo číselnou obměnu. Důležité ale je, že jednotlivým variantám lze přiřadit logické pořadí. Může se jednat např. o spokojenost se službami (spokojen hodně/spokojen málo/nespokojen), dosažené vzdělání (základní/učňovské/s maturitou/vysokoškolské) nebo známku z matematiky v páté třídě základní školy. Ostatní proměnné jsou kardinální (měřitelné, číselné). Proměnná důchod je spojitá, protože může nabývat jakékoli hodnoty v určitém intervalu. Oproti dalším znakům ( rok narození, počet dětí ), které jsou diskrétní (lze mít jedno nebo dvě děti, ale ne 1,5 dítěte). Zmiňme ještě dva důležité pojmy. A to bodové a intervalové třídění. Bodové třídění používáme u slovních proměnných a u číselné proměnné, která má málo obměn. Intervalové třídění se používá u číselné proměnné s více obměnami a u spojité proměnné. Více lze najít např. v [2, Kap. 1.3.1]. 1.1 Nominální proměnná V následujícím příkladu si ukážeme, jak lze zpracovat nominální, nebo-li slovní, proměnnou z tabulky 1.1. Příklad 1.2. Proved me nyní statistickou analýzu proměnné bydliště. Jak bylo řečeno výše, jedná se o nominální (slovní) znak, který lze třídit pouze bodově. To znamená, že spočítáme, kolik klientů je z Brtnice a dalších obcí. Určíme tedy absolutní četnost n i pro každou obec a sečteme. (Musíme dostat rozsah souboru n = 25. Je to kontrola správnosti výpočtu, jestli se na nějakého klienta nezapomnělo.) Dále spočítáme relativní četnost p i = n i n. Ta vyjadřuje procento klientů (z celkového počtu vybraných 25 klientů), kteří bydlí v příslušné obci. Relativní četnost se bud vyjadřuje desetinným číslem nebo v procentech. (Součet sloupce relativní četnosti musí vyjít 1 = 100%.) Vše napíšeme do tabulky četností (frekvenční tabulky) a seřadíme podle velikosti (od nejpočetnější obce). Někdy lze tabulku seřadit i podle abecedy. Výsledek třídění nominální proměnné bydliště je ukázán v tabulce 1.2. V MS Excel lze použít funkci COUNTIF nebo nástroj Kontingenční tabulka, který najdeme v nabídce Vložit. Popisovat používání funkcí v MS Excel není náplní tohoto textu. (Předpokládá se totiž, že student má nějaké základní znalosti. At ze střední VŠP Jihlava, 2015 S. Dvořáková 9

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.1 Nominální proměnná Tabulka 1.2: Bodové třídění proměnné bydliště bydliště absolutní četnost relativní četnost x i n i p i Jihlava 10 10/25 = 0, 40 = 40 % Brtnice 6 6/25 = 0, 24 = 24 % Stonařov 5 5/25 = 0, 20 = 20 % Polná 4 4/25 = 0, 16 = 16 % celkem 25 1 =100 % školy nebo z předmětu Základy informatiky.) Nicméně u funkce COUNTIF se zastavíme, protože to je méně známá, ale velice užitečná věc. Tato funkce vrátí počet buněk v zadané oblasti, které splňují požadované kriterium. Tím kriteriem může být v našem případě název požadované obce (na obrázku 1.1 je název vložen odkazem na Jihlavu). Tuto funkci lze použít i v případě, že budeme chtít vědět např. kolik lidí má důchod menší nebo roven částce 7000 Kč (obrázek 1.2). Obrázek 1.1: Výpočet počtu klientů z Jihlavy pomocí funkce COUNTIF V dalším textu popíšeme, jak lze vytvořit kontingenční tabulku. Na kartě Vložit zvolíme Kontingenční tabulka. Za vstupní oblast můžeme označit celou tabulku 1.1 (je to jednodušší a přehlednější) a kontingenční tabulku je lepší umístit do nového prázdného listu. Proměnnou bydliště myší přesuneme do Řádky a klienta do Hodnoty (sem se může přesunout v podstatě jakákoli proměnná, č. VŠP Jihlava, 2015 S. Dvořáková 10

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.1 Nominální proměnná Obrázek 1.2: Výpočet počtu klientů mající důchod 7000 Kč pomocí COUNTIF ale č. klienta má jednoznačné a neopakující se hodnoty, takže je jistota, že budou četnosti spočítány správně). Musíme ještě zkontrolovat, že se počítá Počet a ne Součet hodnot (pokud se jedná o čísla, je automaticky nastaven právě součet). Popřípadě to musíme změnit v nabídce Nastavení polí hodnot, jak je ukázáno na obrázku 1.3. Kontrola je taková, že se podíváme na poslední řádek kontingenční tabulky, kde je součet všech hodnot (Celkový součet) a toto číslo musí být stejné jako rozsah souboru. V našem případě n = 25. Obrázek 1.3: Výpočet absolutních četností proměnné bydliště v kontingenční tabulce Relativní četnost získáme tak, že do pole Hodnoty přidáme znovu č. klienta a hodnoty necháme zobrazit jako % z celkového součtu (viz obrázek 1.4). Na závěr kontingenční tabulku seřadíme od nejčetnější obce (obrázek 1.5). Nástroj Kontingenční tabulka je relativně jednoduchý a rychlý. Nesmíme ovšem zapomínat na to, že MS Excel spoustu věcí nastavuje automaticky VŠP Jihlava, 2015 S. Dvořáková 11

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.1 Nominální proměnná (jak si myslí, že to má být) a my to tak občas nechceme. Proto nesmíme zapomenout pořádně zkontrolovat, jestli v tabulce máme opravdu to, co tam chceme mít. Dále je třeba si uvědomit, že se kontingenční tabulka sama nepřepočítá (tak, jak to dělají funkce). Při jakékoli změně původních dat je zapotřebí tabulku aktualizovat. Obrázek 1.4: Zobrazení relativní četnosti v kontingenční tabulce Obrázek 1.5: Seřazení kontingenční tabulky od nejčetnější obce Dále je vhodná grafická prezentace dat. Pro nominální proměnnou se hodí např. výsečový, sloupcový nebo pruhový graf (viz [2, Kap. 2.1]). Na obrázku 1.6 je ukázán jednoduchý výsečový graf. Nejčetnější statistická obměna znaku se nazývá modus. V našem případě se jedná o obec, ze které pochází nejvíce kientů, tj. ˆx =Jihlava. VŠP Jihlava, 2015 S. Dvořáková 12

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.2 Ordinální proměnná Obrázek 1.6: Výsečový graf proměnné bydliště To je vše, co se dá dělat s nominálními daty. Kumulativní četnost nebo různé charakteristiky (průměr atd.) nemá smysl počítat. V případě zobrazování relativní četnosti si dejte pozor na správnou interpretaci grafu, aby někdo neznalý problému z něho nevyvodil špatný závěr. Uved me si příklad: Zeptáme se dvou studentek, zda mají rády matematiku (zrovna jdou ze zkoušky ze Statistiky a dostaly výbornou). Pak napíšeme, že 100 % studentek má rádo matematiku. Graf proto musí být vždy zcela jasný, jednoznačný, dobře popsaný a pokud možno i jednoduchý (pokud je toho v grafu moc, špatně se v něm orientuje). Je lepší vytvořit graf vlastní a nepoužívat Kontingenční graf. Nelze v něm totiž měnit všechna nastavení, která by byla zapotřebí, aby byl graf pěkný, přehledný a měl tu správnou vypovídající schopnost. 1.2 Ordinální proměnná Při zpracovávání ordinální proměnné postupujeme ze začátku stejně jako u nominální proměnné. Je jedno, zda se jedná o slovní nebo číselné obměny. Důležité je, že je můžeme seřadit, tj. určit, která je menší a která větší. Frekvenční tabulku navíc rozšíříme o kumulativní četnost. Ukážeme si to v následujícím příkladu. VŠP Jihlava, 2015 S. Dvořáková 13

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.2 Ordinální proměnná Příklad 1.3. Proved me statistické zpracování proměnné velikost. Jedná se o slovní ordinální proměnnou. Její obměny můžeme logicky seřadit od nejmenší po největší: S, M, L, XL. Pro každou obměnu (velikost) spočítáme absolutní četnost (kolikrát se v souboru vyskytuje) a relativní četnost (procentuální zastoupení) a vytvoříme frekvenční tabulku analogicky jako v příkladu 1.2 pro nominální proměnnou (jenom tabulku nebudeme řadit podle četnosti, ale logicky (ne abecedně) podle znaku x velikosti), viz tabulka 1.3. Tabulka 1.3: Frekvenční tabulka pro proměnnou velikost četnosti velikost absolutní relativní kumulativní relativní x i n i p i kp i S 5 0,20 0, 20 M 6 0,24 0, 2 + 0, 24 = 0, 44 L 8 0,32 0, 2 + 0, 24 + 0, 32 = 0, 76 XL 6 0,24 0, 2 + 0, 24 + 0, 32 + 0, 24 = 1, 00 celkem 25 1,00 x (nesčítá se) Kumulativní absolutní četnost je počet hodnot, které nabývají varianty nižší nebo rovné variantě, pro kterou kumumulativní četnost počítáme. U kumulativní relativní četnosti se jedná o vyjádření v procentech a počítá se podle vzorce: i kp i = p j. j=1 Můžeme říci, že 76 % klientů má velikost L a menší. Logicky musí být kumul. rel. četnost v posledním řádku tabulky rovna 1 (100 %), protože jsou sečteni všichni klienti (klienta s větší velikostí už nemáme). Kumulativní relativní četnost necháme v kontingenční tabulce spočítat tak, že do pole Hodnoty přidáme znovu č. klienta a hodnoty zobrazíme jako % mezisoučtu (viz obrázek 1.7). Pro grafickou prezentaci ordinální proměnné se může použít sloupcový a pruhový graf. Vynášet můžeme četnosti absolutní, relativní a kumulativní. Na obrázku 1.8 je ukázka pruhového grafu relativní četnosti. VŠP Jihlava, 2015 S. Dvořáková 14

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.2 Ordinální proměnná Obrázek 1.7: Zobrazení kumulativní relativní četnosti v kontingenční tabulce Obrázek 1.8: Pruhový graf proměnné velikost Jednou z charakteristik, kterou zde má smysl uvádět je modus. Jedná se o nejčastější hodnotu, nejčetnější možnost, odpověd na otázku: Jakou velikost má nejvíce lidí?. Modus určíme z frekvenční tabulky nebo grafu. Nejvíce lidí má velikost L, tzn. modus ˆx = L. Dále je možno uvést charakteristiky, které se určují z kumulativní četnosti. Jedná se o tzv. kvantily. Nejpoužívanější je medián, dolní a horní kvartil. (Pozor na záměnu slůvek kvantil a kvartil!) Vysvětleme si podstatu mediánu, ostatní kvantily jsou obdobné. Mediánu se také někdy říká prostření hodnota. Takže se jedná o číslo, které je přesně uprostřed. Ale jak na něj přijít? Představme si, že klienty seřadíme do řady podle velikosti (jako v tělocviku) od nejmenšího po VŠP Jihlava, 2015 S. Dvořáková 15

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá největšího. Nebo je seřadíme od nejlehčího po nejtěžšího, od nejméně vzdělaného po nejvíce vzdělaného, od nejmladšího po nejstaršího, prostě je seřadíme podle znaku, který zrovna zkoumáme. Potom najdeme toho, který stojí přesně uprostřed řady a jeho velikost je žádaný medián. Problém je s tím přesně uprostřed. Pokud budu mít 3 lidi (lichý počet), prostřední je druhý a je to. Pokud ale budou 4 klienti (sudý počet), prostředního nemáme. Půlka je někde mezi druhým a třetím. Potom se obvykle spočítá průměr druhého a třetího a prohlásí se to za medián. Na medián se dá pohlížet i tak, že dělí soubor na dva stejně početné díly, kde v první polovině jsou všechny menší nebo stejné a ve druhé větší nebo stejné hodnoty. Proto hledáme prostředního, čili 50% klienta. Pokud máme spočítanou kumulativní četnost (nejlépe relativní), lze kvantily určovat z ní, protože máme klienty seřazené podle velikosti a postupně sečtené. Medián rozděluje soubor na poloviny, takže hledáme 50 %. Najdeme takový řádek frekvenční tabulky 1.3, kde kumulativní relativní četnost poprvé přesáhne 0,5 (tj. 50 %). Potom je medián x =L. Kvartily rozdělují soubor na 4 stejně početné díly. Dolní (první) kvartil určuje hodnota 25 % a horní (třetí) odpovídá 75 %. Hledají se obdobně jako medián. Dolní kvartil je tam, kde kumul. rel. četnost poprvné přesáhne 0,25, tj. x 0,25 =M. A horní kvartil je x 0,75 =L. Zkuste všech 25 klientů tabulky 1.1 seřadit podle velikosti a čárami je rozdělit na poloviny a čtvrtiny. Zjistíte, že hodnoty odpovídají námi vypočteným. Pozor! Průměr zde nemá smysl počítat. Bylo by to hezké říci: průměrná velikost klientů je.... Ale jak vypočítat průměr, když velikost máme danou písmeny? 1.3 Kardinální proměnná nespojitá Nespojitou číselnou proměnnou lze třídit bodově i intervalově. Rozhoduje počet obměn, rozsah souboru a účel statistického zpracování. Pro popis dat se použijí charakteristiky (míry). Statistické charakteristiky jsou taková čísla, která obsahují informace o podstatných statistických vlastnostech studovaného souboru. Význam charakteristik spočívá především v možnosti srovnávat, jak dalece se jednotlivé datové soubory ve svých vlastnostech shodují nebo liší. Nejčastěji se určují tři skupiny charakteristik: Míry polohy (úrovně) určují umístění na číselné ose (jestli se hodnoty pohybují v jednotkách nebo milionech). VŠP Jihlava, 2015 S. Dvořáková 16

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Míry variability (proměnlivosti) určují variabilitu hodnot, většinou kolem jedné (typické) polohy. Momentové charakteristiky nejznámější je asymetrie (šikmost) a špičatost. Detailnější popis charakteristik lze najít např. v [2, Kap. 1.4 1.6]. Příklad 1.4. Zpracujte počet dětí klientů denního stacionáře z tabulky 1.1. Proměnná počet dětí nabývá šesti hodnot, a to 0 až 5. Použijeme proto bodové třídění (počet obměn je rozumný ). Postupovat budeme stejně, jako v předchozím příkladu 1.3. Pomocí nástroje Kontingenční tabulka v MS Excel vytvoříme frekvenční tabulku obsahující absolutní, relativní a kumulativní četnosti. Toto bodové třídění je v tabulce 1.4. Tabulka 1.4: Bodové třídění proměnné počet dětí počet dětí abs. četnost relat. četnost kumulativní r. č. x i n i p i kp i 0 5 0,20 0,20 1 6 0,24 0,44 2 7 0,28 0,72 3 4 0,16 0,88 4 2 0,08 0,96 5 1 0,04 1,00 celkem 25 1,00 x Následně můžeme vytvořit graf. Vhodný je sloupcový, skládaný pruhový atd. (viz [2, Kap. 2.1]). Na osu y grafu můžeme vynést jakoukoli četnost (absolutní, relativní, kumulativní) podle toho, jak a na co graf potřebujeme. Na obrázku 1.9 je ukázka sloupcového grafu s relativní četností. Pro dobrý přehled o datech je vhodné spočítat některé statistické charakteristiky polohy ([2, Kap. 1.4]), charakteristiky variability ([2, Kap. 1.5]) a charakteristiky šikmosti a špičatosti ([2, Kap. 1.6]). V MS Excel lze k této záležitosti přistupovat několika způsoby: 1. Použitím nástroje Popisná statistika. 2. Použitím funkcí MS Excel. 3. Vypočítáním charakteristik z frekvenční tabulky. VŠP Jihlava, 2015 S. Dvořáková 17

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Obrázek 1.9: Sloupcový graf proměnné počet dětí Ke kýženým hodnotám je možno dobrat se i jiným způsobem, ale zde uvedené jsou nejjednodušší a relativně snadno pochopitelné. Při výběru způsobu výpočtu záleží na tom, zda máme k dispozici původní data nebo jenom zpracovanou tabulku četností, zda potřebujeme pouze jednu hodnotu (např. průměr) nebo více charakteristik. Pokud jsou k dispozici původní data, tzn. máme v tabulce všechny výsledky šetření tak jako v tabulce 1.1, potom můžeme použít kteroukoli metodu. Máme-li ovšem k dispozici pouze frekvenční tabulku, např. tabulku 1.4, první dvě metody použít nemůžeme! Ze cvičných důvodů si ukážeme všechny tři možnosti, každý uživatel necht si potom vybere takový, který mu bude vyhovovat. Začněme od poslední možnosti, nebot tam budeme počítat jednotlivé charakteristiky postupně a můžeme si tedy lépe a podrobněji popsat jejich interpretaci. Ad 3) Ruční počítání z frekvenční tabulky: Pokud máme k dispozici pouze tříděná data (v frekvenční tabulce), a ne původní hodnoty, nelze použít ani funkce MS Excel, ani nástroj Popisná statistika a musíme použít tento způsob výpočtu. Jedná se většinou o data odněkud stažená, např. ze statistického úřadu, kde jsou různé tabulky volně k dispozici. Tzn., že stáhneme (dostaneme) už zpracovanou tabulku obsahující pouze obměny statistického znaku a absolutní (případně relativní) četnost. Původní data k dispozici nemáme (v případě sčítání lidu ze statistického úřadu by se jednalo o miliony hodnot). Vzorce a popis výpočtů charakteristik lze najít např. v [2, Kap. 1]. Nebudeme proto výpočet popisovat detailně. Spočítejme nejprve aritmetický průměr. VŠP Jihlava, 2015 S. Dvořáková 18

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Na tomto místě dovolte malou odbočku od příkladu. Většině čtenářů, kterým je tento text určen, jsou uvedené vzorce pro výpočet váženého průměru (a dalších) na první pohled nečitelné. Nicméně, při malém zamyšlení je mohou sami odvodit a vysvětlit. Ukážeme si to na jablkách. Představte si, že v domově důchodců jsou tři muži a dvanáct žen. Každý muž sní čtyři jablka a každá žena jedno jablko za den. Kolik průměrně jablek každý bez ohledu na pohlaví sní? To umí spočítat děti na základní škole: Celkem se denně sní 3 4 + 12 1 = 24 jablek. Vydělením celkovým počtem lidí (15) dostáváme průměrný počet jablek na jednoho klienta x = 3 4+12 1 = 24 = 1, 6, tj. každý sní průměrně 1,6 jablka za den. 15 15 Co toto číslo znamená? Pokud by opravdu každý z 15-ti klientů snědl 1,6 jablka, rozdali bychom 24 jablek dohromady všem klientům. A ted si to převed me do řeči matematiky: máme proměnnou počet jablek ozn. x i, a absolutní četnost ozn. n i (kolik lidí sní příslušný počet jablek), přičemž celkový počet lidí je n = 15. (Proč zrovna počet jablek jsme označili x a počet lidí n a ne obráceně? Protože počítáme průměrný počet jablek na jednoho člověka a ne průměrný počet lidí na jedno jablko. A to, co počítáme, označujeme jako neznámou x.) Průměrný počet jablek jsme vypočítali tak, že jsme počet jablek vynásobili příslušným počtem lidí (x i n i ), sečetli (znak ) a vydělili celkovým počtem lidí ( 1 ). Když to vše složíme dohromady, n dostáváme vzorec pro výpočet aritmetického průměru: x = 1 n xi n i. Představme si, že nevíme, kolik lidí je v domově důchodců, ale víme, že je tam ( 3 =) 20 % mužů a ( 12 =) 80 % žen. Kolik průměrně jablek sní? Tak 15 15 si řekneme, že v domově důchodců je 100 lidí, tedy 20 mužů a 80 žen, a výpočet průměru provedeme jako v předcházejícím případě: x = 20 4+80 1 = 100 160 = 1, 6. 100 Nebo si můžeme říci, že je tam jeden celek, z toho pětina mužů (20% = 0, 2) a čtyři pětiny žen (80% = 0, 8). Průměrný počet jablek je potom x = 0,2 4+0,8 1 = 1, 6. V tomto případě jsme použili místo absolutní četnosti 1 (n i ) četnost relativní (p i ) a vzorec pro výpočet aritmetického průměru je x = x i p i (děleno číslem jedna jsme vynechali). Z uvedených vztahů vyplývá, že je jedno, zda při výpočtu používáme absolutní nebo relativní četnost (výsledky musí vyjít stejně). Použití relativní četnosti je jednodušší v tom, VŠP Jihlava, 2015 S. Dvořáková 19

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá že nemusíme dělit rozsahem souboru. Nemusíme uvažovat o jablkách, můžeme seniorům rozdávat děti, důchody nebo věk a výpočet se bude provádět vždy stejným způsobem podle stejného vzorce. Při výpočtu postupujeme zevnitř vztahů. To znamená, že nejprve pro každý řádek vypočteme to, co je uvnitř sumy (to s indexy i) výhodné je použít kopírování výpočtů s odkazy na příslušné buňky. Potom celý sloupec sečteme, případně ještě vydělíme a dostaneme výsledek. Výpočet průměru je ukázán v tabulce 1.5 v pátém sloupci. Průměrný počet dětí klientů denního stacionáře je 1,8. Tabulka 1.5: Pracovní tabulka pro výpočet charakteristik proměnné počet dětí počet dětí abs.č. rel.č. kum.rel.č. pro průměr pro rozptyl x i n i p i kp i x i p i x 2 i p i 0 5 0,20 0,20 0 0 1 6 0,24 0,44 0,24 0,24 2 7 0,28 0,72 0,56 1,12 3 4 0,16 0,88 0,48 1,44 4 2 0,08 0,96 0,32 1,28 5 1 0,04 1,00 0,20 1,00 25 1 x 1,80 5,08 Nejčastější hodnota, nebo-li modus, se nejlépe určuje ze sloupcového grafu. Na obrázku 1.9 je jasně vidět, že nejvíce lidí má dvě děti. Modus je tedy ˆx = 2. Medián, kvartily, kvantily a percentily se určují z frekvenční tabulky, a to z kumulativní relativní četnosti. U těchto charakteristik máme vždy zadaná procenta (medián = 50 %, dolní kvartil = 25 % a horní kvartil = 75 %, popřípadě další). Na kterém řádku kumulativní rel. četnost poprvé překročí požadované procento, tam odečteme příslušnou charakteristiku. Proto je medián x = 2, dolní kvartil x 0,25 = 1 a horní kvartil x 0,75 = 3. Co nám vlastně tyto charakteristiky říkají? Pokud klienty seřadíme vedle sebe podle počtu dětí a vybereme prvních např. 25 % (tj. 6,25 klientů), můžeme s jistotou říci, že všichni budou mít jedno a méně dětí. VŠP Jihlava, 2015 S. Dvořáková 20

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Dovolte ještě malou poznámku o charakteristikách úrovně. Aritmetický průměr je tou nejpoužívanější charakteristikou. Jenže, oproti kvantilům (hlavně mediánu), je velice citlivý na extrémní hodnoty (at už nízké nebo vysoké). Představme si, že máme firmu s deseti zaměstnanci. Devět pracovníků má plat deset tisíc korun a ředitel padesát tisíc. Průměrný plat 9 10 000+50 000 je = 14 000 Kč. Ředitel si zvedne plat na pět set tisíc, takže 10 průměrný plat ve firmě vzroste na 59 000 Kč. Kdežto 85% kvantil je neustále 10 000 Kč. Závěr o statistikách, kde se mluví pouze o průměru, necht si každý laskavý čtenář vytvoří sám. Pokud nějaká charakteristika není citlivá na odlehlé hodnoty, mluví se o robustní charakteristice. Variační rozpětí je rozdíl mezi extrémy, vzdálenost mezi maximem a minimem, R = x max x min = 5 0 = 0. Jedná se o šířku intervalu, ve kterém se nachází všechny hodnoty souboru. Mezikvartilové rozpětí je rozdíl mezi dolním a horním kvartilem Q = x 0,75 x 0,25 = 3 1 = 2. Jedná se o šířku intervalu, ve kterém se nachází prostředních 50 % hodnot. Rozptyl je důležitá charakteristika variability. Zjednodušeně řečeno nám říká, jak moc jsou data rozptýlená (odchýlená) kolem průměru. Více o rozptylu a jeho vlastnostech lze najít např. v [5, Moduly 1, 2]. Nejznámější vzorec pro výpočet rozptylu je následující s 2 = (x i x) 2 p i. Pro praktický výpočet je lepší použít upravený vzorec, a to ( ) s 2 = x 2 i p i ( x) 2 = 5, 08 1, 8 2 = 1, 84. Výpočet první sumy ( x 2 i p i ) je ukázán v tabulce 1.5 v šestém sloupci. Opět lze pro výpočet použít kromě relativní četnosti i četnost absolutní podle vzorců s 2 = 1 (xi x) 2 n i = 1 ( ) x 2 i n i ( x) 2. n n Pokud v předešlém vzorci nedělíme velikostí souboru n, ale číslem n 1, jedná se o tzv. výběrový rozptyl. Mezi rozptylem a výběrovým rozptylem VŠP Jihlava, 2015 S. Dvořáková 21

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá je malý rozdíl a čím více máme dat, tím je tento rozdíl menší. Výběrový rozptyl se používá tam, kde nemůžeme z nějakého důvodu změřit všechny jednotky, tj. celou populaci, zapíšeme tedy jenom část jednotek (výběr, tj. místo všech klientů stacionáře změříme pouze pár náhodně vybraných klientů), ale výsledek vztáhneme na celou populaci (všechny klienty). S rozptylem je problém ten, že vyjadřuje počet dětí na druhou, což je těžko představitelné. Proto se zavádí směrodatná odchylka, kterou vypočítáme jako odmocninu z rozptylu s = s 2 = 1, 84 = 1, 36. Můžeme potom říci, že počet dětí klientů se pohybuje zhruba v hodnotách 1,8 dítěte plus minus 1,36 dítěte. Důležité je to slůvko zhruba, protože to není zcela přesná interpretace, ale pro základní představu to stačí. Pro porovnání rozptylů dvou různých proměnných nemůžeme použít rozptyl ani směrodatnou odchylku. Ty dvě porovnávané proměnné mohou totiž mít jiné jednotky, např. váha v kg a výška v cm. A pokud jsou ve stejných jednotkách, mohou se pohybovat v jiných číslech (mají jiný průměr), např. plat poslance a plat uklízečky. Vypočítáme proto variační koeficient v = s x = 1, 36 1, 8 = 0, 7556 = 75, 56 %. Jedná se o bezrozměrnou veličinu, pomocí které můžeme srovnávat různé proměnné, např. počet dětí věk klienta, a nezáleží na jejich jednotkách. Někdy je potřeba vědět, jak jsou data uspořádaná kolem průměru. K tomu nestačí směrodatná odchylka (variační koeficient). Pokud se podíváme na graf na obrázku 1.9, je vidět, že data jsou levostranná (vrchol grafu je vychýlen směrem k nižším hodnotám vlevo). Číselně nám to řekne koeficient šikmosti (asymetrie). Výpočet tohoto koeficientu ovšem uvádět nebudeme. Zájemci mohou příslušné vzorečky najít např. v [5]. Občas stačí určit asymetrii pouze z grafu a velikosti modu a průměru. Pokud je nejvyšší sloupec více v levo a modus je menší než průměr, jsou data levostranná. Pokud je nejvyšší sloupec vpravo a modus je větší než průměr, jsou data pravostranná. Pokud je nejvyšší sloupeček uprostřed a modus s průměrem se rovnají, lze říci, že data jsou symetrická. Schematicky je to znázorněno na obr. 1.10. Ale mějte na paměti, že je to pouze odhad. Někdy se také počítá koeficient špičatosti (excesu). Je-li tento koeficient roven nule, hovoří se o normální špičatosti. Pak může být podnormální a nadnormální špičatost. Tato hodnota je opět citlivá na odlehlé hodnoty a navíc ji VŠP Jihlava, 2015 S. Dvořáková 22

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Obrázek 1.10: Asymetrie statistických dat ovlivňuje i asymetrie. Proto se doporučuje při její interpretaci postupovat velmi opatrně. Vzorec pro výpočet najdete např. v [2, Kap. 1.6]. Samozřejmě zde nejsou popsané všechny charakteristiky, které lze počítat. Ukázali jsme jenom pár nejpoužívanějších. V případě potřeby lze další najít v různých učebnicích statistiky. Jedná se např. o percentily, různé odchylky kolem průměru nebo mediánu, atd. Ad 2) Předdefinované funkce MS Excel: Tyto funkce lze použít pouze a výhradně jenom na netříděná původní data!!! V tabulce 1.6 je přehled nejpoužívanějších funkcí se stručným popisem použití. Názvy funkcí jsou psané pro verzi MS Excel 2013, který se v součsné době používá k výuce na VŠPJ. U starších (případně novějších) verzí se některé názvy mohou lišit. Pokud budeme počítat více charakteristik, je výhodné oblast dat pojmenovat (obrázek 1.11). Poté můžeme do funkce napsat pouze název a nemusíme pokaždé příslušnou oblast dat vyznačovat. (Pro našich 25 hodnot to není takový problém, ale pokud budeme mít rozsah souboru větší, už by se mohly vyskytovat chyby v tom, že nemusí být pokaždé označena všechna data.) Výsledné hodnoty jsou uvedeny v tabulce 1.7. Poznamenejme k nim toliko: Pozor na funkci MODE.SNGL, ta najde jeden modus a pokud data obsahují modů několik (nebo žádný, záleží na úhlu pohledu), tak to nezjistí. Funkce MODE.MULT najde mody všechny, ale jedná se o maticovou funkci, která se vkládá kombinací kláves Ctrl+Shift+Enter. Pokud někdo neví, o co jde, tak to těžko použije. Dále je potřeba poznamenat, že koeficient špičatosti vypočítaný funkcí KURT je výběrový a o něco málo se liší oproti koeficientu špičatosti vypočtenému v bodě 3). To samé platí o koeficientu šikmosti a funkci SKEW. VŠP Jihlava, 2015 S. Dvořáková 23

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Tabulka 1.6: Výběr funkcí MS Excel 2013 pro popisnou statistiku ČETNOSTI COUNTIF CORREL KURT MAX MEDIAN MIN MODE.MULT MODE.SNGL PERCENTIL.INC POČET POČET2 PRŮMĚR QUARTIL.INC SKEW SMODCH.P SMODCH.VÝBĚR.S VAR.P VAR.S Matice absolutních četností na základě intervalů (maticová funkce) Absolutní četnost dat splňující dané kriterium Výpočet korelačního koeficientu Výběrová špičatost Maximum Medián Minimum Matice modů (maticová funkce) Modus Percentily Počet čísel Počet neprázdných buněk Aritmetický průměr Kvartily Koeficient asymetrie Směrodatná odchylka Výběrová směrodatná odchylka Rozptyl Výběrový rozptyl Ad 1) Popisná statistika: Používá se na původní data a jedná se o doplňkový nástroj MS Excel. Nemusí být tedy na každém počítači nainstalován. Při doinstalování postupujeme následovně (není zapotřebí instalační CD): Soubor Možnosti Doplňky a přidáme Analytické nástroje. Ty pak najdeme na kartě Data. V těchto nástrojích vybereme Popisná statistika a nastavíme požadované možnosti analýzy (data by měla být v jednom sloupci). Výstup je zobrazen na obrázku 1.12. VŠP Jihlava, 2015 S. Dvořáková 24

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.3 Kardinální proměnná nespojitá Obrázek 1.11: Nadefinování nového názvu v MS Excel Tabulka 1.7: Výsledky stat. analýzy proměnné počet dětí použitím funkcí počet 25 minumim 0 maximum 5 průměr 1,8 modus 2 medián 2 dolní kvartil 1 horní kvartil 3 rozptyl 1,840 směrodatná odchylka 1,356 Na jednotlivé hodnoty jsme se zaměřili v ostatních bodech. Na tomto místě jenom poznamenejme, že průměr je tu označen jako střední hodnota, počet je rozsah souboru. Rozptyl (a tím i směrodatná odchylka) je vypočítán jako výběrový rozptyl. Koeficienty šikmosti a špičatosti jsou také výběrové. VŠP Jihlava, 2015 S. Dvořáková 25

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.4 Kardinální proměnná spojitá Obrázek 1.12: Výsledek statistické analýzy proměnné počet dětí nástrojem Popisná statistika 1.4 Kardinální proměnná spojitá V této kapitole se zaměříme na zpracování kardinální proměnné spojité. Připomeňme, že se jedná o takový statistický znak, jehož hodnoty jsou čísla, a to v podstatě jakékoliv hodnoty (např. věk, výška, váha, plat, atd.). Pro spojitou číselnou proměnnou použijeme intervalové třídění (více [2, Kap. 1.3.2]). Než začneme třídění provádět, je potřeba se zastavit a pořádně zamyslet (nejednat zbrkle). Musíme zvolit počet intervalů (tříd) k, jejich šířku h a jejich hranice (meze). Intervaly volíme tak, aby se nepřekrývaly a těsně na sebe navazovaly. Dále je třeba rozhodnout, do kterého intervalu mají spadat krajní body intervalů, zda do pravého nebo levého, tj. zda budou intervaly zprava nebo zleva otevřené. Tzn. bud 10; 20) nebo (10; 20. Obvyklá bývá stejná šířka (h) pro všechny intervaly. Někdy se může vyskytnout případ, kdy je potřeba mít intervaly různě velké (jinak by třídění nemělo tu správnou vypovídající hodnotu). Jako příklad může posloužit demografické rozdělení obyvatelstva např. na dětskou složku do 14-ti let, produktivní věk 15 až 64 let a postproduktivní věk nad 65 let (senioři). Tímto problémem se ale zabývat nebudeme, je tam složitější výpočet potřebných charakteristik. VŠP Jihlava, 2015 S. Dvořáková 26

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.4 Kardinální proměnná spojitá Často se nechávají první a poslední interval otevřené pro extrémní hodnoty. Jejich šířku pro jednoduchost uvažujeme také rovnu h. Existují různé vzorce a předpisy pro určení počtu tříd. Záleží ovšem také na účelu zkoumání, jaká jsou data a rozsahu souboru. Méně než 5 tříd nemá smysl a neměli bychom ani volit přes 20 tříd, protože tak třídění ztrácí na přehlednosti. Hranice intervalů také volíme s rozvahou. Uvědomme si, že při výpočtu různých charakteristik jednotlivé intervaly nahrazujeme jedinou hodnotou, a to středem třídy (číslem, které je přesně uprostřed intervalu aritmetickým průměrem obou mezí třídy). Raději vytvoříme interval 10, 20), který má střed 15, než interval 10, 21) se středem 15, 5. Příklad 1.5. Proved me nyní statistickou analýzu proměnné důchod. Zjistíme rozsah souboru (n = 25), minimální (x min = 5 164) a maximální (x max = 11 543) hodnotu, vypočítáme variační rozpětí R = 6 379. Z podstaty dat vytvoříme 7 tříd s šířkou h = 1 000 a prvním středem 5 500, viz tabulka 1.8. Tuto tabulku lze opět v MS Excel vytvořit několika způsoby: funkcí ČETNOSTI, do které se vkládá matice horních hranic intervalů a jedná se o maticovou funkci (ukazovat ji nebudeme). nástrojem Kontingenční tabulka. Z proměnné důchod vytvoříme kontingenční tabulku jako u proměnné bydliště v příkladu 1.2. Potom necháme sloupeček s důchody Seskupit (viz obrázek 1.13), kde většinou změníme Začátek a Přírůstek, oproti tomu, co MS Excel automaticky navrhne. Nezapomeňte zkontrolovat, zda se vytvořily intervaly tak, jak jste chtěli. Obrázek 1.13: Vytvoření intervalů v kontingenční tabulce VŠP Jihlava, 2015 S. Dvořáková 27

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.4 Kardinální proměnná spojitá Poznamenejme, že v MS Excel v kontingenční tabulce se intervaly tvoří zprava otevřené (např. 6 000; 7 000), 7 000; 8 000), atd.). To znamená, že důchod 7 000 připadne do druhého intervalu. POZOR, funkce ČETNOSTI uvažuje intervaly přesně obráceně, tedy zprava uzavřené. Tabulka 1.8: Intervalové třídění proměnné důchod č. inter. interval střed inter. abs. četn. relat. četn. kumul. rel. č. x i n i p i kp i 1 do 6 000 5 500 1 0,04 0,04 2 6 000 7 000 6 500 6 0,24 0,28 3 7 000 8 000 7 500 7 0,28 0,56 4 8 000 9 000 8 500 5 0,20 0,76 5 9 000 10 000 9 500 3 0,12 0,88 6 10 000 11 000 10 500 2 0,08 0,96 7 11 000 a více 11 500 1 0,04 1,00 25 1,00 x Dále vytvoříme grafy. Pro spojitý kardinální znak se v MS Excel nejvíce hodí sloupcový nebo spojnicový graf (více v [2, Kap. 2.2]). Sloupcovému grafu se říká histogram a jeho specifikace je ta, že nemá mezery mezi sloupci. Je to z toho důvodu, že se jedná o spojitá čísla a měla by být v grafu zahrnuta všechna (tedy mez mezer). Ukázka histogramu je na obrázku 1.14. Jako popis osy x můžeme použít střed třídy nebo intervaly při vynášení absolutní či relativní četnosti a horní hranice tříd při vynášení kumulativní četnosti. Hodně záleží na místu, které máme k dispozici pro zobrazení grafu, ale také na tom, zda příslušný graf použijeme v tiskové podobě v nějaké publikaci (např. bakalářské práci) nebo ho budeme někde prezentovat (např. při obhajobě práce). Při vytváření grafů nesmíme zapomenout na přehlednost. Mělo by platit pravidlo kouknu a vidím (a pochopím). Na obrázku 1.15 je ukázka spojnicového grafu kumulativní relativní četnosti. Na osu x vynášíme horní hranice tříd, přičemž vložíme ještě nultou třídu s nulovou četností, aby graf začínal od nuly (na ose y). Dále budeme počítat charakteristiky polohy a variability. Podrobný výpočet těchto charakteristik byl popsán v příkladu 1.4. VŠP Jihlava, 2015 S. Dvořáková 28

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.4 Kardinální proměnná spojitá Obrázek 1.14: Histogram proměnné důchod Obrázek 1.15: Graf kumulativní četnosti důchodů klientů Předefinované funkce MS Excel a nástroj Popisná statistika se používá na netříděná (původní) data. Pokud máme k dispozici pouze frekvenční tabulku, musíme charakteristiky počítat ručně pomocí vzorců (viz [2, Kap. 1.4, 1.5, 1.6]). Za x i dosazujeme středy tříd, jinak se vše počítá analogicky jako u bodového třídění. Výsledky jsou napsány v tabulce 1.9. Když se na výsledky výpočtů podíváme pozorně, zjistíme, že se čísla liší. Je to tím, že Popisná statistika a předdefinované funkce používají původní data, kdežto při ručním výpočtu za každé číslo v intervalu dosazujeme do vzorce střed třídy a tím je výpočet zkreslen. Popisná statistika počítá rozptyl jako výběrový rozptyl (a tím i směrodatnou odchylku). VŠP Jihlava, 2015 S. Dvořáková 29

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.4 Kardinální proměnná spojitá Tabulka 1.9: Charakteristiky proměnné důchod pomocí popisné funkcemi ručně z frekvenční statistiky MS Excel tabulky počet 25 25 25 minimum 5 164 5 164 x maximum 11 543 11 543 x průměr 8 056,36 8 056,36 8 020,0 modus x x 7 000; 8 000) medián 7 642 7 642 7 000; 8 000) dolní kvartil x 6 952 6 000; 7 000) horní kvartil x 8 942 8 000; 9 000) rozptyl 2 378 844 2 283 690 2 169 600 směrodatná odchylka 1 542 1 511 1 473 variační koeficient x 0,188 0,184 Modus jsme určili z grafu nebo z frekvenční tabulky, jinak to nejde, protože každý důchod je jinak velký (každé číslo je v datech pouze jednou). Tím pádem jsme v podstatě neurčovali modus, ale modální interval (třídu). Tj. takový interval, ve kterém je zastoupeno nejvíce hodnot. V našem příkladu se jedná o 3. interval 7000; 8000). Popř. za modus prohlásíme střed příslušného modálního intervalu. Při určování kvantilů z frekvenční tabulky se postupuje tak, že se najde interval, který obsahuje příslušný kvantil, např. medián (50% kvantil). Pak za medián prohlásíme střed třídy. Pokud nám to takto nestačí a chtěli bychom medián určit přesněji, lze jej aproximovat. Tímto se ale zabývat nebudeme. Z grafu 1.14 můžeme usuzovat, že se jedná o mírně levostranná data. V tomto případě to lze odhadnout i z velikosti modu a průměru. Pro levostannou asymetrii je modus menší než průměr. Z vypočítaných charakteristik polohy lze sestrojit krabicový graf, který je vhodný mimo jiné pro porovnávání. Na obrázku 1.16 je ukázáno srovnání důchodů mužů a žen v denním stacionáři. Čárky nejvíce vlevo značí minimum, VŠP Jihlava, 2015 S. Dvořáková 30

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.4 Kardinální proměnná spojitá čárky nejvíce vpravo maximum. Levý kraj krabice je dolní kvartil, pravý kraj je horní kvartil. Čára uvnitř značí medián. Jinými slovy čárky čtené z levé strany znamenají: minimum, dolní kvartil, medián, hormí kvartil a maximum. Křížek uprostřed je průměr. Obrázek 1.16: Krabicový graf srovnání důchodů mužů a žen v denním stacionáři V podstatě pouhým pohledem můžeme okomentovat rozdíly mezi důchody mužů a žen. Muži mají větší rozsah důchodů než ženy. Ale více než 75 % žen (horní kvartil) má důchod menší než 50 % mužů (medián) a než je dokonce průměrný důchod u mužů. A tak podobně bychom mohli pokračovat dál. Tyto grafy lze umístit vodorovně i svisle. Nevýhodou je, že MS Excel krabicový graf neumí sám a jednoduše sestrojit. Je potřeba větší znalosti MS Excel nebo použít nějaký statistický program (Statistica, SPSS a další), který umí krabicový graf konstruovat jednoduše. VŠP Jihlava, 2015 S. Dvořáková 31

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.5 Shrnutí 1.5 Shrnutí Statistika se zabývá získáváním informací z dat. V prezentaci výsledků zpracování dat a analýzy se využívají tabulky a grafy. Statistické údaje dělíme na kardinální (číselná), ordinální (pořadová) a nominální (slovní). Základní metodou statistického zpracování dat je třídění. Bodové třídění se používá pro proměnou nominální, ordinální a nespojitou kardinální, obsahuje-li rozumný počet variant. Na spojitá kardinální data se použije intervalové třídění. Výsledkem třídění je frekvenční tabulka, která obvykle obsahuje hodnoty znaku, absolutní četnost, relativní četnost a kumulativní četnosti (absolutní či relativní). V datovém souboru lze najít určité významné hodnoty. Jedná se především o charakteristiky polohy (minumim, maximum, průměr, modus, medián, dolní a horní kvartil, atd.), charakteristiky variability (variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, atd.), koeficient šikmosti (asymetrie), koeficient špičatosti a mnoho dalších. Pro zpracování dat je důležité, zda máme k dispozici původní data nebo jenom frekvenční (kontingenční) tabulku. V prvém případě můžeme pro zpracování použít funkce MS Excel, nástroj kontingenční tabulka nebo Popisná statistika. Ve druhém případě požadované charakteristiky můžeme pouze počítat ručně z tabulky podle vzorečků. Pojmy k zapamatování: Statistický soubor, jednotky, znaky, proměnné, rozsah, obměny, statistické znaky nominální, ordinální, kardinální, spojité, nespojité, alternativní, četnost absolutní, relativní, kumulativní, frekvenční tabulka, graf sloupcový, spojnicový, výsečový, histogram, charakteristiky úrovně, variability, aritmetický průměr, modus, medián, kvantily, horní a dolní kvartil, variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, koeficient šikmosti, špičatosti. VŠP Jihlava, 2015 S. Dvořáková 32

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.6 Příklady k procvičení 1.6 Příklady k procvičení 1. Vymyslete příklad nominální alternativní proměnné. 2. Vymyslete dva příklady ordinální proměnné, a to slovní a číselnou. 3. Vymyslete příklad kardinální proměnné spojité. 4. Jaké třídění použijete na následující proměnnou? Jaký lze použít graf pro prezentaci? Jaké charakteristiky má smysl spočítat? (a) Nejoblíbenější četba s obměnami detektivka, román, pohádka, sci-fi, comics, (b) Známka z matematiky, (c) Věk dětí chodících do MŠ, (d) Věk bydlících na sídlišti Březinovy sady, (e) Výška studentů VŠPJ. 5. Proved te třídění proměnných pohlaví a rok narození z tabulky 1.1. Vytvořte vhodné grafy. Výsledky zkuste interpretovat. 6. V tabulce 1.1 vytvořte novou proměnnou věk, statisticky ji zpracujte a interpretujte. (Jaké třídění použijete? Jaký lze použít graf pro prezentaci? Jaké charakteristiky má smysl spočítat?) V dalším se budeme odkazovat na tabulku 1.10. Jedná se o výsledky statistického šetření mezi zaměstnanci jedné firmy. Sloupce postupně znamenají: č. číslo zaměstnance kouříte Kouříte? pohlaví bydliště váha (v kg) výška (v cm) pijete Jak často pijete alkohol? změna Kolikrát jste změnili zaměstnání? délka délka nynějšího zaměstnání (v letech) plat (v Kč) 7. Klasifikujte všechny statistické znaky, tj. určete jejich typ, jejich obměny, a jaké se použije třídění na jejich zpracování. 8. Zpracujte proměnnou bydliště. Použijte bodové třídění, vypočtěte relativní četnost, vytvořte výsečový graf, určete modus a interpretujte. VŠP Jihlava, 2015 S. Dvořáková 33

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.6 Příklady k procvičení Tabulka 1.10: Výsledky šetření mezi zaměstnanci jedné firmy č. pohlaví bydliště váha výška kouříte pijete změna délka plat 1 muž Jihlava 90 182 2 ne výjimečně 26 17 800 2 žena Praha 82 170 2 ne často 6 9 690 3 muž Brno 94 180 4 ne občas 9 10 100 4 muž Ostrava 75 170 1 ne často 29 19 990 5 žena Plzeň 79 179 2 ne často 15 14 980 6 muž Praha 84 176 2 ne občas 9 10 990 7 muž Ostrava 76 176 2 ne často 10 11 500 8 muž Jihlava 96 186 3 ne občas 2 9 310 9 žena Plzeň 53 157 2 ne občas 17 12 750 10 žena Praha 55 154 4 ano výjimečně 23 15 650 11 muž Jihlava 50 155 1 ne občas 6 9 470 12 žena Brno 70 174 0 ano nikdy 5 9 340 13 muž Brno 50 163 1 ano často 25 17 120 14 muž Plzeň 92 187 2 ano nikdy 8 9 820 15 žena Praha 69 158 1 ano výjimečně 31 21 310 16 žena Brno 83 183 1 ne nikdy 12 10 870 17 muž Praha 85 172 2 ano nikdy 13 11 110 18 žena Ostrava 57 162 1 ano občas 33 23 160 19 muž Praha 59 164 2 ne výjimečně 21 14 760 20 muž Ostrava 62 170 3 ano výjimečně 21 17 040 21 žena Praha 87 179 1 ne občas 1 8 800 22 muž Brno 88 185 3 ne často 18 13 200 23 žena Ostrava 83 177 1 ano nikdy 10 10 300 24 žena Plzeň 87 173 2 ne výjimečně 15 11 950 25 žena Jihlava 72 163 3 ne často 2 8 950 26 muž Praha 75 168 4 ne často 4 9 260 27 muž Ostrava 68 164 3 ano výjimečně 34 24 500 28 žena Brno 80 173 0 ne často 16 12 520 29 muž Brno 78 169 1 ano nikdy 35 25 100 30 žena Plzeň 90 186 2 ne občas 14 18 360 VŠP Jihlava, 2015 S. Dvořáková 34

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.6 Příklady k procvičení 9. Statisticky zpracujte otázku Kolikrát jste změnili zaměstnání?. Použijte bodové třídění, vypočtěte relativní a kumulativní četnosti, vytvořte sloupcový graf, určete modus, průměr, medián a směrodatnou odchylku a interpretujte. Určování charakteristik vyzkoušejte jak pomocí funkcí MS Excel, tak z tabulky třídění. Tyto hodnoty porovnejte, jestli se od sebe liší. 10. Zpracujte proměnnou plat. Použijte intervalové třídění, vypočtěte relativní a kumulativní četnosti, vytvořte spojnicový graf, určete modus, medián, kvartily, průměr a směrodatnou odchylku a interpretujte. Určování charakteristik vyzkoušejte jak pomocí funkcí MS Excel, tak z tabulky třídění. Tyto hodnoty porovnejte, jestli se od sebe liší. Dále z vypočtených charakteristik sestrojte krabicový graf (stačí načrtnout rukou na papír). Výsledky Následují výsledky k předcházejícím úkolům. První čtyři otázky necht zodpoví každý čtenář sám (odpovědi lze v podstatě najít v ukázkových příkladech a ve výkladu v jednotlivých kapitolách). Výsledky dalších příkladů jsou napsány pouze odrážkově, interpretace chybí. Samozřejmě, že grafy může každý vytvořit podle sebe, takže budou vypadat jinak. U příkladů s intervalovým tříděním je mnoho možných výsledků, podle toho, jak každý utvoří intervaly. 5. U proměnné rok narození jsou ukázány dvě možnosti zpracování. V obou případech je šířka intervalu 3 roky, ale jsou zvoleny jiné hranice intervalů. pohlaví n i p i muž 13 52 % žena 12 48 % Celkem 25 100 % VŠP Jihlava, 2015 S. Dvořáková 35

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.6 Příklady k procvičení rok narození x i n i p i kp i 1 do 1927 1926 1 0,04 0,04 2 1928 1930 1929 7 0,28 0,32 3 1931 1933 1932 4 0,16 0,48 4 1934 1936 1935 6 0,24 0,72 5 1937 1939 1938 4 0,16 0,88 6 1940 a více 1941 3 0,12 1 25 1,00 x rok narození x i n i p i kp i 1 do 1929 1928 6 0,24 0,24 2 1930 1932 1931 5 0,20 0,44 3 1933 1935 1934 5 0,20 0,64 4 1936 1938 1937 5 0,20 0,84 5 1939 a více 1940 4 0,16 1 25 1,00 x 6. Stejně jako v předchozím příkladu, je zde ukázán jenom jeden příklad vytvoření intervalového třídění. věk n i p i kp i 1 do 73 3 0,12 0,12 2 74 76 4 0,16 0,28 3 77 79 5 0,20 0,48 4 80 82 4 0,16 0,64 5 83 85 6 0,24 0,88 6 86 a více 3 0,12 1 25 1,00 x modální třída 83 85, medián x = 80, dolní kvartil x 0,25 = 76, horní kvartil x 0,25 = 84, aritmetický průměr x = 80, 16, rozptyl s 2 = 19, 65, směrodatná odchylka s = 4, 43, variační koeficient v = 5, 5 %. (Všechny hodnoty jsou spočítány pomocí funkcí MS Excel z původních dat.) VŠP Jihlava, 2015 S. Dvořáková 36

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.6 Příklady k procvičení 7. pohlaví nominální bodové třídění muž, žena alternativní bydliště nominální bodové třídění Brno, Jihlava, Ostrava, Plzeň, Praha váha kardinální intervalové třídění čísla od 50 do 96 kg spojitá výška kardinální intervalové třídění čísla od 154 do 187 cm spojitá kouříte nominální bodové třídění ano, ne alternativní pijete ordinální bodové třídění nikdy, výjimečně, občas, často změna kardinální bodové třídění čísla 0, 1, 2, 3, 4 diskrétní délka kardinální bodové i intervalové tř. čísla od 1 do 49 diskrétní záleží na počtu obměn plat kardinální intervalové třídění čísla od 10 060 do 18 360 Kč spojitá 8. Bydliště: modus = Praha bydliště n i p i Praha 8 26,7 % Brno 7 23,3 % Ostrava 6 20,0 % Plzeň 5 16,7 % Jihlava 4 13,3 % 30 100,0 % 9. Kolikrát jste změnili zaměstnání? : ˆx = 2, x = 2, x = 1, 93, s = 1, 06 x i n i p i kp i 0 2 7 % 6,67 % 1 9 30 % 36,67 % 2 11 37 % 73,33 % 3 5 17 % 90,00 % 4 3 10 % 100,00 % 30 100 % VŠP Jihlava, 2015 S. Dvořáková 37

1. ZÁKLADNÍ ZPRACOVÁNÍ DAT 1.6 Příklady k procvičení 10. Plat zaměstnanců : modální třída 10 000; 13 000), x = 12 235 Kč, x 0,25 = 9 890 Kč, x 0,75 = 17 100 Kč, x = 13 990 Kč, s = 4 863 Kč plat [Kč] x i n i p i kp i do 10000 8500 8 26,7 % 26,7 % 10000; 13000) 11500 9 30,0 % 56,7 % 13000; 16000) 14500 4 13,3 % 70,0 % 16000; 19000) 17500 4 13,3 % 83,3 % 19000; 22000) 20500 2 6,7 % 90,0 % 22000; 25000) 23500 2 6,7 % 96,7 % nad 25000 26500 1 3,3 % 100,0 % 30 100 % VŠP Jihlava, 2015 S. Dvořáková 38

2. Závislosti dvou proměnných Potřebujeme-li zkoumat zároveň dvě proměnné (např. vztah mezi pohlavím a věkem, vzděláním a platem, apod.), použijeme kombinační třídění. Výsledky tohoto třídění se zapisují do tzv. kontingenční tabulky. Při kombinačním třídění dvou alternativních znaků se tabulka nazývá asociační (čtyřpolní). (Alternativní znaky mají dvě obměny.) Při zkoumání vztahu mezi dvěma proměnnými se musí rozlišit, jedná-li se o číselné nebo slovní znaky. Detailněji si to rozebereme v následujících kapitolách. Nejprve se zaměříme na dva případy, kdy alespoň jedna zkoumaná proměnná je slovní. Potom si ukážeme dva příklady určování závislosti u dvou číselných proměnných. V příkladech se budeme opět odkazovat na tabulku 1.1 obsahující data o klientech v denním stacionáři. Stejně jako v předcházející kapitole o popisné statistice se nebudeme příliš zabývat teorií (tu lze v dostatečné míře najít např. v [2] nebo [5, Modul 5]), ale zaměřme se na praktické počítání. 2.1 Kategoriální proměnné Jako první si ukážeme příklad zpracování asociační tabulky, tzn. budeme zkoumat závislost dvou alternativních slovních znaků. Potom přistoupíme k příkladu, kde jedna proměnná je slovní a druhá číselná (nebo by druhá mohla být i slovní). Příklad 2.1. Prozkoumejme vztah mezi proměnnými pohlaví a vlastní zuby z tabulky 1.1. V MS Excel nástrojem Kontingenční tabulka vytvoříme tabulku kombinačního třídění (obrázek 2.1) do řádků dáme např. proměnnou pohlaví a do sloupců proměnnou vlastní zuby. Tím dostaneme čtyřpolní tabulku 2.1. Jak v asociační tabulce 2.1 číst? Žen, které mají vlastní zuby, je 8. Mužů, kteří vlastní zuby nemají, je 10. Žen je celkem 12 (součet druhého řádku 4 + 8), klientů s vlastními zuby je 11 (součet druhého sloupce 3 + 8). Klientů je celkem 25 (součet celé tabulky 10 + 3 + 4 + 8, součet posledního sloupce 13 + 12, součet posledního řádku 14 + 11). V obecné asociační tabulce 2.1 jsou proměnné označené písmeny X, Y, jejich hodnoty jsou 0 a 1 (vyjadřují v podstatě ano/ne). Jednotlivé četnosti potom VŠP Jihlava, 2015 S. Dvořáková 39

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Tabulka 2.1: Asociační tabulka obecná a pro proměnné pohlaví a vlastní zuby vlastní zuby y = 0 y = 1 součet pohlaví ne ano celkem x = 0 n 00 n 01 n 0 muž 10 3 13 x = 1 n 10 n 11 n 1 žena 4 8 12 součet n 0 n 1 n celkem 14 11 25 mají v indexu označení hodnot proměnných (n 01 je četnost pro x = 0 a y = 1). Symbol hvězdička znamená součet četností přes obě hodnoty v řádku, resp. sloupci, např. n 1 = n 01 + n 11 je součet četností ve sloupci označeném y = 1. Tyto četnosti se nazývají marginální četnosti. Rozsah souboru je n = n (součet četností přes všechny řádky a všechny sloupce). Umístění proměnných v kontingenční tabulce lze prohodit a dát pohlaví do sloupců. Záleží na zpracovateli, kterak se mu to líbí, protože musíme dostat vždy stejné výsledky o závislosti (tj. jestli pohlaví ovlivňuje vlastnictví zubů nebo ne). Je ale lepší tabulku seřadit podle četností tak, aby v součtovém sloupci a součtovém řádku byly marginální četnosti seřazeny od největší do nejmenší. Jakmile vytvoříme tabulku, je dobré místo Popisky řádků napsat jméno proměnné pohlaví a místo Popisky sloupců napsat vlastní zuby. V tomto konkrétním případě to není zase tak aktuální, protože muž a ano neprohodíme (prostě poznáme, který řádek a sloupec k čemu patří). Ale když budeme zpracovávat dvě proměnné, kdy obě budou mít obměny ano/ne, můžeme je nevědomky prohodit. Obrázek 2.1: Vytvoření kontingenční tabulky VŠP Jihlava, 2015 S. Dvořáková 40

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Pro grafické znázornění lze použít např. sloupcový 3D graf (obrázek 2.2) nebo jiné grafy z široké nabídky (záleží na četnostech a vkusu autora grafu). Je ovšem potřeba dáti pozor na to, aby se ve 3D grafu sloupce nepřekrývaly a bylo vidět vše, co má býti vidět. Je lepší používat sloupcový graf nežli např. kuželový. Ten velice zkresluje výsledky. Obrázek 2.2: Sloupcový 3D graf proměnných pohlaví a vlastní zuby Může nás např. zajímat, kolik procent mužů má vlastní zuby. Tady si musíme dát pozor, zda budeme počítat procenta jenom z mužů nebo ze všech klientů. Pokud budeme uvažovat první možnost, tzn. budeme ženy a muže počítat zvlášt, dostaneme relativní četnosti v tabulce 2.2. Zobrazit to můžeme do pruhového grafu na obrázku 2.3. Ale pozor! Je rozdíl, zda řekneme, že 3 = 23 % mužů má vlastní zuby nebo 13 že 3 = 12 % klientů jsou muži s vlastními zuby. V prvém případě jsme za 25 100 % brali jenom muže, kdežto ve druhém jsme počítali i se ženami. Tabulka 2.2: Tabulka s výpočtem Kolik procent mužů a žen má vlastní zuby? vlastní zuby pohlaví ne ano muž 10/13 = 0, 77 = 77 % 3/13 = 0, 23 = 23 % žena 4/12 = 0, 33 = 33 % 8/12 = 0, 67 = 67 % VŠP Jihlava, 2015 S. Dvořáková 41

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Obrázek 2.3: Pruhový skládaný graf proměnných pohlaví a vlastní zuby pro relativní četnost v % Pro posouzení závislosti dvou alternativních proměnných počítáme koeficient asociace V = nn 11 n 1 n 1 n1 n 1 n 0 n 0 = 25 10 13 14 13 14 12 11 = 68 155 = 0, 439. Značení četností je vysvětleno výše a četnosti čteme v tabulce 2.1. Můžeme říci, že se jedná o střední pozitivní závislost, ženy mají více vlastních zubů než muži. Podotkněme ještě, že koeficient asociace může nabývat pouze hodnot z intervalu 1; 1. Pokud je V = 0, jsou proměnné zcela lineárně nezávislé. Naopak, pokud se koeficient asociace rovná jedné z krajních hodnot, tj. 1 nebo 1, jsou proměnné zcela lineárně závislé. V praxi ani jeden z těchto extrémů nenastává. Znaménko koeficientu asociace reprezentuje směr závislosti. Záporný koeficient značí negativní korelaci (při růstu jedné proměnné, druhá proměnná klesá, nebo naopak) a u kladného koeficientu mluvíme o pozitivní korelaci (obě proměnné zároveň rostou nebo klesají). V [2, Kap. 3] je uvedena tabulka pro interpretaci síly závislosti. Lze říci, že pod V = 0, 3 se jedná o slabou závislost a nad V = 0, 7 o silnou závislost. Více o koeficientu asociace lze najít např. v [5, Kap. 5.3]. VŠP Jihlava, 2015 S. Dvořáková 42

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Příklad 2.2. Prozkoumejme vztah mezi proměnnými pohlaví a počet dětí z tabulky 1.1. V tomto případě se jedná o jednu alternativní slovní proměnnou ( pohlaví ) a jednu číselnou ( počet dětí ). Postup zpracování bude stejný, i kdyby se jednalo o dvě slovní proměnné. Obrázek 2.4: Vytvoření kontingenční tabulky proměnných pohlaví a počet dětí V MS Excel vytvoříme kontingenční tabulku pomocí stejnojmenného nástroje (viz obrázek 2.4) v podstatě stejně jako v příkladu 2.1. (V tomto případě už tabulku neřadíme podle četností, ale logicky podle obměn znaku, tj. podle počtu dětí.) Uděláme také nějaký vhodný graf. Na obrázku 2.5 je ukázka sloupcového grafu. Lze samozřejmě vytvořit i jiné. Dobře vypadá pruhový, skládaný pruhový nebo 3D sloupcový (válcový) graf. Opět záleží na autorovi, jeho vkusu a výsledné přehlednosti grafu. Pro posouzení závislosti dvou proměnných v kontingenční tabulce počítáme čtvercovou kontingenci χ 2 (čteme chí kvadrát ). Tato charakteristika je podrobněji popsaná např. v [5, Kap. 5.2]. Pro výpočet χ 2 musíme nejprve spočítat tzv. vypočtenou četnost podle vztahu n ij = n in j n. VŠP Jihlava, 2015 S. Dvořáková 43

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Obrázek 2.5: Sloupcový graf počtu dětí klientů s ohledem na pohlaví klienta Tabulka 2.3: Tabulka s výpočtem čtvercové kontingence χ 2 původní četnosti n žena muž vypočtené četnosti n žena muž žena výpočet χ 2 muž 0 3 2 5 1 2 4 6 2 3 4 7 3 2 2 4 4 2 0 2 5 0 1 1 12 13 25 0 2,4 2,6 5 1 2,88 3,12 6 2 3,36 3,64 7 3 1,92 2,08 4 4 0,96 1,04 2 5 0,48 0,52 1 12 13 25 0 0,150 0,138 0,288 1 0,269 0,248 0,517 2 0,039 0,036 0,074 3 0,003 0,003 0,006 4 1,127 1,040 2,167 5 0,480 0,443 0,923 2,067 1,908 3,976 Každou buňku (teoretickou vypočtenou četnost) kontingenční tabulky přepočítáme tak, že vždy vynásobíme součet příslušného řádku se součtem příslušného sloupce a vydělíme rozsahem souboru (součtem všech buněk tabulky), viz druhá tabulka 2.3. Např. pro ženu s 0 dětmi je n = 5 12 = 2, 4 25 a pro muže se 3 dětmi je n = 4 13 = 2, 08. 25 Tato vypočtená četnost je četnost, která by byla v případě, že by proměnné byly naprosto nezávislé. Protože se jedná o teoretické číslo, nemusí být celé (což většinou ani není). VŠP Jihlava, 2015 S. Dvořáková 44

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Dále už můžeme přistoupit k výpočtu žádané charakteristiky χ 2 = i (n ij n ij) 2 n j ij = 3, 976. Pro každou buňku v tabulce vypočítáme číslo uvnitř sum, tj. od skutečné četnosti odečteme vypočtenou, umocníme na druhou a vydělíme vypočtenou četností (v tomto pořadí). Např. pro ženu s 0 dětmi je (3 2,4)2 = 2,4 0, 150 a pro muže se 3 dětmi je (2 2,08)2 = 0, 003. 2,08 Potom všechna čísla v tabulce sečteme (dva znaky sumace) a dostaneme čtvercovou kontingenci χ 2 = 3, 976, viz tabulka 2.3. POZOR! Když si pořádně přečteme teorii k analýze závislostí a k příslušnému χ 2 testu, zjistíme, že nelze použít vždy. Podmínky jsou takové, že žádná z teoretických vypočtených četností n ij nesmí být menší než 2 a alespoň 80 % z nich musí být větší než 5. Někde se uvádí pouze, že většina četností n ij by měla být větší než 5. Pokud tyto podmínky splněny nejsou, což je i v našem příkladě, jedná se o velice hrubý odhad. Čím větší je rozsah souboru, tím jsou podmínky lépe splněny. My máme málo hodnot (pouze 25 klientů). Podle velikosti čtvercové kontingence nelze říci, jak moc jsou proměnné závislé (χ 2 může v podstatě být jakékoli kladné číslo, záleží na velikosti kontingenční tabulky a rozsahu souboru). Proto se počítají další koeficienty kontingence. Vypočítáme např. Pearsonův koeficient kontingence P = χ 2 χ 2 + n = 3, 976 = 0, 37. 3, 976 + 25 Tento koeficient může nabývat hodnot mezi 0 a 1, přičemž 0 znamená naprostou nezávislost proměnných. Interpretace je podobná jako u koeficientu asociace. O dalších koeficientech kontingence je možno se dočíst v [5, Kap. 5.2]. Někdy je dobré ověření závislosti dvou promměnných udělat pomocí hypotéz. Teorii k tomuto tématu lze najít v [2, Kap. 5]. Princip je takový, že stanovíme tzv. nulovou hypotézu: Dvě sledované proměnné jsou nezávislé (není mezi nimi závislost). Potom protichůdnou alternativní hypotézu: Proměnné jsou závislé. Dále ještě musíme stanovit hladinu významnosti, tj. riziko, že se spleteme, např. α = 5 %. A nakonec musíme vybrat ten správný test. V našem případě se bude jednat o χ 2 test o nezávislosti. VŠP Jihlava, 2015 S. Dvořáková 45

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.1 Kategoriální proměnné Z tabulek 2.3 pro výpočet hodnoty čtvercové kontingence vypočítáme tzv. p-hodnotu. Nejlepší je to udělat pomocí nějakého softwaru. V MS Excel lze použít funkci CHITEST, do které se vloží pozorované četnosti (první tabulka) a očekávané četnosti (druhá tabulka), jak je vidět na obrázku 2.6. Obrázek 2.6: Výpočet p-hodnoty pro χ 2 test o nezávislosti Tuto vypočtenou p-hodnotu, v našem případě vyšla 0,55, porovnáme s požadovaným rizikem. Pokud je p-hodnota větší 0, 55 > 0, 05, potom zamítáme alternativní hypotézu, že jsou proměnné závislé. Tudíž by mohly být nezávislé. Pozor při interpretaci závěrů hypotéz. Hypotézy vždy zamítáme. Nikdy bychom neměli říci, že některá hypotéza platí! Pokud by p-hodnota byla menší než požadovaná hladina významnosti α, zamítli bychom nulovou hypotézu o nezávislosti. Pokud si pořádně přečtete teorii k právě použitému χ 2 testu o nezávislosti, zjistíte, že jsme ho neměli použít. Jedna z podmínek je, že by očekávané četnosti měly mít hodnotu nejméně 5. Což v našem příkladu rozhodně není dodrženo! Závěry z hypotézy tudíž mohou být špatné. VŠP Jihlava, 2015 S. Dvořáková 46

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.2 Korelační a regresní analýza 2.2 Korelační a regresní analýza V této kapitole se budeme zabývat závislostmi mezi číselnými proměnnými. Jedná se o korelační a regresní analýzu. Teorii k této kapitole lze najít např. v [2, Kapitoly 3, 4] nebo [5, Modul 5]. Na začátku zkoumání závislostí si musíme objasnit, o jakou závislost se jedná. Máme jednostrannou a oboustrannou závislost. U jednostranné závislosti dokážeme říci, co je příčina a co důsledek, tj. můžeme určit nezávisle proměnnou x a závisle proměnnou y. Např. výkupní cena obilí přímo ovlivní prodejní cenu pečiva (ale ne obráceně). U oboustranné závislosti toto určit nedokážeme. Nemůžeme říci, co bylo dříve (příčina) a co později (důsledek). Např. cena pečiva a cena masa nějakou spojitost mají, ale nemůžeme říci, že cena masa vzrostla, protože zdražili rohlíky. Než přistoupíme k vlastnímu počítání, vytvoříme bodový graf. U jednostranné závislosti je to jasné, na osu x vyneseme nezávisle proměnnou, na osu y závisle proměnnou. U oboustranné závislosti je to jedno a záleží na nás, jak si označení proměnných vybereme (většinou v souladu se zadáním či cíli výzkumu). Každý bod grafu odpovídá jednomu páru dat (odpovědi jednoho člověka, hodnot z jednoho pokusu atd.). Při vytváření bodového grafu v MS Excel si dejte pozor, abyste vytvořili opravdu bodový graf a ne spojnicový (viz obrázek 2.7). Pro normálního uživatele v nich na první pohled není rozdíl, ale každý má jiné vlastnosti. Uživatelé MS Excel většinou používají Průvodce vytvořením grafu, ale někdy to není výhodné. Občas je lepší v grafu zvolit Vybrat data, Přidat řadu a příslušné proměnné (tj. x a y) označit ručně (obrázek 2.8). Obrázek 2.7: Vložení bodového grafu Graf může mnoho věcí napovědět. V první řadě by se neměly vyskytovat žádné odlehlé hodnoty. Jedná se o jednotlivé body, které jsou výrazně mimo ostatní. Nám prozatím postačí odlehlé hodnoty určit pohledem na graf. V [5, Kap. 5.2] VŠP Jihlava, 2015 S. Dvořáková 47

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.2 Korelační a regresní analýza Obrázek 2.8: Úprava dat v bodovém grafu lze najít teorii, jak přesněji odlehlé hodnoty určit a vyřadit z dat. Další důležitou vlastností je homogenita dat. Pokud data nejsou homogenní, v bodovém grafu se většinou objeví dva shluky bodů. Jedná se např. o rozdílnost v pohlavích (ženy jsou menší než muži, mají menší platy apod.). V takovém případě je zapotřebí každý shluk řešit zvlášt (tj. závislosti zkoumat zvlášt pro muže a zvlášt pro ženy). Více lze najít i v [2, Kapitola 3]. V prvním příkladu ukážeme, jak zjišt ovat intenzitu u oboustranné závislosti. Potom bude následovat příklad pro určování jednostranné závislosti. Příklad 2.3. Ptali jsme se dvanácti žen, kolik ročně utratí za kadeřníka a za manikúru. Výsledky průzkumu (v tis. Kč) jsou zaznamenámy v tabulce 2.4. Zjistěte, zda existuje závislost mezi těmito výdaji a jak je silná. Tabulka 2.4: Roční výdaje za kadeřníka a manikúru v tis. Kč č. 1 2 3 4 5 6 7 8 9 10 11 12 kadeřník 5,2 6,7 9 0,2 6 3,7 7,1 3,1 8,1 2 3,4 4,9 manikúra 3,7 6,2 9,7 0,1 7,3 4,8 8,2 5,2 6,7 0,5 1,2 1,8 Nejprve si bychom měli rozmyslet, o jakou závislost se jedná (o jedno nebo oboustrannou). Dokážeme určit příčinu a důsledek? V tomto případě ne, proto se jedná o oboustrannou závislost. Proměnné si tedy můžeme označit libovolně, např. x kadeřník a y manikúra. Dalším krokem je vytvoření bodového grafu. Ten je na obrázku 2.9. Po prozkoumání tohoto grafu můžeme říci, že tam není viditelná nehomogenita dat, ani odlehlé hodnoty. Můžeme tedy přistoupit k výpočtu. Pro určení síly závislosti použijeme korelační analýzu. Nejčastěji se používá Pearsonův korelační koeficient, označovaný písmenem r. Vzorec pro výpočet uvádět nebudeme, lze ho najít v různých učebnicích statistiky zabývajících se VŠP Jihlava, 2015 S. Dvořáková 48

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.2 Korelační a regresní analýza Obrázek 2.9: Bodový graf pro určování závislosti výdajů za kadeřníka a manikúru problematikou analýzy závislostí. V MS Excel tento koeficient zjistíme pomocí funkce CORREL. Nebo lze použít nástroj Analýza dat Korelace. V našem případě vyjde r = 0, 861. Hodnota r 2 = 0, 742 bývá označována jako koefecient determinace nebo spolehlivost. Závěr je takový, že mezi výdaji za kadeřníka a manikúru existuje docela silná pozitivní lineární závislost. Pearsonův koeficient korelace je velmi ovlivněn odlehlými hodnotami. Koeficient korelace r měří pouze sílu lineární závislosti! Pokud je skutečná závislost dat jiná (kvadratická, exponenciání apod.), hodnota tohoto koeficientu není vypovídající. Koeficient korelace se pohybuje v rozmezí hodnot 1 r 1. Znaménko koeficientu korelace určuje směr závislosti. Pozitivní závislost (kladné hodnoty) je tehdy, když se druhá proměnná zvětšuje při rostoucí první proměnné. Při negativní závislosti (záporné hodnoty) se druhá proměnná zmenšuje při rostoucí první proměnné. Naprosto nezávislé proměnné jsou tehdy, pokud r = 0. Čím více se koeficient korelace blíží k hodnotě 1 nebo 1, tím více jsou proměnné závislé. V krajních hodnotách, tj. pro r = 1, resp. r = 1, leží všechny body grafu na jedné přímce, a to na rostoucí, resp. klesající. Někdy se zařazují hodnoty korelace do pásem podle velikosti koeficientu r, např. malá závislost pro 0, 1 0, 3, střední pro 0, 3 0, 7 a velká pro 0, 7 1. Jiné dělení lze najít např. v [2, Kap. 4.1.2]. VŠP Jihlava, 2015 S. Dvořáková 49

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.2 Korelační a regresní analýza Příklad 2.4. Zjistěte případnou závislost mezi věkem a velikostí důchodu klientů denního stacionáře z tabulky 1.1. Lze předpokládat, že se jedná o jednostrannou závislost, protože věk ovlivňuje veliskost důchodu. Proto proměnnou věk označíme jako x a důchod jako y. (Pokud v datech nemáme proměnnou věk, lze ji dopočítat z roku narození.) Poté nakreslíme bodový graf (obrázek 2.10), abychom odhalili případné odlehlé hodnoty a nehomogenitu dat. Obrázek 2.10: Bodový graf závislosti velikosti důchodu na věku Pro určení síly závislosti použijeme korelační analýzu. Ta byla popsána v předchozím příkladu 2.3. Použijeme funkci CORREL a vyjde r = 0, 076. Lze říci, že závislost je velmi slabá. Korelační koeficient není úplným popisem dat i při velmi silném lineárním vztahu. Pro úplnější popis potřebujeme znát rovnici přímky, která vyjadřuje tvar vztahu. Proto přistoupíme k regresní analýze. V těchto skriptech budeme předpokládat pouze lineární vztah mezi proměnnými, tj. body v grafu proložíme přímkou y = a + bx, kde a je absolutní člen (v tomto bodě přímka protíná svislou osu y), b je směrnice (sklon) přímky. Je jasné, že všechny body grafu na přímce ležet nemohou. Pro prvotní orientaci stačí přímku narýsovat od ruky. Jenže existuje velmi mnoho možností, jak tuto přímku nakreslit. Regresní analýza hledá tu nejlepší přímku a to metodou nejmenších čtverců. Jedná se v podstatě o to, že v každém VŠP Jihlava, 2015 S. Dvořáková 50

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.2 Korelační a regresní analýza bodě vypočítáme rozdíl mezi skutečnou hodnotou y i a hodnotou na přímce y i (jedná se o vzdálenost ve směru svislé osy). Těmto hodnotám se říká rezidua. Když tyto rozdíly umocníme na druhou a sečteme pro všechny body grafu, dostaneme reziduální součet čtverců S = i (y i y i) 2. Hledáme tu přímku, pro kterou je tento součet nejmenší. Pro metodu nejmenších čtverců jsou již odvozeny vzorce pro výpočet koeficientů přímky, takže nemusíme používat složitější matematiku pro minimalizaci součtu. Nejjednodušší možností, jak regresní přímku zjistit, je v bodovém grafu přidat spojnici trendu (obrázek 2.11 vlevo). Nezapomeneme zaškrtnout možnost zobrazení rovnice a spolehlivosti (obrázek 2.11 vpravo). Výsledek je zobrazen na obrázku 2.12. Obrázek 2.11: Přidání a nastavení spojnice trendu do bodového grafu Pokud bychom potřebovali znát koeficient korelace, hodnotu spolehlivosti odmocníme a doplníme znaménko (plus pro rostoucí a minus pro klesající přímku). Další možností, jak zjistit koeficienty regresní přímky, je použití funkcí MS Excel. Směrnici přímky získáme funkcí SLOPE a absolutní člen pomocí INTER- CEPT. Korelační koeficient potom zjistíme funkcí CORREL. VŠP Jihlava, 2015 S. Dvořáková 51

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.2 Korelační a regresní analýza Obrázek 2.12: Regresní přímka a spolehlivost pro závislost důchodu a věku K čemu potřebujeme znát rovnici regresní přímky? Pro odhad hodnot, které neznáme. Např. jaký bude asi mít důchod budoucí 74-letý klient? Toho ještě nemáme, ale je to věk nacházející se mezi věky stávajících klientů. Jedná se o tzv. interpolaci. Hodnotu 74 dosadíme za x do rovnice regresní přímky a dostaneme předpokládanou velikost důchodu 26 74 + 5971 = 7896 Kč. Při extrapolaci odhadujeme hodnotu, která leží mimo analyzované hodnoty. Toto číslo by se nemělo příliš vzdalovat od krajních hodnot. Např. budeme odhadovat velikost důchodu pro klienta, kterému je 88 let, tj. 26 88 + 5971 = 8260 Kč. Samozřejmě, že v našem případě, kdy se jedná o velmi slabou závislost, nelze z interpolace a extrapolace dělat nějaké důležité závěry. Jedná-li se o složitější závislosti mezi proměnnými, než je lineární závislost, lze zase využít metodu nejmenších čtverců a spojnici trendu v bodovém grafu. Těmito případy se ale v tomto textu zabývat nebudeme. VŠP Jihlava, 2015 S. Dvořáková 52

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.3 Shrnutí 2.3 Shrnutí Při zpracovávání dat z nějakého statistického šetření nestačí zpracovávat každou otázku zvlášt. Někdy je zapotřebí dívat se na dvě proměnné najednou. Např. rozdělit si dotázané podle pohlaví, dosaženého vzdělání atd. K tomu slouží kombinační třídění. Pak je dobré zjišt ovat, zda jsou dvě proměnné spolu nějak provázané, jestli na sobě nějakým způsobem závisí. Pokud je alespoň jedna zkoumaná proměnná slovní, vytvoří se kontingenční tabulka a počítají se koeficienty kontingence. Lze použít i testování hypotéz o nezávislosti dvou proěnných. Jedná-li se o dvě číselné proměnné, přistoupí se ke korelační a regresní analýze, kde se nejprve vytvoří bodový graf, poté vypočítá koeficient korelace a určí se případná regresní křivka. Pojmy k zapamatování: Kombinační třídění, kontingenční tabulka, asociační tabulka, marginální četnosti, koeficient asociace, čtvercová kontingence, koeficienty kontingence, χ 2 test o nezávislosti proměnných, korelační a regresní analýza, jednostranná a oboustranná závislost, závislá a nezávislá proměnná, bodový graf, koeficient korelace, regresní křivka, lineární závislost. VŠP Jihlava, 2015 S. Dvořáková 53

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.4 Příklady k procvičení 2.4 Příklady k procvičení V dalším se budeme odkazovat na tabulku 1.10. Jedná se o výsledky statistického šetření mezi zaměstnanci jedné firmy. Sloupce postupně znamenají: č. číslo zaměstnance kouříte Kouříte? pohlaví bydliště váha (v kg) výška (v cm) pijete Jak často pijete alkohol? změna Kolikrát jste změnili zaměstnání? délka délka nynějšího zaměstnání (v letech) plat (v Kč) 1. Zjistěte, zda to, že člověk kouří je ovlivněno pohlavím nebo ne. Vytvořte asociační tabulku, vypočtěte koeficient asociace a interpretujte. Vytvořte vhodný graf. 2. Zjistěte, zda je častější pití alkoholu ovlivněno tím, že člověk kouří. Vytvořte kontingenční tabulku, vypočtěte čtvercovou kontingenci, Pearsonův koeficient kontingence a interpretujte. Vytvořte vhodný graf. Testujte hypotézu o závislosti proměnných na hladině významnosti α = 0, 05. 3. Zjistěte, zda je plat zaměstnance nějak ovlivněn odpracovanými roky v nynějším zaměstnání. Určete, o jakou závislost se jedná. Vytvořte bodový graf, vypočtěte regresní koeficient, určete regresní přímku a interpretujte. Pomocí rogresní přímky odhadněte plat pro zaměstnance, který odpracuje 20 let. 4. Zjistěte, zda váha člověka závisí na jeho výšce. Určete, o jakou závislost se jedná. Vytvořte bodový graf, vypočtěte regresní koeficient, určete regresní přímku a interpretujte. Pomocí regresní přímky odhadněte váhu člověka s výškou 165 cm. 5. Z tabulky 1.10 vyberte dvě proměnné, jednu slovní a jednu číselnou a zjistěte jejich závislost. 6. Z tabulky 1.10 vyberte dvě číslené proměnné a zjistěte jejich závislost. 7. Testujte hypotézu na hladině významnosti 5 %, zda je úroveň neschopnosti lidí v domově důchodců závislá na věku. Dala o počtech jsou v následující tabulce: do 60 60-70 70-80 nad 80 I. St 30 28 12 6 II. St 21 22 13 10 III. St 10 18 15 15 VŠP Jihlava, 2015 S. Dvořáková 54

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.4 Příklady k procvičení Výsledky 1. koef. asociace V = 0, 018 skoro nezávislé Kouříte? muž žena ano 10 9 19 ne 6 5 11 16 14 30 2. χ 2 = 11, 43, Pearson P = 0, 52 středně závislé nulová hypotéza: jsou nezávislé; alternativní hypotéza: jsou závislé p-hodnota = 0, 009 < α = 0, 05 zamítáme nulovou hypotézu, tj. připouštíme závislost Kouříte? Pijete? ano ne nikdy 1 5 6 výjimečně 3 1 7 občas 7 1 8 často 8 1 9 19 11 30 3. jednostranná závislost (x odpracované roky, y plat), regr. přímka y = 6495 + 465x, regr. koef. r = 0, 96 silně závislé, pro 20 odpracovaných let je odhad platu 15 481 Kč. Na tomto příkladu je vidět, že přímkou lze body proložit (modrá čára v grafu), i regresní koeficient je vysoký, takže výše platu hodně závisí na odpracovaných letech. Ale když se pořádně podíváte na bodový graf, bylo by vhodnější body proložit jinou křivkou (červená čára v grafu). Jedná se o kvadratickou funkci, body lépe kopíruje a má větší hodnotu spolehlivosti r 2. VŠP Jihlava, 2015 S. Dvořáková 55

2. ZÁVISLOSTI DVOU PROMĚNNÝCH 2.4 Příklady k procvičení 4. jednostranná závislost (x výška, y váha), regr. přímka y = 137+1, 2x, regr. koef. r = 0, 86 závislé, pro výšku 165 cm je odhad váhy 67 kg (oranžový bod v grafu). do 60 60-70 70-80 nad 80 5. původní: I. st 30 28 12 6 76 II. st 21 22 13 10 66 III. st 10 18 15 15 58 očekávané: 61 68 40 31 200 do 60 60-70 70-80 nad 80 I. st 23,18 25,84 15,2 11,78 II. st 20,13 22,44 13,2 10,23 III. st 17,69 19,72 11,6 8,99 p-hodnota= 0, 027 = 2, 7 % < 5 % zamítáme nezaávislost (připouštíme závislost) VŠP Jihlava, 2015 S. Dvořáková 56

3. ČASOVÉ ŘADY 3. Časové řady 3.1 Úvod Data, která získáváme v mnoha oblastech lidského konání a která chceme následně statisticky hodnotit, jsou často ve formě tzv. časových řad. Časová řada je posloupnost hodnot určitého statistického znaku (jevu např. věk, počet obyvatel, plat, cena, teplota, atd.) chronologicky uspořádaných z hlediska času ve směru od minulosti k přítomnosti. Časová řada je tedy změna určitého jevu v čase. Cílem analýzy časových řad je většinou konstrukce modelu, který nejlépe vystihuje chování zkoumané časové řady. Na základě konstrukce modelu můžeme odhalit, co ovlivňuje hodnoty příslušné časové řady a na čem naopak pravděpodobně nezávisí (jaký je mechanismus zkoumaných dat). Můžeme také podrobněji studovat vývoj a trend časové řady. Model můžeme také využít k predikci budoucích hodnot řady. Uvědomme si ale, že ani sebelepší model nám není schopen přesně určit budoucí hodnotu, můžeme ji pouze odhadnout. Problematika časových řad je velice rozsáhlá a neustále se rozvíjí. Ve většině analýz časových řad neexistuje jednoznačný postup a záleží na zkušenostech a vědomostech analytika. Pro hledání vhodného modelu k popisu chování časové řady existuje mnoho různých metod a jejich kombinací. Přičemž pochopitelně při různých postupech dosáhneme různých výsledků. Otázkou tedy je, jak posoudit vhodnost daného modelu. Tato skripta jsou ovšem určetna k tomu, aby si čtenář udělal prvotní představu o tom, co jsou vlastně časové řady zač. Pokud někdo bude potřebovat zaobírat se tímto tématem podrobněji, je nutné studovat speciální literaturu k tomu určenou. V dalším textu si ukážeme pouze jednu nejpoužívanější jednoduchou metodu. Než přistoupíme k příkladům, na kterých popíšeme zmíněný model pro analýzu časových řad, zmiňme pár důležitých drobností, nad kterými by se student měl zamyslet ještě před zpracováváním. Při stanovování hodnot časových řad se mohou vyskytnout následující problémy: Zastarávání údajů má mnoho příčin. Vlivem technického pokroku není výrobek, který je vyroben v dnešní době, ten stejný, jako výrobek vyroben před několika lety. Ceny se časem také vyvíjí a nelze nákup za 100 Kč před dvaceti lety srovnávat s nákupem za 100 Kč dnes. Pokud to lze, je VŠP Jihlava, 2015 S. Dvořáková 57

3. ČASOVÉ ŘADY 3.1 Úvod potřeba tyto údaje přepočítat. Je dobré se zamyslet na tím, jak dlouhou řadu hodnot potřebujeme pro příslušnou analýzu. Problém kalendářových variací je způsoben především tím, že každý měsíc má jiný počet dnů, pracovních dnů, víkendů a svátků. Největší problémy dělá přestupný rok a pohyblivé svátky (Velikonoce). V případě potřeby se provádí očišt ování řady od vlivu kalendářových variací. Hodnota za každý měsíc se přepočítá na průměrný (standartizovaný) měsíc, který má 365 =30, 42 dnů. Např. máme-li za leden 156 narozených dětí, dostaneme 12 přepočítanou hodnotu 156 30,42 = 153, 08 narozených dětí za průměrný 31 měsíc (ukázka v příkladu 3.2). Někdy se za standartizovaný měsíc bere 30 dnů (rok má poté pouze 360 dnů). Podle potřeby se data očišt ují i na pracovní dny (nebere se v úvahu sobota, neděle a svátky). Ke zjištění počtu pracovních dnů v určitém měsíci a roce můžeme v MS Excel použít funkci NETWORKDAYS. Volbu časových okamžiků, příp. úseků, je potřeba dobře uvážit. Někdy nemá smysl volit pozorování příliš často (hodnoty jsou podobné a nedozvíme se nic nového, ale zvýšíme výpočtovou náročnost). Na druhou stranu nesmíme volit časové body příliš vzdálené, abychom neminuli nějakou podstatnou hodnotu. Pokud to situace dovolí, snažíme se volit pozorování se stejnými intervaly. Důležité u získávání hodnot časové řady je věcné a prostorové vymezení po celé sledované období. To znamená, že pokud se změní např. metodika získávání určitého ukazatele (počítání porodnosti z jiných statistik, tj. jestli je počet živě narozených dětí vztaženo na počet všech žen nebo jen na ženy v produktivním věku) nebo prostorové vymezení (počet obyvatel Jihlavy, kdy se k městu připojí další místní části), je třeba zabezpečit srovnatelnost hodnot pomocí více či méně složitých přepočtů. Podívejme se blíže na časový parametr řad. Podle zvyklosti se označuje t. Někdy udává přímo čas, ke kterému se příslušná hodnota časové řady vztahuje, např. t = 1980. Jindy se jedná o pořadí příslušné pozorované časové hodnoty, tj. t = 1 je pro první pozorování atd. Podle času získávání hodnot se časové řady dělí na: Časové řady okamžikové zjištěné hodnoty se vztahují k určitému časovému okamžiku. Vzdálenosti těchto okamžiků mohou být stejné (ekvidistantní) nebo různé. Součet hodnot této řady nelze smysluplně interpretovat. Může se jednat např. o počet klientů poradny poslední den v měsíci, počet obyvatel určité obce k 1.1. příslušného roku nebo inventuru zásob na skladě. VŠP Jihlava, 2015 S. Dvořáková 58

3. ČASOVÉ ŘADY 3.1 Úvod Časové řady úsekové (intervalové) zjištěné hodnoty se vztahují k určitému časovému úseku. Součet této řady má smysl. Součtem denních hodnot získáme týdenní, měsíční, čtvrtletní nebo roční údaje (což je vytvoření odvozené řady). Jedná se např. o počet narozených dětí za měsíc, počet přijatých (vyřízených) žádostí za den, atd. Okamžiky sledování hodnot časové řady lze na čáře (ose) času znázornit bodem, kdežto časový interval úsečkou. První důležitou součástí analýzy je grafické zobrazení zkoumané časové řady a na základě grafu je možno se rozhodnout o dalším postupu. Při prvním zobrazení stačí použít spojnicový graf. Někdy je lepší zvolit bodový. Záleží na povaze dat a zda máme zkoumané časové okamžiky stejně daleko od sebe či nikoli. Na osu x se vždy vynáší čas a na osu y hodnoty zkoumané časové řady. Příklad 3.1. V obci Třeskoprsky během roku 2015 zaznamenávali, kolik mají aktuálně počet obyvatel. Data jsou v tabulce 3.1. V tomto případě se jedná o okamžikovou časovou řadu, protože počet obyvatel je stanoven v určitý okamžik (datum). Když se blíže podíváme na tabulku 3.1, zjistíme, že datumy zjišt ování jsou různě vzdálené od sebe. Při vytváření grafu si na to musíme dát pozor. Pokud bychom sečetli např. první tři hodnoty, tj. 1313+1173+1271 = 3757, nedostaneme žádnou smysluplnou hodnotu. Rozhodně to neznamená, že v obci Třeskoprsky bydlelo v prvním čtvrtletí dohromady 3757 obyvatel. U okamžikových časových řad totiž součet jednotlivých hodnot nemá smysl. datum 1. 1. 3. 2. 8. 3. 1. 4. 10. 5. 2. 6. 30. 6. 1. 9. 5. 10. 7. 11. 31. 12. poč. obyv. 1 313 1 173 1 271 1 301 1 387 1 417 1 634 1 552 1 618 1 653 1 526 Tabulka 3.1: Počet obyvatel obce Třeskoprsky v průběhu roku 2015 Na obrázcích 3.1 a 3.2 jsou ukázány dva grafy, které jsou vytvořené ze stejných dat (z tabulky 3.1), stejným typem grafu (spojnicový graf), s je- VŠP Jihlava, 2015 S. Dvořáková 59

3. ČASOVÉ ŘADY 3.1 Úvod Obrázek 3.1: Ukázka vytvoření grafu okamžikové řady s nestejně vzdálenými okamžiky spojnicový graf Obrázek 3.2: Ukázka vytvoření grafu okamžikové řady s nestejně vzdálenými okamžiky diným rozdílem, a to typem osy x. Na prvním obrázku 3.1 je typ Osa textu. Je vidět, že na ose x jsou přesně vypsány jednotlivé datumy zapisování počtu lidí, ale všechny body grafu jsou od sebe stejně vzdálené. Což neodpovídá realitě, protože mezi jednotlivými okamžiky zapisování údajů je různý počet dní. Kdežto na druhém obrázku 3.2, kde se jedná o typ Osa data, mají body grafu různé vzdálenosti (podle reality), ale na ose x nejsou vypsané přesné VŠP Jihlava, 2015 S. Dvořáková 60

3. ČASOVÉ ŘADY 3.1 Úvod datumy zapisování počtu obyvatel. Příslušné grafy jsou vytvořené v MS Excel 2013. Ve starších verzích se vlastnosti spojnicového grafu mohou trochu lišit (nemusí tam být výběr typu osy). Příklad 3.2. V obci Třeskoprsky během roku 2015 zaznamenávali, kolik se každý měsíc narodilo dětí. Data jsou v tabulce 3.2. měsíc leden únor březen duben květen červen počet narozených dětí 21 17 18 13 16 15 měsíc červenec srpen září říjen listopad prosinec počet narozených dětí 14 21 24 18 15 13 Tabulka 3.2: Počet narozených dětí v obci Třeskoprsky v průběhu roku 2015 V tomto případě se jedná o úsekovou (intervalovou řadu), protože číslo vždy vyjadřuje počet narozených dětí během celého měsíce a ne v určitý ukamžik. Pokud sečteme hodnoty např. z ledna až března, dostaneme počet narozených dětí v první čtvrtině roku (21 + 17 + 18 = 56). Obrázek 3.3: Ukázka grafu intervalové řady počet narozených dětí v jednotlivých měsících VŠP Jihlava, 2015 S. Dvořáková 61

3. ČASOVÉ ŘADY 3.1 Úvod Jak bylo řečeno výše, u časových řad bývá problém s kalendářem, přesněji řečeno s různým počtem dnů jednotlivých měsíců. Pokud nám to z nějakého důvodu vadí, lze časovou řadu očistit, tj. hodnoty řady přepočítat na standartizovaný měsíc. Ukázka takového přepočtu je v tabulce 3.3 ve čtvrtém sloupci. Na příslušný vzoreček lze přijít i trojčlenkou. Vzhledem k tomu, že u úsekových časových řad má součet jednotlivých hodnot smysl, lze v tomto příkladu sestrojit i tzv. odvozené řady. Jedná se o kumulativní a klouzavou řadu. První zmíněná řada, kumulativní nebo-li součtová, vznikne postupným načítáním hodnot původní časové řady (podobně, jako je tomu u kumulativní četnosti ukázané v první části těchto skript). Hodnota kumulativní řady v červnu říká, že se od začátku roku až do června (včetně) narodilo v obci Třeskoprsky právě 100 dětí (viz tabulka 3.3 pátý sloupec). rok počet nar. počet dní přepočet na kumulativní klouzavá řada 2015 dětí v měsíci standar. měsíc řada p = 3 p = 4 leden 21 31 21 30,42 31 = 20, 6 21 únor 17 28 17 30,42 28 = 18, 47 38 březen 18 31 17,66 56 56 duben 13 30 13,18 69 48 69 květen 16 31 15,7 85 47 64 červen 15 30 15,21 100 44 62 červenec 14 31 13,74 114 45 58 srpen 21 31 20,6 135 50 66 září 24 30 24,33 159 59 74 říjen 18 31 17,66 177 63 77 listopad 15 30 15,21 192 57 78 prosinec 13 31 12,76 205 46 70 součet 205 365 205,12 x x x Tabulka 3.3: Přepočet hodnot na standartizovaný měsíc a odvozené řady Pokud chceme vypočítat klouzavou řadu, musíme si nejprve určit délku její klouzavé části p. V tabulce 3.3 jsou ukázány dvě klouzavé řady, a to tří- a čtyř- VŠP Jihlava, 2015 S. Dvořáková 62

3. ČASOVÉ ŘADY 3.2 Průměrování časových řad měsíční. Princip je podobný jako u kumulativní řady, ale nesčítámě hodnoty od začátku, nýbrž pouze posledních p hodnot. Pro tříměsíční (p = 3) kluzavou řadu hodnota v říjnu (63) vyjadřuje počet narozených dětí za srpen, září a říjen. V MS Excel lze klouzavé řady velice rychle spočítat pomocí funkce SUMA (kdy označíme příslušné hodnoty, které se mají právě sečíst), jak je ukázáno na obrázku 3.4. Poté zkopírováním do celého slouce dojde k vypočítání celé řady a to díky posunu příslušných odkazů. Obrázek 3.4: Ukázka výpočtu klouzavé řady 3.2 Průměrování časových řad Pokud chceme určit průměr hodnot časové řady, musíme rozlišit dva dříve zmíněné typy časových řad: úsekové časové řady výpočet se provádí klasicky pomocí aritmetického průměru (jak je ukázáno v příkladech 3.3 a 3.4). okamžikové časové řady aritmetický průměr nelze použít (protože součet hodnot okamžikové řady nedává smysl, jak bylo ukázáno v příkladu 3.1). Používá se tzv. chronologický průměr. Při jeho počítání musíme zohlednit, zda byly okamžiky měření stejně vzdálené, či nikoli. Vyskytuje se ve dvou formách (stejně jako aritmetický průměr): VŠP Jihlava, 2015 S. Dvořáková 63

3. ČASOVÉ ŘADY 3.2 Průměrování časových řad prostá forma v případě stejné vzdálenosti mezi jednotlivými okamžiky (ukázáno v příkladu 3.6) ȳ = y 1 2 + y 2 + + y n 1 + yn 2 n 1, vážená forma v případě nestejných vzdáleností mezi jednotlivými okamžiky (viz příklad 3.5) ȳ = y 1 +y 2 2 (t 2 t 1 ) + y 2+y 3 2 (t 3 t 2 ) + yn 1+y n 2 (t n t n 1 ) t n t 1. Podrobnější popis teorie k výpočtu průměru časových řad (tzv. měření úrovně dynamiky jevů) lze najít např. v [5, Modul 6 Kap. 1.4]. Příklad 3.3. Spočítejme průměrný počet narozených dětí v obci Třeskoprsky za rok 2015. Příslušné údaje jsou v tabulce 3.2. Protože se jedná o úsekovou řadu, budeme průměr počítat klasicky aritmetickým průměrem. Za rok 2015 se narodilo celkem 205 dětí (součet hodnot ze všech měsíců). Průměrně se tedy v každém měsíci narodilo 205 = 17, 08 dětí. 12 Pokud by se opravdu každý měsíc narodilo 17,08 dětí, pak se za celý rok narodí celkem 12 17, 08 = 205 dětí. Příklad 3.4. V obci Třeskoprsky v průběhu roku 2015 zaznamenávali počet narozených dětí trochu nepořádně. V lednu se narodilo 21 dětí, v únoru 17, za březen, duben a květen dohromady 47 dětí, v červnu 15, o prázdninách (v červenci a srpnu) dohromady 35 dětí, v září 24 a do konce roku 46 dětí. Spočítejme průměrný počet narozených dětí. V tomto případě se jedná o úsekovou řadu s nestejně velkými intervaly. Pokud se ale zamyslíme, tak na výpočet logicky přijdeme. Za celý rok se narodilo dohromady 21 + 17 + 47 + 15 + 35 + 24 + 46 = 205 dětí. A protože rok má 12 měsíců, tak průměrný počet narozených dětí každý měsíc je 205 12 = 17, 08. Příklad 3.5. Spočítejme průměrný počet obyvatel obce Třeskoprsky v roce 2015 z příkladu 3.1. Data jsou v tabulce 3.1. Jedná se o okamžikovou řadu. Mezi jednotlivými daty zapisování počtu obyvatel je různý počet dní. Pro výpočet průměru se tedy musí použít chronologický průměr ve vážené formě. Nejprve musíme zjistit vzdálenost okamžiků, tj. počet dní mezi zapisováním údajů (v tabulce 3.4 třetí sloupec). (V MS Excel stačí dvě buňky s datumy od sebe odečíst.) Potom vypočítáme fiktivní intervalovou řadu VŠP Jihlava, 2015 S. Dvořáková 64

3. ČASOVÉ ŘADY 3.2 Průměrování časových řad datum počet obyvatel počet dní přepočítaná úsek. řada výpočet chronol. pr. t i y i t i t i 1 y i +y i 1 2 y i +y i 1 2 (t i t i 1 ) 1. 1. 2015 1313 x x x 3. 2. 2015 1173 33 1173 1313 2 = 1243 1243 33 = 41019 8. 3. 2015 1271 33 1271 1173 2 = 1222 1222 33 = 40326 1. 4. 2015 1301 24 1301 1271 2 = 1286 1286 24 = 30864 10. 5. 2015 1387 39 1344 52416 2. 6. 2015 1417 23 1402 32246 30. 6. 2015 1634 28 1525,5 42714 1. 9. 2015 1552 63 1593 100359 5. 10. 2015 1618 34 1585 53890 7. 11. 2015 1653 33 1635,5 53971,5 31. 12. 2015 1526 54 1589,5 85833 součet x 364 x 533638,5 Tabulka 3.4: Výpočet chronologického průměru počtu obyvatel obce Třeskoprsky y 1 +y 2, y 2+y 3,... (čtvrtý sloupec). (V MS Excel bud vypočítáme pomocí vzorce 2 2 =(B3+B4)/2 s odkazy na příslušné buňky nebo funkcí PRŮMĚR(B3:B4) a zkopírováním do celého sloupce.) Dále hodnoty této řady vynásobíme příslušných počtem dnů mezi okamžiky a celé sečteme (pátý sloupec). Nakonec tento součet vydělíme počtem dní mezi prvním a posledním zápisem. Průměrný počet obyvatel je 533 638, 5 ȳ = = 1466, 04. 364 Příklad 3.6. Vždy prvního září evidujeme počet žáků střední školy. Počínaje rokem 2000 byly údaje následující: 601, 525, 405, 567, 593, 505, 621. Vypočítejme průměrný počet žáků za sledované roky. V tomto případě se jedná o okamžikovou řadu se stejně vzdálenými okamžiky (vždy jeden rok). Pro výpočet průměru tedy použijeme prostý chronologický průměr (viz výše). Za y 1,..., y n dosazujeme počty žáků v jednotlivých letech a n = 7 je počet zapsaných let. Potom průměrný počet žáků v období let 2000 VŠP Jihlava, 2015 S. Dvořáková 65

3. ČASOVÉ ŘADY 3.3 Míry dynamiky 2006 je: ȳ = 601 2 + 525 + 405 + 567 + 593 + 505 + 621 2 7 1 = 3206 6 = 534, 33. Druhá možnost, jak vypočítat prostý chronologický průměr, je taková, že hodnoty okamžikové řady přepočítáme na teoretickou úsekovou řadu (jako v případě nestejně vzdálených okamžiků a váženého chronologického průměru v předchozím příkladu). Hodnoty nalezneme v tabulce 3.5. Z této přepočítané řady potom vypočítáme obyčejný aritmetický průměr (sečteme a vydělíme počtem): ȳ = 3206 6 = 534, 33. t rok počet žáků přepočítaná úseková řada 1 2000 601 x 2 2001 525 601+525 2 = 563 3 2002 405 525+405 2 = 465 4 2003 567 486 5 2004 593 580 6 2005 505 549 7 2006 621 563 součet 3206 Tabulka 3.5: Výpočet chronologického průměru počtu žáků 3.3 Míry dynamiky Kromě průměrů nás mnohdy zajímají i základní míry dynamiky chování časových řad. Nechceme vědět pouze, že počet obyvatel za rok je průměrně 628, ale i např. jestli obyvatel během roku přibývá nebo naopak ubývá. Pro dále uvedené charakteristiky budeme uvažovat pouze časové řady, které nají stejnou délku časových úseků nebo stejně vzdálené časové okamžiky. Absolutní přírůstky nám říkají, o kolik se změnila hodnota řady mezi jed- VŠP Jihlava, 2015 S. Dvořáková 66

3. ČASOVÉ ŘADY 3.3 Míry dynamiky notlivými okamžiky. Jedná se o rozdíl hodnoty v určitém období a hodnotou období předcházejícího (nejedná se o jedno číslo, ale posloupnost čísel) t = y t y t 1 t = 2, 3,..., n. Pokud z řady absolutních přírůstků vypočítáme průměr, dostaneme průměrný absolutní přírůstek. Tedy v podstatě číslo průměrné změny mezi začátkem a koncem sledovaného období yn y 1. n 1 Pokud bychom chtěli vědět, o kolik procent se změnila hodnota časové řady mezi jednotlivými okamžiky, vypočítáme relativní přírůstky δ t = t y t 1 100 = y t y t 1 y t 1 100 t = 2, 3,..., n Koeficienty růstu udávají kolikrát se změnila časová řada mezi jednotlivými okamžiky. Jedná se tedy po podíl hodnoty k předcházející hodnotě v řadě (opět se jedná o řadu čísel) k t = y t t = 2, 3,..., n y t 1 Pro úplnost uvedeme ještě vztah pro průměrný koeficient růstu k = n 1 k 2 k 3 k n = n 1 yn y 1 (jedná se o geometrický průměr koeficientů růstu) udávající, kolikrát se průměrně změnila časová řada během sledovaného období. Průměrný relativní přírůstek potom udává, o kolik procent se průměrně změnila časová řada ve sledovaném období δ = ( k 1) 100. Příklad 3.7. Všechny předcházející pojmy ukážeme na jednom příkladu. Máme časovou řadu počtu narozených dětí v obci Třeskoprsky za rok 2015 (viz. tabulka 3.2). Spočítáme řadu absolutních přírůstků (v tabulce 3.6 čtvrtý sloupec). První hodnotu v únoru dostaneme tak, že počet narozených dětí v lednu odečteme od hodnoty v únoru, tj. 17 21 = 4. A tak dále až absolutní přírůstek v prosinci vypočteme jako rozdíl hodnoty v prosinci a listopadu 13 15 = 2. Tyto hodnoty lze zobrazit do grafu, jak je ukázáno na obrázku 3.5. VŠP Jihlava, 2015 S. Dvořáková 67

3. ČASOVÉ ŘADY 3.3 Míry dynamiky počet absolutní relativní koeficienty naroz. dětí přírůstky přírůstky růstu t y t t δ t k t 1 leden 21 x x x 2 únor 17 4 19 % 0, 81 3 březen 18 1 5, 9 % 1, 059 4 duben 13 5 27, 8 % 0, 722 5 květen 16 3 23, 1 % 1, 231 6 červen 15 1 6, 3 % 0, 938 7 červenec 14 1 6, 7 % 0, 933 8 srpen 21 7 50 % 1, 5 9 září 24 3 14, 3 % 1, 143 10 říjen 18 6 25 % 0, 75 11 listopad 15 3 16, 7 % 0, 833 12 prosinec 13 2 13, 3 % 0, 867 Tabulka 3.6: Výpočty měr dynamiky Každá příslušná hodnota absolutního přírůstku vyjadřuje o kolik dětí se v příslušném měsíci narodilo více (či méně) oproti předcházejícímu. Všechny výpočty lze v MS Excel udělat jednoduše tak, že první počítanou hodnotu uděláme pomocí odkazů na příslušné buňky a pak vzorec zkopírujeme do celého sloupečku. Pokud spočítáme průměr z řady absolutních přírůstků, dostaneme průměrný absolutní přírůstek. (Číslo v čitateli také spočítáme jako rozdíl poslední a první hodnoty v časové řadě počtu narozených dětí.) = 4 + 1 5 + 3 +... 3 2 11 = 13 21 12 1 = 8 11 = 0, 73. VŠP Jihlava, 2015 S. Dvořáková 68

3. ČASOVÉ ŘADY 3.3 Míry dynamiky Obrázek 3.5: Graf absolutních přírůstků pro počet narozených dětí obce Třeskoprsky v roce 2015 Pokud by absolutní přírůstek (v našem případě spíše úbytek), byl každý měsíc stejný, tj. každý měsíc by se narodilo o 0,73 dítěte méně než ten předcházející, potom se z hodnoty 21 narozených dětí v lednu dotaneme na 13 narozených dětí v prosinci. (Což lze jednoduše ověřit výpočtem.) Řadu relativních přírůstků vypočítáme podle vzorce uvedeného výše. První hodnotu dostaneme jako 17 21 100 = 19 %, druhou 18 17 100 = 5, 9 % atd. 21 17 Každá hodnota relativního přírůstku vyjadřuje, o kolik procent se narodilo dětí více v určitém měsíci oproti měsíci předcházejícímu. Např. relativní přírůstek v srpnu je 50 %. V červenci se narodilo 14 dětí, polovina (50 %) z toho je 7 dětí. V srpnu se tedy narodilo 14 + 7 = 21 dětí. Vydělením počtu narozených dětí v určitém měsíci a v měsíci předcházejícím dostaneme řadu koeficientů růstu. V tabulce 3.6 je to poslední sloupec. Koeficient růstu v říjnu je 0,75. Takže počet narozených dětí za říjen je na 75% počtu narozených dětí v září, tj. 0, 75 24 = 18 (na tento výpočet lze přijít i použitím trojčlenky). Vypočítáním průměru z řady koeficientů růstu dostaneme průměrný koeficient růstu. Ale pozor! Nejedná se o obyčejný aritmetický průměr, nýbrž o průměr geometrický. Vynásobíme všechny koeficienty růstu mezi sebou a potom uděláme VŠP Jihlava, 2015 S. Dvořáková 69

3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad jedenáctou odmocninu: k = 11 0, 81 1, 059 0, 722 0, 833 0, 867 = 11 0, 7647 = 0, 957. Pokud by se každý měsíc počet narozených dětí zmenšil na 95,7 % počtu narozených dětí měsíce předcházejícího, potom z 21 narozených dětí v lednu dostaneme 13 narozených dětí v prosinci. Tj. v únoru by bylo 0, 957 21 = 20, 27, v březnu 0, 957 20, 27 = 19, 55, v dubnu 0, 957 19, 55 = 18, 82 narozených dětí atd. V MS Excel lze geometrický průměr spočítat několika způsoby. Nejjednodušší je asi použití funkce GEOMEAN, kde za argument označíme celou řadu koeficientů růstu. Další možností je použít funkci SOUČIN pro vypočítání součinu všech koeficientů růstu (ty vložíme zase jako argument). Jedenáctou odmocninu potom vypočítáme funkcí POWER(buňka výsledku součinu;1/11). Průměrný koeficient růstu také spočítáme podle vzorečku uvedeného výše u teorie, tj. jedenáctá odmocnina z podílu posledního a prvního členu časové řady k = 11 13 21 = 0, 957. 3.4 Dekompozice časových řad Princip dekompozice má velmi jednoduchou a krásnou myšlenku. Tím je představa, že časová řada obsahuje čtyři možné složky trend, sezonní složku, cyklickou složku a náhodnou složku. Ne každá časová řada musí nutně obsahovat všechny složky. Poslední složka se též někdy nazývá reziduum, jako jedinná obsahuje náhodu a vyskytuje se prakticky ve všech řadách. Trend (T) vyjadřuje dlouhodobé změny v chování časové řady, typ (tvar, funkci) dlouhodobého růstu či poklesu její střední hodnoty. Funkci trendu můžeme získat i využitím regresní analýzy. Sezonní složka (S) vyjadřuje periodické změny, které se odehrávají v průběhu nějakého období. Typicky tyto změny souvisejí se změnou ročního období (čtvrtletí, měsíce), průběhem pracovního týdne apod. Cyklická složka (C) vyjadřuje nějaké pravidelné fáze růstu a poklesu okolo trendu, které neodpovídají délce nějaké kalendářní jednotky (hodina, den, týden, měsíc, čtvrtletí, atd.). VŠP Jihlava, 2015 S. Dvořáková 70

3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad Náhodná složka (ε) představuje náhodné výkyvy, které nemají žádný systematický charakter. Sezonní a cyklické složce se dohromady říká periodická složka. Rozložit časovou řadu na jednotlivé složky není úplně jednoduché. Záleží na spoustě faktorů, podle kterých se vybírá nějaká vhodná metoda. Ta toto téma jsou napsány celé knihy. V těchto skriptech na důkladnější popis není místo, a ani to není jejich účelem, proto na příkladu ukážeme jednu nejjednodušší metodu. Teorii k této metodě lze najít v [5, Modul 6]. Klasický rozklad časové řady na složky předpokládá, že hodnoty obsahují převážně trend a periodickou složku (sezonní a cyklická), které jsou v celém průběhu řady neměnné a jsou předvídatelné. Toho se potom využívá v předpovědích budoucího chování časové řady. Tyto dvě složky dohromady dávají tzv. systematickou složku Y t, kterou můžeme dostat bud sečtením trendové a periodické složky (aditivní přístup) nebo jejich vynásobením (multiplikativní přístup). Rozdíl mezi skutečnou hodnotou časové řady y t a vypočtenou systematickou složkou Y t se nazývá reziduum a reprezentuje nepravidelnou náhodnou složku. Z internetových stránek Českého statistického úřadu lze stáhnout spoustu dat, i různé časové řady. Na adrese https://www.czso.cz/csu/czso/oby_cr_m stáhneme excelovský soubor nazvaný Pohyb obyvatelstva v České republice v letech 1992 až 2015, absolutní měsíční údaje. Tento soubor obsahuje údaje o počtu obyvatel, o sňatcích a rozvodech, o živě narozených, potratech, zemřelých, o migraci (přistěhovalí a vystěhovalí) atd. A to vše v měsíčních, čtvrtletních a ročních hodnotách. Příklad 3.8. Zkusme rozložit časovou řadu živě narozených dětí za čtvrtletí v letech 2002 2006 na jednotlivé složky. Data najdeme ve výše uvedeném souboru Českého statistického úřadu. 2002 2003 2004 2005 2006 1. čtvrtletí 22 782 22 529 23 508 24 261 24 734 2. čtvrtletí 24 396 24 162 25 422 27 000 27 540 3. čtvrtletí 23 912 25 143 25 558 27 159 27 778 4. čtvrtletí 21 696 21 851 23 176 23 791 25 779 Tabulka 3.7: Počet živě narozeních v ČR v období 2002 2006 Do tabulky 3.7 vykopírujeme pouze údaje, které potřebujeme. Takto jsou hodnoty docela přehledné, nicméně pro další zpracování pomocí MS Excel je VŠP Jihlava, 2015 S. Dvořáková 71

3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad lepší mít čísla v jednom sloupci pod sebou (obrázek 3.8). Pro dobrou představu o datech je dobré příslušnou časovou řadu zobrazit do grafu, viz obrázek 3.6. Obrázek 3.6: Časová řad živě narozených v ČR v letech 2002 2006 Pokud se na tento graf podíváme pozorně, je vidět, že průměrný počet narozených dětí roste (trendová složka) více méně lineárně (po přímce). Pak se tam vyskytuje nějaká periodicita (sezonnost), protože ve třetím čtvrtletí je vždy narozených nejvíce a ve čtvrtém nejméně. Náhodná složka je tam očividně také, protože kolísání v jednotlivých letech není úplně stejné. Pro představu o sezonní složce lze z tabulky 3.7 vytvořit i graf na obrázku 3.7. Obrázek 3.7: Živě narození v ČR v letech 2002 2006 po čtvrtletích VŠP Jihlava, 2015 S. Dvořáková 72

3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad Protože se jedná o úsekovou řadu, lze vytvořit kumulovanou řadu a různé klouzavé řady. Je to tak jednoduché, že už to v tomto příkladu dělat nebudeme. Ukázka výpočtu je v příkladu 3.2. Průměrný počet narozených dětí spočítáme obyčejným aritmetickým průměrem (hodnoty sečteme a 492 177 vydělíme počtem nebo použijeme funkci PRŮMĚR): ȳ = = 24 609. 20 Dále se dají vypočítat průměry za každý rok, každé čtvrtletí a vše dát do grafů. Vždy je dobré rozvážit, co je vlastně potřeba vypočítat. Při zpracovávání časových řad nemá cenu počítat hodně věcí a různých charakteristik. Mnohdy jsou výsledky složitější než samotná časová řada. Tak jako u každého statistického zpracovávání dat, by se měly brát v úvahu především cíle nějakého projektu, tedy to, co od analýzy časové řady očekáváme a co potřebujeme vědět. Obrázek 3.8: Tabulka výpočtu dekompozice časové řady živě narozených v ČR v letech 2002 2006 Při hledání trendové složky se úspěšně využívá regesní analýza. Trend je v podstatě regresní funkce, v našem případě regresní přímka. V těchto skriptech lze toto téma najít v kapitole 2.2, přesněji v příkladu 2.4. Abychom dokázali napsat rovnici trendové přímky, musíme ještě zavét nějakou časovou proměnnou (nemůžeme se odkazovat na slova jako 1. čtvrtletí, prostě VŠP Jihlava, 2015 S. Dvořáková 73

3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad potřebujeme čísla). Je několik metod, jak to udělat, ale nejjednodušší je asi první měření (2002 1. čtvrtletí) označit jako t = 1, druhé t = 2 atd. až poslední (2006 4. čtvrtletí) jako t = 20. Potom bud pomocí spojnice trendu v grafu nebo funkcemi SLOPE a INTER- CEPT vypočítáme směrnici a absolutní člen trendové přímky, jak je ukázáno na obrázku 3.9. Trendová přímka má tedy rovnici T t = 205, 56 t + 22 450, 47. Obrázek 3.9: Výpočet směrnice a absolutního členu trendové přímky pomocí funkcí MS Excel Dále vypočítáme hodnotu trendu pro každý řádek tabulky, tj. pro všechna čtvrtletí let 2002 až 2006. Do předpisu trendové funkce se za t dosazuje zavedená časová proměnná. Nejrychlejší výpočet v MS Excel je pomocí okdazů na příslušné buňky, jak je ukázáno na obrázku 3.10. Vzorec pro výpočet se potom zkopíruje do celého sloupce. Pro výpočet periodické složky použijeme empirický sezonní index I j. Protože počet narozených dětí je uveden ve čtvrtletích, lze předpokládat (a podle grafu je to i vidět), že délka periody bude 4 (za rok máme 4 čtvrtletí), tedy budeme mít i 4 indexy (pro každé čtvrtletí jeden). Vzorec pro výpočet empirických sezonních indexů je následující: I j = 1 k k i=1 y ij T ij, j = 1, 2,..., k. Což je aritmetický průměr podílů pozorovaných hodnot (y) a trendových hodnot (T ) z každého období. Přesný popis vzorečku a význam jednotlivých písmen čtenář nalezne v [5, Kapitola 3.2]. Praktický výpočet je ukázán dále na obrázcích. VŠP Jihlava, 2015 S. Dvořáková 74

3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad Obrázek 3.10: Výpočet směrnice a absolutního členu trendové přímky pomocí funkcí MS Excel Obrázek 3.11: Výpočet empirických sezonních indexů Pro všechny řádky vypočítáme podíly původních hodnot a trendu, tj. yt T t (obrázek 3.11). Potom z těchto hodnot vypočítáme průměr, ale vždy jen pro příslušné čtvrtletí. Kontrola správnosti výpočtu je ta, že součet sezonních indexů je přibližně 4 (protože máme 4 indexy). Kdybychom počítali periodu v měsících, měli bychom indexů 12 a jejich součet by byl také zhruba 12. Takto se počítá periodicita, pokud předpokládáme konstantní sezonnost. Pro proporcionální (měnící se) sezonnost se indexy počítají trošku jinak. Teorii k tomu lze najít v [5, Kapitola 3.3]. VŠP Jihlava, 2015 S. Dvořáková 75

3. ČASOVÉ ŘADY 3.4 Dekompozice časových řad Pokud se na výsledné empirické sezonní indexy podíváme, lze říci, že v prvním a čtvrtém čtvrtletí je počet narozených dětí méně (indexy menší než 1) a ve druhém a třetím více (indexy větší než 1). Pomocí vypočítaných empirických indexů lze časovou řadu tzv. vyrovnat (určit systematickou složku). Tato složka časové řady obsahuje pouze trend a periodicitu. Neobsahuje tudíž náhodnou složku. Vyrovnané hodnoty Y vypočeteme jako součin trendu a příslušného empirického sezonního indexu Y t = T t I j. Je to ukázáno na obrázku 3.12. Pro jednodušší výpočet vyrovnaných hodnot v MS Excel zkopírujeme empirické indexy pod sebe do jednoho sloupce. Pro všechny roky jsou indexy stejné. Potom pouze odkazy na příslušné buňky vypočítáme první vyrovnanou hodnotu a do celého sloupce vzorec výpočtu zkopírujeme. Obrázek 3.12: Vyrovnání časové řady výpočet systematické složky Zároveň můžeme předpovědět vývoj časové řady (počtu narozených dětí) na několik dalších období. V tabulce 3.8 je vypočítána předpoved na další rok 2007. Vše lze zobrazit do grafu na obrázku 3.13. Při předpovědi nesmíme zapomenout na to, že se jedná pouze o teoretické hodnoty (protože neobsahují náhodnou složku, kterou nedokážeme předpovědět). Nemá také smysl předpovídat na mnoho období dopředu, protože skutečné hodnoty se potom velice liší. Pro jednoduchou kontrolu, zda je vyrovnání uděláno dobře, slouží rezidua, což je rozdíl mezi skutečnou a vyrovnanou hodnotu e t = y t Y t. Pravidel pro hodnocení kvality vyrovnání je více, ale nejjednodušší je to, že průměrná hodnota reziudí by měla býti rovna nule (respektive stačí jejich součet). V našem případě to platí, jak je vidět v tabulce 3.8 Nakonec ještě můžeme časovou řadu očistit od sezonnosti. Pokud každou pozorovanou hodnotu vydělíme příslušným sezonním indexem yt I j (obrázek 3.14), dostaneme očištěnou časovou řadu od sezonnosti, která obsahuje pouze trend a náhodnou složku, viz obrázek 3.15. VŠP Jihlava, 2015 S. Dvořáková 76