Fakulta dopravní PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA. Doc. RNDr. Jana Novovičová, CSc. verze 12. dubna 2006. Vydavatelství ČVUT



Podobné dokumenty
Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Základy popisné statistiky

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

23. Matematická statistika

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika pro geografy

Popisná statistika. Statistika pro sociology

Číselné charakteristiky a jejich výpočet

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Mnohorozměrná statistická data

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Mnohorozměrná statistická data

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

7. Rozdělení pravděpodobnosti ve statistice

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Popisná statistika kvantitativní veličiny

Renáta Bednárová STATISTIKA PRO EKONOMY

Statistika pro gymnázia

MATEMATICKÁ STATISTIKA - XP01MST

Zápočtová práce STATISTIKA I

Praktická statistika. Petr Ponížil Eva Kutálková

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

I. D i s k r é t n í r o z d ě l e n í

Číselné charakteristiky

p(x) = P (X = x), x R,

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Pravděpodobnost a aplikovaná statistika

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

PRAVDĚPODOBNOST A STATISTIKA 1 Metodický list č 1.

Statistika I (KMI/PSTAT)

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Základy popisné statistiky

Pojem a úkoly statistiky

Základní statistické charakteristiky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Výběrové charakteristiky a jejich rozdělení

Základy teorie pravděpodobnosti

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Úvodem Dříve les než stromy 3 Operace s maticemi

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Téma 22. Ondřej Nývlt

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.


Charakteristika datového souboru

Informační technologie a statistika 1

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Regresní analýza 1. Regresní analýza

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

4ST201 STATISTIKA CVIČENÍ Č. 7

Popisná statistika. Komentované řešení pomocí MS Excel

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Náhodný vektor a jeho charakteristiky

Testování statistických hypotéz

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Náhodné chyby přímých měření

Chyby měření 210DPSM

Pravděpodobnost a statistika

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

TECHNICKÁ UNIVERZITA V LIBERCI

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Teorie pravěpodobnosti 1

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

2. Bodové a intervalové rozložení četností

STATISTICKÉ CHARAKTERISTIKY

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

KGG/STG Statistika pro geografy

Analýza dat na PC I.

Porovnání dvou výběrů

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

NÁHODNÝ VEKTOR. 4. cvičení

Předmět studia: Ekonomická statistika a analytické metody I, II

Vybraná rozdělení náhodné veličiny

Transkript:

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta dopravní PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA Doc. RNDr. Jana Novovičová, CSc. verze 12. dubna 2006 Vydavatelství ČVUT

Lektor : Doc. Ing. Miloslav Vošvrda, CSc.

Předmluva Text je uspořádán tak, že první čtyři kapitoly jsou věnovány popisné statistice a počtu pravděpodobnosti, zbývající kapitoly pak základům matematické statistiky včetně regresní a korelační analýzy. Tradiční látka o regresi a korelaci je rozdělena na dvě části, první je věnována popisným metodám v regresi a korelaci, druhá statistické indukci. Seznam literatury obsahuje prameny použité při zpracování tohoto textu. Shrnutí důležitých vzorců je zařazeno na konci učebního textu jako příloha. Cílem tohoto učebního textu je vysvětlit základní statistické pojmy a metody a naučit se je aplikovat. Na začátku každé kapitoly je stručně popsáno o čem kapitola pojednává a jak obsah kapitoly souvisí s ostatní látkou v učebním textu. K výkladu nové látky jsou použity příklady. Obecná teorie je vykládána teprve poté, co se získá jasná představa o základních pojmech. Studenti dostanou základní vědecké poznatky, které jsou podrobněji vysvětlené ve speciálních textech. Podmínkou zvládnutí látky tohoto učebního textu je znalost základů matematické analýzy a elementární algebry. Z hlediska matematických výpočtů jsou ilustrační příklady co nejjednodušší, aby se studenti mohli soustředit na podstatu problému. Smyslem provádění ručních výpočtů je vypěstovat ve studentech cit pro význam statistických pojmů, nikoliv udělat z nich skvělé počtáře. Poděkování Moje vřelé poděkování patří především Ing. Pavlu Paclíkovi, PhD (od roku 2000 Delft University of Technology, Faculty of Electrical Engineering, Mathematics and Computer Science, The Netherlands), který zhotovil všechny obrázky, navrhl a realizoval technickou formu tohoto textu a poskytl cenné podněty a návrhy pramenící z jeho zkušeností ze studia na fakultě dopravní ČVUT. Praha, leden 2006 Doc.RNDr. Jana Novovičová, CSc. Ústav teorie informace a automatizace Akademie věd České republiky 3

Označení N N + množina nezáporných celých čísel množina přirozených čísel N m množina {1, 2,, m}, m N + R množina reálných čísel R + R k množina kladných reálných čísel množina k-rozměrných reálných vektorů [ n ] m celá část čísla n m A T transponspozice matice A I jednotková matice u T řádkový vektor, transpozice sloupcového vektoru u F : R R + F je zobrazení definované na množině R s hodnotami v množině R + t(ν) Studentovo t-rozdělení s ν stupni volnosti χ 2 (ν) χ 2 -rozdělení s ν stupni volnosti X N (µ, σ 2 ) náhodná veličina má normální rozdělení s parametry µ a σ 2 X N (µ, σ 2 ) náhodná veličina má přibližně normální rozdělení s parametry µ a σ 2 (a, b) {x R : a < x < b}, a b R (a, b {x R : a < x b}, a b R a, b {x R : a x b}, a b R 4

Obsah Předmluva 3 Označení 4 1 Podstata statistiky 9 1.1 Dva základní typy statistiky........................... 9 1.2 Výběr a základní soubor............................. 11 1.2.1 Prostý náhodný výběr.......................... 11 1.2.2 Jiné metody výběru............................ 12 2 Popisná statistika 13 2.1 Veličiny a data.................................. 13 2.2 Elementární zpracování statistických dat.................... 14 2.2.1 Třídění dat................................ 14 2.2.2 Statistické grafy.............................. 18 2.2.3 Tvar rozdělení četností; symetrie a šikmost............... 21 2.3 Popisné míry statistických souborů....................... 22 2.3.1 Kvantily.................................. 23 2.3.2 Míry polohy................................ 24 2.3.3 Míry rozptýlenosti............................ 27 2.3.4 Míry šikmosti a špičatosti........................ 30 3 Počet pravděpodobnosti 31 3.1 Pojem pravděpodobnosti............................. 31 3.2 Náhodné jevy................................... 33 3.2.1 Vztahy mezi jevy............................. 34 3.2.2 Vzájemně neslučitelné jevy........................ 35 3.3 Axiomatická definice pravděpodobnosti..................... 36 3.4 Pravidla pro počítání s pravděpodobnostmi................... 37 3.4.1 Pravidlo o sčítání pravděpodobností................... 37 3.4.2 Pravidlo pro pravděpodobnost opačného jevu............. 37 3.4.3 Pravidlo o podmíněné pravděpodobnosti................ 38 3.4.4 Pravidlo pro násobení pravděpodobností; nezávislost jevů....... 39 3.4.5 Vzorec úplné pravděpodobnosti a Bayesův vzorec........... 42 3.5 Jiné pohledy na pravděpodobnost........................ 43 5

OBSAH 4 Náhodná veličina 44 4.1 Náhodná veličina a její rozdělení......................... 44 4.1.1 Distribuční funkce a hustota....................... 45 4.1.2 Vícerozměrná rozdělení pravděpodobností............... 49 4.1.3 Nezávislost náhodných veličin...................... 50 4.2 Charakteristiky náhodných veličin........................ 51 4.2.1 Střední hodnota.............................. 51 4.2.2 Rozptyl.................................. 53 4.2.3 Kvantily.................................. 53 4.2.4 Kovariance a korelace........................... 54 4.2.5 Vektor středních hodnot, kovarianční matice.............. 55 4.3 Některá rozdělení pravděpodobností....................... 56 4.3.1 Diskrétní rozdělení............................ 56 4.3.2 Spojitá rozdělení............................. 59 4.4 Některé limitní věty................................ 64 4.4.1 Zákon velkých čísel............................ 64 4.4.2 Centrální limitní věty........................... 66 5 Náhodný výběr 68 5.1 Pojem náhodného výběru............................ 68 5.2 Výběrové charakteristiky............................. 69 5.3 Rozdělení výběrových charakteristik....................... 69 5.3.1 Rozdělení výběrového průměru..................... 70 5.3.2 Rozdělení výběrového rozptylu...................... 71 5.3.3 Rozdělení výběrového podílu....................... 72 5.4 Nezávislé náhodné výběry............................ 73 5.4.1 Dva nezávislé výběry z normálního rozdělení nebo velké rozsahy výběrů 73 5.4.2 Dva nezávislé výběry z alternativního rozdělení............ 75 5.5 Párové náhodné výběry.............................. 75 6 Základy teorie odhadu parametrů 77 6.1 Bodové a intervalové odhady........................... 77 6.2 Vlastnosti bodových odhadů........................... 78 6.2.1 Nestranné odhady............................. 78 6.2.2 Konzistentní odhady........................... 79 6.2.3 Vydatnost odhadů............................ 80 6.3 Některé metody bodových odhadů........................ 81 6.3.1 Metoda momentů............................. 82 6.3.2 Metoda maximální věrohodnosti..................... 82 6.4 Intervaly spolehlivosti............................... 85 6.4.1 Sestrojení intervalu spolehlivosti..................... 85 6.5 Intervaly spolehlivosti pro střední hodnotu................... 86 6.5.1 Intervaly spolehlivosti pro střední hodnotu při známém rozptylu.................................. 86 6.5.2 Intervaly spolehlivosti pro střední hodnotu při neznámé směrodatné odchylce................................. 89 6.6 Intervaly spolehlivosti pro rozptyl........................ 90 6

OBSAH 6.7 Intervaly spolehlivosti pro podíl......................... 92 7 Základy testování statistických hypotéz 95 7.1 Podstata testování hypotéz............................ 95 7.1.1 Formulace hypotéz............................ 96 7.1.2 Volba testového kriteria......................... 97 7.2 Základní pojmy a terminologie.......................... 97 7.2.1 Testová statistika, obor přijetí, obor zamítnutí, kritické hodnoty... 97 7.2.2 Chyba prvního a druhého druhu..................... 97 7.2.3 Závěry při testování hypotéz a jejich interpretace........... 99 7.2.4 Kritický obor pro zadanou hladinu významnosti............ 99 7.2.5 Formulace procesu testování hypotéz.................. 100 7.2.6 Klasický přístup k testování hypotéz.................. 101 7.3 P -hodnoty..................................... 101 7.3.1 Přístup k testování hypotéz založený na P -hodnotě.......... 102 7.4 Některé testy parametrických hypotéz...................... 103 7.4.1 Test hypotézy o střední hodnotě µ................... 103 7.4.2 Test hypotézy o rozptylu......................... 106 7.4.3 Testy hypotézy o podílu p........................ 107 7.5 Testy hypotéz o shodě dvou středních hodnot................. 108 7.5.1 Testy hypotézy o shodě dvou středních hodnot pro nezávislé výběry. 109 7.5.2 Testy hypotézy pro dvě střední hodnoty užitím párových výběrů... 112 7.6 Test hypotézy o shodě dvou podílů při nezávislých výběrech......... 113 7.7 Chí-kvadrát test dobré shody.......................... 115 7.8 Chí-kvadrát test nezávislosti........................... 118 8 Regresní a korelační analýza 120 8.1 Lineární rovnice s jednou nezávislou proměnnou................ 121 8.2 Regresní rovnice.................................. 121 8.2.1 Extrapolace................................ 125 8.2.2 Odlehlá a vlivná pozorování....................... 125 8.3 Koeficient determinace.............................. 127 8.4 Lineární korelace................................. 129 8.5 Lineární regresní model.............................. 131 8.5.1 Bodový odhad rozptylu σ 2........................ 133 8.5.2 Testy hypotéz a intervaly spolehlivosti pro parametr β 1........ 134 8.5.3 Odhad a predikce............................. 137 8.6 Testy hypotéz o korelačním koeficientu..................... 140 8.7 Obecný regresní model.............................. 141 8.7.1 Maticové vyjádření modelu lineární regrese............... 144 Statistiské tabulky 146 Příloha i 7

8

Kapitola 1 Podstata statistiky Pod pojmem statistika si většina lidí představuje číselná fakta, jako například počet nezaměstnaných, ceny potravin, nebo množství uzavřených sňatků a rozvodů atd. Statistika (název z latinského slova status = stát) původně znamenala vědu zabývající se shromažd ováním, tříděním a tabelováním takovýchto dat. Statistika ale znamená mnohem více, než je obsaženo v této definici. Statistikové nejen data shromažd ují, třídí a tabelují, ale také analyzují za účelem formulování obecných závěrů a rozhodování. Na příklad politický analytik může použít údaje získané z části oprávněných voličů v ČR k predikci volebních preferencí všech oprávněných voličů celé ČR. Městské zastupitelstvo může rozhodnout o tom, kde postavit novou dálnici, na základě souhrnných zpráv o životním prostředí a demografických zpráv, které zahrnují různé statistické údaje. V této kapitole zavedeme základní terminologii, takže různé významy slova statistika budou zřejmější. 1.1 Dva základní typy statistiky Při statistických výzkumech nás zajímají hromadné jevy a procesy, tj. jevy a procesy vyskytující se u velkého počtu prvků. Tyto prvky nazýváme statistické jednotky a jsou to elementární jednotky statistického zkoumání. Mohou to být osoby (např. zaměstnanci podniku při sledování mezd), organizace (např. podniky při zkoumání výše výroby), věci, události, zvířata apod. Použijeme dobře známé příklady z oblasti sportu a z oblasti politických voleb k objasnění dvou základních typů statistiky: popisné statistiky a inferenční statistiky. Příklad 1.1 Popisná statistika V únoru 1998 se v Japonsku konaly zimní olympijské hry. Čeští hokejisté hráli celkem 6 zápasů, vyhráli 5 zápasů a prohráli 1 zápas. Práce lidí, kteří nashromáždili údaje o těchto zápasech i o hráčích (počet nastřílených gólů, průměrný počet gólů připadající na jeden zápas, průměrný věk hráčů a pod.), je ilustrací popisné statistiky. Formální vymezení termínu popisná statistika je dáno následující definicí 1.1. Definice 1.1 POPISNÁ STATISTIKA Popisná statistika se skládá z metod pro zjišt ování a sumarizaci informací. 9

KAPITOLA 1 PODSTATA STATISTIKY Popisná statistika zahrnuje konstrukci grafů, diagramů a tabulek a výpočet různých popisných charakteristik jako je aritmetický průměr, míry rozptýlenosti a percentily, jimiž se budeme zabývat kapitole 2. Inferenční statistika (nebo též statistická indukce) je ilustrována na příkladu 1.2. Příklad 1.2 Inferenční statistika Agentura STEM provedla v únoru 1998 v České republice průzkum volebních preferencí u 2000 oprávněných voličů. Zjistila, že 10% preferuje ODS, 29% ČSSD, 11% US atd. Výrok: V předčasných volbách v červnu 1998 zvítězí ČSSD a získá podporu od 25% voličů, kteří se zůčastní voleb, je výrokem inferenční statistiky. Politické volby poskytují příklad inferenční statistiky. Bylo by příliš nákladné a nerealistické dotazovat se všech voličů na jejich volební preference. Statistikové, kteří si přejí odhadnout mínění celé populace voličů ČR, se mohou dotázat jen pečlivě vybrané skupiny několika tisíc voličů. Taková skupina voličů se nazývá výběr z populace. Statistikové analyzují informace získané z výběru voličské populace, aby udělali závěry o volebních preferencích celé voličské populace. Inferenční statistika poskytuje metody pro formulování takových závěrů. Terminologie zavedená v kontextu politických voleb se běžně užívá ve statistice. Definice 1.2 ZÁKLADNÍ SOUBOR (POPULACE) A VÝBĚROVÝ SOUBOR (VÝBĚR) Základní soubor: Soubor všech statistických jednotek, které jsou předmětem statistické studie. Výběrový soubor: Část základního souboru, která sloužila k získání informací. Počet všech jednotek základního souboru nazýváme rozsah základního souboru, je konečný nebo spočetně nekonečný, zpravidla je velký. Počet všech jednotek výběrového souboru se nazývá rozsah výběrového souboru. Informace získané z výběrového souboru slouží k formulování závěru o základním souboru. Definice 1.3 INFERENČNÍ STATISTIKA Inferenční statistika se skládá z metod pro přijímání a měření spolehlivosti závěrů o populaci založených na informacích získaných z výběru z této populace. Popisná statistika a inferenční statistika jsou vzájemně propojeny. Téměř vždy je nutné použít metody popisné statistiky k organizování a sumarizaci informací získaných z výběru dříve než provedeme statistické vyhodnocování. Kromě toho předběžná popisná analýza výběru často odhalí rysy, které vedou k volbě (nebo k přehodnocení volby) vhodných inferenčních metod. Statistické zkoumání lze zpravidla rozdělit do několika etap. Jde o etapu statistického zjišt ování neboli šetření, statistického zpracování zjištěných údajů a konečně o etapu statistického vyhodnocování. Přestože nejdůležitější je etapa třetí, je nezbytným předpokladem její úspěšnosti, aby byly správně provedeny etapy předchozí. Předmětem těchto skript není první etapa statistického zkoumání (viz např. [10, 7]). 10

1.2 VÝBĚR A ZÁKLADNÍ SOUBOR 1.2 Výběr a základní soubor Jestliže informace potřebné k formulování závěrů o základním souboru nejsou k dispozici, je třeba provést studii k získání informací. Zhruba řečeno, existují dvě metody pro získání informací: vzít výběr nebo shromáždit údaje o celém základním souboru. Výběr je nejvíce rozšířený způsob, nebot je levnější a rychlejší než sledování celého základního souboru. Rozhodneme-li se pro výběr, je třeba rozhodnout, jakou metodu pro výběr ze základního souboru zvolíme. V úvahu musíme vzít skutečnost, že na základě informací získaných z výběru budeme dělat závěry o celém základním souboru. Tudíž rozhodující je, aby výběr byl reprezentativní, to znamená, že musí odrážet co možná nejvěrněji relevantní charakteristiky základního souboru, který je předmětem našeho zkoumání. Například by nemělo velký význam použít průměrnou výšku výběru hráčů basketbalu k formulování závěrů o průměrné výšce všech dospělých mužů v ČR. Prezidentské volby v roce 1936 v USA nám umožní uvědomit si, co se může stát, není-li výběr reprezentativní. Před volbami se snažili vydavatelé časopisu Literary Digest předpovědět výsledek prezidentských voleb. Tým pracovníků, zabývající se průzkumem, položil vybraným voličům otázku, zda budou volit kandidáta demokratů D. Roosvelta nebo kandidáta republikánů A. Landona. Na základě výsledků průzkumu časopis předpověděl snadné vítězství Landona. Skutečný výsledek voleb byl, že Roosvelt zvítězil s takovou převahou, jaká neměla obdoby v historii prezidentských voleb v USA. Co se stalo? Existují dva důvody proč průzkum selhal: (1) Výběr byl proveden mezi lidmi, kteří vlastnili automobil a měli telefon. V roce 1936 tato skupina voličů byla složena pouze ze zámožnějších lidí a taková skupina lidí tradičně volila republikány. (2) Jen asi 25% oslovených voličů odpovědělo na dotazník. Následkem toho byl výběr tak vychýlený a nereprezentativní, že jeho použití vedlo ke špatnému odhadu vítězství republikánů. Nejmodernější postupy pořizování výběru používají pravděpodobnostní výběry, při kterých náhodné rozhodování, například pomocí tabulek náhodných čísel, je využito pro rozhodnutí, které statistické jednotky základního souboru budou tvořit výběr, místo toho, aby se toto rozhodnutí ponechalo na lidském posouzení. Samozřejmě, že i v tomto případě můžeme dostat nereprezentativní výběr. Avšak pravděpodobnostní výběr vylučuje záměrnou jednostrannost výběru a dovoluje výzkumným pracovníkům kontrolovat možnost získání nereprezentativního výběru. 1.2.1 Prostý náhodný výběr Statistické inferenční metody, kterými se budeme v rámci těchto skript zabývat, jsou určeny pouze pro použití prostých (jednoduchých) náhodných výběrů. Definice 1.4 PROSTÝ NÁHODNÝ VÝBĚR Prostý náhodný výběr nebo jen náhodný výběr je takový náhodný výběr, kdy při jeho sestavování měla každá statistická jednotka základního souboru stejnou možnost být vybrána. Existují dva typy prostého náhodného výběru. Prostý náhodný výběr s vracením, ve kterém každá jednotka základního souboru může být vybrána více než jednou; jiný je prostý náhodný výběr bez vracení, ve kterém každá jednotka základního souboru může 11

KAPITOLA 1 PODSTATA STATISTIKY být vybrána nejvýše jednou. Pokud nebude řečeno jinak, budeme předpokládat, že prostý náhodný výběr je pořízen bez vracení. Prostý náhodný výběr je nejjednodušší způsob výběru statistických jednotek. Provádí se přímo a bez předběžných omezení. Proto lze ve výběru počítat se všemi myslitelnými např. n-člennými kombinacemi statistických jednotek. Prostý náhodný výběr má také některé nevýhody. Například nám neukáže dokonale strukturu základního souboru a může být nepraktický a drahý, jsou-li statistické jednotky geograficky široce roztroušeny. Uvedeme některé metody výběru, které jsou často vhodnější než prostý náhodný výběr. 1.2.2 Jiné metody výběru Jedna metoda výběru, kterou lze snadněji realizovat než prostý náhodný výběr, je systematický náhodný výběr. Lze ji uplatnit, jsou-li jednotky základního souboru seřazeny náhodně vzhledem ke sledovanému znaku. Tento výběr probíhá ve třech krocích: (1) Vydělíme rozsah základního souboru rozsahem výběru a výsledek zaokrouhlíme dolů na nejbližší celé číslo m; (2) pomocí tabulky náhodných čísel (nebo obdobného zařízení) určíme číslo k ležící mezi 1 a m; (3) z posloupnosti náhodně seřazených jednotek vybereme ty statistické jednotky základního souboru, které mají přiřazena čísla k, k + m, k + 2m,. Jiná alternativní metoda k prostému náhodnému výběru je tzv. výběr skupin. Tato metoda probíhá v následujících třech krocích: (1) Základní soubor se rozdělí do skupin (klastrů); provede se prostý náhodný výběr skupin; (3) všechny statistické jednotky skupiny vybrané v kroku (2) tvoří náhodný výběr. Tento typ výběru šetří peníze i čas, ale má určité nedostatky. V ideálním případě by vybraná skupina měla odrážet charakteristické rysy celého základního souboru. Avšak to se většinou nestane, skupina je obvykle stejnorodější, než základní soubor jako celek. Další metoda výběru známá jako stratifikovaný výběr je často spolehlivější než výběr skupin. Při realizaci stratifikovaného výběru je nejprve celý základní soubor rozdělen na několik dílčích souborů, oblastí, přičemž je snaha tvořit tyto podsoubory tak, aby obsahovaly pokud možno statistické jednotky stejných vlastností. Tím docílíme, že každá oblast je sama o sobě stejnorodějším celkem, než původní základní soubor. V každé oblasti se pak provede prostý náhodný výběr. Oblastmi mohou být např. univerzity tříděné podle zaměření, podniky tříděné podle určitých hledisek, domácnosti o různém počtu členů apod. Oblastní výběr je náročnější časově i finančně než prostý náhodný výběr, je-li však správně proveden, je účinnější a dává kvalitnější informace o základním souboru než prostý náhodný výběr. Vícestupňový náhodný výběr je kombinací všech předcházejících náhodných výběrů včetně prostého náhodného výběru. Problematika výběrových šetření je velice rozsáhlá a přesahuje rámec tohoto učebního textu. Více se lze dočíst ve specializované statistické literatuře. 12

Kapitola 2 Popisná statistika V této kapitole se budeme zabývat popisnou statistikou. Nejprve ukážeme, jak klasifikovat získané údaje podle typu, jak je uspořádat do tabulek a sumarizovat je pomocí grafického zobrazení. Pokračovat budeme zkoumáním charakteristik, které můžeme použít k popisu datových souborů. 2.1 Veličiny a data Vlastnosti statistických jednotek, které se mění od jedné jednotky ke druhé se nazývají statistické znaky nebo veličiny, případně proměnné. Zvolíme-li za statistickou jednotku osobu, lze tuto jednotku charakterizovat např. znaky: výška, váha, počet sourozenců, barva očí, nejvyšší dosažené vzdělání, rodinný stav apod. Statistické znaky můžeme rozdělit podle několika kritérií, zejména podle toho, jak lze vyjádřit jejich obměny. První tři výše zmíněné veličiny charakterizující osobu lze vyjádřit číselnou formou, poskytují tedy číselnou informaci a jsou příkladem kvantitativních veličin. Poslední tři veličiny poskytují informaci, která není číselná, je dána slovní definicí a tyto veličiny jsou příkladem kvalitativních veličin. Kvantitativní veličiny mohou být diskrétní (nespojité) nebo spojité. Diskrétní veličina je taková veličina, jejíž možné hodnoty tvoří konečnou nebo spočetně nekonečnou množinu čísel, obvykle množinu celých čísel. Počet sourozenců nějaké osoby je příkladem diskrétní veličiny. Spojité veličiny mohou nabývat v rámci určitého intervalu libovolných hodnot. Výška osoby je příklad spojité veličiny. Spojitá veličina je tudíž veličina, jejíž možné hodnoty tvoří nějaký číselný interval. Předchozí diskuse je shrnuta v definici 2.1. Definice 2.1 VELIČINY Veličina: Charakteristika, která se mění od jedné statistické jednotky ke druhé. Kvalitativní veličina: Veličina, kterou nelze vyjádřit číselně. Kvantitativní veličina: Veličina, kterou lze vyjádřit číselně. Diskrétní veličina: Kvantitativní veličina, jejíž možné hodnoty tvoří konečnou nebo spočetně nekonečnou množinu čísel. Spojitá veličina: Kvantitativní veličina, jejíž možné hodnoty tvoří nějaký číselný interval. Pozorováním nebo měřením hodnot veličiny na několika statistických jednotkách získáme vstupní data nebo jen data. Data jsou tudíž informace, které statistikové shromažd ují, třídí 13

KAPITOLA 2 POPISNÁ STATISTIKA a analyzují. Názvy kvalitativní, kvantitativní, diskrétní a spojité používáme rovněž k popisu dat stejně jako veličin: kvalitativní data jsou data získaná pozorováním, měřením kvalitativní veličiny, apod. Soubor všech pozorovaných hodnot sledovaného statistického znaku, které máme k dispozici, budeme nazývat datový soubor nebo množina dat. Množinu všech statistických jednotek, u nichž zkoumáme příslušné statistické znaky, nazýváme statistický soubor. Zjišt ujeme-li u každé statistické jednotky pouze jeden statistický znak, získáme soubor jednorozměrný. Zjišt ujeme-li u každé jednotky dva nebo více znaků a zkoumáme-li současně jejich vzájemné vztahy, získáme statistický soubor vícerozměrný. Statistický soubor všech jednotek, který je vlastním předmětem sledování, o němž chceme provádět závěry, se nazývá základní soubor nebo populace, jak jsme se již zmínili v kapitole 1. 2.2 Elementární zpracování statistických dat 2.2.1 Třídění dat Výsledkem statistického šetření je zpravidla velké množství číselných údajů, které jsou většinou nepřehledné. Aby vynikly charakteristické rysy a zákonitosti analyzovaného souboru a aby se údaje staly přehlednými, musíme je setřídit. Tříděním tedy rozumíme rozdělení statistických jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů. Třídění je tedy metoda pro uspořádání údajů do přehledné formy a také jejich zhuštění. Provádíme-li třídění pouze podle obměn jednoho statistického znaku, mluvíme o jednostupňovém třídění. Provádíme-li třídění podle více statistických znaků najednou, jde o třídění vícestupňové. Příklad 2.1 Třídění dat Získali jsme údaje o počtu dní zbývajících do splatnosti 40 krátkodobých úvěrů. 70 64 99 55 64 89 87 65 62 38 67 70 60 69 78 39 75 56 71 51 99 68 95 86 57 53 47 50 55 81 80 98 51 36 63 66 85 79 83 70 Tyto údaje jsou značně nepřehledné a ani zkušený pracovník z nich nezíská základní informace o rozdělení úvěrů podle doby zbývající do splatnosti. Rozdělením dat do skupin můžeme dosáhnout toho, že data se stanou mnohem přehlednější. Nejprve rozhodneme, jak velké třídy zvolíme. V tomto příkladu je vhodné rozdělit úvěry do tříd o délce 10 dní. Vzhledem k tomu, že nejmenší údaj je 36 a největší 99, rozdělením údajů do 10 tříd dostaneme třídy 30 39, 40 49, 50 59, 60 69, 70 79, 80 89, 90 99. Dalším a posledním krokem při třídění dat je stanovení, jaký počet úvěrů připadá na každou třídu. Například počet úvěrů, pro které doba zbývající do splatnosti leží mezi 60 69 dny je 10. Kdybychom provedli rozdělení do tříd 30 40, 40 50, 50 60 atd., měli bychom problém, do které třídy zařadit například úvěr, kterému chybí 50 dní do splatnosti. Tento problém nevznikne při způsobu třídění uvedeném výše. Při třídění dat do tříd v příkladu 2.1 jsme se řidili určitými zásadami, které mají obecnou platnost. Uvedeme ty nejdůležitější. 1. Počet tříd nemá být příliš malý, aby to nevedlo k velmi zjednodušenému pohledu na vlastnosti souboru a neměl by být příliš velký, nebot by se mohlo stát, že se zpracování stane nepřehledným a zaniknou zákonitosti charakteristické pro daný soubor. 14

2.2 ELEMENTÁRNÍ ZPRACOVÁNÍ STATISTICKÝCH DAT Při určování počtu tříd se snažíme potlačit náhodné kolísání četností, ale zároveň nesmíme setřít charakteristické rysy. Na stanovení počtu tříd neexistuje jednotný názor ani obecný předpis. 2. Jednotlivé pozorované hodnoty znaku patří do jedné a jen jedné třídy. Tento problém je spojen s otázkou, jak určovat hranice tříd, aby bylo možné jednotlivé hodnoty zařadit do příslušných tříd jednoznačně. 3. Pokud je to možné, stanovíme shodnou šířku pro všechny třídy. V případě jednostupňového třídění tudíž uspořádáme údaje o zkoumaném kvantitativním znaku do rostoucí posloupnosti, rozdíl mezi maximální a minimální zjištěnou hodnotou znaku rozdělíme na určitý počet intervalů, které nazýváme třídní intervaly nebo třídy a mluvíme o intervalovém třídění. Každému intervalu přiřadíme počet statistických jednotek s hodnotou znaku, který patří do příslušné třídy. Rozdělení četností a relativních četností Počet statistických jednotek s hodnotou znaku, který patří do určité třídy, nazýváme absolutní četností nebo jen četností třídy. V příkladu 2.1 o krátkodobých úvěrech je číslo 10 četnost třídy 60 69, zatímco číslo 7 je četnost třídy 70 79 a také třídy 80 89. Podíl příslušné četnosti a rozsahu datového souboru se nazývá relativní (poměrná) četnost. Například relativní četnost třídy 50 59 je 8/40 = 0.2. Poznamenejme, že součet relativních četností všech tříd je roven jedné. Tabulku, do které uspořádáváme četnosti resp. relativní četnosti, nazýváme tabulkou rozdělení četností resp. tabulkou rozdělení relativních četností. Chceme-li mezi sebou porovnávat různé datové soubory, lišicí se svým rozsahem, je vhodnější použít relativní četnosti než absolutní četnosti. Je to z toho důvodu, že relativní četnost je číslo mezi 0 a 1 a tudíž může být kriteriem pro porovnání. Dva datové soubory mající shodné rozdělení četností, budou mít shodné rozdělení relativních četností. Ale dva datové soubory mající shodné rozdělení relativních četností, budou mít shodné rozdělení četností jen v případě, že oba datové soubory mají stejný rozsah. Kromě uvedených dvou způsobů konstrukce rozdělení četností, konstruujeme též rozdělení kumulativních četností a kumulativních relativních četností, které podávají informaci o tom, kolik jednotek souboru, resp. jaká poměrná část souboru má hodnotu sledované veličiny menší nebo rovnu určité dané hodnotě. Například pro data z příkladu 2.1 zjistíme, že kumulativní četnost úvěrů s dobou splatnosti kratší než 50 dní je 3+1=4, takže 4 úvěry mají dobu splatnosti kratší než 50 dní. Dále zjistíme, že kumulativní relativní četnost úvěrů s dobou splatnosti kratší než 50 dní je 4/40 = 0.10, to znamená, že 10% úvěrů má dobu splatnosti menší než 50 dní. Terminologie používaná při třídění Vrat me se opět k příkladu 2.1. Uvažujme například třídu 50 59. Nejmenší počet dní do splatnosti je 50. Tato hodnota se nazývá dolní hranice třídy. Největší doba splatnosti v této třídě je 59. Tato hodnota se nazývá horní hranice třídy. Prostřední hodnota třídy 50 59 je (50 + 59)/2 = 54.5 a nazývá se střed třídy. Středy tříd nám umožňují reprezentaci jednotlivých tříd pomocí jediného čísla a někdy se používají při grafickém zobrazování a při počítání popisných měr. Šířka třídy 50 59 získaná odečtením své dolní hranice od dolní hranice sousední vyšší třídy, je 60 50 = 10 a nazývá se šířka třídy. 15

KAPITOLA 2 POPISNÁ STATISTIKA V definici 2.2 jsou shrnuty základní pojmy používané při třídění dat. Definice 2.2 POJMY POUŽÍVANÉ PŘI TŘÍDĚNÍ DAT Třídy: Skupiny, do kterých jednotlivá data rozdělujeme. Dolní hranice třídy: Nejmenší hodnota která patří do příslušné třídy. Horní hranice třídy: Největší hodnota, která patří do do příslušné třídy. Střed třídy: Střed příslušné třídy. Šířka třídy: Dolní hranici dané třídy odečteme od dolní hranice sousední vyšší třídy. Četnost třídy: Počet jednotlivých dat v dané třídě. Relativní četnost třídy: Podíl četnosti třídy a celkového počtu dat v datovém souboru. Kumulativní četnost: Součet četností všech tříd reprezentujících všechny hodnoty menší než horní hranice příslušné třídy. Kumulativní relativní četnost třídy: Podíl kumulativní četnosti a celkového počtu dat v souboru. Nyní uvedeme výpočetní vzorce pro četnosti. Necht {x 1,, x n } jsou pozorování určitého statistického znaku x, x j (a, b, j = 1,, n a = a 0 < a 1 < < a k = b. Interval (a, b rozdělíme na k disjunktních podintervalů (a i 1, a i, i = 1, 2,, k. Šířka i-té třídy je pak rozdíl mezi horní hranicí intervalu (a i 1, a i a horní hranicí sousedního intervalu (a i 2, a i 1. Četnost i-té třídy n i je počet pozorování x j, pro která platí a i 1 < x j a i. Tabulka 2.1 Rozdělení četností a kumulativních četností Interval Četnost Kumulativní četnost Střed absolutní relativní absolutní relativní třídy (a i 1, a i n i p i N i P i y i (a 0, a 1 n 1 p 1 n 1 p 1 y 1 (a 1, a 2 n 2 p 2 n 1 + n 2 p 1 + p 2 y 2............... (a k 1, a k n k p k k n k i p i Celkem k n i = n k p i = 1 y k Výpočetní vzorce pro četnosti a kumulativní četnosti Relativní četnost i-té třídy p i : Podíl četnosti n i i-té třídy a počtu n všech dat v datovém souboru. p i = n i n, k p i = 1. (2.1) Kumulativní četnost i-té třídy N i : Počet všech x j, pro která platí a 0 < x j a i : i N i = n r, 1 r k. (2.2) r=1 Kumulativní relativní četnost i-té třídy P i : Podíl kumulativní četnost i-té třídy, N i a počtu n všech dat v souboru. Nebo ekvivalentně, součet relativních četností všech tříd od 1. třídy až po i-tou třídu. i P i = p r, 1 r k. (2.3) r=1 16

2.2 ELEMENTÁRNÍ ZPRACOVÁNÍ STATISTICKÝCH DAT Tabulku, ve které jsou uvedeny třídy, četnosti, relativní četnosti, kumulativní četnosti, kumulativní relativní četnosti a středy tříd pro datový soubor budeme nazývat tabulkou intervalového třídění dat. Označme y i střed i-té třídy. Rozdělení četností a kumulativních četností je uvedeno v následující tabulce 2.1. Pro data z příkladu 2.1 nyní uvedeme tabulku intervalového třídění. Tabulka 2.2 Četnosti a kumulativní četnosti pro dobu splatnosti krátkodobých úvěrů Počet dní Četnost Relativní Kumulativní Kumul.relativní Střed do splatnosti (počet úvěrů) četnost četnost četnost třídy 30 39 3 0.075 3 0.075 34.5 40 49 1 0.025 4 0.100 44.5 50 59 8 0.200 12 0.300 54.5 60 69 10 0.250 22 0.550 64.5 70 79 7 0.175 29 0.725 74.5 80 89 7 0.175 36 0.900 84.5 90 99 4 0.100 40 1.000 94.5 Celkem 40 1 Jednoduché třídění Každá třída, kterou jsme doposud použili při třídění dat, reprezentovala několik možných číselných hodnot. Při zpracování údajů diskrétního statistického znaku, který nabývá pouze určitého počtu obměn, je někdy vhodnější použít takové třídy, kdy všechny reprezentují jednu možnou číselnou hodnotu. Pak hovoříme o jednoduchém třídění. Máme-li k dispozici údaje o spojitém statistickém znaku, nebo o znaku, který je sice diskrétní, ale může nabývat velkého počtu nejrůznějších obměn, pak raději konstruujeme intervalové rozdělení četností. Příklad 2.2 Jednoduché třídění V jednom malém městě byl proveden průzkum počtu dětí školního věku v rodině. Bylo náhodně vybráno 15 rodin. Počet dětí školního věku v každé z 15 vybraných rodin je následující. 2 0 4 2 0 1 0 1 0 0 4 0 1 3 2 Uspořádáme tyto údaje do tabulky rozdělení četností. Počet dětí Četnost Kumulativní četnost školního věku absolutní relativní absolutní relativní 0 6 0.400 6 0.400 1 3 0.200 9 0.600 2 3 0.200 12 0.800 3 1 0.067 13 0.867 4 2 0.133 15 1.000 Celkem 15 1.000 Rozdělení četností pro kvalitativní data Pojmy jako dolní a horní hranice třídy nebo střed třídy jsou použitelné pro kvantitativní data, nejsou však vhodné pro kvalitativní data jako například při práci s údaji pro zařazování lidí do tříd podle toho, zda jde o muže nebo ženu. I v tomto případě však můžeme určovat četnosti a relativní četnosti. 17

KAPITOLA 2 POPISNÁ STATISTIKA Příklad 2.3 Rozdělení četností pro kvalitativní data 40 náhodně vybraných dospělých občanů bylo dotázáno, jakému dopravnímu prostředku dává přednost při cestách na dovolenou do zahraničí. Určete rozdělení četností pro data, která jsou uvedena v následující tabulce. (Osobní automobil (A), autobus (B), letadlo (L), ostatní (O)). O B A B B A B A L B B B A A A O O O B A A O L A L O B B A O O L B B B B B B A A Tabulka četností a relativních četností použití dopravních prostředků: Dopravní prostředek Četnost Relativní četnost Osobní automobil 12 0.30 Autobus 16 0.40 Letadlo 4 0.10 Ostatní 8 0.20 Celkem 40 1.000 2.2.2 Statistické grafy Vedle statistických tabulek je důležitou formou zobrazování statistických údajů graf. Grafické zobrazení dává rychlou a přehlednou představu o tendencích a charakteristických rysech analyzovaných jevů. Grafy jsou také účinným popularizačním prostředkem statistických výsledků. Z hlediska konstrukce lze grafy rozdělit do různých skupin. O některých se zde zmíníme. Histogramy pro intervalové třídění Uvažujme pro ilustraci třídění doby splatnosti krátkodobých úvěrů (příklad 2.1). V tabulce 2.2 jsou data uspořádaná do tříd. Cílem je grafické zobrazení takto roztříděných dat. Jeden způsob jak zobrazit tato data, je sestrojit graf, v němž jsou třídy zobrazeny v pravoúhlé souřadnicové soustavě na vodorovnou osu a četnosti na svislou osu. Můžeme to udělat pomocí histogramu četností. Je na obr. 2.1(a). Obrázek 2.1 Histogramy pro počet dní po splatnosti krátkodobých úvěrů Četnost 10 9 8 7 6 5 4 3 2 1 Relativní četnost 0.25 0.20 0.15 0.10 0.05 10 30 50 70 90 Počet dní po splatnosti (a) histogram četností 10 30 50 70 90 Počet dní po splatnosti (b) histogram relativních četností Výška každého sloupce je rovna četnosti třídy, kterou reprezentuje. Každý sloupek je umístěn 18

2.2 ELEMENTÁRNÍ ZPRACOVÁNÍ STATISTICKÝCH DAT mezi dolní hranici třídy a dolní hranici nejbližší vyšší třídy. Histogram četností zobrazuje četnosti tříd. K zobrazení relativních četností můžeme použít histogram relativních četností, který je podobný histogramu četností. Jediný rozdíl je v tom, že výška každého sloupku v tomto histogramu je rovna relativní četnosti třídy místo četnosti třídy. Histogram relativních četností pro data z příkladu 2.1 je na obr. 2.1(b). Poznamenejme, že tvary histogramu relativních četností na obr. 2.1(b) a histogramu četností na obr. 2.1(a) jsou shodné. Nyní uvedeme formální definice histogramu četností a histogramu relativních četností. Definice 2.3 HISTOGRAM ČETNOSTÍ A RELATIVNÍCH ČETNOSTÍ Histogram četností: Graf, který v pravoúhlé souřadnicové soustavě zobrazuje třídy na vodorovnou osu a četnosti tříd na svislou osu. Četnost každé třídy je reprezentována sloupcem, jehož výška je rovna četnosti třídy. Histogram relativních četností: Graf, který v pravoúhlém souřadnicové soustavě zobrazuje třídy na vodorovnou osu a relativní četnosti tříd na svislou osu. Relativní četnost každé třídy je reprezentována svislým sloupcem, jehož výška je rovna relativní četnosti třídy. Histogramy pro jednoduché třídění Konstrukce histogramu je trochu odlišná při jednoduchém třídění dat, kdy třídy jsou založeny pouze na jedné hodnotě statistického znaku. V tomto případě umístíme střed každého sloupce histogramu přímo do jediné číselné hodnoty, která reprezentuje třídu. Polygony četností a kumulativních četností Další velice často používané grafické znázornění četností je polygon četností. Polygon četností je graf, který vznikne tak, že v pravoúhlé souřadnicové soustavě spojíme úsečkami body o souřadnicích (y i, n i ), resp. (y i, p i ), kde y i je střed i-té třídy a n i resp. (p i ) je četnost i-té třídy resp. relativní četnost. Nahradímeli četnosti odpovídajícími kumulativními četnostmi, dostaneme polygon kumulativních četností. Pro údaje z příkladu 2.1 je polygon relativních četností a kumulativních relativních četností uveden na obr. 2.2. Bodové grafy Další typ grafického znázornění pro kvantitativní data je bodový graf. Bodové grafy používají jako grafické prostředky body umístěné v souřadnicové soustavě. Jsou zvláště užitečné pro znázornění relativní polohy jednoho údaje v souboru všech dat, která jsou k dispozici pro danou úlohu, nebo pro porovnání dvou nebo více datových souborů. Bodový graf pro data z příkladu 2.2 je na obrázku 2.3. Obrázek 2.2 Polygony četností 1.0 kumulativní četnost 0.9 relativní četnost 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5 94.5 Obrázek 2.3 Bodový graf 1 2 3 4 5 19

KAPITOLA 2 POPISNÁ STATISTIKA Z obrázku je patrné, že bodové grafy jsou podobné histogramům. Pokud provedeme jednoduché třídění dat, pak oba jsou vpodstatě identické. Konstrukce bodových grafů je jednodušší. Kruhové diagramy a sloupkové grafy Histogramy, polygony a bodové grafy slouží k znázorňování kvantitativních dat. Kvalitativní dat se zobrazují pomocí odlišné techniky. Dvě nejčastěji používané metody pro znázornění kvalitativních dat jsou kruhové diagramy nebo též nazývané koláčové grafy a sloupkové grafy. Kruhový diagram je kruh rozdělený na části ve tvaru kousků koláče, které získáme rozdělením středového úhlu kružnice úměrně k podílu jednotlivých částí zobrazovaného jevu vyjádřených v procentech. Sloupkový graf je podobný histogramu až na to, že jeho sloupky se nedotýkají jeden druhého. Kruhový diagram a sloupkový graf pro rozdělení relativních četností z příkladu 2.3 jsou znázorněny na obr. 2.4 (a) a (b). Obrázek 2.4 Dopravní preference autobus (40%) ostatní (20%) letadlo (10%) auto (30%) Relativní četnost 0.4 0.3 0.2 0.1 auto autobus letadlo ostatní (a) kruhový diagram (b) sloupkový graf Stem-and-Leaf diagramy (stonek s listy, číslicový dendrogram) Stem-and-leaf diagram je obdoba histogramu četností. Konstrukce tohoto diagramu bývá často jednodušší než konstrukce histogramu četností a obecně zobrazuje více informací než histogram četností. Pro údaje v tabulce k příkladu 2.1 získáme tento diagram tak, že si nejprve vybereme z dat tzv. řídící číslice. Dostaneme tak čísla 3, 4,, 9 a zapíšeme je do 1. sloupce. Pak postupně procházíme data a napíšeme koncovou číslici každého čísla vpravo od řídící číslice. Řídící číslice se nazývají stems (stonky) a koncové číslice leaves (listy). Jiný tvar stem-and-leaf diagramu je tzv. uspořádaný stem-and-leaf diagram. V tomto diagramu jsou listy v každém řádku uspořádány od nejmenšího k největšímu. Stem-and-leaf diagram resp. uspořádaný stem-and-leaf diagram je zobrazen pro data v příkladu 2.1 na obr. 2.5 (a) resp. (b). 20

2.2 ELEMENTÁRNÍ ZPRACOVÁNÍ STATISTICKÝCH DAT Obrázek 2.5 Počet dní do splatnosti úvěru Stems Leaves Stems Leaves 3 8 6 9 3 6 8 9 4 7 4 7 5 7 1 6 3 5 1 0 5 5 0 1 1 3 5 5 6 7 6 2 4 7 3 6 4 0 9 8 5 6 0 2 3 4 4 5 6 7 8 9 7 0 5 1 0 9 8 0 7 0 0 0 1 5 8 9 8 5 9 1 7 0 3 6 8 0 1 3 5 6 7 9 9 9 9 5 8 9 5 8 9 9 (a) stem-and-leaf diagram (b) uspořádaný stem-and-leaf diagram 2.2.3 Tvar rozdělení četností; symetrie a šikmost Důležitým aspektem rozdělení četností datového souboru je jeho tvar. Později uvidíme, že tvar rozdělení četností hraje často důležitou roli při určení vhodné metody statistické analýzy. V odstavci 2.2.2 jsme se seznámili s metodami grafického znázornění dat, mezi nimi s histogramy, polygony a diagramy. Při diskusi o tvarech rozdělení je vhodnější používat hladkou křivku jako aproximaci tvaru rozdělení. Například obr. 2.1 zobrazuje histogram relativních četností pro počet dní zbývajících do splatnosti krátkodobých úvěrů. Zároveň znázorňuje i hladkou křivku, která aproximuje tvar rozdělení. Tvary rozdělení četností Obrázek 2.6 na straně 22 zobrazuje některé běžné tvary rozdělení: tvar zvonu, trojúhelníkový, rovnoměrný (rektangulární), ve tvaru písmene J, tvaru obráceného J, vpravo sešikmené (vpravo protažené), vlevo sešikmené (vlevo protažené), bimodální, vícemodální. V praxi mají rozdělení jen zřídka tyto uvedené idealizované tvary. Modalita Zkoumáme-li tvar rozdělení, je vhodné zjistit počet vrcholů (nejvyšších bodů) stejné výšky. Rozdělení nazýváme jednovrcholové nebo unimodální, má-li jeden vrchol; dvouvrcholové nebo bimodální, má-li dva vrcholy; a vícevrcholové nebo multimodální, jestliže má tři nebo více vrcholů. Zvláštním případem bimodálního rozdělení je rozdělení U, které má vrcholy na dvou krajích. Rozdělení s výraznými vrcholy ale ne nutně stejné výšky označujeme v praxi často také jako bimodální nebo vícemodální. Poznámka: Počet vrcholů rozdělení četností větší než jeden má většinou původ v nestejnorodosti zkoumaného statistického souboru, z něhož bývá v takovém případě možné a většinou i nutné vytvořit vhodným roztříděním tolik statistických souborů, kolik mělo původní rozdělení četností vrcholů. Symetrie a šikmost Všimněme si, že každé ze tří rozdělení na obr. 2.6(a)-(c) má tu vlastnost, že je lze rozdělit na dvě části zrcadlově shodné. Taková rozdělení se nazývají symetrická. Bimodální rozdělení zobrazené na obr. 2.6(h) je také symetrické, ale neplatí to obecně pro bimodální a vícemodální rozdělení. Obr. 2.6(i) ukazuje nesymetrické třímodální rozdělení. 21

KAPITOLA 2 POPISNÁ STATISTIKA Při klasifikaci rozdělení podle tvaru si musíme být vědomi toho, že rozdělení vyskytující se v praxi, považujeme za symetrické i když není přesně symetrické. Obrázek 2.6 Tvary rozdělení (a) Tvar zvonu (b) Trojúhelník (c) Rovnoměrný (d) Obrácené J (e) Tvar J (f) Vpravo protažené (g) Vlevo protažené (h) Bimodální (i) Vícemodální Základní soubor a výběrová rozdělení Při jednoduchém náhodném výběru ze základního souboru očekáváme, že rozdělení relativních četností výběru bude podobné i když ne identické s rozdělením základního souboru. V praxi však většinou rozdělení základního souboru neznáme. Za těchto okolností můžeme použít rozdělení náhodného výběru ze základního souboru, abychom si udělali hrubou představu o rozdělení celého souboru dat. Jestliže tedy máme k dispozici náhodný výběr ze základního souboru, pak rozdělení relativních četností výběru bude aproximovat rozdělení relativních četností základního souboru. Čím větší bude rozsah výběru, tím lepší aproximace dosáhneme. 2.3 Popisné míry statistických souborů V odstavcích 2.1 a 2.2 jsme se začali zabývat popisnou statistikou. Dozvěděli jsme se, jak uspořádat data do tabulek a sumarizovat údaje pomocí grafů. Rozdělení četností poskytuje užitečnou informaci o struktuře zkoumaného souboru, ale popisovat a zejména porovnávat několik souborů pouze pomocí tabulek nebo grafů by bylo pracné. Z těchto důvodů se snažíme shrnout informaci obsaženou ve zjištěných údajích o statistickém znaku a vyjádřit ji v koncentrované formě pomocí určitých charakteristik. Při popisu statistických souborů nás zajímají především poloha (úroveň) rozdělení četností a variabilita (rozptýlenost). Méně 22

2.3 POPISNÉ MÍRY STATISTICKÝCH SOUBORŮ často se zaměřujeme na šikmost a špičatost. Čísla, která slouží k popisu datových souborů se nazývají popisné míry. V této části se budeme zabývat některými nejdůležitějšími popisnými mírami. 2.3.1 Kvantily Kvantil datového souboru je hodnota, která rozděluje soubor hodnot určité veličiny na dvě části - jedna obsahuje ty hodnoty, které jsou menší (nebo stejné) než kvantil, druhá část naopak obsahuje ty hodnoty, které jsou větší (nebo stejné) než kvantil. Přesněji řečeno, kvantil je hodnota určená tak, že hodnoty, které jsou menší a stejné tvoří určitou stanovenou část rozsahu statistického souboru, např. 1, 15, 50, 90% apod. zatímco hodnoty, které jsou větší a stejné tvoří zbývající část souboru tj. např. 99, 85, 50, 10% atd. Kvantil veličiny x, který odděluje zhruba 100p% malých hodnot znaku veličiny x (p je relativní četnost malých hodnot) od 100(1 p)% velkých hodnot veličiny x, označujeme x 100p a nazýváme ho 100p% kvantil veličiny x. Mezi další nejčastěji používané kvantily patří percentily, decily a kvartily. Percentily x 1, x 99 datového souboru rozdělují soubor na 100 stejných částí, a decily x 10,, x 90 rozdělují soubor na 10 stejných částí. Nejčastěji používané percentily jsou kvartily. Jsou celkem tři. Definice 2.4 KVARTILY Kvartily jsou hodnoty, které dělí uspořádaný statistický soubor na čtyři části, přičemž každá obsahuje 25% jednotek. Dolní kvartil x 25 odděluje zhruba 25% nejnižších hodnot veličiny od ostatních. Prostřední kvartil - medián ( x 50 ) rozděluje obor hodnot veličiny na dvě stejné části, z nichž každá obsahuje 50% jednotek. Horní kvartil x 75 je taková hodnota znaku, která odděluje zhruba 75% nejnižších hodnot veličiny od zbývajících 25%. Necht x 1, x 2,..., x n jsou pozorované hodnoty sledované veličiny x, které máme k dispozici a n je celkový počet pozorování. Uspořádejme pozorované hodnoty veličiny x do neklesající posloupnosti x (1) x (2)... x (n). Pak 100p% kvantil určíme pro 0 < p < 1 podle následujícího vzorce: { x([np]+1), pokud není np celé číslo x 100p = 1 (x 2 (np) + x (np+1) ) pro np celé. (2.4) Příklad 2.4 Ilustrace definice 2.4 20 vybraných televizních diváků bylo požádáno, aby si týden zaznamenávali dobu věnovanou sledování televizních pořadů. Následují data uspořádaná podle velikosti. 5 15 16 20 21 25 26 27 30 30 31 32 32 34 35 38 38 41 43 66 Určete kvartily datového souboru. Řešení: Počet dat je sudý, takže prostřední kvartil je roven x 50 = (30 + 31)/2 = 30.5. Dolní kvartil je roven prostřednímu kvartilu 50% nejnižších dat, to je x 25 = (21 + 25)/2 = 23. Horní kvartil je roven prostřednímu kvartilu 50% největších dat, to je x 75 = (35 + 38)/2 = 36.5. 23

KAPITOLA 2 POPISNÁ STATISTIKA 2.3.2 Míry polohy Popisné míry, které ukazují, kde leží střed nebo nejtypičtější hodnota datového souboru se nazývají míry polohy nebo míry úrovně. Nejdůležitější tři míry polohy jsou: aritmetický průměr, medián a modus. Termínem průměr budeme v dalším textu označovat aritmetický průměr. Průměr a medián můžeme použít pro kvantitativní data, zatímco modus může být použit jak pro kvantitativní tak i kvalitativní data. Průměr Nejčastěji používanou mírou polohy je průměr. Definice 2.5 PRŮMĚR DATOVÉHO SOUBORU Průměr datového souboru x je definován jako podíl součtu hodnot datového souboru a počtu jednotlivých hodnot datového souboru. Průměr x lze vypočítat podle vzorce x = 1 n x i. (2.5) n Označme y i, i = 1,..., k, 1 k n různé hodnoty sledované veličiny x a n i odpovídající četnosti, n necht značí rozsah výběrového souboru. Pak pro výpočet průměru použijeme vzorec k y i n i x = n = 1 k k y i n i = y i p i. (2.6) n i n Relativní četnosti p i udávají váhu, která je přisuzována jednotlivým různým hodnotám sledované veličiny. Průměr počítaný podle vzorce (2.6) nazýváme vážený aritmetický průměr. Aritmetický průměr má řadu vlastností, z nichž některé mají teoretický význam, jiné se dají s výhodou použít při jeho výpočtu. Uvedeme si je: Vlastnosti průměru: 1. Součet jednotlivých odchylek od průměru je nulový; tj. obecně platí n (x i x) = 0. 2. Přičteme-li ke každé hodnotě sledované veličiny tutéž konstantu c, zvýší se o tuto konstantu i aritmetický průměr: 1 n n (x i + c) = x + c. 3. Násobíme-li všechny hodnoty sledované veličiny stejnou konstantou c, je touto konstantou násoben i průměr: 1 n n cx i = c x. Příklad 2.5 Ilustrace definice 2.5 Poradenská firma zaměstnává několik starších konzultantů, jejichž týdenní plat je mezi 7000 a 9500 Kč a několik mladých konzultantů s týdenním platem od 3000 do 3500 Kč. Následující dvě tabulky udávají přehled týdenních výdělků (ve stovkách Kč) v červenci resp. v srpnu téhož roku. Vypočtěte průměr pro každý datový soubor. Jaký byl průměrný týdenní výdělek v červenci a v srpnu? Datový soubor I (ve stovkách Kč) 20 20 20 84 20 20 30 20 30 35 70 35 95 Datový soubor II (ve stovkách Kč) 20 20 84 35 30 30 20 20 95 20 24

2.3 POPISNÉ MÍRY STATISTICKÝCH SOUBORŮ Řešení: Vzhledem k definici 2.5 dostáváme: Průměr datového souboru I = 499 13. = 38.40 a průměr datového souboru II = 374 10 = 37.40. Takže průměrný týdenní výdělek třinácti zaměstnanců poradenské firmy v datovém souboru I byl 3.840 Kč a deseti zaměstnanců v datovém souboru II byl 3740 Kč. Medián Jinou často používanou mírou polohy je medián. Jak jsme se dověděli v odstavci 2.3.1, medián datového souboru je hodnota, která rozděluje soubor hodnot určité veličiny na dvě části-jedna obsahuje 50% těch hodnot, které jsou menší (nebo stejné) než medián, druhá část naopak obsahuje 50% hodnot, které jsou větší (nebo stejné) než medián. Definice 2.6 MEDIÁN DATOVÉHO SOUBORU Uspořádejme pozorované hodnoty sledované veličiny do neklesající posloupnosti. Jestliže rozsah datového souboru n je lichý, pak medián je hodnota, která leží právě uprostřed uspořádané posloupnosti hodnot. Jestliže rozsah datového souboru n je sudý, pak medián je průměr dvou hodnot, které leží uprostřed uspořádané posloupnosti hodnot. Ze vzorce 2.4 pro výpočet 100p% kvantilu plyne, že medián lze spočítat podle následujícího vzorce: { x([ n x 50 = 2 ]+1), pokud je n liché číslo 1 (x (2.7) 2 ( n 2 ) + x ( n 2 +1) ) pro n sudé. Příklad 2.6 Ilustrace definice 2.6 Uvažujme opět datové soubory I a II z příkladu 2.5. Určete medián pro oba soubory. Řešení: Použijeme definici 2.6. Nejprve data uspořádáme do neklesající posloupnosti: 20 20 20 20 20 20 30 30 35 35 70 84 95 Počet dat v datovém souboru I je 13, to je liché číslo. Medián je tudíž roven sedmé hodnotě v uspořádané posloupnosti, to je hodnota 30. Medián týdenních platů 13 zaměstnanců je 3000 Kč. Podobně postupujeme i v případě datového souboru II. Data uspořádáme: 20 20 20 20 20 30 30 35 84 95 Počet dat v datovém souboru II je 10, to je sudé číslo. Tudíž medián týdenních platů 10 zaměstnanců z datového souboru II je (2000 + 3000)/2 = 2500 Kč. Modus Poslední míra polohy, kterou se budeme zabývat, je modus. Definice 2.7 MODUS DATOVÉHO SOUBORU Modus datového souboru ˆx je každá hodnota, jejíž četnost výskytu je větší než 1 a je stejná nebo větší než četnost výskytu kterékoliv jiné hodnoty. Jestliže četnost žádné hodnoty v datovém souboru není větší než 1, pak říkáme, že datový soubor nemá modus. Jinak, každá hodnota, která má největší četnost se nazývá modus datového souboru. Datový soubor může mít tudíž víc než jeden modus. 25