Masarykova univerzita

Rozměr: px
Začít zobrazení ze stránky:

Download "Masarykova univerzita"

Transkript

1 Masarykova univerzita Přírodovědecká fakulta BAKALÁŘSKÁ PRÁCE David Fiedor Statistika na střední škole Vedoucí práce: RNDr. Marie Budíková, Dr. Studijní program: Matematika Studijní obor: Matematika se zaměřením na vzdělávání 2010

2

3 Tímto bych chtěl poděkovat především RNDr. Marii Budíkové, Dr. za připomínky, cenné rady a čas, který mi při psaní této práce věnovala. Dále děkuji všem učitelům, kteří byli ochotni vyplnit dotazník a předali mi tak praktické informace o výuce statistiky na středních školách. Prohlašuji, že jsem svoji bakalářskou práci napsal samostatně a výhradně s použitím citovaných pramenů. V Brně dne David Fiedor

4 Název práce: Statistika na střední škole Autor: David Fiedor Ústav matematiky a statistiky Přírodovědecké fakulty MU Vedoucí bakalářské práce: RNDr. Marie Budíková, Dr. Abstrakt: Účelem této bakalářské práce bylo nejprve zjistit způsob a rozsah výuky statistiky na střední škole a následně na základě tohoto výzkumu vytvořit učební text. Tento učební text je rozšířen o řešené příklady ihned po vyložení teorie a na konci většiny kapitol je doplněn příklady neřešenými, určenými k procvičení. Celá bakalářská práce se věnuje pouze statistice popisné. Poslední kapitolu tvoří zadání a vypracování samostatného úkolu, který by měl posloužit vyučujícím matematiky jako vzor, jak lze zadávat samostatnou práci studentům. Také by měl pomoci studentům při vypracování statistických úkolů v programu Microsoft Excel. Tento text může být využit také jako zdroj příkladů zadávaných studentům. Klíčová slova: statistický soubor, průměr, variabilita Title: Statistics on secondary school Author: David Fiedor Department of Mathematics and Statistics, Faculty of Science, MU Supervisor: RNDr. Marie Budíková, Dr. Abstract: The main purpose of the bachelor thesis was to find out a range of statistics education at grammar schools. The aim was to produce teaching materials on the bases of this research. This work deals with the explanation of theory and exemplary simple statistical operations. Half of the chapters contain excercises for practice at the end of these chapters. In the bachelor thesis only descriptive statistics is involved. The last chapter includes a solved statistical project. Thanks to this project students should be able to process a statistical file in Microsoft Excel. The project could imagine a demonstration for math teachers how to organise the lesson. The bachelor thesis can be used as a source of excercises for students. Keywords: data set, mean, variability

5 OBSAH Obsah Úvod 7 1. Cíl práce Kontaktování středních škol Rámcový vzdělávací program Členění učebního textu Základní statistické pojmy Co je statistika a čím se zabývá? Statistický soubor a statistické jednotky Statistické znaky Rozdělení četností Absolutní a relativní četnosti Skupinové rozdělení četností Formy grafického znázornění rozdělení četností Úlohy na procvičení Charakteristiky znaku Typy statistických znaků podle stupně kvantifikace Charakteristiky polohy Aritmetický průměr Harmonický průměr Geometrický průměr Modus Medián Kvantily Charakteristiky variability Rozptyl Směrodatná odchylka Variační koeficient Mezikvartilová odchylka Úlohy na procvičení

6 OBSAH 4 Statistická závislost více znaků Koeficient korelace Úlohy na procvičení Samostatný úkol Zadání samostatného úkolu Vzorové vypracování samostatného úkolu Závěr 47 Seznam použité literatury 48 6

7 ÚVOD Úvod 1. Cíl práce Cílem této bakalářské práce bylo vytvoření učebního textu statistiky, která se v rámci předmětu matematika probírá na středních školách gymnaziálního typu. Existuje mnoho typů středních škol, není samozřejmě možno vytvořit učební text univerzální pro všechny tyto typy. Proto jsem se ve své práci zaměřil na gymnázia. Pokud to bylo možné, snažil jsem se volit příklady tematicky zeměpisně zaměřené s použitím dat Českého statistického úřadu ( 2. Kontaktování středních škol V prvotní fázi bylo nutné kontaktovat vyučující na gymnáziích a požádat je o vyplnění dotazníku. Jistěže ne všichni odpověděli, avšak těm, kteří tak učinili, patří mé srdečné díky. Dotazník obsahoval otázky týkající se probíraného učiva, hodinové dotace statistiky a používané učebnice. Poslední otázka směřovala k softwaru, používanému při výuce. Výsledky byly ve všech případech hodně podobné. Hodinová dotace dosahovala průměrně šest hodin, což je opravdu málo. Všichni kontaktovaní vyučující se shodli na používání učebnice [4], s kterou byli všichni spokojeni. Poslední otázka směřovala na software používaný při výuce. Bohužel více než polovina kontaktovaných škol žádný software nevyužívá. Proto jsem se rozhodl zpracovat tento učební text tak, aby k řešení příkladu nebylo potřeba využívat jakýkoliv statistický software. Jelikož je takřka nutností statistické soubory zpracovávat použitím softwaru, rozhodl jsem se navrhnout vyučujícím formu samostatného úkolu, jež mohou řešit s použitím softwaru Excel jak ve škole, tak i doma. Tento samostatný úkol je vytvořen i s vzorovým řešením, které obsahuje návod, jak jednotlivé úkoly v programu Excel konstruovat. 7

8 ÚVOD 3. Rámcový vzdělávací program Podle Rámcového vzdělávacího programu (RVP) by měl student v rámci práce s daty prokázat následující dovednosti: 1. Diskutuje a kriticky zhodnotí statistické informace a daná statistická sdělení. 2. Volí a užívá vhodné statistické metody k analýze a zpracování dat (využívá výpočetní techniku). 3. Reprezentuje graficky soubory dat, čte a interpretuje tabulky, diagramy a grafy, rozlišuje rozdíly v zobrazení obdobných souborů vzhledem k jejich odlišným charakteristikám. Probíraným učivem by měly být tyto okruhy: analýza a zpracování dat v různých reprezentacích, statistický soubor a jeho chrakteristiky (vážený aritmetický průměr, medián, modus, percentil, kvartil, směrodatná odchylka, mezikvartilová odchylka). Převzato z dokumentu [8]. 4. Členění učebního textu Podle RVP a učebnice [4] používané na gymnáziích jsem vytvořil vlastní osnovu učebního textu, přičemž každou z kapitol nyní stručně charakterizuji. První kapitola věnována základním statistickým pojmům obsahuje především jejich vysvětlení, uvedení do problematiky a je zakončená schématem (obr.1), které se snaží názorně vystihnout základní statistické pojmy. Druhá kapitola s názvem Rozdělení četností obsahuje četnosti - absolutní i relativní, formy jejich reprezentace formou tabulek a grafů, skupinové rozdělení četností. Důraz byl kladen na pochopení těchto pojmů, za jakých okolností je lze používat. Na konci této kapitoly je poslední strana věnována neřešeným příkladům. Výsledky všech neřešených příkladů naleznete v příloze. V pořadí třetí kapitola (Charakteristiky znaku) tohoto textu je kapitolou stěžejní, protože tvoří jádro učiva, které je vyučováno na středních školách. Strukturu této kapitoly tvoří především dvě podkapitoly - Charakteristiky polohy a Charakteristiky variability, kterým předchází podkapitola Typy znaků. Po vysvětlení pojmu přichází řešený příklad, případně řešené příklady. Také tato kapitola je zakončená příklady na procvičení. Předposlední kapitola se věnuje charakteristikám více znaků, především koeficientu korelace. Vysvětlení teorie je doplněno řešeným příkladem a kapitola je uzavřená několika příklady na procvičení. Tento učební text je na závěr doplněn samostatným úkolem a také jeho komentovaným řešením. K tomuto úkolu je zapotřebí využít software, s ohledem na dostupnost softwaru byl zvolen MS Excel. 8

9 KAPITOLA 1. ZÁKLADNÍ STATISTICKÉ POJMY Kapitola 1 Základní statistické pojmy Snahou této první kapitoly bude seznámit čtenáře se základními pojmy, se kterými statistika pracuje. V dalších kapitolách budeme tyto pojmy používat, a proto je potřeba jim dostatečně porozumět. 1.1 Co je statistika a čím se zabývá? Statistika se jako vědní obor vyvíjela již od počátku 16. století, kdy vycházela první statistická díla zabývající se především popisem státu. Dnes již hovoříme o moderní statistice, která se od původního popisu významně liší. Pokusme se nyní objasnit, co to statistika vlastně je. Statistika je vědní obor, který se zabývá hromadnými jevy. Co to tedy jsou ony hromadné jevy? Jestliže přijdu k lékaři s nějakým druhem nemoci, středem zájmu budu pouze já a moje nemoc. Zatímco pro potřeby statistiky se moje nemoc zobecní a statistiku bude zajímat jen to, že jsem jedinec, který je nemocný. Proto může vzniknout nějaká statistika, která bude udávat například počet všech nemocných v kraji za určité období. Hromadné jevy jsou tedy přírodní, společenské či jiné jevy sledované ne jednotlivě, ale ve velkém počtu případů. V tomto textu se budeme orientovat na ryzí základy, tzv. popisnou statistiku, která se snaží informace obsažené ve velkém počtu dat zhustit do přehlednější podoby, přičemž využívá pouze základních matematických nástrojů. 1.2 Statistický soubor a statistické jednotky Množinu všech objektů statistického pozorování shromážděných na základě toho, zda mají jisté společné vlastnosti, nazýváme statistickým souborem (též datovým souborem). Pod tímto termínem si můžeme představit například třídu studentů. Prvky této množiny se nazývají statistické jednotky. Za statistický soubor můžeme považovat například třídu studentů na gymnáziu, kde každý jednotlivec představuje statistickou jednotku. Počet všech objektů statistického sou- 9

10 KAPITOLA 1. ZÁKLADNÍ STATISTICKÉ POJMY boru tj. v tomto případě počet studentů, se nazývá rozsah souboru a značí se symbolem n. Statistický soubor, který podle sledovaných kritérií obsahuje všechny statistické jednotky možné v dané situaci, se nazývá základní statistický soubor. Ne vždy se však statistika zaměřuje právě na všechny možné statistické jednotky, jelikož je to mnohdy vyčerpávající a příliš zdlouhavá či nákladná metoda. Proto statistika často vybírá pouze některé jednotky, které do svého šetření zahrne. Takovému souboru statistických jednotek říkáme výběrový soubor. Při náhodném výběru těchto jednotek ze základního souboru tak můžeme využít teorie pravděpodobnosti a dostáváme tak dostatečně spolehlivé a přesné poznatky o celém základním souboru. Základním souborem bychom mohli rozumět například množinu všech studentů prvního ročníku gymnázií v České republice, kteří se účastní matematické olympiády. Z nich bychom náhodně vybrali podmnožinu dvaceti studentů, které bychom zkoumali podle toho, zda byli úspěšní řešitelé, nebo nikoliv. Tímto náhodným výběrem jsme získali podmnožinu, která se nazývá výběrový soubor. V tomto textu se omezíme většinou na soubor výběrový, takže statistickým souborem budeme rozumět výběrový statistický soubor, pokud nebude řečeno jinak. 1.3 Statistické znaky Statistický znak x je společná vlastnost prvků statistického souboru, jejíž proměnlivost je předmětem statistického zkoumání. Jednotlivé údaje statistického znaku se nazývají hodnoty znaku x a značí se x 1, x 2,..., x n. Statistickým znakem může být například pohlaví, věk, výška, známka z matematiky a mnoho dalších vlastností prvků, které tvoří statistický soubor. Hodnoty znaků tak lze vyjádřit jak čísly, tak i nějakým jiným způsobem, zpravidla slovním popisem. Právě podle tohoto kritéria dělíme statistické znaky do dvou skupin znaky kvantitativní a znaky kvalitativní. První skupinu, tj. kvantitativní znaky, tvoří znaky jako tělesná výška či hmotnost. Druhou skupinu, kterou tvoří kvalitativní znaky, reprezentuje například pohlaví, rodinný stav nebo náboženství. 10

11 KAPITOLA 1. ZÁKLADNÍ STATISTICKÉ POJMY Obrázek 1.1: Schéma základních statistických pojmů 11

12 KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ Kapitola 2 Rozdělení četností V pořadí druhá kapitola tohoto textu nás zavede do problematiky relativně snadného, avšak důležitého pojmu - četností. Vycházel jsem z teoretického základu učebnic [1], [4] a [10], přičemž byla přejata také matematická symbolika vyskytující se v těchto středoškolských textech, aby nedocházelo k zbytečnému zmatení studenta. 2.1 Absolutní a relativní četnosti Předpokládejme, že rozsah statistického souboru je roven n, a nás zajímá určitý statistický znak. Ten může samozřejmě nabývat různých hodnot u všech statistických jednotek tohoto souboru, avšak v praxi se s tímto případem setkáváme zřídka. Některé hodnoty statistického znaku jsou proto u některých jednotek totožné a to nám umožní definovat další pojem četnost. (Absolutní) četností hodnoty x j znaku x rozumíme počet n j statistických jednotek jistého statistického souboru, které mají stejnou hodnotu x j znaku x. Součet všech četností je rozsah statistického souboru. Jestliže například v praxi zkoumáme v rámci třídy 4.A známku z matematiky, omezí nás to na nejvýše pět různých hodnot statistického znaku (známky 1, 2, 3, 4, 5). Četností (absolutní) znaku x 1 tudíž rozumíme počet všech studentů třídy 4.A, kteří mají na vysvědčení z matematiky jedničku. Kromě absolutní četnosti existuje také četnost relativní. Relativní četnost hodnoty x j je rovna podílu absolutní četnosti hodnoty x j a rozsahu n celého statistického souboru. Přitom relativní četnost budeme označovat symbolem v j : v j = n j n. Součet relativních četností všech různých hodnot statistického znaku je roven jedné. Relativní četnosti vyjadřujeme v praxi velice často v procentech (při vynásobení relativní četnosti stem) a součet je následně 100 %. Relativní četnosti nám naznačují, kolik procent celého statistického souboru má právě takovou hodnotu 12

13 KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ statistického znaku a někdy jsou vhodnějším ukazatelem než četnosti absolutní. V případě, že známe absolutní četnost, která je rovna číslu dvacet, ale neznáme rozsah souboru, tak nemůžeme říci, jestli je to hodně nebo málo. Naopak jestli víme, že relativní četnost hodnot x j je rovna 0,9, řekne nám toto číslo, že devadesát procent hodnot znaků statistického souboru je rovno právě hodnotě x j. Pro přehledné znázornění absolutních a relativních četností hodnot znaků statistického souboru se využívají tabulky. Takovým tabulkám se říká tabulky rozdělení četností a relativních četností. Obecně tato tabulka může při zavedeném označení vypadat následovně: Tabulka 2.1: Rozdělení absolutních a relativních četností x j n j v j x 1 n 1 n 1 n x 2 n 2 n 2 n x k n k n k n Příklad U domácností byl zjišťován počet obytných místností s možnými výsledky: 1, 2, 3, 4, 5+ (znamená 5 a více místností). Při tomto zjišťování bylo náhodně vybráno 25 respondentů s následujícími výsledky: 1, 3, 2, 5+, 2, 2, 3, 5+, 4, 2, 1, 3, 3, 3, 5+, 2, 3, 3, 4, 4, 2, 3, 4, 2, 3. Vytvořte tabulku rozdělení četností a relativních četností. Pokuste se o stručnou interpretaci získaných výsledků, která bude obsahovat nejčetnější a nejméně četnou hodnotu sledovaného znaku. Řešení Symbolem x označme sledovaný znak (počet obytných místností), který může nabývat hodnot x j (j = 1, 2, 3, 4, 5+). Absolutní četnosti si označme n j, relativní četnosti v j. 13

14 KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ Tabulka 2.2: Absolutní a relativní četnosti počtu obytných místností x j n j v j 1 2 0, , , , ,12 součet 25 1,00 Nejvíce osob žije v domácnostech o třech obytných místnostech (36 %), zatímco nejméně v domácnostech s jednou obytnou místností (pouze 8 %). 2.2 Skupinové rozdělení četností Jestliže máme k dispozici statistický soubor o velkém rozsahu, který má navíc obrovské množství různých hodnot zkoumaného znaku x, je potřeba tento soubor zjednodušit, aby byl přehlednější pro vyvozování nějakých závěrů. Proto lze hodnoty zkoumaného znaku, které jsou sobě navzájem blízké, sdružovat do určitých skupin (tříd) tvořených zpravidla intervaly. Pro tyto skupiny existuje několik zásad, které se snažíme dodržovat, pokud je to možné. Jednou z těchto zásad je konstantní šířka jednotlivých intervalů. Často bývá obtížné určit vhodný počet intervalů, do kterých statistické jednotky podle hodnot znaku rozdělíme. K vyřešení takového problému slouží několik vzorců, z nichž nejznámější a nejčastěji používaný se nazývá Sturgesův vzorec. Jeho tvar je následující: k. = 1 + 3, 3 log n, kde k je vhodný počet stejně velkých intervalů a n je rozsah statistického souboru. Následující tabulka uvádí počty třídicích intervalů pro dané rozsahy statistických souborů, určených pomocí Sturgesova pravidla. 14

15 KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ Tabulka 2.3: Počet třídicích intervalů v závislosti na rozsahu souboru určených Sturgesovým pravidlem počet znaku počet třídicích intervalů Po rozdělení všech hodnot souboru do intervalů můžeme určit četnost výskytu hodnot znaku v jednotlivých intervalech. Určením těchto četností pro všechny intervaly získáme skupinové (intervalové) rozdělení četností, pro jejichž zápis se obvykle využívá tabulka. Příklad tabulky skupinového rozložení četností je uveden v následujícím příkladu. Příklad U obcí Moravskoslezského kraje s počtem obyvatel větším než tisíc a menších než deset tisíc byl zjištěn počet narozených dětí za rok Výsledky jsou následující: 28, 28, 23, 51, 21, 25, 9, 6, 30, 18, 16, 15, 65, 14, 9, 40, 16, 23, 12, 21, 10, 10, 40, 38, 10, 21, 31, 48, 19, 17, 16, 16, 11, 11, 27, 19, 20, 46. Pomocí Sturgesova pravidla určete počet třídicích intervalů, vytvořte tabulku skupinového rozdělení četností a relativních četností. Závěrem se pokuste získané výsledky interpretovat. Řešení Nejdříve zjistíme počet všech hodnot zkoumaného znaku, abychom pomocí Sturgesova pravidla určili počet třídicích intervalů. Uspořádejme si všechny hodnoty do řady od nejmenších po největší: 6, 9, 9, 10, 10, 10, 11, 11, 12, 14, 15, 16, 16, 16, 17, 18, 19, 19, 20, 21, 21, 21, 23, 23, 25, 27, 28, 28, 30, 31, 38, 40, 40, 46, 48, 51, 65. Rozsah souboru je 37, odkud jsme dosazením do vzorce Sturgesova pravidla dostali, že počet třídicích intervalů je roven šesti. Nejmenší, resp. největší hodnota 15

16 KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ statistického znaku tohoto souboru je rovna 6, resp. 65. Délka jednoho intervalu se proto bude rovnat deseti. Sestrojme nyní tabulku skupinového rozdělení četností a relativních četností. Tabulka 2.4: Skupinové rozdělení absolutních a relativních četností řešené úlohy intervaly znaku x četnosti n j relativní četnosti v j součet 37 1 Ačkoliv nebyla udána přesná velikost zkoumaných obcí, výsledná tabulka nám o těchto údajích může mnohé napovědět. Při předpokladu, že ve městech s vyšším počtem obyvatel by se mělo rodit více dětí, si již snadno uvědomíme fakt, že většina zkoumaných obcí jsou obce s menším počtem obyvatel, jelikož nejčastější hodnoty se vyskytují ve dvou nejnižších intervalech. Obcí kolem dvou tisíc obyvatel je zde pravděpodobně více než obcí s počtem obyvatel blížícím se deseti tisícům. 2.3 Formy grafického znázornění rozdělení četností Forem grafického znázornění rozdělení četností (i skupinových rozdělení četností) hodnot x j znaku x existuje mnoho. Lze znázorňovat jak četnosti absolutní, tak i relativní. Ke grafickému znázornění většinou používáme tabulky rozdělení četností. Ukázky jednotlivých grafů jsem převzal z učebních materiálů předmětu Základní statistické metody a následně je upravil. V této podkapitole si rozdělíme grafická vyjádření podle toho, zda mají znázorňovat kvantitativní nebo kvalitativní znaky statistických jednotek. V případě kvantitativního znaku se pro grafické znázornění četností používá především polygon četností nebo histogram. Polygonem (jinak zvaným spojnicovým grafem) rozumíme propojení všech bodů v pravoúhlé soustavě, kde osa x vyjadřuje hodnotu znaků a osa y znázorňuje odpovídající četnost. Stejně pojmenované osy má i histogram četností neboli sloupkový diagram. Tento typ grafu, který se používá převážně pro skupinové rozdělení četností, je tvořený pravidelnými rovnoběžníky, jejichž základny mají délku zvolených intervalů a jejichž 16

17 KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ výšky mají velikost příslušných třídních četností. Nyní si uvedeme příklady jednotlivých typů grafů. U 30 domácností byl zjišťován počet členů, výsledky zjišťování vidíme v následující tabulce 2.5. Použitím těchto dat již snadno vytvoříme polygon četností, který je znázorněn na následujícím obrázku 2.1. Tabulka 2.5: Počty členů u 30 domácností zjištěné při statistickém šetření počet členů domácnosti počet domácností Obrázek 2.1: Polygon četností 17

18 KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ U 110 zákazníků jisté pojišťovny bylo prováděno statistické šetření zájmu o nový typ pojištění. Mimojiné zde zákazníci vyplňovali i údaj věk. Zde máme k dispozici výsledky tohoto šetření, na jejichž základě sestrojíme histogram četností. Tabulka 2.6: Zjištěné výsledky znaku věk u vybraných 110 zákazníků pojišťovny uspořádané do tříd intervaly znaku x četnosti n j 23, (29, (35, (41, (47, (53, 59 9 součet 110 Obrázek 2.2: Histogram četností 18

19 KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ Rozdělení četností hodnot kvalitativního znaku se graficky znázorňuje pomocí kruhového diagramu, kde různým hodnotám x j statistického znaku odpovídají kruhové výseče, jejichž obsahy jsou přímo úměrné relativním četnostem v j v procentech. Hlavním úkolem předchozího výzkumu, z něhož jsme si propůjčili informace o věku zákazníků (zaznamenané v obrázku 2.2), bylo prozkoumat úroveň zájmu o nabídku nového typu pojištění. Zákazníci měli vyznačit svůj postoj, přičemž mohli volit z pěti možností. Tabulka 2.7 nám shrnuje získané výsledky, které posloužily také k tvorbě kruhového diagramu na obrázku 2.3. Tabulka 2.7: Úroveň zájmu o nový typ pojištění u vybraných 110 zákazníků pojišťovny úroveň zájmu x četnosti n j relativní četnosti v j v % jednoznačný nezájem 24 21,8 lehký nezájem 34 30,9 neutrální postoj 23 20,9 lehký zájem 21 19,1 jednoznačný zájem 8 7,3 součet % Obrázek 2.3: Kruhový diagram 19

20 KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ Úlohy na procvičení 2.1 Při statistickém šetření byly zjišťovány počty chráněných krajinných oblastí (CHKO) v jednotlivých krajích České republiky: Praha (1), Středočeský (5), Jihočeský (3), Plzeňský (4), Karlovarský (1), Ústecký (4), Liberecký (5), Královéhradecký (3), Pardubický (3), Vysočina (2), Jihomoravský (3), Olomoucký (2), Zlínský (2), Moravskoslezský (3). (a) Sestavte tabulku rozdělení četností a výsledky patřičně interpretujte. (b) Vykreslete polygon četností počtu CHKO. (c) Rozhodněte, zda je vhodné hodnoty rozdělit do intervalů, a své rozhodnutí zdůvodněte. 2.2 Údaje z tabulky rozložení četností příkladu 2.1 znázorněte kruhovým diagramem. K sestrojení využijte relativní četnosti počtu chráněných území. 2.3 Při témže statistickém šetření jako v minulých příkladech byl zkoumán i údaj celkové plochy území CHKO v jednotlivých krajích, přičemž byly zjištěny následující výsledky (v km 2 ): Praha (5), Středočeský (877), Jihočeský (1 645), Plzeňský (848), Karlovarský (621), Ústecký (1 329), Liberecký (849), Královéhradecký (688), Pardubický (392), Vysočina (609), Jihomoravský (355), Olomoucký (558), Zlínský (1 172), Moravskoslezský (918). Abychom získali relevantní výsledky našeho zkoumání, vyjádříme plochu chráněných oblastí s ohledem na celkovou plochu krajů, tzn. vyjádříme procentuální zastoupení plochy CHKO na celkovou plochu kraje. Proto si zde uvedeme celkové plochy jednotlivých krajů (v km 2 ): Praha (496), Středočeský (11 015), Jihočeský (10 057), Plzeňský (7 561), Karlovarský (3 314), Ústecký (5 335), Liberecký (3 163), Královéhradecký (4 759), Pardubický (4 519), Vysočina (6 795), Jihomoravský (7 195), Olomoucký (5 267), Zlínský (3 964), Moravskoslezský (5 426). U všech následujících úkolů tohoto příkladu již počítejte pouze získané procentuální hodnoty pro jednotlivé kraje. (a) Pomocí Sturgesova pravidla se pokuste určit počet intervalů hodnot a následně sestavte tabulku rozdělení skupinových četností, kterou také interpretujte. (b) Nakreslete histogram četností. 20

21 KAPITOLA 3. CHARAKTERISTIKY ZNAKU Kapitola 3 Charakteristiky znaku Charakteristiky statistického znaku tvoří jádro středoškolské popisné statistiky a také se jí ve výuce na gymnáziích věnuje nejvíce času. Proto také v tomto textu bude problematice této kapitoly věnována zvláštní pozornost. Teoretický základ k této kapitole jsem čerpal především z učebnic [1], [10] a [6]. 3.1 Typy statistických znaků podle stupně kvantifikace Abychom se mohli zabývat charakteristikami statistických znaků, je potřeba provést ještě nějaké rozdělení znaků do skupin. Toto rozdělení provedeme pomocí stupně kvantifikace. Již dříve jsme se zmínili o tom, že statistické znaky dělíme na kvantitativní a kvalitativní. Řekli jsme si také, že znaky kvalitativní vyjadřujeme často slovně, naopak znaky kvantitativní pomocí čísel. Pro statistické analýzy převádíme slovní popis kvalitativních znaků do řeči čísel. Nyní můžeme provést podrobnější dělení statistických znaků kvalitativních i kvantitativních. Mezi kvalitativní znaky řadíme nominální a ordinální znaky, mezi kvantitativními znaky naopak rozlišujeme intervalové a poměrové znaky. Nominální znaky nám dovolují konstatovat pouze to, zda se nějaká hodnota statistického znaku rovná nějaké další hodnotě znaku jiné statistické jednotky, či nikoliv. Hodnotami mohou být buď slovní pojmenování nebo číselné kódy. Mezi nominální statistické znaky můžeme zařadit pohlaví, náboženství, čísla tramvají jezdících v Brně, apod. U tramvají můžeme pouze říci, zda se jedná o stejné číslo, nebo o různé číslo a tudíž různé tramvaje. Ordinální znaky jsou na škále znaků o stupínek výše než znaky nominální. Proto umožňují kromě posouzení rovnosti dvou hodnot znaku statistických jednotek také posouzení, zda je některá hodnota znaku větší nebo menší než hodnota znaku jiné statistické jednotky. To znamená, že hodnoty statistického znaku lze uspořádat do pořadí. U tohoto typu znaku nemá smysl se ptát, o kolik je daná 21

22 KAPITOLA 3. CHARAKTERISTIKY ZNAKU hodnota znaku větší; smysl má pouze zeptat se, zda je větší nebo menší, případně zda se hodnoty rovnají. Ordinálními znaky mohou být čísla, text nebo i datum. Mezi typické ordinální znaky patří úroveň spokojenosti s výkonem hodnocení studentů učitelem. Nelze porovnávat rozdíl mezi znalostmi jedničkáře a dvojkaře s rozdílem znalostí čtyřkaře a pětkaře. Intervalové znaky jsou znovu o stupínek výše a lze s nimi provádět všechny operace, které jsme prováděli u znaků nominálních a ordinálních. Tyto znaky již patří do skupiny znaků kvantitativních. Intervalové znaky nám navíc umožňují interpretovat rozdíly mezi jednotlivými intervaly. To znamená, že rozdíl mezi hodnotami jedna a tři je stejný jako rozdíl mezi hodnotami pět a sedm. Intervalové znaky nám dovolují vypočítat, o kolik je jedna hodnota statistického znaku větší než druhá. Tohoto využíváme, jestliže se pokoušíme obsahově interpretovat naměřené hodnoty teploty vzduchu ve C či plat zaměstnanců podniku. Poměrové znaky jsou z těchto kategorií nejvýše, takže všechno, co platilo u znaků předchozích typů, platí i zde. Navíc u tohoto typu znaků platí, že stejný poměr mezi jednou dvojicí hodnot a druhou dvojicí hodnot znaku znamená i stejný podíl v rozpětí dané vlastnosti. Jinak řečeno má smysl uvažovat fakt, že hodnota je několikrát větší než jiná hodnota. Zajímají-li nás u statistických jednotek hodnoty znaku hmotnost jedinců, je na místě uvažovat, že Lenka (55 kg) má poloviční hmotnost než Milan (110 kg). Zvláštní postavení mezi statistickými znaky mají znaky alternativní, které mohou patřit ke kterékoliv z výše uvedených skupin znaků. Alternativními znaky rozumíme znaky, které mohou nabývat pouze dvou hodnot a žádná další hodnota statistického znaku není možná. Do této kategorie bychom zařadili znaky, které vyjadřují přítomnost či absenci určitého jevu (přítomnost = 1, absence = 0) nebo například znak rozlišující pohlaví zkoumaných jedinců. 22

23 KAPITOLA 3. CHARAKTERISTIKY ZNAKU 3.2 Charakteristiky polohy Charakteristikami polohy (zvané také úrovně či střední hodnoty) hodnot znaku rozumíme čísla, která nám podávají určitou informaci o střední hodnotě sledovaného znaku. Patří mezi ně zejména aritmetický, geometrický a harmonický průměr, modus, medián a kvantily. Každé z nich budeme věnovat patřičnou pozornost. Charakteristiky polohy se musíme naučit také vhodně volit. Kdybychom měli k dispozici statistický soubor a měli bychom ho jedním číslem charakterizovat, musíme obezřetně zvolit správnou charakteristiku, aby nedošlo k nesprávné představě o daném statistickém souboru Aritmetický průměr V běžném životě je pravděpodobně nejobvyklejším statistickým pojmem aritmetický průměr. Pomocí něho se vypočítávají průměrné denní teploty, průměrné roční množství srážek spadnutých na daném území apod. Patřičným způsobem si nejprve definujme a vysvětleme, co tento pojem znamená. Aritmetický průměr x hodnot x 1, x 2,..., x n znaku x je definován jako podíl součtu hodnot znaku a jejich počtu (rozsahu souboru) n, tj. je určen vzorcem: x = x 1 + x x n n = 1 n n x i. Aby nedocházelo k nesprávné charakteristice statistického souboru užitím aritmetického průměru, ukážeme si ještě některé jeho vlastnosti, které nám pomohou lépe pochopit význam a užití této charakteristiky znaku. Jednou ze zásad použití aritmetického průměru je jeho typičnost. Jestliže platí, že průměr je typický, znamená to, že většina hodnot je blízká jeho hodnotě, a navíc by také mělo platit, že by se měl blížit nejčetnější hodnotě. Zde je na místě také uvést skutečnost, že aritmetický průměr má smysl pouze tehdy, jestliže má smysl součet hodnot znaku statistického souboru. To nás přivádí k první podkapitole této kapitoly, kde jsme si rozdělili znaky podle stupně kvantifikace. Můžeme proto konstatovat, že aritmetický průměr je charakteristika vhodná pouze pro intervalové a poměrové znaky. Další vlastnosti již nebudou o správném užití, avšak budou charakterizovat chování aritmetického průměru: a) Součet všech rozdílů x i x jednotlivých hodnot znaku x i a jejich aritmetického průměru x se rovná nule: n (x i x) = 0. i=1 i=1 23

24 KAPITOLA 3. CHARAKTERISTIKY ZNAKU b) Přičteme-li ke všem hodnotám znaku konstantu, aritmetický průměr se také zvětší právě o danou konstantu. c) Vynásobíme-li všechny hodnoty znaku konstantou k, aritmetický průměr se k-krát zvětší. d) Průměr součtu dvou proměnných se rovná součtu obou průměrů. e) Aritmetický průměr si lze geometricky představit jako těžiště. Poznámka. Jestliže v dalším textu nebude uvedeno, o jaký typ průměru se jedná, budeme vždy uvažovat průměr aritmetický, neboť je v běžném životě nejvíce používaným. Příklad Na základě statistických hlášení o narození a úmrtí a souborů stěhování zpracovává Český statistický úřad v návaznosti na výsledky posledního sčítání lidu každoroční bilanci počtu obyvatel České republiky za všechny obce. My máme nyní k dispozici počet obyvatel v jednotlivých krajích (pro zlepšení práce s daty byly počty obyvatel zaokrouhleny a jsou uváděny v tisících): Hlavní město Praha 1 233, Středočeský 1 230, Jihočeský 636, Plzeňský 569, Karlovarský 308, Ústecký 835, Liberecký 437, Královéhradecký 554, Pardubický 515, Vysočina 515, Jihomoravský 1147, Olomoucký 642, Zlínský 591, Moravskoslezský Vypočtěte aritmetický průměr počtu obyvatel žijících v jednom kraji České republiky. Řešení Všechno máme připraveno k tomu, abychom pouze dosadili do vzorce pro výpočet aritmetického průměru. Nesmíme zapomenout na fakt, že budeme dosazovat do vzorce čísla uváděna v tisících, proto taktéž výsledný aritmetický průměr počtu obyvatel bude v tisících. x = = 747, 29 = Nyní můžeme konstatovat, že v každém kraji České republiky žije průměrně 747 tisíc obyvatel. Pro úplnost ještě doplňme skutečnost, že existuje i tzv. vážený aritmetický průměr. Při tomto druhu aritmetického průměru dáváme každé hodnotě znaku nějakou váhu důležitost. Tuto důležitost může představovat absolutní četnost 24

25 KAPITOLA 3. CHARAKTERISTIKY ZNAKU dané hodnoty znaku. Každá hodnota znaku je tak doprovázena koeficientem, který vyjadřuje její důležitost vyšší koeficient znamená důležitější hodnotu. Vzorce vyjadřující váhu jiných průměrů (harmonický a geometrický) již nebudeme dále zmiňovat, neboť jejich tvar získáme obdobně jako u průměru aritmetického, jehož vzorec si nyní uvedeme: x = n 1x 1 + n 2 x n k x k n = 1 n k n i x i, přičemž n 1, n 2,..., n k značí váhy příslušných hodnot statistických znaků x 1, x 2,..., x k a platí: n 1 + n n k = n. V praxi se vážený aritmetický průměr používá například v meteorologii při výpočtu průměrné denní teploty vzduchu. Průměrnou denní teplotu vzduchu určíme z průměru teplot naměřených v 7, 14 a 21 hodin 1, přičemž teplota naměřená ve 21 hodin má váhu rovnou číslu 2, ostatní mají váhu 1. Tento výpočet si názorně předvedeme v následujícím příkladu. Příklad Vypočtěte průměrnou denní teplotu vzduchu, jestliže znáte teploty: t 7 = 5 C, t 14 = 15 C, t 21 = 8 C. Řešení i=1 t = t 7 + t t 21 4 Průměrná denní teplota je 9 C. = = 9 Příklad V kapitole 2.1 jsme si uvedli příklad, který popisoval počet obytných místností u domácností s možnými výsledky 1, 2, 3, 4, 5+ (označující 5 a více místností). V tomto příkladu využijeme tabulky rozdělení četností, kterou jsme v řešení tohoto příkladu zkonstruovali, přičemž pro potřeby tohoto příkladu si vyjádření 5+ nahradíme hodnotou 5. Ačkoliv se tímto dopustíme určité chyby, pro tento příklad budeme tuto nesprávnost akceptovat. Na základě tabulky rozdělení četností určete průměrný počet obytných místností v domácnosti výsledek zaokrouhlete na celá čísla. Řešení x = = 2, 96 = 3 1 Teplota naměřená ve 21 hodin nemá vyšší váhu proto, že by se meteorologům nechtělo přes noc vstávat, aby měřili teplotu, nýbrž proto, že denní průměr teploty vzduchu se nejvíce přibližuje teplotě naměřené ve 21 hodin. 25

26 KAPITOLA 3. CHARAKTERISTIKY ZNAKU Tabulka 3.1: Absolutní a relativní četnosti počtu obytných místností x j n j v j 1 2 0, , , , ,12 součet 25 1,00 Průměrnou hodnotou se nám stala po zaokrouhlení hodnota 3 udávající, že průměrný počet obytných místností v domácnostech je roven třem. Když zpětně pohlédneme na tabulku 3.1, zjistíme, že tři obytné místnosti byla také hodnota s největší četností a již předem jsme mohli odhadovat, že se také stane přibližně průměrnou hodnotou Harmonický průměr Harmonickým průměrem x H hodnot znaku x 1, x 2,..., x n rozumíme podíl rozsahu souboru a součtu převrácených hodnot znaku, tj. platí: x H = n = n : x 1 x 2 x n K výpočtu lze opět použít vzorec vycházející z tabulky rozdělení četností. Známe-li tabulku rozdělení četností, platí, že: x H = n i=1 n = n : n 1 + n n k x 1 x 2 x k kde hodnota znaku x 1 má četnost n 1, hodnota x 2 četnost n 2,..., hodnota x k četnost n k. V praxi se harmonický průměr příliš nepoužívá, najde využití pouze tehdy, když má smysl součet převrácených hodnot sledovaného znaku. Pro harmonický průměr používáme znaky typu intervalové a poměrové. Využití bude patrné v následujícím příkladu. Příklad Auto jede rychlostí 100 km/h z bodu A do bodu B a nazpátek z bodu B do A rychlostí 160 km/h. Jaká je korektní průměrná rychlost, za jakou řidič auta 26 1 x i. k i=1 n i x i,

27 KAPITOLA 3. CHARAKTERISTIKY ZNAKU urazil celou vzdálenost? Řešení 2 x H = = 123, Aritmetický průměr je zde nevhodný, protože kdyby jel konstantní rychlostí 130 km/h, přijel by domů mnohem dříve, než když jel tam rychlostí 100 km/h a zpátky rychlostí 160 km/h. Proto je jedinou korektní charakteristikou harmonický průměr. Výsledná průměrná rychlost je tedy asi 123 km/h Geometrický průměr Posledním typem průměru, který si v tomto textu uvedeme, je průměr geometrický, u něhož je zapotřebí, aby všechny hodnoty byly kladné. Geometrickým průměrem x G hodnot zkoumaného znaku x 1, x 2,..., x n rozumíme n tou odmocninu ze součinu hodnot x 1, x 2,..., x n, proto: x G = n x 1 x 2... x n. V praxi je stejně jako harmonický průměr využíván málo, přičemž pro potřeby statistiky slouží zpravidla pouze k určení průměrného tempa růstu za jedno období. U geometrického průměru používáme znaky typu intervalové a poměrové. Vše bude snad jasnější při pohledu na následující příklad. Příklad Farmář má pole pro pěstování svých plodin obdélníkového tvaru z rozměry 9 m a 4 m. Nyní však farmář z nějakého důvodu potřebuje, aby mělo pole čtvercový tvar. Jaké jsou rozměry tohoto čtverce, jestliže má plocha zůstat stejná? Řešení Tento výpočet lze mimo jiné provést také výpočtem geometrického průměru: x G = = 36 = 6 Ke stejnému výsledku bychom také dospěli úvahou přes plochu pole, avšak přesto bychom (ač nevědomky) počítali geometrický průměr. Výsledné čtvercové pole bude mít rozměr 6 m Modus Modus je charakteristikou znaku, kterou jsme již dříve nevědomky používali. U některých příkladů jsme si uváděli, že výsledný aritmetický průměr je tak- 27

28 KAPITOLA 3. CHARAKTERISTIKY ZNAKU též hodnotou, která se v daném souboru vyskytuje nejčastěji. Proto jsme tuto charakteristiku používali, aniž bychom o tom vlastně byli uvědoměni. Proto vše uvedeme na pravou míru a podíváme se, jak se modus definuje. Modus znaku x je jeho hodnota, která má největší četnost. Modus značíme symbolem Mod(x). Jak je již zřejmé z definice, modus může být použit pro znaky jakéhokoliv typu - tj. nominální, ordinální, intervalové a poměrové. Nyní si uvedeme ještě krátký příklad na určení této charakteristiky. Příklad U domácností byl zjišťován počet obytných místností s možnými výsledky: 1, 2, 3, 4, 5+ (znamená 5 a více místností). Při tomto zjišťování bylo náhodně vybráno 25 respondentů s následujícími výsledky: 1, 3, 2, 5+, 2, 2, 3, 5+, 4, 2, 1, 3, 3, 3, 5+, 2, 3, 3, 4, 4, 2, 3, 4, 2, 3. Určete modus počtu obytných místností. Řešení Stejně jako u tabulky rozdělení četností určíme četnost každé hodnoty. Nejčetnější hodnotu tohoto statistického souboru jsme již určili v kapitole 2.1, takže teď ji pouze pojmenujeme. Mod(x) = 3, neboť hodnota 3 je v tomto výběru obsažena 9 krát Medián Mediánem znaku x rozumíme prostřední hodnotu znaku, jsou-li hodnoty x 1, x 2,..., x n uspořádány podle velikosti (x 1 x 2 x n ). Medián značíme M ed(x). Toto ovšem není zcela korektní definice, která by vyjadřovala všechny možné případy. Jsou-li hodnoty x 1, x 2,..., x n uspořádány podle velikosti (x 1 x 2 x n ), pak mediánem znaku x rozumíme hodnotu znaku x, pro kterou platí: { x n+1 je-li n liché, Med(x) = 2 1 (x n + x n ) je-li n sudé. Medián je střední hodnota používaná obdobně jako aritmetický průměr, avšak v jiných situacích. Medián je užíván zejména tehdy, když jsou ve statistickém souboru zastoupeny prvky s hodnotami znaku mimořádně odlišnými (příliš malými 28

29 KAPITOLA 3. CHARAKTERISTIKY ZNAKU či velkými) oproti jiným hodnotám znaku. Právě v těchto situacích se dává přednost mediánu před průměrem. Medián je charakteristika, u které stačí, abychom data uspořádali podle velikosti, tzn. že medián lze použít již pro znaky ordinální, dále samozřejmě také pro znaky intervalové a poměrové. Příklad Velikosti hran pěti krychlí jsou 6, 8, 9, 10 a 11 (v cm). Stanovte hodnotu mediánu: a) pro jejich povrch, b) pro objem těchto krychlí. Řešení a) Nejprve si vypočteme povrchy (v cm 2 ) jednotlivých krychlí, postupně pro dané rozměry hrany se rovnají: 216, 384, 486, 600, 726. Nyní lze snadno určit medián, tj.: Med(x) = x n+1 2 = x 6 2 = x 3 = 486, protože n je liché. b) Nejprve si vypočteme objemy (v cm 3 ) jednotlivých krychlí, postupně pro dané rozměry hrany se rovnají: 216, 512, 729, 1000, Nyní lze snadno určit medián, tj.: Med(x) = x n Kvantily = x 6 2 = x 3 = 729, protože n je liché. Další charakteristikou znaku x, která se používá pro ordinální znaky (tzn. je použitelná i pro intervalové a poměrové znaky), jsou kvantily. Tuto charakteristiku používáme především, když hodnoty znaku mohou dosahovat velkého počtu variant. Kvantilem rozumíme hodnotu statistického znaku x ϑ, která rozděluje uspořádaná data na dva úseky dolní a horní, přičemž dolní úsek obsahuje alespoň podíl ϑ všech dat a horní úsek alespoň podíl 1 ϑ všech dat: 1 ϑ {}}{ x 1 x 2... x c x }{{ ϑ x } c+1... x n ϑ V praxi se často používají kvantily pro speciálně zvolená theta (ϑ), která mají také speciální pojmenování: 29

30 KAPITOLA 3. CHARAKTERISTIKY ZNAKU x 0,25 - dolní kvartil x 0,50 = Med(x) - medián x 0,75 - horní kvartil x 0,01, x 0,02,..., x 0,98, x 0,99 - percentily Protože nám předchozí definice neumožňuje vždy korektně určit jednotlivé kvantily, pro výpočet používáme následujícího vzorce, který nám je umožňuje počítat na základě hodnoty součinu nϑ, která je přibližně rovna počtu dat v dolním úseku (hodnoty znaku x jsou uspořádané): x c+x c+1 je-li součin nϑ celé číslo, 2 x ϑ = je-li součin nϑ necelé číslo, zaokrouhlujeme nahoru na nejbližší celé číslo x c. c Ná závěr pouze doplníme, že kvantily, stejně jako jejich speciální případ medián, mohou být použity pro znaky typu ordinální, intervalové a poměrové. Příklad Velikosti hran pěti krychlí jsou 6, 8, 9, 10 a 11 (v cm). Stanovte hodnotu dolního a horního kvartilu pro jejich povrch. Řešení Vypočteme hodnoty povrchu krychlí, které se postupně rovnají: 216, 384, 486, 600, 726. Nyní přejdeme k určování samotných kvartilů: Jelikož je součin nϑ = 5 0, 25 necelé číslo, budeme zaokrouhlovat toto číslo nahoru na hodnotu x 2, proto: x 0,25 = 384. Obdobně určíme i horní kvartil. Součin nϑ = 5 0, 75 je opět necelé číslo, zaokrouhlíme nahoru a horním kvartilem bude hodnota x 4 : x 0,75 = Charakteristiky variability Charakteristikami variability (= proměnlivosti) znaku číselně vyjadřujeme, jak se hodnoty znaku prvků souboru liší od zvolené charakteristiky polohy, resp. jak se liší od sebe navzájem. Mezi tyto charakteristiky řadíme především rozptyl, směrodatnou odchylku, variační koeficient a mezikvartilovou odchylku, přičemž s každou jmenovanou charakteristikou variability se následně blíže seznámíme Rozptyl Rozptyl měří velikost proměnlivosti, avšak v jednotkách čtverců odchylek. Použit může být pro data typu intervalová a poměrová. 30

31 KAPITOLA 3. CHARAKTERISTIKY ZNAKU Rozptylem s 2 hodnot znaku x rozumíme aritmetický průměr druhých mocnin odchylek hodnot znaku od aritmetického průměru, tj.: s 2 = 1 n n (x i x) 2. i=1 Poznámka. Výpočet rozptylu ze skupinového rozložení četností: s 2 = 1 n k n i (x i x) 2, kde x i je střed i-tého intervalu pro i = 1,..., k a k je počet intervalů. i=1 Příklad V prodejně hospodářských potřeb obdrželi zásilku 20 košťat, přičemž košťata měla mít předepsanou délku 100 cm. Přeměřením se ovšem zjistilo, že skutečné délky jsou následující: 97, 102, 105, 98, 99, 100, 102, 103, 96, 97, 101, 100, 103, 100, 99, 101, 104, 95, 100, 102. Určete rozptyl délky košťat. Řešení Nejdříve stanovíme průměr: x = = 2004 = 100, Nyní již dosazením do vzorce vypočteme rozptyl: s 2 = i=1 (x i x) 2 = 1 [(97 100, 20 2)2 + + ( , 2) 2 ] = = 1 1 (10, , 24) = 127, 2 = 6, Výsledný rozptyl je roven číslu 6, Směrodatná odchylka Směrodatná odchylka s x je definována jako druhá odmocnina z rozptylu, tj.: s x = 1 n (x i x) n 2. i=1 Poznámka. Podobně jako u rozptylu i zde je obdobný výpočet směrodatné odchylky ze skupinového rozložení četností. Vzorec má tedy podobu: s x = 1 k n i (x i x) n 2. i=1 31

32 KAPITOLA 3. CHARAKTERISTIKY ZNAKU Tato charakteristika je absolutní mírou variability (proměnlivosti) daného statistického souboru. Na rozdíl od rozptylu je směrodatná odchylka vyjádřena v jednotkách původních dat, což je nepochybně výhodou. Stejně jako rozptyl může být tato charakteristika použita pro data intervalová a poměrová. Vlastnosti směrodatné odchylky a rozptylu, které plynou již ze vzorců pro výpočet obou charakteristik: a) Přidáním konstanty k jednotlivým znakům souboru se ani jedna z těchto charakteristik nezmění. b) Vynásobením jednotlivých znaků konstantou se jejich směrodatná odchylka i rozptyl změní, a to tak, že směrodatná odchylka je násobkem původní hodnoty a rozptyl je vynásoben druhou mocninou této konstanty. Příklad Továrna na sušení mléka zásobuje trh, přičemž za rok plnila dodávky v jednotlivých měsících takto (měsíce jsou řazeny postupně leden,..., prosinec a dodávky jsou v kg): 456, 456, 455, 454, 442, 432, 429, 466, 427, 487, 492, 483. Určete směrodatnou odchylku od průměrné měsíční dodávky. Řešení Určíme průměr a následně již vypočítáme směrodatnou odchylku. x = = 456, s x = [( , 12 6)2 + + ( , 6) 2 1 ] = 5428, 92 = 21, Směrodatná odchylka měsíčních dodávek sušeného mléka od měsíčního průměru je rovna 21, 27 kg Variační koeficient Variační koeficient je nejpoužívanější relativní mírou variability souboru. V praxi slouží k porovnání variability více souborů, které nemají stejný průměr. Variační koeficient je vhodnou charakteristikou pouze tehdy, nabývá-li znak x jen nezáporných hodnot. Použit může být pro data poměrová. Variační koeficient v x je definován jako podíl směrodatné odchylky a aritmetického průměru sledovaného znaku x, přičemž je často udáván v procentech: v x = s x x 100 % 32

33 KAPITOLA 3. CHARAKTERISTIKY ZNAKU Příklad Vypočtěte variační koeficient z hodnot hmotností 11 dětí, jejichž hmotnosti jsou zde vypsány v kg: 68, 65, 59, 59, 57, 52, 49, 48, 48, 48, 43. Řešení Nejprve si určíme průměr a směrodatnou odchylku, poté dosadíme do vzorce pro výpočet variačního koeficientu. x = = 54, s x = v x = 1 [(68 54, 11 18)2 + + (43 54, 18) 2 ] = sx x 100 % = 7,59 54, % = 14 % Variační koeficient uváděný v procentech činí 14 % Mezikvartilová odchylka , 61 = 7, 59 Již dříve u charakteristik polohy jsme si definovali kvantily, resp. jejich speciální případy dolní a horní kvartil. Jak již název charakteristiky vypovídá (mezikvartilová odchylka), budeme hovořit o odchylce těchto dvou kvartilů. Narozdíl od kvantilů je zapotřebí, aby měl smysl i rozdíl dat, proto jsou použitelná pro znaky typu intervalová a poměrová. Mezikvartilovou odchylkou znaku x rozumíme hodnotu q, pro kterou platí: q = x 0,75 x 0,25. 2 Příklad Vypočtěte mezikvartilovou odchylku z hodnot hmotností 11 dětí, jejichž hmotnosti jsou zde vypsány v kg: 68, 65, 59, 59, 57, 52, 49, 48, 48, 48, 43. Řešení Seřadíme si hodnoty vzestupně a určíme si kvartily - horní i dolní. Následně můžeme určit i mezikvartilovou odchylku. 43, 48, 48, 48, 49, 52, 57, 59, 59, 65, 68 x 0,25 = 48, neboť součin n ϑ není celé číslo, zaokrouhlujeme nahoru na x 3 x 0,75 = 59, neboť součin n ϑ není celé číslo, zaokrouhlujeme nahoru na x 9 q = x 0,75 x 0, = q = = 5, Mezikvartilová odchylka hodnot hmotnosti dětí je rovna 5,5 kg. 33

34 KAPITOLA 3. CHARAKTERISTIKY ZNAKU Úlohy na procvičení 3.1 Na meteorologické stanici Brno-Tuřany (241 m n.m.) byly za rok 2008 naměřeny a stanoveny průměrné měsíční teploty vzduchu ( C). Bez ohledu na počet dní v jednotlivých měsících stanovte z těchto teplot: (a) průměrnou roční teplotu vzduchu ( C), (b) medián, dolní a horní kvartily a mezikvartilovou odchylku, (c) modus. Tabulka 3.2: Průměrné měsíční teploty vzduchu ( C) na stanici Brno-Tuřany v roce 2008 Měsíc Teploty 1,7 3,1 4,6 10,1 15,5 19,9 20,3 19,9 14,4 9,9 6,5 2,1 Získané hodnoty se pokuste vhodným způsobem interpretovat. 3.2 V tabulce jsou uvedeny hodnoty emisí (kg/obyv.) v okresech Jihomoravského kraje. Vypočítejte následující charakteristiky pro všechny typy emisí a pokuste se o jejich stručnou interpretaci: průměr, rozptyl, směrodatná odchylka, variační koeficient. V rámci hodin zeměpisu se pokuste zdůvodnit extrémní hodnoty v některých okresech (např. 17, 0 kg/obyv. SO 2 v Hodoníně). Tabulka 3.3: Množství emisí (kg/obyv.) v okresech Jihomoravského kraje za rok Jihomoravský Měrné emise (kg/obyv.) kraj emise tuhé SO 2 NO x CO Blansko 0,3 1,6 1,4 0,5 Brno-město 0,2 0,4 1,2 0,5 Brno-venkov 0,6 0,4 4,2 8,9 Břeclav 0,1 0,0 2,3 0,9 Hodonín 0,8 17,0 4,0 0,6 Vyškov 0,4 0,3 0,4 0,4 Znojmo 0,2 2,0 2,5 2,5 34

35 KAPITOLA 3. CHARAKTERISTIKY ZNAKU 3.3 V letech bylo na nejdeštivějším místě České republiky, Lysé hoře, naměřeno množství srážek za jednotlivé roky (v mm/rok). Vypočítejte průměr, medián, rozptyl, směrodatnou odchylku a variační koeficient. Získané hodnoty se pokuste interpretovat. Tabulka 3.4: Roční úhrn srážek (mm/rok) na Lysé hoře mezi roky Roky Srážky 1907,7 1469,6 1019,3 1291,2 1581,3 1392,0 1413,7 1268,5 35

36 KAPITOLA 4. STATISTICKÁ ZÁVISLOST VÍCE ZNAKŮ Kapitola 4 Statistická závislost více znaků V předchozím textu jsme se zabývali pouze popisem jednoho statistického znaku. Nyní bude předmětem našeho zájmu více statistických znaků, které již nebudeme studovat samostatně, ale budeme se snažit vystopovat podobnosti a závislosti jednoho statistického znaku na druhém v tomto textu se omezíme pouze na dvojici znaků (x, y). Teoretický základ této kapitoly vychází především z učebních textů [4] a [10]. 4.1 Koeficient korelace Často užívanou charakteristikou závislosti dvojice znaků je koeficient korelace. Na vysoké škole se i v mnoha nematematických oborech setkáte při studiu statistiky také s regresní analýzou, která taktéž popisuje závislosti mezi dvojicí znaků. Protože regresní analýza přesahuje učivo střední školy, v tomto textu se jí nebudeme věnovat. Jediným prostředkem pro zjišťování závislostí mezi dvojicí znaků bude koeficient korelace, který si nyní definujeme. Nechť x 1, x 2,..., x n jsou hodnoty znaku x a y 1, y 2,..., y n hodnoty znaku y. Koeficient korelace r xy znaků x, y definujeme takto: kde k = 1 n r xy = k s x s y, n (x i x) (y i ȳ), i=1 s x, s y jsou směrodatné odchylky znaků x, y a x, ȳ značí aritmetické průměry znaků x, y. 36

37 KAPITOLA 4. STATISTICKÁ ZÁVISLOST VÍCE ZNAKŮ Poznámka. Tvar vzorce vhodnější pro výpočet: r xy = 1 n n i=1 x iy i xȳ. s x s y Aby definice byla korektní, musíme vyloučit některé případy, jež mohou nastat, jelikož se ve jmenovateli objevují směrodatné odchylky znaků x, y, které nesmí být nulové. Snadno si uvědomíme, že směrodatné odchylky dosahují nuly právě tehdy, když je jeden ze znaků x, y konstantní, tzn. definice je korektní tehdy, když existují aspoň dvě různé hodnoty znaků x, y. Tato charakteristika je použitelná pro data typu intervalová a poměrová. Koeficient korelace nám určuje míru závislosti dvojice znaků x, y, přičemž dosahuje hodnot z intervalu 1, 1. Platí, že čím blíže je r k 1, tím považujeme závislost mezi dvojicí znaků x, y za větší - v případě r > 0 s rostoucími hodnotami znaku x vesměs rostou i hodnoty znaku y (přímá lineární závislost), v případě r < 0 s rostoucími hodnotami znaku x vesměs klesají hodnoty znaku y (nepřímá lineární závislost). V případě r = 1 hovoříme o úplné přímé lineární závislosti, v případě r = 1 o úplné nepřímé lineární závislosti. Koeficient korelace je bezrozměrné číslo. Příkladem znaků, které spolu velmi dobře přímo korelují (dosahují hodnot blízkých 1) by mohla být například statistika výše platů u zaměstnanců určitého podniku a úroveň dosaženého vzdělání. Naopak příkladem záporné korelace množství srážek na daném území a výskyt určitého druhu suchomilné rostliny. Lépe snad pojem korelace pochopíme na následujícím řešeném příkladě. Příklad V tabulce jsou uvedeny hektarové výnosy na deseti pokusných polích v závislosti na množství použitých hnojiv. Vypočítejte koeficient korelace. Tabulka 4.1: Hodnoty statistických znaků u deseti pozemků. Číslo pozemku Množství hnojiva (t/ha) Výnos (t/ha) Řešení Určíme si oba průměry x, ȳ a také obě směrodatné odchylky s x, s y : x = 6, ȳ = 16, s x = 4, 2 = 2, 05, s y = 5, 6 = 2, i=1 x iy i xȳ = s x s y 1 1 ( ) r xy = = 0, 97 2, 05 2, 37 Zjistili jsme, že mezi těmito znaky je skoro úplná přímá lineární závislost, tzn. s rostoucím množstvím hnojiva na 1 hektar roste také výnos z 1 hektaru. Zároveň si musíme uvědomit, že se v praxi od určitého množství hnojiva stane, že tento výsledek již platit nebude - příliš mnoho hnojiva bude na škodu a výnos se nezvýší. 37

38 KAPITOLA 4. STATISTICKÁ ZÁVISLOST VÍCE ZNAKŮ Úlohy na procvičení 4.1 Určete koeficient korelace pro hodnoty průměrných měsíčních teplot vzduchu ( C) za rok 2008 mezi dvěmi meteorologickými stanicemi; Brno-Tuřany (241 m n.m.) a Kuchařovice (334 m n.m.). Následující tabulka udává hodnoty těchto teplot pro obě zmíněné stanice. Tabulka 4.2: Průměrné měsíční teploty vzduchu ( C) na stanici A (Brno-Tuřany) a B (Kuchařovice) v roce 2008 Měsíc A 1,7 3,1 4,6 10,1 15,5 19,9 20,3 19,9 14,4 9,9 6,5 2,1 B 1,5 3,2 4,8 10,0 15,5 19,4 20,0 20,0 13,7 9,2 5,5 1,5 4.2 Určete míru závislosti (použitím koeficientu korelace) mezi průměrnou měsíční teplotou vzduchu za rok 2007 a trváním slunečního svitu (h) na stanici Velké Pavlovice (196 m n.m.). Tabulka 4.3: Průměrné měsíční teploty vzduchu: T ( C) a trvání slunečního svitu: S (h) na stanici Velké Pavlovice v roce 2007 Měsíc T ( C) 4,2 4,4 7,1 12,6 16,9 20,5 S (h) 61,5 75,0 163,0 313,8 248,2 254,2 Měsíc T ( C) 21,0 20,6 13,3 8,7 3,0-0,1 S (h) 279,8 259,4 177,2 120,9 67,2 29,7 38

39 KAPITOLA 5. SAMOSTATNÝ ÚKOL Kapitola 5 Samostatný úkol Poslední kapitola tohoto textu je věnována samostatnému úkolu. Tento úkol slouží k pochopení práce s rozsáhlejším datovým souborem při využívání výpočetní techniky. Předpokládá se zde znalost základních operací v programu Excel, který - i když není nejvhodnějším nástrojem pro práci s daty - je nejrozšířenějším a nejdostupnějším programem. Ve druhé části této kapitoly bude zadání samostatného úkolu vyřešeno a doplněno komentářem s návodem práce v Excelu. Již v tomto úvodu do samostatného úkolu si uvedeme základní údaje k tomuto úkolu. Představíme si situaci a také se podíváme, jakých hodnot jednotlivé znaky dosahují a ve vysvětlivkách si uvědomíme, co znamenají jednotlivé položky tabulky statistického souboru. Pak již budeme mít vše připraveno k tomu, abychom dokázali provést základní statistické postupy, které vyžaduje tento samostatný úkol složený z šesti dílčích podúkolů. Úvod do situace samostatného úkolu Vedení pojišťovny (zaměřené na pojištění automobilů) požádalo manažera oddělení marketingového výzkumu o provedení průzkumu, který by ukázal názory zákazníků na uvažovaný nový systém pojištění aut. Náhodně bylo vybráno 110 současných zákazníků pojišťovny, kteří formou dotazníku poskytli žádané údaje, jejichž výsledky máme zobrazeny pomocí čísel v tabulce 5.1, kterou nalezneme v příloze. Vysvětlivky: POSTOJ... postoj k novému typu pojištění: jednoznačný nezájem = 1, lehký nezájem = 2, neutrální postoj = 3, lehký zájem = 4, jednoznačný zájem = 5 RODINNÝ STAV... svobodný = 1, rozvedený, ovdovělý = 2, ženatý = 3 VĚK... věk v dokončených letech STÁŘÍ AUT... stáří auta v letech CESTY... počet cest nad 300 km v předešlém roce 39

40 KAPITOLA 5. SAMOSTATNÝ ÚKOL 5.1 Zadání samostatného úkolu Statistický soubor zaznamenaný v tabulce překopírujte do programu MS Excel, kde s tímto souborem budete pracovat. Úloha 1 Utvořte tabulky rozdělení četností a relativních četností statistických znaků PO- STOJ a RODINNÝ STAV. Pokuste se určit typy těchto dvou znaků (nominální, ordinální, intervalové a poměrové), jestliže víte, že oba tyto znaky lze zařadit mezi znaky kvalitativní. Graficky znázorněte rozdělení četností hodnot proměnné RODINNÝ STAV použijte kruhový diagram. Na závěr tohoto úkolu se pokuste získané výsledky vhodným způsobem interpretovat, pohledem na tabulku rozdělení četností určete u obou znaků modus. Úloha 2 Vypočítejte (případně určete z tabulky rozdělení četností) medián hodnot znaku POSTOJ. Stručně vysvětlete svými slovy (bez použití přesné definice), co tato charakteristika znamená. Úloha 3 Pro proměnnou CESTY stanovte pomocí Sturgesova pravidla optimální počet třídicích intervalů. V tomto případě však není vhodné vzít počet intervalů určených pomocí Sturgesova pravidla. Proto zvolte 7 stejně širokých intervalů (vyhneme se tak nutnosti volit intervaly různé délky) a utvořte histogram četností. Naopak pro znak STÁŘÍ AUT nakreslete polygon četností. Závěrem se znovu pokuste získané výsledky okomentovat. (Nápověda: Pro nakreslení grafů obou znaků si nejprve sestavte tabulky rozdělení četností, resp. skupinových četností a následně již vykreslete graf.) Úloha 4 U každé z proměnných VĚK, STÁŘÍ AUT a CESTY určete průměr, medián, dolní a horní kvartily a mezikvartilovou odchylku. Získané výsledky vhodným způsobem okomentujte. Úloha 5 Zamyslete se, u kterých proměnných lze korektně provést výpočet charakteristik variability (rozptyl, směrodatná odchylka a variační koeficient). Následně všechny jmenované charakteristiky u těchto znaků vypočtěte. V závěrečném komentáři této úlohy se zamyslete především nad rozdíly mezi směrodatnou odchylkou a variačním koeficientem. Úloha 6 Pokuste se určit míru závislosti použitím koeficientu korelace u znaků STÁŘÍ AUT a CESTY. Vypočtený koeficient interpretujte. 40

41 KAPITOLA 5. SAMOSTATNÝ ÚKOL 5.2 Vzorové vypracování samostatného úkolu Před samotným začátkem řešení úkolů je potřeba si nakopírovat datový soubor do programu MS Excel. Pro ukázku, jak by měl výsledek vypadat zde uvedu část této tabulky. V dalším textu budeme u návodu řešení používat označení buněk, které je zavedeno v této ukázce. Před začátkem dále doporučuji vytvoření listů pro každou proměnnou (viz ukázka na obrázku 5.1). Obrázek 5.1: Ukázka vložení datového souboru do programu Excel Úloha 1 - Řešení Obrázek 5.2: Tabulka rozdělení četností znaku POSTOJ Obrázek 5.3: Tabulka rozdělení četností znaku RODINNÝ STAV 41

42 KAPITOLA 5. SAMOSTATNÝ ÚKOL Proměnná POSTOJ nabývá hodnot 1,..., 5, přičemž tyto hodnoty vyjadřují postoj k novému pojištění. Jsou uspořádány od jednoznačného nezájmu až po jednoznačný zájem. Právě proto, že tyto hodnoty můžeme uspořádat, řadíme tento znak mezi znaky ordinální. Naopak je tomu u proměnné RODINNÝ STAV. Zde již nemůžeme najít uspořádání. Někteří lidé jsou svobodní i ve vyšším věku, jiní se žení či vdávají brzo. Protože zde neexistuje jakékoliv uspořádání, řadíme tento znak na stupeň nejnižší, tedy nominální znak. Obrázek 5.4: Kruhový diagram znaku RODINNÝ STAV U proměnné POSTOJ je nejčetnější hodnotou lehký nezájem (v tabulce pod číslem 2) s absolutní četností 34. U proměnné RODINNÝ STAV je modus roven hodnotě 1, svobodný, s četností 48. Jak je z tabulky četností znaku POSTOJ patrné, převažuje u dotázaných lidí spíše nezájem o nový typ pojištění. Tento fakt dokazuje také skutečnost, že nejčetnější odpověď byla lehký nezájem. U tabulky rozdělení četností znaku RODINNÝ STAV je situace velmi vyrovnaná mezi svobodnými a ženatými. Rozvedení či ovdovělí jsou naopak v menšině. Nápověda provedení v programu MS Excel: Po vytvoření záhlaví (tj. sloupce A a řádku 1) již můžeme přistoupit k výpočtu jednotlivých polí tabulky četností. Výpočet absolutních četností lze provést přes funkci COUNTIF (Vložení-Funkce-COUNTIF). Do ní zadáme příslušné hodnoty zkoumané proměnné a ukončíme tuto funkci zadáním hodnoty, jejíž četnost chceme spočítat. Nelze po zadání vzorce do jedné buňky pouze natáhnout vzorec buňky na ostatní, avšak je zapotřebí vložit funkci do každé buňky zvlášť. V praxi vypadá vzorec pro výpočet četnosti hodnoty 1 proměnné postoj následovně: =COUNTIF( Datový soubor!b2:b111;1) Předtím, než stanovíme relativní četnosti, musíme si určit součet. Ten ovšem známe, neboť je roven rozsahu souboru, tj Vypočítat jej lze také pomocí funkce SUMA (=SUMA(B2:B6)). Stanovení relativních četností provedeme napsáním vzorce do příslušných buněk, přičemž vyjdeme z definice. Aby program Excel pracoval správně, je zapotřebí po napsání vzorce stiknout klávesu F4, která 42

43 KAPITOLA 5. SAMOSTATNÝ ÚKOL nám vzorec =B2/B7 změní na vzorec =B2/$B$7. Toto je již praktická ukázka provedení výpočtu relativní četnosti hodnoty 1, přičemž buňka B7 zde představuje rozsah souboru. Vykreslení grafu provedeme následovně: Vložení-Výsečový graf-vybrat data-přidat (zde vložíme buňky, z kterých se má vytvořit graf - v našem případě B2-B4) - OK. Pokud chceme, můžeme graf upravovat do podoby, která je pro nás nejpřijatelnější. Úloha 2 - Řešení Medián je roven hodnotě 2. Jestliže máme uspořádány hodnoty znaku podle velikosti, tak medián je hodnota uprostřed, která dělí statistický soubor na dvě poloviny. Jeho určení závisí na paritě (sudý nebo lichý) rozsahu souboru. Nápověda provedení v programu MS Excel: Výpočet jsme provedli zadáním funkce MEDIAN a určením buněk s hodnotami proměnné POSTOJ. Konkrétně tento vzorec vypadá následovně: = MEDIAN( Datový soubor!b2:b111) Úloha 3 - Řešení Počet intervalů stanovených Sturgesovým pravidlem je roven osmi. Již v zadání bylo zmíněno, že v tomto případě tento počet intervalů není nejvhodnější, proto použijeme sedm intervalů a sestrojíme tabulku rozdělení četností a z ní histogram. Obrázek 5.5: Rozdělení četností a histogram znaku CESTY Druhou částí tohoto úkolu je vytvoření polygonu četností z proměnné STÁŘÍ AUT. Znovu vytvoříme tabulku rozdělení četností a pomocí ní vykreslíme polygon četností. 43

44 KAPITOLA 5. SAMOSTATNÝ ÚKOL Obrázek 5.6: Rozdělení četností a polygon četností znaku STÁŘÍ AUT Z histogramu je patrné, že dotázaní zákazníci pojišťovny absolvují spíše menší počet cest delších než 300 km. Dokonce pouze čtyři lidé odpověděli, že absolvují 18 a více cest dané délky. Z polygonu četností plyne, že nejvíce z dotázaných zákazníků vlastní auto tři roky staré. Z grafu lze také vypozorovat klesající tendenci od aut starých 3 roky k autům starým 12 let. Nápověda provedení v programu MS Excel: Počet intervalů určených Sturgesovým pravidlem jsme stanovili pomocí vepsání vzorce pro Sturgesovo pravidlo přímo do buňky a to v následujícím tvaru: = ZAOKROUHLIT (1 + 3, 3 LOG(110); 0), kde 0 znamená počet desetinných míst po zaokrouhlení. Zaokrohlujeme na celé číslo, proto 0. Tabulku rozdělení četností proměnné STÁŘÍ AUT získáme obdobně jako v úkolu 1. Podíváme se proto na sestavení tabulky rozdělení skupinových četností. Výpočet jednotlivých buněk této tabulky je mírně náročnější, než tomu bylo u tabulky rozdělení četností. Pro první interval vypadá funkce zadaná do buňky následovně: =COUNTIF( Datový soubor!f2:f111; >= 0 )-COUNTIF( Datový soubor!f2:f111; > 5 ). Tuto funkci jsme vytvořili pomocí rozdílu dvou funkcí COUNTIF, přičemž první vyjadřuje všechny hodnoty větší než nula a od ní odečtená funkce představuje hodnoty větší než pět. Obdobným postupem získáme zbylé skupinové četnosti. Vykreslení obou grafů lze provést takto: Kurzor umístíme do jakékoliv volné buňky blízko tabulky a klikneme na ikonu Vložení, poté na ikonu Sloupcový graf (resp. Spojnicový graf). Poté klikneme na ikonu Vybrat data-vybrat zdroj-přidat. Do Hodnoty řad označíme sloupec s patřičnými četnostmi a potvrdíme - OK. V případě skupinových četností navíc klikneme na tlačítko upravit, označíme sloupec s jednotlivými intervaly a potvrdíme - OK. 44

45 KAPITOLA 5. SAMOSTATNÝ ÚKOL Úloha 4 - Řešení Obrázek 5.7: Charakteristiky znaků VĚK, STÁŘÍ AUT a CESTY U proměnné VĚK se jen nepatrně liší aritmetický průměr od mediánu. Povšimnout si můžeme také skutečnosti, že dolní a horní kvartil se od průměru liší o hodnotu mezikvartilové odchylky. U proměnné STÁŘÍ AUT, jejíž hodnoty se pohybují mezi 1,..., 12, se nám potvrdila již předem zmíněná skutečnost, že její četnost jejích hodnot je vysoká pro malé hodnoty. Toto nám potvrzuje i průměr, medián a další vypočítané charakteristiky této proměnné. Poslední zkoumanou proměnnou je proměnná CESTY. Horní kvartil je opět významnou charakteristikou, neboť vyjadřuje fakt, že tři čtvrtiny hodnot tohoto znaku je menší nebo rovna 9. Nápověda provedení v programu MS Excel: Tato nápověda bude spočívat v ukázce všech počítaných charakteristik. Velkými písmeny jsou ve vzorcích vyznačeny názvy funkcí. aritmetický průměr: =PRŮMĚR( Datový soubor!d2:d111) medián: =MEDIAN( Datový soubor!d2:d111) horní kvartil: =QUARTIL( Datový soubor!d2:d111;3) dolní kvartil: =QUARTIL( Datový soubor!d2:d111;1) mezikvartilová odchylka: =(B4-B5)/2, kde B4 označuje buňku s horním kvartilem a B5 buňku z dolním kvartilem. Protože definování funkce pro výpočet kvartilů v Excelu je odlišně od definice naší, je zapotřebí po výpočtu pomocí funkce QUARTIL výsledky zaokrouhlit na celá čísla. Úloha 5 - Řešení Jak již víme z teoretického základu tohoto textu, pro výpočet těchto charakteristik je nutné, aby byly znaky alespoň intervalového typu. Již v úkolu 1 jsme určili, že znaky POSTOJ, resp. RODINNÝ STAV jsou ordinálního, resp. nominálního typu. U všech zbývajících charakteristik lze nejenom hodnoty uspořádat podle velikosti, ale dokonce zde mají smysl i operace rozdílu a podílu, jelikož lze říci, že jedno auto je dvakrát starší než jiné. Proto se všechny tyto proměnné (VĚK, STÁŘÍ AUT a CESTY) řadí mezi znaky poměrové. 45

46 KAPITOLA 5. SAMOSTATNÝ ÚKOL Obrázek 5.8: Charakteristiky variability znaků VĚK, STÁŘÍ AUT a CESTY Rozdíl mezi směrodatnou odchylkou a variačním koeficientem spočívá především v tom, že směrodatná odchylka je absolutní mírou variability, naopak variační koeficient vyjadřuje relativní míru variability. Obě tyto proměnné spolu úzce souvisí, vždyť variační koeficient se vypočítává právě přes směrodatnou odchylku. Nápověda provedení v programu MS Excel: Pomocí programu Excel vypočítáváme tyto charakteristiky pomocí vzorců zapsaných do jednotlivých buněk: rozptyl: =VAR( Datový soubor!d2:d111) směrodatná odchylka: =SMODCH( Datový soubor!d2:d111) variační koeficient: =(B13/B2)*100, kde B13 je směrodatná odchylka a B2 je buňka s vypočítaným průměrem. Úloha 6 - Řešení Koeficient korelace mezi danými znaky se rovná 0, Po výpočtu jsme zjistili, že neexistuje téměř žádná závislost mezi těmito dvěma znaky. Možná někteří z nás čekali, že by se mohla objevit poměrně silná nepřímá lineární závislost mezi těmito znaky. Mohli jsme předpokládat, že čím starší auto, tím menší počet delších cest ujede. Avšak tato domněnka neplatí pravděpodobně proto, že rozdíly mezi stářím aut nejsou tak markantní. Navíc jak jsme zjistili v předchozích úkolech, v proměnné STÁŘÍ AUT se vyskytuje velice malý počet starších aut, a také v proměnné CESTY dosahují hodnoty tohoto znaku malých hodnot. Nápověda provedení v programu MS Excel: Výpočet koeficientu korelace byl proveden použitím funkce CORREL, která je předem nadefinovaná. Konkrétní příkaz zapsaný do buňky má tuto podobu: =CORREL( Datový soubor!f2:f111; Datový soubor!e2:e111). 46

47 ZÁVĚR Závěr Závěrem bych zhodnotil, co se mi při psaní této bakalářské práce podařilo a od jakých záměrů jsem musel upustit. Při zjišťování informací o výuce mě asi nejvíce zklamala hodinová dotace a od ní se odvíjející používání výpočetní techniky při výuce. Na výuku statistiky podle slov mnoha vyučujících prostě nezbývá čas. A to je nepochybně škoda, neboť mnoho studentů gymnázií pokračuje ve studiu na vysoké škole, kde statistika patří i v nematematických oborech mezi povinné předměty. Využití softwaru tudíž není příliš rozšířené, ačkoliv by podle RVP mělo být ve výuce obsaženo. Proto jsem přišel s návrhem vypracovat názorný příklad samostatné práce, kterou by mohli vyučující žákům zadat na zpracování. Na webových stránkách Českého statistického úřadu se dokonce nachází zvláštní sekce dat pro studenty. Vyučující tak snadno mohou získávat datové soubory pro zpracování zadání takových samostatných úkolů. Doufám, že tento text bude přínosem hlavně pro učitele a jejich studenty, kteří snad na základě tohoto učebního textu snadněji proniknou alespoň do problematiky popisné statistiky. Pokud tento text bude splňovat účel, ke kterému byl vytvořen, bude to jen dobře. Za úvahu by stála i možnost rozšíření tohoto textu pro studenty nematematických oborů vysokých škol. 47

48 SEZNAM POUŽITÉ LITERATURY Seznam použité literatury [1] BUDÍKOVÁ, Marie; MIKOLÁŠ, Štěpán; OSECKÝ, Pavel. Popisná statistika. Brno: Masarykova univerzita v Brně, [2] BUDÍKOVÁ, Marie. Základní statistické metody, cvičení č.2: Průzmumová analýza jednorozměrných dat [cit. 20. dubna 2010]. Dokument dostupný na URL: / /Tema_2.doc?fakulta=1431;obdobi=4664;studium= ;kod=M6130. [3] BUDÍKOVÁ, Marie. Základní statistické metody, přednáška č.1: Průzkumová analýza jednorozměrných dat, diagnostické grafy [cit. 20. dubna 2010]. Dokument dostupný na URL: jaro2010/m6130/um/ /prednaska1.doc?fakulta=1431;obdobi= 4664;studium=259594;kod=M6130. [4] CALDA, Emil; DUPAČ, Václav. Matematika pro gymnázia - Kombinatorika, pravděpodobnost a statistika. Praha: Premetheus, s.r.o., [5] ČERMÁK, Pavel; ČERVINKOVÁ, Petra. Odmaturuj z matematiky 1. Brno: Didaktis spol. s.r.o., [6] DOBROVOLNÝ, Petr. Statistické metody a zpracování dat: II. Popisné statistické metody [cit. 20. dubna 2010]. Dokument dostupný na URL: Statistika_2_popisna_statistika.pdf?fakulta=1431;obdobi=4443; studium=259594;kod=z0069. [7] HINDLS, Richard; HRONOVÁ, Stanislava; SEGER, Jan. Statistika pro ekonomy. Praha: Edition c Kamil Mařík - Professional Publishing, [8] Kolektiv autorů. Rámcový vzdělávací program pro gymnázia [cit. 20. dubna 2010]. Dokument dostupný na URL: soubory/pdf/rvpg_2007_06_final.pdf. [9] KRÄMER, Walter. Statistika do vesty. Praha: Baronet,

49 SEZNAM POUŽITÉ LITERATURY [10] POLÁK, Josef. Přehled středoškolské matematiky. Praha: Prometheus, s.r.o., [11] POLÁK, Josef. Středoškolská matematika v úlohách II. Praha: Prometheus, s.r.o., [12] VEJSADA, František; TALAFOUS, František. Sbírka úloh z matematiky pro gymnasia. Praha: Státní pedagogické nakladatelství, [13] STŘÍTESKÁ, Hana. Výuka statistiky na ekonomicky zaměřených středních školách. Brno: Masarykova univerzita - Rigorózní práce, [14] SWOBODA, Helmut. Moderní statistika: Knaurs Buch der Modern Statistik (Orig.). Praha: Svoboda,

50 Přílohy Příloha č.1 Tabulka 5.1: Pojištění - statistický soubor k samostatnému úkolu x j POSTOJ RODINNÝ STAV VĚK STÁŘÍ AUT CESTY

51 x j POSTOJ RODINNÝ STAV VĚK STÁŘÍ AUT CESTY

52 x j POSTOJ RODINNÝ STAV VĚK STÁŘÍ AUT CESTY

53 Příloha č.2 Řešení příkladů 2.1 a) b) Tabulka 5.2: Rozdělení četností x j četnost Obrázek 5.9: Polygon četností c) NE. Datový soubor obsahuje příliš málo různých variant hodnot zkoumaného znaku. 2.2 Obrázek 5.10: Kruhový diagram

54 2.3 Tabulka 5.3: Tabulka skupinových četností Intervaly (v %) četnost 1, 6 2 (6, 12 5 (12, 18 3 (18, 24 1 (24, 30 3 Obrázek 5.11: Histogram četností 3.1 a) x = 10, 7 b) Med(x) = 10, x 0,25 = 3, 85, x 0,75 = 17, 7, q = 6, 925 c) Mod(x) = 19, Tabulka 5.4: Základní charakteristiky variability datového souboru x s 2 s x v x (%) emise tuhé 0,37 0,05 0,23 62,16 SO 2 3,10 32,67 5,72 184,52 NO x 2,29 1,74 1,32 57,64 CO 2,04 8,30 2,88 141, x = 1417, 91, Med (x) = 2805, 7, s 2 = 58402, 5, s x = 241, 7, v x = 17, 0% 4.1 r xy = 0, r xy = 0, 13

Renáta Bednárová STATISTIKA PRO EKONOMY

Renáta Bednárová STATISTIKA PRO EKONOMY Renáta Bednárová STATISTIKA PRO EKONOMY ZÁKLADNÍ STATISTICKÉ POJMY Statistika Statistický soubor Statistická jednotky Statistický znak STATISTIKA Vědní obor, který se zabývá hromadnými jevy Hromadné jevy

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

23. Matematická statistika

23. Matematická statistika Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým

Více

Základní statistické charakteristiky

Základní statistické charakteristiky Základní statistické charakteristiky Základní statistické charakteristiky slouží pro vzájemné porovnávání statistických souborů charakteristiky = čísla, pomocí kterých porovnáváme Základní statistické

Více

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy Výrobní produkce divizí Ice Cream Polo ha planet Rozložený výsečový 3D graf Bublinový graf Ice Cream 1 15% Ice Cream 2 12% Ice Cream 3 18% Ice Cream 4 20% Statistika 40 30 20 Ice Cream 6 19% Ice Cream

Více

Popisná statistika. Statistika pro sociology

Popisná statistika. Statistika pro sociology Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9. Statistické metody Matematika pro přírodní vědy přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 9. ledna 2015,

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

Číselné charakteristiky a jejich výpočet

Číselné charakteristiky a jejich výpočet Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém

Více

Škály podle informace v datech:

Škály podle informace v datech: Škály podle informace v datech: Různé typy dat znamenají různou informaci, resp. různé množství informace Data nominální Rovná se? x 1 = x 2 Data ordinální Větší, menší? x 1 < x 2 Data intervalová O kolik?

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření Počet stran: 10 Datum odevzdání: 13. 5. 2016 Pavel Kubát Obsah Úvod... 3 1 Charakterizujte

Více

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar

Více

Metodologie pro ISK II

Metodologie pro ISK II Metodologie pro ISK II Všechny hodnoty z daného intervalu Zjišťujeme: Centrální míry Variabilitu Šikmost, špičatost Percentily (decily, kvantily ) Zobrazení: histogram MODUS je hodnota, která se v datech

Více

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia.

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia. Úvod (Proč se zabývat statistikou?) Statistika je metoda analýzy dat, která nachází široké uplatnění v celé řadě ekonomických, technických, přírodovědných a humanitních disciplín. Její význam v poslední

Více

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření školní zadání Skupina: 51 Vypracovaly: Pavlína Horná, Nikola Loumová, Petra Mikešová,

Více

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické

Více

Číselné charakteristiky

Číselné charakteristiky . Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch

Více

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1 3. charakteristiky charakteristiky 1 charakteristiky slouží pro vzájemné porovnávání statistických souborů charakteristiky = čísla, pomocí kterých porovnáváme charakteristiky 2 charakteristiky Dva hlavní

Více

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

STATISTIKA S EXCELEM. Martina Litschmannová MODAM, STATISTIKA S EXCELEM Martina Litschmannová MODAM, 8. 4. 216 Obsah Motivace aneb Máme data a co dál? Základní terminologie Analýza kvalitativního znaku rozdělení četnosti, vizualizace Analýza kvantitativního

Více

Pojem a úkoly statistiky

Pojem a úkoly statistiky Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby

Více

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu. Popisná statistika Slovní popis problému Naším cílem v této úloze bude stručně a přehledně charakterizovat rozsáhlý soubor dat - v našem případě počty bodů z prvního a druhého zápočtového testu z matematiky.

Více

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 29. října 2018 Statistika Statistika Statistika je jako bikini. Co odhaluje, je zajímavé, co skrývá, je podstatné. Aaron Levenstein Statistika Statistika

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE STATISTIKA 1 Adam Čabla Katedra statistiky a pravděpodobnosti VŠE KONTAKTY WWW: sites.google.com/site/adamcabla E-mail: adam.cabla@vse.cz Telefon: 777 701 783 NB367 na VŠE, konzultační hodiny: Pondělí

Více

STATISTICKÉ CHARAKTERISTIKY

STATISTICKÉ CHARAKTERISTIKY STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Popisná statistika. Jaroslav MAREK. Univerzita Palackého Popisná statistika Jaroslav MAREK Univerzita Palackého Přírodovědecká fakulta Katedra matematické analýzy a aplikací matematiky Tomkova 40, 779 00 Olomouc Hejčín tel. 585634606 marek@inf.upol.cz pondělí

Více

Matematická statistika

Matematická statistika Matematická statistika Daniel Husek Gymnázium Rožnov pod Radhoštěm, 8. A8 Dne 12. 12. 2010 v Rožnově pod Radhoštěm Osnova Strana 1) Úvod 3 2) Historie matematické statistiky 4 3) Základní pojmy matematické

Více

Pravděpodobnost a statistika

Pravděpodobnost a statistika Pravděpodobnost a statistika Teorie pravděpodobnosti popisuje vznik náhodných dat, zatímco matematická statistika usuzuje z dat na charakter procesů, jimiž data vznikla. NÁHODNOST - forma existence látky,

Více

Informační technologie a statistika 1

Informační technologie a statistika 1 Informační technologie a statistika 1 přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 21. září 2015, 1/33 Požadavek

Více

Statistika I (KMI/PSTAT)

Statistika I (KMI/PSTAT) Statistika I (KMI/PSTAT) Cvičení druhé aneb Kvantily, distribuční funkce Statistika I (KMI/PSTAT) 1 / 1 Co se dnes naučíme Po absolvování této hodiny byste měli být schopni: rozumět pojmu modus (modální

Více

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady Předmět: Náplň: Třída: Počet hodin: Pomůcky: Matematika Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady 4. ročník a oktáva 3 hodiny týdně PC a dataprojektor, učebnice

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Diskrétní náhodná veličina

Diskrétní náhodná veličina Lekce Diskrétní náhodná veličina Výsledek náhodného pokusu může být vyjádřen slovně to vede k zavedení pojmu náhodného jevu Výsledek náhodného pokusu můžeme někdy vyjádřit i číselně, což vede k pojmu náhodné

Více

Pracovní list č. 3 Charakteristiky variability

Pracovní list č. 3 Charakteristiky variability 1. Při zjišťování počtu nezletilých dětí ve třiceti vybraných rodinách byly získány tyto výsledky: 1, 1, 0, 2, 3, 4, 2, 2, 3, 0, 1, 2, 2, 4, 3, 3, 0, 1, 1, 1, 2, 2, 0, 2, 1, 1, 2, 3, 3, 2. Uspořádejte

Více

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací! Statistika aneb známe tři druhy lži: úmyslná neúmyslná statistika Statistika je metoda, jak vyjádřit nejistá data s přesností na setinu procenta. den..00..00 3..00..00..00..00..00..00..00..00..00..00 3..00..00..00..00..00..00..00

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení ze 4ST201. Na případné faktické chyby v této prezentaci mě prosím upozorněte. Děkuji Tyto slidy berte pouze jako doplňkový materiál není v nich obsaženo

Více

Statistika pro gymnázia

Statistika pro gymnázia Statistika pro gymnázia Pracovní verze učebního textu ZÁKLADNÍ POJMY Statistika zkoumá jevy (společenské, přírodní, technické) ve velkých statistických souborech. Prvky statistických souborů se nazývají

Více

Aplikovaná statistika pro učitele a žáky v hodinách zeměpisu aneb jak využít MS Excel v praxi. Geografický seminář 30. března 2011 Pavel Bednář

Aplikovaná statistika pro učitele a žáky v hodinách zeměpisu aneb jak využít MS Excel v praxi. Geografický seminář 30. března 2011 Pavel Bednář Aplikovaná statistika pro učitele a žáky v hodinách zeměpisu aneb jak využít MS Excel v praxi Geografický seminář 30. března 2011 Pavel Bednář Výchozí stav Sebehodnocení práce s MS Excel studujícími oboru

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků) Základní výpočty pro MPPZ Teorie Aritmetický průměr = součet hodnot znaku zjištěných u všech jednotek souboru, dělený počtem všech jednotek souboru Modus = hodnota souboru s nejvyšší četností Medián =

Více

Písemná práce k modulu Statistika

Písemná práce k modulu Statistika The Nottingham Trent University B.I.B.S., a. s. Brno BA (Hons) in Business Management Písemná práce k modulu Statistika Číslo zadání: 144 Autor: Zdeněk Fekar Ročník: II., 2005/2006 1 Prohlašuji, že jsem

Více

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Př. : Stanovte jednotlivé četnosti a číselné charakteristiky zadaného statistického souboru a nakreslete krabicový graf:, 8, 7, 43, 9, 47, 4, 34, 34, 4, 35. Statistický soubor seřadíme vzestupně podle

Více

2. Bodové a intervalové rozložení četností

2. Bodové a intervalové rozložení četností . Bodové a intervalové rozložení četností (Jak získat informace z datového souboru?) Po prostudování této kapitoly budete umět: konstruovat diagramy znázorňující rozložení četností vytvářet tabulky četností

Více

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady Předmět: Náplň: Třída: Počet hodin: Pomůcky: Matematika Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady 4. ročník 3 hodiny týdně PC a dataprojektor Kombinatorika Řeší jednoduché úlohy

Více

Deskriptivní statistika (kategorizované proměnné)

Deskriptivní statistika (kategorizované proměnné) Deskriptivní statistika (kategorizované proměnné) Nejprve malé opakování: - Deskriptivní statistika se zabývá popisem dat, jejich sumarizaci a prezentací. - Kategorizované proměnné jsou všechny proměnné,

Více

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy Popisná statistika úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy Úvod užívá se k popisu základních vlastností dat poskytuje jednoduché shrnutí hodnot proměnných

Více

Statistika - charakteristiky variability

Statistika - charakteristiky variability Škola: Gymnázium, Brno, Slovanské náměstí 7 Šablona: III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Název projektu: Inovace výuky na GSN prostřednictvím ICT Číslo projektu: CZ.1.07/1.5.00/34.0940

Více

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy: Úloha č. 1 - Kvantily a typická hodnota (bodově tříděná data): Určete typickou hodnotu, 40% a 80% kvantil. Tabulka hodnot: Varianta Četnost 0 4 1 14 2 17 3 37 4 20 5 14 6 7 7 11 8 20 Typická hodnota je

Více

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření Jan Krystek 9. května 2019 CHYBY A NEJISTOTY MĚŘENÍ Každé měření je zatíženo určitou nepřesností způsobenou nejrůznějšími negativními vlivy,

Více

Úvod do kurzu. Moodle kurz. (a) https://dl1.cuni.cz/course/view.php?id=2022 (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Úvod do kurzu. Moodle kurz. (a) https://dl1.cuni.cz/course/view.php?id=2022 (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost Úvod do kurzu Moodle kurz (a) https://dl1.cuni.cz/course/view.php?id=2022 (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost Výpočty online: www.statisticsonweb.tf.czu.cz Začátek výuky posunut

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis nekategorizovaných dat Co se dozvíte v tomto modulu? Kdy používat modus, průměr a medián. Co je to směrodatná odchylka. Jak popsat distribuci

Více

Statistika. zpracování statistického souboru

Statistika. zpracování statistického souboru Statistika zpracování statistického souboru statistický soubor zkoumaná skupina znaky zkoumané informace 1 vyjádřen číslem a jednotkou = kvantitativní znak 2 není = kvalitativní znak statistická jednotka

Více

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Výsledky některých náhodných pokusů jsou přímo vyjádřeny číselně (např. při hodu kostkou padne 6). Náhodnou veličinou

Více

MATEMATIKA III V PŘÍKLADECH

MATEMATIKA III V PŘÍKLADECH VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ MATEMATIKA III V PŘÍKLADECH Cvičení 8 Statistický soubor s jedním argumentem Mgr. Petr Otipka Ostrava 2013 Mgr. Petr Otipka Vysoká škola

Více

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

Obecné momenty prosté tvary

Obecné momenty prosté tvary Obecné momenty prosté tvary První obecný moment: (Σy i )/n, i=1 n aritmetický průměr, těžiště dat y Druhý obecný moment: (Σy i2 )/n, i=1 n y 2 Obecné momenty prosté tvary Příklad 1 pokračování: y = (3+4+2+3+2+3+3+3)/8

Více

Základy statistiky pro obor Kadeřník

Základy statistiky pro obor Kadeřník Variace 1 Základy statistiky pro obor Kadeřník Autor: Mgr. Jaromír JUŘEK Kopírování a jakékoliv další využití výukového materiálu je povoleno pouze s uvedením odkazu na www.jarjurek.cz 1. Aritmetický průměr

Více

Jevy a náhodná veličina

Jevy a náhodná veličina Jevy a náhodná veličina Výsledky některých jevů jsou vyjádřeny číselně -na hrací kostce padne číslo 1, 4, 6.., jiným jevům můžeme čísla přiřadit (stupeň školního vzdělání: ZŠ, SŠ, VŠ) Data jsme rozdělili

Více

Nejčastější chyby v explorační analýze

Nejčastější chyby v explorační analýze Nejčastější chyby v explorační analýze Obecně doporučuju přečíst přednášku 5: Výběrová šetření, Exploratorní analýza http://homel.vsb.cz/~lit40/sta1/materialy/io.pptx Použití nesprávných charakteristik

Více

Aplikovaná statistika v R

Aplikovaná statistika v R Aplikovaná statistika v R Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 15.5.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 15.5.2014 1 / 15 Co bude náplní našich

Více

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY SAMOSTATÁ STUDETSKÁ PRÁCE ZE STATISTIKY Váha studentů Kučerová Eliška, Pazdeříková Jana septima červen 005 Zadání: My dvě studentky jsme si vylosovaly zjistit statistickým šetřením v celém ročníku septim

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul V: Nekategorizovaná data Metodologie pro ISK 2, jaro 2014. Ladislava Z. Suchá Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním

Více

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU vyučující doc. RNDr. Jiří Zháněl, Dr. M I 4 Metodologie I 7. ANALÝZA DAT (KVANTITATIVNÍ VÝZKUM) (MATEMATICKÁ) STATISTIKA DESKRIPTIVNÍ (popisná) ANALYTICKÁ

Více

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava ŠKOMAM 2016 Jak získat data? Primární zdroje dat Vlastní měření (fyzika, biologie,

Více

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení? Otázky k měření centrální tendence 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení? 2. Určete průměr, medián a modus u prvních čtyř rozložení (sad dat): a.

Více

Protokol č. 1. Tloušťková struktura. Zadání:

Protokol č. 1. Tloušťková struktura. Zadání: Protokol č. 1 Tloušťková struktura Zadání: Pro zadané výčetní tloušťky (v cm) vypočítejte statistické charakteristiky a slovně interpretujte základní statistické vlastnosti tohoto souboru tloušťek. Dále

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky V této kapitole se seznámíme se základy popisné statistiky, představíme si základní pojmy a budeme si je ilustrovat na praktických příkladech. Kapitola je psána formou volného

Více

M - Příprava na 3. čtvrtletní písemnou práci

M - Příprava na 3. čtvrtletní písemnou práci M - Příprava na 3. čtvrtletní písemnou práci Určeno pro třídu ODK VARIACE 1 Tento dokument byl kompletně vytvořen, sestaven a vytištěn v programu dosystem - EduBase. Více informací o programu naleznete

Více

Statistika. pro žáky 8. ročníku. úterý, 26. března 13

Statistika. pro žáky 8. ročníku. úterý, 26. března 13 Statistika pro žáky 8. ročníku Co je to statistika? Statistika je věda, která se snaží zkoumat reálná data a přibližuje nám zkoumaný jev a zákonitosti s ním spojené. Co nám statistika přináší? Co nám statistika

Více

0.1 Úvod do lineární algebry

0.1 Úvod do lineární algebry Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Lineární rovnice o 2 neznámých Definice 011 Lineární rovnice o dvou neznámých x, y je rovnice, která může být vyjádřena ve tvaru ax + by = c, kde

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

MATEMATIKA. Statistika

MATEMATIKA. Statistika MATEMATIKA Statistika Během těchto vyučovacích hodin změří žáci pomocí senzorů Pasco svoji klidovou tepovou frekvenci a tepovou frekvenci po námaze. Získané výsledky budou v další hodině zpracovávat do

Více

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech. 3 Grafické zpracování dat Grafické znázorňování je velmi účinný způsob, jak prezentovat statistické údaje. Grafy nejsou tak přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých

Více

marek.pomp@vsb.cz http://homel.vsb.cz/~pom68

marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Statistika B (151-0303) Marek Pomp ZS 2014 marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Cvičení: Pavlína Kuráňová & Marek Pomp Podmínky pro úspěšné ukončení zápočet 45 bodů, min. 23 bodů, dvě zápočtové

Více

Pythagorova věta Pythagorova věta slovní úlohy

Pythagorova věta Pythagorova věta slovní úlohy Vyučovací předmět: Matematika Ročník: 8. Vzdělávací obsah Očekávané výstupy z RVP ZV Školní výstupy Učivo provádí početní operace v oboru celých a racionálních čísel, užívá ve výpočtech druhou mocninu

Více

Pythagorova věta Pythagorova věta slovní úlohy. Mocniny s přirozeným mocnitelem mocniny s přirozeným mocnitelem operace s mocninami

Pythagorova věta Pythagorova věta slovní úlohy. Mocniny s přirozeným mocnitelem mocniny s přirozeným mocnitelem operace s mocninami Vyučovací předmět: Matematika Ročník: 8. Vzdělávací obsah Očekávané výstupy z RVP ZV Školní výstupy Učivo užívá různé způsoby kvantitativního vyjádření vztahu celek část (procentem) řeší aplikační úlohy

Více

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013 Cvičení ze statistiky Filip Děchtěrenko ZS 2012/2013 Cvičení ze statistiky Pondělí 16:40, C328 http://www.ms.mff.cuni.cz/~dechf7am Praktické zaměření Proč potřebuji statistiku, když chci dělat (doplň)?

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

UKAZATELÉ VARIABILITY

UKAZATELÉ VARIABILITY UKAZATELÉ VARIABILITY VÝZNAM Porovnejte známky dvou studentek ze stejného předmětu: Studentka A: Studentka B: Oba soubory mají stejný rozsah hodnoty, ale liší se známky studentky A jsou vyrovnanější, jsou

Více

KOMPLEXNÍ ČÍSLA INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ

KOMPLEXNÍ ČÍSLA INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ KOMPLEXNÍ ČÍSLA Gymnázium Jiřího Wolkera v Prostějově Výukové materiály z matematiky pro vyšší gymnázia Autoři projektu Student na prahu 21. století - využití ICT ve vyučování matematiky na gymnáziu INVESTICE

Více

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL Matematika a stejně i matematická statistika a biometrie s námi hovoří řečí čísel. Musíme tedy vlastnosti nebo intenzitu vlastností jedinců změřit kvantifikovat. Měřením

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1 Náhodná proměnná Náhodná proměnná může mít rozdělení diskrétní (x 1, x 2,,x n ) spojité () Poznámky: 1. Fyzikální veličiny jsou zpravidla spojité, ale změřené hodnoty jsou diskrétní. 2. Pokud

Více

1. Několik základních pojmů ze středoškolské matematiky. Na začátku si připomeneme následující pojmy:

1. Několik základních pojmů ze středoškolské matematiky. Na začátku si připomeneme následující pojmy: Opakování středoškolské matematiky Slovo úvodem: Tato pomůcka je určena zejména těm studentům presenčního i kombinovaného studia na VŠFS, kteří na středních školách neprošli dostatečnou průpravou z matematiky

Více