Matematická statistika

Podobné dokumenty
KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Statistika pro geografy

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Pan Novák si vždy kupuje boty o velikosti 8,5 a každý den stráví

Regresní a korelační analýza

Statistika - charakteristiky variability

Číselné charakteristiky a jejich výpočet

Popisná statistika. Statistika pro sociology

MINISTERSTVO ŠKOLSTVÍ, MLÁDEŽE A TĚLOVÝCHOVY. Učební osnova předmětu MATEMATIKA. pro studijní obory SOŠ a SOU (13 15 hodin týdně celkem)

Distribuční funkce je funkcí neklesající, tj. pro všechna

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Renáta Bednárová STATISTIKA PRO EKONOMY

Přednáška 5. Výběrová šetření, Exploratorní analýza

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

KOMPLEXNÍ ČÍSLA INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Základní statistické charakteristiky

Dodatek č. 3 ke školnímu vzdělávacímu programu. Strojírenství. (platné znění k )

Matice se v některých publikacích uvádějí v hranatých závorkách, v jiných v kulatých závorkách. My se budeme držet zápisu s kulatými závorkami.

Popisná statistika kvantitativní veličiny

Základy popisné statistiky

KGG/STG Statistika pro geografy

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Statistika. Počet přestupků počet odebraných bodů za jeden přestupek. Statistický soubor 1

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

P ř e d m ě t : M A T E M A T I K A

Kód uchazeče ID:... Varianta: 14

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

STATISTICKÉ CHARAKTERISTIKY

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

TEMATICKÝ PLÁN VÝUKY

Metodologie pro ISK II

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

VŠB Technická univerzita Ostrava

(Auto)korelační funkce Statistické vyhodnocování exp. dat M. Čada ~ cada

23. Matematická statistika

Pythagorova věta Pythagorova věta slovní úlohy. Mocniny s přirozeným mocnitelem mocniny s přirozeným mocnitelem operace s mocninami

Analýza dat na PC I.

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

Funkce a vzorce v Excelu

MATEMATIKA Charakteristika vyučovacího předmětu 2. stupeň

Pravděpodobnost a statistika

VZDĚLÁVACÍ OBLAST: MATEMATIKA A JEJÍ APLIKACE VZDĚLÁVACÍ OBOR: MATEMATIKA A JEJÍ APLIKACE PŘEDMĚT: MATEMATIKA 8

4EK211 Základy ekonometrie

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE

Pythagorova věta Pythagorova věta slovní úlohy

Mendelova zemědělská a lesnická univerzita v Brně Institut celoživotního vzdělávání Fakulta regionálního rozvoje a mezinárodních studií

Protokol č. 1. Tloušťková struktura. Zadání:

Základní škola Moravský Beroun, okres Olomouc

Pravděpodobnost a matematická statistika

4ST201 STATISTIKA CVIČENÍ Č. 8

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Úloha č. 1 Rozměry fotografie jsou a = 12 cm a b = 9 cm. Fotografii zvětšíme v poměru 5 : 3. Určete rozměry zvětšené fotografie.

Zápočtová práce STATISTIKA I

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Pracovní list č. 3 Charakteristiky variability

UKAZATELÉ VARIABILITY

Adriana Vacíková. Adriana Vacíková. Adriana Vacíková. Adriana Vacíková. Adriana Vacíková. Adriana Vacíková. Adriana Vacíková

Požadavky na konkrétní dovednosti a znalosti z jednotlivých tematických celků

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Algebraické výrazy - řešené úlohy

Prognóza poruchovosti vodovodních řadů pomocí aplikace Poissonova rozdělení náhodné veličiny

4.3.8 Vzorce pro součet goniometrických funkcí. π π. π π π π. π π. π π. Předpoklady: 4306

MATEMATIKA Maturitní témata společná část MZ základní úroveň (vychází z Katalogu požadavků MŠMT)

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

22. Pravděpodobnost a statistika

Trojčlenka přímá úměra. Trojčlenka přímá úměra. Trojčlenka nepřímá úměra. Trojčlenka nepřímá úměra. Matematická vsuvka I.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy statistiky pro obor Kadeřník

Drsná matematika IV 7. přednáška Jak na statistiku?

A0M15EZS Elektrické zdroje a soustavy ZS 2011/2012 cvičení 1. Jednotková matice na hlavní diagonále jsou jedničky, všude jinde nuly

Učební plán 4. letého studia předmětu matematiky. Učební plán 6. letého studia předmětu matematiky

Finanční. matematika pro každého. f inance. 8. rozšířené vydání. věcné a matematické vysvětlení základních finančních pojmů

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Gymnázium Jiřího Ortena, Kutná Hora

MATEMATIKA 1 4 A B C D. didaktický test. Zadání neotvírejte, počkejte na pokyn! Krok za krokem k nové maturitě Maturita nanečisto 2006

Zlatý řez nejen v matematice

Skalár- veličina určená jedním číselným údajem čas, hmotnost (porovnej životní úroveň, hospodaření firmy, naše poloha podle GPS )

Ten objekt (veličina), který se může svobodně měnit se nazývá nezávislý.

Kvadratická rovnice. - koeficienty a, b, c jsou libovolná reálná čísla, a se nesmí rovnat 0

Požadavky k opravným zkouškám z matematiky školní rok

VŠB Technická univerzita Ostrava BIOSTATISTIKA

1.3. Cíle vzdělávání v oblasti citů, postojů, hodnot a preferencí

8. ročník - školní kolo

VYSOK A ˇ SKOLA POLYTECHNICK A JIHLAVA Katedra matematiky Statistick a anal yza a ˇ casov e ˇ rady v pˇ r ıkladech Stanislava Dvoˇ r akov a 2015

Jak pracovat s absolutními hodnotami

Základní statistické pojmy

Minimální hodnota. Tabulka 11

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Teoretická rozdělení

Přijímačky nanečisto

Matematické modelování dopravního proudu

SYLABUS PŘEDNÁŠKY 6a Z INŽENÝRSKÉ GEODÉZIE (Polohové vytyčovací sítě) 4. ročník bakalářského studia studijní program G studijní obor G

Základy popisné statistiky

Transkript:

Matematická statistika Daniel Husek Gymnázium Rožnov pod Radhoštěm, 8. A8 Dne 12. 12. 2010 v Rožnově pod Radhoštěm

Osnova Strana 1) Úvod 3 2) Historie matematické statistiky 4 3) Základní pojmy matematické statistiky 5-8 4) Grafické znázornění 9 5) Charakteristiky polohy znaku 10-15 Aritmetický průměr 10-12 Geometrický průměr 13 Harmonický průměr 14 6) Charakteristiky variability znaku 16-22 Rozptyl 16-20 Směrodatná odchylka 21 Variační koeficient 22 7) Příklad 23-25 8) Závěr 26 9) Zdroje 27-2 -

Úvod Téma pro seminární práci do Semináře matematiky ve školním roce 2010/2011 jsem vybíral vzhledem k jeho užitkové hodnotě v mém budoucím studiu. Protože se chystám studovat ekonomii, za téma jsem si nakonec vybral právě statistiku. Od práce očekávám především vytvoření a osvojení si základů statistiky pro usnadnění dalšího prohlubování znalostí v dané oblasti. Práce nemá ambice vytvořit předlohu pro vysokoškolskou přednášku, ale zato se snaží o přehlednou pomůcku při zopakování středoškolské matematiky. V práci se snažím objasnit etymologii statistiky a základní statistické pojmy včetně jejich použití. Zabývám se také zjednodušováním ručních výpočtů a grafickým zobrazováním výsledků statistické analýzy. Pro vysvětlení základních pojmů statistiky používám za zdroj především učebnice Zbierka úloh z pravdepodobnosti a matematickej štatistiky od autora R. Potockého a učebnici Matematika pro gymnázia - Kombinatorika, pravděpodobnost, statistika od autorů Emila Caldy a Václava Dupače. Všechny početní příklady budu vymýšlet sám. - 3 -

Definice a historie statistiky Na úvod je třeba odlišit dva druhy statistiky, se kterými se můžeme setkat. Jedná se o statistiku popisnou a statistiku matematickou. V seminární práci se budu zabývat pouze matematickou statistikou. Hlavním rozdílem, kterým se popisná statistika odlišuje od té matematické je její funkce zajišťování a poskytování informací. Zatímco matematická statistika se zabývá zpracováváním informací a jejich vyhodnocováním. Jedná se o vědeckou disciplínu, která se zabývá studiem dat popisujících vlastnosti hromadných jevů a hodnotí hypotézy, které tato data vysvětlují. Původ pojmu statistika nalézáme v latinském slově status, které znamená stav. Původně se jednalo pouze o stav nějaké země či státu a statistikou se tedy rozuměla pouze činnost spočívající ve zjišťování tohoto stavu. Později se ale pole působnosti statistiky značně rozšířilo. Dnes tato nauka zahrnuje velmi širokou škálu kvantitativních metod umožňujících zjišťovat stav věcí a poměrů v rozličných strukturách. Kromě přírodních, společenských a hospodářských poměrů v daném státě lze zjišťovat např. hospodářské poměry v nějaké firmě, stav zásob v obchodním domě, stav vody na českých tocích nebo stav lesů v České republice apod. Metody matematické statistiky pronikly během 20. století prakticky do všech empirických vědních disciplín a dokonce i k humanitním vědám. Významný vliv mají statistické metody v některých oblastech matematické fyziky, zejména statistické fyziky. O statistické metody se opírá i moderní matematická lingvistika, demografie a ekonometrie stejně jako epidemiologie či biostatistika. Poznatky z matematické statistiky se dále propojují s informatikou a jinými obory například v robotice. - 4 -

Základní statistické pojmy Statistická analýza prvotně vyžaduje pochopení statistických pojmů. Proto nejdříve definuji ty nejzákladnější. Základním pojmem matematické statistiky je statistický soubor. Jedná se o konečnou neprázdnou množinu prvků (předmětů nebo jednotek), které mají z daného hlediska určité společné vlastnosti. Počet všech prvků statistického souboru se nazývá rozsah souboru a označujeme ho písmenem n. Prvky statistického souboru poté označujeme jako statistické jednotky. Na těchto prvcích souboru sledujeme různé znaky, tedy společné vlastnosti statistických jednotek, které značíme jako x. Rozlišujeme kvalitativní znak, například národnost, pohlaví a znak kvantitativní - hmotnost, délka, věk. Hodnoty znaku, tedy jednotlivé údaje znaku, značíme x 1, x 2,, x n. Pokud jsou některé hodnoty znaku x 1, x 2,..., x n shodné, má význam je napsat do tabulky četností. Kde n j (n 1, n 2,..., n k ) značí četnost hodnot znaků x j (x 1, x 2,, x k ). x j x 1 x 2... x i... x k n j (x) n 1 n 2... n i... n k Pro absolutní četnost n j, tedy četnost celočíselně označující počet výskytu hodnoty jednotlivého znaku, platí, že součet jednotlivých absolutních četností je roven počtu všech jednotek souboru. Relativní četnost relativních četností je roven jedné. značí, jaká část souboru má určitou hodnotu znaku x i. Součet Relativní četnost se často uvádí v procentech, jehož hodnotu získáme vynásobením výsledného bezjednotkového čísla 100. Vyjde-li tedy, procentuelní hodnota bude - 5 -

Kumulativní četnost je dána částečnými součty četností. Kumulativní relativní četnost je dána podílem jednotlivých kumulativních četností a rozsahu souboru, viz tabulka č.1: Tab. 1 Hodnota znaku x x 1 x 2... x i... x k Četnost n 1 n 2... n i... n k Relativní četnost...... Kumulativní četnost Kumulativní relativní četnost n 1 n 1 + n 2... n 1 +...+ n i... n 1 + n 2 +...+ n k...... Tzv. třídní četnosti se používají, je-li rozsah statistického souboru velký a hodnoty znaku jsou sobě příliš blízké. Pro zvýšení přehlednosti lze tak hodnoty uspořádat do skupin, intervalů, které by byly charakterizovány středem intervalu. Počet těchto intervalů k by měl odpovídat rozsahu souboru. Pro stanovení ideálního počtu intervalů lze využít některé z pravidel. Jedno z nich je Sturgesovo pravidlo: Délka intervalu h je přibližně daná vzorcem: - 6 -

Příklad 1: Použití výše uvedeného principu je na místě, rozebíráme-li například následující statistické měření, kde jsou statistickým souborem obyvatelé panelového domu a zkoumaným znakem je výška obyvatel v krocích po jednom centimetru. Rozsah souboru n = 305 osob. Tab. 2 Výška 157 158 159 160 161 162 163 164 165 166 Četnost 1 2 0 3 5 4 1 7 12 14 Výška 167 168 169 170 171 172 173 174 175 176 Četnost 16 18 11 17 19 25 31 30 26 18 Výška 177 178 179 180 181 182 183 184 185 186 Četnost 15 11 8 5 3 1 1 0 0 1 V takovémto množství hodnot je velice snadné se ztratit, a tak pro zpřehlednění využijeme intervalové rozdělení. Počet skupin je podle vzorce daným Sturgesovým pravidlem: Ideální počet intervalů je tedy 9. Z toho vyplývající délka intervalu pro nejmenší hodnotu = 157 a nejvyšší = 186. - 7 -

Zde jsou vzniklé intervaly a střední hodnoty intervalů dané průměrem jeho krajních hodnot. Z důvodu zaokrouhlení mají tři z intervalů rozsah hodnot 4cm na rozdíl od ostatních, které mají ideální 3cm. Interval 157-159 160-162 163-165 166-168 169-171 172-175 176-179 180-183 184-186 Charakteristický střed intervalu 158 161 164 167 170 173,5 177,5 181,5 185 Výsledná tabulka intervalů, absolutních četností, relativních četností, kumulativních četností a kumulativních relativních četností pro dané intervaly hodnot výšek v cm vypadá takto: Tab. 3 Výška 158 161 164 167 170 173,5 177,5 181,5 185 Četnost 3 12 20 48 47 112 52 10 1 Relativní četnost Kumulativní četnost Kumulativní relativní četnost 1% 3,9% 6,6% 15,7% 15,4% 36,7% 17,1% 3.3% 0,3% 3 15 35 83 130 242 294 304 305 1% 4,9% 11,5% 27,2% 42,6% 79,3% 96,4% 99,7% 100% Z tabulky četností můžeme vyčíst, že je naprostá většina obyvatel domu je vysoká od 167 do 177,5cm. - 8 -

Grafy Některé zjištěné (resp. vypočítané) hodnoty mohou být znázorněny graficky. Každý graf vyjadřuje vzájemný vztah mezi statistickými znaky pomocí přehledných grafických symbolů (čáry, barvy nebo jejich odstíny, apod.) Ke zobrazení rozdělení četností jsou jako základní používány grafy sloupcové nebo výsečové. V prvním případě výška sloupce představuje absolutní četnost hodnoty znaku, případně jeho relativní četnost. Ve druhém případě je k dispozici kruh rozdělený na výseče v poměru, v jakém se nacházejí četnosti jednotlivých hodnot znaků. Někdy je kruh kreslen s otvorem uprostřed, pak se graf nazývá prstencový. Grafickým vyjádřením rozdělení četností v intervalech hodnot je tzv. histogram. Na rozdíl od sloupcového grafu, v němž jsou, při zobrazování četnosti hodnoty jednoho znaku, kresleny sloupce odděleně, jsou v histogramu sloupce umístěny těsně vedle sebe, aby byla znázorněna návaznost intervalů. Grafy četností hodnot statistických jednotek z příkladu 1 tedy mohou vypadat například takto: 35 Graf absolutních četností - sloupcový 30 25 20 15 10 Četnost 5 0 Graf třídních relativních četností - výsečový 17% 37% 3% 0% 1% 4% 7% 16% 15% 158cm 161cm 164cm 167cm 170cm 173,5cm 177,5cm 181,5cm 185cm - 9 -

Charakteristika polohy znaku Chceme-li zaznamenat úplnou statistickou informaci o znaku x (v našem případě výška osob) pomocí jediného čísla, použijeme tzv. charakteristiku polohy znaku. Aritmetický průměr Nejčastěji užívanou charakteristikou polohy znaku x je aritmetický průměr značený, tj. podíl součtu hodnot znaku všech jednotek souboru a rozsahu souboru. V případě, že se četnosti jednotlivých hodnot znaku liší od jedné, rovnice vypadá takto: Dosazením hodnot z tabulky č.2 do vzorce získáme aritmetický průměr Jde o jisté těžiště hodnot, což vyplývá hned z první z vlastností aritmetického průměru, které nám v mnoha situacích dokáží ulehčit jeho výpočet. - 10 -

Vlastnosti aritmetického průměru součet odchylek, tj. rozdíl hodnot x i a průměru, je roven nule. Kladné a záporné odchylky se kompenzují. Podrobíme-li hodnoty znaku x i lineární transformaci, podrobí se této transformaci i aritmetický průměr, který se mění stejným způsobem jako se mění jednotlivé hodnoty znaku. přičteme-li k jednotlivým hodnotám znaku konstantu (tj. změna o aditivní konstantu), zvýší se o tuto konstantu i aritmetický průměr: násobíme-li jednotlivé hodnoty znaku konstantou (tj. multiplikativní konstanta), je touto konstantou násoben i průměr: je-li statistický soubor tvořen k soubory o rozsazích s dílčími průměry, pak celkový průměr je: - 11 -

Příklad 2: Zjistíme-li tedy například, že byl měřící přístroj, kterým jsme prováděli zjišťování výšky osob z příkladu 1 nepřesný z důvodu chybějícího měřítka v intervalu 0-10cm, tedy měřící přístroj začínal měření nikoli od 1cm ale až od 11cm a zadavatel analýzy vyžaduje znát pouze aritmetický průměr, nemusíme měření provádět znovu. Nemusíme dokonce ani ke každé naměřené hodnotě připisovat chybějících 10 cm, ale postačí využít vlastnost aritmetického průměru hovořící o změně souboru o aditivní konstantu. Příklad 3: Pokud shledáme jednotky měřícího přístroje např. nepřesné vůči normě, tedy pro příklad 1cm na měřítku přístroje je normovaných 0,9cm, použijeme vlastnost aritmetického průměru o násobení multiplikační konstantou, která je v našem případě rovna 0,9 (= 0,9 1). Příklad 4: Máme-li zjistit průměrnou hodnotu výšek osob v celé ulici a známe průměrnou výšku osob v každém z domů, (např. 168,4cm, 172,6cm a 142,1cm) spolu s počtem obyvatel každého z domů (12, 9 a 4), není již potřeba při výpočtu celkového průměru získávat data o jednotlivých obyvatelích, použijeme totiž vzorec pracující s dílčími průměry. 165,7cm Někdy je aritmetický průměr při použití dané vlastnosti nazýván váženým průměrem, který zobecňuje aritmetický průměr a poskytuje charakteristiku statistického souboru v případě, že hodnoty v tomto souboru mají např. různou důležitost, různou váhu. V matematické statistice se setkáváme i s jinými průměry než je ten aritmetický. - 12 -

Geometrický průměr Geometrický průměr z kladných hodnot znaku je definován jako n-tá odmocnina ze součinu hodnot znaku. Používá se při průměrování růstových, časově provázaných veličin, kdy je celková relativní změna dané veličiny v čase dána jako součin jejich dílčích změn sledovaného intervalu. Setkáme se s ním například v analýze hospodářského růstu země nebo výrobní produkce společnosti v závislosti na letech. Příklad 5: Vypočtěte průměrný koeficient růstu produkce jednoho podniku za celý rok, jestliže v jednotlivých čtvrtletích byl koeficient růstu následující: 0,98 1,02 1,12 1,05 Výsledkem je bezrozměrné číslo, které nazýváme koeficientem růstu, může nabývat všech nezáporných hodnot. - 13 -

Harmonický průměr Harmonický průměr z nenulových hodnot statistického souboru je definován jako podíl rozsahu souboru a součtu převrácených hodnot znaků. Slouží k průměrování poměrných čísel, vahou je veličina z čitatele zlomku. Používá se tedy např. při výpočtu průměrné rychlosti dosažené na úsecích o různé délce. Používá se, jsou-li hodnoty znaku nerovnoměrně rozloženy kolem aritmetického průměru, nebo když jsou hodnoty extrémně nízké či vysoké. Pro různé četnosti hodnot znaku upravíme vzorec na: Příklad 6: Z definice harmonický průměr použijeme například při výpočtu průměrné rychlosti autobusu, který jede: 2 km rychlostí 55 km/hod 3 km rychlostí 65 km/hod 1 km rychlostí 80 km/hod - 14 -

Modus Modus je označení hodnoty znaku s největší, tzv. maximální četností x m. V našem příkladu č. 1 nabývá podle tabulky č. 2 maximální četnosti hodnota 173cm, tj. modus 173cm. Získali jsme tedy pouze jeden modus, ve zvláštních případech jich může být až počet odpovídající rozsahu souboru n. Medián Medián je prostřední hodnota znaku, jsou-li hodnoty x 1, x 2,, x n uspořádány podle velikosti, tj.: Potom tedy, je-li n liché, platí: Je-li n sudé, platí: V příkladu č. 1 má statistický soubor rozsah 305 znaků, jde tedy o liché číslo. Pro stanovení Mediánu použijeme příslušný vzorec. Medián je tedy hodnota, které nabývá 153. člen souboru seřazeného od nejmenšího po největší. Medián Medián je vhodné stanovit za střední hodnotu místo aritmetického průměru v tom případě, když jsou hodnoty souboru výrazně odlišné. Například zjišťujeme-li průměrnou výši měsíčního platu ve vedení společnosti, kde generální ředitel je ohodnocen několikanásobně vyšším platem ve srovnání se všemi ostatními, kteří naopak vůči sobě dostávají platy podobné. - 15 -

Charakteristiky variability Za předpokladu, že charakteristiku polohy chápeme jako číselnou hodnotu, okolo které hodnoty znaku kolísají, pak velikost tohoto kolísání vyjadřují právě charakteristiky variability. Je-li charakteristikou polohy aritmetický průměr, za charakteristiku variability zpravidla volíme rozptyl. Rozptyl Rozptyl, někdy nazýván též variance, se značí resp. var X. Je definovaný jako průměr druhých mocnin odchylek od aritmetického průměru. Proto někdy hovoříme o rozptylu jako o charakteristice měřítka. Vzorec pro něj zní: Při uspořádání údajů do tabulky rozdělení četností používáme váženou formu rozptylu: Pro ruční počítání používáme spíše tvar, který získáme provedením naznačeného umocnění dvojčlenu: Resp. při počítání s četnostmi: - 16 -

Příklad 7: Využitím upraveného vzorce pro ruční výpočet rozptylu vypočítáme rozptyl z hodnot v příkladu č. 1. Vlastnosti rozptylu Při výpočtu rozptylu využíváme jeho následující vlastnosti: je vždy nezáporný je-li vypočítán z konstantních hodnot znaku, pak je roven 0 přičteme-li k jednotlivým hodnotám znaku konstantu (tj. změna o aditivní konstantu), rozptyl se nezmění: násobíme-li jednotlivé hodnoty znaku konstantou (tj. multiplikativní konstanta), pak je rozptyl násoben čtvercem této konstanty: Známe-li rozptyly dílčích souborů s dílčími průměry a rozsahy, celkový rozptyl je součtem dvou složek popisujících variabilitu uvnitř dílčích souborů a mezi dílčími soubory. velikosti variability uvnitř souborů je vnitroskupinová variabilita, velikosti variability dílčích souborů kolem společného průměru je rovna meziskupinové variabilitě - 17 -

Platí tedy: Příklad 8: Jak se změní rozptyl ze zadaných hodnot v příkladu č. 1, přičteme-li ke všem hodnotám jednotek statistického souboru hodnotu 10 obdobně jako u příkladu č. 2, tedy navýšíme-li všem měřeným osobám výšku o 10cm? Zadání vypočítám obecně, abych dokázal vlastnost rozptylu při změně hodnot, které jej definují, o tzv. aditivní konstantu. Po umocnění se hodnoty a navzájem vyruší a získáme základní vzorec pro výpočet rozptylu. Přičtení libovolné hodnoty k hodnotám jednotek souboru se tedy na hodnotě rozptylu neodrazí a jeho hodnota zůstane rovna - 18 -

Příklad 9: Jak se změní rozptyl ze zadaných hodnot v příkladu č. 1, vynásobíme-li všechny hodnoty jednotek statistického souboru hodnotou 0,9 obdobně jako u příkladu č. 3, tedy vynásobíme-li všechny výšky měřených osob hodnotou 0,9? Zvolím stejný postup jako u předešlého příkladu, tedy dokážu vlastnost rozptylu hovořící o změně o tzv. multiplikativní konstantu. Po vynásobení všech členů statistického souboru hodnotou k se tedy změní hodnota rozptylu vynásobením o k 2. Výsledný rozptyl se bude tedy rovnat k 2 násobku původního rozptylu : - 19 -

Příklad 11: Jsou dány dva statistické soubory, první o rozsahu n 1 =120, aritmetickém průměru = 124,7 a rozptylu = 45,6 a druhá o rozsahu n 2 = 95, průměru = 65,7 a rozptylu =164,2. Vypočítejte společný rozptyl obou souborů. K vyřešení příkladu použiji znalost vlastnosti o dílčích rozptylech. Základem je výpočet vnitroskupinové variability a meziskupinové variability. Výsledný rozptyl, který označím s 2, je dán součtem obou variabilit. Nejdříve vypočítáme vnitroskupinovou variabilitu. Jde o vážený aritmetický průměr dílčích rozptylů a popisuje variabilitu uvnitř dílčích souborů. Je rovna: Pro výpočet meziskupinové variability potřebujeme prvotně stanovit celkový aritmetický průměr statistických souborů, který zjistíme pomocí probrané znalosti o váženém průměru. Ten použijeme z důvodu rozdílného rozsahu souborů, a tedy i rozdílných vah. Meziskupinová variabilita je rozptylem dílčích průměrů kolem celkového průměru a popisuje variabilitu mezi aritmetickými průměry dílčích souborů: Celkový rozptyl dvou statistických souborů je tedy roven hodnotě 106,20. - 20 -

Směrodatná odchylka Směrodatná odchylka je druhou odmocninou z rozptylu: Na rozdíl od rozptylu má směrodatná odchylka tu výhodu, že charakterizuje variabilitu znaku ve stejných jednotkách měření jako jsou udány hodnoty znaku, zatímco rozptyl je vyjádřen v druhých mocninách těchto jednotek. Chceme-li charakterizovat variabilitu znaku bezrozměrným číslem, použijeme variační koeficient. Příklad 8: Vypočítejte směrodatnou odchylku ze zadaných hodnot příkladu č. 1. Pokud známe rozptyl hodnot z příkladu č. 1, směrodatnou odchylku získáme odmocněním tohoto rozptylu. Platí tedy: - 21 -

Variační koeficient Variační koeficient je podílem směrodatné odchylky a aritmetického průměru: Jedná se tedy o relativní míru variability. Má smysl tehdy, nabývá-li znak pouze nezáporných hodnot. Výsledek uvádíme v procentech. Příklad 9: Určete směrodatnou odchylku ze zadání příkladu č. 1 a vyjádřete ji v procentech. Variační koeficient je užitečnou mírou relativního rozptýlení dat, často se používá při statistické kontrole kvality laboratorních testů - 22 -

Příklad 10: Mějme statistický soubor středoškolské třídy o rozsahu 24 studentů. Podle následující tabulky statisticky zpracujte kvantitativní znak vzdálenost bydliště studentů od školní budovy, který je uveden v kilometrech. Zpracujte s přesností na stovky metrů. Martina Michaela Kateřina Ondřej Mirek Dan Josef Bára Josefína Marek Tomáš Iveta 0,5 2,4 6 1,2 0,9 0,9 3,5 8,1 19,4 2,4 0,9 1,1 Klára Aneta Magdaléna Jitka Petra Petr Kristýna Otakar Štěpán Jakub Hynek Jan 0,2 2,7 0,9 14,4 32,8 3,4 2,2 7 4,1 4,2 3,9 0,2 Nejdříve ze všeho si seřadím hodnoty znaku od nejmenší po největší. Získám tabulku: Jan Klára Martina Magdaléna Mirek Tomáš Dan Iveta Ondřej Kristýna Michaela Marek 0,2 0,2 0,5 0,9 0,9 0,9 0,9 1,1 1,2 2,2 2,4 2,4 Aneta Petr Josef Hynek Štěpán Jakub Kateřina Otakar Bára Jitka Josefína Petra 2,7 3,4 3,5 3,9 4,1 4,2 6 7 8,1 14,4 19,4 32,8 Kdybychom chtěli hodnoty rozdělit do počtu skupin daným Sturgesovým pravidlem, vznikne nám 6 skupin o přibližné délce intervalu skupiny: Protože by nám ale vznikla jak 1 skupina s vysokým počtem obsažených znaků, tak i skupiny prázdné, použití Sturgesova pravidla by správně nevystihlo regresi počtu docházejících studentů s narůstajícími kilometry. - 23 -

Z tohoto důvodu pro rozdělení souboru do tříd použijeme jiné pravidlo, kde počet tříd k se stanoví podle přibližného vzorce, kde ( představuje člen o nejvyšší a o nejnižší hodnotě) a délka intervalu d je rovna od 0,08R do 0,12R. Získáme tak 11 tříd o délce intervalu d=3. Vzdálenost Méně než 3 3 až 6km 6 až 9km 9 až 12km 12 až 15km 15 až 18km 18 až 21km 21 až 24km 25 až 27km 27 až 30km Více než 30 Četnost 13 5 3 0 1 0 1 0 0 0 1 14 12 10 8 6 4 2 0 Graf četnosti studentů v závislosti na jejich vzdálenosti bydliště od školy Z grafu lze vyčíst, že naprostá většina studentů bydlí ve vzdálenosti do 6km od školy a může tedy docházet pěšky a šetřit životní prostředí. Průměrná hodnota vzdáleností je dána aritmetickým průměrem hodnot, tedy: Modus je zde roven 0,9 km a Median = 2,55 km. - 24 -

Rozptyl Směrodatná odchylka Variační koeficient Tak vysoký variační koeficient poukazuje na nesourodost statistického souboru, která je zřetelná již z grafu třídních četností a rozdílu mezi aritmetickým průměrem a mediánem. Znamená to tedy, že se některá hodnota enormně vychyluje z hodnot běžných nebo je statistický soubor příliš malý. - 25 -

Závěr S výběrem tématu seminární práce jsem spokojen. Mohu říct, že splnila svůj předpoklad a já si osvojil použití statistických pojmů a poznal jejich vzájemnou souvislost. Vybrané zdroje hodnotím pro mé účely jako zcela vhodné. Nejsou příliš složité na pochopení a navzájem se doplňují. Kdybych psal práci znovu, nezměnil bych asi nic jiného než samotné příklady, které bych se snažil čerpat z učebnic, abych měl kontrolu nad jejich výsledky. Nejtěžší na práci totiž bylo nekonečné přepočítávání výsledků a kontrola chyb. Věřím, že v práci žádné nezůstaly a doufám, že práce najde své využití. - 26 -

Zdroje Primární zdroje: Stephen M. Stigler - The history of statistics: the measurement of uncertainty before 1900 R. Potocký a kolektiv Zbierka úloh z pravdepodobnosti a matematickej štatistiky Karel Zvára a Josef Štěpán Pravděpodobnost a matematická statistika Emil Calda a Václav Dupač Matematika pro gymnázia - Kombinatorika, pravděpodobnost, statistika Hana Řezanková, Luboš Marek, Michal Vrabec - Interaktivní učebnice statistiky Sekundární zdroje: http://cs.wikipedia.org/wiki/četnost Jaroslav Michálek Pravděpodobnost a statistika - 27 -