9. Základní statistické pojmy.

Podobné dokumenty
11. Popisná statistika

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Mendelova univerzita v Brně Statistika projekt

Doc. Ing. Dagmar Blatná, CSc.

4.2 Elementární statistické zpracování Rozdělení četností

4. Základní statistické pojmy.

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

a další charakteristikou je četnost výběrového souboru n.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

Metody zkoumání závislosti numerických proměnných

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Deskriptivní statistika 1

S1P Popisná statistika. Popisná statistika. Libor Žák

Úvod do korelační a regresní analýzy

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

1 Popis statistických dat. 1.1 Popis nominálních a ordinálních znaků

[ jednotky ] Chyby měření

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

11. Časové řady Pojem a klasifikace časových řad

VY_52_INOVACE_J 05 01

Chyby přímých měření. Úvod

12. N á h o d n ý v ý b ě r

SOUKROMÁ VYSOKÁ ŠKOLA EKONOMICKÁ ZNOJMO. Statistika I. distanční studijní opora. Milan Křápek

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

14. Korelace Teoretické základy korelace Způsoby měření závislostí pro různé typy dat

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

ZÁKLADY PRAVDĚPODOBNOSTI A STATISTIKY

Odhady parametrů 1. Odhady parametrů

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

P2: Statistické zpracování dat

, jsou naměřené a vypočtené hodnoty závisle

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

jsou varianty znaku) b) při intervalovém třídění (hodnoty x

Generování dvojrozměrných rozdělení pomocí copulí

12. Neparametrické hypotézy

BIVŠ. Pravděpodobnost a statistika

1 EXPLORATORNÍ ANALÝZA PROMĚNNÝCH. Čas ke studiu kapitoly: 120 minut. Cíl: Po prostudování této kapitoly budete umět použít

13 Popisná statistika

Spolehlivost a diagnostika

APLIKOVANÁ STATISTIKA

Úvod do teorie měření

Testování statistických hypotéz

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

Přednáška č. 2 náhodné veličiny

Náhodné jevy, jevové pole, pravděpodobnost

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

P1: Úvod do experimentálních metod

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

1. Základy měření neelektrických veličin

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

Univerzita Karlova v Praze Pedagogická fakulta

8. Zákony velkých čísel

Statistické charakteristiky (míry)

1.1 Definice a základní pojmy

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

9. Měření závislostí ve statistice Pevná a volná závislost

UNIVERZITA JANA EVANGELISTY PURKYNĚ V ÚSTÍ NAD LABEM PEDAGOGICKÁ FAKULTA Katedra tělesné výchovy

Základy statistiky. Petr Kladivo

Momenty a momentové charakteristiky

1. Úvod do základních pojmů teorie pravděpodobnosti

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Statistika - vícerozměrné metody

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

6. P o p i s n á s t a t i s t i k a

Pravděpodobnost a aplikovaná statistika

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

LABORATORNÍ CVIČENÍ Z FYZIKY. Měření objemu tuhých těles přímou metodou

Téma 6: Indexy a diference

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

vají statistické metody v biomedicíně

Optimalizace portfolia

Elementární zpracování statistického souboru

vají statistické metody v biomedicíně Literatura Statistika v biomedicínsk nském výzkumu a ve zdravotnictví

7 LIMITNÍ VĚTY. Čas ke studiu kapitoly: 70 minut. Cíl:

STATISTICKÉ MINIMUM PRO STUDENTY BAKALÁŘSKÉHO STUDIA NA TECHNICKÝCH OBORECH BOHUMIL MINAŘÍK

Chyby měření: 1. hrubé chyby - nepozornost, omyl, únava pozorovatele... - významně převyšuje rozptyl náhodné chyby 2. systematické chyby - chybné

6. Posloupnosti a jejich limity, řady

Digitální učební materiál

2. Náhodná veličina. je konečná nebo spočetná množina;

Přednáška V. Úvod do teorie odhadu. Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs.

Lineární regrese ( ) 2

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA STAVEBNÍ KATEDRA SPECIÁLNÍ GEODÉZIE DIPLOMOVÁ PRÁCE

Náhodný výběr 1. Náhodný výběr

2. Vícekriteriální a cílové programování

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Statistická analýza dat

PRAVDĚPODOBNOST A STATISTIKA

Komplexní čísla. Definice komplexních čísel

PRAVDĚPODOBNOST A STATISTIKA

Intervalové odhady parametrů některých rozdělení.

Transkript:

9. Základí statstcké pojmy. Úvodí formace Statstka je často představováa jako pouhý sběr čísel ebo jm podobých údajů. Původí výzam toho slova skutečě souvsí se sběrem formací o státu ( z latského status stát ) počtu obyvatel, sídel, o výběru daí atd. I des exstují sttuce, které se zabývají takovýmto sběrem dat, v ČR je to Český statstcký úřad. Sbírá a zveřejňuje ěkteré formace o obcích, průmyslu, ekoomce, o demografckém rozvoj státu. Pod pojmem statstka des však mííme mohem více, statstka se v jstém slova smyslu stala jazykem pro prác s daty, pro jejch zpracováí a terpretac. Ze statstky se stala rozvutá vědecká metoda aalýzy dat, která achází šroké uplatěí v přírodích společeských vědách ve společost vůbec. Př vlastí prax uplatňujeme dva způsoby přístupu k údajům. Především je to přístup k formacím vějšího prostředí a posléze aše reflexe a tyto údaje ve formě zobecěí. Například př porováváí sledovaost televzích kaálů eoslovujeme všechy domácost, ale z pečlvě vybraých domácostí a jejch sledovaost televze číme závěry platé pro všechy domácost. Proces zobecňováí pozatků azýváme duktvím způsobem usuzováí ( dukcí ) apř. zobecěí sledovaost ve výběru a všechy domácost. Schopost přjímat ové pozatky a z ch se učt a vyvozovat závěry jsou jedím ze základích rysů ldského uvažováí. Druhým způsobem uvažováí je prcp deduktvího přístupu k údajům ( dedukce ). Př deduktvím přístupu číme závěry z obecých zákotostí. Závěry myšlekových procesů duktvího charakteru jsou ovlvěy postojem subjektu. Iduktví statstka se zabývá způsoby jak přeášet závěry takovýchto procesů, umožňuje z pozorovaých dat vytvářet obecé závěry s určeím jejch spolehlvost. Výpočty takových spolehlvostí jsou založey a pozatcích teore pravděpodobost a jsou proto objektví. Statstcký soubor a výběry Jedím ze základích pojmů, s kterým se budeme setkávat stále jsou populace ( statstcký soubor ) a výběr. Populace je moža všech prvků, které jsou předmětem daého statstckého zkoumáí. Každý z prvků je statstckou jedotkou. Prvky tvořící statstcký soubor jsou buď dáy prostě výčtem ebo mají určté společé vlastost - tzv. detfkačí zaky - umožňující určt, zda prvek do daého statstckého souboru patří ebo epatří. Idetfkačí zaky tedy statstcký soubor mohou vymezovat. Z hledska velkost je zřejmé, že větša populací bude mít koečý rozsah, ekoečý rozsah budou mít takové populace, které jsou určey zakem, který můžeme hypotetcky ekoečěkrát opakovat ( apř. měříme hmotost po pokusu, teplotu atd. ). Podle počtu sledovaých zaků je potom takováto populace jedorozměré č vícerozměrá ( sledujeme dva a více zaků apř. teplotu, tlak; komukatvost, telgec atd. ). Pro vlastí popsáí populací se používá metoda parametrů charakterstk. Jde o číselé hodoty, které jsou většou pevá čísla. Jejch hodota eí záma a je uto j zjstt č odhadou vhodým statstckým metodam. Zaky, které sledujeme v populac mají obecě buď charakter kvattatví ( lze je vyjádřt číslem apř. délka, hmotost, teplota ) a kvaltatví ( jsou většou vyjádřey textem ). Kvattatví zaky dělíme dále a spojté výsledky zkoumáí mohou abývat hodot ěkterého tervalu ( teplota, délka ) a dskrétí jestlže exstuje je koečě moho možých stavů zaku ( apř. počet dětí v rodě, počet vykvetlých rostl atd. ).

K vlastímu měřeí kvattatvích údajů používáme buď tervalových ebo poměrových stupc. Jestlže chceme zjstt je rozdíl mez kvaltatvím hodotam, používáme tervalovou stupc ( v takovýchto stupcích je počátek vole apř. 0 C, stupce výšky tóu, stupce bolest atd. ). Př takovémto způsobu měřeí je většou esmyslé ozačeí prvek a má hodotu zaku x větší ež prvek b, eboť počátek je možo volt růzě ( apř. teplota ). Pokud chceme měřt údaje ve vztahu k pevým jedotkám ( váha, vzdáleost ) používáme stupc poměrovou. Kvaltatví zaky se sažíme také měřt, používáme k tomu omálí ( pojem ) a ordálí ( pořadí ) stupc. Nomálí stupce je složea z ejméě dvou avzájem se vylučujících tříd. Jestlže jsou třídy právě dvě azývá se dchotomcká. Příklady takovéto stupce: pohlaví / mužské, žeské /; barva / modrá, zeleá, červeá, bílá /. Příkladem takovéto klasfkace je také. mezárodí stupce emocí, úrazů a příč smrt. Čísla, která jsou přřazea jedotlvým chorobám c evypovídají o daé chorobě. Ordálí stupce je založea opět a eslučtelých třídách, ale ty jsou ještě avzájem uspořádáy. Příklady takovýchto stupc: ejvyšší úroveň vzděláí / egramotý, základí, středí, vysokoškolské / ; srozumtelost / žádá, malá, středí, uspokojvá, vykající/. V tabulkách 9. a 9. íže jsou uvedey způsoby použtí jedotlvých stupc. Tabulka 9. Typ stupce Použtí pro data Přípusté změy Charakterstky rozděleí Nomálí stupce Jsme schop rozhodout o rozdílu mez jedotlvým prvky populace a o jejch zařazeí do tříd Permutace, přejmeováí Absolutí četost, relatví četost, modus Ordálí stupce Navíc: Umíme určt, který prvek je meší a který větší a zařadt je do správých tříd Možo změt pomocí mootóí trasformace ( rostoucí ) Dále: Kumulatví četost, pořadí, kvatly, medá, pořadové hodoty Itervalová stupce Navíc: Umíme staovt relatví ulový bod ( počátek ) a zjstt vztah prvků vůč ěmu ( rozdíly!) Leárí změa - posuutí a zmešeí ebo zvětšeí ( y = a x + b ) Dále: Artmetcký průměr, směrodatá odchylka, škmost, špčatost Poměrová stupce Navíc: Umíme staovt absolutí ulový bod ( počátek ) a zjstt vztah prvků vůč ěmu ( podíly!) Změa je zvětšeí ebo zmešeí ( kladé ) tj. y = a x ( a > 0 ) Dále: Ostatí průměry ( harmocký, geometrcký ), varačí koefcet Tabulka 9. Typ stupce Testy Závslost, ezávslost Nomálí stupce c - testy Kotgečí koefcety, čtyřpolíčkový koefcet Ordálí stupce Dále: Pořadové testy, Kolmogor - Smrův test, U - test Pořadový korelačí koefcet Itervalová stupce Dále: Parametrcké testy odvozeé Korelačí koefcet, bserálí z N(0,) koefcety Poměrová stupce Stejě jako výše Stejě jako výše Pro vyšetřeí populace používáme růzý způsob přístupu k datům : Provádíme buď statstcký pokus, statstcké šetřeí ebo pozorovací stud. Účelem statstckého pokusu je pláovtě mět faktory ( podmíky ) a sledovat jejch vlv a změu vyšetřovaých zaků. Výběr prvků s mž expermetujme provádíme

zásadě áhodě, aby edošlo k vychýleí výsledých hodot. Př tzv. kotrolovaém pokusu rozdělíme vyšetřovaé skupy a pokusé a kotrolí. U pokusé skupy byla provedey změa, u kotrolí kol. Aby byl pokus dostatečě objektví, je uto, aby obě skupy byly rovoceé jak a začátku pokusu, tak v jeho průběhu. Chceme l zabrát příosu subjektví formací volíme často prcp tzv. slepého pokusu, aby te kdo údaje vyhodocuje ( apř. lékař ) evěděl, která skupa je kotrolí a která je pokusá. Jestlže a vyšetřovaý subjekt eví zda je v pokusé ebo kotrolí skupě azýváme teto prcp dvojté utajeí ebo dvojtý slepý pokus. Je vdět, že prcp áhodého výběru a rozděleí a pokusou a kotrolí skupu zlepšuje výsledky ( odstraňujeme eobjektvtu a závslost ). Někdy ovšem eí možé získávat data mapulací s prvky populace. Neí možo provádět statstcký pokus, můžeme však jedoduše pozorovat jak probíhají změy a regstrovat je. Takovému přístupu říkáme statstcké šetřeí ebo pozorovací stude. Používáme ho tehdy, kdy emůžeme využít prcp áhody ( případy, kdy rozložeí zaků v populac je dáo apř. vzděláí, pohlaví a v pokusu by ebylo respektováo) ; ěkdy eí možo realzovat statstcký pokus z etckých důvodů ( mapulace s ldm ). Vdíme tedy, že v případě statstckého šetřeí se spokojujeme s pasvím sběrem dat. Problémem takovýchto studí je, že pozorovaý jev je velm často ovlvě ežádoucím zaky. Pro pojem úplého šetřeí tj. šetřeí provedeého a celé populac se vžl pojem cesus ( sčítáí ldu ). Pro jeho vysoké ekoomcké áklady se provádí v aší republce jedou za deset let. Každé statstcké šetřeí v podobě cesu by bylo především ekoomcky velm áročé. Ve většě případů te, kdo chce provést statstcké šetřeí má omezeé zdroje ( face, čas ). Někdy je k dspozc je málo údajů ( šetřeí vzácé choroby ebo zvláštího chováí pacetů ). Př dalších šetřeích bychom musel populac zčt ( apříklad sledováí žvotost výrobků ), proto se zabýváme prcpem výběru část populace. Výběr může ést přesější výsledky ež úplé šetřeí ( př velkém možství chyb vou eodborých špatě proškoleých pozorovatelů vzke chyba eodstratelá ). Jakákol část populace, která dobře odráží její strukturu ( především vyšetřovaé zaky ) se azve reprezetatvím výběrem. Ostatí typy výběru se azývají selektví výběry, většou dávají zkresleý obrázek o vyšetřovaé populac. Příkladem selektvího výběru je vzorek vysokoškolských profesorů, z ěhož budeme usuzovat a vzdělaost celé populace. Je jsté, že struktura vzdělaost v ašem výběru bude začě vychýlea prot celé populac. Výběry pořzujeme metodam áhodého výběru ebo metodam záměrého výběru. Metoda záměrého výběru se opírá expertí staovska k vytvořeí represetatvího výběru ( prováděa často v psycholog, socolog ). Jsou často závslé a subjektu experta. Metoda áhodého výběru umožňuje vybírat prvky populace áhodě a ezávsle a subjektech. Podle způsobu provedeí rozlšujeme ěkolk druhů áhodého výběru: Prostý áhodý výběr provádě většou metodou losováí ( každý prvek populace může být vylosová ). Dříve se prováděl pomocí tabulek áhodých čísel, des možo použít vhodý geerátor áhodých čísel růzých statstckých, ale estatstckých programů. Mechacký výběr jde o jstou formu prostého výběru, ejdříve áhodě očísluj prvky populace a poté zvolím pevé číslo. Všechy prvky, které získám vždy o pevý zadaý krok budou v daém výběru. Pokud eprovedeme a začátku áhodé očíslováí, ale číslováí je už vytvořeo musí dbát a to, aby krok výběru esouvsel s číslováím. Oblastí výběr. Celá populace je rozdělea do částí oblastí tak, aby se ve sledovaých zacích se od sebe velm odlšoval, v rámc jedé oblast jsou sledovaé

zaky málo odlšé. V jedotlvých oblastech potom provedeme prostý výběr. Spojeím všech takovýchto dílčích výběrů získáme celý hledaý výběr. Skupový výběr. V případě populací, které čítají statsíce ebo mloy prvků je skoro emožé předchozím metodam vytvořt áhodý výběr. Vyžíváme proto přrozeé rozděleí populace a meší celky ebo vytváříme vlastí umělé děleí. Požadujeme, aby prvky ( skupy ) děleí byly pokud možo stejě velké a vyšetřovaé zaky heterogeí v rámc jedé skupy. Varablta mez jedotlvým skupam by měla být co ejmeší. Vícestupňový výběr. Provádí se tehdy, kdy exstuje herarchcký pops celé populace ( geografcký, socálí model ). Popsá statstka Popsá statstka (deskrptví statstka) se zabývá popsem stavu ebo vývoje hromadých jevů. Nejprve se vymezí soubor prvků, a chž se bude uvažovaý jev zkoumat. Následě se všechy prvky vyšetří z hledska studovaého jevu. Výsledky šetřeí - kvaltatví kvattatví, vyjádřey především číselým popsem - tvoří obraz studovaého hromadého jevu vzhledem k vyšetřovaému souboru. V předchozí část jsme studoval pojem statstckého výběru. V této část budeme předpokládat, že jsme provedl výběr z populace a budeme se sažt z těchto dat získat údaje o vlastostech základího souboru. Grafcké zázorěí výběrových rozděleí je uvedeo v ásledující kaptole. V této kaptole budeme využívat data z tabulky 9.3 Tabulka 9.3: Rozděleí měsíčích ákladů studetů a bydleí Pořadí Náklady Pořadí Náklady Pořadí Náklady 850 560 900 90 560 900 3 90 3 650 3 300 4 90 4 670 4 350 5 90 5 780 5 350 6 030 6 790 6 350 7 030 7 850 7 3400 8 50 8 00 8 3600 9 90 9 600 9 3700 0 90 0 800 30 3850 Uveďme dále důležté pojmy, které budeme eustále využívat. Četost ( absolutí ) hodoty x je daá počtem prvků x ve výběru. Relatví četost hodoty x je daá podílem absolutí četost a celkového počtu prvků ve výběru. Kumulatví absolutí četost hodoty x je daá součtem všech absolutích četostí prvků, které jsou meší ebo rovy prvku x. Kumulatví relatví četost hodoty x je dáa součtem všech relatvích četostí prvků, které jsou meší ebo rovy prvku x. Míry polohy Jde o číselé hodoty pomocí, chž určujeme polohu míst, kolem kterých jsou data ejvíce umístěy. Průměr Průměr x se používá v případě kvattatvích zaků. Je velm ctlvý a odlehlé hodoty. Průměr hodot x, x,, x vypočteme takto

x x + x +... + x x = = (9.). Pro aše data je x = 4, 33. Někdy jsou data uvedea v tabulce včetě svých absolutích četostí ( počtu opakováí ), potom počítáme průměr jako tzv. vážeý průměr: k. x x = (9.) V tomto případě jsou data rozdělea a k skup o k prvcích. Pokud jsou data uvedea v tabulce roztříděých dat ( původí dat jsou ahrazea příslušostí do jedoho z vybraých tervalů ) vytvoříme ejprve střed tervalu ( bude ahrazovat všecha data uvedeá v daém tervalu ) a pak z těchto hodot vytvoříme podle vztahu (9.) průměr. Tabulka 9.4 třídí rozděleí četostí: Rozpětí četost 0-500 0 500-000 5 000-500 5 500-000 7 000-500 500-3000 4 3000-3500 5 3500-4000 3 4000-4500 0 Hodota středů tervalů je 50, 750,, 450. Spočítáme l průměr podle vzorce (9.) je hodota třídího průměru rova 733,7. Je vdět, že hodota tohoto průměru velm závsí a správé volbě rozpětí třídy. Pro vytvořeí stejě velkých tříd o počtu k z celkem prvků je možo použít tzv. Sturgesovo pravdlo k º + 3,3. log 0 (9.3) Například pro áš případ je = 30 a tedy hodota k º 5,8745. Tedy volíme k = 6. Uveďme dále ěkteré důležté vlastost průměru: a) Jestlže ke každé hodotě x ve výběru přčteme kostatu k, zvětší se o kostatu k také původí průměr ( k může být lbovolé reálé číslo ). b) Násobíme l každou hodotu ve výběru x stejou kostatou m, vypočteme ový průměr jako souč starého průměru a kostaty m c) Součet odchylek všech hodot x ve výběru od jejch průměru x je rove ule ( x) = 0 x (9.4) d) Součet čtverců odchylek všech hodot od jejch průměru je meší ež součet čtverců odchylek všech hodot od lbovolé jé hodoty. a x ( ) ( ) x x a x (9.5)

Těchto vlastostí průměru využíváme také k tomu, abychom upravl vstupí hodoty jejch zmešeím ( resp. zvětšeím ) a posuutím. Průměr se používá jako číselá charakterstka protože: a) Je jedozačý b) Je leárí c) Je spolehlvou číselou hodotou. Průměr epoužjeme, jestlže a) Rozděleí je vícevrcholové b) Rozděleí má a krajích otevřeé třídy c) Údaje ejsou škálovaé metrcky, ale ordálě d) Výběr je extrémě malý e) Rozděleí je asymetrcké Modus Modus xˆ je hodota, která se vyskytuje ejčastěj. Podle tabulky 9. ho můžeme zjšťovat zaků, které jsou kvaltatví, dokoce omálí. Neí ovlvňová všem prvky ve výběru. Jestlže je četost všech prvků ve výběru stejá, modus eurčujeme. Jestlže dvě ebo více avzájem sousedících hodot abývají stejé ejvětší četost, pak artmetcký průměr z těchto hodot azveme modulem. Jestlže exstují dvě avzájem esousedící hodoty s ejvětším stejým četostm, uvádíme obě jako modus. Rozděleí je pak dvou vrcholové ( bmodálí ). Jž ze samé defce modusu je jasé, že tato charakterstka velm závsí a výběru a většou velm kolísá. Příklad 9.9... Zjstěte modus šetřeí výběru barev respodetů bílá, červeá, modrá, červeá, zeleá, bílá, červeá, modrá, bílá, červeá. Odpověď : Nejčetější výskyt má a modus je červeá. Příklad 9.9... Zjstěte hodotu modusu pro data z aší tabulky 9.9. Odpověď: Podle tabulky je x ˆ = 90. Jestlže jsou kvattatví zaky uspořádáy do třídí tabulky, určíme ejdříve modálí terval x D ( s ejvyšší četostí ) a modus staovíme terpolací xˆ = xd + h. (9.6) + m kde h je délka modálího tervalu, je četost, x D je dolí hrace tohoto tervalu, je četost ásledujícího tervalu a m četost předchozího tervalu. Aplkujme vzorec (9.6) a data z tabulky 9.4 xˆ = xd + h. = 500 + 500. = 583,33. + m 6 Vdíme tedy, že modus zjštěý podle vzorce (9.6) může být výrazě odlšý od modusu skutečého. Kvatly a medá Přrozeou mírou jsou kvatly. Daý výběr se ejdříve seřadí od ejmeší hodoty po ejvětší a poté určíme pro daý p% kvatl pořadové číslo jedotky p, pro které platí

p p. < p <. +, (9.7) 00 00 kde je počet prvků výběru. Pro hodotu p = 50% se daý kvatl ozačuje medá ~ x. Jestlže je počet sudé číslo, vypočteme medá jako průměrou hodotu z hodot stojících vlevo a vpravo od teoretckého medáu určeého vzorcem (9.7). Medá popsuje hodotu, která dělí daý výběr a dvě stejě velké část. V ašem příkladě je ~ 780 + 790 x = = 785. Další výzamé kvatty jsou : Dolí kvartl x 0,5 je urče jako 5% kvatl. Horí kvartl x 0,75 je urče jako 75% kvatl. V ašem případě je x 0,5 = 080 a x 0,75 = 3000. Pro hodoty kvartlů vytváříme ještě jedu míru ( jde o míru varablty ) a to kvartlové rozpětí R q = x 0,75 - x 0,5 V ašem případě je R q = 3000 080 = 90. Pro hodoty p=0,0,,90 azýváme takto spočteé kvatly ázvy decly. Pro hodoty p =,,3,,99 azýváme podobě kvatly jako percetly. Pomocí kvartlů je také možo velm přehledě zázort data v grafu s ázvem Box Plot( krabcový graf ). Pomocí ěho můžeme rozdělt data z výběru a vtří, vější a odlehlá. Vytváříme ho ásledujícím způsobem: Základím prvkem grafu je obdélík, jehož hray tvoří hodoty dolího a horího kvartlu uvtř tohoto obdélíku je 50% hodot výběru. Uvtř je svslou čarou vyzače medá, popř. tečkou průměr ( křížkem modus). Z obdélíku vedou dvě úsečky kolmé k hraám, jejchž délka je dáa vzdáleostí vtřích hradeb od hray obdélíku. Vtří hradby se vypočtou tímto předpsem h D = x 0,5,5. ( x 0,75 x 0,5 ) (9.8) h H = x 0,75 +,5. ( x 0,75 x 0,5 ) (9.9) V ašem případě jsou h D = 080,5. 90 = -800 a h H = 3000+,5.90 =5865. Dále se počítají vější hradby H D = x 0,5.(,5. ( x 0,75 x 0,5 )) (9.0) H H = x 0,75 +.(,5. ( x 0,75 x 0,5 )) (9.) V ašem případě je H D = 080-9.90= - 4680 a H H = 3000+9.90 = 8730. Hradby slouží pro detfkac dat ve výběru. Hodoty uvtř vtřích hradeb jsou hodoty přlehlé; hodoty mez vtřím a vějším hradbam jsou hodoty vější a hodoty vě vějších hradeb jsou hodoty vzdáleé ebo jak odlehlé. Do grafu se zakresluje mmum a maxmum jako body.

850 3850-4650 -800 080 785 3000 5865 8730 Jestlže máme data uvedea v třídí tabulce musíme p% kvatl počítat pomocí leárí terpolace x p xd p D =, (9.) x x H D H D kde x D je dolí a x H je horí mez tervalu v ěmž leží daý kvatl; D je kumulatví relatví četost odpovídající x D a H je kumulatví relatví četost odpovídající x H.Zjstěme hodotu kvatlu pro áš případ tabulky 9.4: ~ x 500 0,5 0,33 = ~ x = 854,67. 000 500 0,57 0,33 Použtí medáu je vhodé př rozděleích s otevřeým třídam, pro ordálí hodoty, pro velm symetrcká rozděleí. Geometrcký průměr Provádí se je pro hodoty ve výběru, které jsou kladé. Jeho ozačeí je G a spočítá se jako tá odmoca ze souču hodot x. Používáme ho, jak je zřejmé z defce, a kvatfkovatelé zaky měřeé a poměrové stupc. Používá se k určeí průměré změy velkost, jestlže předpokládáme, že tato změa je kostatí ( multplkatvě ). G = x. x.. (9.3) x Harmocký průměr Harmocký průměr H zjstíme jako podíl počtu hodot a součtu převráceých hodot výběru. H = (9.4) x Míry varablty Pomocí je měr polohy elze přesě popsat výběr, protože moho dat má stejé ebo přblžě stejé hodoty jedotlvých parametrů měr polohy, přesto jsou a prví pohled odlšé. Na obrázku íže je uvede případ tří skup dat, která mají stejý průměr, modus, medá a přesto jsou odlšá. Odlšost vdíme v soustředěí hodot kolem průměru. Toto soustředěí budeme studovat pomocí růzých měr varablty.

0,8 0,7 0,6 0,5 0,4 0,3 0, 0, 0-4 -3 - - 0 3 4 Varačí rozpětí Varačí rozpětí R se vypočte jako rozdíl mez ejvětší a ejmeší hodotou výběru. R = x max x m (9.5) Pokračujme dále v ašem příkladě, hodota R = 3 850 850 = 3 000 Výhodou této míry je jedoduchost určeí a porozuměí. Je však málo stablí vzhledem k počtu čleů výběru. Používá se proto je u malých výběrů ( ). Výrazě závsí a velkost výběru. Proto emůžeme mez sebou porovávat jedotlvé hodoty varačího rozpětí z růzě velkých výběrů. Nedává spolehlvé odhady rozptylu základího souboru. Průměrá odchylka Průměrou odchylku e výběru defujeme jako artmetcký průměr z absolutích hodot odchylek všech hodot výběru od průměru x x e = (9.6) Uvádíme j je pro úplost. Je málo stablí vzhledem k velkost výběru a dává espolehlvé odhady pro rozptyl. Rozptyl a směrodatá odchylka Nejužívaější mírou varablty je rozptyl ( resp. směrodatá odchylka ). Pomocí ěho měříme velkost čtverců odchylek jedotlvých hodot výběru od průměru. Ozačujeme ho většou symbolem s a azýváme ho výběrovým rozptylem s =. ( x x ), (9.7) = Všměme s, že př výpočtu edělíme součet odchylek čtverců hodotou ( jako př defc klasckého rozptylu ), ale hodotou ( azývaou také počtem stupňů volost ). Je to provedeo proto, že získáme lepší odhad skutečého rozptylu s populace. Výběrová směrodatá odchylka se ozačuje symbolem s a je rova odmocě z výběrového rozptylu s =. ( x x), (9.8)

Pro vlastí výpočet se hodí já forma vzorce (9.7) s = x x = x x, =,,, (9.9) Použjeme l vzorce a určeí rozptylu pro data z tabulky 9.3 získáme s = 09733,448 a hodota s = 009,8. Jsou l hodoty x výběru uvedeé včetě četostí potom přejde vzorec (9.6) a s k ( x x) =.. x. x k =.., 9.0) kde k je počet všech růzých hodot ve výběru a je celkový počet prvků výběru. Jestlže jsou data uvedea pomocí tříděí do tervalů apř. data z tabulky 9.4, potom většou hodoty x zameají středy třídích tervalů a počet dat v tomto tervalu. Pokud jsou třídí tervaly ekvdstatí ( mají pevou délku ) s rozměrem h bude výpočet podle vzorce (9.0) zatíže chybou. Tuto chybu opravujeme pomocí tzv. Sheppardovy korekce h s kor = s (9.) Použjeme l opět aše data z tabulky 9.4 získáme : Nekorgovaé hodoty s = 00500 a s = 00,49; Korgovaé hodoty s kor = 98666,7 a s kor = 990,7909. Velm často astává případ, že celý výběr je z určtých důvodů rozděle do k dílčích částí. V té část je počet prvků rove, průměr je rove x a výběrový rozptyl s. Potom můžeme počítat celkový výběrový rozptyl s jako s. k k ( ). s +.( x x) = (9.) Z předchozího vzorce vyplývá, že celkový výběrový rozptyl s můžeme rozložt a dvě část a vtroskupový a mezskupový. Vtroskupovým výběrovým rozptylem sledujeme varabltu uvtř jedotlvých skup a mezskupovým výběrovým rozptylem varabltu mez těmto skupam. Takovéto metody rozděleí celkové varablty a ezávslé část budeme dále využívat v část Aalýza rozptylu ( ANOVA ). Výběrový rozptyl ezávsí a zvětšeí č zmešeí všech hodot výběru o kostatu. Jestlže všechy hodoty výběru zvětšíte m - krát, zvětší se výběrový rozptyl m krát. Těchto vlastostí velm často využíváme pro úpravu původí tabulky dat tím, že všechy hodoty posueme - volba ového počátku a výrazě zmešíme ( zvětšíme ) volba ové jedotky.

Varačí koefcet Nechť má výběr čleů s průměrem x a směrodatou odchylkou s. Potom varačí koefcet výběru v je daý vztahem s v =.00% (9.3) x Používáme ho, když chceme porovat varabltu růzých zaků ve výběru ebo mez růzým výběry. Charakterstky tvaru rozděleí Výběrová míra škmost Jde o číselý údaj, který vypovídá o o souměrost č esouměrost tvaru rozděleí. Ozačuje se symbolem a. a = ( x x ) 3 s. 3, (9.4) kde je počet čleů výběru, s je hodota výběrové směrodaté odchylky, x je průměr a x je kokrétí hodota výběru. Je l rozděleí souměré, je hodota a = 0. Rozděleí je tím esousměrější, čím se hodota a více lší od uly. Je l jeho hodota kladá, potom je rozděleí zeškmeo kladě ( ve výběru je větší kocetrace meších hodot ). Je l jeho hodota záporá, potom je zeškmeo záporě (ve výběru je větší kocetrace větších hodot). Pokračujme s aším příkladem, s daty z tabulky 9.9. Níže vdíme data v grafu. Polygo četostí 3,5 3,5,5 0,5 0 800 300 800 300 800 3300 3800 Hodota míry škmost pro aše hodoty a =. Je tedy kladá a data jsou zeškmea kladě. Výběrová míra špčatost. Tato míra popsuje stupeň kocetrace hodot zaku kolem charakterstky úrově ( kolem průměru ). Stejé ahuštěí prostředích krajích hodot vede k plochost ( hodota míry je potom záporá ), větší ahuštěí prostředích hodot se projevuje špčatostí rozděleí( hodota míry je kladá. Tato míra porovává daé rozděleí s ormovaým ormálím rozděleím N(0,) ( má hodotu špčatost rovu ule ). Vypočte se podle vztahu

4 ( x x) = 4 b 3, (9.5) s. ozačuje se symbolem b. Hodota špčatost pro aše data z tabulky 9.3 je rova 0,93. Rozděleí je ploché, což je vdět z polygou četostí. Grafcké zobrazeí dat Pro presetac statstckých údajů je velm působvé používat růzé grafcké způsoby. Každý typ grafckého zobrazeí hodot má svoje omezeí, ale zároveň svoje výhody. Kromě klasckých typů se k zobrazováí statstckých dat hodí specálí grafy, jede typ jsme už měl možost vdět v část 0 Kvatly a medá šlo o tzv. Box Plot ebol Krabcový graf. V dalším s ukážeme možé grafy pro presetac údajů. Běžé grafy Bodový graf Zázorňuje hodoty pomocí bodů,většou v pravoúhlé soustavě. Používá se většou k zachyceí závslostí právě dvou statstckých zaků. Př více ež dvou zacích jeho jedoduchost mzí a stává se méě přehledým. Nelze pomocí ěho vysthout data s větší četostí. Graf 9. velkost ákladů v závslost a pořadí 4000 3500 3000 500 000 500 000 500 0 Náklady Náklady 0 5 0 5 0 5 30 Spojcový graf Jestlže chceme zázort velké možství hodot, chceme l vysthout průběh časové řady hodí se k tomu více spojcový graf. Používá se také k vyjádřeí předpokladu o spojtost vyšetřovaého zaku. Jestlže se pomocí ěho vyjadřuje rozložeí absolutích ebo relatvích četostí ve výběru, azýváme se polygo četostí.

Graf 9. sloupcový graf, vyjadřuje změu ákladů 4000 3500 3000 500 000 500 000 500 0 0 5 0 5 0 5 30 Náklady Po změě Sloupcový graf Sloupcový graf vyjadřuje jedoduché závslost mez dvěma hodotam, velm často jsou jedotlvé prvky výběru seskupováy do tříd. Exstuje ěkolk typů těchto grafů klascké sloupcové, sloupcové s procetím rozložeím, trojrozměré sloupcové grafy. Klascká ukázka je uvedea v grafu 9.3 Graf 9.3- rozděleí ákladů do tříd Sloupcový graf četostí 8 7 6 5 4 3 0 četost 0-500 500-000 000-500 500-000 000-500 500-3000 3000-3500 3500-4000 4000-4500 Hstogram Svou defcí je to sloupcový graf, který se používá k zázorěí absolutích ebo relatvích četostí (většou )spojtého zaku. Sloupce v grafu jsou zásadě vertkálí,šířka sloupce odpovídá velkost třídy a celková plocha sloupce odpovídá četost prvků třídy ve výběru. 0000 8000 6000 4000 000 0 Hstogram 500 000 500 000 500 3000 3500 4000 4500

Kruhový graf Zobrazuje hodoty jako výseče v kruhu a tím se zachytí struktura výběru. Předchozí data jsou zobrazea v kruhovém grafu ( koláč, výsečový graf ) takto 9% % 9% 6% 6% % 38% 500 000 500 000 500 3000 3500 4000 4500 3% Specálí statstcké grafy Jedím z užívaých grafckých způsobů je dříve uvedeý hstogram. V současé době exstuje moho profesoálích způsobů presetace statstckých dat. V část 0 Kvatly a medá jsme zavedl velm užtečý typ Box Plot český ekvvalet ázvu je Krabcový graf. Statstckých grafů exstuje velké možství, zaměříme se a ěkteré specálí. Kvatlový graf Jde typ grafu, kterým můžeme přehledě zázort data, porovat je se zámým rozděleím, ajít vybočující hodoty atd. Na osu x aášíme pořadovou pravděpodobost teoretckého rozděleí, a osu y skutečé kvatly daých dat. Na grafu íže je uvedeo porováí výběru s N(0,). Data se s hodotam teoretckého rozděleí eshodují, zjevě vybočují a krajích. 3 6% 0 - N(0,) výběr - -3 0 0, 0,4 0,6 0,8 Teto typ grafu se velm často užívá pro prví porováí údajů především s ormálím ormovaým rozděleím. Dříve se k takovému porováí používal tzv. pravděpodobostí papír, des ho provádíme s pomocí počítače. Mez základí statstcká vyšetřováí patří rozhodutí, zda daý výběr patří ebo epatří k rozdělím symetrckým. K takovému rozhodutí ám pomáhá ásledující typ grafu:

Graf polosum Jeho kostrukce je založea a myšlece, že u symetrckého rozděleí je artmetcký průměr kvatlu p% a kvatlu (-p)% stejý a je rove medáu. Níže je uvede daý graf pro data vyšetřovaá v předchozí část. Symetrcká rozděleí jsou tedy charakterzováa přímkou y= x. Celkově je zřejmé,že data pochází ze symetrckého rozděleí. 75 70 65 60 55 50 0 0 0 30 40 50 60 70 80 90 00 45 40 35 30 5 Graf symetre Pomocí tohoto grafu je možo sledovat zak symetre výběru. Na osu x aášíme u P hodoty pro P = a a osu y stejé hodoty jako u předchozího grafu tedy hodoty + ( x x ) ( + ) ( ) osa x 50,37 5 0, 0,7 0, 0,7 0,3 0,37 Opět je zřejmé, že hodoty výběru jsou symetrcké, s výjmkou krajích hodot. Pomocí dalšího grafu je možo srovávat parametr špčatost s rozděleím N(0,). Graf špčatost Za předpokladu symetre je pro ormálí rozděleí grafem přímka. Pokud leží body a přímce s eulovou směrcí, je hodota této směrce odhadem výběrového parametru špčatost. Opět je zřejmé, že data odpovídají symetr, avíc můžeme z grafu odhadout výběrovou špčatost.

0,4 0,35 0,3 0,5 0, 0,5 0, 0,05 0 4, 4, 4,3 4,4 4,5 4,6