. Základí statistické pojmy.. Úvodí iformace Statistika je často představováa jako pouhý sběr čísel ebo jim podobých údajů. Původí výzam toho slova skutečě souvisí se sběrem iformací o státu ( z latiského status stát ) počtu obyvatel, sídel, o výběru daí atd. I des existují istituce, které se zabývají takovýmto sběrem dat, v ČR je to Český statistický úřad. Sbírá a zveřejňuje ěkteré iformace o obcích, průmyslu, ekoomice, o demografickém rozvoji státu. Pod pojmem statistika des však mííme mohem více, statistika se v jistém slova smyslu stala jazykem pro práci s daty, pro jejich zpracováí a iterpretaci. Ze statistiky se stala rozviutá vědecká metoda aalýzy dat, která achází široké uplatěí v přírodích i společeských vědách i ve společosti vůbec. Při vlastí praxi uplatňujeme dva způsoby přístupu k údajům. Především je to přístup k iformacím vějšího prostředí a posléze aše reflexe a tyto údaje ve formě zobecěí. Například při porováváí sledovaosti televizích kaálů eoslovujeme všechy domácosti, ale z pečlivě vybraých domácostí a jejich sledovaosti televize čiíme závěry platé pro všechy domácosti. Proces zobecňováí pozatků azýváme iduktivím způsobem usuzováí ( idukcí ) apř. zobecěí sledovaosti ve výběru a všechy domácosti. Schopost přijímat ové pozatky a z ich se učit a vyvozovat závěry jsou jedím ze základích rysů lidského uvažováí. Druhým způsobem uvažováí je pricip deduktivího přístupu k údajům ( dedukce ). Při deduktivím přístupu čiíme závěry z obecých zákoitostí. Závěry myšlekových procesů iduktivího charakteru jsou ovlivěy postojem subjektu. Iduktiví statistika se zabývá způsoby jak přeášet závěry takovýchto procesů, umožňuje z pozorovaých dat vytvářet obecé závěry s určeím jejich spolehlivosti. Výpočty takových spolehlivostí jsou založey a pozatcích teorie pravděpodobosti a jsou proto objektiví.. Statistický soubor a výběry Jedím ze základích pojmů, s kterými se budeme setkávat stále jsou populace ( statistický soubor ) a výběr. Populace je možia všech prvků, které jsou předmětem daého statistického zkoumáí. Každý z prvků je statistickou jedotkou. Prvky tvořící statistický soubor jsou buď dáy prostě výčtem ebo mají určité společé vlastosti - tzv. idetifikačí zaky - umožňující určit, zda prvek do daého statistického souboru patří ebo epatří. Idetifikačí zaky tedy statistický soubor mohou vymezovat. Z hlediska velikosti je zřejmé, že většia populací bude mít koečý rozsah, ekoečý rozsah budou mít takové populace, které jsou určey zakem, který můžeme hypoteticky ekoečěkrát opakovat ( apř. měříme hmotost po pokusu, teplotu atd. ). Podle počtu sledovaých zaků je potom takováto populace jedorozměré či vícerozměrá ( sledujeme dva a více zaků apř. teplotu, tlak; komuikativost, iteligeci atd. ). Pro vlastí popsáí populací se používá metoda parametrů charakteristik. Jde o číselé hodoty, které jsou většiou pevá čísla. Jejich hodota eí záma a je uto ji zjistit či odhadou vhodými statistickými metodami. Zaky, které sledujeme v populaci mají obecě buď charakter kvatitativí ( lze je vyjádřit číslem apř. délka, hmotost, teplota ) a kvalitativí ( jsou většiou vyjádřey textem ). Kvatitativí zaky dělíme dále a spojité výsledky zkoumáí mohou abývat hodot ěkterého itervalu ( teplota, délka ) a diskrétí jestliže existuje je koečě moho možých stavů zaku ( apř. počet dětí v rodiě, počet vykvetlých rostli atd. ).
K vlastímu měřeí kvatitativích údajů používáme buď itervalových ebo poměrových stupic. Jestliže chceme zjistit je rozdíl mezi kvalitativími hodotami, používáme itervalovou stupici ( v takovýchto stupicích je počátek vole apř. C, stupice výšky tóu, stupice bolesti atd. ). Při takovémto způsobu měřeí je většiou esmyslé ozačeí prvek a má hodotu zaku x větší ež prvek b, eboť počátek je možo volit růzě ( apř. teplota ). Pokud chceme měřit údaje ve vztahu k pevým jedotkám ( váha, vzdáleost ) používáme stupici poměrovou. Kvalitativí zaky se sažíme také měřit, používáme k tomu omiálí ( pojem ) a ordiálí ( pořadí ) stupici. Nomiálí stupice je složea z ejméě dvou avzájem se vylučujících tříd. Jestliže jsou třídy právě dvě azývá se dichotomická. Příklady takovéto stupice: pohlaví / mužské, žeské /; barva / modrá, zeleá, červeá, bílá /. Příkladem takovéto klasifikace je také. meziárodí stupice emocí, úrazů a příči smrti. Čísla, která jsou přiřazea jedotlivým chorobám ic evypovídají o daé chorobě. Ordiálí stupice je založea opět a eslučitelých třídách, ale ty jsou ještě avzájem uspořádáy. Příklady takovýchto stupic: ejvyšší úroveň vzděláí / egramotý, základí, středí, vysokoškolské / ; srozumitelost / žádá, malá, středí, uspokojivá, vyikající/. V tabulkách. a. íže jsou uvedey způsoby použití jedotlivých stupic. Tabulka. Typ stupice Použití pro data Přípusté změy Charakteristiky rozděleí Nomiálí stupice Jsme schopi rozhodout o rozdílu mezi jedotlivými prvky populace a o jejich zařazeí do tříd Permutace, přejmeováí Absolutí četost, relativí četost, modus Ordiálí stupice Navíc: Umíme určit, který prvek je meší a který větší a zařadit je do správých tříd Možo změit pomocí mootóí trasformace ( rostoucí ) Dále: Kumulativí četost, pořadí, kvatily, mediá, pořadové hodoty Itervalová stupice Navíc: Umíme staovit relativí ulový bod ( počátek ) a zjistit vztah prvků vůči ěmu ( rozdíly!) Lieárí změa - posuutí a zmešeí ebo zvětšeí ( y = a x + b ) Dále: Aritmetický průměr, směrodatá odchylka, šikmost, špičatost Poměrová stupice Navíc: Umíme staovit absolutí ulový bod ( počátek ) a zjistit vztah prvků vůči ěmu ( podíly!) Tabulka. Změa je zvětšeí ebo zmešeí ( kladé ) tj. y = a x ( a > ) Dále: Ostatí průměry ( harmoický, geometrický ), variačí koeficiet Typ stupice Testy Závislost, ezávislost Nomiálí stupice c - testy Kotigečí koeficiety, čtyřpolíčkový koeficiet Ordiálí stupice Dále: Pořadové testy, Kolmogor - Smirův test, U - test Pořadový korelačí koeficiet Itervalová stupice Dále: Parametrické testy odvozeé z Korelačí koeficiet, biseriálí N(,) koeficiety Poměrová stupice Stejě jako výše Stejě jako výše Pro vyšetřeí populace používáme růzý způsob přístupu k datům : Provádíme buď statistický pokus, statistické šetřeí ebo pozorovací studii. Účelem statistického pokusu je pláovitě měit faktory ( podmíky ) a sledovat jejich vliv a změu vyšetřovaých zaků. Výběr prvků s imiž experimetujme provádíme zásadě áhodě, aby edošlo k vychýleí výsledých hodot. Při tzv. kotrolovaém pokusu rozdělíme vyšetřovaé skupiy a
pokusé a kotrolí. U pokusé skupiy byla provedey změa, u kotrolí ikoli. Aby byl pokus dostatečě objektiví, je uto, aby obě skupiy byly rovoceé jak a začátku pokusu, tak i v jeho průběhu. Chceme li zabráit příosu subjektiví iformací volíme často pricip tzv. slepého pokusu, kdy te kdo údaje vyhodocuje ( apř. lékař ) evěděl, která skupia je kotrolí a která je pokusá. Jestliže ai vyšetřovaý subjekt eví zda je v pokusé ebo kotrolí skupiě azýváme teto pricip dvojité utajeí ebo dvojitý slepý pokus. Je vidět, že pricip áhodého výběru a rozděleí a pokusou a kotrolí skupiu zlepšuje výsledky ( odstraňujeme eobjektivitu a závislost ). Někdy ovšem eí možé získávat data maipulací s prvky populace. Neí možo provádět statistický pokus, můžeme však jedoduše pozorovat jak probíhají změy a registrovat je. Takovému přístupu říkáme statistické šetřeí ebo pozorovací studie. Používáme ho tehdy, kdy emůžeme využít pricip áhody ( případy, kdy rozložeí zaků v populaci je dáo apř. vzděláí, pohlaví a v pokusu by ebylo respektováo ; ěkdy eí možo realizovat statistický pokus z etických důvodů ( maipulace s lidmi ). Vidíme tedy, že v případě statistického šetřeí se spokojujeme s pasivím sběrem dat. Problémem takovýchto studií je, že pozorovaý jev je velmi často ovlivě ežádoucími zaky. Pro pojem úplého šetřeí tj. šetřeí provedeého a celé populaci se vžil pojem cesus ( sčítáí lidu ). Pro jeho vysoké ekoomické áklady se provádí v aší republice jedou za deset let. Každé statistické šetřeí v podobě cesu by bylo především ekoomicky velmi áročé. Ve většiě případů te, kdo chce provést statistické šetřeí má omezeé zdroje ( fiace, čas ). Někdy je k dispozici je málo údajů ( šetřeí vzácé choroby ebo zvláštího chováí pacietů ). Při dalších šetřeích bychom museli populaci zičit ( apříklad sledováí životosti výrobků ). Výběr může ést přesější výsledky ež úplé šetřeí ( při velkém možství chyb viou eodborých špatě proškoleých pozorovatelů vzike chyba eodstraitelá ). Jakákoli část populace, která dobře odráží její strukturu ( především vyšetřovaé zaky ) bude azváa reprezetativím výběrem. Ostatí typy výběru se azývají selektiví výběry, většiou dávají zkresleý obrázek o vyšetřovaé populaci. Příkladem selektivího výběru je vzorek vysokoškolských profesorů, z ěhož budeme usuzovat a vzdělaost celé populace. Je jisté, že struktura vzdělaosti v ašem výběru bude začě vychýlea proti celé populaci. Výběry pořizujeme metodami áhodého výběru ebo metodami záměrého výběru. Metoda záměrého výběru se opírá expertí staoviska k vytvořeí represetativího výběru ( prováděa často v euchologii, sociologii ). Jsou často závislé a subjektu experta. Metoda áhodého výběru umožňuje vybírat prvky populace áhodě a ezávisle a subjektech. Podle způsobu provedeí rozlišujeme ěkolik druhů áhodého výběru: Prostý áhodý výběr provádě většiou metodou losováí ( každý prvek populace může být vylosová ). Dříve se prováděl i pomocí tabulek áhodých čísel, des možo použít i vhodý geerátor áhodých čísel růzých statistických, ale i estatistických programů. Mechaický výběr jde o jistou formu prostého výběru, ejdříve áhodě očísluji prvky populace a poté zvolím pevé číslo. Všechy prvky, které získám vždy o pevý zadaý krok budou v daém výběru. Pokud eprovedeme a začátku áhodé očíslováí, ale číslováí je už vytvořeo musí dbát a to, aby krok výběru esouvisel s číslováím. Oblastí výběr. Celá populace je rozdělea do částí oblastí tak, aby se ve sledovaých zacích se od sebe velmi odlišovali, v rámci jedé oblasti jsou sledovaé zaky málo odlišé. V jedotlivých oblastech potom provedeme prostý výběr. Spojeím všech takovýchto dílčích výběrů získáme celý hledaý výběr. Skupiový výběr. V případě populací, které čítají statisíce ebo milioy prvků je skoro emožé předchozími metodami vytvořit áhodý výběr. Vyžíváme proto přirozeé
rozděleí populace a meší celky ebo vytváříme vlastí umělé děleí. Požadujeme, aby prvky ( skupiy ) děleí byly pokud možo stejě velké a vyšetřovaé zaky heterogeí v rámci jedé skupiy. Variabilita mezi jedotlivými skupiami by měla být co ejmeší. Vícestupňový výběr. Provádí se tehdy, kdy existuje hierarchický popis celé populace ( geografický, sociálí model )..3 Popisá statistika Popisá statistika (deskriptiví statistika) se zabývá popisem stavu ebo vývoje hromadých jevů. Nejprve se vymezí soubor prvků, a ichž se bude uvažovaý jev zkoumat. Následě se všechy prvky vyšetří z hlediska studovaého jevu. Výsledky šetřeí - kvalitativí i kvatitativí, vyjádřey především číselým popisem - tvoří obraz studovaého hromadého jevu vzhledem k vyšetřovaému souboru. V předchozí části jsme studovali pojem statistického výběru. V této části budeme předpokládat, že jsme provedli výběr z populace a budeme se sažit z těchto dat získat údaje o vlastostech základího souboru. Grafické zázorěí výběrových rozděleí je uvedeo v ásledující kapitole. V této kapitole budeme využívat data z tabulky.3 Tabulka.3: Rozděleí měsíčích ákladů studetů a bydleí Pořadí Náklady Pořadí Náklady Pořadí Náklady 85 56 9 9 56 9 3 9 3 65 3 3 4 9 4 67 4 35 5 9 5 78 5 35 6 3 6 79 6 35 7 3 7 85 7 34 8 5 8 8 36 9 9 9 6 9 37 9 8 3 385 Uveďme dále důležité pojmy, které budeme eustále využívat. Četost ( absolutí ) hodoty x i je daá počtem prvků x i ve výběru. Relativí četost hodoty x i je daá podílem absolutí četosti a celkového počtu prvků ve výběru. Kumulativí absolutí četost hodoty x i je daá součtem všech absolutích četostí prvků, které jsou meší ebo rovy prvku x i. Kumulativí relativí četost hodoty x i je dáa součtem všech relativích četostí prvků, které jsou meší ebo rovy prvku x i..3. Míry polohy Jde o číselé hodoty pomocí, ichž určujeme polohu míst, kolem kterých jsou data ejvíce umístěy..3.. Průměr Průměr x se používá v případě kvatitativích zaků. Je velmi citlivý a odlehlé hodoty. Průměr hodot x, x,, x vypočteme takto x + x +... + x x = Pro aše data je x = 4, 33. = x i (.).
Někdy jsou data uvedea v tabulce včetě svých absolutích četostí ( počtu opakováí ), potom počítáme průměr jako tzv. vážeý průměr: k i. xi x = (.) V tomto případě jsou data rozdělea a k skupi o k prvcích. Pokud jsou data uvedea v tabulce roztříděých dat ( původí dat jsou ahrazea příslušostí do jedoho z vybraých itervalů ) vytvoříme ejprve střed itervalu ( bude ahrazovat všecha data uvedeá v daém itervalu ) a pak z těchto hodot vytvoříme podle vztahu (.) průměr. Tabulka.4 třídí rozděleí četostí: Rozpětí četost -5 5-5 - 5 5 5-7 - 5 5-3 4 3-35 5 35-4 3 4-45 Hodota středů itervalů je 5, 75,, 45. Spočítáme li průměr podle vzorce (.) je hodota třídího průměru rova 733,7. Je vidět, že hodota tohoto průměru velmi závisí a správé volbě rozpětí třídy. Pro vytvořeí stejě velkých tříd o počtu k z prvků je možo použít tzv. Sturgesovo pravidlo k º + 3,3. log (.3) Například pro áš případ je = 3 a tedy hodota k º 5,8745. Tedy volíme k = 6. Uveďme dále ěkteré důležité vlastosti průměru: a) Jestliže ke každé hodotě x i ve výběru přičteme kostatu k, zvětší se o kostatu k také původí průměr ( k může být libovolé reálé číslo ). b) Násobíme li každou hodotu ve výběru x i stejou kostatou m, vypočteme ový průměr jako souči starého průměru a kostaty m c) Součet odchylek všech hodot x i ve výběru od jejich průměru x je rove ule ( x) = x (.4) i d) Součet čtverců odchylek všech hodot od jejich průměru je meší ež součet čtverců odchylek všech hodot od libovolé jié hodoty. a x ( ) ( ) x x a x i i (.5) Těchto vlastostí průměru využíváme také k tomu, abychom upravili vstupí hodoty jejich zmešeím ( resp. zvětšeím ) a posuutím. Průměr se používá jako číselá charakteristika protože: a) Je jedozačý b) Je lieárí c) Je spolehlivou číselou hodotou. Průměr epoužijeme, jestliže a) Rozděleí je vícevrcholové
b) Rozděleí má a krajích otevřeé třídy ( hodoty ejsou shora ebo zdola omezeé ) c) Údaje ejsou škálovaé metricky, ale ordiálě d) Výběr je extrémě malý e) Rozděleí je asymetrické.3.. Modus Modus xˆ je hodota, která se vyskytuje ejčastěji. Podle tabulky. ho můžeme zjišťovat i zaků, které jsou kvalitativí, dokoce i omiálí. Neí ovlivňová všemi prvky ve výběru. Jestliže je četost všech prvků ve výběru stejá, modus eurčujeme. Jestliže dvě ebo více avzájem sousedících hodot abývají stejé ejvětší četosti, pak aritmetický průměr z těchto hodot azveme modusem. Jestliže existují dvě avzájem esousedící hodoty s ejvětšími stejými četostmi, uvádíme obě jako modus. Rozděleí je pak dvouvrcholové ( bimodálí ). Již ze samé defiice modusu je jasé, že tato charakteristika velmi závisí a výběru a většiou velmi kolísá. Příklad. Zjistěte modus šetřeí výběru barev respodetů bílá, červeá, modrá, červeá, zeleá, bílá, červeá, modrá, bílá, červeá. Odpověď : Nejčetější výskyt má a modus je červeá. Příklad. Zjistěte hodotu modusu pro data z aší tabulky.3. Odpověď: Podle tabulky je x ˆ = 9. Jestliže jsou kvatitativí zaky uspořádáy do třídí tabulky, určíme ejdříve modálí iterval x D ( s ejvyšší četostí ) a modus staovíme iterpolací xˆ = xd + h. (.6) + m kde h je délka modálího itervalu, je četost, x D je dolí hraice tohoto itervalu, je četost ásledujícího itervalu a m četost předchozího itervalu. Aplikujme vzorec (.6) a data z tabulky.4 xˆ = xd + h. = 5 + 5. = 583,33. + m 6 Vidíme tedy, že modus zjištěý podle vzorce (.6) může být výrazě odlišý od modusu skutečého..3..3 Kvatily a mediá Přirozeou mírou jsou kvatily. Daý výběr se ejdříve seřadí od ejmeší hodoty po ejvětší a poté určíme pro daý p% kvatil pořadové číslo jedotky p, pro které platí p p. < p <. +, (.7) kde je počet prvků výběru. Pro hodotu p = 5% se daý kvatil ozačuje mediá ~ x. Jestliže je počet sudé číslo, vypočteme mediá jako průměrou hodotu z hodot stojících vlevo a vpravo od teoretického mediáu určeého vzorcem (.7). Mediá popisuje hodotu, která dělí daý výběr a dvě stejě velké části. V ašem příkladě je ~ 78 + 79 x = 785 =. Další výzamé kvatity jsou : Dolí kvartil x,5 je urče jako 5% kvatil.
Horí kvartil x,75 je urče jako 75% kvatil. V ašem případě je x,5 = 8 a x,75 = 3. Pro hodoty kvartilů vytváříme ještě jedu míru ( jde o míru variability ) a to kvartilové rozpětí R q = x,75 - x,5 V ašem případě je R q = 3 8 = 9. Pro hodoty p=,,,9 azýváme takto spočteé kvatily ázvy decily. Pro hodoty p =,,3,,99 azýváme podobě kvatily jako percetily. Pomocí kvartilů je také možo velmi přehledě zázorit data v grafu s ázvem Box Plot ebo jiak Krabicový graf ebo Krabicový diagram ebo Vousatá krabička. Pomocí ěho můžeme rozdělit data z výběru a vitří, vější a odlehlá. Vytváříme ho ásledujícím způsobem: Základím prvkem grafu je obdélík, jehož hray tvoří hodoty dolího a horího kvartilu uvitř tohoto obdélíku je 5% hodot výběru. Uvitř je svislou čarou vyzače mediá, popř. tečkou průměr ( křížkem modus). Z obdélíku vedou dvě úsečky kolmé k hraám, jejichž délka je dáa vzdáleostí vitřích hradeb od hray obdélíku. Vitří hradby se vypočtou tímto předpisem h D = x,5,5. ( x,75 x,5 ) (.8) h H = x,75 +,5. ( x,75 x,5 ) (.9) V ašem případě jsou h D = 8,5. 9 = -8 a h H = 3+,5.9 =5865. Dále se počítají vější hradby H D = x,5.(,5. ( x,75 x,5 )) (.) H H = x,75 +.(,5. ( x,75 x,5 )) (.) V ašem případě je H D = 8-3.9= - 468 a H H = 3+3.9 = 873. Hradby slouží pro idetifikaci dat ve výběru. Hodoty uvitř vitřích hradeb jsou hodoty přilehlé; hodoty mezi vitřími a vějšími hradbami jsou hodoty vější a hodoty vě vějších hradeb jsou hodoty vzdáleé ebo jiak odlehlé. Do grafu se zakresluje i miimálí a maximálí hodoty jako body. 85 385-465 -8 8 785 3 5865 873 Jestliže máme data uvedea v třídí tabulce musíme p% kvatil počítat pomocí lieárí iterpolace x p xd p D =, (.) xh xd H D kde x D je dolí a x H je horí mez itervalu v ěmž leží daý kvatil; D je kumulativí relativí četost odpovídající x D a H je kumulativí relativí četost odpovídající x H.Zjistěme hodotu kvatilu pro áš případ tabulky.4: ~ x 5,5,33 = ~ x = 854,67. 5,57,33
Použití mediáu je vhodé při rozděleích s otevřeými třídami, pro ordiálí hodoty, pro velmi symetrická rozděleí..3..4 Geometrický průměr Provádí se je pro hodoty ve výběru, které jsou kladé. Jeho ozačeí je G a spočítá se jako tá odmocia ze součiu hodot x i. Používáme ho, jak je zřejmé z defiice, a kvatifikovatelé zaky měřeé a poměrové stupici. Používá se k určeí průměré změy velikosti, jestliže předpokládáme, že tato změa je kostatí ( multiplikativě ). G = x. x.. x (.3) Klasickým příkladem k užití je případ výpočtu iflace za ěkolik let záme li hodoty iflačích kroků mezi jedotlivými ásledými roky..3..5 Harmoický průměr Harmoický průměr H zjistíme jako podíl počtu hodot a součtu převráceých hodot výběru. H = (.4) xi Pomocí harmoického průměru lze apříklad počítat úlohy a průměré rychlosti, jestliže jsou zámy tyto hodoty a jedotlivých úsecích trati a chceme získat průměrou rychlost celkovou..3. Míry variability Pomocí je měr polohy elze přesě popsat výběr, protože moho dat má stejé ebo přibližě stejé hodoty jedotlivých parametrů měr polohy, přesto jsou a prví pohled odlišé. Na obrázku íže je uvede případ tří skupi dat, která mají stejý průměr, modus, mediá a přesto jsou odlišá. Odlišost vidíme v soustředěí hodot kolem průměru. Toto soustředěí budeme studovat pomocí růzých měr variability.,8,7,6,5,4,3,, -4-3 - - 3 4.3.. Variačí rozpětí Variačí rozpětí R se vypočte jako rozdíl mezi ejvětší a ejmeší hodotou výběru. R = x max x mi (.5) Pokračujme dále v ašem příkladě, hodota R = 3 85 85 = 3
Výhodou této míry je jedoduchost určeí a porozuměí. Je však málo stabilí vzhledem k počtu čleů výběru. Používá se proto je u malých výběrů ( ). Výrazě závisí a velikosti výběru. Proto emůžeme mezi sebou porovávat jedotlivé hodoty variačího rozpětí z růzě velkých výběrů. Nedává spolehlivé odhady rozptylu základího souboru..3.. Průměrá odchylka Průměrou odchylku e výběru defiujeme jako aritmetický průměr z absolutích hodot odchylek všech hodot výběru od průměru xi x e = (.6) Uvádíme ji je pro úplost. Je málo stabilí vzhledem k velikosti výběru a dává espolehlivé odhady pro rozptyl..3..3 Rozptyl a směrodatá odchylka Nejužívaější mírou variability je rozptyl ( resp. směrodatá odchylka ). Pomocí ěho měříme velikost čtverců odchylek jedotlivých hodot výběru od průměru. Ozačujeme ho většiou symbolem s a azýváme ho výběrovým rozptylem s =. ( x i x ), (.7) i = Všiměme si, že při výpočtu edělíme součet odchylek čtverců hodotou ( jako při defiici klasického rozptylu ), ale hodotou ( azývaou také počtem stupňů volosti ). Je to provedeo proto, že získáme lepší odhad skutečého rozptylu s populace. Výběrová směrodatá odchylka se ozačuje symbolem s a je rova odmociě z výběrového rozptylu s =. ( x i x), (.8) Pro vlastí výpočet se hodí i jiá forma vzorce (.7) xi xi s = x x =, i =,,, (.9) Použijeme li vzorce a určeí rozptylu pro data z tabulky.3 získáme s = 9733,448 a hodota s = 9,8. Jsou li hodoty x i výběru uvedeé včetě četostí i potom přejde vzorec (.6) a k k s =. i. ( xi x) =. i. xi. x, (.) kde k je počet všech růzých hodot ve výběru a je celkový počet prvků výběru. Jestliže jsou data uvedea pomocí tříděí do itervalů apř. data z tabulky.4, potom většiou hodoty x i zameají středy třídích itervalů a i počet dat v tomto itervalu. Pokud jsou třídí itervaly ekvidistatí ( mají pevou délku ) s rozměrem h bude výpočet podle vzorce (.) zatíže chybou. Tuto chybu opravujeme pomocí tzv. Sheppardovy korekce h s kor = s (.)
Použijeme li opět aše data z tabulky.4 získáme : Nekorigovaé hodoty s = 5 a s =,49; Korigovaé hodoty s kor = 98666,7 a s kor = 99,799. Velmi často astává případ, že celý výběr je z určitých důvodů rozděle do k dílčích částí. V i té části je počet prvků rove i, průměr je rove x i a výběrový rozptyl s i. Potom můžeme počítat celkový výběrový rozptyl s jako k k s =. ( i ). si + i. ( xi x) (.) Z předchozího vzorce vyplývá, že celkový výběrový rozptyl s můžeme rozložit a dvě části a vitroskupiový a meziskupiový. Vitroskupiovým výběrovým rozptylem sledujeme variabilitu uvitř jedotlivých skupi a meziskupiovým výběrovým rozptylem variabilitu mezi těmito skupiami. Takovéto metody rozděleí celkové variability a ezávislé části budeme dále využívat v části Aalýza rozptylu ( ANOVA ). Výběrový rozptyl ezávisí a zvětšeí či zmešeí všech hodot výběru o kostatu. Jestliže všechy hodoty výběru zvětšíte m - krát, zvětší se výběrový rozptyl m krát. Těchto vlastostí velmi často využíváme pro úpravu původí tabulky dat tím, že všechy hodoty posueme - volba ového počátku a výrazě zmešíme ( zvětšíme ) volba ové jedotky..3..4 Variačí koeficiet Nechť má výběr čleů s průměrem x a směrodatou odchylkou s. Potom variačí koeficiet výběru v je daý vztahem s v =.% (.3) x Používáme ho, když chceme porovat variabilitu růzých zaků ve výběru ebo mezi růzými výběry..3.3 Charakteristiky tvaru rozděleí.3.3. Výběrová míra šikmosti Jde o číselý údaj, který vypovídá o o souměrosti či esouměrosti tvaru rozděleí. Ozačuje se symbolem a. a = ( x x ) 3 i 3, (.4) s. kde je počet čleů výběru, s je hodota výběrové směrodaté odchylky, x je průměr a x i je kokrétí hodota výběru. Je li rozděleí souměré, je hodota a =. Rozděleí je tím esousměrější, čím se hodota a více liší od uly. Je li jeho hodota kladá, potom je rozděleí zešikmeo kladě ( ve výběru je větší kocetrace meších hodot ). Je li jeho hodota záporá, potom je zešikmeo záporě (ve výběru je větší kocetrace větších hodot). Pokračujme s aším příkladem, s daty z tabulky.3. Níže vidíme data v grafu.
Polygo četostí 3,5 3,5,5,5 8 3 8 3 8 33 38 Hodota míry šikmosti pro aše hodoty a =. Je tedy kladá a data jsou zešikmea kladě..3.3. Výběrová míra špičatosti. Tato míra popisuje stupeň kocetrace hodot zaku kolem charakteristiky úrově ( kolem průměru ). Stejé ahuštěí prostředích i krajích hodot vede k plochosti ( hodota míry je potom záporá ), větší ahuštěí prostředích hodot se projevuje špičatostí rozděleí( hodota míry je kladá. Tato míra porovává daé rozděleí s ormovaým ormálím rozděleím N(,) ( má hodotu špičatosti rovu ule ). Vypočte se podle vztahu 4 ( xi x) = 4 b 3, (.5) s. ozačuje se symbolem b. Hodota špičatosti pro aše data z tabulky.3 je rova,93. Rozděleí je ploché, což je vidět i z polygou četostí..4 Grafické zobrazeí dat Pro presetaci statistických údajů je velmi působivé používat růzé grafické způsoby. Každý typ grafického zobrazeí hodot má svoje omezeí, ale zároveň i svoje výhody. Kromě klasických typů se k zobrazováí statistických dat hodí speciálí grafy, jede typ jsme už měli možost vidět v části.3..3 Kvatily a mediá šlo o tzv. Box Plot eboli Krabicový graf. V dalším si ukážeme možé grafy pro presetaci údajů. Běžé grafy.4. Bodový graf Zázorňuje hodoty pomocí bodů,většiou v pravoúhlé soustavě. Používá se většiou k zachyceí závislostí právě dvou statistických zaků. Při více ež dvou zacích jeho jedoduchost mizí a stává se méě přehledým. Nelze pomocí ěho vystihout data s větší četostí.
Graf. velikost ákladů v závislosti a pořadí 4 35 3 5 5 5 Náklady Náklady 5 5 5 3.4. Spojicový graf Jestliže chceme zázorit velké možství hodot, chceme li vystihout průběh časové řady hodí se k tomu více spojicový graf. Používá se také k vyjádřeí předpokladu o spojitosti vyšetřovaého zaku. Jestliže se pomocí ěho vyjadřuje rozložeí absolutích ebo relativích četostí ve výběru, azýváme se polygo četostí. Graf. spojicový graf, vyjadřuje změu ákladů 4 35 3 5 5 5 5 5 5 3 Náklady Po změě.4.3 Sloupcový graf Sloupcový graf vyjadřuje jedoduché závislosti mezi dvěma hodotami, velmi často jsou jedotlivé prvky výběru seskupováy do tříd. Existuje ěkolik typů těchto grafů klasické sloupcové, sloupcové s procetím rozložeím, trojrozměré sloupcové grafy. Klasická ukázka je uvedea v grafu.3
Graf.3- rozděleí ákladů do tříd Sloupcový graf četostí 8 7 6 5 4 3 četost -5 5 - - 5 5 - - 5 5-3 3-35 35-4 4-45.4.4 Histogram Svou defiicí je to sloupcový graf, který se používá k zázorěí absolutích ebo relativích četostí (většiou )spojitého zaku. Sloupce v grafu jsou zásadě vertikálí,šířka sloupce odpovídá velikosti třídy a celková plocha sloupce odpovídá četosti prvků třídy ve výběru. 8 6 4 Histogram 5 5 5 3 35 4 45.4.5 Kruhový graf Zobrazuje hodoty jako výseče v kruhu a tím se zachytí struktura výběru. Předchozí data jsou zobrazea v kruhovém grafu ( koláč, výsečový graf ) takto 9% % 9% 6% 6% % 38% 5 5 5 3 35 4 45 3% 6% Speciálí statistické grafy
Jedím z užívaých grafických způsobů je dříve uvedeý histogram. V současé době existuje moho profesioálích způsobů presetace statistických dat. V části.3..3 Kvatily a mediá jsme zavedli velmi užitečý typ Box Plot český ekvivalet ázvu je Krabicový graf. Statistických grafů existuje velké možství, zaměříme se a ěkteré speciálí..4.6 Kvatilový graf Jde typ grafu, kterým můžeme přehledě zázorit data, porovat je se zámými rozděleími, ajít vybočující hodoty atd. Na osu x aášíme pořadovou pravděpodobost teoretického rozděleí, a osu y skutečé kvatily daých dat. Na grafu íže je uvedeo porováí výběru s N(,). Data se s hodotami teoretického rozděleí eshodují, zjevě 3 - N(,) výběr - -3,,4,6,8 vybočují a krajích. Teto typ grafu se velmi často užívá pro prví porováí údajů především s ormálím ormovaým rozděleím. Dříve se k takovému porováí používal tzv. pravděpodobostí papír, des ho provádíme s pomocí počítače. Mezi základí statistická vyšetřováí patří rozhodutí, zda daý výběr patří ebo epatří k rozdělím symetrickým. K takovému rozhodutí ám pomáhá ásledující typ grafu:.4.7 Graf polosum Jeho kostrukce je založea a myšlece, že u symetrického rozděleí je aritmetický průměr kvatilu p% a kvatilu (-p)% stejý a je rove mediáu. Níže je uvede daý graf pro data vyšetřovaá v předchozí části. Symetrická rozděleí jsou tedy charakterizováa přímkou y= x. Celkově je zřejmé,že data pochází ze symetrického rozděleí. 75 7 65 6 55 5 3 4 5 6 7 8 9 45 4 35 3 5
.4.8 Graf symetrie Pomocí tohoto grafu je možo sledovat zak symetrie výběru. Na osu x aášíme u P hodoty i i pro Pi = a a osu y stejé hodoty jako u předchozího grafu tedy hodoty + ( x x ) ( + i) ( i) osa x 5,37 5,,7,,7,3,37 Opět je zřejmé, že hodoty výběru jsou symetrické, s výjimkou krajích hodot. Pomocí dalšího grafu je možo srovávat parametr špičatosti s rozděleím N(,)..4.9 Graf špičatosti Za předpokladu symetrie je pro ormálí rozděleí grafem přímka. Pokud leží body a přímce s eulovou směricí, je hodota této směrice odhadem výběrového parametru špičatosti. Opět je zřejmé, že data odpovídají symetrii, avíc můžeme z grafu odhadout výběrovou špičatost.,4,35,3,5,,5,,5 4, 4, 4,3 4,4 4,5 4,6