4. Základí statistické pojmy. 4. Úvodí iformace Statistika je často představováa jako pouhý sběr čísel ebo jim podobých údajů. Původí výzam toho slova skutečě souvisí se sběrem iformací o státu ( z latiského status stát ) počtu obyvatel, sídel, o výběru daí atd. I des existují istituce, které se zabývají takovýmto sběrem dat, v ČR je to Český statistický úřad. Sbírá a zveřejňuje ěkteré iformace o obcích, průmyslu, ekoomice, o demografickém rozvoji státu. Pod pojmem statistika des však mííme mohem více, statistika se v jistém slova smyslu stala jazykem pro práci s daty, pro jejich zpracováí a iterpretaci. Ze statistiky se stala rozviutá vědecká metoda aalýzy dat, která achází široké uplatěí v přírodích i společeských vědách i ve společosti vůbec. Při vlastí praxi uplatňujeme dva způsoby přístupu k údajům. Především je to přístup k iformacím vějšího prostředí a posléze aše reflexe a tyto údaje ve formě zobecěí. Například při porováváí sledovaosti televizích kaálů eoslovujeme všechy domácosti, ale z pečlivě vybraých domácostí a jejich sledovaosti televize čiíme závěry platé pro všechy domácosti. Proces zobecňováí pozatků azýváme iduktivím způsobem usuzováí ( idukcí ) apř. zobecěí sledovaosti ve výběru a všechy domácosti. Schopost přijímat ové pozatky a z ich se učit a vyvozovat závěry jsou jedím ze základích rysů lidského uvažováí. Druhým způsobem uvažováí je pricip deduktivího přístupu k údajům ( dedukce ). Při deduktivím přístupu čiíme závěry z obecých zákoitostí. Závěry myšlekových procesů iduktivího charakteru jsou ovlivěy postojem subjektu. Iduktiví statistika se zabývá způsoby jak přeášet závěry takovýchto procesů, umožňuje z pozorovaých dat vytvářet obecé závěry s určeím jejich spolehlivosti. Výpočty takových spolehlivostí jsou založey a pozatcích teorie pravděpodobosti a jsou proto objektiví. 4. Statistický soubor a výběry Jedím ze základích pojmů, s kterými se budeme setkávat stále jsou populace ( statistický soubor ) a výběr. Populace je možia všech prvků, které jsou předmětem daého statistického zkoumáí. Každý z prvků je statistickou jedotkou. Prvky tvořící statistický soubor jsou buď dáy prostě výčtem ebo mají určité společé vlastosti - tzv. idetifikačí zaky - umožňující určit, zda prvek do daého statistického souboru patří ebo epatří. Idetifikačí zaky tedy statistický soubor mohou vymezovat. Z hlediska velikosti je zřejmé, že většia populací bude mít koečý rozsah, ekoečý rozsah budou mít takové populace, které jsou určey zakem, který můžeme hypoteticky ekoečěkrát opakovat ( apř. měříme hmotost po pokusu, teplotu atd. ). Podle počtu sledovaých zaků je potom takováto populace jedorozměré či vícerozměrá ( sledujeme dva a více zaků apř. teplotu, tlak; komuikativost, iteligeci atd. ). Pro vlastí popsáí populací se používá metoda parametrů charakteristik. Jde o číselé hodoty, které jsou většiou pevá čísla. Jejich hodota eí záma a je uto ji zjistit či odhadou vhodými statistickými metodami. Zaky, které sledujeme v populaci mají obecě buď charakter kvatitativí ( lze je vyjádřit číslem apř. délka, hmotost, teplota ) a kvalitativí ( jsou většiou vyjádřey textem ). Kvatitativí zaky dělíme dále a spojité výsledky zkoumáí mohou abývat hodot ěkterého itervalu ( teplota, délka ) a diskrétí jestliže existuje je koečě moho možých stavů zaku ( apř. počet dětí v rodiě, počet vykvetlých rostli atd. ).
K vlastímu měřeí kvatitativích údajů používáme buď itervalových ebo poměrových stupic. Jestliže chceme zjistit je rozdíl mezi kvalitativími hodotami, používáme itervalovou stupici ( v takovýchto stupicích je počátek vole apř. C, stupice výšky tóu, stupice bolesti atd. ). Při takovémto způsobu měřeí je většiou esmyslé ozačeí prvek a má hodotu zaku x větší ež prvek b, eboť počátek je možo volit růzě ( apř. teplota ). Pokud chceme měřit údaje ve vztahu k pevým jedotkám ( váha, vzdáleost ) používáme stupici poměrovou. Kvalitativí zaky se sažíme také měřit, používáme k tomu omiálí ( pojem ) a ordiálí ( pořadí ) stupici. Nomiálí stupice je složea z ejméě dvou avzájem se vylučujících tříd. Jestliže jsou třídy právě dvě azývá se dichotomická. Příklady takovéto stupice: pohlaví / mužské, žeské /; barva / modrá, zeleá, červeá, bílá /. Příkladem takovéto klasifikace je také. meziárodí stupice emocí, úrazů a příči smrti. Čísla, která jsou přiřazea jedotlivým chorobám ic evypovídají o daé chorobě. Ordiálí stupice je založea opět a eslučitelých třídách, ale ty jsou ještě avzájem uspořádáy. Příklady takovýchto stupic: ejvyšší úroveň vzděláí / egramotý, základí, středí, vysokoškolské / ; srozumitelost / žádá, malá, středí, uspokojivá, vyikající/. V tabulkách 4. a 4. íže jsou uvedey způsoby použití jedotlivých stupic. Tabulka 4. Typ stupice Použití pro data Přípusté změy Charakteristiky rozděleí Nomiálí stupice Jsme schopi rozhodout o rozdílu mezi jedotlivými prvky populace a o jejich zařazeí do tříd Permutace, přejmeováí Absolutí četost, relativí četost, modus Ordiálí stupice Navíc: Umíme určit, který prvek je meší a který větší a zařadit je do správých tříd Možo změit pomocí mootóí trasformace ( rostoucí ) Dále: Kumulativí četost, pořadí, kvatily, mediá, pořadové hodoty Itervalová stupice Navíc: Umíme staovit relativí ulový bod ( počátek ) a zjistit vztah prvků vůči ěmu ( rozdíly!) Lieárí změa - posuutí a zmešeí ebo zvětšeí ( y = a x + b ) Dále: Aritmetický průměr, směrodatá odchylka, šikmost, špičatost Poměrová stupice Tabulka 4. Navíc: Umíme staovit absolutí ulový bod ( počátek ) a zjistit vztah prvků vůči ěmu ( podíly!) Změa je zvětšeí ebo zmešeí ( kladé ) tj. y = a x ( a > ) Dále: Ostatí průměry ( harmoický, geometrický ), variačí koeficiet Typ stupice Testy Závislost, ezávislost Nomiálí stupice c - testy Kotigečí koeficiety, čtyřpolíčkový koeficiet Ordiálí stupice Dále: Pořadové testy, Kolmogor - Smirův test, U - test Pořadový korelačí koeficiet Itervalová stupice Dále: Parametrické testy odvozeé z Korelačí koeficiet, biseriálí N(,) koeficiety Poměrová stupice Stejě jako výše Stejě jako výše Pro vyšetřeí populace používáme růzý způsob přístupu k datům : Provádíme buď statistický pokus, statistické šetřeí ebo pozorovací studii. Účelem statistického pokusu je pláovitě měit faktory ( podmíky ) a sledovat jejich vliv a změu vyšetřovaých zaků. Výběr prvků s imiž experimetujme provádíme zásadě áhodě, aby edošlo k vychýleí výsledých hodot. Při tzv. kotrolovaém pokusu rozdělíme vyšetřovaé skupiy a
pokusé a kotrolí. U pokusé skupiy byla provedey změa, u kotrolí ikoli. Aby byl pokus dostatečě objektiví, je uto, aby obě skupiy byly rovoceé jak a začátku pokusu, tak i v jeho průběhu. Chceme li zabráit příosu subjektiví iformací volíme často pricip tzv. slepého pokusu, kdy te kdo údaje vyhodocuje ( apř. lékař ) evěděl, která skupia je kotrolí a která je pokusá. Jestliže ai vyšetřovaý subjekt eví zda je v pokusé ebo kotrolí skupiě azýváme teto pricip dvojité utajeí ebo dvojitý slepý pokus. Je vidět, že pricip áhodého výběru a rozděleí a pokusou a kotrolí skupiu zlepšuje výsledky ( odstraňujeme eobjektivitu a závislost ). Někdy ovšem eí možé získávat data maipulací s prvky populace. Neí možo provádět statistický pokus, můžeme však jedoduše pozorovat jak probíhají změy a registrovat je. Takovému přístupu říkáme statistické šetřeí ebo pozorovací studie. Používáme ho tehdy, kdy emůžeme využít pricip áhody ( případy, kdy rozložeí zaků v populaci je dáo apř. vzděláí, pohlaví a v pokusu by ebylo respektováo ; ěkdy eí možo realizovat statistický pokus z etických důvodů ( maipulace s lidmi ). Vidíme tedy, že v případě statistického šetřeí se spokojujeme s pasivím sběrem dat. Problémem takovýchto studií je, že pozorovaý jev je velmi často ovlivě ežádoucími zaky. Pro pojem úplého šetřeí tj. šetřeí provedeého a celé populaci se vžil pojem cesus ( sčítáí lidu ). Pro jeho vysoké ekoomické áklady se provádí v aší republice jedou za deset let. Každé statistické šetřeí v podobě cesu by bylo především ekoomicky velmi áročé. Ve většiě případů te, kdo chce provést statistické šetřeí má omezeé zdroje ( fiace, čas ). Někdy je k dispozici je málo údajů ( šetřeí vzácé choroby ebo zvláštího chováí pacietů ). Při dalších šetřeích bychom museli populaci zičit ( apříklad sledováí životosti výrobků ). Výběr může ést přesější výsledky ež úplé šetřeí ( při velkém možství chyb viou eodborých špatě proškoleých pozorovatelů vzike chyba eodstraitelá ). Jakákoli část populace, která dobře odráží její strukturu ( především vyšetřovaé zaky ) azveme reprezetativím výběrem. Ostatí typy výběru se azývají selektiví výběry, většiou dávají zkresleý obrázek o vyšetřovaé populaci. Příkladem selektivího výběru je vzorek vysokoškolských profesorů, z ěhož budeme usuzovat a vzdělaost celé populace. Je jisté, že struktura vzdělaosti v ašem výběru bude začě vychýlea proti celé populaci. Správé výběry pořizujeme metodami áhodého výběru ebo metodami záměrého výběru. Metoda záměrého výběru se opírá expertí staoviska k vytvořeí represetativího výběru ( prováděa často v psychologii, sociologii ). Jsou často závislé a subjektu experta. Metoda áhodého výběru umožňuje vybírat prvky populace áhodě a ezávisle a subjektech. Podle způsobu provedeí rozlišujeme ěkolik druhů áhodého výběru: Prostý áhodý výběr provádě většiou metodou losováí ( každý prvek populace může být vylosová ). Dříve se prováděl i pomocí tabulek áhodých čísel, des možo použít i vhodý geerátor áhodých čísel růzých statistických, ale i estatistických programů. Mechaický výběr jde o jistou formu prostého výběru, ejdříve áhodě očísluji prvky populace a poté zvolím pevé číslo. Všechy prvky, které získám vždy o pevý zadaý krok budou v daém výběru. Pokud eprovedeme a začátku áhodé očíslováí, ale číslováí je už vytvořeo musí dbát a to, aby krok výběru esouvisel s číslováím. Oblastí výběr. Celá populace je rozdělea do částí oblastí tak, aby se ve sledovaých zacích se od sebe velmi odlišovali, v rámci jedé oblasti jsou sledovaé zaky málo odlišé. V jedotlivých oblastech potom provedeme prostý výběr. Spojeím všech takovýchto dílčích výběrů získáme celý hledaý výběr.
Skupiový výběr. V případě populací, které čítají statisíce ebo milioy prvků je skoro emožé předchozími metodami vytvořit áhodý výběr. Vyžíváme proto přirozeé rozděleí populace a meší celky ebo vytváříme vlastí umělé děleí. Požadujeme, aby prvky ( skupiy ) děleí byly pokud možo stejě velké a vyšetřovaé zaky heterogeí v rámci jedé skupiy. Variabilita mezi jedotlivými skupiami by měla být co ejmeší. Vícestupňový výběr. Provádí se tehdy, kdy existuje hierarchický popis celé populace ( geografický, sociálí model ). 4.3 Popisá statistika Popisá statistika (deskriptiví statistika) se zabývá popisem stavu ebo vývoje hromadých jevů. Nejprve se vymezí soubor prvků, a ichž se bude uvažovaý jev zkoumat. Následě se všechy prvky vyšetří z hlediska studovaého jevu. Výsledky šetřeí - kvalitativí i kvatitativí, vyjádřey především číselým popisem - tvoří obraz studovaého hromadého jevu vzhledem k vyšetřovaému souboru. V předchozí části jsme studovali pojem statistického výběru. V této části budeme předpokládat, že jsme provedli výběr z populace a budeme se sažit z těchto dat získat údaje o vlastostech základího souboru. Grafické zázorěí výběrových rozděleí je uvedeo v ásledující kapitole. V této kapitole budeme využívat data z tabulky 4.3 Tabulka 4.3: Rozděleí měsíčích ákladů studetů a bydleí Pořadí Náklady Pořadí Náklady Pořadí Náklady 85 56 9 9 56 9 3 9 3 65 3 3 4 9 4 67 4 35 5 9 5 78 5 35 6 3 6 79 6 35 7 3 7 85 7 34 8 5 8 8 36 9 9 9 6 9 37 9 8 3 385 Uveďme dále důležité pojmy, které budeme eustále využívat. Četost ( absolutí ) hodoty x i je daá počtem prvků x i ve výběru. Relativí četost hodoty x i je daá podílem absolutí četosti a celkového počtu prvků ve výběru. Kumulativí absolutí četost hodoty x i je daá součtem všech absolutích četostí prvků, které jsou meší ebo rovy prvku x i. Kumulativí relativí četost hodoty x i je dáa součtem všech relativích četostí prvků, které jsou meší ebo rovy prvku x i. 4.3. Míry polohy Jde o číselé hodoty pomocí, ichž určujeme polohu míst, kolem kterých jsou data ejvíce umístěy. 4.3.. Průměr Průměr x se používá v případě kvatitativích zaků. Je velmi citlivý a odlehlé hodoty. Průměr hodot x, x,, x vypočteme takto
xi x + x +... + x x = = (4.). Pro aše data je x = 4, 33. Někdy jsou data uvedea v tabulce včetě svých absolutích četostí ( počtu opakováí ), potom počítáme průměr jako tzv. vážeý průměr: k i. xi x = (4.) V tomto případě jsou data rozdělea a k skupi o k prvcích. Pokud jsou data uvedea v tabulce roztříděých dat ( původí dat jsou ahrazea příslušostí do jedoho z vybraých itervalů ) vytvoříme ejprve střed itervalu ( bude ahrazovat všecha data uvedeá v daém itervalu ) a pak z těchto hodot vytvoříme podle vztahu (4.) průměr. Tabulka 4.4 třídí rozděleí četostí: Rozpětí četost -5 5-5 - 5 5 5-7 - 5 5-3 4 3-35 5 35-4 3 4-45 Hodota středů itervalů je 5, 75,, 45. Spočítáme li průměr podle vzorce (4.) je hodota třídího průměru rova 733,7. Je vidět, že hodota tohoto průměru velmi závisí a správé volbě rozpětí třídy. Pro vytvořeí stejě velkých tříd o počtu k z prvků je možo použít tzv. Sturgesovo pravidlo k º + 3,3. log (4.3) Například pro áš případ je = 3 a tedy hodota k º 5,8745. Tedy volíme k = 6. Uveďme dále ěkteré důležité vlastosti průměru: a) Jestliže ke každé hodotě x i ve výběru přičteme kostatu k, zvětší se o kostatu k také původí průměr ( k může být libovolé reálé číslo ). b) Násobíme li každou hodotu ve výběru x i stejou kostatou m, vypočteme ový průměr jako souči starého průměru a kostaty m c) Součet odchylek všech hodot x i ve výběru od jejich průměru x je rove ule ( x) = x (4.4) i d) Součet čtverců odchylek všech hodot od jejich průměru je meší ež součet čtverců odchylek všech hodot od libovolé jié hodoty. a x ( ) ( ) x x a x i i (4.5) Těchto vlastostí průměru využíváme také k tomu, abychom upravili vstupí hodoty jejich zmešeím ( resp. zvětšeím ) a posuutím. Průměr se používá jako číselá charakteristika protože: a) Je jedozačý
b) Je lieárí c) Je spolehlivou číselou hodotou. Průměr epoužijeme, jestliže a) Rozděleí je vícevrcholové b) Rozděleí má a krajích otevřeé třídy c) Údaje ejsou škálovaé metricky, ale ordiálě d) Výběr je extrémě malý e) Rozděleí je asymetrické 4.3.. Modus Modus xˆ je hodota, která se vyskytuje ejčastěji. Podle tabulky 4. ho můžeme zjišťovat i zaků, které jsou kvalitativí, dokoce i omiálí. Neí ovlivňová všemi prvky ve výběru. Jestliže je četost všech prvků ve výběru stejá, modus eurčujeme. Jestliže dvě ebo více avzájem sousedících hodot abývají stejé ejvětší četosti, pak aritmetický průměr z těchto hodot azveme modulem. Jestliže existují dvě avzájem esousedící hodoty s ejvětšími stejými četostmi, uvádíme obě jako modus. Rozděleí je pak dvou vrcholové ( bimodálí ). Již ze samé defiice modusu je jasé, že tato charakteristika velmi závisí a výběru a většiou velmi kolísá. Příklad 4.3... Zjistěte modus šetřeí výběru barev respodetů bílá, červeá, modrá, červeá, zeleá, bílá, červeá, modrá, bílá, červeá. Odpověď : Nejčetější výskyt má a modus je červeá. Příklad 4.3... Zjistěte hodotu modusu pro data z aší tabulky 4.3. Odpověď: Podle tabulky je x ˆ = 9. Jestliže jsou kvatitativí zaky uspořádáy do třídí tabulky, určíme ejdříve modálí iterval x D ( s ejvyšší četostí ) a modus staovíme iterpolací xˆ = xd + h. (4.6) + m kde h je délka modálího itervalu, je četost, x D je dolí hraice tohoto itervalu, je četost ásledujícího itervalu a m četost předchozího itervalu. Aplikujme vzorec (4.6) a data z tabulky 4.4 xˆ = xd + h. = 5 + 5. = 583,33. + m 6 Vidíme tedy, že modus zjištěý podle vzorce (4.6) může být výrazě odlišý od modusu skutečého. 4.3..3 Kvatily a mediá Přirozeou mírou jsou kvatily. Daý výběr se ejdříve seřadí od ejmeší hodoty po ejvětší a poté určíme pro daý p% kvatil pořadové číslo jedotky p, pro které platí p p. < p <. +, (4.7) kde je počet prvků výběru. Pro hodotu p = 5% se daý kvatil ozačuje mediá ~ x. Jestliže je počet sudé číslo, vypočteme mediá jako průměrou hodotu z hodot stojících vlevo a vpravo od
teoretického mediáu určeého vzorcem (4.7). Mediá popisuje hodotu, která dělí daý výběr a dvě stejě velké části. V ašem příkladě je ~ 78 + 79 x = 785 =. Další výzamé kvatity jsou : Dolí kvartil x,5 je urče jako 5% kvatil. Horí kvartil x,75 je urče jako 75% kvatil. V ašem případě je x,5 = 8 a x,75 = 3. Pro hodoty kvartilů vytváříme ještě jedu míru ( jde o míru variability ) a to kvartilové rozpětí R q = x,75 - x,5 V ašem případě je R q = 3 8 = 9. Pro hodoty p=,,,9 azýváme takto spočteé kvatily ázvy decily. Pro hodoty p =,,3,,99 azýváme podobě kvatily jako percetily. Pomocí kvartilů je také možo velmi přehledě zázorit data v grafu s ázvem Box Plot. Pomocí ěho můžeme rozdělit data z výběru a vitří, vější a odlehlá. Vytváříme ho ásledujícím způsobem: Základím prvkem grafu je obdélík, jehož hray tvoří hodoty dolího a horího kvartilu uvitř tohoto obdélíku je 5% hodot výběru. Uvitř je svislou čarou vyzače mediá, popř. tečkou průměr ( křížkem modus). Z obdélíku vedou dvě úsečky kolmé k hraám, jejichž délka je dáa vzdáleostí vitřích hradeb od hray obdélíku. Vitří hradby se vypočtou tímto předpisem h D = x,5,5. ( x,75 x,5 ) (4.8) h H = x,75 +,5. ( x,75 x,5 ) (4.9) V ašem případě jsou h D = 8,5. 9 = -8 a h H = 3+,5.9 =5865. Dále se počítají vější hradby H D = x,5.(,5. ( x,75 x,5 )) (4.) H H = x,75 +.(,5. ( x,75 x,5 )) (4.) V ašem případě je H D = 8-3.9= - 468 a H H = 3+3.9 = 873. Hradby slouží pro idetifikaci dat ve výběru. Hodoty uvitř vitřích hradeb jsou hodoty přilehlé; hodoty mezi vitřími a vějšími hradbami jsou hodoty vější a hodoty vě vějších hradeb jsou hodoty vzdáleé ebo jiak odlehlé. Do grafu se zakresluje i miimum a maximum jako body. 85 385-465 -8 8 785 3 5865 873 Jestliže máme data uvedea v třídí tabulce musíme p% kvatil počítat pomocí lieárí iterpolace x p xd p D =, (4.) x x H D H D
kde x D je dolí a x H je horí mez itervalu v ěmž leží daý kvatil; D je kumulativí relativí četost odpovídající x D a H je kumulativí relativí četost odpovídající x H.Zjistěme hodotu kvatilu pro áš případ tabulky 4.4: ~ x 5,5,33 = ~ x = 854,67. 5,57,33 Použití mediáu je vhodé při rozděleích s otevřeými třídami, pro ordiálí hodoty, pro velmi symetrická rozděleí. 4.3..4 Geometrický průměr Provádí se je pro hodoty ve výběru, které jsou kladé. Jeho ozačeí je G a spočítá se jako tá odmocia ze součiu hodot x i. Používáme ho, jak je zřejmé z defiice, a kvatifikovatelé zaky měřeé a poměrové stupici. Používá se k určeí průměré změy velikosti, jestliže předpokládáme, že tato změa je kostatí ( multiplikativě ). G = x. x.. (4.3) L x 4.3..5 Harmoický průměr Harmoický průměr H zjistíme jako podíl počtu hodot a součtu převráceých hodot výběru. H = (4.4) xi 4.3. Míry variability Pomocí je měr polohy elze přesě popsat výběr, protože moho dat má stejé ebo přibližě stejé hodoty jedotlivých parametrů měr polohy, přesto jsou a prví pohled odlišé. Na obrázku íže je uvede případ tří skupi dat, která mají stejý průměr, modus, mediá a přesto jsou odlišá. Odlišost vidíme v soustředěí hodot kolem průměru. Toto soustředěí budeme studovat pomocí růzých měr variability.,8,7,6,5,4,3,, -4-3 - - 3 4 4.3.. Variačí rozpětí Variačí rozpětí R se vypočte jako rozdíl mezi ejvětší a ejmeší hodotou výběru. R = x max x mi (4.5) Pokračujme dále v ašem příkladě, hodota R = 3 85 85 = 3
Výhodou této míry je jedoduchost určeí a porozuměí. Je však málo stabilí vzhledem k počtu čleů výběru. Používá se proto je u malých výběrů ( ). Výrazě závisí a velikosti výběru. Proto emůžeme mezi sebou porovávat jedotlivé hodoty variačího rozpětí z růzě velkých výběrů. Nedává spolehlivé odhady rozptylu základího souboru. 4.3.. Průměrá odchylka Průměrou odchylku e výběru defiujeme jako aritmetický průměr z absolutích hodot odchylek všech hodot výběru od průměru xi x e = (4.6) Uvádíme ji je pro úplost. Je málo stabilí vzhledem k velikosti výběru a dává espolehlivé odhady pro rozptyl. 4.3..3 Rozptyl a směrodatá odchylka Nejužívaější mírou variability je rozptyl ( resp. směrodatá odchylka ). Pomocí ěho měříme velikost čtverců odchylek jedotlivých hodot výběru od průměru. Ozačujeme ho většiou symbolem s a azýváme ho výběrovým rozptylem s =. ( x i x ), (4.7) i = Všiměme si, že při výpočtu edělíme součet odchylek čtverců hodotou ( jako při defiici klasického rozptylu ), ale hodotou ( azývaou také počtem stupňů volosti ). Je to provedeo proto, že získáme lepší odhad skutečého rozptylu s populace. Výběrová směrodatá odchylka se ozačuje symbolem s a je rova odmociě z výběrového rozptylu s =. ( x i x), (4.8) Pro vlastí výpočet se hodí i jiá forma vzorce (4.7) xi xi s = x x =, i =,, L, (4.9) Použijeme li vzorce a určeí rozptylu pro data z tabulky 4.3 získáme s = 9733,448 a hodota s = 9,8. Jsou li hodoty x i výběru uvedeé včetě četostí i potom přejde vzorec (4.6) a k k s =. i. ( xi x) =. i. xi. x, 4.) kde k je počet všech růzých hodot ve výběru a je celkový počet prvků výběru. Jestliže jsou data uvedea pomocí tříděí do itervalů apř. data z tabulky 4.4, potom většiou hodoty x i zameají středy třídích itervalů a i počet dat v tomto itervalu. Pokud jsou třídí itervaly ekvidistatí ( mají pevou délku ) s rozměrem h bude výpočet podle vzorce (4.) zatíže chybou. Tuto chybu opravujeme pomocí tzv. Sheppardovy korekce h s kor = s (4.)
Použijeme li opět aše data z tabulky 4.4 získáme : Nekorigovaé hodoty s = 5 a s =,49; Korigovaé hodoty s kor = 98666,7 a s kor = 99,799. Velmi často astává případ, že celý výběr je z určitých důvodů rozděle do k dílčích částí. V i té části je počet prvků rove i, průměr je rove x i a výběrový rozptyl s i. Potom můžeme počítat celkový výběrový rozptyl s jako k k s =. ( i ). si + i. ( xi x) (4.) Z předchozího vzorce vyplývá, že celkový výběrový rozptyl s můžeme rozložit a dvě části a vitroskupiový a meziskupiový. Vitroskupiovým výběrovým rozptylem sledujeme variabilitu uvitř jedotlivých skupi a meziskupiovým výběrovým rozptylem variabilitu mezi těmito skupiami. Takovéto metody rozděleí celkové variability a ezávislé části budeme dále využívat v části Aalýza rozptylu ( ANOVA ). Výběrový rozptyl ezávisí a zvětšeí či zmešeí všech hodot výběru o kostatu. Jestliže všechy hodoty výběru zvětšíte m - krát, zvětší se výběrový rozptyl m krát. Těchto vlastostí velmi často využíváme pro úpravu původí tabulky dat tím, že všechy hodoty posueme - volba ového počátku a výrazě zmešíme ( zvětšíme ) volba ové jedotky. 4.3..4 Variačí koeficiet Nechť má výběr čleů s průměrem x a směrodatou odchylkou s. Potom variačí koeficiet výběru v je daý vztahem s v =.% (4.3) x Používáme ho, když chceme porovat variabilitu růzých zaků ve výběru ebo mezi růzými výběry. 4.3.3 Charakteristiky tvaru rozděleí 4.3.3. Výběrová míra šikmosti Jde o číselý údaj, který vypovídá o o souměrosti či esouměrosti tvaru rozděleí. Ozačuje se symbolem a. a = ( x x ) 3 i 3, (4.4) s. kde je počet čleů výběru, s je hodota výběrové směrodaté odchylky, x je průměr a x i je kokrétí hodota výběru. Je li rozděleí souměré, je hodota a =. Rozděleí je tím esousměrější, čím se hodota a více liší od uly. Je li jeho hodota kladá, potom je rozděleí zešikmeo kladě ( ve výběru je větší kocetrace meších hodot ). Je li jeho hodota záporá, potom je zešikmeo záporě (ve výběru je větší kocetrace větších hodot). Pokračujme s aším příkladem, s daty z tabulky 4.3. Níže vidíme data v grafu.
Polygo četostí 3,5 3,5,5,5 8 3 8 3 8 33 38 Hodota míry šikmosti pro aše hodoty a =. Je tedy kladá a data jsou zešikmea kladě. 4.3.3. Výběrová míra špičatosti. Tato míra popisuje stupeň kocetrace hodot zaku kolem charakteristiky úrově ( kolem průměru ). Stejé ahuštěí prostředích i krajích hodot vede k plochosti ( hodota míry je potom záporá ), větší ahuštěí prostředích hodot se projevuje špičatostí rozděleí( hodota míry je kladá. Tato míra porovává daé rozděleí s ormovaým ormálím rozděleím N(,) ( má hodotu špičatosti rovu ule ). Vypočte se podle vztahu 4 ( xi x) = 4 b 3, (4.5) s. ozačuje se symbole b. Hodota špičatosti pro aše data z tabulky 4.3 je rova,93. Rozděleí je ploché, což je vidět i z polygou četostí. 4.4 Grafické zobrazeí dat Pro presetaci statistických údajů je velmi působivé používat růzé grafické způsoby. Každý typ grafického zobrazeí hodot má svoje omezeí, ale zároveň i svoje výhody. Kromě klasických typů se k zobrazováí statistických dat hodí speciálí grafy, jede typ jsme už měli možost vidět v části 4.3..3 Kvatily a mediá šlo o tzv. Box Plot eboli Krabicový graf. V dalším si ukážeme možé grafy pro presetaci údajů. Běžé grafy 4.4. Bodový graf Zázorňuje hodoty pomocí bodů,většiou v pravoúhlé soustavě. Používá se většiou k zachyceí závislostí právě dvou statistických zaků. Při více ež dvou zacích jeho jedoduchost mizí a stává se méě přehledým. Nelze pomocí ěho vystihout data s větší četostí. Graf 4. velikost ákladů v závislosti a pořadí
4 35 3 5 5 5 Náklady Náklady 5 5 5 3 4.4. Spojicový graf Jestliže chceme zázorit velké možství hodot, chceme li vystihout průběh časové řady hodí se k tomu více spojicový graf. Používá se také k vyjádřeí předpokladu o spojitosti vyšetřovaého zaku. Jestliže se pomocí ěho vyjadřuje rozložeí absolutích ebo relativích četostí ve výběru, azýváme se polygo četostí. Graf 4. sloupcový graf, vyjadřuje změu ákladů 4 35 3 5 5 5 5 5 5 3 Náklady Po změě 4.4.3 Sloupcový graf Sloupcový graf vyjadřuje jedoduché závislosti mezi dvěma hodotami, velmi často jsou jedotlivé prvky výběru seskupováy do tříd. Existuje ěkolik typů těchto grafů klasické sloupcové, sloupcové s procetím rozložeím, trojrozměré sloupcové grafy. Klasická ukázka je uvedea v grafu 4.3 Graf 4.3- rozděleí ákladů do tříd
Sloupcový graf četostí 8 7 6 5 4 3 četost -5 5 - - 5 5 - - 5 5-3 3-35 35-4 4-45 4.4.4 Histogram Svou defiicí je to sloupcový graf, který se používá k zázorěí absolutích ebo relativích četostí (většiou )spojitého zaku. Sloupce v grafu jsou zásadě vertikálí,šířka sloupce odpovídá velikosti třídy a celková plocha sloupce odpovídá četosti prvků třídy ve výběru. 8 6 4 Histogram 5 5 5 3 35 4 45 4.4.5 Kruhový graf Zobrazuje hodoty jako výseče v kruhu a tím se zachytí struktura výběru. Předchozí data jsou zobrazea v kruhovém grafu ( koláč, výsečový graf ) takto 9% % 9% 6% 6% % 38% 5 5 5 3 35 4 45 3% Speciálí statistické grafy Jedím z užívaých grafických způsobů je dříve uvedeý histogram. V současé době existuje moho profesioálích způsobů presetace statistických dat. V části 4.3..3 Kvatily 6%
a mediá jsme zavedli velmi užitečý typ Box Plot český ekvivalet ázvu je Krabicový graf. Statistických grafů existuje velké možství, zaměříme se a ěkteré speciálí. 4.4.6 Kvatilový graf Jde typ grafu, kterým můžeme přehledě zázorit data, porovat je se zámými rozděleími, ajít vybočující hodoty atd. Na osu x aášíme pořadovou pravděpodobost teoretického rozděleí, a osu y skutečé kvatily daých dat. Na grafu íže je uvedeo porováí výběru s N(,). Data se s hodotami teoretického rozděleí eshodují, zjevě 3 - N(,) výběr - -3,,4,6,8 vybočují a krajích. Teto typ grafu se velmi často užívá pro prví porováí údajů především s ormálím ormovaým rozděleím. Dříve se k takovému porováí používal tzv. pravděpodobostí papír, des ho provádíme s pomocí počítače. Mezi základí statistická vyšetřováí patří rozhodutí, zda daý výběr patří ebo epatří k rozdělím symetrickým. K takovému rozhodutí ám pomáhá ásledující typ grafu: 4.4.7 Graf polosum Jeho kostrukce je založea a myšlece, že u symetrického rozděleí je aritmetický průměr kvatilu p% a kvatilu (-p)% stejý a je rove mediáu. Níže je uvede daý graf pro data vyšetřovaá v předchozí části. Symetrická rozděleí jsou tedy charakterizováa přímkou y= x%. Celkově je zřejmé,že data pochází ze symetrického rozděleí. 75 7 65 6 55 5 3 4 5 6 7 8 9 45 4 35 3 5
4.4.8 Graf symetrie Pomocí tohoto grafu je možo sledovat zak symetrie výběru. Na osu x aášíme u P hodoty i i pro Pi = a a osu y stejé hodoty jako u předchozího grafu tedy hodoty + ( x x ) ( + i) ( i) osa x 5,37 5,,7,,7,3,37 Opět je zřejmé, že hodoty výběru jsou symetrické, s výjimkou krajích hodot. Pomocí dalšího grafu je možo srovávat parametr špičatosti s rozděleím N(,). 4.4.9 Graf špičatosti Za předpokladu symetrie je pro ormálí rozděleí grafem přímka. Pokud leží body a přímce s eulovou směricí, je hodota této směrice odhadem výběrového parametru špičatosti. Opět je zřejmé, že data odpovídají symetrii, avíc můžeme z grafu odhadout výběrovou špičatost.,4,35,3,5,,5,,5 4, 4, 4,3 4,4 4,5 4,6