9. Základí statstcké pojmy. Úvodí formace Statstka je často představováa jako pouhý sběr čísel ebo jm podobých údajů. Původí výzam toho slova skutečě souvsí se sběrem formací o státu ( z latského status stát ) počtu obyvatel, sídel, o výběru daí atd. I des exstují sttuce, které se zabývají takovýmto sběrem dat, v ČR je to Český statstcký úřad. Sbírá a zveřejňuje ěkteré formace o obcích, průmyslu, ekoomce, o demografckém rozvoj státu. Pod pojmem statstka des však mííme mohem více, statstka se v jstém slova smyslu stala jazykem pro prác s daty, pro jejch zpracováí a terpretac. Ze statstky se stala rozvutá vědecká metoda aalýzy dat, která achází šroké uplatěí v přírodích společeských vědách ve společost vůbec. Př vlastí prax uplatňujeme dva způsoby přístupu k údajům. Především je to přístup k formacím vějšího prostředí a posléze aše reflexe a tyto údaje ve formě zobecěí. Například př porováváí sledovaost televzích kaálů eoslovujeme všechy domácost, ale z pečlvě vybraých domácostí a jejch sledovaost televze číme závěry platé pro všechy domácost. Proces zobecňováí pozatků azýváme duktvím způsobem usuzováí ( dukcí ) apř. zobecěí sledovaost ve výběru a všechy domácost. Schopost přjímat ové pozatky a z ch se učt a vyvozovat závěry jsou jedím ze základích rysů ldského uvažováí. Druhým způsobem uvažováí je prcp deduktvího přístupu k údajům ( dedukce ). Př deduktvím přístupu číme závěry z obecých zákotostí. Závěry myšlekových procesů duktvího charakteru jsou ovlvěy postojem subjektu. Iduktví statstka se zabývá způsoby jak přeášet závěry takovýchto procesů, umožňuje z pozorovaých dat vytvářet obecé závěry s určeím jejch spolehlvost. Výpočty takových spolehlvostí jsou založey a pozatcích teore pravděpodobost a jsou proto objektví. Statstcký soubor a výběry Jedím ze základích pojmů, s kterým se budeme setkávat stále jsou populace ( statstcký soubor ) a výběr. Populace je moža všech prvků, které jsou předmětem daého statstckého zkoumáí. Každý z prvků je statstckou jedotkou. Prvky tvořící statstcký soubor jsou buď dáy prostě výčtem ebo mají určté společé vlastost - tzv. detfkačí zaky - umožňující určt, zda prvek do daého statstckého souboru patří ebo epatří. Idetfkačí zaky tedy statstcký soubor mohou vymezovat. Z hledska velkost je zřejmé, že větša populací bude mít koečý rozsah, ekoečý rozsah budou mít takové populace, které jsou určey zakem, který můžeme hypotetcky ekoečěkrát opakovat ( apř. měříme hmotost po pokusu, teplotu atd. ). Podle počtu sledovaých zaků je potom takováto populace jedorozměré č vícerozměrá ( sledujeme dva a více zaků apř. teplotu, tlak; komukatvost, telgec atd. ). Pro vlastí popsáí populací se používá metoda parametrů charakterstk. Jde o číselé hodoty, které jsou většou pevá čísla. Jejch hodota eí záma a je uto j zjstt č odhadou vhodým statstckým metodam. Zaky, které sledujeme v populac mají obecě buď charakter kvattatví ( lze je vyjádřt číslem apř. délka, hmotost, teplota ) a kvaltatví ( jsou většou vyjádřey textem ). Kvattatví zaky dělíme dále a spojté výsledky zkoumáí mohou abývat hodot ěkterého tervalu ( teplota, délka ) a dskrétí jestlže exstuje je koečě moho možých stavů zaku ( apř. počet dětí v rodě, počet vykvetlých rostl atd. ).
K vlastímu měřeí kvattatvích údajů používáme buď tervalových ebo poměrových stupc. Jestlže chceme zjstt je rozdíl mez kvaltatvím hodotam, používáme tervalovou stupc ( v takovýchto stupcích je počátek vole apř. 0 C, stupce výšky tóu, stupce bolest atd. ). Př takovémto způsobu měřeí je většou esmyslé ozačeí prvek a má hodotu zaku x větší ež prvek b, eboť počátek je možo volt růzě ( apř. teplota ). Pokud chceme měřt údaje ve vztahu k pevým jedotkám ( váha, vzdáleost ) používáme stupc poměrovou. Kvaltatví zaky se sažíme také měřt, používáme k tomu omálí ( pojem ) a ordálí ( pořadí ) stupc. Nomálí stupce je složea z ejméě dvou avzájem se vylučujících tříd. Jestlže jsou třídy právě dvě azývá se dchotomcká. Příklady takovéto stupce: pohlaví / mužské, žeské /; barva / modrá, zeleá, červeá, bílá /. Příkladem takovéto klasfkace je také. mezárodí stupce emocí, úrazů a příč smrt. Čísla, která jsou přřazea jedotlvým chorobám c evypovídají o daé chorobě. Ordálí stupce je založea opět a eslučtelých třídách, ale ty jsou ještě avzájem uspořádáy. Příklady takovýchto stupc: ejvyšší úroveň vzděláí / egramotý, základí, středí, vysokoškolské / ; srozumtelost / žádá, malá, středí, uspokojvá, vykající/. V tabulkách 9. a 9. íže jsou uvedey způsoby použtí jedotlvých stupc. Tabulka 9. Typ stupce Použtí pro data Přípusté změy Charakterstky rozděleí Nomálí stupce Jsme schop rozhodout o rozdílu mez jedotlvým prvky populace a o jejch zařazeí do tříd Permutace, přejmeováí Absolutí četost, relatví četost, modus Ordálí stupce Navíc: Umíme určt, který prvek je meší a který větší a zařadt je do správých tříd Možo změt pomocí mootóí trasformace ( rostoucí ) Dále: Kumulatví četost, pořadí, kvatly, medá, pořadové hodoty Itervalová stupce Navíc: Umíme staovt relatví ulový bod ( počátek ) a zjstt vztah prvků vůč ěmu ( rozdíly!) Leárí změa - posuutí a zmešeí ebo zvětšeí ( y = a x + b ) Dále: Artmetcký průměr, směrodatá odchylka, škmost, špčatost Poměrová stupce Navíc: Umíme staovt absolutí ulový bod ( počátek ) a zjstt vztah prvků vůč ěmu ( podíly!) Změa je zvětšeí ebo zmešeí ( kladé ) tj. y = a x ( a > 0 ) Dále: Ostatí průměry ( harmocký, geometrcký ), varačí koefcet Tabulka 9. Typ stupce Testy Závslost, ezávslost Nomálí stupce c - testy Kotgečí koefcety, čtyřpolíčkový koefcet Ordálí stupce Dále: Pořadové testy, Kolmogor - Smrův test, U - test Pořadový korelačí koefcet Itervalová stupce Dále: Parametrcké testy odvozeé Korelačí koefcet, bserálí z N(0,) koefcety Poměrová stupce Stejě jako výše Stejě jako výše Pro vyšetřeí populace používáme růzý způsob přístupu k datům : Provádíme buď statstcký pokus, statstcké šetřeí ebo pozorovací stud. Účelem statstckého pokusu je pláovtě mět faktory ( podmíky ) a sledovat jejch vlv a změu vyšetřovaých zaků. Výběr prvků s mž expermetujme provádíme
zásadě áhodě, aby edošlo k vychýleí výsledých hodot. Př tzv. kotrolovaém pokusu rozdělíme vyšetřovaé skupy a pokusé a kotrolí. U pokusé skupy byla provedey změa, u kotrolí kol. Aby byl pokus dostatečě objektví, je uto, aby obě skupy byly rovoceé jak a začátku pokusu, tak v jeho průběhu. Chceme l zabrát příosu subjektví formací volíme často prcp tzv. slepého pokusu, aby te kdo údaje vyhodocuje ( apř. lékař ) evěděl, která skupa je kotrolí a která je pokusá. Jestlže a vyšetřovaý subjekt eví zda je v pokusé ebo kotrolí skupě azýváme teto prcp dvojté utajeí ebo dvojtý slepý pokus. Je vdět, že prcp áhodého výběru a rozděleí a pokusou a kotrolí skupu zlepšuje výsledky ( odstraňujeme eobjektvtu a závslost ). Někdy ovšem eí možé získávat data mapulací s prvky populace. Neí možo provádět statstcký pokus, můžeme však jedoduše pozorovat jak probíhají změy a regstrovat je. Takovému přístupu říkáme statstcké šetřeí ebo pozorovací stude. Používáme ho tehdy, kdy emůžeme využít prcp áhody ( případy, kdy rozložeí zaků v populac je dáo apř. vzděláí, pohlaví a v pokusu by ebylo respektováo) ; ěkdy eí možo realzovat statstcký pokus z etckých důvodů ( mapulace s ldm ). Vdíme tedy, že v případě statstckého šetřeí se spokojujeme s pasvím sběrem dat. Problémem takovýchto studí je, že pozorovaý jev je velm často ovlvě ežádoucím zaky. Pro pojem úplého šetřeí tj. šetřeí provedeého a celé populac se vžl pojem cesus ( sčítáí ldu ). Pro jeho vysoké ekoomcké áklady se provádí v aší republce jedou za deset let. Každé statstcké šetřeí v podobě cesu by bylo především ekoomcky velm áročé. Ve většě případů te, kdo chce provést statstcké šetřeí má omezeé zdroje ( face, čas ). Někdy je k dspozc je málo údajů ( šetřeí vzácé choroby ebo zvláštího chováí pacetů ). Př dalších šetřeích bychom musel populac zčt ( apříklad sledováí žvotost výrobků ), proto se zabýváme prcpem výběru část populace. Výběr může ést přesější výsledky ež úplé šetřeí ( př velkém možství chyb vou eodborých špatě proškoleých pozorovatelů vzke chyba eodstratelá ). Jakákol část populace, která dobře odráží její strukturu ( především vyšetřovaé zaky ) se azve reprezetatvím výběrem. Ostatí typy výběru se azývají selektví výběry, většou dávají zkresleý obrázek o vyšetřovaé populac. Příkladem selektvího výběru je vzorek vysokoškolských profesorů, z ěhož budeme usuzovat a vzdělaost celé populace. Je jsté, že struktura vzdělaost v ašem výběru bude začě vychýlea prot celé populac. Výběry pořzujeme metodam áhodého výběru ebo metodam záměrého výběru. Metoda záměrého výběru se opírá expertí staovska k vytvořeí represetatvího výběru ( prováděa často v psycholog, socolog ). Jsou často závslé a subjektu experta. Metoda áhodého výběru umožňuje vybírat prvky populace áhodě a ezávsle a subjektech. Podle způsobu provedeí rozlšujeme ěkolk druhů áhodého výběru: Prostý áhodý výběr provádě většou metodou losováí ( každý prvek populace může být vylosová ). Dříve se prováděl pomocí tabulek áhodých čísel, des možo použít vhodý geerátor áhodých čísel růzých statstckých, ale estatstckých programů. Mechacký výběr jde o jstou formu prostého výběru, ejdříve áhodě očísluj prvky populace a poté zvolím pevé číslo. Všechy prvky, které získám vždy o pevý zadaý krok budou v daém výběru. Pokud eprovedeme a začátku áhodé očíslováí, ale číslováí je už vytvořeo musí dbát a to, aby krok výběru esouvsel s číslováím. Oblastí výběr. Celá populace je rozdělea do částí oblastí tak, aby se ve sledovaých zacích se od sebe velm odlšoval, v rámc jedé oblast jsou sledovaé
zaky málo odlšé. V jedotlvých oblastech potom provedeme prostý výběr. Spojeím všech takovýchto dílčích výběrů získáme celý hledaý výběr. Skupový výběr. V případě populací, které čítají statsíce ebo mloy prvků je skoro emožé předchozím metodam vytvořt áhodý výběr. Vyžíváme proto přrozeé rozděleí populace a meší celky ebo vytváříme vlastí umělé děleí. Požadujeme, aby prvky ( skupy ) děleí byly pokud možo stejě velké a vyšetřovaé zaky heterogeí v rámc jedé skupy. Varablta mez jedotlvým skupam by měla být co ejmeší. Vícestupňový výběr. Provádí se tehdy, kdy exstuje herarchcký pops celé populace ( geografcký, socálí model ). Popsá statstka Popsá statstka (deskrptví statstka) se zabývá popsem stavu ebo vývoje hromadých jevů. Nejprve se vymezí soubor prvků, a chž se bude uvažovaý jev zkoumat. Následě se všechy prvky vyšetří z hledska studovaého jevu. Výsledky šetřeí - kvaltatví kvattatví, vyjádřey především číselým popsem - tvoří obraz studovaého hromadého jevu vzhledem k vyšetřovaému souboru. V předchozí část jsme studoval pojem statstckého výběru. V této část budeme předpokládat, že jsme provedl výběr z populace a budeme se sažt z těchto dat získat údaje o vlastostech základího souboru. Grafcké zázorěí výběrových rozděleí je uvedeo v ásledující kaptole. V této kaptole budeme využívat data z tabulky 9.3 Tabulka 9.3: Rozděleí měsíčích ákladů studetů a bydleí Pořadí Náklady Pořadí Náklady Pořadí Náklady 850 560 900 90 560 900 3 90 3 650 3 300 4 90 4 670 4 350 5 90 5 780 5 350 6 030 6 790 6 350 7 030 7 850 7 3400 8 50 8 00 8 3600 9 90 9 600 9 3700 0 90 0 800 30 3850 Uveďme dále důležté pojmy, které budeme eustále využívat. Četost ( absolutí ) hodoty x je daá počtem prvků x ve výběru. Relatví četost hodoty x je daá podílem absolutí četost a celkového počtu prvků ve výběru. Kumulatví absolutí četost hodoty x je daá součtem všech absolutích četostí prvků, které jsou meší ebo rovy prvku x. Kumulatví relatví četost hodoty x je dáa součtem všech relatvích četostí prvků, které jsou meší ebo rovy prvku x. Míry polohy Jde o číselé hodoty pomocí, chž určujeme polohu míst, kolem kterých jsou data ejvíce umístěy. Průměr Průměr x se používá v případě kvattatvích zaků. Je velm ctlvý a odlehlé hodoty. Průměr hodot x, x,, x vypočteme takto
x x + x +... + x x = = (9.). Pro aše data je x = 4, 33. Někdy jsou data uvedea v tabulce včetě svých absolutích četostí ( počtu opakováí ), potom počítáme průměr jako tzv. vážeý průměr: k. x x = (9.) V tomto případě jsou data rozdělea a k skup o k prvcích. Pokud jsou data uvedea v tabulce roztříděých dat ( původí dat jsou ahrazea příslušostí do jedoho z vybraých tervalů ) vytvoříme ejprve střed tervalu ( bude ahrazovat všecha data uvedeá v daém tervalu ) a pak z těchto hodot vytvoříme podle vztahu (9.) průměr. Tabulka 9.4 třídí rozděleí četostí: Rozpětí četost 0-500 0 500-000 5 000-500 5 500-000 7 000-500 500-3000 4 3000-3500 5 3500-4000 3 4000-4500 0 Hodota středů tervalů je 50, 750,, 450. Spočítáme l průměr podle vzorce (9.) je hodota třídího průměru rova 733,7. Je vdět, že hodota tohoto průměru velm závsí a správé volbě rozpětí třídy. Pro vytvořeí stejě velkých tříd o počtu k z celkem prvků je možo použít tzv. Sturgesovo pravdlo k º + 3,3. log 0 (9.3) Například pro áš případ je = 30 a tedy hodota k º 5,8745. Tedy volíme k = 6. Uveďme dále ěkteré důležté vlastost průměru: a) Jestlže ke každé hodotě x ve výběru přčteme kostatu k, zvětší se o kostatu k také původí průměr ( k může být lbovolé reálé číslo ). b) Násobíme l každou hodotu ve výběru x stejou kostatou m, vypočteme ový průměr jako souč starého průměru a kostaty m c) Součet odchylek všech hodot x ve výběru od jejch průměru x je rove ule ( x) = 0 x (9.4) d) Součet čtverců odchylek všech hodot od jejch průměru je meší ež součet čtverců odchylek všech hodot od lbovolé jé hodoty. a x ( ) ( ) x x a x (9.5)
Těchto vlastostí průměru využíváme také k tomu, abychom upravl vstupí hodoty jejch zmešeím ( resp. zvětšeím ) a posuutím. Průměr se používá jako číselá charakterstka protože: a) Je jedozačý b) Je leárí c) Je spolehlvou číselou hodotou. Průměr epoužjeme, jestlže a) Rozděleí je vícevrcholové b) Rozděleí má a krajích otevřeé třídy c) Údaje ejsou škálovaé metrcky, ale ordálě d) Výběr je extrémě malý e) Rozděleí je asymetrcké Modus Modus xˆ je hodota, která se vyskytuje ejčastěj. Podle tabulky 9. ho můžeme zjšťovat zaků, které jsou kvaltatví, dokoce omálí. Neí ovlvňová všem prvky ve výběru. Jestlže je četost všech prvků ve výběru stejá, modus eurčujeme. Jestlže dvě ebo více avzájem sousedících hodot abývají stejé ejvětší četost, pak artmetcký průměr z těchto hodot azveme modulem. Jestlže exstují dvě avzájem esousedící hodoty s ejvětším stejým četostm, uvádíme obě jako modus. Rozděleí je pak dvou vrcholové ( bmodálí ). Jž ze samé defce modusu je jasé, že tato charakterstka velm závsí a výběru a většou velm kolísá. Příklad 9.9... Zjstěte modus šetřeí výběru barev respodetů bílá, červeá, modrá, červeá, zeleá, bílá, červeá, modrá, bílá, červeá. Odpověď : Nejčetější výskyt má a modus je červeá. Příklad 9.9... Zjstěte hodotu modusu pro data z aší tabulky 9.9. Odpověď: Podle tabulky je x ˆ = 90. Jestlže jsou kvattatví zaky uspořádáy do třídí tabulky, určíme ejdříve modálí terval x D ( s ejvyšší četostí ) a modus staovíme terpolací xˆ = xd + h. (9.6) + m kde h je délka modálího tervalu, je četost, x D je dolí hrace tohoto tervalu, je četost ásledujícího tervalu a m četost předchozího tervalu. Aplkujme vzorec (9.6) a data z tabulky 9.4 xˆ = xd + h. = 500 + 500. = 583,33. + m 6 Vdíme tedy, že modus zjštěý podle vzorce (9.6) může být výrazě odlšý od modusu skutečého. Kvatly a medá Přrozeou mírou jsou kvatly. Daý výběr se ejdříve seřadí od ejmeší hodoty po ejvětší a poté určíme pro daý p% kvatl pořadové číslo jedotky p, pro které platí
p p. < p <. +, (9.7) 00 00 kde je počet prvků výběru. Pro hodotu p = 50% se daý kvatl ozačuje medá ~ x. Jestlže je počet sudé číslo, vypočteme medá jako průměrou hodotu z hodot stojících vlevo a vpravo od teoretckého medáu určeého vzorcem (9.7). Medá popsuje hodotu, která dělí daý výběr a dvě stejě velké část. V ašem příkladě je ~ 780 + 790 x = = 785. Další výzamé kvatty jsou : Dolí kvartl x 0,5 je urče jako 5% kvatl. Horí kvartl x 0,75 je urče jako 75% kvatl. V ašem případě je x 0,5 = 080 a x 0,75 = 3000. Pro hodoty kvartlů vytváříme ještě jedu míru ( jde o míru varablty ) a to kvartlové rozpětí R q = x 0,75 - x 0,5 V ašem případě je R q = 3000 080 = 90. Pro hodoty p=0,0,,90 azýváme takto spočteé kvatly ázvy decly. Pro hodoty p =,,3,,99 azýváme podobě kvatly jako percetly. Pomocí kvartlů je také možo velm přehledě zázort data v grafu s ázvem Box Plot( krabcový graf ). Pomocí ěho můžeme rozdělt data z výběru a vtří, vější a odlehlá. Vytváříme ho ásledujícím způsobem: Základím prvkem grafu je obdélík, jehož hray tvoří hodoty dolího a horího kvartlu uvtř tohoto obdélíku je 50% hodot výběru. Uvtř je svslou čarou vyzače medá, popř. tečkou průměr ( křížkem modus). Z obdélíku vedou dvě úsečky kolmé k hraám, jejchž délka je dáa vzdáleostí vtřích hradeb od hray obdélíku. Vtří hradby se vypočtou tímto předpsem h D = x 0,5,5. ( x 0,75 x 0,5 ) (9.8) h H = x 0,75 +,5. ( x 0,75 x 0,5 ) (9.9) V ašem případě jsou h D = 080,5. 90 = -800 a h H = 3000+,5.90 =5865. Dále se počítají vější hradby H D = x 0,5.(,5. ( x 0,75 x 0,5 )) (9.0) H H = x 0,75 +.(,5. ( x 0,75 x 0,5 )) (9.) V ašem případě je H D = 080-9.90= - 4680 a H H = 3000+9.90 = 8730. Hradby slouží pro detfkac dat ve výběru. Hodoty uvtř vtřích hradeb jsou hodoty přlehlé; hodoty mez vtřím a vějším hradbam jsou hodoty vější a hodoty vě vějších hradeb jsou hodoty vzdáleé ebo jak odlehlé. Do grafu se zakresluje mmum a maxmum jako body.
850 3850-4650 -800 080 785 3000 5865 8730 Jestlže máme data uvedea v třídí tabulce musíme p% kvatl počítat pomocí leárí terpolace x p xd p D =, (9.) x x H D H D kde x D je dolí a x H je horí mez tervalu v ěmž leží daý kvatl; D je kumulatví relatví četost odpovídající x D a H je kumulatví relatví četost odpovídající x H.Zjstěme hodotu kvatlu pro áš případ tabulky 9.4: ~ x 500 0,5 0,33 = ~ x = 854,67. 000 500 0,57 0,33 Použtí medáu je vhodé př rozděleích s otevřeým třídam, pro ordálí hodoty, pro velm symetrcká rozděleí. Geometrcký průměr Provádí se je pro hodoty ve výběru, které jsou kladé. Jeho ozačeí je G a spočítá se jako tá odmoca ze souču hodot x. Používáme ho, jak je zřejmé z defce, a kvatfkovatelé zaky měřeé a poměrové stupc. Používá se k určeí průměré změy velkost, jestlže předpokládáme, že tato změa je kostatí ( multplkatvě ). G = x. x.. (9.3) x Harmocký průměr Harmocký průměr H zjstíme jako podíl počtu hodot a součtu převráceých hodot výběru. H = (9.4) x Míry varablty Pomocí je měr polohy elze přesě popsat výběr, protože moho dat má stejé ebo přblžě stejé hodoty jedotlvých parametrů měr polohy, přesto jsou a prví pohled odlšé. Na obrázku íže je uvede případ tří skup dat, která mají stejý průměr, modus, medá a přesto jsou odlšá. Odlšost vdíme v soustředěí hodot kolem průměru. Toto soustředěí budeme studovat pomocí růzých měr varablty.
0,8 0,7 0,6 0,5 0,4 0,3 0, 0, 0-4 -3 - - 0 3 4 Varačí rozpětí Varačí rozpětí R se vypočte jako rozdíl mez ejvětší a ejmeší hodotou výběru. R = x max x m (9.5) Pokračujme dále v ašem příkladě, hodota R = 3 850 850 = 3 000 Výhodou této míry je jedoduchost určeí a porozuměí. Je však málo stablí vzhledem k počtu čleů výběru. Používá se proto je u malých výběrů ( ). Výrazě závsí a velkost výběru. Proto emůžeme mez sebou porovávat jedotlvé hodoty varačího rozpětí z růzě velkých výběrů. Nedává spolehlvé odhady rozptylu základího souboru. Průměrá odchylka Průměrou odchylku e výběru defujeme jako artmetcký průměr z absolutích hodot odchylek všech hodot výběru od průměru x x e = (9.6) Uvádíme j je pro úplost. Je málo stablí vzhledem k velkost výběru a dává espolehlvé odhady pro rozptyl. Rozptyl a směrodatá odchylka Nejužívaější mírou varablty je rozptyl ( resp. směrodatá odchylka ). Pomocí ěho měříme velkost čtverců odchylek jedotlvých hodot výběru od průměru. Ozačujeme ho většou symbolem s a azýváme ho výběrovým rozptylem s =. ( x x ), (9.7) = Všměme s, že př výpočtu edělíme součet odchylek čtverců hodotou ( jako př defc klasckého rozptylu ), ale hodotou ( azývaou také počtem stupňů volost ). Je to provedeo proto, že získáme lepší odhad skutečého rozptylu s populace. Výběrová směrodatá odchylka se ozačuje symbolem s a je rova odmocě z výběrového rozptylu s =. ( x x), (9.8)
Pro vlastí výpočet se hodí já forma vzorce (9.7) s = x x = x x, =,,, (9.9) Použjeme l vzorce a určeí rozptylu pro data z tabulky 9.3 získáme s = 09733,448 a hodota s = 009,8. Jsou l hodoty x výběru uvedeé včetě četostí potom přejde vzorec (9.6) a s k ( x x) =.. x. x k =.., 9.0) kde k je počet všech růzých hodot ve výběru a je celkový počet prvků výběru. Jestlže jsou data uvedea pomocí tříděí do tervalů apř. data z tabulky 9.4, potom většou hodoty x zameají středy třídích tervalů a počet dat v tomto tervalu. Pokud jsou třídí tervaly ekvdstatí ( mají pevou délku ) s rozměrem h bude výpočet podle vzorce (9.0) zatíže chybou. Tuto chybu opravujeme pomocí tzv. Sheppardovy korekce h s kor = s (9.) Použjeme l opět aše data z tabulky 9.4 získáme : Nekorgovaé hodoty s = 00500 a s = 00,49; Korgovaé hodoty s kor = 98666,7 a s kor = 990,7909. Velm často astává případ, že celý výběr je z určtých důvodů rozděle do k dílčích částí. V té část je počet prvků rove, průměr je rove x a výběrový rozptyl s. Potom můžeme počítat celkový výběrový rozptyl s jako s. k k ( ). s +.( x x) = (9.) Z předchozího vzorce vyplývá, že celkový výběrový rozptyl s můžeme rozložt a dvě část a vtroskupový a mezskupový. Vtroskupovým výběrovým rozptylem sledujeme varabltu uvtř jedotlvých skup a mezskupovým výběrovým rozptylem varabltu mez těmto skupam. Takovéto metody rozděleí celkové varablty a ezávslé část budeme dále využívat v část Aalýza rozptylu ( ANOVA ). Výběrový rozptyl ezávsí a zvětšeí č zmešeí všech hodot výběru o kostatu. Jestlže všechy hodoty výběru zvětšíte m - krát, zvětší se výběrový rozptyl m krát. Těchto vlastostí velm často využíváme pro úpravu původí tabulky dat tím, že všechy hodoty posueme - volba ového počátku a výrazě zmešíme ( zvětšíme ) volba ové jedotky.
Varačí koefcet Nechť má výběr čleů s průměrem x a směrodatou odchylkou s. Potom varačí koefcet výběru v je daý vztahem s v =.00% (9.3) x Používáme ho, když chceme porovat varabltu růzých zaků ve výběru ebo mez růzým výběry. Charakterstky tvaru rozděleí Výběrová míra škmost Jde o číselý údaj, který vypovídá o o souměrost č esouměrost tvaru rozděleí. Ozačuje se symbolem a. a = ( x x ) 3 s. 3, (9.4) kde je počet čleů výběru, s je hodota výběrové směrodaté odchylky, x je průměr a x je kokrétí hodota výběru. Je l rozděleí souměré, je hodota a = 0. Rozděleí je tím esousměrější, čím se hodota a více lší od uly. Je l jeho hodota kladá, potom je rozděleí zeškmeo kladě ( ve výběru je větší kocetrace meších hodot ). Je l jeho hodota záporá, potom je zeškmeo záporě (ve výběru je větší kocetrace větších hodot). Pokračujme s aším příkladem, s daty z tabulky 9.9. Níže vdíme data v grafu. Polygo četostí 3,5 3,5,5 0,5 0 800 300 800 300 800 3300 3800 Hodota míry škmost pro aše hodoty a =. Je tedy kladá a data jsou zeškmea kladě. Výběrová míra špčatost. Tato míra popsuje stupeň kocetrace hodot zaku kolem charakterstky úrově ( kolem průměru ). Stejé ahuštěí prostředích krajích hodot vede k plochost ( hodota míry je potom záporá ), větší ahuštěí prostředích hodot se projevuje špčatostí rozděleí( hodota míry je kladá. Tato míra porovává daé rozděleí s ormovaým ormálím rozděleím N(0,) ( má hodotu špčatost rovu ule ). Vypočte se podle vztahu
4 ( x x) = 4 b 3, (9.5) s. ozačuje se symbolem b. Hodota špčatost pro aše data z tabulky 9.3 je rova 0,93. Rozděleí je ploché, což je vdět z polygou četostí. Grafcké zobrazeí dat Pro presetac statstckých údajů je velm působvé používat růzé grafcké způsoby. Každý typ grafckého zobrazeí hodot má svoje omezeí, ale zároveň svoje výhody. Kromě klasckých typů se k zobrazováí statstckých dat hodí specálí grafy, jede typ jsme už měl možost vdět v část 0 Kvatly a medá šlo o tzv. Box Plot ebol Krabcový graf. V dalším s ukážeme možé grafy pro presetac údajů. Běžé grafy Bodový graf Zázorňuje hodoty pomocí bodů,většou v pravoúhlé soustavě. Používá se většou k zachyceí závslostí právě dvou statstckých zaků. Př více ež dvou zacích jeho jedoduchost mzí a stává se méě přehledým. Nelze pomocí ěho vysthout data s větší četostí. Graf 9. velkost ákladů v závslost a pořadí 4000 3500 3000 500 000 500 000 500 0 Náklady Náklady 0 5 0 5 0 5 30 Spojcový graf Jestlže chceme zázort velké možství hodot, chceme l vysthout průběh časové řady hodí se k tomu více spojcový graf. Používá se také k vyjádřeí předpokladu o spojtost vyšetřovaého zaku. Jestlže se pomocí ěho vyjadřuje rozložeí absolutích ebo relatvích četostí ve výběru, azýváme se polygo četostí.
Graf 9. sloupcový graf, vyjadřuje změu ákladů 4000 3500 3000 500 000 500 000 500 0 0 5 0 5 0 5 30 Náklady Po změě Sloupcový graf Sloupcový graf vyjadřuje jedoduché závslost mez dvěma hodotam, velm často jsou jedotlvé prvky výběru seskupováy do tříd. Exstuje ěkolk typů těchto grafů klascké sloupcové, sloupcové s procetím rozložeím, trojrozměré sloupcové grafy. Klascká ukázka je uvedea v grafu 9.3 Graf 9.3- rozděleí ákladů do tříd Sloupcový graf četostí 8 7 6 5 4 3 0 četost 0-500 500-000 000-500 500-000 000-500 500-3000 3000-3500 3500-4000 4000-4500 Hstogram Svou defcí je to sloupcový graf, který se používá k zázorěí absolutích ebo relatvích četostí (většou )spojtého zaku. Sloupce v grafu jsou zásadě vertkálí,šířka sloupce odpovídá velkost třídy a celková plocha sloupce odpovídá četost prvků třídy ve výběru. 0000 8000 6000 4000 000 0 Hstogram 500 000 500 000 500 3000 3500 4000 4500
Kruhový graf Zobrazuje hodoty jako výseče v kruhu a tím se zachytí struktura výběru. Předchozí data jsou zobrazea v kruhovém grafu ( koláč, výsečový graf ) takto 9% % 9% 6% 6% % 38% 500 000 500 000 500 3000 3500 4000 4500 3% Specálí statstcké grafy Jedím z užívaých grafckých způsobů je dříve uvedeý hstogram. V současé době exstuje moho profesoálích způsobů presetace statstckých dat. V část 0 Kvatly a medá jsme zavedl velm užtečý typ Box Plot český ekvvalet ázvu je Krabcový graf. Statstckých grafů exstuje velké možství, zaměříme se a ěkteré specálí. Kvatlový graf Jde typ grafu, kterým můžeme přehledě zázort data, porovat je se zámým rozděleím, ajít vybočující hodoty atd. Na osu x aášíme pořadovou pravděpodobost teoretckého rozděleí, a osu y skutečé kvatly daých dat. Na grafu íže je uvedeo porováí výběru s N(0,). Data se s hodotam teoretckého rozděleí eshodují, zjevě vybočují a krajích. 3 6% 0 - N(0,) výběr - -3 0 0, 0,4 0,6 0,8 Teto typ grafu se velm často užívá pro prví porováí údajů především s ormálím ormovaým rozděleím. Dříve se k takovému porováí používal tzv. pravděpodobostí papír, des ho provádíme s pomocí počítače. Mez základí statstcká vyšetřováí patří rozhodutí, zda daý výběr patří ebo epatří k rozdělím symetrckým. K takovému rozhodutí ám pomáhá ásledující typ grafu:
Graf polosum Jeho kostrukce je založea a myšlece, že u symetrckého rozděleí je artmetcký průměr kvatlu p% a kvatlu (-p)% stejý a je rove medáu. Níže je uvede daý graf pro data vyšetřovaá v předchozí část. Symetrcká rozděleí jsou tedy charakterzováa přímkou y= x. Celkově je zřejmé,že data pochází ze symetrckého rozděleí. 75 70 65 60 55 50 0 0 0 30 40 50 60 70 80 90 00 45 40 35 30 5 Graf symetre Pomocí tohoto grafu je možo sledovat zak symetre výběru. Na osu x aášíme u P hodoty pro P = a a osu y stejé hodoty jako u předchozího grafu tedy hodoty + ( x x ) ( + ) ( ) osa x 50,37 5 0, 0,7 0, 0,7 0,3 0,37 Opět je zřejmé, že hodoty výběru jsou symetrcké, s výjmkou krajích hodot. Pomocí dalšího grafu je možo srovávat parametr špčatost s rozděleím N(0,). Graf špčatost Za předpokladu symetre je pro ormálí rozděleí grafem přímka. Pokud leží body a přímce s eulovou směrcí, je hodota této směrce odhadem výběrového parametru špčatost. Opět je zřejmé, že data odpovídají symetr, avíc můžeme z grafu odhadout výběrovou špčatost.
0,4 0,35 0,3 0,5 0, 0,5 0, 0,05 0 4, 4, 4,3 4,4 4,5 4,6