1 Základí statistické zpracováí dat 1.1 Základí pojmy Populace (základí soubor) je soubor objektů (statistických jedotek), který je vymeze jejich výčtem ebo charakterizací jejich vlastostí, může být proto koečý (rozsah ozačujeme N) i ekoečý. Iformace o populaci získáváme prostředictvím statistického výzkumu (statistických studií). Rozlišujeme dva základí typy statistických studií - pokus a šetřeí. Při pokusu pláovitě měíme faktory a sledujeme jejich vliv. Typickým příkladem je komparativí experimet (kliický pokus), kdy sledovaé prvky rozdělíme do dvou skupi áhodě a každou skupiu vystavíme vlivu jiých faktorů (tzv. kotrolovaý pokus). Pokud avíc vyhodocující experimetátor ebo vyhodocující experimetátor i sledovaý subjekt eví, ve které skupiě je zařaze, jedá se o slepý pokus resp. dvojitě slepý pokus. V rámci šetřeí je výzkumý pracovík pouze pasivím pozorovatelem, který zasahuje co ejméě do průběhu šetřeí. Parametr populace (populačí charakteristika) je číselá charakteristika sledovaé vlastosti v populaci, apříklad průměrá výška desetiletých chlapců, variabilita doba léčeí kokrétího oemocěí a území ČR a podobě. Obvykle pokládáme teto parametr za pevé číslo, které je však obecě ezámé. Parametr obecě začíme Θ, pro ěkteré parametry je zavedeo kokrétí ozačeí µ, σ 2, ϕ,.... Výběr je koečá podmožia populace, kdy sledujeme a měříme požadovaé vlastosti pouze u ěkterých prvků populace. Výběr je vždy koečý (rozsah ozačujeme ) a pokud výběr dobře odráží strukturu celého zkoumaého souboru, azýváme jej reprezetativí výběr. Podle charakteru získáváí výběru prvků z populace rozlišujeme úplé šetřeí: sledujeme zaky všech prvků základího souboru; selektiví výběr; záměrý výběr: výběr se opírá o expertí staoviska ebo je ovlivě subjektivími hledisky experimetátora, přesost zobecňujících závěrů se opírá o expertí hledisko experimetátora a ikoliv o statistickou metodologii; áhodý výběr: prvky ze základího souboru vybíráme áhodě, ezávisle a úsudku experimetátora prostý áhodý výběr (simple radom sample) : provádí se růzými techikami losováí, které musí zaručit, aby každý prvek populace měl stejou možost být zařaze do výběru. Pokud jsou prvky populace jsou očíslováy, je možo provést výběr pomocí tabulek áhodých čísel. mechaický výběr: je založe a určitém, předem daém uspořádáí prvků populace, do výběrového souboru zařadíme všechy prvky, které jsou od sebe vzdáley o zvoleý výběrový krok, přičemž prví prvek vybereme prostým áhodým výběrem. Například 1
z abecedě uspořádaé kartotéky pacietů u praktického lékaře vybíráme s krokem dvacet. Prví kartu vylosujeme mez prvími dvaceti kartami, třeba devátou. Musíme dát pozor, aby uspořádáí prvků esouviselo se sledovaým zakem. oblastí výběr (stratifikovaý): studovaá populace je rozdělea do dílčích oblastí. Oblasti jsou vytvořey tak, aby byly uvitř homogeí (ve sledovaých zacích se příliš eliší) a mezi sebou heterogeí (sledovaé zaky se začě liší). Při šetřeí a obyvatelstvu jsou oblasti vytvořey apř. územími celky, věkovými skupiami ebo socioekoomickým statutem. Z každé oblasti vybereme vzorek metodou prostého áhodého výběru ebo mechaického výběru. Proceto vybraých prvků z oblastí může být bud pro všechy oblasti stejé, ebo se mezi oblastmi liší. Někdy máme pádé důvody vybírat z ěkteré oblasti relativě méě prvků, apř. při zvýšeých fiačích ákladech a šetřeí ebo obtížé dostuposti údajů. Koečý výběrový soubor vytvoříme spojeím vzorků ze všech oblastí. skupiový výběr: Pro velké rozsahy populace eprovádíme áhodý výběr, tj. evybíráme jedotlivé osoby, ýbrž celé skupiy osob, které tvoří bud přirozeé ebo umělé agregáty. Tyto skupiy mohou být malé i větší (rodia, škola, závod, zdravotí obvod) ebo i začě rozsáhlé (obce, okresy). Je žádoucí, aby skupiy byly pokud možo stejě velké a osoby uvitř každé skupiy růzorodé. Dále se požaduje, aby variabilita mezi skupiami byla co ejmeší, což je tedy obráceě, ež je tomu u oblastího výběru. Když byl provede výběr skupi, lze dále pokračovat dvojím způsobem: bud vyšetříme vyčerpávajícím způsobem všechy osoby vybraých skupi, ebo zvolíme metodu vícestupňového výběru. vícestupňový výběr: je založe a existeci určitého hierarchického popisu prvků základího souboru. K těmto prvkům se postupě dostáváme přes vyšší výběrové jedotky, apříklad: města - bloky - domy - domácosti; okresy - závody - díly - zaměstaci. Každá výběrová jedotka je skupiou výběrových jedotek ižšího řádu. Postupě vybíráme jedotky prvího stupě (primárí jedotky), z ich potom jedotky druhého stupě (sekudárí jedotky), z ich jedotky třetího stupě atd., až dojdeme k základím jedotkám statistického šetřeí. Postupé výběry provádíme často metodou prostého áhodého výběru, lze však uplatit i výběr mechaický ebo oblastí. Vícestupňový výběr je vhodý v situacích, kdy úplá opora výběru eí dostupá před začátkem výběrového postupu. Jeho výhody jsou především ekoomického charakteru. cezorovaý výběr je výběr, kdy emáme k dispozici přesou hodotu sledovaé charakteristiky, ale máme iformaci, že hodota bude větší ež kokrétí číslo (cezorováí zprava) ebo meší ež kokrétí číslo (cezorováí zleva), apříklad sleduje dobu přežití a v okamžiku ukočeí experimetu víme, že paciet přežil více ež 5 let, ale evíme přesou dobu přežití. Data je souhr kokrétích číselých údajů, reálých čísel (výsledek opakovaých pokusů ebo šetřeí), které máme k dispozici. Jedá se vždy o koečý počet dat, rozsah dat je a jedotlivé údaje začíme x 1, x 2, x 3,..., x, pokud máme data seřazea podle velikosti, používáme začeí x (1), x (2), x (3),..., x (). Výběrová charakteristika (statistika) je pojem používaý pro číselou charakteristiku výběru, 2
apř. aritmetický průměr z aměřeých dat, výběrový rozptyl,.... Pro růzé výběry je hodota téže statistiky obvykle růzá. 1.2 Základí typy statistických dat Podle toho, jaký charakter mají zaky ve výběru ebo v populaci rozlišujeme růzé typy dat. Nejápadější je rozdíl mezi proměými vyjádřeými slově a proměými, jejichž hodoty jsou vyjádřey číselě. Tomuto odpovídá základí děleí a kvalitativí a kvatitativí data. Pro zpracováí obvykle přiřazujeme slovím proměým jejich číselý ekvivalet, pokud můžeme přiřadit číselou hodotu v libovolém pořadí, mluvíme o datech omiálích. Pokud přiřazeím čísel zároveň posloupost uspořádáme, mluvíme o ordiálích datech. kvalitativí omiálí biárí data (alterativí, dichotomická) - data abývají pouze dvou hodot typu ANO - NE ebo 0-1; kvalitativí omiálí data (víceškálové) - (kategoriálí data) data mají původě sloví charakter, při přiřazováí číselých charakteristik elze rozumým způsobem zavést do dat uspořádáí, typickým případem jsou data vyjadřující apř. bydliště, růzé barvy sledovaého objektu a podobě; kvalitativí ordiálí data - data mají původě sloví charakter a při převodu do číselé škály je přirozeým způsobem zavedeo uspořádáí, apříklad maximálí dosažeé vzděláí, hodoceí zámkami, vyjádřeí užitečosti a podobě; kvatitativí diskrétí data - itervalová stupice data mají přirozeou číselou charakteristiku, čísla zároveň vyjadřují uspořádáí v ámi zvoleém smyslu, zároveň se můžeme ptát o kolik je jede zak lepší ež druhý, svůj praktický výzam má tedy i veličia x i x j, v rámci itervalové stupice má ulová hodota pouze relativí charakter, apříklad ulová teplota; kvatitativí diskrétí data - poměrová stupice data mají přirozeou číselou charakteristiku, čísla zároveň vyjadřují uspořádáí v ámi zvoleém smyslu, zároveň se můžeme ptát kolikrát je hodota jedoho zaku jiá (lepší) ež hodota druhého zaku, svůj praktický výzam má tedy i veličia x i x j, v rámci poměrové stupice má kokrétí výzam ulová hodota, apříklad ulová hmotost, ulová rychlost, ulový počet výskytu sledovaého jevu; kvatitativí spojitá data - data mají přirozeou číselou charakteristiku, ale tato charakteristika může abývat ekoečého počtu hodot, ejčastěji vzikají tato data měřeím a vážeím objektů, zachyceím času a podobě; data s eúplou iformací - do této kategorie spadají data, o kterých víme apříklad pouze to, zda jsou pod detekčím limitem,ev. data cezorovaá časem, ev. data mající itervalový charakter (víme pouze to, že hodota proměé leží v itervalu) a podobě. 3
1.3 Výběrové charakteristiky pro jedorozměrá data 1.3.1 Výběrové charakteristiky polohy aritmetický průměr x = x 1 + x 2 + + x je jedoduchý, založeý a všech hodotách, lze ho lieárě trasformovat tj. pokud y i = ax i +b pro i = 1, 2,...,, pak y = ax + b aritmetický průměr x je citlivý a hrubé chyby (př. 8, 12, 15, 23, 1500 x = 311.6) V programu EXCEL používáme pro výpočet aritmetického průměru fukci PRŮMĚR(číslo1;číslo2;... ) resp. PRŮMĚR(oblast dat) v aglické verzi se jedá o fukci MEAN(oblast dat). Při použití těchto fukcí jsou buňky obsahující textové hodoty z výpočtu vyecháy. Naproti to mu fukce AVERAGEA(hodota1;hodota2;... ) vrátí aritmetický průměr hodot v sezamu argumetů (argumety musí být čísla, ázvy, matice ebo odkazy). K číslům je avíc ve výpočtu zahrut i text (vyhodoceo jako 0) a logické hodoty PRAVDA (vyhodoceo jako 1) a NEPRAVDA (vyhodoceo jako 0). Aritmetický průměr z vybraých hodot lze také vypočítat jako podíl součtu a počtu buěk odpovídající kritériu. Použijeme fukce SUMIF(oblast;kritéria;součet), kde oblast jsou buňky obsahující kriteriálí hodotu, kritéria jsou zvoleé podmíky a součet je oblast buěk, které sčítáme a pro určeí počtu použijeme fukci COUNTIF(oblast;kritérium). Př. SUMIF(A2:A5; >160000 ;B2:B5) sečte hodoty v těch buňkách B2:B5, pro které hodota v příslušé buňce A2:A5 je větší ež 160000. geometrický průměr (pro kladé hodoty x i ) x G = x 1.x 2.....x je vhodý pro průměrou hodotu idexů i k Př.: Necht x 0, x 1,..., x udávají počet prodaých výrobků v i- tém časovém období. Vývoj prodeje charakterizujeme pomocí tzv. řetězových idexů i 1 = x 1, i 2 = x 2,..., i = x. x 0 x 1 x 1 Pak lze vyjádřit x = x 0 i 1 i 2 i. V Excelu použijeme fukci GEOMEAN(oblast dat). 4
harmoický průměr (pro kladé hodoty x i ) x H = x 1 1 + x 1 Příklad použití: Auto 2 + + x 1 jede do kopce rychlosti v 1 a po stejé dráze z kopce rychlosti v 2. Jaká je jeho průměrá rychlost? Délku tratě ozačme d, dobu jízdy do kopce t 1 = d/v 1, dobu jízdy z kopce t 2 = d/v 2. 2d 2 Průměrá rychlost je = t 1 + t 2 v1 1 + v2 1 = v H V Excelu použijeme fukci HARMEAN(oblast dat). další průměry mají obecý charakter kvadratický průměr x K = průměr stupě α, pro α 0 vzájemé vztahy průměrů x 2 1 + x 2 2 + + x 2 x α = ( 1 x α i ) 1/α x (1) x H x G x x K x () rovost platí právě tehdy, když jsou všechy prvky x i shodé x (1) x α x () x 1 = x H x 1 = x x 2 = x K lim x α = x G α 0 lim α x α = x (1) lim α + x α = x () mediá je taková hodota, že v případě, že uspořádáme data podle velikosti, je přesě polovia hodot meší ež mediá x a polovia hodot je větší ež mediá. Největší výhoda mediáu spočívá v jeho robustosti, pod tímto termíem rozumíme malou citlivost a odlehlá, případě chybá data. Pokud jsou data rozložea symetricky vzhledem k průměru a eobsahují odlehlá pozorováí, je mediá rove aritmetickému průměru. V Excelu použijeme fukci MEDIAN(oblast dat). 5
modus ejčetější hodota, tj. hodota, která se v souboru dat opakuje ejvícekrát, tato charakteristika emá výzamější uplatěí a poskytuje ám pouze doplňkové iformace o souboru dat. V Excelu použijeme fukci MODE(oblast dat). kvatily, kvartily, decily Zobecěím pojmu mediá dostaeme pojem α-procetí kvatil. α-procetí kvatil Q α je taková hodota, že v případě, že uspořádáme data podle velikosti, je α procet hodot meší ež kvatil Q α a 100 α procet hodot je větší ež kvatil. Hodotu Q 25 azýváme dolí kvartil, hodota Q 50 je mediá, hodotu Q 75 azýváme horí kvartil, aalogicky hodoty Q 10 resp.q 90 a Q 1 resp. Q 99 azýváme dolí (horí) decil a dolí (horí) percil. V Excelu použijeme fukce, které pracují s pořadím hodot buěk. Fukce RANK(číslo;oblast;pořadí) vrací hodotu pořadí číslo v rámci buěk ozačeých oblast dat, podle hodoty pořadí se jedá o pořadí ve smyslu sestupém (hodota 0 ebo ezadáo) ebo ve smyslu vzestupém (jakákoliv hodota růzá od uly). Př. RANK(A4;A1:A20;1) 3, odpovídá stavu, kdy hodota v buňce A4 vzhledem k hodotám v buňkách A1:A20 je třetí ejmeší. Pokud se v rámci dat ěkteré hodoty opakují, má hodota RANK eceločíselý charakter. Iverzí fukce k RANK jsou fukce LARGE(oblast;k) a SMALL(oblast;k), která vrací k-tou ejvětší (resp. ejmeší) hodotu z dat v oblasti dat. Speciálě LARGE(oblast;1)=SMALL(oblast;) je maximálí hodota z dat v oblasti a LARGE(oblast;)=SMALL(oblast;1) je miimálí hodota v oblasti. Pokud potřebujeme určit pořadí hodoty čísla vyjádřeé procetuálí částí oblasti, použijeme fukci PERCENTRANK(oblast;x;desetiy), kde v případě, že číslo eodpovídá žádé hodotě v oblasti, použije program iterpolaci. Hodota desetiy uvádí počet desetiých míst, které bereme v úvahu - stadardě 3. Př. PERCENTRANK(A1:A20;B4;3) 0.12, odpovídá stavu, kdy 12% hodot v buňkách A1:A20 je meší ež hodota v buňce B4. Iverzí fukcí k fukci PERCENTIL je fukce PERCENTIL(oblast;k), která vrací k-procetí kvatil (v českém Ecxelu je používá překlad percetil) z oblasti. Opět tato fukce pracuje s iterpolací. Tedy PERCENTIL(oblast,k)=Q k Př. Pokud v buňkách A1:A4 jsou hodoty 1,2,3,4, pak PERCENTIL(A1:A4;0,3) vrací hodotu 30-ti procetího kvatilu po iterpolaci, tj. PERCENTIL(A1:A4;0,3) 1.9 zameá, že 30% hodot v oblasti A1:A4 je meší ež 1.9. Speciálím případem fukce PERCENTIL je fukce QUARTIL(oblast;kvartil), 6
kde QUARTIL(oblast;0)=Q 0 je miimálí hodota, QUARTIL(oblast;1)=Q 25 je dolí kvartil, QUARTIL(oblast;2)=Q 50 je mediá, QUARTIL(oblast;3)=Q 75 je horí kvartil a QUARTIL(oblast;4)=Q 100 je maximálí hodota. 1.3.2 Výběrové charakteristiky variability rozptyl spočítáme pomocí vztahu σ 2 = 1 (x i x) 2, kde x je aritmetický průměr. Jedá se vlastě o průměrou kvadratickou odchylku hodot od aritmetického průměru a jeho fyzikálí rozměr je základí jedotka a druhou. Stejě jako aritmetický průměr je rozptyl citlivý a odlehlá pozorováí. výpočetí tvar rozptylu s 2 = 1 x 2 i (x) 2 echt a, b R a položme y i = ax i + b pro i = 1, 2,...,, pak s 2 y = a 2 s 2 x fukce S(a) = 1 (x i a) 2 abývá svého miima v bodě a = x Samuelsoova erovost: max x i x s 1 i s y = a s x V Excelu použijeme fukci VAR(oblast dat) případě VARPA(oblast dat), pokud chceme zahrout též buňky s logickou hodotou a buňky s textem. výběrový rozptyl výběrový rozptyl počítáme pomocí vztahu s 2 = 1 1 (x i x) 2, resp. s 2 = 1 σ2. Výběrový rozptyl má stejý výzam jako rozptyl, ale lepší statistické vlastosti, proto je v rámci dalších statistických metod používaější. V Excelu použijeme fukci VAR.VÝBĚR(oblast dat) případě VARA(oblast dat), pokud chceme zahrout též buňky s logickou hodotou a buňky s textem. 7
variačí rozpětí R = x () x (1) je rozdíl mezi maximálí a miimálí hodotou dat s 2 R2 4 ( ) x(1) + x () (k důkazu použiji vlastosti fukce S(x) S a 2 x i x (1) + x () 2 R 2 ) variačí rozpětí je vyjádřeo v jedotkách x i V Excelu použijeme pro alezeí maxima a miima fukce MAX(oblast dat) a MIN(oblast dat). kvartilové rozpětí je ejpoužívaější charakteristika variability, která epracuje s aritmetickým průměrem a je tedy robusí, tj. eí citlivá a odlehlá pozorováí. Kvartilové rozpětí určíme jedoduše jako rozdíl horího a dolího kvartilu R Q = Q 75 Q 25. Obdobě je defiováé decilové rozpětí R D = Q 90 Q 10 a variačí rozpětí R = Q 100 Q 0 = x () x (1) = max(x) mi(x). V Excelu použijeme pro alezeí horího kvartilu fukci QUARTIL(oblast dat;3) a pro alezeí hodot dolího kvartilu fukci QUARTIL(oblast dat;2). směrodatá odchylka a výběrová směrodatá odchylka je určea jako odmocia z rozptylu, začíme ji s. Nejčastěji je používáa výběrová směrodatá odchylka odvozeá z výběrového rozptylu. Fyzikálí rozměr směrodaté odchylky odpovídá fyzikálímu rozměru zpracovávaých dat. V Excelu použijeme fukci SMODCH(oblast dat) - odmocia z VAR, případě STDEVA(oblast dat)- odmocia z VARPA ebo ejlépe SMODCH.VÝBĚR(oblast dat) - odmocia z VAR.VÝBĚR. 8
variačí koeficiet použijeme pokud potřebujeme porovat variabilitu dvou souborů, které mají rozdílý aritmetický průměr. Variačí koeficiet spočítáme podle vztahu v = s x. koeficiet kvartilové variace je CQV = Q 3 Q 1 Q 3 + Q 1 průměrá absolutí odchylka je další z charakteristik variability, které zmírňuje vliv odlehlých hodot. Nejvíce používáy jsou průměrá absolutí odchylka od aritmetického průměru d x = 1 x i x a průměrá absolutí odchylka od mediáu d x = 1 x i x. V Excelu použijeme fukci PRŮMODCHYLKA(oblast dat) pro průměrou absolutí odchylku od aritmetického průměru. 1.3.3 Další výběrové charakteristiky obecé a cetrálí momety obecý momet k-tého řádu m k = 1 cetrálí momet k-tého řádu m k = 1 x k i (x i x) k momet kolem bodu a k-tého řádu m k (a) = 1 (x i a) k absolutí momet kolem bodu a k-tého řádu m abs k (a) = 1 m k = k j=0 speciálě platí ( ) k ( 1) j ( x ) j m k j j m 3 = m 3 3 m 2x + 2 ( x ) 3 x i a k m 4 = m 4 4 m 3x + 6 m 2 ( x ) 2 3 ( x ) 4 9
šikmost je charakteristika, která ám pomáhá rozhodout o shodě ašich dat s modelem ormálího rozděleí z hlediska symetrie kolem průměru x. Pomocí obecých mometů lze šikmost vyjádřit jako α 3 = m 3 s 3. Nejčastěji počítáme šikmost podle vztahu α 3 = ( 1)( 2) ( ) 3 xi x. s Pokud je šikmost dat kladá, jsou data vychýleá ke kladým hodotám, pokud je hodota šikmosti záporá, jsou data vychýleá k záporým hodotám. V Excelu použijeme fukci SKEW(oblast dat) Obrázek 1: Šikmost kladá a záporá špičatost je charakteristika, která se zaměřuje a strmost dat v porováí s modelem ormálího rozděleí. Pomocí obecých mometů lze špičatost vyjádřit jako a 4 = m 4 s 4 ebo počítáme koeficiet špičatosti a 4 = m 4 s 4 3. Pokud je koeficiet špičatosti dat kladý, jsou data strmější oproti ormálímu rozděleí, pokud je hodota koeficietu špičatosti záporá, mají data plošší charakter. V Excelu použijeme fukci KURT(oblast dat) 10
Obrázek 2: Špičatost kladá a záporá 1.4 Výběrové charakteristiky pro třídě rozděleá data V případě, že data mají itervalový charakter, mluvíme o třídě rozděleých datech. V takovýchto situacích máme k dispozici iformace o itervalech (třídách) a počtu dat z výběru, které se achází v daé třídě. Typickým příkladem je rozděleí tříd podle věku, podle dojezdové vzdáleosti a podobě. Pokud potřebujeme sami rozdělit data do jedotlivých tříd, můžeme počet tříd k určit apříklad pomocí Sturgesova pravidla k 1 + 3.3 log. Ukázka třídě rozděleých dat, kde kromě četosti je k dispozici též iformace o represetatech jedotlivých tříd (průměr ve třídě) a variabilitě uvitř jedotlivých tříd (směrodatá odchylka). Třída Hraice Tabulka 1: Třídě rozděleá data Četost Rel. četost Průměr Rozptyl Sm. odchylka j p j = j / x j s 2 j s j 1 ( ; 2 19 3.80 2.299 0.055 0.235 2 ( 2; 1.5 15 3.00 1.653 0.013 0.113 3 ( 1.5; 1 40 8.00 1.265 0.017 0.130 4 ( 1; 0.5 67 13.40 0.734 0.023 0.153 5 ( 0.5; 0 102 20.40 0.260 0.017 0.129 6 ( 0; 0.5 100 20.00 0.235 0.021 0.144 7 ( 0.5; 1 73 14.60 0.726 0.019 0.138 8 ( 1; 1.5 45 9.00 1.224 0.022 0.147 9 ( 1.5; 2 31 6.20 1.709 0.019 0.136 10 ( 2; 8 1.60 0.019 1.020 1.010 Celkem 500 100 2.490 0.057 0.238 11
Průměr pro třídě rozděleá data spočteme podle vztahu x = k j=1 x j j = k x j p j, kde x j je reprezetat j té třídy (průměr v j té třídě), j je četost prvků v j té třídě, k = j je celkový počet prvků ve výběru, k je počet tříd. j=1 j=1 Rozptyl pro třídě rozděleá data spočteme podle vztahu ( k s 2 = 1 k ( j 1) s 2 j + j (x j x) ), 2 1 j=1 j=1 kde x j je průměr j té třídy, j je četost prvků v j té třídě, = ve výběru, s 2 j je rozptyl v j té třídě a k je počet tříd. k j je celkový počet prvků j=1 12