Obecné, centrální a normované momenty Obsah kapitoly 4. Elementární statistické zpracování - parametrizace vhodnými empirickými parametry Studijní cíle Naučit se počítat centrální a normované momenty pomocí obecných momentů. Výpočet empirických parametrů šikmosti a špičatosti. Doba potřebná ke studiu Základní text 1 hod. Příklady také 1 hod. Pojmy k zapamatování Úvod Výkladová část Momentové parametry Obecné momenty Centrální momenty Normované momenty Parametr šikmosti Parametr špičatosti Budeme dále pokračovat ve zpracovávání výsledků měření, kdy jsme v akademickém roce 008 09 zkoumali výšku studentek Vysoké školy finanční a správní. Odvodíme si vztahy mezi obecnými, centrálními a normovanými parametry. 4. Elementární statistické zpracování V předchozím oddíle jsme vypočítali první dva empirické parametry našeho souboru studentek, u kterého sledujeme jejich výšku. Byly to parametr polohy aritmetický průměr x = 167,7cm a parametr variability směrodatná odchylka S x = 5,78cm. Nyní si ukážeme, jak empirické parametry vypočítáme snadněji pomocí obecných momentů. Momentové parametry jsou parametry, které vypočítáme ze všech hodnot statistického znaku. Rozlišujeme: obecné momenty, centrální momenty normované momenty. Napíšeme si vztahy pro obecné momenty
O 1 = n 1 Σ ni.x i 1 naměřené hodnoty v první mocnině O = n 1 Σ ni.x i naměřené hodnoty ve druhé mocnině O 3 = n 1 Σ ni.x i 3 naměřené hodnoty ve třetí mocnině O 4 = n 1 Σ ni.x i 4 naměřené hodnoty ve čtvrté mocnině Součin n i.x i si snadno připravíme v tabulce absolutních četností. Podobně n i.x i, n i.x i 3 a n i.x i 4. Interval střed intervalu x i n i do 157 155 1 158-16 160 5 163-167 165 3 17 168-17 170 4 1 173-177 175 5 8 178 a více 180 6 46 Doplněná tabulka: x i n i x i.n i x i.n i x i 3.n i x i 4.n i 1 5 10 0 40 80 3 17 51 153 459 1377 4 1 48 19 768 307 5 8 40 00 1000 5000 6 1 7 43 59 46 163 639 701 113 Výsledky v součtovém řádku dosadíme do vzorců pro obecné momenty. Rozsah souboru n je v našem příkladě roven 46. 1 O 1 =.163 = 3,5435 46 1 O =.639 = 13,8913 46 1 O 3 =.701 = 58,7174 46
1 O 4 = 113 = 63,5435 46 Obecný moment prvního řádu O 1 = 3,5435 je vlastně aritmetický průměr x vyjádřený v prvcích škály (1 až 6). Jednoduše tuto hodnotu převedeme na centimetry. Střed intervalu 3 je 165cm a ještě zbývá 0,5435 délky dalšího intervalu (délka intervalu je 5cm), takže 165 + 0,5435. 5cm = 167,7175 cm. Vidíme, že je to ve shodě s předešlým výpočtem aritmetického průměru, který nám vyšel také x = 167,7174cm. Ostatní obecné momenty slouží k výpočtu centrálních momentů, jak si ukážeme za chvíli. Napíšeme si vztahy pro centrální momenty C 1 = n 1 ni.(x i - x ) 1 naměřená hodnota - střední hodnota na prvou C = n 1 ni.(x i - x ) naměřená hodnota - střední hodnota na duhou C 3 = n 1 ni.(x i - x ) 3 naměřená hodnota - střední hodnota na třetí C 4 = n 1 ni.(x i - x ) 4 naměřená hodnota - střední hodnota na čtvrtou Centrální momenty jsou tedy počítány vzhledem k centrální hodnotě (aritmetickému průměru). Odčítám-li aritmetický průměr od menších hodnot, dostanu záporné číslo, odčítám-li ho do větších hodnot, dostanu číslo kladné. V celkovém součtu mi to dá 0. C 1 je tedy vždy = 0. Centrální momenty lze vypočítat pomocí momentů obecných. Postupnými úpravami obecného vztahu si to ukážeme pro C. C = n 1 ni.(x i - x ) závorku upravíme podle vzorce (a b) = a ab + b
C = n 1 ni.(x i -x i x + x ) závorku roznásobíme n i 1 C = (ni x i n i x i x +n i x ) n U sčítání nezáleží na pořadí operací, tak můžeme nejdříve sečíst první členy v závorce, pak druhé a nakonec třetí. Sumu si můžeme tzv. roztrhat na tři sumy. 1 C = ni x 1 1 i ni x i x + ni x ) n n n Teď již zbývá identifikovat v jednotlivých členech obecné momenty. První člen n 1 ni x i je O Druhý člen obsahuje n 1 ni x i, to je O 1 a x, což je také O 1. Dohromady je druhý člen roven.o 1.O 1 1 1 Ve třetím členu je ni, ale n i = n, takže celé se to rovná.n, a n n to je 1. Zbývá nám tam tedy x a to je O 1 Dostali jsme tedy výraz O O 1 + O 1 = O O 1 C = O O 1 Podobně bychom postupovali v případě C 3 a C 4 a obdrželi bychom 3 C 3 = O 3 3.O.O 1 +.O 1 C 4 = O 4 4.O 3.O 1 + 6.O. O 4 1 3.O 1 Nyní do těchto vztahů dosadíme vypočítané hodnoty O 1 = 3,5435; O = 13,8913; O 3 = 58,7174; O 4 = 63,5435 C = 13,8913 3,5435 = 1,3349 C 3 = 58,7174 3. 13,8913. 3,5435 +.3,5435 3 = 0,0331 C 4 = 63,5435 4. 58,7174.3,5435 + 6.13,8913. 3,5435 3. 3,5435 4 = 4,8418
Centrální moment druhého řádu C je rozptyl, C je směrodatná odchylka. V našem příkladě C = 1,3349 = 1,1554. Pro vyjádření v centimetrech tuto hodnotu vynásobíme délkou intervalu S x = 1,1554. 5cm = 5,777cm. Což je ve shodě s předchozím výpočtem, kdy nám S x vyšlo 5,78cm. Centrální momenty třetího a čtvrtého řádu použijeme k výpočtu dalších empirických parametrů. Parametr šikmosti je nejčastěji určován pomocí normovaného momentu 3. řádu a nese pak název koeficient šikmosti. C3 N3 = C C N 0,0331 = 1,3349 1,3349 3 = 0,015 Je-li koeficient šikmosti kladný, pak prvky škály ležící vlevo od aritmetického průměru mají vyšší četnosti (kladně zešikmené rozdělení četností větší koncentrace menších prvků škály, menších hodnot statistického znaku) a opačně. V našem příkladě se jedná o mírně kladně zešikmené rozdělení, to znamená, že v našem souboru je více žen menších, než je průměrná výška x = 167,7cm. Což si můžeme ověřit v tabulce. č. pořadí výška 89 1 151 34 157 51 3 158 94 4 158 3 5 160 41 6 161 83 7 16 31 8 163 81 9 163 4 10 164 33 11 164 37 1 164
87 13 164 88 14 164 7 15 165 3 16 165 39 17 165 84 18 165 96 19 165 49 0 166 44 1 167 91 167 48 3 167 90 4 167 1 5 168 45 6 168 40 7 168 8 8 168 9 9 168 95 30 170 31 170 85 3 170 35 33 170 80 34 170 50 35 171 36 36 17 6 37 173 46 38 173 47 39 173 38 40 175 43 41 176 93 4 176 86 43 176 4 44 177 5 45 180 97 46 185 Menších žen je 4 a větších jenom. Parametr špičatosti je nejčastěji určován pomocí normovaného momentu 4. řádu a nese pak název koeficient špičatosti. C N 4 = C 4
N 4,8418 = 1,3349 4 =,7171 Špičatějšímu rozdělení četností při daném rozptylu odpovídá vyšší hodnota koeficientu špičatosti než rozdělení ploššímu. Používá se rovněž veličina exces, definovaná vztahem E x = N 4 3. Exces srovnává špičatost empirického rozdělení se špičatostí známého normovaného normálního rozdělení (viz. například publikace Bílková, D. Budinský, P. Vohánka, V.: Pravděpodobnost a statistika. Aleš Čeněk, Plzeň, 009. Podrobně se s ním seznámíme v dalším tématu). Je-li exces kladný, je empirické rozdělení špičatější než toto rozdělení. E x =,7171 3 = - 0,89 V našem příkladě má soubor menší koeficient než normované normální rozdělení. Rozšiřující text Pro normální rozdělení (viz. například publikace Bílková, D. Budinský, P. Vohánka, V.: Pravděpodobnost a statistika. Aleš Čeněk, Plzeň, 009. Podrobně se s ním seznámíme v dalším tématu) platí: v intervalu µ σ ; µ + σ leží 68% všech hodnot a v intervalu µ σ ; µ + σ leží 95% všech hodnot Předpokládejme, že v našem příkladě má soubor, ve kterém zkoumáme výšku studentek, normální rozdělení. Určíme tyto intervaly a vypočítáme relativní četnost počtu studentek v příslušných intervalech. Střední hodnotu µ odhadneme aritmetickým průměrem x = 167,7cm a směrodatnou odchylku odhadneme pomocí centrálního momentu druhého řádu C. C = S x = 5,8cm. První interval µ σ ; µ + σ = 167,7 5,8;167,7 + 5,8 = 161,9;173, 5 V tabulce najdeme, že jsou to ženy od 16 do 173cm, tj. od 7. pořadí do 39.pořadí, tedy 33 žen. č. pořadí výška
89 1 151 34 157 51 3 158 94 4 158 3 5 160 41 6 161 83 7 16 31 8 163 81 9 163 4 10 164 33 11 164 37 1 164 87 13 164 88 14 164 7 15 165 3 16 165 39 17 165 84 18 165 96 19 165 49 0 166 44 1 167 91 167 48 3 167 90 4 167 1 5 168 45 6 168 40 7 168 8 8 168 9 9 168 95 30 170 31 170 85 3 170 35 33 170 80 34 170 50 35 171 36 36 17 6 37 173 46 38 173 47 39 173 38 40 175 43 41 176 93 4 176 86 43 176 4 44 177 5 45 180
97 46 185 Relativní četnost je tedy 33/46 = 0,7174 tj. 71,7%, což zhruba odpovídá hodnotě pro normální rozdělení (68%). Druhý interval µ σ ; µ + σ = 167,7 5,8;167,7 + 5,8 = 156,1;179, 3 V tabulce najdeme, že jsou to ženy od 156 do 179cm, tj. od. pořadí do 44.pořadí, tedy 43 žen. č. pořadí výška 89 1 151 34 157 51 3 158 94 4 158 3 5 160 41 6 161 83 7 16 31 8 163 81 9 163 4 10 164 33 11 164 37 1 164 87 13 164 88 14 164 7 15 165 3 16 165 39 17 165 84 18 165 96 19 165 49 0 166 44 1 167 91 167 48 3 167 90 4 167 1 5 168 45 6 168 40 7 168 8 8 168 9 9 168 95 30 170 31 170 85 3 170 35 33 170
80 34 170 50 35 171 36 36 17 6 37 173 46 38 173 47 39 173 38 40 175 43 41 176 93 4 176 86 43 176 4 44 177 5 45 180 97 46 185 Relativní četnost je tedy 43/46 = 0,9348 tj. 93,5%, což zhruba odpovídá hodnotě pro normální rozdělení (95%). Shrnutí Ukázali jsme si, jak lze centrální momenty vypočítat pomocí obecných momentů a snadno tak určit empirické parametry polohy, variability, šikmosti a špičatosti. Kontrolní otázky a úkoly 1) V tabulce jsou údaje o měsíčních výdajích 30-ti domácností v Kč Interval x i n i 1500-1999 1 4 000-499 6 500-999 3 7 3000-3499 4 7 3500-3999 5 4 4000-4500 6 30 Vypočtěte empirické parametry (polohy, variability, šikmosti a špičatosti). Výsledky vysvětlete. ) V tabulce jsou údaje o počtu členů 30-ti domácností x i n i 1 6 3 4 4 10 5 5 6 3
30 Vypočtěte empirické parametry (polohy, variability, šikmosti a špičatosti). Výsledky vysvětlete. Seznam použitých zkratek Studijní literatura Odkazy HNJ - Hromadný náhodný jev SS - Statický soubor SJ - Statistická jednotka SZ - Statistický znak HSZ - Hodnota statistického znaku ZSS - Základní statistický soubor NV - Náhodný výběr VSS - Výběrový statistický soubor Bílková, D. Budinský, P. Vohánka, V.: Pravděpodobnost a statistika. Aleš Čeněk, Plzeň, 009. Cyhelský, L. Souček, E.: Základy statistiky. EUPRESS, Praha 009. Hindls, R. Hronová, S. Seger, J.: Statistika pro ekonomy. Professional Publishing, Praha 004. Český statistický úřad - http://www.czso.cz/ Klíč k úkolům 1) O 1 = 3,3 tj. 750 + 0,3. 500,-Kč =.865,-Kč Průměrné měsíční výdaje domácností na potraviny jsou.865,-kč O = 1,50 O 3 = 54,03 O 4 = 51,70 C =,05 S x = 1,43 tj. 1,43. 500,-Kč = 715,11Kč. Směrodatná odchylka měsíčních výdajů domácností na potraviny je 715,11Kč. C 3 = 0,39 C 4 = 9,07 N 3 = 0,13 Jedná se o kladně zešikmené rozdělení, v souboru je více domácností s menšími výdaji na potraviny, než je průměrná částka.865,-kč.
N 4 =,17 E x =,17 3 = -0,83 Rozdělení má menší koeficient špičatosti než normované normální rozdělení. ) O 1 = 3,63 Průměrný počet členů domácnosti je mezi 3 až 4 členové. O = 15,17 O 3 = 69,03 O 4 = 333,17 C = 1,97 S x = 1,40 Směrodatná odchylka je 1,4 člena domácnosti. C 3 = -0,36 C 4 = 8,38 N 3 = -0,13 Jedná se o záporně zešikmené rozdělení, v souboru je více domácností s větším počtem členů, než je průměr. N 4 =,17 E x =,17 3 = -0,83 Rozdělení má menší koeficient špičatosti než normované normální rozdělení.