7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM Průvodce studem Předchozí kaptoly byly věnovány pravděpodobnost a tomu, co s tímto pojmem souvsí. Nyní znalost z počtu pravděpodobnost aplkujeme ve statstce. Předpokládané znalost Pojmy z předchozích kaptol. Cíle Cílem této kaptoly je zavést a objasnt pojem statstka, seznámt se základní statstckou termnologí a defnovat charakterstky statstckého souboru s jedním argumentem. Výklad 7.1. Úvod do statstky Několk ctátů na úvod: Nevěřím jné statstce, než té, kterou jsem osobně zfalšoval. Wnston Churchll Statstka je obzvláště rafnovaná forma lž.??? S pomocí statstky je jednoduché lhát. Bez ní je ale těžké říc pravdu. Andrejs Dunkels Už z těchto vět je patrné, že statstka měla a má poněkud pošramocenou pověst vědy, která má často vytvářet pouze jakous luz pravdy a jejíž přímým úkolem je někdy skutečnost úmyslně mást (na obranu statstky W. Churchlla nutno poznamenat, že v případě prvního ctátu se pravděpodobně jedná o podvrh, fámu o tomto údajném Churchllově výroku rozšířl německý mnstr propagandy Joseph Goebbels). - 1 -
Jak jednoduché je ze správných statstckých údajů vyvodt nesmyslné závěry, můžeme dokumentovat na následujícím příkladě: Je statstcky dokázáno, že každé čtvrté dítě, které se narodí, je Číňan. Znamená to však něco př plánování počtu dětí pro průměrnou českou rodnu? Většna čtenářů as tuší, že nkolv. Jsme však schopn takový rozpor vždy odhalt? Abychom se tedy vyvaroval nesprávných úsudků vyplývajících z neznalost, je vhodné se seznámt se základy matematcké statstky a s jejím možnostm. Nejčastější aplkace počtu pravděpodobnost směřují do oblast statstky. Její nejrozšířenější část, tzv. matematcká statstka, se zabývá metodam získávání, zpracování a vyhodnocování hromadných dat (tzn. údajů o vlastnostech velkého počtu jednců - osob, věcí č jevů). Podle použtých metod práce dělíme matematckou statstku na deskrptvní, popsnou statstku - zabývá se efektvním získáváním ukazatelů, které poskytují obraz zkoumaného jevu; statstckou ndukc (matematckou statstku v užším smyslu) - řeší problémy zobecňování výsledků získaných popsem statstckého souboru. 7.2. - základní pojmy Množnu všech předmětů pozorování ( osob, věcí, jevů apod.) shromážděných na základě toho, že mají společné vlastnost, nazýváme statstckým souborem. Jednotlvé prvky této množny se nazývají prvky (elementy) statstckého souboru nebo též statstcké jednotky. Počet všech prvků statstckého souboru se nazývá rozsah souboru N. Soubor, který je předmětem zkoumání, se nazývá základní soubor. Často nelze nebo není účelné provést zkoumání všech statstckých jednotek tohoto základního souboru. Základní soubor pak zkoumáme pomocí statstckých jednotek, které z něj byly určtým způsobem vybrány a které tvoří takzvaný výběrový soubor. - 2 -
Poznámka Například: Př zjšťování výšky studentů ve studjní skupně je statstckým souborem množna studentů dané skupny. Jejch společnou vlastností je, že jsou studenty například studjní skupny JB007 Vysoké školy báňské, a že budeme zkoumat jejch výšku. Statstckou jednotkou je student dané skupny. Rozsahem souboru je počet studentů dané skupny, například 21. Statstckým souborem může být také množna všech studentů této školy. Vlastnost statstckých souborů, které jsou předmětem statstckého zkoumání, sleduje statstka prostřednctvím vlastností statstckých jednotek daného souboru, které posthuje statstckým znaky. Statstcký znak je vyjádřením určté vlastnost statstckých jednotek (prvků množn) sledovaného statstckého souboru; slouží k charakterzování sledovaného hromadného jevu-vlastnost daného statstckého souboru. Znak (argument) souboru se zpravdla značí x. Jednotlvé údaje znaku se nazývají hodnoty znaku, značí se x 1, x 2, x N, kde N je rozsah souboru. Poznámka Například: Například př určování výšky studentů dané studjní skupny je statstckým znakem výška studentů, hodnotou znaku je číselně vyjádřená příslušná výška studenta, např.182 cm. Hodnoty znaku mohou být vyjádřeny buď čísly nebo jným způsobem (zpravdla slovním popsem). V prvním případě mluvíme o znacích kvanttatvních, např. tělesná výška, tělesná hmotnost, počet obyvatel měst, atp.. V druhém případě mluvíme o znacích kvaltatvních, které se mohou vyskytovat ve dvou druzích (znaky alternatvní, např. muž-žena, voják-nevoják, prospěl-neprospěl) nebo ve více druzích (např. povolání, národnost, náboženství, atp.). Další pojmy Když x = mn ( x ) a x max ( x ) m M =, pak nterval x, x je varační obor argumentu X. Hodnota R = x M - x m je varační rozpětí argumentu X. Jestlže se hodnota x vyskytne v souboru f -krát, je f absolutní četnost hodnoty x. Hodnoty x seřazené podle velkost a jejch absolutní četnost f tvoří varační řadu (statstckou řadu). f Hodnota ϕ = (N je rozsah souboru) je relatvní četnost hodnoty x. N - 3 - m M
Hodnota Hodnota F f k k = 1 = je kumulatvní četnost do x. F N Φ = je relatvní kumulatvní četnost do x. Řešené úlohy Příklad 7.2.1. Určete relatvní, kumulatvní a relatvní kumulatvní četnost varační řady x 0 1 2 3 4 f 7 44 56 30 12 Řešení: 5 N = f = 149 = 1 Všechny četnost vypočteme z výše uvedených vzorců: x 0 1 2 3 4 Σ f 7 44 56 30 12 149 φ 0,047 0,295 0,376 0,201 0,081 1 F 7 51 107 137 149 Φ 0,047 0,342 0,718 0,919 1 7.3. Charakterstky statstckého souboru s jedním argumentem Charakterstky statstckých souborů se defnují analogcky jako charakterstky náhodné proměnné X, jíž u statstckých souborů je uvažovaný argument. Úlohu pravděpodobnost hrají zde relatvní četnost (ve shodě se statstckou defncí pravděpodobnost) a funkce φ(x) a Φ(x) lze považovat za emprcké pravděpodobnostní funkce varační řady s analogckým vlastnostm, jaké mají funkce rozložení pravděpodobnost náhodné velčny. Mez nejdůležtější charakterstky patří charakterstky polohy, střední hodnota, modus, medán a kvantly. - 4 -
Defnce 7.3.1. Emprcká střední hodnota je 1 n fx N = 1 x =. Modus statstckého souboru Mo(x) je ta hodnota argumentu X, která má největší absolutní četnost. Medán statstckého souboru Me(x) je ta hodnota argumentu X, která rozděluje soubor uspořádaný na dvě část o stejném počtu prvků. Má-l soubor sudý počet prvků, považuje se za medán průměrná hodnota prostředních dvou. Emprcký p-kvantl je taková hodnota x p, pro kterou platí, že 100p procent prvků souboru je nanejvýš rovných x p. Nejčastěj používaným kvantly jsou kvartly, decly a percently. Defnujte je. A co je z hledska kvantlů vlastně medán? Druhou skupnu charakterstk jsou charakterstky varablty, emprcký rozptyl (dsperze), směrodatná (standardní) odchylka, průměrná odchylka a varační koefcent. Většna z nch je přímou analogí příslušných teoretckých ukazatelů. Defnce 7.3.2. Emprcký rozptyl (emprcká dsperze) je dán vztahem 2 1 x N ( ) ( ) 2 s = D x = f x x Emprcká směrodatná (standardní) odchylka je sx = ( ) D x Průměrná odchylka je určena vztahem 1 d = f. x x N - 5 -
Varační koefcent je dán vztahem s x v = (často se udává v procentech). x Poznámky Základní vlastnost směrodatné odchylky: - směrodatná odchylka měří rozptýlenost kolem průměru s = 0 pouze v případech, kdy se všechna data rovnají stejné hodnotě, jnak s > 0 - stejně jako průměr je směrodatná odchylka slně ovlvněna extrémním hodnotam, jedna nebo dvě odlehlé hodnoty j slně zvětšují - je-l rozdělení dat slně zeškmené (zjstíme pomocí koefcentu škmost), směrodatná odchylka neposkytuje dobrou nformac o rozptýlenost dat - v těchto případech používáme kvantlové charakterstky - vz. dále Varační koefcent používáme, jestlže chceme posoudt relatvní velkost rozptýlenost dat vzhledem k průměru. Počítáme ho, když chceme porovnat rozptýlenost dat skupn měření stejné proměnné s různým průměrem, nebo v případech, kdy se mění velkost směrodatné odchylky tak, že je přímo závslá na úrovn měřené proměnné. Důležtou rol opět ve statstce hrají momentové charakterstky. Uveďme jen jejch defnce značené latnským ekvvalenty řeckých označení z počtu pravděpodobnost. Defnce 7.3.3. Počáteční emprcký moment k-tého řádu m k 1 n k fx N = 1 = Centrální emprcký moment k-tého řádu ( ) 1 n k k = x N = 1 n f x Normovaný emprcký moment k-tého řádu - 6 -
n nk = s k k x Samozřejmě platí analogcké vztahy pro výpočty momentů centrálních z počátečních: 2 n 2 = m 2 - m 1 3 n 3 = m 3-3m 2 m 1 + 2m 1 n 4 = m 4-4m 3 m 1 + 6m 2 m 2 4 1-3m 1 Normované momenty použjeme tady jako ukazatele škmost a špčatost: Defnce 7.3.4. Emprcký koefcent škmost n A= = s 3 n3 3 Emprcký exces n4 e= n4 3= 3 4 s Řešené úlohy Příklad 7.3.1. Vypočtěte emprcké charakterstky, modus a kvartly varační řady: x 0 1 2 3 4 f 7 44 51 30 12 Řešení: Ukážeme tř způsoby výpočtu v Excelu: Nejdříve charakterstky vypočteme přesně podle vzorců, které jsme uvedl: Z tabulka snadno dopočteme číselné charakterstky: Střední hodnota: - 7 -
5 1 x= m =. f. x = 1, 972 1 Rozptyl: N = 1 ( ) 5 2 2 1 s = n2 =. f. x x 1,041 N = 1 Směrodatná odchylka: s = 1,041 1, 020 x Koefcent škmost: ( ) 5 1 3. f. x x n 3 N = 1 0,267 Ax = n= = = 0, 252 3 3 3 s s 1, 02 Exces: n4 2,65 e= n4 = 3 = 3 0,554 4 1, 02 4 s Modus: největší absolutní četnost má hodnota 2, takže: Mo(x) = 2 Př výpočtu kvartlů určíme nejprve jejch pořadí podle vzorce: z p = N.p + 0,5, tedy: z 0,25 = 144.0,25 + 0,5 = 36,5 z 0,5 = 144.0,5 + 0,5 = 72,5 z 0,75 = 144.0,75 + 0,5 = 108,5 Z výpočtu pořadí vdíme, že 1.kvartl se vypočte jako artmetcký průměr hodnot 36 a 37 prvku - z tabulky je zřejmé, že obě jsou rovny 1, tzn. x 0,25 = 1, obdobně x 0,5 = 2 (medán) x 0,75 = 3 Druhá možnost je použtí předdefnovaných funkcí v Excelu: - 8 -
Pro pokročlé užvatele Excelu bude možná nejvhodnější třetí možnost, jak vyřešt tuto úlohu. Použjeme doplňkový nástroj Excelu, který se nazývá Analýza dat. Pokud v menu Excelu v nabídce Nástroje nenajdete tento nástroj, je nutné ho donstalovat. Tento úkon je velm jednoduchý. V nabídce Nástroje klepněte na příkaz Doplňky. V seznamu Doplňky k dspozc zaškrtněte políčko u položky Analytcké nástroje a klepněte na tlačítko OK. Po nstalac by mělo být možné doplněk spustt z nabídky Nástroje. Chceme-l vypočítat příslušné charakterstky, data umístíme do jednoho sloupce (řádku) a v dalogovém okně Analýza dat klepneme na analytcký nástroj Popsná statstka a nastavíme požadované možnost analýzy. Výstup pak v našem příkladě vypadá takto: - 9 -
Tuto úlohu s můžete otevřít vyřešenou v Excelu. 7.4. Zpracování rozsáhlého statstckého souboru Obsahuje-l statstcký soubor velký počet různých hodnot argumentu X, sdružujeme hodnoty argumentu do ntervalů zvaných třídy. Obvykle volíme konstantní šířku třídy. Hrance tříd je nutno volt tak, aby každý prvek statstckého souboru bylo možné zařadt právě do jedné třídy. Počet tříd volíme podle účelu zkoumání, obvykle 5-20 tříd. Přesné pravdlo pro výpočet počtu tříd neexstuje. Uvedeme alespoň některé doporučované možnost: pro šířku třídy h by mělo přblžně platt ( ) h 0,08 x x max mn počet tříd n by měl být n 1+ 3,3 logn nebo n 5log N nebo n N, pro 30 N < 100 volíme 7-10 tříd, pro 100 N < 500 volíme nejvýše 15 tříd, pro N 500 volíme nejvýše 20 tříd., - 10 -
Př zpracování statstckého souboru nahradíme všechny hodnoty v dané třídě jednou hodnotou, tzv. třídním znakem, kterým je artmetcký průměr obou mezí třídy. Třídní znak zastupuje všechny hodnoty, které do této třídy patří. Počet hodnot ve třídě je třídní četnost. Po rozdělení souboru do tříd už nepočítáme s jednotlvým hodnotam, ale s třídam, třídním znaky a třídním četnostm. Rozdělením varačního oboru na třídy a shrnutím všech hodnot argumentu v každé třídě do třídního znaku se dopouštíme př výpočtu centrálních momentů systematckých chyb. Anglcký statstk W. F. Shepard odvodl v r. 1897 korekce, jmž lze tyto chyby korgovat. Značí-l h šířku tříd, jsou opravené momenty dány vzorc: Shepardovy korekce n 1 = n 1, n 3 = n 3 (lché momenty se neopravují) 2 2 h n2 = n2, h 7 4 n4 = n4 n2. +. h 12 2 240 Modus se u rozsáhlého statstckého souboru, který je rozdělen do tříd, vypočte nterpolací: ( ) Mo x h f j+ 1 f j 1 = x j. 2 f + f 2f j+ 1 j 1 x j... střed j-té třídy s největší absolutní četností f j h... šířka třídy Kvantly se v tomto případě určí opět nterpolací: h h xp = xj + ( N. p Fj 1). 2 f j j j... pořadí třídy, do níž je zařazen (N.p)-tý prvek uspořádaného souboru x j... střed j-té třídy F j - 1... kumulatvní absolutní četnost (j - 1)-vé třídy f j... absolutní četnost j-té třídy Řešené úlohy Příklad 7.4.1. Na jednom nejmenovaném pracovšt byly př zjšťování IQ naměřeny následující hodnoty: 68, 71, 71, 78, 82, 82, 87, 91, 92, 92, 95, 97, 102, 102, 102, 103, 105, 105, 109, 110, 111, 111, 111, 112, 112, 114, 114, 114, 115, 116, 118, 119, 121, 122, 122, 124, 126, 131, 133, 137. Rozdělte tyto hodnoty do osm tříd a určete emprcké charakterstky, modus a kvartly. - 11 -
Řešení: x max - x mn = 137-68 = 69 Vypočteme šířku třídy: 69 h = = 8,625 9 8 Když ale nyní vynásobím 9.8 = 72, to je o tř více než původně vypočtené varační rozpětí. Dolní hranc 1.třídy proto zvolím o 1,5 menší, než je x mn, tedy 66,5. K výpočtu emprckých charakterstk je vhodné použít např. Excel - vz. tabulka: Z hodnot v tabulce pak snadno vypočteme hledané charakterstky: Emprcká střední hodnota: 8 1.. N = 1 x= m1 = f x = 105, 65 Emprcká dsperze: h 2 2.. ( ) 1 9 = = = = 2 8 2 2 2 s n n f x x 12 N = 1 12 = 305,9775 6,75 299,23 Emprcká směrodatná odchylka: s = 300, 64 17,34 x Emprcký koefcent škmost: ( ) 8 1 3. f. x x n 3 N = 1 2038,83 Ax = n= = = 0,39 3 3 3 s s 17,34-12 -
Emprcký exces: 2 h 7 4 n4 n2. +. h n4 e= n 2 240 4 3 = 3= 3= 4 4 s s 64 7 4 217244,4 305, 9775. +.8 = 2 240 3 0,704 4 17,34 Modus: ( ) Mo x h f f 9 5 8 = x j = = 2 f + f 2f 2 5+ 8 2.9 j+ 1 j 1. 116. 113,3 j+ 1 j 1 j K výpočtu kvartlů budeme potřebovat ještě tabulku kumulatvních třídních četností F : 1.kvartl: N.p = 40.0,25 = 10 10-tý prvek leží ve třetí třídě, tudíž j = 3 h h 9 9 x0,25 = x3 + ( N. p F3 1). = 89 + ( 10 6 ). = 93,5 2 f 2 4 2.kvartl (medán): N.p = 40.0,5 = 20 20-tý prvek leží v páté třídě, tudíž j = 5 5 3 h h 9 9 x0,5 = x5 + ( N. p F5 1 ). = 107 + ( 20 15 ). = 108,125 2 f 2 8-13 -
3.kvartl: N.p = 40.0,75 = 30 30-tý prvek leží v šesté třídě, tudíž j = 6 h h 9 9 x0,75 = x6 + ( N. p F6 1 ). = 116 + ( 30 23 ). = 118,5 2 f 2 9 6 Pro srovnání ještě uvedeme hodnoty charakterstk, vypočtené (opět v Excelu) bez rozdělení do tříd: Tuto úlohu s můžete otevřít vyřešenou v Excelu. Poznámka Způsob zpracování statstckých dat závsí na tom, jak jsou vstupní data zadána (netříděný soubor ndvduálních hodnot, tříděný soubor - četnostní tabulka), jak velký je rozsah souboru, zda je ke zpracování možno použít výpočetní technky. Tvar výpočetních tabulek, - 14 -
které je třeba př výpočtech vytvořt, je dost ndvduální. I př "ručním" zpracování dat je však možno doporučt metody práce, jaké jsou běžné v tabulkových kalkulátorech, např. v excelu. Pro prác se statckým soubory s zopakujte základní výpočetní postupy v excelu. Vyhledejte v nabídce vestavěných funkcí, které z nch odpovídají funkcím, které jsme uváděl jako charakterstky statstckého souboru (kategore statstckých funkcí, ale k některým trválním výpočtům použjeme některé funkce matematcké). Ještě jeden ctát na závěr: Statstk je ten, kdo s hlavou v rozpálené troubě a s nohama v nádobě s ledem na dotaz, jak se cítí, odpoví: "V průměru se cítím dobře." anonym - 15 -
Úlohy k samostatnému řešení 7.1. Př zjšťování IQ na jednom nejmenovaném pracovšt byly naměřeny tyto hodnoty: 68, 71, 71, 78, 82, 82, 87, 91, 92, 92, 95, 97, 102, 102, 102, 103, 105, 105, 109, 110, 111, 111, 111, 112, 112, 114, 114, 114, 115, 116, 118, 119, 121, 122, 122, 124, 126, 131, 133, 137. Rozdělte hodnoty do 8 tříd a určete emprcké charakterstky, modus a kvartly. 7.2. Určete medán a střední hodnotu měsíční spotřeby elektrcké energe (kwh) v bytech z následujících údajů: 169, 108, 26, 43, 114, 68, 35, 183, 103, 266, 74, 205, 62, 230, 85, 487, 120, 148, 91, 18, 58, 96, 295, 42, 137 7.3. Student se přpravuje na zkoušku. Zjstl, že musí nastudovat průměrně 20 stran denně. První polovnu knhy studoval s rychlostí 10 stran denně. Sthne studum celé látky v určeném termínu, bude-l druhou polovnu studovat rychlostí 30 stran denně? Určete průměrný počet stran, které denně nastudoval. 7.4. Zkoušky žvotnost žárovek daly následující výsledky (v hodnách): 606, 1249, 267, 44, 510, 340, 109, 1957, 463, 801, 1082, 169, 233, 1734, 1458, 80, 1023, 2736, 917, 459. Určete střední dobu žvotnost žárovek a jejch dsperz. 7.5. Sledovaný statstcký znak nabyl těchto hodnot: 60, 80, 80, 100, 100, 100, 100, 120, 120, 150, 150, 160, 180, 200, 200, 200, 200, 200, 220, 250, 250, 250, 280, 300, 300, 300, 300, 350, 350, 360, 380, 400, 400, 400, 400, 420, 450, 500, 500, 550 Určete střední hodnotu a dsperz tohoto souboru. Určete tyto charakterstky také pro tento soubor roztříděný do tříd: a) 0-99, 100-199,... b) 55-155, 155-255,... a porovnejte výsledky obou třídění. 7.6. Určete momentové charakterstky, modus a kvartly následujícího, do tříd rozděleného, souboru. Použjte Sheppardových korekcí. - 16 -
x 390 410 430 450 470 490 510 530 550 570 f 7 10 14 22 25 12 3 3 2 2 Výsledky úloh k samostatnému řešení 7.2. x 0,5 = 103kWh, x = 130,52kWh 7.3. ne, 15 7.4. x = 811,85; s 2 x = 493407 7.5. x = 260,25; s 2 = 17342; x 1 = 282,5; s 2 1 = 19194; x 2 = 257,5; s 2 2 = 16494 7.6. x = 457,4; s 2 x = 1459,9; s x = 38,2; A x = 0,536; e = 0,575; x 0,25 = 431,4; x 0,5 = 457,3; x 0,75 = 477,6; Mo(x) = 463,75-17 -