STATISTIKA POPISNÁ STATISTIKA Předmět popsé statstky Hromadá data a áhodé velčy Představte s že potřebujete zjstt podrobé a kompleí formace o určtém souboru objektů jedců č událostí (stromech v lese ldech ve městě broucích a mez mravecích v mravešt výrobcích z určté dodávky ehodách a slcích povodích a řekách apod) Za tím účelem zpravdla zjšťujeme č měříme vytypovaé charakterstcky jedotlvých objektů a tak obdržíme tzv hromadá data V klascké statstcké termolog se popsovaé objekty azývají statstcké jedotky zjšťovaým charakterstkám se říká statstcké zaky o vyšetřovaém souboru objektů pak mluvíme jako o statstckém (č datovém) souboru Hromadá data tedy vzkají měřeím jstých statstckých zaků a jedotkách ějakého statstckého souboru Statstckým zakem může být apříklad tloušťka stromu hmotost člověka délka krovek brouka č počet ehod v jstém úseku slce Tyto zaky mají promělvý charakter a pro růzé objekty z daého statstckého souboru abývají růzých hodot V teor pravděpodobost mluvíme proto o statstckých zacích jako o áhodých velčách Neí tomu ovšem tak že by áhodé velčy abývaly svých hodot zcela ahodle a epodléhaly ějakému řádu; ve skutečost se všechy hodoty vyskytují s jstým pravděpodobostm charakterzujícím daou velču Byla-l tedy hromadá data získáa změřeím hodot jstého statstckého zaku a jedotkách ějakého statstckého souboru lze očekávat že více pravděpodobé hodoty se budou v těchto datech objevovat s větší četostí (frekvecí) ež hodoty méě pravděpodobé Základím úkolem popsé statstky přtom je: () určt tyto četost a prezetovat je ve formě přehledé tabulky č dagramu () ahradt zpravdla velké možství hromadých dat malým počtem ukazatelů vysthujících ěkteré charakterstcké vlastost dat; takovým ukazatelům se též říká statstky Dskrétí a spojté áhodé velčy Řekeme že áhodá velča je dskrétí abývá-l pouze koečě ebo spočetě moha hodot Spojté velčy jsou pak takové které mohou abývat všech hodot z ějakého tervalu Příkladem dskrétí áhodé velčy je počet ššek a stromu počet roztočů a lstu jabloě počet ehod v roce č výsledek hodu hrací kostkou Příkladem spojté áhodé velčy je pak tloušťka č výška stromu délka krovek brouka hmotost
POPISNÁ STATISTIKA člověka č věk kterého se teto člověk dožje apod Jak uvdíme dále techky používaé př prezetac a charakterzac hromadých dat se poěkud lší dle toho byla-l tato data získáa změřeím hodot velč dskrétích č spojtých Prezetace hromadých dat Budeme yí lustrovat rozlčé způsoby prezetace hromadých dat a třech příkladech V prvých dvou příkladech budeme prezetovat data která byla získáa měřeím hodot dskrétí áhodé velčy (totž výsledky hodů hrací kostkou a počet roztočů a lstech jabloě) ve třetím pak data která byla získáa měřeím hodot spojté áhodé velčy (tloušťky stromů) 3 Příklad (výsledky hodů hrací kostkou) Následující posloupost čísel představuje výsledky sére sto dvacet hodů hrací kostkou: 5 6 4 3 4 3 6 3 3 6 6 4 6 5 6 3 3 3 3 3 6 3 5 6 6 6 6 5 5 6 4 5 5 3 3 3 3 6 4 4 3 4 4 3 3 4 6 5 5 3 4 3 5 4 4 4 4 4 3 4 6 4 6 5 4 5 3 5 3 5 5 3 5 3 6 4 5 6 Jde o hromadá data která byla získáa zazameáím výsledků jedotlvých hodů Výsledek hodu je dskrétí áhodou velču která abývá pouze koečě moha hodot; totž hodot z možy { 3 4 5 6} Četost výskytu jedotlvých hodot v sér jsou zazameáy v ásledující tabulce: TAB Tabulka četostí Výsledek hodu 3 4 5 6 Četost 7 5 4 9 7 8 Uvědomte s přtom trválí skutečost že součet všech četostí je rove počtu dat (hodů) Vyjádříme-l četost možých výsledků relatvě obdržíme tabulku relatvích četostí tj četostí děleých počtem dat TAB Tabulka relatvích četostí Výsledek hodu 3 4 5 6 Relatví četost 04 008 000 058 04 050 Vzhledem k tomu že součet všech četostí je rove počtu dat je součet všech relatvích četostí rove jedé
3 STATISTIKA Někdy se relatví četost vyjadřují v procetech (vz ásledující tabulka) TAB 3 Tabulka relatvích četostí (%) Výsledek hodu 3 4 5 6 Relatví četost (%) 4 08 00 58 4 50 Sezam (relatvích) četostí zachyceý v předchozích tabulkách se azývá též rozděleím (relatvích) četostí Rozděleí četostí lze zázort též grafcky apříklad tzv tyčkovým dagramem (vz obr ) 30 5 0 Četost 5 0 5 0 3 4 5 6 Výsledek hodu Obr Tyčkový dagram Tyčkový dagram vysthuje velm ázorě relatví rozdíly mez četostm jedotlvých hodot; přtom je relevatí zda jde o dagram četostí č dagram četostí relatvích 4 Příklad (počet roztočů a jabloňových lstech) V ásledující tabulce je zazameáo rozděleí počtu roztočů a sto padesát jabloňových lstech Počet roztočů a lstu 0 3 4 5 6 7 8 a více Počet lstů s daým počtem roztočů 70 38 7 0 9 3 0 Popsovaým statstckým jedotkam jsou lsty jabloě zjšťovaým statstckým zakem je počet roztočů a lstu četost výskytu určté hodoty tohoto zaku v datovém souboru tedy vyjadřuje počet lstů s daým počtem roztočů Počet roztočů a lstu je dskrétí áhodá velča jejímž hodotam mohou být v prcpu
POPISNÁ STATISTIKA 4 všecha ezáporá celá čísla 0 K (praktcky lze totž je těžko staovt ějakou mez pro mamálí možý počet roztočů a jedom lstu) Moža hodot této velčy je tedy sce ekoečá ale spočetá což zameá že lze její prvky očíslovat a seřadt do posloupost Tabulku tyčkový dagram četostí lze proto vytvořt podobě jako v případě kdy je moža hodot zkoumaé áhodé velčy koečá s tím drobým rozdílem že musíme sam rozhodout u jaké hodoty sezam rozděleí četostí ukočíme (vz obr ) Počet lstů 80 70 60 50 40 30 0 0 0 0 3 4 5 6 7 8 9 0 Počet roztočů a lstu Obr Tyčkový dagram rozděleí počtu roztočů a lstech jabloě 5 Příklad (tloušťky stromů v porostu) Následující data jsou zázamem výčetích tlouštěk jedoho sta čtyřcetletých smrků stka (Tloušťky jsou měřey v mlmetrech) 04 98 76 76 8 4 06 0 3 09 6 67 38 4 34 39 3 7 69 36 4 46 04 7 06 63 60 54 0 8 83 06 6 63 8 9 0 00 90 33 44 8 79 5 0 9 48 44 0 34 48 3 49 90 8 40 96 4 08 37 70 80 4 0 4 07 08 40 89 0 89 0 56 87 0 9 6 60 34 7 4 47 9 74 94 98 50 4 9 8 54 4 9 4 79 93 Nyí se jedá o data která byla získáa změřeím hodot spojtých áhodých velč totž tlouštěk stromů Hodotam tlouštěk stromů mohou být všecha reálá čísla z určtého tervalu; moža těchto hodot je tedy ekoečá a avíc espočetá Budeme-l měřt tloušťky stromů velm přesě pak se v získaém datovém souboru bude každá hodota vyskytovat pouze jedou Chceme-l tedy získat
5 STATISTIKA ázorou představu o rozděleí četostí aměřeých tlouštěk je třeba amísto četostí jedotlvých hodot určt četost výskytu těchto hodot v daém rozmezí (tervalu) Zvoleá soustava tervalů pak představuje tzv (tloušťkové) třídy Sam přtom určíme jaké budou mít jedotlvé třídy meze Nejpřrozeější setříděí ašch dat obdržíme tak že hodoty tlouštěk vyjádříme v cetmetrech a poté je zaokrouhlíme a celá čísla Jak řečeo reálou osu rozdělíme a vzájemě dsjuktí třídí tervaly () (05;5] (5; 5] (5; 35] K a pro každý takový terval zazameáme četost stromů jejchž tloušťka se v tomto tervalu achází Zastoupíme-l přtom každou třídu jejím středem obdržíme ásledující tabulku četostí: Tloušťka (cm) 8 9 0 3 4 5 6 7 8 9 0 3 4 Četost 3 7 7 9 4 8 7 5 5 3 4 0 Aalogem tyčkového dagramu je yí tzv hstogram (vz obr 3) 6 4 0 Četost 8 6 4 0 0 4 6 8 0 4 6 8 0 4 6 8 30 Tloušťka Obr 3 Hstogram četostí Sloupce hstogramu hrají rol tyček v tyčkovém dagramu Počátek každého sloupce je totožý s dolí mezí příslušé třídy koec sloupce pak s její mezí horí Sloupce tedy avazují jede a druhý což ázorě vysthuje spojtost měřeých velč Namísto hstogramu se používá též polygo četostí (vz obr 4) Te je velce lustratví prezetací tvaru rozděleí četostí Specálě s povšměte že převládají tloušťky průměré zatímco stromů s výrazě podprůměrou č výrazě adprůměrou tloušťkou je velm málo
POPISNÁ STATISTIKA 6 Já přrozeá soustava třídích tervalů je () ( 0] ( ] ( 3] K Ve srováí s tříděím () zůstala tedy zachováa délka tervalů změl se ale počátek tříděí Odpovídající polygo četostí je a obr 5 6 4 0 Četost 8 6 4 0 0 4 6 8 0 4 6 8 0 4 6 8 30 Tloušťka Obr 4 Polygo četostí 4 0 Četost 8 6 4 0 05 35 65 95 5 55 85 5 45 75 305 Tloušťka Obr 5 Polygo četostí Všměte s že polygoy a obrázcích 4 a 5 se sce co do tvaru globálě shodují lokálě však kolv Lokálí kolísáí četostí lze přtom odstrat vytvořeím
7 STATISTIKA delších třídích tervalů tj zvýšeím počtu hodot v jedotlvých třídách Sdružíme-l apříklad tervaly ze soustavy () po čtyřech obdržíme soustavu třídích tervalů (3) (0 4] (4 8] (8] K majících délku čtyř cetmetry Odpovídající polygo četostí je a obr 6 45 40 35 30 Četost 5 0 5 0 5 0 6 0 4 8 6 30 Tloušťka Obr 6 Polygo četostí Statstcké ukazatele 6 Motvačí úloha Př výrobě mcí je staovea hmotost mce pět gramů Je podezřeí že a materálu se systematcky šetří Cílem je toto podezřeí prokázat č vyvrátt Ukážeme jak tato úloha přímo vybízí k zavedeí ěkterých základích statstckých ukazatelů Předě s uvědomme že eí jé cesty jak získat formac o hmotostech vyráběých mcí ež provést amátkovou kotrolu př íž áhodě vybereme určtý (e utě přílš velký) počet mcí a určíme jejch hmotost Dejme tomu že bylo vybráo deset mcí s ásledujícím hmotostm (v gramech): 49 50 488 479 489 47 50 497 486 493 Zázorěme získaé hodoty hmotostí jako body (malé kroužky) a číselé ose (vz obr 7) Vdíme že soustava těchto bodů je poměrě začě posuuta doleva vůč bodu 5 odpovídajícímu staoveé ormě (Tato skutečost přtom zesluje Obr 7 Data jako body a číselé ose 5
POPISNÁ STATISTIKA 8 podezřeí že se mce vyrábějí systematcky lehčí) Chceme-l velkost posuutí datové struktury vůč bodu 5 ějak změřt je výhodé zastoupt polohu dat a číselé ose jedím bodem Takový bod je pak ukazatelem (mírou) polohy hromadých dat Jako velm přrozeé se jeví zastoupt polohu dat a číselé ose jejch těžštěm Lze přtom sado ukázat že souřadcí tohoto těžště je artmetcký průměr jedotlvých dat Jou přrozeou mírou polohy je medá ebol prostředí hodota př uspořádáí dat podle velkost Jak řečeo medá je bod pod ímž ad ímž leží stejý počet hodot V ašem případě je počet dat sudý a medá proto eí urče jedozačě; ve skutečost je medáem lbovolé číslo ležící mez pátou a šestou hodotou tj acházející se v tervalu ( 489; 49) Skutečost že medá je meší ež 5 ezameá přtom c jého ež že hodotu meší ež 5 má alespoň polova dat Artmetcký průměr je přtom rove číslu 4898 (Na obr 7 je poloha artmetckého průměru zázorěa delší svslou čarou) Rozdíl 5 4898 0 0 je kvattatvím vyjádřeím posuutí datové struktury z obr 7 vůč bodu 5 doleva Skutečost že průměrá hmotost vybraých mcí je o 00 g meší ež čí staoveá orma emusí ještě utě zameat že se mce vyrábějí systematcky lehčí Hodota rozdílu mez průměrou a staoveou hmotostí ztrácí totž a výzamu pokud je vzorek vybraých mcí přílš malý a jestlže hmotost vyráběých mcí vykazují přílš velkou varabltu Odrazem velkost této varablty je velkost rozptýleí bodů reprezetujících hmotost vybraých mcí a číselé ose Budou-l apříklad hmotost vybraých mcí rozptýley a ose tak slě jak to vdíme a obr 8 pak možá žádé podezřeí že se mce vyrábějí systematcky lehčí vůbec evzke Naopak př malém rozptýleí které vdíme a obr 9 bude toto podezřeí patrě mohem slější ež př rozptýleí a obr 7 Ve všech třech uvažovaých případech je přtom průměrá hmotost vybraých mcí stejá Obr 8 Data s velkým rozptýleím 5 Obr 9 Data s malým rozptýleím Lze defovat růzé ukazatele (míry) rozptýleí hromadých dat; zpravdla pak kostruujeme tyto ukazatele a základě odchylek jedotlvých hodot datového souboru od ějaké cetrálí hodoty Systematckému studu rozlčých statstckých ukazatelů včetě příkladů jejch použtí je věová celý zbytek této kaptoly 5
9 STATISTIKA Míry polohy 7 Defce Jsou-l K reálá čísla (reprezetující hromadá data) pak jejch artmetcký průměr je defová předpsem K 8 Pozámka Výzam artmetckého průměru tkví v tom že může ahradt jedotlvá data př výpočtu jejch součtu Přesěj řečeo ahradíme-l všecha čísla K průměrou hodotou obdržíme ový soubor čísel 4 K který 43 krát má stejý součet jako soubor původí Je totž K 4 4 K 43 4 krát 9 Geometrcký výzam artmetckého průměru Dle 8 je To ale zameá že ( ) 0 > < Reprezetujeme-l tedy čísla K a rověž tak jejch průměr jako body a číselé ose je součet (absolutích hodot) odchylek bodů K od bodu stejý pro body ležící alevo od jako pro body ležící apravo od Shruto: Bod je těžštěm bodů K 0 Příklad Uvažme data 49 50 488 479 489 47 50 497 486 493 z odstavce 6 (obr 7) Jejch artmetcký průměr je rove 4898 odchylky jedotlvých hodot od průměru jsou 00 0 008 008 0008 078 0 007 0038 003 (Ověřte s sam že součet všech těchto odchylek je ulový počítáme-l záporé odchylky s jejch zamékem) To ale zameá že součet kladých odchylek je stejý jako součet záporých odchylek 0 0 0 0 007 003 0 08 008 0008 078 0038
POPISNÁ STATISTIKA 0 Defce Nechť K jsou reálá čísla přčemž K (a) Je-l k lché číslo pak medá ~ čísel K defujeme předpsem ~ k (b) Je-l k sudé číslo pak medá ~ čísel K defujeme jako lbovolé číslo z tervalu ] zpravdla pak jako ~ ( k ) [ k k k Jak řečeo medá čísel K získáme tak že tato čísla uspořádáme podle velkost a poté vezmeme prostředí z ch případě průměr dvou prostředích Pozameejme v této souvslost že latské slovo medus a aglcké meda zameá středí č prostředí Pozámky Jsou-l data rozložea a číselé ose symetrcky (vz apř obrázek 0) pak jejch artmetcký průměr (těžště) a medá ( prostředí hodota ) splývají Podstatý rozdíl mez artmetckým průměrem a medáem jakožto míram polohy hromadých dat spočívá v tom že artmetcký průměr je v protkladu k medáu velm ctlvý a změy hodot Na druhou strau medá a ěkteré byť velm hrubé (ebol robustí) změy v datové struktuře vůbec ereaguje (srovej obr 0 s obr ) Medá proto patří mez tzv robustí statstky 3 4 5 6 7 8 9 0 3 Obr 0 Symetrcky rozložeá data ( 4 6 7 ) a číselé ose Artmetcký průměr medá jsou rovy číslu 4 3 4 5 6 7 8 9 0 3 Obr Asymetrcky rozložeá data ( 4 0 3) a číselé ose Data vzkla z dat a obr 0 posuutím jejch pravé část více doprava Artmetcký průměr se rověž posouvá doprava a je rove 6 hodota medáu zůstává ezměěa (je rova 4) 3 Defce Modus je hodota která se v hromadých datech vyskytuje s ejvětší četostí Budeme j začt ˆ Má-l mít přtom pojem modu praktcký smysl musí být datová struktura dostatečě velká zatímco počet hodot které se v této struktuře vyskytují je poměrě malý A pak ale emusí být modus urče jedozačě Pro lustrac uvažme ještě jedou data z příkladu 3 (výsledky hodů hrací kostkou) Nejfrekvetovaějším výsledkem je dvojka (padla celkem pětadvacetkrát) Modus je tedy rove dvěma V případě že data vzkou měřeím hodot spojté áhodé velčy lze jejch modus určt až po té co je dostatečě hrubě zaokrouhlíme (setřídíme) Hodota modu pak závsí a způsobu setříděí Například pro data z příkladu 5 (tloušťky
STATISTIKA stromů v porostu) a př setříděí zázorěém a obr 3 je modem hodota dvaáct (cetmetrů) To zameá že tloušťka většy stromů se achází v rozmezí 5 5 cm Modus je mírou polohy v tom smyslu že jde o bod v ěmž č kolem ěhož jsou data ejvíce soustředěa Latské slovo modus je vyjádřeím pro (pravou) míru Míry rozptýleí Naším cílem dále bude vyjádřt kvattatvě míru rozptýleí (a tedy též varablty) hromadých dat Nechť K jsou reálá čísla (reprezetující hromadá data) Velm jedoduchou mírou rozptýleí těchto čísel (jakožto bodů a reálé ose) je rozdíl mez jejch mamálí a mmálí hodotou azývaý též rozpětí Tato míra je ovšem přílš robustí a to aby mohla mít ějaké přílš výzamé praktcké použtí Mohem jemější míru rozptýleí čísel K obdržíme tak že změříme jejch průměrou odchylku od ějaké cetrálí hodoty Položíme-l dospějeme k ásledující defc: 4 Defce Nechť K jsou reálá čísla Číslo d a defovaé předpsem d a se azývá průměrá odchylka (čísel K od jejch artmetckého průměru) Jde o hstorcky ejstarší používaou míru rozptýleí hromadých dat avržeou fracouzským matematkem a fyzkem Perrem Laplacem (749 87) Ozačeí d je odvozeo z aglckého average devato a 5 Rozptyl a směrodatá odchylka V moderí statstce se průměrá odchylka d a používá k vyjádřeí rozptýleí dat je zřídka a ahrazuje se zpravdla průměrou kvadratckou odchylkou hodot K od jejch artmetckého průměru tj výrazem (4) s ( ) Číslo s je tzv rozptyl čísel K zatímco číslo s se azývá směrodatá odchylka Směrodatá odchylka je tedy odmoca z rozptylu Zdůrazěme že slovo rozptyl jsme v této defc použl kolv v tutvím slova smyslu ýbrž jako odborý termí ozačující kokrétím způsobem
POPISNÁ STATISTIKA defovaou míru rozptýleí hromadých dat V tomto výzamu budeme výraz rozptyl používat v celém dalším tetu Písmeo s je v daém kotetu prvím písmeem v aglckém ekvvaletu pro směrodatou odchylku ( stadard devato ) 6 Vzorec pro výpočet rozptylu Výpočet výrazu ( ) lze zjedodušt takto: Tudíž (5) ( ) s ( ) ( ) Jak řečeo rozptyl čísel lze spočítat tak že od průměru druhých moc čísel K odečteme druhou mocu jejch průměru To bývá výhodé př ručím počítáí tehdy když čísla K jsou celá a kolv Obecě pak přímý výpočet rozptylu př zámé hodotě průměru vyžaduje př výpočtu dle defce (4) řádově 3 operací (tj sčítáí a ásobeí) př výpočtu podle vzorce (5) je pak počet operací rove řádově pouze 7 Příklad Uvažme ještě jedou data K 49 50 488 479 489 47 50 497 486 493 z odstavce 6 (obr 7) Víme jž že jejch artmetcký průměr je rove 4898 odchylky jedotlvých hodot od průměru jsou 00 0 008 008 0008 078 0 007 0038 003 a součet všech těchto odchylek (uvažovaých s jejch zamékem) je ulový Symbolem ozačl artmetcký průměr absolutích hodot těchto odchylek a symbolem moc Je tedy a d a d a jsme s průměr jejch druhých 0 0 0 008 008 0008 078 0 007 0038 003 0 s resp 0 008 008 0 007 0038 00 0008 078 0 003 s 49 50 488 479 489 47 0 50 497 486 493 4898
3 STATISTIKA použjeme-l k výpočtu rozptylu vzorce (5) Vyjde 007 s & 00079 s & 0 09 Pro data z obr 8 máme d a 0 8 s & 0 36 pro data z obr 9 pak dostaeme d a 0 05 s & 0 07 d a 8 Vztah mez směrodatou a průměrou odchylkou Čísla s a d a mají stejý fyzkálí rozměr a podávají o souboru dat K stejý typ formace (měří určtým způsobem rozptýleí čísel K a číselé ose) Hodoty odchylek s a d a se ovšem lší přčemž vždy platí že (6) d a s Důvody áhrady přrozeým způsobem defovaé průměré odchylky d a vyumělkovaou směrodatou odchylkou s jsou jedak techckého rázu (s absolutím hodotam se prostě špatě počítá) převážě však rázu matematckého Matematcko-statstcká teore založeá a počítáí se směrodatou odchylkou je totž velm elegatí což souvsí s geometrí Eukledovského prostoru tj prostoru v ěmž jsou měřeím áhodých velč získáváa hromadá data Dokažme erovost (6) Ze vzorce (5) plye že pro lbovolá reálá čísla K je rozdíl vždy ezáporý a tedy Nyí stačí ahradt čísla odchylkam a obdržíme erovost s d a Uvažujme ještě o tom pro jaká data se odchylky s a d a shodují Pokud tato stuace astae pak též s čl d a y kde y Odtud dle vzorce (5) vyplývá že rozptyl čísel y y K y je ulový z čehož dále plye že y y K y a tedy L To však astae právě tehdy když buď (a) ebo K (b) je sudé a čísla abývají právě dvou hodot; přtom každá z obou hodot se vyskytuje ve stejém počtu K y
POPISNÁ STATISTIKA 4 Naopak v obou případech (a) (b) je s d a Dospíváme k závěru že průměrá odchylka d a a směrodatá odchylka s abývají stejé hodoty tehdy a je tehdy astae-l ěkterý z výše popsaých případů (a) ebo (b) 9 Pozámka Všechy výše zavedeé míry rozptýleí čísel K a číselé ose totž rozpětí průměrá odchylka směrodatá odchylka a rozptyl mají ásledující společé vlastost: (a) jsou vždy ezáporé přčemž mohou abýt lbovolé ezáporé hodoty (b) jsou ulové pokud K (c) jsou eulové (a tedy kladé) pokud všecha čísla K ejsou totožá 0 Ilustrace Na ásledujících třech obrázcích jsou schematcky zázorěy výšky tří stejě početých skup stromů Přestože výšky mají ve všech třech souborech totéž rozpětí tutvě vzato je rozptýleí výšek stromů a obr meší ež a obr 3 a u stromů a obr 3 je zase meší ež u stromů a obr 4 Teto poct je přtom velm dobře kvatfková hodotou jak směrodaté tak průměré odchylky Obr Rozptýleí výšek stromů ( 3 rozpětí je 4 d 5 & 0 3 s & 0 5 ) a Obr 3 Rozptýleí výšek stromů ( 3 rozpětí je 4 d 0 s & 4 ) a Obr 4 Rozptýleí výšek stromů ( 3 rozpětí je 4 d a s )
5 STATISTIKA Varačí koefcet Př porováváí varablty ěkolka datových souborů je ěkdy žádoucí vyjádřt míru rozptýleí hromadých dat relatvě vzhledem k jejch průměré hodotě Například rozpětí průměrá odchylka směrodatá odchylka výšek stromů zázorěých a obrázcích 5 a 6 jsou stejé Relatvě však výšky stromů a obr 5 vykazují mohem meší rozptýleí ež výšky stromů a obr 6 Statstckým ukazatelem který teto rozdíl v rozptýleí hromadých dat dobře vysthe je kupříkladu poměr s azývaý varačí koefcet Hodota tohoto koefcetu se přtom často vyjadřuje v procetech Obr 5 Varablta výšek stromů ( 9 rozpětí je d a s s 9 & % ) Obr 6 Varablta výšek stromů ( 3 rozpětí je d a s s 3 & 333% ) Příklady Určíme míry polohy a rozptýleí pro výsledky hodů hrací kostkou z příkladu 3 Uspořádáme-l data podle velkost (vzestupě) dostaeme ásledující posloupost: 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 Jde o řadu sto dvacet čísel prostředím hodotam jsou tedy šedesátá a šedesátá prví Ty jsou obě rovy třem a tedy medá je rove třem To zameá že malé hodoty a 3 převládají ad velkým hodotam 4 5 a 6 Přtom modus (ejčastěj se vyskytující hodota) je rove dvěma Uvědomte s že tyto skutečost lze velm rychle zjstt též ahlédutím do tabulky č Počítáme-l artmetcký průměr ze setříděých dat v tabulce je potřeba zahrout všechy hodoty tolkrát kolk čí četost jejch výskytu v datech Dostaeme 7 5 4 3 9 4 7 5 8 6 34 0 Je důležté s povšmout že výpočet lze provést též a základě zalost relatvích četostí z tabulky až bychom zal počet měřeí Lze totž psát
POPISNÁ STATISTIKA 6 7 5 4 3 9 4 7 5 8 6 0 7 0 5 0 4 0 3 9 0 4 7 0 5 8 0 6 & 04 008 000 3 058 4 04 5 050 6 Četost resp relatví četost hrají tedy př výpočtu artmetckého průměru rol vah jedotlvých hodot Podobě pro průměrou odchylku dostaeme s d a 7 34 5 34 4 3 34 9 4 34 7 5 34 8 6 34 & 4 0 Pro rozptyl pak máme 7 ( 34) 7 5 5 ( 34) 4 3 9 4 0 4 (3 34) 9 (4 34) 0 7 5 8 6 Koečě pro směrodatou odchylku obdržíme s & 64 34 (Přtom stejě jako výpočet měr polohy lze výpočet odchylek zalost relatvích četostí) Shruto: ~ 34; ˆ ; 3; d a & 4; s 69; s & 64 3 Lze ukázat že pro tloušťky stromů v porostu z příkladu 5 je: 7 (5 34) 69 ~ 385; 34; d a 76; s 035; s & 3469 8 (6 34) d a a s provést pouze a základě Vyjádříme-l přtom aměřeé hodoty tlouštěk v cetmetrech (bez zaokrouhleí) dostaeme: ~ 385; 34; d a & 76; s & 03; s & 347 Zmeší-l se totž všecha data desetkrát zmeší se desetkrát všechy charakterstky s výjmkou rozptylu který se v takovém případě zmeší stokrát (Zdůvoděte to!) 4 Sheppardova korekce a terpolace medáu Kumulatví četost V pra se občas stává že ejsou k dspozc orgálí data ýbrž pouze data setříděá přtom však velčy jejchž změřeím byla data získáa jsou spojté (To vede samozřejmě k jsté ztrátě formace) Výpočet statstckých ukazatelů a základě takových setříděých dat pak provádíme tak že původí aměřeé hodoty ahradíme středy odpovídajících tříd Ilustrujme teto postup a datech z příkladu 5 (tloušťky stromů v porostu) setříděých po čtyřech cetmetrech (vz obr 6) Tabulka četostí odpovídající daému setříděí je ásledující: Tloušťka (cm) 4 8 8 6 6 0 0 4 4 8 Četost 3 4 8 6 Použjeme-l data z této tabulky k výpočtu medáu artmetckého průměru rozptylu a směrodaté
7 STATISTIKA odchylky tlouštěk dostaeme ~ 4 6 3 0 4 4 8 8 6 6 00 388 s 6 3 0 4 4 8 8 00 6 6 388 45456 s & 38 Výsledky se přrozeě lší od těch které byly vypočítáy z původích esetříděých dat (vz ) Lze přtom ukázat že chyba ke které došlo př výpočtu artmetckého průměru je čstě áhodé povahy Př výpočtu rozptylu dochází ovšem k jeho systematckému adhodoceí Velkost tohoto adhodoceí je v případě stejě šrokých tříd rova řádově h kde h je šířka třídy Oprava spočívající v odečteí čísla h od rozptylu vypočteého ze setříděých dat se azývá Sheppardova korekce V ašem případě je opraveá hodota rozptylu rova 4 5456 6 & 3 Odpovídající hodota směrodaté odchylky je pak as 3 63 TAB 4 Tabulka kumulatvích četostí Tloušťka (cm) 8 6 0 4 8 Kumulatví četost 34 75 93 99 00 Relatví kumulatví četost 00 034 075 093 099 00 09 Relatví kumulatví četost 08 07 06 05 04 03 0 0 0 0 4 8 ~ 6 0 4 8 3 Tloušťka Obr 7 Polygo relatvích kumulatvích četostí a grafcká terpolace medáu
POPISNÁ STATISTIKA 8 Co se týče medáu sado ahlédeme že se achází v třídě 6 cm Tuto hodotu lze dále zpřest pomocí leárí terpolace př íž předpokládáme že uvtř jedotlvých tříd jsou hodoty dat rozložey zhruba rovoměrě Př realzac terpolace je výhodé ahradt četost tzv kumulatvím četostm č ještě lépe relatvím kumulatvím četostm (vz tabulka 4 a obr 7) Užtím tabulky relatvích kumulatvích četostí obdržíme pro leárí terpolac medáu ásledující vztahy: ~ 50 34 050 034 6 75 34 075 034 Odtud pak ~ 50 34 050 034 4 4 & 56 356 4 04 Na obr 7 je terpolace medáu zázorěa grafcky Povšměte s že úsečky polygou kumulatvích četostí leží ad jedotlvým třídam; strmost těchto úseček je přtom úměrá třídím četostem Třída ad kterou leží ejstrmější úsečka lokalzuje tedy modus Koefcet dsperze 5 Defce a vlastost Koefcet dsperze je defová jako poměr rozptylu a artmetckého průměru a bývá používá v tzv prostorové statstce jako míra agregovaost (ahloučeí) č regularty (pravdelost) prostorových bodových struktur Vysvětlíme ejprve příslušé pojmy Prostorem rozumíme lbovolý Eukledovský prostor ebo jeho část; může jít tedy o prostor třírozměrý ale též dvojrozměrý (rovu) ebo jedorozměrý (přímku) Prostorová bodová struktura (stručěj bodová struktura) je defováa jako (áhodé) rozmístěí bodů v prostoru Body přtom reprezetují zpravdla polohy určtých hmotých objektů (jedců) č místa výskytu jstých áhodých událostí Jako příklad bodové struktury lze uvést rozmístěí hvězd v gala bakterí č molekul ějaké látky v ovzduší květ a louce stromů v lese č podél potoka ldí v parku ebo vlaštovek a drátě Typckým příkladem jedorozměré bodové struktury je posloupost okamžků výskytu ějakých áhodých událostí a časové ose (ehody a dálc poruchy jstého stroje pracoví úrazy příchody hovorů a telefoí ústředu apod) Ve všech výše uvedeých příkladech se může jedec č událost vyskytout v lbovolém místě prostoru; prostor pak vytváří pro jedce č událost tzv spojté prostředí Výskyt jedců č událostí může být však omeze pouze a určtá odděleá místa v prostoru a v takovém případě mluvíme o dskrétím prostředí Například lze uvažovat o rozmístěí houseek č brouků a rostlách roztočů a lstech apod Na ásledujících dvou obrázcích je zázorěo rozmístěí stromů a čtvercovém staovšt; a každém z těchto obrázků vdíme tedy dvojrozměrou bodovou strukturu Povaha obou struktur je ovšem začě odlšá Zatímco sekvoje a prvím obrázku vytvářejí dobře patré shluky rozmístěí smrků a druhém obrázku je
9 STATISTIKA Obr 8 Prostorové rozmístěí sekvojí Obr 9 Prostorové rozmístěí smrků (koefcet dsperze je rove 9) (koefcet dsperze je rove 05) víceméě pravdelé tj s řádově srovatelým rozestupy mez jedc V prvím případě mluvíme o agregovaé v druhém případě pak o pravdelé (regulárí) struktuře V reálých strukturách je přítomost shluků (agregací) zpravdla výsledkem ehomogety prostředí (jedc se pak vyskytují spíše v místech s lepší kvaltou) ebo vzájemých terakcí mez jedc Shluky přtom vzkou ásledkem terakcí tehdy jestlže výskyt jedce v určtém místě zvyšuje pravděpodobost výskytu dalších jedců poblíž tohoto místa; takový typ terakcí se azývá atrakce Jestlže aopak výskyt jedce v určtém místě sžuje pravděpodobost výskytu dalších jedců poblíž tohoto místa mluvíme o hbc Je zřejmé že v důsledku hbce vzkají struktury které se jeví jako pravdelé Obr 0 Čstě áhodé rozmístěí bodů v rově (koefcet dsperze je rove ) Je ovšem též možé že mez jedc ejsou žádé prostorové terakce tj že místa výskytu jedců ezávsejí a tom kde se vyskytují ostatí jedc (Říkáme pak že jedc jsou rozmístě v prostoru čstě áhodě) Tato stuace je v přírodě
POPISNÁ STATISTIKA 0 poměrě vzácá lze j však asmulovat uměle pomocí tzv geerátoru áhodých čísel Je přtom je velm málo pravděpodobé že př čstě áhodém rozmístěí jedců v homogeím prostředí vzke slě agregovaá č aopak začě pravdelá struktura Na obr 0 je zazameá výsledek čstě áhodého rozmístěí jedoho sta jedců (bodů) a čtvercovém staovšt V souladu s předpokladem homogety prostředí jsou přtom body umsťováy ve všech místech čtverce se stejou pravděpodobostí Pokryjme yí každé ze staovšť a obrázcích 8 0 pravdelou čtvercovou sítí (dejme tomu o rozměrech 0 0 čtverců) a spočítejme artmetcký průměr rozptyl a koefcet dsperze počtu jedců v jedotlvých čtvercích (vz tabulky 5 7) Všměte s že v případě agregovaé struktury a obr 8 je a rozdíl od struktur a obrázcích 9 a 0 relatvě velké možství čtverců prázdých zatímco poměrě málo jch obsahuje právě jedoho jedce Tato skutečost má zřejmě za ásledek poměrě vysokou hodotu rozptylu počtu jedců ve čtvercích a tedy též vysokou hodotu koefcetu dsperze Naopak ze všech tří ašch struktur má ejmeší hodotu rozptylu počtu jedců ve čtvercích a rověž tak ejmeší hodotu koefcetu dsperze pravdelá struktura a obr 9 TAB 5 Prostorové rozmístěí sekvojí Počet jedců ve čtverc 0 3 4 5 Počet čtverců s daým počtem jedců 68 4 9 7 06 s & 56 s & 9 TAB 6 Prostorové rozmístěí smrků Počet jedců ve čtverc 0 3 4 5 Počet čtverců s daým počtem jedců 8 54 8 0 0 0 09 s 045 s 05 TAB 7 Čstě áhodé rozmístěí bodů v rově Počet bodů ve čtverc 0 3 4 5 Počet čtverců s daým počtem bodů 35 43 3 6 s 06 s & Obecě lze ukázat že ve strukturách které se jeví jako agregovaé je př vhodé volbě velkost čtverců hodota koefcetu dsperze výrazě větší ež jeda; čím více se přtom struktura zdá být agregovaá tím větší je hodota koefcetu dsperze Naopak v pravdelých strukturách je koefcet dsperze výrazě meší ež jeda; čím více je přtom struktura pravdelá tím je hodota koefcetu dsperze
STATISTIKA meší Ve strukturách které se ejeví a slě agregovaé a začě pravdelé se pak koefcet dsperze počtu jedců ve čtvercích eodlšuje přílš od jedčky 6 Příklad (rozmístěí roztočů a jabloňových lstech) Vyšetřujme prostorové rozmístěí roztočů a lstech jabloě a základě dat z příkladu 4 Prostředí je yí dskrétí prostorovým jedotkam v chž zazameáváme počet jedců jsou (amísto čtverců ) jabloňové lsty Mají-l přtom uvedeá data poskytout smysluplou formac o prostorovém rozmístěí roztočů je třeba předpokládat že všechy lsty jsou (alespoň přblžě) stejě velké Artmetcký průměr a rozptyl počtu roztočů a lstech je & 5 a s & 6 ; koefcet dsperze s & 0 Jde proto o začě agregovaou strukturu Průměry Př řešeí řady praktckých úloh je třeba vypočítat průměrou hodotu čísel K přčemž výsledkem emusí být průměr artmetcký Podáme dále defce ěkterých často se vyskytujících typů průměrů a příklady jejch použtí 7 Kvadratcký průměr Nechť K jsou kladá čísla Kvadratcký průměr K těchto čísel defujeme předpsem Je tedy K K K K K 4 K 4K 444 3K krát což zameá že kvadratckým průměrem můžeme ahradt jedotlvé hodoty K př výpočtu součtu jejch druhých moc s je jejch rozptyl Vzo- 8 Pozámka Nechť K jsou kladá čísla a rec (5) lze pak přepsat ve tvaru Je tedy s K K s Odtud plye ásledující tvrzeí: 9 Tvrzeí Nechť K jsou kladá čísla Pak K přtom rovost astává právě tehdy když K
POPISNÁ STATISTIKA Uvědomte s též že průměrá odchylka d a je artmetckým průměrem z odchylek čísel K od jejch artmetckého průměru zatímco směrodatá odchylka s je kvadratckým průměrem těchto odchylek Nerovost (6) mez průměrou odchylkou a odchylkou směrodatou lze tedy považovat za specálí případ tvrzeí 9 30 Příklad (dedrometrcký) V dedrometr se s pojmem kvadratckého průměru setkáváme př výpočtu průměré (kruhové) výčetí základy Představme s porost čítající stromů s výčetím tloušťkam d d K d (Výčetí tloušťkou stromu rozumíme tloušťku změřeou v tzv prsí výšce tj ve výšce 3 metru ad zemí) Pro každý strom uvažme řez kmee rovou vedeou v prsí výšce kolmo ke kme Předpokládejme že teto řez má pro všechy stromy kruhový tvar Řez - tým stromem je tedy kruh s průměrem d a obsahem 4 πd Teto kruh se azývá kruhová výčetí základa č stručěj výčetí základa (aglcky basal area) Obsah celkové výčetí základy tj hodota součtu 4 πd je velčou jejíž zalost je důležtá př odhadu objemu dřeva v porostu Př výpočtu obsahu celkové výčetí základy můžeme ovšem výčetí základy jedotlvých stromů zastoupt průměrou kruhovou výčetí základou tj kruhem o obsahu 4 πd Výčetí tloušťku stromu s průměrou kruhovou výčetí základou ozačme d Zřejmě je ebol 4 πd 4 (7) 4 πd π d 4 πd Rovost (7) lze terpretovat tak že obsah celkové výčetí základy stromů s výčetím tloušťkam d d K d je stejý jako obsah celkové výčetí základy stejě tlustých stromů s výčetí tloušťkou d Tloušťka d eí ovšem artmetckým průměrem tlouštěk d d K d Z rovost (7) totž postupě dostaeme d d d d d d K d
3 STATISTIKA Jak řečeo výčetí tloušťka stromu s průměrou kruhovou výčetí základou je kvadratckým průměrem výčetích tlouštěk jedotlvých stromů v porostu Ozačíme-l tedy po řadě d a s d artmetcký průměr a rozptyl čísel d d K d pak a proto vždy d d s d d d Pro kokrétí lustrac uvažme staovště s devít stromy jejchž prostorové rozmístěí včetě výčetích kruhových základe je zázorěo a obr Obr Obr Numercké hodoty výčetích tlouštěk jedotlvých stromů (v cetmetrech) echť jsou přtom ásledující: 0 0 30 30 40 40 50 50 60 Na obr jsou pak zázorěy výčetí kruhové základy stejě tlustých stromů zaujímajících a daém staovšt tutéž polohu jako stromy a obr Obsah celkové výčetí základy je přtom a obou obrázcích stejý Jak řečeo výčetí základy stromů a obr jsou artmetckým průměrem výčetích základe stromů a obr Tloušťka stromů a obr je tedy kvadratckým průměrem tlouštěk stromů a obr Hodota této tloušťky je cetmetrů 0 0 30 30 40 9 40 50 50 60 40 3 Geometrcký průměr Nechť K jsou kladá čísla Geometrcký průměr G těchto čísel defujeme předpsem Je tedy (8) G K K G K 4 G 4G 43 4G krát což zameá že geometrckým průměrem můžeme ahradt jedotlvé hodoty K př výpočtu jejch souču Z rovost (8) plye že l l K l l 4G l K 444 G l 44443G krát
POPISNÁ STATISTIKA 4 čl (9) l l K l G l To zameá že logartmus geometrckého průměru čísel K je rove artmetckému průměru logartmů těchto čísel Rovost (9) bývá používáa př umerckém výpočtu geometrckého průměru a platí zřejmě pro logartmus o lbovolém základu 3 Úloha (bakoví) Určete celkovou aspořeou částku z vkladu 60 000 Kč po pět letech jestlže vklad měl ročí úročeí a úroková míra čla v prvím roce 4% ve druhém 8% ve třetím 6% a ve čtvrtém a pátém roce % Určete též průměrou úrokovou míru během celého pětletého období Řešeí Naspořeá částka a koc pětletého období čla 60000 04 08 06 & 896087 Kč p Ozačme p průměrou úrokovou míru (v %) a položme r Výzam čísla p je takový že 00 v případě pevé ročí úrokové míry p % by celková aspořeá částka a koc pětletého období byla stejá jako př výše popsaé pohyblvé úrokové míře Je tedy To ale zameá že čl 60000 r r r r r 60000 04 08 06 r r r r r 04 08 06 5 r 04 08 06 Číslo r je tedy geometrckým průměrem čísel 04; 08; 06; ; Vyjde r & 0835 Průměrá úroková míra čla tedy as 835% Artmetcký průměr procetuálích úrokových měr tj čísel 4 8 6 je přtom 84 tedy větší ež je správě vypočteých 835 Pozameejme že podobým způsobem by se počítala též průměrá fertlta mortalta č růstová tezta v daé populac 33 Příklad (dedrometrcký) V příkladu 30 byl zavede pojem kruhové výčetí základy stromu (kmee) Chceme-l být více realstčtí můžeme předpokládat že tato základa eí kruhová ýbrž že má tvar elpsy Dejme tomu že umíme odhadout osy této elpsy tj dva avzájem kolmé směry ve kterých má kme ejmeší a ejvětší výčetí tloušťku Změřme tyto tloušťky a ozačme jejch velkost d a d Obsah elpsy s průměry d a d je jak zámo rove 4 dd π Trváme-l ovšem a tom že obsah výčetí základy chceme počítat jako obsah kruhu je třeba jeho průměr d zvolt tak aby teto kruh a elpsa s průměry d a d měly stejý obsah To vede k rovc 4 d 4 πd d π
5 STATISTIKA z íž dále plye že d d d a d dd Číslo d je tedy geometrckým průměrem čísel d a d Závěr: Provádíme-l měřeí tlouštěk stromů ve dvou avzájem kolmých směrech tato měřeí jsou prováděa za účelem výpočtu obsahu výčetí základy a obě aměřeé tloušťky ahrazujeme z úsporých důvodů jedou (průměrou) hodotou je třeba použít průměr geometrcký (a kol artmetcký!) 34 Harmocký průměr Nechť K jsou kladá čísla Harmocký průměr H těchto čísel defujeme předpsem H K Je tedy K H K 4 H 44 H 4443H krát což zameá že harmockým průměrem můžeme ahradt jedotlvé hodoty K př výpočtu součtu jejch převráceých hodot Pozameejme ještě že lze psát H a že harmocký průměr dvou kladých čísel K y je y y y y 35 Úloha (dopraví) Předpokládejme že automobl jede do kopce rychlostí čtyřcet km/hod a poté jede stejou trasou zpátky rychlostí osmdesát km/hod Jaká je průměrá rychlost automoblu během této projížďky? Řešeí Průměrou rychlostí rozumíme takovou rychlost v (km/hod) že jízda př íž bychom celou trasu projel tam zpět touto rychlostí by trvala stejě dlouho jako jízda čtyřcetklometrovou rychlostí do kopce ásledovaá jízdou osmdesátklometrovou rychlostí z kopce Nechť s je délka trasy
POPISNÁ STATISTIKA 6 (v jedom směru) v klometrech Porováím časů př rovoměrém a erovoměrém způsobu jízdy obdržíme rovc s s s s v v 40 80 Odtud vyplývá že a v v 40 80 v v 40 80 Rychlost v je tudíž harmockým průměrem čísel 40 a 80 Vyjde 40 40 80 v 533 km/hod 40 80 Vypočítaá průměrá rychlost je meší ež artmetcký průměr čísel 40 a 80 což je v souladu se skutečostí že meší rychlostí (do kopce) se jelo déle 36 Pozámka Nechť K jsou kladá čísla přčemž () je ejmeší a () ejvětší z ch Lze ukázat že platí ásledující erovost: (0) ( ) H G K ( ) Jestlže je přtom K pak všechy erovost v (0) přecházejí v rovost Naopak ejsou-l všecha čísla K stejá pak jsou všechy erovost v (0) ostré 37 Průměr stupě Všechy výše defovaé typy průměrů lze považovat za specálí případy tzv průměru stupě Kokrétě echť 0 je daé reálé číslo a K jsou kladá čísla (reprezetující hromadá data) Průměr stupě z čísel defujeme předpsem () K Okamžtě vdíme že artmetcký průměr je průměrem stupě jeda kvadratcký průměr je průměrem stupě dva a harmocký průměr je průměrem stupě Ze vztahu () plye že 80 a
7 STATISTIKA Posledí vztah lze psát jako K 443 K 4 krát což zameá že průměrem stupě můžeme ahradt jedotlvé hodoty K př výpočtu součtu jejch - tých moc 38 Příklad Uvažme soubor borůvek sesbíraých a daé lokaltě Předpokládejme že borůvky mají kulový tvar a že záme poloměry r r K r jedotlvých borůvek Chceme určt poloměr borůvky s průměrým objemem Ozačme teto poloměr r Zřejmě platí: Odtud pak plye že čl r 3 3 r 4 3 4 3 πr 3 π 3 r 3 resp r 3 r 3 3 3 r 3 r r Jak řečeo poloměr r průměrě objemé borůvky je rove průměru třetího stupě z poloměrů r r K r jedotlvých borůvek Teto průměr zastupuje čísla r r K r př sčítáí jejch třetích moc Defc průměru stupě elze bezprostředě použít pro případ 0 Pak totž a pravé straě rovost () stojí eurčtý výraz typu Je ovšem přrozeé defovat průměr stupě ula jako lmtí hodotu výrazu () pro 0 tj předpsem 0 lm 0 Ukážeme yí že pro lbovolý soubor kladých čísel estuje a určíme její hodotu K tato lmta 39 Tvrzeí (o průměru stupě ula) Nechť K jsou pevě daá kladá čísla Pak lm 0 K (Za průměr stupě ula je tedy přrozeé považovat průměr geometrcký)
POPISNÁ STATISTIKA 8 Důkaz Dle defce obecé mocy je Užtím ľ Hosptalova pravdla dostaeme ( )l e l lm 0 l lm 0 l l K Tudíž dle věty o lmtě složeé fukce lm e 0 l K K což bylo dokázat 40 Průměry stupě ± Nechť K jsou kladá čísla přčemž () je ejmeší a () ejvětší z ch Pro lbovolé reálé číslo zřejmě platí že () ( ) ( ) Vhodou volbou čísla se lze přtom k mezím () a () lbovolě přblížt Platí totž: (3) lm ( ) a lm ( ) Je tedy přrozeé považovat číslo () za průměr stupě a číslo () za průměr stupě Nerovost (0) a () jsou specálím případem věty (vz 4) která říká že pro pevě daý soubor čísel K roste hodota průměru s rostoucí hodotou stupě Měí-l se přtom stupeň spojtě měí se hodota průměru spojtě; s měící se hodotou stupě abývá tedy průměr všech hodot z tervalu ] [ ( ) ( ) Dodatky 4 Věta (o erovostech mez průměry) Nechť K je pevě daý soubor kladých reálých čísel přčemž tato čísla ejsou všecha stejá
9 STATISTIKA Ozačme průměr stupě z čísel K ; přtom klademe 0 K ( ) a ( ) kde () je mmum a () mamum čísel K Tímto způsobem je a rozšířeé reálé ose [ ] defováa reálá fukce s hodotam v tervalu ] Tato fukce je spojtá a rostoucí [ ( ) ( ) Důkaz * Obecá moca je spojtá fukce a součet složeí spojtých fukcí je opět spojtá fukce Odtud plye že přřazeí je spojtou fukcí jak v tervalu ( 0) tak v tervalu ( 0 ) Jelkož však v bodech 0 je průměr dodefová lmtou je toto přřazeí spojtou fukcí v celé rozšířeé reálé ose Ukážeme yí že přřazeí je fukcí rostoucí tj že platí: < β < (I) Nejprve ukážeme že pro > je > Budeme přtom dokazovat zesíleí tohoto tvrzeí pro průměry vážeé Nechť tedy K jsou kladá čísla (váhy) taková že Chceme ukázat že (4) > (Volbou K odtud obdržíme erovost > ) Vzhledem k tomu že číslo je kladé je erovost (4) ekvvaletí s erovostí (5) > Důkaz erovost (5) provedeme dukcí dle (a) Nechť Máme ukázat že pro lbovolá dvě kladá čísla γ δ taková že γ δ a pro lbovolá dvě vzájemě růzá kladá čísla je δ > ( γ δ γ ) Za tím účelem zkoumejme fukc f ( ) v proměé kde ( 0 ) Jelkož > je tato fukce v celém svém defčím oboru koveí a tedy pro β
POPISNÁ STATISTIKA 30 lbovolá dvě růzá kladá čísla leží všechy vtří body úsečky s krajím body )] ( [ f a )] ( [ f ad grafem fukce ) ( f To ale zameá že ) ( ) ( ) ( f f f δ γ δ γ > což bylo dokázat (b) Předpokládejme yí že pro ějaké přrozeé číslo je jž erovost (5) dokázáa Nechť K jsou kladá čísla přčemž alespoň dvě z ch jsou vzájemě růzá Dále echť K jsou kladá čísla taková že Lze psát ) ( K K přtom dle dukčího předpokladu K K Vezmeme-l tedy v úvahu fakt že pro je jž erovost (5) dokázáa dostaeme ) ( ) ( ) ( K K K K přtom alespoň jeda z předchozích erovostí musí být ostrá (rozmyslete s proč) Tím je provede dukčí krok a tedy důkaz erovost (5) (II) Ukážeme že β < pokud < < < β 0 To je ale téměř bezprostředí důsledek erovostí mez průměry dokázaých v část (I) Je totž > β a tedy dle (I) [ ] [ ] β β β β β β > K K K
3 STATISTIKA Odtud pak což bylo dokázat β β β K K > Přechodem k lmtám pro 0 a dále dostaeme že < β pro 0 < β (III) Ukážeme že < β pokud < < β < 0 To ale hed vyplye z erovostí mez průměry dokázaých v část (II) Je totž 0 < β < < a tedy dle (II) β β β β β β K [ ] [ ] K [ ] K [ ] < K Přechodem k převráceým hodotám dostaeme že < β Přechodem k lmtám pro 0 a dále dostaeme že < β pro < β 0 (IV) Spojeím erovostí dokázaých v (II) a (III) obdržíme dokazovaou větu V prcpu by bylo možé defovat průměrou odchylku směrodatou odchylku od jé cetrálí hodoty ež od artmetckého průměru V jstém smyslu ejlepší volba této cetrálí hodoty je taková pro ž příslušá odchylka abývá mmálí hodoty Vzká otázka zda artmetcký průměr má tuto vlastost Odpověď dávají ásledující dvě tvrzeí 4 Tvrzeí Nechť K je pevě daý soubor čísel Pak fukce abývá v bodě f ( ) svého mma Důkaz Sado ahlédeme že ( ) f ( ) což zameá že f () je kvadratcká fukce a jejím grafem je parabola Vrchol V této paraboly určíme doplěím a úplý čtverec Kokrétě
POPISNÁ STATISTIKA 3 kde s je rozptyl čísel f ( ) s ( ) ( ) K Je tedy V ( s ) což bylo dokázat (Přrozeě bylo též možo vypočítat dervac fukce f () a ptát se kdy je tato dervace ulová) 43 Tvrzeí Nechť K je pevě daý soubor čísel Pak fukce abývá v bodě ~ svého mma f ( ) Důkaz Přeecháváme jej čteář jako cvčeí Vdíme tedy že je správé když směrodatá odchylka se defuje jako odchylka od artmetckého průměru a druhou strau průměrá odchylka by měla být defováa spíše jako odchylka od medáu 44 Tvrzeí Nechť R je rozpětí a s směrodatá odchylka čísel K Pak s R Důkaz Ozačme () ejmeší a () ejvětší z čísel K a položme ( ( ) ( ) ) Bod je středem úsečky [ ( ) ( ) ] a proto R pro lbovolé z čísel Použjeme-l avíc tvrzeí 4 dostaeme že ( R ) ( ) 4 Odtud jž bezprostředě plye dokazovaá erovost 45 Samuelsoova erovost Nechť s je směrodatá odchylka souboru čísel K Pak Důkaz Vz [ ] Vzhledem k tomu že je zřejmě ma s R ma obdržíme spojeím tvrzeí 44 a Samuelsoovy erovost ásledující vztahy mez směrodatou odchylkou a rozpětím: (6) s R s resp R s R
33 STATISTIKA Cvčeí Př kotrole jakost bylo áhodě vybráo devět výrobků; jejch hmotost (v gramech) jsou přtom ásledující: 430 5 497 48 538 498 530 470 49 Určete artmetcký průměr rozptyl směrodatou odchylku a průměrou odchylku zazameaých hmotostí Výsledek: & 49 4; s & 9 37 ; s & 3 06 ; & 3 Ve dvaáctčleé studjí skupě bylo př zápočtovém testu dosažeo ásledujících bodových výsledků (mamálí možý počet bodů je rove deset): 3 5 7 0 0 0 0 8 0 0 8 3 Vypočítejte modus medá a artmetcký průměr zazameaých výsledků Výsledek: $ 0 ~ 8 7 3 Uveďte příklad pět vzájemě růzých kladých čísel vyhovujících současě ásledujícím dvěma podmíkám: (a) artmetcký průměr čísel je meší ež jejch medá (b) součet všech čísel je rove jedé 4 * Dokažte tvrzeí 43 5 Určete medá a artmetcký průměr všech lchých přrozeých čísel meších ež jede tsíc 6 Datový soubor sestává z deset čísel přčemž platí: () součet všech čísel je rove dvacet () součet jejch druhých moc je dvě stě Vypočítejte směrodatou odchylku Výsledek: s 4 7 Jak se změí modus medá artmetcký průměr rozpětí průměrá odchylka rozptyl směrodatá odchylka a varačí koefcet čísel K jestlže: a) všecha tato čísla vyásobíme dvěma b) u všech čísel změíme zaméko c) všecha čísla zvětšíme o deset jedotek? 8 Jak se změí průměr stupě souboru kladých čísel K jestlže všecha tato čísla vyásobíme kladou kostatou c? d a
POPISNÁ STATISTIKA 34 9 Vypočítejte artmetcký harmocký a geometrcký průměr průměr druhého stupě a rozptyl ásledujících dat: 443 K 443 K 3 3 443 K 3 30 krát 60 krát 90 krát Proveďte zkoušku správost seřazeím vypočteých průměrů podle velkost Zdůvoděte proč zcela stejý výsledek obdržíme pro soubor čísel 3 3 3 Výsledek: 3 ; g & 8; h ; & 45 ; s 5 9 0 Dokažte elemetárím způsobem že artmetcký průměr dvou kladých čísel y je vždy alespoň tak velký jako jejch průměr geometrcký Přechodem k převráceým hodotám odtud odvoďte erovost mez průměrem geometrckým a harmockým Prostorové rozmístěí stromů v porostu Šesthektarový borový porost byl rozděle a šest set stejě velkých vzájemě se epřekrývajících částí ( čtverců ) Počty stromů v jedotlvých čtvercích jsou zazameáy v ásledující tabulce: Počet stromů ve čtverc 0 3 4 5 6 Počet čtverců s daým počtem stromů 4 30 08 5 60 8 a) Zázorěte rozděleí počtu stromů ve čtvercích tyčkovým dagramem b) Vypočítejte koefcet dsperze a terpretujte získaý výsledek Výsledek: & 4 ; s & 7 ; s & 0 6 ; stromy jsou a daém staovšt rozmístěy velm pravdelě Prostorové rozmístěí velkých stíek (Phlosca muscorum) 0 5 3 0 0 0 0 0 0 3 4 0 0 3 5 0 0 3 0 4 0 0 0
35 STATISTIKA Na obrázku je zazameá výsledek aalýzy prostorového rozmístěí stíek ve spadaém lstí a humusu v část bukového háje poblíž Ofordu Studovaá plocha byla pokryta pravdelou šestúhelíkovou sítí s šířkou šestúhelíku jeda stopa (030 m) a poté byl spočítá počet stíek přpadajících a jede šestúhelík (Data jsou převzata z čláku Mea crodg od M Lloyda otštěého v roce 967 v časopsu Joural of Amal Ecology) Vypočítejte koefcet dsperze a terpretujte získaý výsledek Výsledek: 53 37 & 43 ; s & 3 ; s & 6 ; prostorová struktura je poměrě začě agregovaá 3 Pracoví úrazy V ásledující tabulce je zazameá počet pracovích úrazů v určtém úseku hlubého dolu přpadajících a jedu směu: Počet úrazů během směy 0 3 4 5 6 Počet smě s daým počtem úrazů 6 40 7 Prezetujte získaá data pomocí tyčkového dagramu Dále vypočítejte koefcet dsperze počtu úrazů přpadajících a jedu směu a terpretujte získaý výsledek Výsledek: & 0 44 ; s & 0 8; s & 8 ; vysoká hodota koefcetu dsperze prozrazuje že úrazy ejsou patrě čstě áhodým událostm 4 Počet blzových laloků makovce Počet laloků 6 7 8 9 0 3 4 5 6 7 8 9 0 Počet makovc 3 38 06 5 38 305 35 30 34 8 50 9 3 Vypočítejte modus medá artmetcký průměr rozptyl a směrodatou odchylku počtu blzových laloků a prezetujte data pomocí tyčkového dagramu Výsledek: $ 3 ~ 3; & 76 ; s & 5 00 ; s & 4 5 Počet lístků a lstech jasau Počet lístků 3 5 7 9 3 5 Počet lstů s daým počtem lístků 8 4 876 674 947 753 59 Vypočítejte modus medá artmetcký průměr rozptyl a směrodatou odchylku počtu lístků a lstu Výsledek: ˆ ~ ; & 9 9 ; s & 3 44 ; s & 85
POPISNÁ STATISTIKA 36 6 Výčetí tloušťky jedlí Následující sezam zachycuje výčetí tloušťky sto až sto deset let starých jedlí rostoucích a daém staovšt Hodoty tlouštěk jsou uvedey v mlmetrech 47 365 367 340 45 48 3 333 46 85 9 374 368 38 47 55 447 73 3 3 3 4 496 437 37 38 377 34 7 68 47 345 53 34 404 36 36 54 63 59 46 470 533 335 6 34 84 83 456 50 33 380 97 4 78 45 43 5 445 309 96 568 374 59 44 339 459 6 53 96 9 3 34 464 75 367 4 33 96 36 395 69 449 3 75 438 9 300 50 390 380 407 344 48 406 3 88 345 50 445 359 467 404 374 437 558 366 365 305 30 404 453 36 36 63 44 438 463 46 345 307 349 5 54 379 63 549 385 47 54 436 88 344 4 44 387 34 388 304 363 404 496 4 47 333 39 70 365 88 79 34 39 64 307 353 377 36 7 39 33 4 8 5 3 34 77 560 604 57 4 47 78 76 589 76 37 393 40 3 9 0 0 76 45 0 339 44 53 70 36 354 544 3 36 3 335 360 68 346 a) Zazameaá data setřďte a výsledek tohoto setříděí prezetujte grafcky Volte přtom růzou šířku a počátek tloušťkových tříd b) Určete základí statstcké ukazatele (Použjte vhodý tabulkový kalkulátor č soubor statstckých programů) 7 V ásledující tabulce je uvedea hmotost ovorozeých chlapců z chudých číských rod v Sgapuru v letech 950 95 Hmotost jsou měřey v ucích data jsou přtom pro přehledost sdružea do tříd po osm ucích Hmotost v tabulce odpovídají středům příslušých tříd Hmotost 595 675 755 835 95 995 07555353539547555563575 Četost 6 39 385 888 79 40 007 33 64 0 74 4 5 Určete modus medá artmetcký průměr rozptyl a směrodatou odchylku hmotostí Korgujte chyby způsobeé setříděím užtím leárí terpolace př výpočtu medáu a Sheppardovy korekce př výpočtu rozptylu