PREPRINT POPISNÁ STATISTIKA A VÝBĚROVÁ ŠETŘENÍ

Rozměr: px
Začít zobrazení ze stránky:

Download "PREPRINT POPISNÁ STATISTIKA A VÝBĚROVÁ ŠETŘENÍ"

Transkript

1 UNIVERZITA OBRANY KATEDRA EKONOMETRIE UČEBNÍ TEXT PRO DISTANČNÍ STUDIUM PREPRINT POPISNÁ STATISTIKA A VÝBĚROVÁ ŠETŘENÍ RNDr. Oldřich KŘÍŽ Mgr. Jiří NEUBAUER, Ph.D. Mgr. Marek SEDLAČÍK, Ph.D. B r n o

2

3 3 Obsah 1 ÚVOD DO STATISTIKY Historický přehled Význam a pojetí moderní statistiky Statistická jednotka a statistický soubor Statistický znak Shrnutí 1. kapitoly Test ke kapitole POPISNÁ STATISTIKA Vyjadřovací prostředky statistiky Základní zpracování dat Charakteristiky polohy Charakteristiky variability Charakteristiky koncentrace Kompletní zpracování dat pomocí aplikace STAT Shrnutí 2. kapitoly Test ke kapitole VÝBĚROVÁ ŠETŘENÍ Druhy výběrového šetření Náhodný výběr a výběrové charakteristiky Výběrová rozdělení Populace, výběr a statistické usuzování ODHADY CHARAKTERISTIK ZÁKLADNÍHO SOUBORU Bodové odhady parametrů Intervalové odhady parametrů Intervalové odhady parametrů normálního rozdělení Intervalový odhad střední hodnoty pro výběry velkého rozsahu Intervalový odhad parametru alternativního rozdělení Shrnutí 4. kapitoly Test ke kapitole TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ Pojem hypotézy a podstata testování hypotéz Test o nulové šikmosti a nulové špičatosti náhodné veličiny Jednovýběrové testy hypotéz Dvouvýběrové testy hypotéz Testy hypotéz o rozdělení základního souboru Shrnutí 5. kapitoly Test ke kapitole

4 4 Seznam literatury 161 Statistické tabulky 163

5 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 5 1 ÚVOD DO STATISTIKY První kapitolu této učební pomůcky budeme věnovat úvodnímu seznámení se statistikou. Představíme si statistiku jako vědní disciplínu, která se vyvinula z původních starověkých sčítání obyvatel a majetku až k současnosti. Dozvíme se, co si vlastně máme představit pod pojmem statistika a jakou roli hraje statistika v moderní ekonomii. Náš odborný slovník si rozšíříme o další velmi důležité pojmy, abychom se v odborném prostředí domluvili a také rozuměli tomu, co se kde ve statistickém jazyku píše či mluví. Cílem kapitoly je: seznámit se s historií statistiky a nejvýznamnějšími osobnostmi jejího vývoje, vysvětlit podstatu a roli hromadného pozorování ve statistice, zavést pojmy statistický soubor a statistický znak. 1.1 Historický přehled Slovo statistika pochází z italského stato, původně s významem stav, od konce středověku také státní území resp. stát. Jako první jej patrně použil Girolamo Ghilini ( ) v práci Ristretto della civile, politica, statistica e militare scienza Shrnutí civilní, politické, statistické a vojenské vědy), ve které shromáždil různé znalosti té doby o státu, o jeho obyvatelích, životě, právu, obchodu i výrobě, náboženství i armádě. Především v tomto smyslu se potom slovo stato rozšířilo i do jiných jazyků, např. state, Staat, état, estato. Podněty pro vznik statistiky První historické zmínky o činnostech, které z dnešního pohledu připomínají statistiku, pocházejí už ze starověku. Záznamy o sčítání obyvatel a majetku můžeme najít už v písemnostech starých Babyloňanů z období před rokem 3800 př. n. l. Historicky nejstarším směrem ovlivňujícím také vznik statistiky byla existence prvních městských států v období 3 2 tisíce let př. n. l. ve starověkých civilizacích, jakými byly Egypt, Čína, Mezopotámie, Palestina, Řecko nebo Řím. Se vznikem městských států vzniká také potřeba jejich správy, se kterou jsou spojené nemalé náklady, proto se zvyšuje výběr daní. K určení jejich výše je ale nezbytné mít číselné údaje o území, obyvatelstvu, zemědělství, obchodu, řemeslech apod. Tyto informace se získávají zejména na základě soupisu obyvatelstva a dalších šetření, která mají z dnešního pohledu charakter statistických šetření. Jednu z prvních zmínek o statistickém šetření nalezneme také v Bibli, kde je ve Starém Zákoně ve 4. knize Mojžíšově informace o sčítání provedeném Mojžíšem po

6 6 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík odchodu izraelského národa z Egypta a obsahuje konkrétní počty bojovníků, oddílů, velitelů, ale i darů Ježíšovi. Velké sčítání lidu zavedli také ve starověkém Římě v 5. století př. n. l. Sčítání měli na starosti vysocí úředníci, nazývaní cenzoři. Sčítání (cenzy) se konala každých 5 let a zjišťovaly se nejen počty obyvatel a jejich majetek, ale také např. počet otroků. Podobné průzkumy se postupně rozšiřovaly i na další evropské země, a to až do období středověku. Od 16. století byly zřizovány církevní matriky, které se na dlouhou dobu staly základním zdrojem informací o obyvatelích. Tři kořeny statistiky Vlastní termín statistika se začal používat až v 18. století v Německu pro označení nauky o státu. Tato vědecká disciplína se začala rozvíjet v 16. století na univerzitách v Itálii a později také právě v Německu, proto se jí říká univerzitní statistika. Tehdejší statistické studie obsahovaly především údaje o evropských státech geografické, politické, ekonomické a další. Na rozdíl od dnešní statistiky neobsahovaly mnoho čísel, většina zaznamenaných údajů měla charakter slovní. Jedno z prvních státovědných děl Del governo et administratione di diversi regni (O vládě a správě v různých královstvích a republikách) vyšlo v roce 1562 v Benátkách a napsal je Francesco Sansovina. Přesně o sto let později uveřejnil Ludwig von Seckendorff svou státovědnou knihu Německý knížecí stát. Na jejich práce navazuje nejvýznamnější teoretik statistiky v německé jazykové oblasti Gottfried Achenwall ( ). Byl profesorem statistiky na univerzitě v Göttingenu, autorem populární učebnice statistiky, která byla předepsána pro přednášky statistiky i na Karlově univerzitě v Praze. V Anglii mezitím vznikl zcela jiný okruh statistiky, a to takzvaná politická aritmetika, která vycházela z údajů o narozeních a úmrtích, a na tomto základě se pokoušela pozorovat a srovnávat informace o obyvatelstvu za delší časové úseky. Tyto průzkumy vycházely z údajů tehdejších církevních matrik a na jejich základě se snažily odvodit některé obecně platné zákonitosti (např. že se rodí obecně více chlapců než děvčat). Gottfried Achenwall ( ) William Petty ( )

7 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 7 Její nejvýznamnější představitelé jsou William Petty ( ) a John Graunt ( ). Petty je považován za předchůdce moderní statistiky i klasické politické ekonomie. Jeho nejvýznamnější dílo Pět esejí o politické aritmetice bylo vydáno posmrtně (1960). Graunt byl obchodník a zabýval se především demografií. Napsal první ucelenou demografickou studii s poněkud pochmurným názvem Přirozená a politická pozorování založená na seznamech zemřelých (1662). V 18. století se toto zaměření statistiky začalo prosazovat i v Německu a obě statistické školy se začaly vzájemně ovlivňovat a postupně sbližovat. Statistika začala ve větší míře používat čísla a přestala se zabývat pouze popisem státních pozoruhodností. Postupně začala pronikat i do jiných vědeckých disciplín, aby se nakonec prosadila jako samostatná věda. Nezávisle na statistice se od 17. století začala rozvíjet ještě jiná teoretická disciplína, která vznikla jako součást matematiky teorie pravděpodobnosti. Zatím co statistika zkoumá hromadné jevy, teorie pravděpodobnosti se naopak zabývá jevy individuálními, jedinečnými. Pravděpodobnost je chápána jako šance naděje, že sledovaný konkrétní jev nastane. Ve skutečnosti však statistika a teorie pravděpodobnosti představují dva pohledy na stejný problém. Každý hromadný jev je totiž tvořen jednotlivými jevy individuálními, a naopak opakováním individuálního jevu získáme jev hromadný. V současné době nelze teorii pravděpodobnosti a statistiku od sebe oddělit teorie pravděpodobnosti je považována za teoretický základ statistiky. Siméon Denis Poisson ( ) Carl Friedrich Gauss ( ) Rozvoj teorie pravděpodobnosti probíhal zpočátku inspirován hlavně hazardními hrami. Za její počátek se považuje slavná výměna dopisů mezi matematiky Blaisem Pascalem [paskal] ( ) a Pierrem de Fermatem ( ) zahájená roku Šlo jim tehdy o otázku, jak spravedlivě rozdělit bank mezi hráče, jestliže série hazardních her musela být předčasně přerušena. Tehdy rozvíjené teorii pravděpodobnosti dnes říkáme klasická pravděpodobnost. Mezi další osobnosti, které se věnovali teorii pravděpodobnosti, patří švýcarští matematici (bratři) Jacob Bernoulli [bernuli] ( ) a Johann Bernoulli ( ), francouzští matematici Abraham de Moivre [moávr] ( ), Pierre Simon de Laplace [laplas] ( ), a také Siméon Denis Po-

8 8 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík isson [poason] ( ), po němž bylo pojmenované rozdělení, které je vhodné pro popis jevů s nízkou pravděpodobností jevu při značném rozsahu výběrového souboru. Významným přínosem pro teorii chyb byl dále vynikající německý matematik Carl Friedrich Gauss ( ), který přispěl k formulování tzv. normálního rozdělení pravděpodobnosti. Statistika jako nová věda Postupným splýváním nauky o státu, politické aritmetiky a teorie pravděpodobnosti v 18. a 19. století vznikla statistika jako samostatná vědní disciplína, která popisovala hromadné jevy v nově vznikajících vědách přírodních, technických i ekonomických. Statistika tohoto období se zabývala především popisem zkoumaných hromadných jevů, proto se také nazývá popisná deskriptivní statistika. Metodou statistických průzkumů byla vyčerpávající šetření podle zásady: čím více údajů získáme, tím přesnější budou závěry. Toto pravidlo ve statistice převládalo až do konce 19. století. Významnou osobností nové statistiky byl belgický matematik Adolphe Jacques Quételet [kételet] ( ), který je zakladatelem prvního národního statistického úřadu (1841) v Evropě. Mimo jiné se věnoval rozsáhlému sběru dat o lidské populaci a prezentoval svůj pojem průměrného člověka jako centrální hodnoty, kolem které se měřené tělesné míry shlukují podle normální křivky. V té souvislosti zavedl také pojem index tělesné hmotnosti používaný dodnes pro stanovení míry obezity a známý pod zkratkou BMI (body mass index). Naznačil tak budoucí směřování statistiky k normálnímu rozdělení, střední hodnotě a rozptylu. Pomohl také zavést statistické techniky do kriminalistiky, pomocí statistické analýzy porozuměl Quételet vztahu mezi zločinem a ostatními sociologickými faktory. Adolphe Jacques Quételet ( ) Ronald Aylmer Fisher ( ) Na přelomu 19. a 20. století však dochází ve vývoji statistiky k zásadní změně. Začala éra matematické induktivní statistiky, která na základě teorie pravděpodobnosti umožňuje získat kvalifikované závěry odhady o sledovaném jevu i z malého dostupného vzorku údajů. Nové statistické postupy otevřely možnosti pro nejrůznější

9 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 9 typy průzkumů, ve kterých se z vlastností části usuzuje na chování celku. Na bázi induktivní statistiky vznikly také extrapolační prognostické metody, které na základě znalosti dat z minulosti umožní vytvořit kvalifikovaný odhad chování v budoucnosti. Těžiště rozvoje induktivní statistiky se do značné míry přesunulo do anglo-americké oblasti a je spojeno především se jménem anglického statistika sira Ronalda Aylmera Fishera ( ), který stál u vzniku mnoha dnes obvyklých metod statistické analýzy. Je považován za zakladatele teorie plánování experimentů v biologickém a zemědělském výzkumu. Významné výsledky dosáhl i další anglický statistik William Sealy Gosset ( ), který pracoval jako chemik v irském pivovaru Guinness a tam vymyslel postup, který umožnil provádět z malých výběrů použitelné závěry, přinejmenším však poznat, jak posuzovat vypovídací hodnotu takových výběrů. Gosset se pod svá průkopnická díla podepisoval pseudonymem Student, protože jeho firma mu publikování výsledků pod vlastním jménem zakázala. Další významní představitelé anglické statistické školy byli Francis Galton ( ) a Charles Pearson ( ), kteří položili základy zkoumání závislostí mezi hromadnými jevy. K rozvoji matematické statistiky přispěli také ruští matematici: Pafnutij Lvovič Čebyšev ( ), Andrej Andrejevič Markov ( ) a Andrej Nikolajevič Kolmogorov ( ), ten je považován za zakladatele moderní teorie pravděpodobnosti. Charles Pearson ( ) William Gosset ( ) alias Student U nás dosáhli pozoruhodných výsledků dvě osobnosti. Profesor Jaroslav Janko ( ). Svou celoživotní činností velmi úspěšně přispěl k rozvoji matematickostatistických metod, k jejich nanejvýš užitečnému uplatnění ve výzkumu a praxi a zapsal se tak do historie matematické statistiky u nás. Známá jsou jeho díla Jak vytváří statistika obrazy světa a života, Základy statistické indukce a Statistické tabulky. Druhým je profesor Jaroslav Hájek ( ), kterého lze považovat za nejvýznamnějšího českého statistika v historii české matematiky. Jeho odborné aktivity byly zaměřené na neparametrické statistické metody.

10 10 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Současná statistika Statistika dnes představuje vědní disciplínu se širokým praktickým uplatněním. Používá se zejména jako důležitý nástroj získávání informací ve veřejných sférách našeho života, ale i jako důležitý nástroj řešení nejrůznějších odborných problémů, zejména technických, přírodovědných, ekonomických, vojenských, sociálních. Je tomu tak proto, že moderní statistika využívá všech postupů a metod, které během svého dlouhého vývoje vytvořila nebo osvojila. Používá jak prvky klasické popisné statistiky, založené na analýze hromadných dat, tak i prvky moderní matematické statistiky, postavené na teorii pravděpodobnosti. Proto statistiku vnímáme nejen jako nástroj poznání (velký nepřehledný soubor dat dokáže nahradit několika výstižnými charakteristikami), ale také jako nástroj rozhodování v neurčitosti (na základě vlastnosti vzorku usuzuje na vlastnosti celého souboru, popř. z informací o minulosti předvídá vývoj v budoucnosti). Velký význam pro rozvoj a využití statistických metod měl nástup výpočetních technologií, zejména osobních počítačů. Počítač vítězí nad člověkem především v těch úkonech, které jsou pro člověka tradičně nejzdlouhavější - třídění, vyhledávání a výpočty s velkým množstvím dat. Také možnosti tabulkového zpracování a grafického vyjadřování jsou počítačům vlastní. Mezi nejznámější profesionální statistické programy se širokým portfoliem metod a technik patří STATISTICA, SPSS, SAS, UNISTAT, STATGRAPHICS a další, z českých produktů QCExpert. Pro potřebu výuky statistiky využívá řada škol i tabulkový kalkulátor MS EXCEL, který patří k základní výbavě osobního počítače. Náš kurz statistiky bude podporovaný jednoduchou aplikací STAT1, vytvořenou právě v excelovském prostředí. Statistika byla zpočátku využívána spíše ve vědách přírodních (fyzika, chemie) a technických, v posledních letech však zaznamenává úspěch také v disciplínách humanitního charakteru, například v psychologii, sociologii, pedagogice, ale také v ekonomii, která původně vznikla jako věda sociální, během času se svými metodami přiblížila spíše vědám přírodním. K výraznějšímu rozvoji statistických metod došlo na přelomu 19. a 20. století, a to zejména díky novým objevům ve statistice (zejména nástupu metod matematické statistiky). To vedlo k dalšímu přibližování statistiky reálnému životu a prudkému rozvoji aplikací statistiky v nejrůznějších oborech lidské činnosti. Vznikaly tak postupně speciální statistické metody, které tvořily základ speciálních vědních disciplín. Pod názvem biostatistika resp. biometrika se např. rozumí aplikace statistiky na biologické problémy, zatímco pro analýzu chemických dat se spíše užívá termín chemometrie. Hlavním cílem aplikací statistických metod v biomedicínském výzkumu je zajistit správnost a odbornost statistického vyhodnocování dat a interpretace získaných výsledků. Používání počítačů k těmto účelům je v dnešní době samozřejmé. Aplikací statistických metod na ekonomická a sociálně-ekonomická data vznikla samostatná statistická disciplína, ekonomická statistika. Předmětem ekonomické statistiky je analýza stavu a vývoje jevů v hospodářské oblasti jako východiska k hospodářskému rozhodování či stanovení hospodářské politiky. Na využití statistických metod je založený průzkum trhu, plánování výroby, prognostika, kontrola kvality výroby, personální politika, výroční zprávy (určené akcionářům). Ještě k vyšší kvalitě

11 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 11 ekonomické analýzy vede disciplína označovaná jako ekonometrie. Ta představuje syntézu ekonomické teorie, informatiky, matematiky a statistiky. Tato syntéza není však mechanickým spojením ekonomické analýzy s metodickým aparátem matematiky a statistiky resp. elektronickými prostředky, ale jde o propojení vzájemně se podmiňujících vědních disciplín. Statistika v Českých zemích Statistika je s historií našeho území spjata již od nepaměti. Důvody jsou zcela praktické a zřejmé. Každý vládce chtěl mít přehled, jaký má majetek, kolik má k dispozici mužů do vojska, či od kolika poddaných může vymáhat daně. Ale důvody pro statistické zjišťování byly mnohdy i zcela jiného, humánnějšího rázu. Například za vlády císaře Rudolfa II. v roce 1583 vypukla v českých zemích epidemie moru. V jejím důsledku bylo zahájeno šetření o zdraví populace, které mělo zmapovat vznik a rozvoj zhoubných epidemií a umožnit přijímání včasných protiopatření. Jako významný mezník lze označit datum 13. října 1753, kdy byl vydán patent císařovny Marie Terezie o každoročním sčítání lidu. Zdokonalení evidence obyvatel souviselo s rozsáhlou reformní činností Marie Terezie ( ), neboť k provedení četných reforem bylo nutné získat objektivní informace o obyvatelstvu. Za vlády Marie Terezie došlo také k reformě evidence narozených a zemřelých. V této souvislosti byla zavedena i první jednoduchá statistická klasifikace příčin úmrtí. Jak už víme, první statistický úřad v Evropě byl založen v roce 1841 v Belgii. Řada evropských zemí Quételetův úřad následovala. V roce 1897 byl zřízen Zemský statistický úřad Království českého, který se stal prvním skutečně statistickým úřadem na území dnešní České republiky. Poprvé byla soustředěna všechna statistická pracoviště, která až do té doby působila v rámci různých ministerstev a dalších institucí. Brzy po vzniku samostatného Československa, už v roce 1919, byl založen Státní úřad statistický (SÚS) jako nový orgán pověřený celostátními statistickými šetřeními, mezi něž patřilo i sčítání lidu jako jedno z nejdůležitějších. Úřad se v období mezi světovými válkami rozvíjel, zdokonaloval a rozšiřoval svoji činnost. K tomu přispělo i úzké sepětí se statistickou teorií. Ve 20. a 30. letech 20. století byla téměř polovina kapacity statistického úřadu věnována vědecké a teoretické činnosti. V období 2. světové války se činnost statistiky v Čechách a na Moravě omezila a odpovídala válečným podmínkám i postavení našeho území. Perzekuována byla řada pracovníků SÚS, někteří z nich byli popraveni (např. předseda úřadu Dr. Jan Auerhan byl zatčen gestapem a zastřelen), jiní zemřeli v nacistických věznicích a koncentračních táborech. Bezprostředně po skončení 2. světové války byla obnovena činnost Státního úřadu statistického, s cílem vrátit jej na předválečnou úroveň. Po roce 1948 se československá statistika (zejména v ekonomické oblasti) zaměřovala zejména na úkoly národohospodářské evidence a kontrolu plnění plánu. Po pádu komunistického režimu v roce 1989 se obnovily předpoklady pro budování objektivní, nestranné a nestranické státní statistické služby. K se vznikem ČR převzal Český statistický úřad (ČSÚ) všechny kompetence národního statistického

12 12 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík úřadu. Jeho úkoly a postavení, stejně jako zásady a úkoly fungování státní statistické služby v ČR, upravil zákon č. 89/1995 Sb., o státní statistické službě, který byl ještě novelizován k Jeho hlavním úkolem je shromažďovat a zveřejňovat statistické informace o sociálním a ekonomickém rozvoji České republiky a obstarávat statistické informace pro potřeby dalších orgánů státní správy a územní samosprávy. Vedle centrálního pracoviště ČSÚ v Praze existují krajské reprezentace ve všech 14 krajských městech. Prvním předsedou ČSÚ byl čechokanaďan Edvard Outrata (*1936 Brno). Mimo oficiální soustavu státní statistiky stojí řada specializovaných komerčních agentur, které se především zabývají statistickými průzkumy (např. marketingovými) pro podnikatelské subjekty, ale jsou také pověřovány úkoly pro státní statistiku. V současné době existují orgány statistické služby prakticky ve všech zemích Evropy. Jejich konkrétní podoba a struktura se však může stát od státu lišit, i když v poslední době dochází ke koordinace státních statistik v rámci všech členských i přidružených zemí EU. Centrálním statistickým orgánem Evropské unie je EUROSTAT, který má sídlo v Lucemburku a současným generálním ředitelem je Walter Rademacher (*1952 Waldheim). Shromažďuje statistické informace o členských zemích Evropské unie, ale také o dalších evropských zemích. Šest středoevropských zemí (ČR, Maďarsko, Polsko, Rumunsko, Slovinsko a Slovensko) spolupracuje na výměně statistických informací také prostřednictvím společné nadnárodní instituce CESTAT Úkoly a problémy k modulu Pokuste se zjistit na stránkách ČSÚ jaký je v ČR aktuální počet obyvatel. 2. Jaká instituce zabezpečuje v ČR sčítání lidu? 3. Je možné souhlasit s následujícím výrokem? a) Začátky statistiky spadají do 18. století. b) Za prvopočátky statistiky lze považovat záznamy o sčítání lidu a majetku ve starověku. c) Pravděpodobnost dnes představuje neoddělitelnou součást statistiky. d) Označení deskriptivní a induktivní statistika představuje z praktického pohledu jedno a totéž. e) Stav a vývoj v ekonomické oblasti sleduje disciplína označovaná jako ekonometrie. f) Vrcholný statistický úřad EU je Eurostat. Řešení. 2. Český statistický úřad; 3. a) ne; b) ano; c) ano; d) ne e) ne; f) ano.

13 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Význam a pojetí moderní statistiky V současné době se pojem statistika používá v různých významech, v různých souvislostech a také s ohledem na různé praktické situace. V praktickém životě se můžeme setkat se čtyřmi různými významy, které spolu souvisí. Statistikou se rozumí: a) vědní disciplína, která se zabývá sběrem, zpracováním a vyhodnocováním statistických údajů, b) číselné i nečíselné údaje nebo souhrn údajů o hromadných jevech, c) praktická činnost, která vede k získání informací údajů o zkoumaných jevech, d) instituce, která provádí praktickou statistickou činnost nebo tuto činnost řídí. Abychom si udělali korektní obrázek o tom, co budeme pod pojmem statistika rozumět, a v jakých souvislostech či situacích budeme tento pojem používat, podívejme se na následující odstavce. Hromadná pozorování a hromadné jevy Při studiu pravděpodobnosti jsme vycházeli z toho, že ve statistice jsou studovány náhodné pokusy, tj. takové pokusy, jejichž výsledky nelze předem stanovit. Pro výsledky jednotlivých náhodných pokusů jsme zavedli označení náhodné jevy. Pro statistické pozorování někdy se také hovoří o statistickém šetření jsou typické hromadné jevy. Přívlastkem hromadný zdůrazňujeme, že se statistika zabývá pouze takovými náhodnými jevy, které se v prostoru a čase mohou mnohokrát opakovat nebo se vyskytují ve velkém počtu případů. To tedy znamená, že jevy jedinečné (neopakovatelné) statistika do svého zkoumání nezahrnuje. Hromadné jevy jsou tedy výsledky hromadných pozorování, která se uskutečňují v podstatě dvěma způsoby: a) jako výsledky opakovaných pokusů tj. za stálých podmínek opakujeme náhodný pokus a po každém pokusu zaznamenáme jeho výsledek; např. 35 opakovaně měříme koncentraci určité látky v roztoku, 60 opakovaně měříme velikost proudu v obvodu, 14 opakovaně měříme vzdálenost dvou bodů v terénu,..., b) jako výsledky pozorované na velkém počtu jednotek tj. na všech (mnoha) jednotkách, které máme k dispozici, provedeme měření nebo zjištění hodnoty, a všechny takto získané hodnoty si poznamenáme; např. změříme dobu reakce na jistý podnět u 15 řidičů, změříme výkon 23 atletů ve skoku do dálky z místa, zjistíme měsíční příjem u 80 zaměstnanců, zjistíme názor 150 vysokoškoláků na bulvární deník,.... Pokud jde o vyjadřování výsledků pokusů, hovoříme často o obměnách (variantách). Pro statistiku je obvyklé dvojí vyjadřování obměn číselné a slovní. Např. při vážení rohlíku vyjádříme výsledek, tj. hmotnost rohlíku, ve tvaru 47,8 g (vyjádření číselné: 47,8), při zjišťování výsledku zkoušky z ekonomie vyjádříme výsledek ve tvaru dobře (vyjádření slovní: dobře). Způsobům vyjadřování výsledků náhodných pokusů se ale budeme ještě dále věnovat podrobněji (viz modul 1.4). Při popisu výsledků hromadných pozorování stojí za povšimnutí dvě jejich formy měření a zjišťování. Při měření zpravidla získáváme výsledky v číselné podobě jako

14 14 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík hodnoty z měřicího přístroje. Hodnoty jsou vyjádřené v určitých jednotkách fyzikálních, chemických či jiných. V souladu s matematickými a odbornými pravidly je možné je vzájemně převádět. Např. při měření rychlosti auta dostaneme 83,7 km/hod., při měření výšky postavy novorozence dostaneme 39 cm, při měření tvrdosti vody dostaneme 1,8 mmol/l, při měření velikosti proudu dostaneme 12,5 ma, při měření obsahu tuku v mléku dostaneme 1,48 g/l, atd. Vlastní zpracování celých množin takovýchto číselných informací dat už provádíme bez jednotek (viz kapitola 2 Popisná statistika). Při zjišťování získáváme výsledky v číselné podobě nebo slovní podobě jako hodnoty získané z předem definované množiny obměn. Někdy také hovoříme o popisu sledovaných objektů. Např. při průzkumu v obchodu zjistíme počet zákazníků u jedné pokladny: 6, při prověřování školních výsledků zjistíme počet bodů z písemného testu u jednoho studenta: 28, při průzkumu kvality pracího prášku zjistíme názor jedné zákaznice: velmi dobrý, při předvolebním průzkumu zjistíme preferenci jednoho voliče: strana B, atd. Zdroje statistických dat Při řešení konkrétního problému reálného světa se setkáme často s potřebou provést statistické šetření, jehož výsledkem jsou statistická data. Podle typu konkrétního problému bude zdrojem takových dat experiment, dotazování, výkaznictví, pozorování, sekundární data. Experimentem budeme rozumět cíleně prováděnou činnost zpravidla za účelem ověření vlivu určitého faktoru na zkoumaný ukazatel. Např. budeme experimentem ověřovat vliv nové technologie výroby na jistou vlastnost výrobku, vliv použitého hnojiva na velikost rostlinné produkce, můžeme testovat výrobek na nové podmínky užití, v rámci experimentu můžeme sledovat chování zkoumaných osob v různých modelových situacích apod. Dotazování je jednoduchý způsob získávání statistických dat, který se provádí písemně (dotazníky, internetové dotazníky) nebo ústně (osobně, telefonicky, ve skupinách). Takto je možné získat informace hromadného charakteru od tzv. respondentů, tj. osob náhodně určených k dotazování. Např. vedení střední školy může prostřednictvím dotazníku získat informace o názorech na výuku toho či onoho předmětu, vedení podniku může získat informace o jazykových schopnostech svých pracovníků apod. V některých případech bývá účelné dotazování organizovat anonymně. Na principu dotazování jsou založené také tzv. ankety, které však nelze považovat za reprezentativní šetření. Vyplnění anketního dotazníku je totiž naprosto dobrovolné, proto získaný obraz o řešeném problému může být pouze orientační. Např. vydavatel časopisů se takto bude zajímat o zájem čtenářů o jednotlivé rubriky, výrobce nápojů si takto může zjistit názory na kvalitu jeho limonád apod.

15 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 15 Výkaznictví je možné vnímat jako specifickou formu dotazování. Výkazy slouží ke sledování ekonomické činnosti různých subjektů. Jejich odevzdávání a vyhodnocování řídí ČSÚ na základě zákona č. 89/1995 Sb., podle kterého mají ekonomické subjekty tzv. zpravodajskou povinnost. Na této formě statistického šetření se podílí také jednotlivá ministerstva a jejich odborné orgány. Při pozorování se obvykle sleduje chování lidských subjektů v různých situacích prostřednictvím jeho smyslů sledování, ochutnávání, poslouchání, čichání apod. Výsledek pozorování je zpravidla subjektivní a závisí na osobě pozorovatele a na okamžiku, kdy je pozorování prováděno. Např. se formou pozorování provádí tzv. senzorické analýzy, kdy se prostřednictvím ochutnávek hodnotí nápoje a potraviny. Nebo lze takto hodnotit vůni sledovaného parfému. Všechny výše uvedené formy statistického šetření využívaly tzv. primární data. V některých případech je možné využít i sekundární data, tj. data, která byla získána za jiným účelem v minulosti (například v rámci jiného průzkumu). Sekundární data lze získat z různých tištěných i elektronických materiálů (statistické ročenky, firemní materiály, novinové zdroje, počítačové databáze, datové nosiče, apod.). Vztah pravděpodobnosti a matematické statistiky Ještě jednou se vraťme k pravděpodobnosti. I když počátky pravděpodobnosti jsou spojené s řešením často zajímavých problémů z oblasti hazardních her, v současné době nejčastější aplikace počtu pravděpodobnosti směřují do oblasti statistiky. Okolo nás existuje mnoho věcí, jevů, událostí, které nelze předvídat jsou důsledkem náhody. Otázkami náhody a náhodných dějů se zabývají dvě matematické disciplíny: teorie pravděpodobnosti a matematická statistika. Teorie pravděpodobnosti je matematická disciplína, jejímž východiskem je zkoumání náhodných pokusů. Při náhodném pokusu není výsledek jednoznačně určen jeho počátečními podmínkami. Náhodnost určitého pokusu je teoreticky spojena s nedostatečnou znalostí těchto počátečních podmínek. Náhoda však neznamená subjektivní nevědomost, nastoupení každého náhodného jevu lze prostřednictvím matematického aparátu 1 číselně ocenit, tedy přiřadit mu pravděpodobnost. Teorie pravděpodobnosti je tedy tou částí matematiky, která přináší do života matematický aparát pro počítání s náhodnými událostmi. Je tak teoretickým základem pro další disciplíny, které s náhodou pracují, jako je teorie náhodných veličin a matematická statistika. Proto jsou užitečné také modely různých rozdělení pravděpodobností (např. binomický, normální, exponenciální,... ), kterým jsme se věnovali v 1. díle naší pomůcky (viz [Kříž 3]). Matematická statistika je naproti tomu věda, která zahrnuje studium dat vykazujících náhodná kolísání, ať už jde o data získaná pečlivě připraveným pokusem provedeným pod stálou kontrolou experimentálních podmínek v laboratoři, či o data pocháze- 1 Axiomatická teorie pravděpodobnosti publikovaná v roce 1933 A. N. Kolmogorovem je založená na teorii míry nebo alternativní bayesovská teorie publikovaná v roce 1955 E. T. Jaynesem je založená na klasické logice pro případ výroků, jejichž pravdivostní hodnota není jen 0 nebo 1, ale leží mezi těmito hodnotami.

16 16 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík jící přímo z terénu. Statistika se tedy zabývá získáváním informací z empirických dat, jejím principem je učinit ze vzorku závěr o celku. Předpokládá, že data obsahují nepřesnosti a nejistoty, které jsou způsobeny náhodnými vlivy. Matematickou statistiku tvoří soubor metod pro zpracování hromadných dat, v nichž se závěry vyvozují právě na základě teorie pravděpodobnosti. Právě těmto úkolům statistiky, a také v těchto souvislostech, se budeme věnovat v dalších částech této pomůcky. Součásti matematické statistiky Jak jsme už naznačili, v rámci hromadných pozorování provádíme měření nebo zjišťování sledované veličiny u velkého počtu jistých objektů. Výsledkem pozorování jsou potom hromadná empirická data, která v sobě zahrnují (spíše skrývají) řadu informací o sledované veličině. Tyto informace však na první pohled nejsou zřejmé, data totiž představují neuspořádanou, až chaotickou horu údajů, a nelze z nich prakticky žádné informace vyčíst. Proto je třeba data nejprve zpracovat a informace v nich obsažené získat. Zpracováním empirických dat se zabývá popisná statistika. Využívá k tomu různé tabulky a grafy, které pomáhají objevit významné vlastnosti sledované veličiny. Hovoříme často o tabulkovém či grafickém vyjádření rozdělení četností. Některé tabulky poskytují zdrojová data pro tvorbu grafů. Dalším prostředkem popisu hromadných empirických dat jsou tzv. číselné charakteristiky, které vyjadřují určité vlastnosti sledované veličiny jediným číslem. K určení takových čísel použijeme jen elementární matematické operace. Cílem popisné statistiky je tedy zpřehlednění informací obsažených v datovém souboru. Popisné statistice se budeme věnovat ve 2. kapitole této pomůcky. Další součástí matematické statistiky jakožto vědního oboru je tzv. matematická statistika v užším slova smyslu, která se systematicky zabývá zejména pomocí teorie pravděpodobnosti matematickými metodami vhodnými pro analýzu statistických dat. Obecně má deduktivní povahu, předmětem našeho zájmu je vždy určitý celek, tzv. základní soubor (viz modul 1.3), ale cesta, kterou se k němu dostaneme, má naopak má výhradně induktivní 2 charakter. Důležitými součástmi matematické statistiky jsou a) teorie odhadu zabývá se určováním odhadů neznámých parametrů základního souboru pomocí hromadných empirických dat získaných náhodným výběrem (viz modul 3.1) a studuje různé přístupy k získání bodových a intervalových odhadů (viz moduly 4.1 a 4.2). b) testování statistických hypotéz zabývá se statistickými procedurami pro ověřování hypotéz o základním souboru a o srovnávání více souborů z různých hledisek pomocí hromadných dat získaných náhodným výběrem (viz kapitola 5 Testování hypotéz). c) statistická predikce zabývá se statisticky kvalifikovanými odhady budoucího vývoje sledované veličiny na základě její současné dynamiky. 2 Při induktivním způsobu myšlení nalézáme při zkoumání jednodušších konkrétních případů pomocí abstrakce jejich společnou obecnou zákonitost v induktivní statistice to probíhá tak, že z vlastností výběrového souboru budeme usuzovat na vlastnosti základního souboru.

17 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 17 Na závěr modulu o významu a pojetí moderní statistiky ještě připojme jednu zásadní myšlenku. V minulosti se statistika často ztotožňovala s pouhým zjišťováním, sumarizací a publikováním zjištěných údajů. V současné době lze předpokládat, že moderní statistika má všechny atributy vědní disciplíny schopné v podstatně větším měřítku respektovat potřeby kvalifikovaných rozhodovacích procesů. Proto nezapomeňme: Statistiku nelze ztotožňovat s pouhým elementárním zpracováním údajů! Statistiku musíme spojovat s ohledem na její výrazně praktický charakter s širokou škálou metod a technik, které umožňují kvalifikované rozhodování na bázi kvantitativních informací o praktickém problému Úkoly a problémy k modulu Rozhodněte, zda je možné definované jevy považovat za jevy hromadné: a) hrubý měsíční příjem učitelů na středních školách v ČR, b) počet dětí v českých rodinách, c) počet nezaměstnaných v okresech Jihomoravského kraje v září 2009, d) denní tržba v prodejně, e) počet dosažených gólů konkrétním hráčem za zápas v hokejové lize 2009/2010, f) rychlost připojení k internetu u vlastního počítače. 2. Posuďte, jakým způsobem je možné u popsaného věcného problému získat statistická data: a) vliv použitého krmiva na živé přírůstky sledovaných prasat, b) denní spotřeba vody v domácnosti, c) měsíční tržba v soukromém obchodu, d) názor na úroveň základních služeb mobilního operátora, e) hodnocení světlého výčepního piva z českých pivovarů, f) vliv druhu benzínu na výkon motoru, g) porovnání cenové hladiny v několika supermarketech. 3. Vyjmenujte některé hromadné jevy a) z oblasti vaší profesní činnosti, b) z oblasti vaší zájmové činnosti, c) z oblasti veřejného zájmu (zdroje: noviny, rozhlas, televize, internet). Řešení. 1. a) ano; b) ano; c) ne; d) ano; e) ne; f) ano. 2. a) experiment; b) pozorování; c) výkaznictví; d) dotazování; e) pozorování; f) experiment; g) pozorování. 1.3 Statistická jednotka a statistický soubor V modulu 1.2 jsme uvedli, že úkolem statistiky je provádět hromadná pozorování a sledovat hromadné náhodné jevy. Protože statistika je věda velmi praktická, budeme

18 18 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík hromadná pozorování provádět na reálných objektech nebo subjektech, které jsou z určitého konkrétního důvodu předmětem našeho zájmu. Pozornost proto budeme věnovat nejprve statistickým jednotkám a jejich jednoznačnému vymezení, potom si vysvětlíme pojmy základní soubor a výběrový soubor Definice. Jednotlivé objekty nebo subjekty, které jsou při statistickém zkoumání sledované, se nazývají statistické jednotky. Každá statistická jednotka musí být jednoznačně vymezena, aby nemohlo dojít k dvojímu nebo jinak zkreslenému výkladu zjištěných údajů. Statistické jednotky se vymezují z hlediska věcného, prostorového, časového Příklad. Statistickými jednotkami mohou být: osoby, lépe řečeno jisté kategorie osob novorozenci, žáci, voliči, zaměstnanci podniku, důchodci, pacienti,..., věci a předměty výrobky, stroje, budovy,..., organizace podniky, úřady, školy, obce,..., zvířata psi, ryby, sloni,..., rostliny nebo plody pšenice, růže, břízy, jablka,..., události, jevy sportovní výkony, poruchy, meteorologické jevy, Příklad. Proveďte věcné, prostorové a časové vymezení těchto statistických jednotek: a) všechna osobní auta projíždějících v úterý mezi 14. a 16. hodinou 110. km dálnice D1 směrem na Brno; b) všechna děvčata ze 6. tříd znojemských základních škol v červnu roku 2007; c) všichni kapři v jihočeském rybníku Bezdrev v listopadu 2008; d) všechny 50gramové rohlíky z týdenní produkce pekaře Ječmínka v týdnu od 12. do ; uvažujme dále, že výroba těchto rohlíků bude za nezměněných podmínek (stejná mouka, stejná voda, stejná teplota pecí, stejná směna,... ) pokračovat i v dalším období; e) všechny hypotetické výsledky výkonového testu u jednoho volejbalisty výskok s dohmatem odrazem snožmo z rozběhu v období letní tréninkové přípravy Řešení. Vymezení statistických jednotek v jednotlivých případech: a) věcné: osobní vozy, prostorové: 110. km dálnice D1 směr Brno, časové: konkrétní úterý v daném 2hodinovém intervalu, b) věcné: žákyně 6. tříd, prostorové: ZŠ ve Znojmě, časové: červen 2007, c) věcné: kapři, prostorové: rybník Bezdrev, časové: listopad 2008, d) věcné: 50gramové rohlíky, prostorové: pekařství Ječmínek, časové: období týdne od 12. do , resp. období od dále, e) věcné: výskok s dohmatem odrazem snožmo z rozběhu, prostorové: tréninková hala, časové: léto 2009.

19 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Definice. Množina statistických jednotek stejného typu a shodného vymezení tvoří statistický soubor. V rámci statistického šetření budeme rozlišovat dva typy souborů: základní soubor (populace) množina všech shodně vymezených statistických jednotek, výběrový soubor (výběr, vzorek) podmnožina základního souboru, tj. vybraná část populace Poznámky. 1. O základním souboru se také hovoří jako o statistickém souboru, který je předmětem našeho zájmu a o jehož vlastnostech se mají činit závěry. Může být buď reálný, pokud všechny jeho statistické jednotky reálně existují, nebo hypotetický, který je sice obecně definován, ale při statistickém zkoumání reálně jeho statistické jednotky neexistují nebo jich existuje pouze část viz příklad Z charakteru základního souboru bezprostředně vyplývá, že může mít konečný rozsah nebo může být nekonečný. 2. Při přípravě statistického šetření je jedním z nejdůležitějších požadavků na kvalitní analýzu homogenita základního souboru. Ta je z valné části zabezpečená pomocí shodného vymezení všech jednotek v základním souboru. Je třeba mít na paměti, že chyby ve vymezení základního souboru se potom přenáší na výběrový soubor, se kterým se dále pracuje. To však vede k nespolehlivým až chybným závěrům viz příklad Počet jednotek základního souboru je vesměs velký. Připomeňme si, že v začátcích statistiky bylo cílem vyčerpávající šetření, neboli celý základní soubor. Až teprve matematická statistika přinesla možnost provádět pouze výběrová šetření a namísto celé populace pracovat se vzorkem. To, že se dává dnes přednost výběrovému šetření před vyčerpávajícím šetřením, to má hned několik důvodů: důvody ekonomické výběrové šetření šetří čas i peníze; zejména u rozsáhlých souborů by měření nebo zjišťování na všech statistických jednotkách nebylo časově možné nebo by bylo velmi drahé (např. vážení kusů rohlíků), důvody technické při prováděném měření se statistická jednotka může znehodnotit (např. při degustaci masové konzervy se musí konzerva otevřít, a tím se znehodnotí), důvody praktické v situacích, kdy je základní soubor zcela nebo z části hypotetický, je potom měření prakticky nemožné (např. sportovní výkony není možné nekonečně mnohokrát opakovat). S metodami pořizování výběrových souborů se seznámíme později (viz modul 3.1) Příklad. V příkladu jsme provedli věcné, prostorové a časové vymezení popsaných statistických jednotek. Definujte ve stejných situacích základní a výběrový soubor. Řešení. a) základní soubor: hypotetický množina všech osobních vozů, které daným místem v dané době projíždí (jejich počet však konkrétně stanovit před měřením nelze, teoreticky budeme základní soubor považovat za nekonečný, výběrový soubor: např. 80 náhodně vybraných vozů;

20 20 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík b) základní soubor: reálný množina všech žákyň 6. tříd na všech ZŠ ve Znojmě v červnu 2007 (jejich počet je 345, základní soubor má tedy rozsah konečný), výběrový soubor: např. 25 náhodně vybraných žákyň; c) základní soubor: reálný množina všech kaprů v rybníku Bezdrev v listopadu 2008 (jejich počet reálně stanovit nelze, z praktických důvodů lze však předpokládat, že počet je konečný!), výběrový soubor: např. 50 náhodně vybraných kaprů; d) základní soubor: kombinace reálný a hypotetický množina všech rohlíků vyrobených v pekařství Ječmínek v týdnu od 12. do ( kusů) a množina dalších rohlíků, jejichž výroba bude dále pokračovat (základní soubor je tedy nekonečný), výběrový soubor: např. 120 náhodně vybraných kusů; e) základní soubor: hypotetický fiktivní množina všech možných výskoků s dohmatem odrazem snožmo z rozběhu (jejich počet je možné si pouze teoreticky představit, reálně neexistuje), výběrový soubor: např. 10 konkrétních provedených výskoků s dohmatem během jednoho tréninku Příklad. Rozhodněte, zda konstruované základní soubory jsou s ohledem na sledovanou veličinu homogenní a rozhodnutí zdůvodněte: a) všechna osobní auta projíždějící 110. km dálnice D1 v úterý odpoledne ve směru na Brno i na Prahu sledovat budeme rychlost, b) všichni žáci z 6. tříd znojemských základních škol v červnu roku 2007 sledovat budeme výsledky testu z fyziky a výkony v běhu na 60 m, c) všichni kapři v jihočeském rybníku Bezdrev v listopadu 2007 a 2009 sledovat budeme hmotnost kapra, d) všechny 50gramové rohlíky z produkce pekaře Ječmínka v období od 12. do sledovat budeme hmotnost rohlíku. Řešení. a) provoz na dálnici v obou směrech je obecně odlišný za tohoto předpokladu: chybné prostorové vymezení, základní soubor nehomogenní, b) při sledování vědomostí žáků ZŠ se u chlapců a děvčat obecně neočekávají různé výsledky za tohoto předpokladu: správné věcné vymezení, základní soubor homogenní, při sledování sportovních výkonů u chlapců a děvčat (obecně u mužů a žen) existují biochemické, anatomické, fyziologické a jiné odlišnosti zdůvodňující různé sportovní výkony za tohoto předpokladu: chybné věcné vymezení, základní soubor nehomogenní, c) podmínky chovu ryb ve dvou různých letech obecně shodné být nemohou za tohoto předpokladu: chybné časové vymezení, základní soubor nehomogenní, d) uvažujme, že výroba probíhá v celém období za zcela shodných podmínek za tohoto předpokladu: správné časové vymezení, základní soubor homogenní.

21 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Úkoly a problémy k modulu Proveďte věcné, prostorové a časové vymezení následujících statistických jednotek se sledovanou vlastností a posuďte, zda je základní soubor homogenní: a) rychlost aut jedoucích denně po 15. hodině v Brně, ulice Provazníkova; b) výška smrků v oblasti Březník NP Šumava v roce 2008; c) napětí v elektrické síti v domácnostech sídliště Jižní Svahy ve Zlíně v září 2009; d) výkon v běhu na 12 minut absolventů Střední policejní školy v Praze v roce Pro statistické zjišťování prováděné prostřednictvím formuláře určete, s jakými statistickými jednotkami toto zjišťování pracuje a vymezte je věcně, prostorově a časově: a) v případě daňového přiznání, b) v případě povinného ručení motorového vozidla. Řešení. 1. a) všechna auta jedoucí daným místem, Provazníkova ulice Brno, každý den po 15. hodině, nehomogenní (protože hustota provozu se obecně každý den liší); b) všechny smrky v dané oblasti, Březník, 2008, homogenní; c) všechna hypotetická měření v síti, panelové domy na sídlišti, září 2009, homogenní (ale za předpokladu shodné použité technologie); d) všechny hypotetické výsledky běhu na 12 minut absolventů SPŠ Praha, 2006, homogenní. 2. Formulář vyhledejte na internetu. 1.4 Statistický znak Už bylo řečeno, že statistiku budeme využívat při řešení konkrétních a praktických problémů z reálného života. Z formulace problému nám musí být jasné, jaké výrobky, osoby, zvířata, rostliny, události, organizace jsou předmětem našeho zájmu, ale také o jaké jejich vlastnosti se budeme zajímat. V dalším modulu se tedy zaměříme právě na tyto vlastnosti, tzv. statistické znaky, a to jak z pohledu jejich vyjádření, tzv. hodnot a obměn, tak také z pohledu statistických operací s nimi Definice. Vlastnosti, které u statistických jednotek budeme v rámci statistického šetření sledovat, nazýváme statistické znaky neboli statistické proměnné. Různé hodnoty, kterých může statistický znak nabývat, nazýváme obměny neboli varianty. Podle způsobu vyjadřování hodnot dělíme statistické znaky na kvantitativní číselné a kvalitativní slovní.

22 22 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Podle typu vztahů mezi hodnotami a obměnami budeme rozlišovat statistické znaky metrické měřitelné, ordinální pořadové, nominální jmenovité. V rámci statistického šetření (měření, pozorování) vyjádříme míru sledované vlastnosti u každé jednotky statistického souboru prostřednictvím tzv. hodnoty statistického znaku. Aktuální naměřené hodnoty proměnné jsou data. Počet naměřených hodnot odpovídá rozsahu výběrového souboru. Hodnotu znaku ve smyslu vyjádření různého stupně dané vlastnosti označíme jako obměnu variantu statistického znaku. Počet obměn je zpravidla menší, nejvýše roven rozsahu souboru. Např. k otázce zavedení školného na VŠ se vyjádřilo 73 studentů 1. ročníků ze 2 fakult jedné VŠ: souhlasím 25 studentů, nesouhlasím 34 studentů a je mi to jedno 14 studentů; výsledky průzkumu jsou vyjádřené 3 obměnami, celkový počet naměřených (zjištěných) hodnot je 73. Statistické znaky lze klasifikovat podle několika hledisek. Především se nabízí hledisko vyjádření hodnot znaku číselně nebo slovně. Lze-li hodnoty znaku vyjádřit číselně, jde o znak kvantitativní (např. počet žáků ve třídě, spotřeba vody v domácnosti za rok). Pokud se hodnoty znaku vyjadřují slovně, hovoříme o znaku kvalitativním (např. barva očí člověka, druh vlastnictví bytu). Takové členění statistických znaků není samoúčelné, protože pro číselné a slovní znaky budou konkrétní statistické postupy a metody vesměs rozdílné. Při zpracování dat hraje roli také to, zda data představují hodnoty znaku nespojitého (diskrétního) nebo spojitého. Nespojité znaky nabývají pouze konkrétní číselné nebo slovní hodnoty (např. počet dvojchyb tenisty v zápase, počet vadných výrobků v sérii, státní příslušnost studenta VŠ). Spojité statistické znaky mohou nabývat libovolných hodnot v rámci určitého intervalu (např. doba čekání na obsluhu v restauraci, obsah tuku v mléku, sladká chuť limonády). Více o vztahu mezi spojitými a nespojitými znaky ještě dále. Na tuto základní klasifikaci statistických znaků (proměnných) úzce navazuje třídění podle typu vztahů mezi hodnotami a obměnami znaků. Podle tohoto kritéria dělíme proměnné na metrické, ordinální a nominální. Metrické neboli měřitelné proměnné jsou takové proměnné, které nabývají výhradně číselných hodnot a vyjadřují tedy velikost měřené vlastnosti. Jejich další dělení se provádí podle oboru jejich hodnot. Pokud jsou tyto hodnoty vyjádřené pouze kladnými čísly (např. rychlost auta na dálnici, výkon ve skoku do výšky), proměnnou označíme jako kardinální. Její každé dvě hodnoty lze porovnávat jak rozdílem, tak i podílem. Je tedy možné stanovit, o kolik jednotek je jedna hodnota větší (event. menší), než druhá, a také kolikrát je jedna hodnota větší (event. menší), než druhá. Druhou skupinu metrických proměnných tvoří takové proměnné, které nabývají kladné i nekladné číselné hodnoty (např. teplota vzduchu ve C, počet dětí v rodině). Tyto proměnné jsou nekardinální, zpravidla se označují jako intervalové. U těchto proměnných lze každé dvě hodnoty porovnávat jen rozdílem, lze tedy stanovit, o kolik jednotek je jedna hodnota větší (event. menší), než druhá. Porovnání podílem není možné zpravidla

23 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 23 proto, že množina obměn obsahuje nulu. Je ovšem zřejmé, že každou nekardinální metrickou proměnnou lze vhodnou (a jednoduchou) transformací převést na proměnnou kardinální. To se prakticky odráží v tom, že pro obě kategorie metrických proměnných se vesměs používají shodné metody statistických analýz, a rozdíl mezi nimi se týká až praktické interpretace získaných výsledků. Při zpracování metrických dat považujeme většinou odpovídající proměnné za spojité, jako kdyby mohly nabývat kteroukoli hodnotu z číselného intervalu, i když při praktickém měření tomu tak není. Dokonce i u veličin, které principiálně spojité jsou, jako rozměr nebo čas, musíme při praktickém měření volit konečnou jednotku rozlišení, takže i tyto proměnné se chovají navenek jako diskrétní (nespojité). Přesto však při statistickém zpracování většinou budeme užívat pro metrické proměnné postupy matematicky odvozené pro veličiny spojité Příklad. Kardinální znaky jsou např. cena benzinu Natural 95, výška dospělého muže, obvod kmene javoru, délka kapra, hmotnost jablka dané odrůdy, počet zaměstnanců podniku, počet členů domácnosti,.... Poznámka: všimněte si, že u všech uvedených znaků představuje obor hodnot množinu pouze kladných čísel! Příklad. Intervalové znaky jsou např. počet chyb v diktátu, chyba při zaokrouhlení ceny nákupu (na celé Kč), počet prodaných televizorů za den, výše kapesného žáka 4. třídy ZŠ, rok narození,.... Poznámka: u všech uvedených znaků obsahuje množina hodnot znaku nulu! Ordinální neboli pořadové proměnné jsou slovní proměnné, u jejichž obměn má smysl jejich uspořádání, lze je tedy jednoznačně seřadit od varianty vyjadřující nejnižší úroveň sledované vlastnosti až do varianty s úrovní nejvyšší, nebo naopak (např. dosažené vzdělání: základní, střední, vysoké). Toho se často využívá k tomu, že slovně vyjádřeným obměnám ordinální proměnné se podle jejich pořadí přiřazují pořadová nebo jiná čísla (stupně, body, procenta apod.), která vyjadřují pořadí slovních variant (např. školní klasifikace: výborně 1, chvalitebně 2, dobře 3, dostatečně 4 a nedostatečně 5). Rozdíl dvou hodnot ordinální proměnné potom vyjadřuje rozdíl v jejich pořadí! Proto je důležité pracovat s pořadovými čísly jako s určitou formou kvantifikace těchto obměn, a zohledňovat skutečnost, že nelze nikdy stejnou hodnotu u dvou různých statistických jednotek považovat za zcela totožnou (např. dva studenti byli u zkoušky hodnoceni stupněm dobře z toho však nelze usoudit, že oba studenti mají zcela shodné vědomosti). To je zásadní rozdíl mezi pořadovým a měřitelným znakem, který vyvolává potřebu poněkud odlišných metod zpracování Příklad. Ordinální znaky s možným oborem hodnot: rychlost chemické reakce (+, ++, +++), odpověď na konkrétní otázku v sociologickém průzkumu (naprosto souhlasím, spíše souhlasím, mám neutrální postoj, spíše nesouhlasím, naprosto nesouhlasím), kategorie vojenských hodností v AČR (mužstvo, poddůstojníci, rotmistři, praporčíci, nižší důstojníci, vyšší důstojníci, generálové), pořadí v soutěži výcviku psích plemen (1. pořadí, 2. pořadí, pracovní, nehodnocený), kategorie kuřáků (počet vykouřených cigaret za den: do 5, do 10, do 20, nad 20).

24 24 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Nominální neboli jmenovité proměnné jsou slovní proměnné, které nelze vzájemně porovnávat, tedy, u jejichž obměn nelze stanovit žádné pořadí. Lze pouze stanovit shodu nebo neshodu v hodnotě znaku u každých dvou statistických jednotek (např. druhy masa: vepřové, hovězí, telecí, kuřecí, jiné). Někdy se hodnoty nominálního znaku mohou vyjádřit také čísly, nemají však žádný kvantitativní význam (např. čísla tramvají: 1, 6, 7 a 12). Data odpovídající hodnotám nominálního znaku vždy vyžadují zpracování specifickými metodami Příklad. Nominální znaky s možným oborem hodnot: dominance ruky (pravák, levák), barva výrobku (červený, modrý, jiný), rodinný stav muže (svobodný, ženatý, rozvedený, vdovec), cizí státní občanství (Slovensko, Polsko, Rakousko, Německo, jiné), kategorie jakostního vína (odrůdové, známkové). Třetím kritériem třídění proměnných je hledisko počtu obměn. Smysluplné je to prakticky jen pro kvalitativní proměnnou: pokud nabývá pouze dvou obměn, mluvíme o alternativním znaku (např. pohlaví: muž, žena; odpověď na otázku v referendu: ano, ne), je-li počet obměn větší než dvě, jedná se o znak množný např. fakulty UO v Brně: FEM, FVT a FVZ), dosažené vzdělání: Z, S, V-Bc, V-Mgr, V-Dr). Z čistě praktických důvodů, bez matematického pozadí, se alternativní proměnná často vyjadřuje jako numerická proměnná s obměnami 0 a 1. Jedna její obměna se označí číslicí 1 (zpravidla ta, která nás v dané souvislosti více zajímá) a druhá potom číslicí 0, a hovoří se o nulajedničkové proměnné. Pro tyto proměnné je vyvinutá řada metod, které využívají právě jistého zjednodušení prostřednictvím dvojice obměn. Proto se také množné proměnné někdy převádějí na alternativní proměnné, a to tak, že se více obměn spojí do jedné varianty, která s ohledem na účel zkoumaného problému nás více zajímá, a zbývající obměny se spojí do druhé obměny (např. dosažené vzdělání: nižší = ZŠ + SŠ a vyšší = VŠ + DR). Na alternativní proměnnou lze, pokud je to s ohledem na zkoumaný problém užitečné, převést i jakoukoli metrickou proměnnou. Při takovém předefinování měřitelné proměnné na kvalitativní proměnnou musíme však počítat s určitou ztrátou informace obsažené v původních datech (např. hrubý měsíční příjem lékařů: všechny hodnoty převedeme do dvou kategorií, příjem pod průměrem a nad průměrem příjmu lékařů). Statistický znak nabývá vždy slovních nebo číselných hodnot a je zjišťován u každé statistické jednotky statistického souboru. Jestliže ve statistickém souboru pracujeme jen s jedním znakem (s jednou proměnnou), říkáme, že se jedná o jednorozměrný soubor. Zkoumáme-li současně více znaků, jde o dvourozměrný resp. obecně vícerozměrný soubor (např. při výrobě dutinových cihel se sledovalo následujících pět výrobních parametrů: typ, skutečná délka, objemová hmotnost, výskyt květů a pevnost v tlaku za sucha). Klasifikaci statistických znaků vyjadřuje obrázek č. 1.1.

25 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 25 Obr. 1.1 Klasifikace statistických znaků Poznámka. Na závěr modulu o statistickém znaku připojme ještě jednu poznámku o souvislosti statistického znaku a náhodné veličiny. V minulém díle našich skript (viz [Kříž 3]) jsme v kapitolách 2, 3 a 4 zavedli pojem náhodné veličiny a popsali jsme několik teoretických modelů diskrétní a spojité náhodné veličiny. Náhodnou veličinu jsme zavedli jako veličinu, která nabývá svých hodnot vlivem náhody. Statistickým znakem jsme v této kapitole nazvali vlastnost, kterou sledujeme u statistických jednotek. S ohledem na deklarované fungování statistiky je třeba upřesnit, že vlastností sledovanou u vybraných statistických jednotek rozumíme náhodnou veličinu se shodným věcným, prostorovým a časovým vymezením. Jinak řečeno: to co představuje náhodná veličina v teoretickém modelu, to představuje statistický znak v tzv. modelu empirickém. Jeho konstrukcí a praktickým významem ve statistice se budeme zabývat v následujících dvou kapitolách o popisné statistice a výběrových šetřeních Úkoly a problémy k modulu Určete typ následujících statistických znaků: a) tepová frekvence plavce po závodě, b) počet práce neschopných v podniku za měsíc, c) průtok vody v daném místě řeky a v daném čase, d) vzdálenost posledního golfového drivu od jamky, e) zisk podniku za týden, f) ph zubní pasty. 2. Určete typ následujících statistických znaků a uveďte k nim možný obor hodnot: a) intenzita bolesti, b) národnost uváděná v žádosti o práci, c) stupeň povodňového ohrožení, d) plavecká dovednost, e) velikost oděvu. 3. Definujte konkrétní statistické znaky z oblasti vaší profesní činnosti a stanovte jejich typ a odpovídající obor hodnot:

26 26 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík a) kvalitativní, b) kvantitativní. Řešení. 1. a) kardinální; b) intervalový; c) kardinální; d) kardinální; e) intervalový; f) kardinální; 2. a) ordinální (mírná, výraznější, silná, velmi silná zvladatelná, velmi silná nezvladatelná); b) nominální (česká, slovenská, polská, německá, maďarská, jiná); c) ordinální (1. stupeň - bdělost, 2. stupeň - pohotovost, 3. stupeň - ohrožení); d) nominální (plavec, neplavec); e) ordinální (S, M, L, XL, XXL, XXXL).

27 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Shrnutí 1. kapitoly Klíčová slova: historický přehled, Český statistický úřad, deskriptivní statistika, induktivní statistika, hromadné pozorování, teorie pravděpodobnosti, matematická statistika, statistická jednotka, statistický znak, statistický soubor, základní soubor, výběrový soubor Základní úlohy: Pochopení úlohy popisné statistiky a matematické statistiky. Poznání homogenního základního souboru v kontextu s věcným, prostorovým a časovým vymezením sledovaných statistických jednotek. Rozpoznání správného typu statistického znaku. Doporučená literatura pro hlubší studium: [Kříž 2]: str , [Cyhelský]: str [Hindls]: str Test ke kapitole 1 A. Teoretická část 1. Rozhodněte, která tvrzení jsou pravdivá: a) Prvním statistickým úřadem založeným v roce 1897 na území dnešní České republiky byl Zemský statistický úřad Království českého. b) Anketa je reprezentativní statistické šetření. c) Statistický znak, jehož obměny nelze uspořádat, se nazývá nominální znak. d) Metrické znaky dělíme na kardinální a intervalové. e) Alternativní znak nabývá pouze jednu obměnu. 2. Určete typ následujících statistických znaků: a) provozovaný sport studentů na VŠ, b) celkový počet vyhraných gemů v tenisovém zápase, c) senzorické hodnocení salámu Vysočina, d) tvrdost vody (mmol/l > 0), e) registrační značka auta, f) obvod hrudníku dospělého muže, g) počet obdržených gólů v zápase ledního hokeje. 3. Řešte následující úkoly, odpovězte na otázky:

28 28 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík a) Posuďte, zda předmětem našeho zájmu je základní soubor nebo výběrový soubor. b) Vysvětlete rozdíl mezi kardinálním a intervalovým znakem. c) Jak lze charakterizovat statistiku? d) Jaké historické kořeny má statistika? e) Jak musí být vymezené statistické jednotky v základním souboru? Řešení. 1. a) pravda; b) nepravda; c) pravda; d) pravda; e) nepravda. 2. a) nominální; b) intervalový; c) ordinální; d) kardinální; e) nominální; f) kardinální; g) intervalový. 3. a) základní soubor; b) v oboru hodnot znaku; c) jako nástroj poznání a rozhodování v neurčitosti; d) německou státovědu, anglickou politickou aritmetiku a teorii pravděpodobnosti; e) věcně, prostorově a časově shodně.

29 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 29 2 POPISNÁ STATISTIKA Následující kapitola je věnována otázce, jak vhodně zpracovat některé typy statistických dat, jak je uspořádat, setřídit, případně graficky znázornit. Kromě toho bude pozornost věnována vybraným číselným charakteristikám, pomocí nichž je možné datové soubory popisovat. Na příkladech bude ukázáno, jak tyto charakteristiky počítat (ručně či pomocí počítače - EXCELu), jak je vhodně interpretovat. Půjde o to získat z dat co možná nejvíce užitečných informací o sledovaném statistickém znaku. Cílem kapitoly je: seznámit se základy zpracování dat, tvorbou tabulek a grafů, definovat číselné charakteristiky (aritmetický průměr, kvantil, rozptyl,... ) a prakticky je umět interpretovat, ukázat zpracování dat pomocí počítače. 2.1 Vyjadřovací prostředky statistiky Je-li našim úkolem statisticky zpracovat data, musíme si nejprve uvědomit, o jaký typ dat se jedná, a podle toho vybrat vhodné prostředky. Data se nejprve obvykle setřídí, případně (pokud je to možné a vhodné) uspořádají podle velikosti, a poté se zpracují do tabulek a graficky zobrazí pomocí grafů. K dispozici je celá škála grafů, každý se však hodí ke znázornění jistého typu dat. V následujících příkladech uvedeme několik nejpoužívanějších grafů. Vhodné grafické zobrazení dat je pro statistické zpracování velice důležité, podává rychlou a názornou informaci o rozdělení dat, o přítomnosti odlehlých pozorování a o celé řadě dalších vlastností dat Příklad. Redakce studentského časopisu se rozhodla udělal průzkum týkající se plánovaných změn v řádu pro ubytování na kolejích. Náhodně bylo osloveno 280 studentů. Každý student vyjádřil svůj názor pomocí tří nabízených odpovědí: souhlasím, nesouhlasím, nevím. Byly získány tyto výsledky: 152 souhlasí, 51 nesouhlasí, 77 neví. Jedná se o kategoriální data, názor studentů lze považovat za nominální množný znak. Četnosti odpovídající jeho třem obměnám lze uspořádat do tabulky. Absolutní četnosti n i vyjadřují, kolik studentů odpovědělo na položenou otázku jednou z nabídnutých variant (souhlasím nesouhlasím nevím). Relativní četnosti p i určují podíl daného typu odpovědi ku celkovému počtu odpovědí. Například pro odpověď Souhlasím získáme relativní četnost jako podíl 152/280. = 0,543, tedy z celkového počtu odpovědí 54,3 % studentů souhlasí s plánovanými změnami.

30 30 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Odpovědi Absolutní četnost n i Relativní četnost p i 152. Souhlasím 152 = 0, Nesouhlasím 51 = 0, Nevím Celkem Tab. 2.1 Výsledky průzkumu Tato data je možné graficky zobrazit pomocí tzv. koláčového grafu. Obr. 2.1 Koláčový graf Příklad. Studenti posledního ročníku byli požádáni, aby vybrali jednu ze svých každodenních činností, kterou by rádi omezili. Na základě jejich odpovědí byla sestavena následující tabulka. Činnost Absolutní četnost Sledování televize 58 Čtení denního tisku 21 Telefonování 14 Řízení auta 7 Nakupování 3 Jiné 12 Tab. 2.2 Odpovědi studentů Data je možné znázornit pomocí sloupcového diagramu. Sloupce v grafu znázorňují absolutní četnosti jednotlivých činností viz obr. 2.2

31 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 31 Obr. 2.2 Sloupcový diagram Doposud jsme se zabývali pouze kvalitativními daty, další grafy a tabulky používané pro zpracování především kvantitativních (metrických) dat budou uvedeny v následujícím odstavci Úkoly a problémy k modulu Podle údajů Českého statistického úřadu bylo v roce 2006 v České republice vyprodukováno celkem tisíc tun odpadu. Tabulka uvádí procentuální zastoupení jednotlivých druhů odpadu. Druh odpadu Procenta odpad ze zemědělství a lesnictví 4,43 % odpad z dolování a těžby 1,56 % odpad z úpravy a rozvodu vody 22,34 % průmyslový odpad 1,40 % stavební a demoliční odpad 29,50 % odpad z energetiky (mimo radioaktivního) 6,95 % odpad z čištění města 4,65 % komunální odpad 13,52 % jiný odpad? % Určete, kolik procent připadá na jiný odpad. Na základě údajů v tabulce sestrojte pareto graf. 2. Následující tabulka zachycuje, jakým způsobem se pracovníci jedné firmy dopravují do práce.

32 32 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Způsob dopravy Četnost Autem sám 25 Autem společně s někým jiným 15 Autobusem 10 Vlakem 5 Jinak 4 Vypočtěte relativní četnosti jednotlivých způsobů dopravy a zkonstruujte koláčový graf. 3. Na transfúzní stanici přišlo během dne celkem 40 dobrovolných dárců krve s těmito krevními skupinami: 0 0 A B A 0 A A A 0 B 0 B 0 0 A 0 0 A A A A AB A B A A 0 0 A 0 0 A A A 0 A 0 0 AB Sestrojte tabulku četností jednotlivých krevních skupin, určete relativní četnosti a data znázorněte pomocí koláčového grafu. Řešení ,65; 2. 0,42; 0,25; 0,17; 0,08; 0,07; 3. 0: 16(0,40); A: 18(0,45); B: 4(0,10); AB: 2(0,05). 2.2 Základní zpracování dat V následující části se budeme věnovat zpracování číselných dat, tedy především kardinálními znaky, rozlišovat budeme nespojitý a spojitý znak. Rozsah souboru počet dat ve statistickém souboru budeme označovat n. Neroztříděná data Máme-li zpracovat datový soubor, jehož rozsah je malý (n < 30), můžeme data uspořádat podle velikosti a poté zobrazit pomocí diagramu rozptýlení (viz obr. 2.3). Tento diagram získáme tak, že na vodorovnou osu postupně vynášíme hodnoty znaku x Příklad. Na 15 vzorcích mléka byl naměřen obsah tuku s těmito výsledky (v g/l): 14,85 14,68 15,27 14,77 14,83 14,95 15,08 15,02 15,07 14,98 15,15 15,49 14,83 14,95 14,78

33 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 33 Sestavte diagram rozptýlení. Řešení. Obr. 2.3 Diagram rozptýlení Z grafu je možné vyčíst, že naměřené hodnoty leží přibližně v intervalu od 14,7 do 15,5. I když je počet měření 15, počet bodů je 13 to je důsledek 2 dvojic totožných hodnot. Z rozložení bodů na ose je zřejmá zvýšená hustota v levé polovině celého grafu. To je důležitá vlastnost dat, které se budeme ještě věnovat. Bodové rozdělení četností V případě, že datový soubor x 1, x 2..., x n (x i, i = 1,..., n), který máme zpracovat, má větší rozsah (zpravidla n > 30), data mají charakter nespojitého statistického znaku a počet variant (obměn) tohoto znaku obvykle nepřekračuje hodnotu 15, určíme četnosti n j jednotlivých variant x j (j = 1,..., k) a výsledky shrneme do tabulky, případně vyjádříme graficky Definice. Mějme uspořádaný datový soubor o rozsahu n prvků. Absolutní četnost n j představuje počet výskytů varianty x j v souboru. Pro absolutní četnosti platí k j=1 n j = n, kde k je počet variant. Relativní četnost p j je dána vztahem p j = n j n a představuje podíl výskytů varianty x j v souboru. Pro relativní četnosti platí k j=1 p j = 1.

34 34 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Absolutní kumulativní četnost N j je dána vztahem N j = n n j a udává součet četností všech pozorování, která nepřekračují hodnotu x j. Relativní kumulativní četnost F j je určena vztahem F j = N j n = p p j a udává podíl četností všech pozorování, která nepřekračují hodnotu x j Příklad. V rámci antropometrického průzkumu bylo podle metodiky lékařské komory provedeno měření tělesné výšky u 15měsíčních dětí. U 50 vybraných chlapců byly naměřeny tyto hodnoty (v cm): Sestavte tabulku rozdělení četností a graficky jej znázorněte. Řešení. Hodnota znaku Abs. četnost Rel. četnost Abs. kum. Rel. kum. x j n j p j četnost N j četnost F j ,06 3 0, ,10 8 0, , , , , , , , , , ,00 Σ 50 1,00 Tab. 2.3 Tabulka bodového rozdělení četností výšky 15měsíčních chlapců Vyjdeme-li z tabulky 2.3, můžeme snadno sestrojit grafy: polygon rozdělení četností, který zachycuje rozdělení četností, a součtovou křivku zobrazující kumulativní četnosti.

35 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 35 Obr. 2.4 Polygon četností a součtová křivka Zejména z polygonu četností je možné vyčíst některé zajímavé vlastnosti sledovaného znaku výška 15měsíčních chlapců. Tak např. naměřené výšky se pohybují od 79 do 85 cm. Nejčastější výška u daných 50 chlapců 82 cm je naměřena celkem 16krát. Také je zcela zřetelné, že rozdělení četností je symetrické. Těmto vlastnostem se dále ještě budeme věnovat. Mimo grafy na obr. 2.4 je možné sestrojit např. krabicový graf, který zobrazuje nejmenší a největší hodnotu znaku, dále medián (případně aritmetický průměr), horní a dolní kvartil. S těmito charakteristikami se podrobněji seznámíme v dalších kapitolách. Obr. 2.5 Krabicový graf Rozdělení četností je také možné znázornit pomocí empirické distribuční funkce, kterou můžeme definovat následovně F n (x) = N(x i x), n kde výraz ve čitateli značí počet prvků náhodného výběru, jejichž hodnota je menší nebo rovna x. Tato funkce udává pro hodnotu znaku x součet četností všech pozorování,

36 36 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík která mají hodnotu x i menší nebo rovnu x, dělený celkovým rozsahem souboru n. Je to neklesající funkce s hodnotami mezi 0 a 1. Všimněte si souvislosti mezi touto funkcí a relativní kumulativní četností a součtovou křivkou. Obr. 2.6 Empirická distribuční funkce Intervalové rozdělení četností Pokud datový soubor, který máme zpracovat, má rozsah větší než 30 (n > 30) a data reprezentující spojitý znak nebo diskrétní znak s velkým počtem variant, je vhodné nejprve data uspořádat podle velikosti, zjistit nejmenší a největší hodnotu znaku x min a x max a určit variační rozpětí R = x max x min udávající šířku intervalu, ve kterém se data nacházejí. S ohledem na rozsah datového souboru a na hodnoty x min a x max sestrojíme na sebe navazující intervaly zahrnující všechny hodnoty zkoumaného znaku a poté určíme, kolik hodnot leží v námi zkonstruovaných intervalech (intervaly budou zleva otevřené a zprava uzavřené). Pro určení optimálního počtu intervalů existuje několik pravidel, např.: Sturgesovo pravidlo k 1 + 3,32 log n, Yuleovo pravidlo k 2,5 4 n, jiná pravidla k n, k 5 log n. Intervaly budeme volit stejně široké, jejich šířku získáme snadno ze vztahu. Počátek prvního intervalu (ozn. a), počet a šířku intervalů budeme volit tak, aby nejmenší a největší hodnota padly do prvního a posledního intervalu. Doporučuje se, aby středy intervalů byly hodnoty s stejnou přesností (řád nejmenších jednotek) jako naměřená data. Jak počet intervalů, tak i šířka intervalů není dána jednoznačně, vždy záleží na osobě, která data zpracovává, má tedy subjektivní charakter. Snahou by však měla být taková konstrukce intervalů, aby odpovídající rozdělení četností dokázalo vypovídat aspoň o základních vlastnostech sledovaného znaku.

37 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Příklad. Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex se měřilo množství prachových částic. Ze 60 vzorků vzduchu jsme dostali následující výsledky (v µg/m 3 ): 1,23 1,10 1,54 1,34 1,06 1,09 1,41 1,48 1,52 1,37 1,37 1,63 1,51 1,53 1,31 1,23 1,31 1,27 1,17 1,27 1,34 1,27 1,09 1,01 1,41 1,22 1,27 1,37 1,14 1,22 1,43 1,40 1,41 1,51 1,51 1,47 1,14 1,34 1,16 1,51 1,58 1,33 1,31 1,04 1,58 1,12 1,19 1,17 1,47 1,24 1,45 1,29 1,17 1,63 1,39 1,02 1,38 1,39 1,43 1,28 Sestavte tabulku intervalového rozdělení četností a graficky jej znázorněte. Řešení. Množství prachových částic je spojitý statistický znak, pro sestavení tabulky rozdělení četností musíme určit počet intervalů a jejich šířku. Celkový rozsah souboru je n = 60, nejmenší hodnota x min = 1,01, největší hodnota je x max = 1,63. Variační rozpětí R = x max x min = 0,62. Určíme si optimální počet intervalů podle zmíněných pravidel: Sturgesovo pravidlo k 1 + 3,32 log n. = 7, Yuleovo pravidlo k 2,5 4 n. = 7, k n. = 8, k 5 log n. = 9. Na základě uvedených pravidel zvolíme např. počet intervalů k = 7, šířku intervalu h = 0,1 a počátek prvního intervalu a = 1. Této konstrukci intervalů odpovídá rozdělení četností uvedené v tabulce 2.4 a na obrázku 2.7 a 2.8. Interval Střed int. Abs. četnost Rel. četnost Abs. kum. Rel. kum. x j n j p j četnost N j četnost F j (1,00; 1,10 1,05 7 0, ,117 (1,10; 1,20 1,15 8 0, ,250 (1,20; 1,30 1, , ,433 (1,30; 1,40 1, , ,667 (1,40; 1,50 1,45 9 0, ,817 (1,50; 1,60 1,55 9 0, ,967 (1,60; 1,70 1,65 2 0, ,000 Σ 60 1 Tab. 2.4 Tabulka intervalového rozdělení četností množství prachových částic v µg/m 3 Z tabulky rozdělení četností i z grafů je možné vyčíst alespoň základní vlastnosti sledovaného znaku množství prachových částic v µg/m 3 (koncentrace prachu). Zejména je zřejmé, že naměřené množství prachu se pohybuje mezi hodnotami 1,1 a 1,7. Největší část výsledků leží v intervalu 1,3 1,4. Rozdělení četností je poměrně symetrické, v histogram je možné vidět, že rozdělení není výrazně špičaté je spíše plošší. Smysluplné je také srovnání s normálním rozdělením, tj. srovnání histogramu s Gaussovou křivkou. To bude sloužit k posouzení, zda získaná data je možné považovat za realizaci náhodného výběru z normálního rozdělení. Tomu všemu se však budeme ještě věnovat později.

38 38 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Obr. 2.7 Histogram a součtový histogram Obr. 2.8 Krabicový graf a empirická distribuční funkce koncentrace prachu Úkoly a problémy k modulu Při výrobní kontrole bylo provedeno měření délky 15 kusů půlmetrových laťovek (v cm): 49,8 50,2 50,3 49,5 50,0 49,3 50,0 50,9 50,4 50,0 49,7 50,6 50,2 49,9 50,1 Uspořádejte data podle velikosti a stanovte hodnoty x (5) x (10) a x (11) (Najděte pátou, desátou a jedenáctou hodnotu v uspořádaném datovém souboru.) Sestrojte diagram rozptýlení. Co vypovídá tento diagram o koncentraci a souměrnosti dat? 2. Bylo provedeno 50 chemických analýz na ověření koncentrace určité chemické látky při práci s jedním typem roztoku s těmito výsledky (v %):

39 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Sestavte tabulku rozdělení četností a stanovte absolutní, relativní, kumulované a relativní kumulované četnosti. Sestrojte polygon četností a součtovou křivku. Jaké vlastnosti našeho znaku koncentrace látky lze z rozdělení vyčíst? 3. Test z matematiky obsahuje 10 otázek z oblasti středoškolské matematiky. Na každou otázku je nabídnuto 5 odpovědí, přičemž jen jedna je správná. U 60 studentů byly získány následující výsledky (počet správných odpovědí): Sestavte tabulku rozdělení četností a stanovte absolutní, relativní, kumulované a relativní kumulované četnosti. Sestrojte polygon četností, součtovou křivku a empirickou distribuční funkci. Jaké vlastnosti našeho znaku počet správných odpovědí lze z rozdělení vyčíst? 4. Máme k dispozici údaje o významných zemětřeseních v Kalifornii (uvedeno ve stupních Richterovy stupnice): 6,8 6,6 7,5 6,2 6,5 7,1 6,1 5,8 5,5 6,9 6,6 6,2 5,3 5,9 6,0 5,3 5,9 6,2 6,4 7,0 6,2 6,1 6,0 6,1 5,5 6,4 5,9 5,7 5,9 5,9 6,1 5,3 6,6 5,8 7,7 5,9 7,1 6,3 7,0 6,3 8,3 8,0 6,8 6,3 8,3 7,0 7,0 7,0 6,5 Sestrojte intervalové rozdělení četností, určete absolutní, relativní, kumulované a relativní kumulované četnosti. Rozdělení četností zobrazte pomocí histogramu, součtového histogramu. Sestrojte empirickou distribuční funkci. Co lze z vašeho rozdělení četností usoudit o sledovaném znaku síla zemětřesení? 5. Na jistém úseku dálnice byla měřena rychlost projíždějící osobních aut (v km/h):

40 40 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Sestrojte intervalové rozdělení četností, určete absolutní, relativní, kumulované a relativní kumulované četnosti. Rozdělení četností zobrazte pomocí histogramu, součtového histogramu. Sestrojte empirickou distribuční funkci. Má náš sledovaný znak rychlost auta symetrické rozdělení? Jaké vlastnosti tohoto znaku lze ještě z rozdělení četností vyčíst? 6. Pro data z příkladu (množství prachových částic) proveďte jiné intervalové rozdělení četností, např. pro volbu k = 8, případně i k = 9. Porovnejte vaše řešení s uvedeným řešením příkladu a posuďte, jaký to má vliv na sledovaná vlastnosti znaku. Řešení ,9; 50,2; 50,2; 2. 39: 3; 40: 5; 41: 11; 42: 16; 43: 8; 44: 4; 45: 3; 3. 2: 1; 3: 5; 4: 8; 5: 5; 6: 14; 7: 15; 8: 6; 9: 5; 10: 1; 4. např. pro k = 7, h = 0,5, a = 5,1: (5,1; 5,6 : 5; (5,6; 6, 1 : 15; (6,1; 6,6 : 14; (6,6; 7,1 : 10; (7,1; 7,6 : 1; (7,6; 8,1 : 2; (8,1; 8,6 : 2; 5. např. pro k = 7, h = 10, a = 100: (100, 110 : 1; (110, 120 : 12; (120, 130 : 17; (130, 140 : 16; (140, 150 : 12; (150, 160 : 9; (160, 170 : 3. Další úlohy na procvičování: [Kříž 1]: str Charakteristiky polohy Jak je ukázáno v předchozím výkladu, poskytují tabulky a grafy užitečnou informaci a přehled o základní struktuře zkoumaného statistického souboru (datové množiny). Prostřednictvím tohoto souboru sledujeme určitý statistický znak, jehož vlastnosti je vhodné nějakým způsobem vyjádřit v koncentrované formě v podobě určitých charakteristik. Jde o to jednoduchým způsobem popsat různé vlastnosti tohoto znaku. U kvantitativních znaků, kterým nyní věnujeme pozornost, budeme užívat tzv. popisné charakteristiky vesměs číselné. Úroveň jevu vyjádřeného kvantitativním znakem se popisuje pomocí tzv. charakteristik polohy (úrovně). Proměnlivost kvantitativního znaku, tj. kolísání hodnot znaku (zpravidla okolo jisté konstanty) se popisuje pomocí charakteristik variability viz modul 2.4. Důležitou vlastností kvantitativního znaku je také koncentrace hodnot znaku, tj. určitá hustota hodnot znaku v rámci jednotlivých částí datové osy. Tato vlastnost se popisuje tzv.charakteristik koncentrace viz modul 2.5 Charakteristiky polohy (úrovně) měří obecnou velikost hodnot znaku v souboru a dělí se na průměry (počítané ze všech dat) a ostatní míry polohy (počítané z vybraných hodnot).

41 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 41 Průměry Definice. Aritmetický průměr x hodnot x 1, x 2,..., x n je definován vztahem n je celkový počet pozorování. x = n x i i=1 n, (2.1) Aritmetický průměr se užije tehdy, pokud má logický smysl součet naměřených hodnot, tzv. úhrn n i=1 x i, např. celková hmotnost vážených rohlíků, celková spotřeba studené vody ve vybraných domácnostech, celková výše vyplacených mzdových prostředků apod. Jsou-li hodnoty statistického znaku uspořádány do tabulky bodového rozdělení četností, určíme aritmetický průměr pomocí vztahu x = k n j x j n, (2.2) j=1 kde n 1, n 2,..., n k jsou četnosti jednotlivých variant znaku x 1, x 2,..., x k, k je počet těchto variant. Tyto četnosti udávají váhu jednotlivých variant znaku x j, proto mluvíme o váženém aritmetickém průměru Poznámka. Jsou-li hodnoty statistického znaku popsané prostřednictvím intervalového rozdělení četností, nahradíme jednotlivé obměny znaku x j ve vzorci (2.2) středy x j jednotlivých intervalů a vážený aritmetický průměr určíme potok pomocí vztahu k n j x j i=1 x =, (2.3) n kde n 1, n 2,..., n k jsou jednotlivé intervalové četnosti, k je počet těchto intervalů. Protože vážený aritmetický průměr (2.3) nebude v tomto případě odpovídat skutečnému průměru počítanému podle vzorce (2.1), použijeme jej pouze v krajním případě, kdy výpočet ze všech hodnot nebude možný (např. data nebudou k dispozici). Aritmetický průměr má tyto základní vlastnosti: součet jednotlivých odchylek hodnot znaku od průměru je nulový, tj. n (x i x) = 0, i=1

42 42 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík jsou-li jednotlivé hodnoty znaku konstantní (všechny shodné), potom je jejich průměr roven této konstantě, tj. 1 n c = c, n i=1 přičteme-li k jednotlivým hodnotám znaku x konstantu c, zvýší se o tuto konstantu i aritmetický průměr, tj. 1 n (x i + c) = c + x, n i=1 násobíme-li jednotlivé hodnoty znaku x i konstantou c, je touto konstantou násoben i průměr, tj. 1 n c x i = c x. n i=1 Aritmetický průměr však není jediným druhem průměru, existují i jiné, jenž se používají ve speciálních případech Definice. Harmonický průměr x H kladných hodnot x 1, x 2,..., x n je definován vztahem x H = n n kde n je celkový počet pozorování. Harmonický průměr má specifické uplatnění v situacích, kdy má logický význam součet převrácených hodnot znaku. Bude tomu tak tehdy, kdy průměrovaná veličina má charakter části z celku, tedy průměrovat máme tzv. poměrná čísla. Např. průměrnou hustotu h obyvatelstva na km 2 v kraji, známe-li počet obyvatel p a hustotu h v okresech, i=1, 1 x i určíme ze vztahu h = P p P r, kde rozloha r = p h, nebo průměrnou rychlost v auta v km/hod., známe-li dráhu s a jí odpovídající rychlost v, určíme ze vztahu v = P s P t, kde čas t = s v Definice. Geometrický průměr x G kladných hodnot x 1, x 2,..., x n je definován vztahem x G = n x 1 x 2 x n, kde n je celkový počet pozorování. Geometrický průměr je např. využíván při jednoduché analýze časové řady pro určení tzv. průměrného tempa růstu nebo průměrného tempa poklesu. Např. pro tři meziroční indexy výroby 1,05; 1,06 a 1,02 je průměrné tempo růstu výroby rovno x G = = 3 1,05 1,06 1,02. = 1,043, což znamená, že průměrně za rok činil nárůst výroby 4,3 %.

43 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Definice. Kvadratický průměr x K hodnot x 1, x 2,..., x n je definován vztahem n x 2 i i=1 x K = n, kde n je celkový počet pozorování. Umocnění hodnot před výpočtem aritmetického průměru má za následek větší váhu hodnot vzdálenějších od nuly. Proto se ve statistice používá zejména jako míra proměnlivosti hodnot, např. pro diference x i x jako tzv. směrodatná odchylka viz dále definice a Příklad. Určete aritmetický, harmonický, geometrický a kvadratický průměr z hodnot 1, 2, 5, 6, 7, 8, 8, 9. Řešení. Aritmetický průměr Harmonický průměr Geometrický průměr x = x H = = 5, = 3, x G = = 4,709. Kvadratický průměr x K = = 6,364. Všimněte si, že pro naše průměry platí x H x G x x K, tento vztah mezi průměry platí obecně Příklad. Máme-li k dispozici tabulku rozdělení četností (viz tabulka 2.3 udávající rozdělení četností výšky 15měsíčních chlapců), můžeme aritmetický průměr určit pomocí vzorce 2.2 následovně x = k n j x j = n j= = 81,9. V současné době se základní zpracování dat provádí pomocí počítačů. Ruční zpracování zahrnující výpočty z tabulek rozdělení četností pomocí kalkulačky se může zdát

44 44 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík zastaralé, nicméně je užitečné vědět, jak takové výpočty provést. Vážené tvary vzorců ostatních druhů průměru uvádět nebudeme Poznámka. Pro výpočet aritmetického průměru v programu EXCEL existuje funkce PRŮMĚR, pro určení harmonického a geometrického průměru funkce HAR- MEAN a GEOMEAN. Harmonický průměr hodnot z příkladu by se např. určil příkazem HARMEAN(1;2;5;6;7;8;8;9) nebo zadáním daných hodnot do polí A1 až A8 a příkazem HARMEAN(A1:A8). Modus a kvantilové míry Kromě průměrů je možné popsat polohu znaku i pomocí dalších charakteristik, jako jsou modus a kvantily Definice. Modus ˆx je hodnota znaku s největší četností Příklad. Určete modus v datovém souboru z příkladu Řešení. Daný datový soubor popisující výšku 15měsíčních chlapců byl uspořádán do tabulky rozdělení četností 2.3 a toto rozdělení četností poté zobrazeno na obrázku 2.4. Odtud je zřejmé, že nejčetnější hodnotou (modem) je výška 82 cm Poznámka. V případě spojitého statistického znaku pojem nejčetnější hodnota obvykle nedává smysl, neboť četnosti jednotlivých hodnot znaku jsou buď jedničky, nebo velice malá čísla. (Budeme-li vážit rohlíky na dostatečně přesné váze, hodnoty zjištěné hmotnosti se nebudou zpravidla vůbec opakovat.) Taková data se obvykle zpracovávají pomocí intervalového rozdělení četností a zobrazí pomocí histogramu. Ten interval, který má největší četnost, nazveme modálním intervalem. V příkladu je modálním intervalem (viz tabulka 2.4 a graf 2.7) interval (1,3; 1,4. Obr. 2.9 Dvouvrcholové rozdělení četností V příkladu je zřejmý jeden modus ˆx = 82, v příkladu je pouze jeden modální interval (1,3; 1,4. Takovým rozdělením říkáme jednomodální rozdělení. Na druhou

45 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 45 stranu mohou existovat i datové soubory obsahující více než jeden modus, resp. se mohou v histogramu objevit dva vrcholy. Obrázek 2.9 zobrazuje histogram vyjadřující intervalové rozdělení četností znaku výška postavy. Na první pohled je patrné, že rozdělení četností obsahuje dva vrcholy. Takové rozdělení vyjadřuje jistou nehomogennost zkoumaného souboru. V našem případě jde o důsledek toho, že výběrový soubor tvořili muži a ženy, což je z hlediska výšky postavy nehomogenní soubor, neboť průměrná výška mužů a žen se liší Poznámka. Modus se v EXCELu určí pomocí funkce MODE Definice. Kvantil x p je hodnota znaku, pro kterou platí, že 100p % jednotek uspořádaného souboru má hodnotu menší nebo rovnu x p a 100(1 p) % jednotek má hodnotu větší nebo rovnu x p. Pro některé kvantily se používají speciální označení: kvantil x 0,50 je medián (často se značí x), kvantil x 0,25 je dolní kvartil, x 0,75 je horní kvartil, kvantily x 0,10, x 0,20,..., x 0,90 se označují jako decily, kvantily x 0,01, x 0,02,..., x 0,99 jako percentily. Takto definovaný kvantil není určen jednoznačně. Na jednoduchém příkladu ukážeme, jak počítají kvantily některé softwarové produkty Příklad. Mějme následující datový soubor: 1, 2, 5, 6, 7, 8, 8, 9. Uvedeme nyní 3 možné výpočty kvantilů, jak jsou implementovány v programech STATISTICA, MATLAB a EXCEL. Uspořádejme data vzestupně od nejmenší hodnoty k největší. Určíme pořadový index i p kvantilu x p, který musí vyhovovat nerovnosti np < i p < np + 1. (2.4) Kvantil x p je potom roven hodnotě znaku na pozici i p, tedy x p = x (ip). Jsou-li hodnoty np, np+1 celočíselné, určíme kvantil jako aritmetický průměr hodnot x (np) a x (np+1), tj. x p = x (np)+x (np+1). Tímto způsobem určuje kvantily např. statistický 2 software STATISTICA. Podle MATLABu Spočteme se číslo np + np + 1 i p = = 2np určující polohu kvantilu. Hodnota kvantilu se určí lineární interpolací x p = x ([ip]) + (x ([ip]+1) x ([ip]))(i p [i p ]), kde [ ] značí celou část čísla. Je-li i p < 1 položíme x p = x (1), je-li i p > n položíme x p = x (n). Podle EXCELu

46 46 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 1 Hodnotám uspořádaného souboru se přiřadí postupně hodnoty 0,, 2,..., n 2, 1. n 1 n 1 n 1 Pokud je hodnota p rovna násobku 1, je kvantil x n 1 p roven hodnotě znaku odpovídající danému násobku. Jestliže p není násobkem 1, určí se hodnota kvantilu n 1 lineární interpolací. p 0,10 0,25 0,50 0,75 0,90 STATISTICA 1 3,5 6,5 8 9 MATLAB 1,3 3,5 6,5 8 8,7 EXCEL 1,7 4,25 6,5 8 8,3 Tab. 2.5 Hodnoty kvantilů určených v programech STATISTICA, MATLAB a EXCEL Jak je vidět na předchozím příkladu, existuje několik metod určování kvantilů. Pro ruční určení je nejjednodušší metoda, kterou používá program STATISTICA Příklad. Určete medián, dolní kvartil a horní decil z hodnot 1, 2, 5, 6, 7, 8, 8, 9. Řešení. Nejprve určíme medián, tedy prostřední hodnotu uspořádaného souboru. Rozsah souboru je n = 8, neexistuje tedy jedna prostřední hodnota, ale hodnoty dvě (6 a 7). Hodnotu mediánu učíme jako aritmetický průměr těchto hodnot x = x 0,50 = = 6,5. Tento výsledek budeme interpretovat takto: 50 % uspořádaných hodnot v souboru je menší nebo rovno 6,5, tedy nepřekročí hodnotu 6,5. Nyní určíme dolní kvartil x 0,25. Vyjdeme ze vztahu (2.4) a dostáváme 8 0,25 < i p < 8 0,25 + 1, tedy 2 < i p < 3. V případě, že žádné přirozené číslo nesplňuje danou nerovnici (i p je pořadový index, tedy přirozené číslo), určíme hledaný kvartil jako aritmetický průměr hodnot, které jsou na pořadí np a np + 1, v našem případě průměr druhé a třetí hodnoty v uspořádaném souboru x 0,25 = x (2) + x (3) 2 = = 3,5. Analogicky určíme horní decil x 0,90, 8 0,90 < i p < 8 0,90 + 1, tedy 7,2 < i p < 8,2, odkud i p = 8 a x 0,90 = x (8) = 9. Řekneme, že 25 % uspořádaných hodnot v souboru je menší nejvýše rovno 3,5. Analogicky 90 % hodnot nepřekročí Poznámka. Pro určení mediánu je v EXCELu k dispozici funkce MEDIAN, libovolný kvantil lze spočítat pomocí funkce PERCENTIL. Dolní kvartil z příkladu by se potom určil příkazem PERCENTIL(A1:A8;0,25) = 4,25. Dané hodnoty jsou zapsány v polích A1 až A8. Všimněte si, že hodnota určená v EXCELu je odlišná od hodnoty spočítané v příkladu

47 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Úkoly a problémy k modulu Na základě uvedených vlastností průměru určete, čemu je roven výraz kde c 1 a c 2 jsou reálné konstanty. 1 n n c 1 (x i + c 2 ), i=1 2. Určete aritmetický, geometrický a harmonický průměr z hodnot 11, 13, 4, 8, 8, 7, 9, 15, 10, 14, 8, 10, 8, 12, 9. Dále spočítejte medián, dolní a horní kvartil. Pro výpočet kvantilů použijte postup popsaný v příkladu a porovnejte tyto hodnoty s hodnotami spočítanými v EXCELu. 3. Určete aritmetický průměr, medián, dolní a horní kvartil z délek laťovek (viz Úkoly a problémy k modulu 2.2 úkol 1). Pro výpočet kvantilů použijte postup popsaný v příkladu a porovnejte tyto hodnoty s hodnotami spočítanými v EXCELu. 4. Určete aritmetický průměr, modus, medián, dolní a horní kvartil, dolní a horní decil z dat zachycujících výsledky testu z matematiky (viz Úkoly a problémy k modulu 2.2 úkol 3). Pro výpočet kvantilů použijte postup popsaný v příkladu a porovnejte tyto hodnoty s hodnotami spočítanými v EXCELu. 5. Určete aritmetický průměr, modální interval, medián, dolní a horní kvartil, dolní a horní decil z dat zachycujících rychlost osobních automobilů (viz Úkoly a problémy k modulu 2.2 úkol 5). Pro výpočet kvantilů použijte postup popsaný v příkladu a porovnejte tyto hodnoty s hodnotami spočítanými v EXCELu. Řešení. 1. c 1 (x + c 2 ); 2. 9,733; 9,296; 8,801; 9(9); 8(8); 12(11,5); 3. 50,060; 50(50); 49,8(49,85); 50,3(50,25); 4. 6,1; 7; 6(6); 5(5); 7(7); 3,5(3,9); 8,5(8,1); ,786; (120; 130 ; 133,5(133,5); 125(125); 143(143); 116,5(116,9); 157(157). Další úlohy na procvičování: [Kříž 1]: str

48 48 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 2.4 Charakteristiky variability Průměry, kvantily a modus, tedy charakteristiky, jež byly zmíněny v předchozím odstavci, v sobě shrnují informaci pouze o jedné vlastnosti rozdělení četností, o poloze. Při zpracování dat je možné se setkat s případem, kdy rozdělení četností budou mít shodnou polohu, ale přesto se od sebe budou lišit (viz obr. 2.10). Hodnoty statistického souboru A jsou těsněji koncentrovány kolem aritmetického průměru než hodnoty souboru B. Lze tedy říci, že v souboru A vystihuje aritmetický průměr polohu lépe než v souboru B. Dané soubory se liší variabilitou dat. Variabilita v souboru A je menší než v souboru B. Obr Rozdělení lišící se variabilitou Existuje řada měr variability, zmíníme pouze ty nejdůležitější Definice. Nejjednodušší, ale i nejhrubší mírou variabily je variační rozpětí R. Je definováno jako rozdíl největší a nejmenší hodnoty znaku R = x max x min. Předností variačního rozpětí je snadnost a rychlost výpočtu a jednoduchá interpretace. Udává délku intervalu, v němž se nacházejí všechny hodnoty znaku. Nevýhodou je, že je závislé pouze na extrémních hodnotách, které nemusí být pro sledovaný znak typické.

49 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Definice. Kvantilová rozpětí jsou dalšími jednoduchými měrami variability: kvartilové rozpětí decilové rozpětí percentilové rozpětí R Q = x 0,75 x 0,25, R D = x 0,90 x 0,10, R C = x 0,99 x 0,99. Kvartilové rozpětí udává délku intervalu, ve kterém leží 50 % prostředních hodnot uspořádaného souboru. Analogicky decilové resp. percentilové rozpětí určuje délku intervalu, ve kterém leží 80 % resp. 98 % prostředních hodnot uspořádaného souboru. Z uvedené definice vyplývá, že z uspořádaných dat vždy usekneme data odpovídající hornímu a dolnímu kvartilovému intervalu. Např. pro určení decilového rozpětí tedy vyloučíme 10 % dolních dat 10 % horních dat. Tím, že vyloučíme určitou část dat na každé straně, lze předpokládat, že jsem vyloučily i některé extrémní hodnoty. Měříme tak variabilitu bez ohledu na odlehlá krajní pozorování Příklad. V příkladu jsme určovali kvantily z dat 1, 2, 5, 6, 7, 8, 8 a 9. Vyjdeme z hodnot vypočítaných první metodou (podle programu STATISTICA: x 0,10 = 1, x 0,25 = 3,5, x 0,50 = 6,5, x 0,75 = 8, x 0,90 = 9) a určíme variační, kvartilové a decilové rozpětí. Řešení. Variační rozpětí R = x max x min = 9 1 = 8, všechny hodnoty se nacházejí v intervalu šířky 8. Kvartilové rozpětí má hodnotu R Q = x 0,75 x 0,25 = 8 3,5 = 4,5. Znamená to, že 50 % prostředních hodnot se nachází v intervalu šířky 4,5. Decilové rozpětí je rovno R D = x 0,90 x 0,10 = 9 1 = Definice. Kvantilové odchylky definujeme následovně: kvartilová odchylka decilová odchylka percentilová odchylka Q = R Q /2, D = R D /8, C = R C /98. Např. hodnota kvartilové odchylky udává průměrnou vzdálenost mezi dvěma jednotlivými sousedními kvantily, tj. (x 0,75 x 0,50 ) (x 0,50 x 0,25 ) 2 = x 0,75 x 0,25 2 = R Q 2.

50 50 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Kvartilová odchylka tedy představuje průměrnou délku dvou prostředních kvartilových intervalů. Analogicky decilová resp. percentilová odchylka určuje průměrnou vzdálenost mezi sousedními decily, resp. percentily Příklad. Určete kvartilovou a decilovou odchylku z hodnot 1, 2, 5, 6, 7, 8, 8 a 9. Využijte výsledků z příkladu Řešení. Kvartilová odchylka Q = R Q /2 = 4,5/2 = 2,25. Decilová odchylka má hodnotu D = R D /8 = 8/8 = 1. To znamená, že průměrná délka dvou (osmi) prostředních kvartilových (decilových) intervalů je 2,25 (1). Kvartilová rozpětí a kvartilové odchylky jsou založené vždy pouze na 2 hodnotách. Takové míry variability mají menší vypovídající hodnotu. Proto užijeme také míry založené na všech hodnotách Definice. Průměrná odchylka znaku je definována jako aritmetický průměr absolutních odchylek jednotlivých hodnot od aritmetického průměru d x = n x i x. n i= Příklad. Určete průměrnou odchylku z hodnot 1, 2, 5, 6, 7, 8, 8 a 9. Řešení. V příkladu jsme spočítali hodnotu aritmetického průměru x = 5,75. Dosazením do definičního vzorce dostáváme 1 5, , , ,75 d x = , , , ,75 + = 2, Poznámka. Průměrnou odchylku získáme v EXCELu pomocí funkce PRŮM- ODCHYLKA, pro dané hodnoty příkazem PRŮMODCHYLKA(1;2;5;6;7;8;8;9) nebo PRŮMODCHYLKA(A1:A8), pokud jsou data zadána v polích A1 až A8. Variabilitu naměřených hodnot znaku nelze však charakterizovat pomocí diferencí x i x, protože jejich součet n i=1 (x i x) = 0 (viz vlastnosti aritmetického průměru). K popisu variability se však používají čtverce těchto diferencí, pro které platí n i=1 (x i x) Definice. K mírám variability patří také rozptyl s 2 n, jenž je definován jako aritmetický průměr čtverců odchylek jednotlivých hodnot znaku od aritmetického průměru n (x i x) 2 s 2 n = i=1 n.

51 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 51 Pro ruční výpočty rozptylu je možné odvodit jednodušší vzorec ( s 2 n = 1 n n ) (x i x) 2 = 1 n n x 2 i 2x x i + x 2 n n i=1 i=1 i=1 i=1 ( n ) = 1 x 2 i 2nx 2 + nx 2 = 1 n x 2 i x 2 = x n n 2 x 2. i=1 i=1 (2.5) Rozptyl má tyto základní vlastnosti: jsou-li jednotlivé hodnoty znaku konstantní (všechny shodné), potom jejich rozptyl je roven nule, tj. 1 n (c c) 2 = 0, n i=1 přičteme-li k jednotlivým hodnotám znaku x i konstantu c, hodnota rozptylu se nezmění, tj. 1 n [(x i + c) (x + c)] 2 = s 2 n n, i=1 násobíme-li jednotlivé hodnoty znaku x konstantou c, je rozptyl násoben čtvercem této konstanty, tj. 1 n (c x i c x) 2 = c 2 s 2 n n. i= Definice. Odmocnina z rozptylu se nazývá směrodatná odchylka s n = s 2 n. Směrodatná odchylka je, na rozdíl od rozptylu, vyjádřena ve stejných jednotkách jako sledovaný znak. Tvoří-li např. statistický soubor výkony ve skoku do výšky vyjádřené v centimetrech, má i směrodatná odchylka jednotku cm, rozptyl je potom vyjádřen v jednotkách cm Definice. V induktivní statistice je často používán výběrový rozptyl s 2 definovaný vztahem n (x i x) 2 s 2 = i=1 n 1.

52 52 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Definice. Odmocnina z výběrového rozptylu se nazývá výběrová směrodatná odchylka s = s 2. Jak plyne z definic rozptylu a výběrového rozptylu, platí mezi nimi vztah s 2 n = n 1 n s Příklad. Určete rozptyl, směrodatnou odchylku, výběrový rozptyl a výběrovou směrodatnou odchylku z hodnot 1, 2, 5, 6, 7, 8, 8 a 9. Řešení. V příkladu jsme určili hodnotu aritmetického průměru x = 5,75. Nejprve spočítáme hodnotu rozptylu z definičního vzorce s 2 n = (1 5,75)2 + (2 5,75) 2 + (5 5,75) 2 + (6 5,75) (7 5,75)2 + (8 5,75) 2 + (8 5,75) 2 + (9 5,75) 2 = 7, Rozptyl je možné také určit pomocí vztahu (2.5). Určíme tedy hodnotu x 2 = 1 n n i=1 x 2 i = = 40,5, odtud potom dostáváme Směrodatná odchylka je s 2 n = x 2 x 2 = 40,5 5,75 2 = 7,4375. s n = s 2 n = 7,4375. = 2, Výběrový rozptyl můžeme samozřejmě určit z definice, jednodušší bude ale využít vztahu s 2 = n n 1 s2 n = 8 7,4375 = 8,5. 7 Výběrová směrodatná odchylka má potom hodnotu s = s 2 = 8,8. = 2, Poznámka. Pomocí EXCELu můžeme vypočítat hodnotu rozptylu pomocí funkce VAR, směrodatnou odchylku pomocí funkce SMODCH, výběrový rozptyl příkazem VAR.VÝBĚR a výběrovou směrodatnou odchylku příkazem SMODCH.VÝBĚR. Syntaxe zadávání je podobná jako např. u aritmetického průměru (viz poznámka 2.3.8).

53 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Definice. Nejznámější mírou relativní variability je variační koeficient ν = s n x, který je definován jako poměr směrodatné odchylky a absolutní hodnoty aritmetického průměru. Variační koeficient je bezrozměrné číslo, lze jej vyjádřit i v procentech. Využít ho můžeme v případě, když budeme chtít porovnávat variabilitu ve dvou nebo více statistických souborech, jejichž hodnoty budou vyjádřeny v jiných jednotkách (např. jeden soubor bude obsahovat data o rychlosti projíždějících aut v kilometrech za hodinu a druhý v metrech za sekundu apod.). Čím menší je variační koeficient, tím více je odpovídající soubor homogenní Příklad. Mlékárna dosáhla při balení mléka a másla na dvou automatických linkách tyto kontrolní výsledky: pro mléko je x = 1,036 l a s n (x) = 0,284 l, pro máslo je y = 247,9 g a s n (y) = 42,6 g. U které linky byla výroba v rámci kontroly přesnější? Řešení. Přesnost výroby v rámci našich dvou souborů se posuzuje pomocí homogenity obou množin měření (měření jsou v různých jednotkách). Porovnáme variační koeficienty: v x = s n(x) x v y = s n(y) y = 0,284 1,036 = 42,6 247,9 Větší přesnosti dosáhla linka na balení másla.. = 0,274 v x = 27,4 %. = 0,172 v x = 17,2 % Úkoly a problémy k modulu Mějme datový soubor o rozsahu n, jeho hodnoty označme x i, jejich průměr x a rozptyl s 2 n. Určete jaký rozptyl bude mít datový soubor, pro jehož hodnoty y i platí y i = c 1 (x i + c 2 ), kde c 1 a c 2 jsou reálné konstanty? 2. Určete variační a kvartilové rozpětí, kvartilovou odchylku, průměrnou odchylku, rozptyl, výběrový rozptyl, směrodatnou odchylku, výběrovou směrodatnou odchylku a variační koeficient z hodnot 11, 13, 4, 8, 8, 7, 9, 15, 10, 14, 8, 10, 8, 12, 9. Využijte výsledky spočítané dříve (viz Úkoly a problémy k modulu 2.3 úkol 2). 3. Určete variační a kvartilové rozpětí, kvartilovou odchylku, průměrnou odchylku, rozptyl, výběrový rozptyl, směrodatnou odchylku, výběrovou směrodatnou odchylku a variační koeficient z délek laťovek. Využijte výsledky spočítané dříve (viz Úkoly a problémy k modulu 2.3 úkol 3).

54 54 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 4. Určete variační, kvartilové a decilové rozpětí, kvartilovou a decilovou odchylku, průměrnou odchylku, rozptyl, výběrový rozptyl, směrodatnou odchylku, výběrovou směrodatnou odchylku variační koeficient z dat zachycujících výsledky testu z matematiky. Využijte výsledky spočítané dříve (viz Úkoly a problémy k modulu 2.3 úkol 4). 5. Určete variační, kvartilové a decilové rozpětí, kvartilovou a decilovou odchylku, průměrnou odchylku, rozptyl, výběrový rozptyl, směrodatnou odchylku, výběrovou směrodatnou odchylku a variační koeficient z dat zachycujících rychlost osobních automobilů. Využijte výsledky spočítané dříve (viz Úkoly a problémy k modulu 2.3 úkol 5). Řešení. 1. c 2 1 s 2 n; 2. 11; 4(3,5); 2(1,75); 2,249; 7,796; 8,352; 2,792; 2,890; 0,287; 3. 1,6; 0,5(0,4); 0,25(0,2); 0,304; 0,156; 0,167; 0,395; 0,408; 0,008; 4. 8; 2(2); 5(4,2); 1(1); 0,625(0,525); 1,443; 3,290; 3,346; 1,814; 1,829; 0,297; 5. 63; 18(18); 40,5 (40,1); 9(9); 5,063(5,013); 11,733; 203,768; 206,722; 14,275; 14,378; 0,106. Další úlohy na procvičování: [Kříž 1]: str Charakteristiky koncentrace Při podrobnějším popisu datového souboru, zvláště pokud se chystáme v návaznosti na popisnou statistiku provést v souladu s řešenými věcnými problémy statistickou analýzu, nevystačíme jen s charakteristikami polohy a variability. Další informace o statistickém souboru podávají tzv. koeficienty koncentrace, tj. informace o hustotě dat. Užívat budeme tzv. koeficient šikmosti a koeficient špičatosti. koeficient šikmosti (asymetrie) je založený na srovnání stupně koncentrace malých hodnot sledovaného znaku se stupněm koncentrace velkých hodnot tohoto znaku. Podávají tedy informaci o tvaru rozdělení četností co do souměrnosti. Koeficient špičatosti je založený na srovnání stupně koncentrace prostředních hodnot se stupněm koncentrace ostatních hodnot resp. všech hodnot sledovaného znaku. Poskytují tedy informaci o rozdělení četností co do špičatosti. Nejprve však uvedeme definice obecných a centrálních momentů.

55 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Definice. r-tý obecný moment je definován vztahem m r = 1 n n x r i, i=1 r-tý centrální moment je definován vztahem m r = 1 n n (x i x) r. i=1 Jak z dané definice vyplývá je aritmetický průměr 1. obecný moment a rozptyl je 2. centrální moment. Pomocí centrálního momentu se definují koeficient šikmosti a koeficient špičatosti Definice. Koeficient šikmosti je dán vztahem a 3 = m 3 m 3/2 2 = n (x i x) 3 i=1 ns 3 n. Je-li a 3 = 0, je hustota malých a velkých hodnot stejná, což představuje souměrné rozdělení četností. Je-li a 3 > 0, je hustota malých hodnot ve srovnání s hustotou velkých hodnot větší a rozdělení četností je proto zešikmené doleva. Analogicky je-li a 3 < 0, je rozdělení četností zešikmené doprava. Obr Rozdělení lišící se šikmostí Definice. Koeficient špičatosti je definován vztahem a 4 = m 4 3 = m 2 2 n (x i x) 4 i=1 ns 4 n 3

56 56 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Je-li a 4 > 0, je stupeň koncentrace prostředních hodnot ve srovnání s koncentrací všech hodnot větší a rozdělení četností se potom projeví špičatým tvarem. Analogicky je-li a 4 < 0, má rozdělení četností plochý tvar. Obr Rozdělení lišící se špičatostí Příklad. Určete koeficient šikmosti a špičatosti z hodnot 1, 2, 5, 6, 7, 8, 8 a 9. Řešení. Aritmetický průměr má hodnotu x = 5,75. (viz příklad 2.3.6), směrodatná odchylka hodnotu s n = 2, Dosadíme do definice a 3 = (1 5,75)3 + (2 5,75) 3 + (5 5,75) 3 + (6 5,75) 3 8 2, (7 5,75)3 + (8 5,75) 3 + (8 5,75) 3 + (9 5,75) 3 8 2, = 0, a 4 = (1 5,75)4 + (2 5,75) 4 + (5 5,75) 4 + (6 5,75) 4 8 2, (7 5,75)4 + (8 5,75) 4 + (8 5,75) 4 + (9 5,75) 4 8 2, = 1, Poznámka. Koeficienty šikmosti a špičatosti můžeme získat pomocí excelovských funkcí SKEW a KURT. Tyto koeficienty (označíme je a 3, a 4 ) jsou však počítány pomocí jiných vzorců a 4 = a 3 = n (n 1)(n 2) n(n + 1) (n 1)(n 2)(n 3) i=1 n ( ) 3 xi x, s i=1 n ( ) 4 xi x 3(n 1)2 s (n 2)(n 3).

57 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 57 Koeficienty šikmosti a špičatosti uvedené v definicích a můžeme získat pomocí následujících vztahů n 2 a 3 = a 3, n(n 1) a 4 = (n 2)(n 3) n 2 1 a 4 6 n Úkoly a problémy k modulu Určete koeficient šikmosti a špičatosti z hodnot 11, 13, 4, 8, 8, 7, 9, 15, 10, 14, 8, 10, 8, 12, 9. Využijte výsledky spočítané dříve (viz a Úkoly a problémy k modulu 2.3 a 2.4 úkol 2). 2. Určete koeficient šikmosti a špičatosti délek laťovek. Využijte výsledky spočítané dříve (viz a Úkoly a problémy k modulu 2.3 a 2.4 úkol 3). 3. Určete koeficient šikmosti a špičatosti dat zachycujících výsledky testu z matematiky. Využijte výsledky spočítané dříve (viz a Úkoly a problémy k modulu 2.3 a 2.4 úkol 4). 4. Určete koeficient šikmosti a špičatosti dat zachycujících rychlost osobních automobilů. Využijte výsledky spočítané dříve (viz a Úkoly a problémy k modulu 2.3 a 2.4 úkol 5). Řešení. 1. 0,128; 0,349; 2. 0,136; 0,102; 3. 0,182; 0,567; 4. 0,286; 0,607. Další úlohy na procvičování: [Kříž 1]: str Kompletní zpracování dat pomocí aplikace STAT1 Jak již bylo několikrát zmíněno v předcházejících odstavcích, nabízí EXCEL možnost využít jeho statistické funkce pro výpočet číselných charakteristik datového souboru. Tabulka 2.6 shrnuje názvy některých funkcí. Pro účely výuky předmětu Statistika I byla vytvořena aplikace STAT1, pomocí níž je možné provádět základní zpracování dat a elementární statistickou analýzu, se kterou se studenti na přednáškách a cvičeních seznámí. Ukážeme si nyní, jak se pomocí tohoto nástroje provede základní zpracování dat (bodové a intervalové rozdělení, výpočet číselných charakteristik statistického souboru).

58 58 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Funkce EXCELu popis ČETNOSTI určí absolutní četnosti GEOMEAN geometrický průměr HARMEAN harmonický průměr KURT koeficient špičatosti (viz poznámka 2.5.5) MAX největší hodnota MEDIAN medián MIN nejmenší hodnota PERCENTIL percentil PRŮMODCHYLKA průměrná odchylka PRŮMĚR aritmetický průměr SKEW koeficient šikmosti (viz poznámka 2.5.5) SMODCH směrodatná odchylka SMODCH.VÝBĚR výběrová směrodatná odchylka VAR.VÝBĚR výběrový rozptyl VAR rozptyl (momentový) Tab. 2.6 Některé statistické funkce EXCELu Data ke zpracování jsou zaznamenána v prvním listu s názvem data. Hodnoty statistického znaku tvoří vždy 1 sloupec, první řádek je vymezen pro slovní popis dat (např. moje data ). Tento list obsahuje souhrn dat ze sbírky příkladů (viz [Kříž 1]). Tyto hodnoty je samozřejmě možné měnit. Pokud budeme chtít zpracovávat vlastní data, stačí je zapsat např. do prvního sloupce. Obr Aplikace STAT1 vkládání dat

59 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 59 Druhý list s názvem popisné charakteristiky slouží k výpočtu základních číselných charakteristik statistického souboru bez konstrukce bodového resp. intervalového rozdělení četností. Stačí si zvolit datový soubor pomocí menu v horní části stránky. Obr Aplikace STAT1 výpočet číselných charakteristik Budeme-li chtít data zpracovat pomocí bodového rozdělení četností, použijeme k tomu list s názvem bodové rozdělení. Jako příklad si ukážeme zpracování statistického souboru s měřením výšky 15měsíčních chlapců (viz příklad 2.2.3). Z daného seznamu dat v horní části listu zvolíme datový soubor s názvem s13p11 výška. V listu se automaticky provede setřídění dat do tabulky rozdělení četností s hodnotami od x min = 79 až po hodnotu 98 (počet řádků v tabulce je napevno nastaven), vypočítají se charakteristiky a vykreslí grafy (polygon četností a součtová křivka). Tyto grafy vycházejí z celé tabulky, tedy i z hodnot, jejichž absolutní četnosti jsou nulové (od hodnoty 86 výš). Tyto řádky je možné skrýt, což způsobí to, že skrytá část tabulky nebude zahrnuta do grafů (Ve verzi EXCEL 2003: Označíme řádky, které chceme skrýt, v excelovském menu Formát vybereme položku Řádek a poté možnost Skrýt ; totéž lze provést pomocí pravého tlačítka myši. Ve verzi EXCEL 2007: Vybereme řádky, které chceme skrýt, na kartě Domů ve skupině Buňky klepneme na tlačítko formát, v části Viditelnost přejdeme na položku Skrýt a zobrazit a klepneme na příkaz Skrýt řádky. Podobně je samozřejmě možné skryté řádky opět zobrazit.) Hodnoty znaku se vždy nemusí lišit pouze o jedničku (79, 80, 81,... ), mohou být např. 5, 10, 15,.... V tom případě bychom nastavili parametr k na hodnotu 5 (na listu vpravo nahoře).

60 60 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Obr Aplikace STAT1 bodové rozdělení četností List s názvem intervalové rozdělení slouží ke zpracování dat pomocí intervalového rozdělení četností. Základní ovládání je stejné jako u bodového rozdělení četností, zde je však třeba zadat více vstupních parametrů, jako je počet intervalů (parametr k ), šířka intervalů (parametr h ) a ještě parametr a udávající hodnotu, od které se budou intervaly konstruovat. V listu se automaticky provede určení intervalů a kompletní zatřídění dat do tabulky rozdělení četností (počet řádků v tabulce je nastaven pevně). Současně se vypočítají vybrané charakteristiky a vykreslí grafy (histogram a součtový histogram). Tyto grafy vycházejí z celé tabulky, řádky s nulovými absolutními četnostmi (za poslední nenulovou četností) je možné skrýt stejně jako u bodového rozdělení četností.

61 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 61 Obr Aplikace STAT1 intervalové rozdělení četností Jako příklad si ukážeme zpracování dat představující množství prachových částic (viz příklad 2.2.4). Z menu v horní části listu vybereme data s názvem s10p16 prach. V příkladu jsme zvolili k = 7, h = 0,1 a a = 1, nastavíme tedy tyto parametry stejně. V listu jsou uvedena některá pravidla pro stanovení počtu intervalů (tříd). Tato informace spolu s výpočtem šířky intervalů nám může pomoci při konstrukci tabulky rozdělení četností. Prostřednictvím různých kombinací vstupních parametrů k, h, a můžeme potom posoudit různá rozdělení četností a vybrat z nich relativně to nejvhodnější pro popis našeho sledovaného znaku Úkoly a problémy k modulu 2.6 Pomocí aplikace STAT1 proveďte zpracování datových souborů uvedených v předchozích odstavcích a porovnejte získané výstupy s dřívějšími výsledky.

62 62 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 2.7 Shrnutí 2. kapitoly Klíčová slova: statistické tabulky a grafy, charakteristiky polohy, variability a koncentrace, počítačové zpracování dat Základní úlohy: Zpracování statistických dat do tabulek a grafů. Určování číselných charakteristik z datových souborů. Interpretace číselných charakteristik. Doporučená literatura pro hlubší studium: [Kříž 2]: str , [Cyhelský]: str , [Hindls]: str Test ke kapitole 2 A. Teoretická část 1. Rozhodněte, která tvrzení jsou pravdivá: a) Vynásobíme-li hodnoty statistického souboru hodnotou 3, potom se hodnota aritmetického průměru zvětší třikrát. b) Vynásobíme-li hodnoty statistického souboru hodnotou 3, potom se hodnota rozptylu zvětší třikrát. c) Vynásobíme-li hodnoty statistického souboru hodnotou 3, potom se hodnota variačního koeficientu nezmění. d) Je-li rozdělení četností symetrické, potom je koeficient špičatosti roven nule. e) Je-li rozdělení četností symetrické, potom x = x 0,50. f) Mějme datový soubor o rozsahu n s jednou největší hodnotou x max. Zvýšímeli tuto hodnotu na dvojnásobek, hodnota aritmetického průměru se zvýší, ale medián zůstane stejný. B. Praktická část 1. V basketbalovém družstvu byla provedena prověrka úspěšnosti proměňování trestných střílení. Z 50 hodů dosáhli jednotlivý hráči tento počet košů: 35, 29, 37, 28 41, 46, 32, 36, 25, 42, 40, 41, 37, 39, 40. Vypočítejte aritmetický průměr, medián, dolní a horní kvartil, kvartilovou odchylku, rozptyl, výběrový rozptyl, směrodatnou odchylku, výběrovou směrodatnou odchylku, variační koeficient, koeficient šikmosti

63 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 63 a špičatosti. Sestrojte diagram rozptýlení a krabicový graf. Co vypovídají oba grafy o koncentraci a souměrnosti dat? 2. Balíčky soli mají mít hmotnost 1 kg. Bylo provedeno kontrolní vážení 30 balíčků s těmito výsledky (v gramech): Sestrojte tabulku bodového rozdělení četností, data zobrazte pomocí polygonu četností, součtové křivky, krabicového grafu a empirické distribuční funkce. Vypočítejte aritmetický průměr, medián, dolní a horní kvartil, dolní a horní decil, kvartilovou odchylku a decilovou odchylku, průměrnou odchylku, rozptyl, výběrový rozptyl, směrodatnou odchylku, výběrovou směrodatnou odchylku, variační koeficient, koeficient šikmosti a špičatosti. Jaké vlastnosti našeho znaku hmotnost balíčku soli lze z rozdělení četností vyčíst? 3. V jedné restauraci byla zjišťována, v rámci zlepšení služeb zákazníkům, doba čekání na příchod obsluhy. Byly naměřeny tyto hodnoty (v minutách): 0,5 5,3 4,1 2,8 7,8 1,1 2,7 0,1 2,7 1,4 5,6 2,9 5,5 0,8 0,4 3,1 1,1 3,7 1,9 0,6 1,5 3,3 3,6 2,4 2,6 3,1 1,7 0,9 2,6 2,5 6,2 10,0 3,7 3,4 1,3 0,1 0,2 2,3 4,3 0,8 0,8 0,9 0,9 6,7 1,2 2,3 4,7 7,0 0,6 5,2 Sestrojte tabulku intervalového rozdělení četností, data zobrazte pomocí histogramu a součtového histogramu, krabicového grafu a empirické distribuční funkce. Při konstrukci intervalů vyzkoušejte několik kombinací parametrů k, h,a, potom vyberte podle vašeho názoru to nejvhodnější intervalové rozdělení. Vypočítejte aritmetický průměr, medián, dolní a horní kvartil, dolní a horní decil, kvartilovou odchylku a decilovou odchylku, průměrnou odchylku, rozptyl, výběrový rozptyl, směrodatnou odchylku, výběrovou směrodatnou odchylku, variační koeficient, koeficient šikmosti a špičatosti. Co lze z našeho rozdělení četností usoudit o sledovaném znaku doba čekání na obsluhu? Řešení. A. 1. a) pravda; b) nepravda; c) pravda; d) nepravda ; e) pravda ; f) pravda. B ,355; 37(37); 32(33,5); 41(40,5); 4,5(3,5); 31,716; 33,981; 5,632; 5,829; 0,154; 0,519; 0,568; :1; 992: 2; 993: 5; 994: 2; 995: 7; 996: 5; 997: 3; 998: 3; 999: 1; 1000: 1; 955,233; 955(955); 993(993,250); 997(996,750); 992,5(992,9); 998(998); 2(1,75); 0,688(0,638); 1,731; 4,646; 4,806; 2,155; 2,192; 0,137; 0,539;

64 64 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 3. např. pro k = 7, h = 1,5, a = 0: (0; 1,5 : 19; (1,5; 3 : 12; (3; 4,5 : 9; (4,5; 6 : 5; (6; 7,5 : 3; (7,5; 9 : 1; (9; 10,5 : 1; 2,818; 2,55(2,55); 0,9(0,95); 3,7(3,7); 0,55(0,59); 5,9(5,66); 1,4(1,375); 0,669(0,634); 1,714; 4,820; 4,918; 2,195; 2,218; 0,779; 1,078; 0,910.

65 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 65 3 VÝBĚROVÁ ŠETŘENÍ V předchozí kapitole jsme se věnovali kompletnímu popisu výběrového souboru. Metodami popisné statistiky jsme tento soubor popsali, tj. sestrojili bodové nebo intervalové rozdělení četností (pokud to bylo možné a výběrový soubor byl dostatečně velký), a znázornili jsme je tabulkově a graficky. Pomocí číselných charakteristik jsme také určili polohu, variabilitu a koncentraci sledovaného statistického znaku. Takovému kompletnímu popisu znaku budeme říkat empirický model. Protože předmětem našeho zájmu je však teoretický model popis odpovídající náhodné veličiny, musíme nejprve řešit otázku kvality výběrového souboru. A tomu se budeme věnovat právě v této kapitole. Nakonec popíšeme způsob statistického usuzování, které umožňuje využít statistiku k řešení praktických problémů Cílem kapitoly je: seznámit se s druhy náhodných výběrů, vysvětlit pojem výběrové charakteristiky a jejího rozdělení, popsat fungování statistiky při řešení reálných problémů. 3.1 Druhy výběrového šetření Především charakter základního souboru rozhoduje o tom, jaké statistické šetření bude v dané situaci vhodné provést. Připomeňme, že základní soubor je ten soubor, který je předmětem našeho zájmu, a je zároveň nositelem našeho teoretického modelu. V zásadě rozlišujeme úplné a neúplné šetření. Zkoumají-li se statistickým šetřením znaky u všech statistických jednotek základního souboru, mluvíme o úplném šetření. Předpokládá to jednak konečnou množinu statistických jednotek, ale také praktickou možnost získat potřebné informace o každé jednotce, která do základního souboru patří. Je zřejmé, že tyto požadavky budou plnit zpravidla malé základní soubory. Ve většině praktických situací však tyto předpoklady splněné nejsou. Potom provádíme neúplné šetření, jehož důležitou formou je tzv. výběrové reprezentativní šetření. Výběrové šetření zahrnuje ty druhy neúplného šetření, které dovolují zobecnit poznatky z výběrového souboru na celý základní soubor. Při jeho konstrukci nepostupujeme libovolně, ale snažíme se o to, aby byl zmenšeným obrazem základního souboru, aby jej tedy dobře reprezentoval. Reprezentativnost výběrového souboru se zabezpečuje různými způsoby výběru jednotek ze základního souboru. Nejčastěji používaným druhem výběru je náhodný výběr, kdy vybrání jednotek ze základního souboru je zcela ponecháno na náhodě.

66 66 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Definice. Nejdůležitějším typem výběrového šetření je náhodný pravděpodobnostní výběr: všem prvkům základního souboru se přiřadí předem známé pravděpodobnosti zahrnutí do výběrového souboru a vlastní výběr s ohledem na tyto pravděpodobnosti závisí pouze na náhodě. Základním typem náhodného výběru je prostý náhodný výběr přímý výběr, ve kterém všechny možné n-tice prvků vybrané ze základního souboru mají stejnou pravděpodobnost, že se dostanou do výběru Poznámky. 1. Pokud mají u náhodného výběru všechny jednotky stejnou pravděpodobnost výběru, hovoříme o náhodném výběru se stejnými pravděpodobnostmi. Obecně mohou být jednotkám přiřazené i různé pravděpodobnosti; v případě jednotek nestejné velikosti to mohou být pravděpodobnosti odpovídající jejich podílu na úhrnu hodnot zkoumaného znaku. 2. Z pohledu opakovatelnosti výběru jednotky lze prostý náhodný výběr provádět dvěma způsoby, a to jako výběr s opakováním s vracením, nebo jako výběr bez opakování bez vracení. Při výběru s opakováním vracíme vybrané jednotky zpět do základního souboru, takže mohou být v dalších tazích vybrány znovu. Pokud se některá jednotka ve výběru opakuje, potom se zřejmě při daném rozsahu výběru určitý objem informace obsažené v dalších jednotkách ztrácí. V základním souboru ale zůstává stále stejný počet jednotek a jednotlivé tahy představují řadu nezávislých náhodných pokusů. Pravděpodobnost výběru pro nevybrané jednotky se v dalším tahu tedy nemění. Při výběru bez opakování vybrané jednotky zpět do základního souboru nevracíme, tedy každým dalším tahem se počet jednotek v základním souboru zmenšuje. To znamená, že pravděpodobnost výběru se pro nevybrané jednotky každým tahem zvětšuje a jednotlivé tahy představují řadu závislých náhodných pokusů. Obecně vedou výběry s opakováním k jiným statistickým postupům při odhadech a testování hypotéz, než výběry bez opakování. Rozdíl mezi oběma variantami je však třeba brát v úvahu pouze při výběrech z konečných souborů malého rozsahu. Při výběru z velkého konečného základního souboru, při kterém je podíl vybraných jednotek ze všech jednotek základního souboru velmi malý, a tím spíše při výběru z nekonečného základního souboru, lze použít jednodušší postupy odvozené pro výběry s opakováním i při výběrech bez opakování. Zkreslení, které tak vzniká, je totiž téměř zanedbatelné. 3. Prostý náhodný výběr se provádí různými technikami losování, které musí zaručit, aby každý prvek populace měl stejnou možnost být zařazen do výběru. Tento postup se usnadní, když jsou prvky populace očíslovány. Pak je možné provést výběr pomocí tabulek náhodných čísel. K losování se mohou také využít počítače vybavené různými generátory pseudonáhodných 3 čísel. 4. Další formou neúplného šetření, protějškem reprezentativního šetření, je šetření nereprezentativní, které dostatečně nepředstavuje celý zkoumaný základní soubor a možnost zobecnění získaných poznatků bývá problematická. Z výběrových šetření tohoto 3 náhodná čísla vytvořená uměle

67 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 67 typu je nutné zmínit zejména známou anketu (viz modul 1.2). 5. V některých případech se v praxi reprezentativnost výběrového souboru zabezpečuje tak, že se na základě znalostí a úsudku vyberou ze základního souboru záměrně určité statistické jednotky, o nichž se předpokládá, že tento soubor nejlépe reprezentují. Jedná se o záměrný výběr. Je zřejmé, že při tomto výběru jsou nutné předběžné znalosti zkoumaného souboru. Při záměrném výběru nemůžeme využít teorii pravděpodobnosti a objektivně stanovit přesnost odhadů sestrojených na jeho základě. Pokud před výběrem určíme kritéria, podle kterých se mohou některé jednotky dostat do výběru a jiné ne, hovoříme o záměrném výběru Definice. Vedle prostého náhodného výběru se používají i složitější přístupy k náhodným výběrům: mechanický systematický výběr, oblastní stratifikovaný výběr, skupinový výběr, vícestupňový výběr. Mechanický (systematický) výběr je založen na předem daném uspořádání prvků populace (základního souboru). Do výběru zařadíme všechny prvky, které jsou od sebe vzdáleny o zvolený výběrový krok, přičemž první prvek vybereme prostým náhodným výběrem. Například ze seznamu zaměstnanců podniku seřazených podle abecedy použijeme výběrový krok dvacet. První jméno vylosujeme mezi prvními dvaceti jmény, např. dvanácté. Potom vytvoříme výběr, který bude tvořený zaměstnanci s pořadovými čísly 12, 32, 52, 72 atd. Při mechanickém výběru musíme dát pozor, aby uspořádání prvků nesouviselo se sledovaným znakem! Oblastní (stratifikovaný) výběr spočívá v tom, že sledovaná populace je rozdělena do dílčích oblastí. Oblasti jsou vytvořené tak, aby byly uvnitř homogenní (ve sledovaném znaku se příliš nelišily) a mezi sebou heterogenní (ve sledovaném znaku se naopak lišily). Při šetření prováděném na obyvatelstvu jsou oblasti vytvořené např. územními celky, věkovými skupinami nebo socioekonomickým statutem. Z každé oblasti potom vybereme vzorek metodou prostého náhodného výběru nebo mechanického výběru. Konečný výběrový soubor vytvoříme spojením vzorků ze všech oblastí. Skupinový výběr je vhodný pro velmi rozsáhlé základní soubory (statisíce nebo miliony osob). Vybírají se náhodně celé skupiny osob, které tvoří buď přirozené nebo umělé agregáty. Tyto skupiny mohou být malé i větší (rodina, škola, podnik,... ) nebo i značně rozsáhlé (obce, okresy). Je žádoucí, aby skupiny byly přibližně stejně velké a osoby uvnitř každé skupiny různorodé. Dále se požaduje, aby variabilita mezi skupinami byla co nejmenší (pravý opak k oblastnímu výběru). Po výběru skupin lze dále pokračovat dvojím způsobem: vyšetříme vyčerpávajícím způsobem všechny osoby vybraných skupin, nebo zvolíme metodu vícestupňového výběru.

68 68 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Vícestupňový výběr je založen na existenci určitého hierarchického popisu prvků základního souboru. K těmto prvkům se postupně dostáváme přes vyšší výběrové jednotky, například: okresy města sídliště domy domácnosti, nebo podniky závody dílny zaměstnanci, nebo města školy třídy žáci. Každá výběrová jednotka je tvořena skupinou výběrových jednotek nižšího řádu. Postupné výběry provádíme často metodou prostého náhodného výběru, lze však uplatnit i výběr mechanický nebo oblastní Úkoly a problémy k modulu Rektorát vysoké školy připravuje průzkum názorů studentů na kvalitu výuky. Počet všech studentů je 1850, velikost výběrového souboru se předpokládá přibližně 50. Navrhněte konstrukci výběrového souboru. 2. V lednu provedla dopravní policie rozsáhlou akci, při které se zjišťovalo, zda vozidla mají obuté zimní pneumatiky. Ze všech projíždějících automobilů se kontrole podrobilo každé desáté vozidlo. Celkem bylo kontrolováno 1463 vozidel, z nichž 97 nemělo zimní pneumatiky. a) Která množina aut tvoří základní a která výběrový soubor? b) Jaký podíl kontrolovaných vozidel neměl v pořádku pneumatiky? c) Jaký náhodný výběr zde byl provedený? d) Jakou pravděpodobnost mělo náhodně vybrané vozidlo, že bude kontrolované? 3. Ověřte, zda váš kapesní kalkulátor má funkci generování pseudonáhodných čísel. 4. Vysvětlete základní rozdíl mezi oblastním a skupinovým výběrem. Řešení. 1. Mechanický výběr s krokem 40 nebo oblastní výběr. 2. a) základní soubor všechna vozidla, výběrový soubor kontrolovaná vozidla; b) 6,63 %; c) mechanický, s krokem 10; d) 10%. 3. Generátor využívá funkci Ran# jedná se o náhodný výběr z rovnoměrného rozdělení na intervalu (0; 1). 3.2 Náhodný výběr a výběrové charakteristiky Při výkladu o metodách, používaných ve statistice k vyhodnocování výběrových dat, je vhodné vyjít od nejjednodušší varianty náhodného výběru, a tou je prostý náhodný výběr s opakováním. V dalším výkladu se omezíme jen na tuto variantu a pod pojmem náhodný výběr budeme rozumět prostý náhodný výběr s opakováním z konečného základního souboru nebo z nekonečného základního souboru, při kterém rozdíly mezi výběrem s opakováním a výběrem bez opakování mizí Poznámka. Náhodným výběrem o rozsahu n budeme tedy rozumět soubor n náhodně vybraných jednotek. Sledujeme-li určitý statistický znak X, pak získáme n

69 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 69 výběrových hodnot x 1, x 2,..., x n přičemž x 1 značí hodnotu znaku X u první vybrané jednotky, x 2 značí hodnotu znaku X u druhé vybrané jednotky atd. Vybíráme-li náhodně, potom závisí jen na náhodě, jaká hodnota znaku X bude výsledkem prvního, druhého či dalšího výběru jednotky. To ale znamená, že na výběrové hodnoty x 1, x 2,..., x n musíme nahlížet jako na hodnoty náhodných veličin X 1, X 2,..., X n. Často o výběrových hodnotách x 1, x 2,..., x n hovoříme jako o realizaci náhodného výběru. Provádíme-li výběr s opakováním, jsou tyto náhodné veličiny nezávislé a mají stejné rozdělení, jako sledovaná náhodná veličina X v základním souboru. Jinak řečeno: Pokud je sledovaný znak náhodnou veličinou X, která má rozdělení s distribuční funkcí F (x; τ), kde τ je parametr rozdělení, potom i každá z náhodných veličin X i, i = 1, 2,..., n, má rozdělení s distribuční funkcí F (x i ; τ). Přirozeně i charakteristiky (střední hodnota, rozptyl,... ) rozdělení náhodných veličin X i jsou stejné jako charakteristiky rozdělení veličiny X, tj. jako charakteristiky základního souboru Příklad. Mějme sledovaný kvantitativní znak X, který je náhodnou veličinou s normálním rozdělením N(µ, σ 2 ), kde µ = 15 a σ 2 = 4. Potom každá z náhodných veličin X i, která představuje hodnotu znaku X v i-tém výběru jednotky, má rozdělení N(µ, σ 2 ), kde µ = 15 a σ 2 = Poznámka. Vzhledem k tomu, že při náhodném výběru n jednotek získáme n výběrových hodnot x 1, x 2,..., x n, které jsou (při výběru s opakováním nebo při výběru z nekonečného základního souboru) hodnotami nezávislých a identicky rozdělených náhodných veličin X 1, X 2,..., X n, rozumí se náhodným výběrem o rozsahu n buď n- tice hodnot x 1, x 2,..., x n nebo v teoretických úvahách n-tice nezávislých a identicky rozdělených náhodných veličin X 1, X 2,..., X n. Výběrové charakteristiky - statistiky Pro řešení úloh matematické statistiky je třeba informace, které náhodný výběr obsahuje, shrnout pomocí číselných charakteristik. Jsou-li realizací náhodného výběru hodnoty x 1, x 2,..., x n nějakého kvantitativního znaku, můžeme z nich přirozeně takové charakteristiky vypočítat (viz kapitola 2 Popisná statistika). Přitom už víme, že při náhodném výběru jsou tyto výběrové hodnoty hodnotami náhodných veličin X 1, X 2,..., X n. To ale znamená, že charakteristiky vypočítané z výběrových hodnot jsou vlastně funkcí těchto náhodných veličin, a samy o sobě jsou také náhodnými veličinami.

70 70 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Definice. Nechť X 1, X 2,..., X n jsou nezávislé náhodné veličiny, které tvoří náhodný výběr. Potom funkce T n = T (X 1, X 2,..., X n ) = T (X) se nazývá výběrová charakteristika neboli statistika. Veličina X představuje vektor X = (X 1, X 2,..., X n ). Statistika T (X) závisí na neznámém parametru τ resp. na neznámých parametrech τ 1, τ 2,..., τ m Poznámka. Statistiky budeme používat při odhadování charakteristik nebo parametrů a při testování hypotéz o rozdělení sledované náhodné veličiny v základním souboru Definice. Nechť X 1, X 2,..., X n jsou nezávislé náhodné veličiny, které tvoří náhodný výběr. Potom často užívané výběrové charakteristiky statistiky jsou definované takto: výběrový průměr X = 1 n X i, má hodnotu x, n i=1 výběrový rozptyl S 2 = 1 n 1 n (X i X) 2, má hodnotu s 2, i=1 výběrový r-tý centrální M r = 1 n n (X i X) r, má hodnotu m r, i=1 výběrový 2. centrální moment M 2 = 1 n výběrový koeficient šikmosti A 3 = M 3 M 3/2 2 výběrový koeficient špičatosti A 4 = M 4 M 2 2 n (X i X) 2 = Sn, 2 má hodnotu m 2 = s 2 n, i=1, má hodnotu a 3, 3, má hodnotu a Poznámky. 1. K výběrovému rozptylu je přirozené definovat výběrovou směrodatnou odchylku S = = S Výběrový 2. centrální moment m 2 odpovídá v popisné statistice momentovému rozptylu s 2 n a pro výběrový rozptyl potom platí S 2 = n n 1 S2 n. 3. Dále si všimněme výběru z alternativního rozdělení (viz [Kříž 3], str. 73). Tímto rozdělením kvantifikujeme takové situace, kdy dvěma možným obměnám znaku přiřadíme číselné hodnoty 1 a 0 (např. odpověď na otázku: ano = 1, ne = 0). Statistický

71 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 71 znak potom představuje podíl úspěchů ve výběru. Potom také výběrovými hodnotami x 1, x 2,..., x n mohou být jen nuly a jedničky. Protože výběr je náhodný, bude počet jedniček m ve výběru hodnotou náhodné veličiny M, která se nazývá výběrovou absolutní četností. Podíl jedniček ve výběru p = m/n je pak hodnotou náhodné veličiny P = M N, která se nazývá výběrová relativní četnost nebo výběrový podíl. 3.3 Výběrová rozdělení Pod pojmem výběrové rozdělení rozumíme rozdělení náhodných veličin X 1, X 2,..., X n, jejichž hodnotami jsou výběrové hodnoty x 1, x 2,..., x n, a rozdělení funkcí těchto náhodných veličin. Mezi takové funkce patří také statistiky. K výběrovým rozdělením tedy náleží např. rozdělení výběrového průměru, rozdělení výběrového rozptylu a rozdělení výběrového podílu. Právě těmito třemi rozděleními se budeme v tomto modulu zabývat Poznámka. Výběrové rozdělení je rozdělení jako každé jiné, popisujeme jej tedy jak funkcemi, tak i charakteristikami. Dokonalý popis dostaneme, specifikujeme-li příslušnou distribuční funkci, další popis provádíme pomocí tzv. charakteristik výběrových rozdělení. Z těchto charakteristik nás budou zajímat zejména střední hodnota a rozptyl. Budeme-li např. uvažovat rozdělení výběrového průměru X, potom E(X) bude střední hodnota výběrového průměru a D(X) bude rozptyl výběrového průměru Věta. (Střední hodnota a rozptyl výběrového průměru) Předpokládejme náhodný výběr z konečného základního souboru s opakováním nebo z nekonečného základního souboru, v němž má kvantitativní znak rozdělení se střední hodnotou µ a rozptylem σ 2. Potom pro střední hodnotu výběrového průměru platí rozptyl výběrového průměru platí E(X) = µ, D(X) = σ2 n. Důkaz. Podle předpokladu pro náhodný výběr X 1, X 2,..., X n platí E(X i ) = µ a D(X i ) = = σ 2, i = 1, 2,..., n. Potom E(X) = E [ 1 n n i=1 X ] i = 1 n [E(X 1) + E(X 2 ) + + E(X n )] = 1 nnµ = µ, D(X) = D [ 1 n n i=1 X ] i = 1 [D(X n 2 1 ) + D(X 2 ) + + D(X n )] = 1 nσ 2 = σ2 n 2 n.

72 72 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Poznámka: Porovnejte tento výsledek s větou v 1. díle skripta [Kříž 3] a rozmyslete, v čem se obě věty liší Příklad. Sledovaný rozměr výrobků (X) má normální rozdělení se střední hodnotou µ = 140 mm a směrodatnou odchylkou σ = 1,5 mm. Náhodně vybereme 25 výrobků. Jaká je pravděpodobnost, že a) pro náhodnou veličinu X bude platit 139,5 < X < 140,5; b) pro výběrový průměr X bude platit 139,5 < X < 140,5? Obr. 3.1 Hustoty pravděpodobnosti náhodných veličin X a X Řešení. V tomto případě se jedná o náhodný výběr z nekonečného (a také hypotetického) základního souboru. Výběr každé jednotky (výrobku) je náhodným pokusem a výsledek tohoto pokusu je hodnotou náhodné veličiny X. Provedeme-li n nezávislých pokusů (vybereme nezávisle n výrobků), získáme hodnoty x 1, x 2,..., x n náhodných veličin X 1, X 2,..., X n, které jsou nezávislé a mají shodné rozdělení s rozdělením náhodné veličiny X, tedy normální rozdělení N(140; 2,25). Při výběru z nekonečného souboru není třeba rozlišovat výběr s opakováním a bez opakování. Z věty o normálním rozdělení (věta v 1. díle skripta [Kříž 3]) víme, že výběrový průměr má také normální rozdělení, a to s parametry E(X) = µ = 140 a D(X) = σ 2 /n = 2,25/25 = 0,09. a) Hledaná pravděpodobnost je ( ) 140,5 140 P (139,5 < X < 140,5) = F (140,5) F (139,5) = Φ 1,5 ( Φ 139, ,5 ) Φ(0,33) Φ( 0,33) = = 2 Φ(0,33) 1 = 2 0, = 0,259. b) Hledaná pravděpodobnost je ( ) 140,5 140 P (139,5 < X < 140,5) = F (140,5) F (139,5) = Φ 0,09 ( ) 139,5 140 Φ 0,09 Φ(1,67) Φ( 1,67) = = 2 Φ(1,67) 1 = 2 0, = 0,905.

73 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 73 Souvislost mezi hustotami pravděpodobností obou náhodných veličin je vidět na obrázku Věta. (Střední hodnota a rozptyl výběrového rozptylu) Předpokládejme náhodný výběr z konečného základního souboru s opakováním nebo z nekonečného základního souboru, v němž má kvantitativní znak rozdělení se střední hodnotou µ a rozptylem σ 2. Potom pro střední hodnotu výběrového rozptylu platí rozptyl výběrového rozptylu platí E(S 2 ) = σ 2, D(S 2 ) = µ 4 n n 3 n(n 1) σ4, kde µ 4 je 4. centrální moment a σ 2 je rozptyl náhodné veličiny X. Důkaz. Předně zde využijeme vlastnost rozptylu náhodné veličiny, viz definice v 1. díle skripta [Kříž 3]: D(X) = E(X 2 ) E [X] 2. Dále podle předpokladu pro náhodný výběr X 1, X 2,..., X n platí E(X i ) = µ a D(X i ) = σ 2, i = 1, 2,..., n, tedy D(X i ) = E(X 2 i ) E [X i ] 2 a odtud plyne E(X 2 i ) = D(X i ) + E [X i ] 2 = σ 2 + µ 2. Dále je zřejmé, že Sn 2 = 1 n n i=1 X2 i X2, tedy E(Sn) 2 = E ( 1 n ) n i=1 X2 2 i E(X ). První výraz na pravé straně vyjádříme ve tvaru ( ) ( 1 n n ) ( n ) E Xi 2 = 1 n n E Xi 2 = 1 E(Xi 2 ) = 1 n (σ 2 +µ 2 ) = 1 n n n n(σ2 +µ 2 ) = σ 2 +µ 2 i=1 i=1 a druhý výraz na pravé straně bude potom E(S 2 n) = E ( 1 n i=1 i=1 E(X 2 ) = D(X) + [ E(X) ] 2 = σ 2 n i=1 X 2 i ) n + µ2, E(X 2 ) = σ 2 + µ 2 σ2 n µ2 = n 1 n σ2. Pokud známe střední hodnotu rozptylu Sn 2, určíme střední hodnotu výběrového rozptylu S 2 už snadno: ( ) n E(S 2 ) = E n 1 S2 n = n n 1 E(S2 n) = n n 1 n 1 n σ2 = σ 2. Odvození rozptylu výběrového rozptylu S 2 je obtížnější, proto jej uvádíme bez důkazu.

74 74 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Věta. (Střední hodnota a rozptyl výběrového podílu) Předpokládejme náhodný výběr z konečného základního souboru s opakováním nebo z nekonečného základního souboru, v němž má náš sledovaný znak alternativní rozdělení A(π) se střední hodnotou π a rozptylem π(1 π). Potom pro střední hodnotu výběrového podílu platí rozptyl výběrového podílu E(P ) = π, D(P ) = π(1 π). n Důkaz. Protože výběrovými hodnotami x 1, x 2,..., x n jsou pouze nuly a jedničky, potom hodnotou výběrové absolutní četnosti je m = x 1 + x x n. Odtud plyne, že při výběru z alternativního rozdělení je výběrový úhrn roven výběrové absolutní četnosti, tj. X = M, a výběrový průměr je roven výběrovému podílu, tj. X = X n = M n = P. Vzhledem k tomu, že pro všechna i = 1, 2,..., n je E(X i ) = π a D(X i ) = π(1 π), dostaneme ( ) ( ) ( ) ( ) M X M X π(1 π) E(P ) = E = E = E(X) = π, D(P ) = D = D = D(X) =. n n n n n 3.4 Populace, výběr a statistické usuzování Množinou všech teoreticky možných objektů, které jsou předmětem našeho zájmu, např. osob, aut, výrobků, vzorků nápoje,..., je tzv. populace základní soubor. Ve skutečnosti ale předmětem našeho zájmu nejsou ony objekty jako takové, ale určitá jejich vlastnost. Tak například u všech studentů jedné vysoké školy se můžeme zajímat o hodnocení u maturitní zkoušky z češtiny, o měsíční příjem rodičů nebo o tělesnou výšku. Základní populací je reálná konečná množina studentů, u kterých se budeme zajímat o hodnocení z češtiny, o měsíční příjem rodičů nebo o tělesnou výšku. Ne vždy si ale můžeme populaci takto reálně představit, v mnoha situacích má populace hypotetickou podobu. Tak např. u osobních aut jedoucích po dálnici D1 ve směru z Vyškova do Brna v pátek odpoledne nás bude zajímat rychlost těchto aut. Do celého základního souboru potom zařadíme auta reálně jedoucí v jistém časovém intervalu, ale i auta, která by hypoteticky mohla teprve sledovaným místem projet. V tomto případě tedy máme co do činění se základním souborem, který má z části hypotetický charakter. Při výrobě polotučného mléka nás může zajímat např. skutečný obsah tuku v šaržích vyráběných stejnou technologií. Potom množina všech vzorků polotučného mléka, na kterých lze teoreticky provést měření obsahu tuku, tvoří hypotetický základní soubor.

75 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 75 Všechny objekty, které tvoří populaci základní soubor, jsou nám už známé statistické jednotky (u nás např. studenti, auta, vzorky mléka). V základním souboru nás zajímá určitá vlastnost všech statistických jednotek (u nás např. hodnocení studentů z češtiny, rychlost aut na dálnici, obsah tuku v mléku), která představuje náhodnou veličinu. Čistě populárně vzato náhodnou veličinou rozumíme veličinu, která nabývá svých hodnot v rámci jednotlivých pokusů náhodně (u nás např. jeden vybraný student maturoval z češtiny s hodnocením 2, jedno vybrané auto jelo rychlostí 137 km/hod., u vybraného vzorku polotučného mléka jsme zjistili 1,47 % tuku). Každé náhodné chování lze popsat pomocí funkcí (pravděpodobnostní funkce, funkce hustoty a distribuční funkce) a pomocí charakteristik (populačních parametrů např. střední hodnota, medián, modus, rozptyl, šikmost, špičatost,... ). Pokud se nám podaří kompletní popis provést, říkáme, že jsme formulovali pro sledovanou náhodnou veličinu teoretický model. Obr. 3.2 Způsob statistického usuzování V situacích reálného života však většinou teoretický model neznáme a jsme postaveni před úkol konkrétní vlastnosti náhodné veličiny odhadnout. Existuje totiž řada důvodů, pro které není možné jednotlivé vlastnosti náhodné veličiny jednotlivé součásti teoretického modelu určit. Tím nejvážnějším důvodem často bývá ta skutečnost, že část statistických jednotek reálně neexistuje, základní soubor je pouze hypotetický. Mezi další důvody patří např. to, že se provedeným měřením statistická jednotka znehodnotí, že prováděná měření jsou ekonomicky nebo časově náročná apod. Proto

76 76 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík používáme statistické šetření, opírající se jen o určitou podmnožinu těch statistických jednotek, které jsou předmětem našeho zájmu. Podmnožina základního souboru, která vzniká podle určitých pravidel na základě náhody, se nazývá náhodný výběr výběrový soubor. Např. náhodně vybereme 80 studentů z celkového počtu studentů jedné vysoké školy, změříme rychlost 50 jedoucích aut okolo kontrolního stanoviště nebo změříme obsah tuku u 20 vzorků polotučného mléka. Pomocí takového statistického výběru budeme potom činit závěry o celém základním souboru a budeme hovořit o statistickém odhadování. Na všech statistických jednotkách výběru provedeme měření nebo zjišťování hodnot sledovaného statistického znaku. Statistickým znakem rozumíme tu sledovanou vlastnost, která je předmětem našeho zájmu na vybraných statistických jednotkách. Výsledkem měření jsou tzv. data, která jsou zdrojem prvotních informací o sledované veličině. Pro zpracování dat využijeme jednoduché prostředky, zejména tabulky, grafy a numerické výpočty charakteristik. Souhrn těchto různých výstupů můžeme označit jako empirický model. Všechny jeho součásti nám jednak poskytují informace o našem konkrétním výběrovém souboru, ale hlavně slouží k odhadům svých protějšků v modelu teoretickém. Co je náhodná veličina pro základní soubor (populaci), to je statistický znak pro výběrový soubor. Potom co je parametr (např. střední hodnota) pro populaci, to je výběrová charakteristika (např. výběrový průměr) pro výběr. Postup je následující. Uvažujme nějakou sledovanou náhodnou veličinu u jedinců v populaci. Populační parametr sledované veličiny je číselná hodnota, která veličinu v určitém smyslu charakterizuje, vystihuje nějakou její vlastnost. Tento populační parametr má jistou pevnou číselnou hodnotu, ale v praktickém životě tuto hodnotu neznáme a nikdy znát nebudeme. Statistika nám však umožňuje odhadovat populační parametry pomocí tzv. výběrových statistik. Pokud se provede výběr z populace, potom pomocí naměřených dat se vypočítá výběrová statistika. Ta se potom použije, pokud splňuje jisté požadavky, jako odhad populačního parametru. Tak například chceme odhadnout průměrný obsah tuku v prodávaném polotučném mléku. Pokud užijeme náhodný výběr vzorků mléka, potom průměrná hodnota tuku v polotučném mléku ve výběru x = 1,51 % je dobrým odhadem parametru µ, tj. střední hodnoty obsahu tuku v celé výrobní šarži. Hovoříme o odhadu skutečného průměrného obsahu tuku v prodávaném mléku a tento odhad zapíšeme ˆµ = 1,51 %. Tato část statistiky, jak je zřejmé z příkladu, je založená na induktivním způsobu myšlení, kdy z konkrétního usuzujeme na obecné. Proces získávání závěrů o povaze celé populace pomocí výběru nazýváme ve statistice induktivní statistické usuzování. Tento proces je se všemi důležitými souvislostmi graficky znázorněn na obr V dalších dvou kapitolách se proto budeme zabývat třemi klíčovými částmi induktivní statistiky bodovými odhady, intervalovými odhady a testováním hypotéz.

77 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 77 4 ODHADY CHARAKTERISTIK ZÁKLADNÍHO SOUBORU V předchozí kapitole jsme se seznámili se základní filozofií statistiky. Připomeňme tedy, že hlavním cílem zůstává odhad vlastností a charakteristik základního souboru pomocí informací získaných na základě výběrového šetření. Jinými slovy úkolem výběrového šetření je podat informaci o neznámé hodnotě charakteristiky základního souboru či o parametrech rozdělení základního souboru na základě náhodného výběru. Charakteristiky základního souboru budeme nazývat parametry (příp. teoretické charakteristiky) a značit je řeckými písmeny (např. µ, σ 2,..., τ). Charakteristiky náhodného výběru, jak už víme, nazýváme výběrové charakteristiky nebo statistiky a značíme je latinskými písmeny (např. X, S 2,..., Q ). V této kapitole se zaměříme na bodové a intervalové odhady parametrů. Cílem kapitoly je: definovat bodový odhad parametrů a stanovit kritéria hodnocení jeho kvality, zavést pojem intervalový odhad parametrů a stanovit pravidla pro konstrukci takového odhadu, odvodit a interpretovat intervalové odhady parametrů, ukázat výpočet odhadů parametrů pomocí aplikace STAT Bodové odhady parametrů Odhady parametrů, jimiž se nyní budeme zabývat, se nazývají bodové proto, že pro danou realizaci náhodného výběru X 1,..., X n představuje odhad daný statistikou T n = = T (X 1, X 2,..., X n ) = T (X) jediné číslo (bod), které je v jistém pravděpodobnostním smyslu přiblížením ke skutečné hodnotě parametru Definice. Bodovým odhadem parametru τ rozumíme statistiku T n, jejíž hodnoty kolísají kolem τ. V praxi potom odhadem parametru τ rozumíme jediné číslo, které je pozorovanou hodnotou statistiky T n ; píšeme τ = T n nebo est τ = T n a čteme: odhadem (estimátorem) parametru τ je statistika T n Poznámky. 1. Parametrem τ zde rozumíme zcela obecně jisté charakteristiky základního sou-

78 78 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík boru (např. E(X), α 3 (X),... ) nebo přímo parametry jistého konkrétního rozdělení (např. µ, σ 2, π, λ,... ). Potom odhady všech těchto parametrů zapíšeme ve tvaru est E(X),..., µ, σ 2, π, λ, Při bodovém odhadu hledáme takovou statistiku, která co nejlépe aproximuje (přibližně nahrazuje) skutečnou hodnotu parametru výběrovou charakteristikou a poskytuje tak nejkvalitnější odhad. Zmíněnou kvalitu bodových odhadů nyní posoudíme pomocí nestrannosti, vydatnosti, konzistence, přesnosti Definice. Statistiku T n nazveme nestranným odhadem parametru τ, jestliže pro každou hodnotu parametru τ platí E(T n ) = τ. Rozdíl E(T n ) τ = B(T n, τ) se nazývá vychýlení odhadu T n Poznámka. Nestrannost vyjadřuje skutečnost, že použitý bodový odhad skutečnou hodnotu charakteristiky ani nenadhodnocuje ani nepodhodnocuje Příklad. Nechť X 1,..., X n je náhodný výběr rozsahu n z rozdělení, které má střední hodnotu E(X) = µ a konečný rozptyl D(X) = σ 2. Ověřte, zda a) výběrový průměr X je nestranným odhadem střední hodnoty µ, b) výběrový rozptyl S 2 a základní rozptyl S 2 n jsou nestrannými odhady rozptylu σ 2. Řešení. a) Z definice náhodného výběru plyne E(X) = E ( 1 n ) ( n n ) X i = 1 n E X i = 1 n i=1 i=1 n E(X i ) = 1 n i=1 n µ = 1 n nµ = µ i=1 a tedy výběrový průměr X je nestranným odhadem střední hodnoty µ, tj. µ = x. b) V předchozí kapitole bylo odvozeno E(S 2 ) = σ 2 a E(Sn) 2 = n 1 n σ2. Proto výběrový rozptyl S 2 je nestranným odhadem rozptylu σ 2 a naopak základní rozptyl Sn 2 není nestranným odhadem rozptylu σ 2. Některé odhady jsou sice zkreslené (tj. nejsou nestranné), ale s rostoucím rozsahem výběru se jejich zkreslení zmenšuje. Takové odhady jsou tedy asymptoticky stejně kvalitní jako odhady nestranné.

79 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Definice. Statistiku T n nazveme asymptoticky nestranným odhadem parametru τ, jestliže pro každou hodnotu parametru τ platí lim E(T n) = τ. n Poznámky. 1. Z nestrannosti odhadu T n vyplývá i jeho asymptotická nestrannost, neboť zřejmě lim E(T n) = lim τ = τ. n n 2. Základní rozptyl S 2 n není nestranným odhadem rozptylu σ 2 (viz 4.1.5), ale je asymptoticky nestranným odhadem σ 2, neboť platí n 1 lim n E(S2 n) = lim n n σ2 = σ 2. V mnoha obvyklých situacích může nastat případ, že budeme mít k dispozici více nestranných odhadů. Potom dáme zřejmě přednost statistice, která má nejmenší rozptyl Definice. Jsou-li T n a T n nestranné odhady téhož parametru τ, řekneme, že T n je lepší nestranný odhad než T n, právě když platí D(T n ) < D(T n). Statistiku T n, která má ze všech možných statistik daného typu poskytujících nestranný odhad parametru τ nejmenší rozptyl, budeme nazývat nejlepším nestranným odhadem parametru τ Poznámka. Například pro náhodný výběr X 1,..., X n z Poissonova rozdělení P o(λ) lze nalézt dva nestranné odhady parametru λ: λ = x resp. λ = s 2, protože platí: E(X) = µ = λ a E(S 2 ) = σ 2 = λ. Navíc lze ukázat, že pro rozptyly obou odhadů platí D(X) < D(S 2 ), a proto je také lepším nestranným odhadem parametru λ odhad λ = x. Jestliže se s rostoucím rozsahem výběru zvětšuje pravděpodobnost, že bodový odhad T n bude blízký hodnotě parametru τ, hovoříme o tzv. konzistentním bodovém odhadu.

80 80 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Definice. Statistiku T n nazveme konzistentním odhadem parametru τ, jestliže pro každé ε > 0 platí lim P ( T n τ < ε) = 1. n Poznámka. (Postačující podmínka konzistence) Je-li T n nestranný odhad nebo alespoň asymptoticky nestranný odhad parametru τ, a rozptyl tohoto odhadu konverguje k nule, potom odhad T n je konzistentní. Prakticky tedy postačí ověřit, zda jsou splněny podmínky lim E(T n) = τ n a lim n D(T n ) = Příklad. Nechť X 1,..., X n je náhodný výběr rozsahu n z libovolného rozdělení, které má střední hodnotu E(X) = µ a konečný rozptyl D(X) = σ 2. Ověřte, zda výběrový průměr X je konzistentním odhadem střední hodnoty µ. Řešení. Dle poznámky ověříme 1) lim E(X) = lim µ = µ, neboť v příkladě bylo odvozeno, že odhad µ = x je n n nestranný a tedy i asymtoticky nestranný (viz poznámka 4.1.7), σ 2) lim D(X) = lim 2 = 0, n n n a proto výběrový průměr X je konzistentním odhadem střední hodnoty µ. Použijeme-li statistiku T n k odhadu parametru τ, tj. T n = τ, potom přesnost tohoto odhadu posuzujeme nejčastěji pomocí střední kvadratické chyby MSE 4 kde T n τ je výběrová chyba. Platí rozklad MSE(T n ) = E [ (T n τ) 2], (4.1) MSE(T n ) = E [ (T n τ) 2] = D(T n ) + B 2 (T n, τ), (4.2) kde čtverec vychýlení odhadu B 2 (T n, τ) vyjadřuje případnou systematickou chybu odhadu. Náhodná složka chyby je vyjádřena rozptylem D(T n ) použité statistiky. Je-li T n nestranným odhadem parametru τ, tj. E(T n ) = τ, potom B 2 (T n, τ) = 0 a platí, že střední kvadratická chyba je rovna přímo rozptylu statistiky T n, tj. MSE(T n ) = = D(T n ). Směrodatná odchylka statistiky T n je potom tzv. směrodatná (střední) chyba odhadu SE 5 SE(T n ) = MSE(T n ) = D(T n ) = σ(t n ). (4.3) Směrodatná chyba odhadu neudává velikost výběrové chyby T n τ při odhadu na základě jednoho výběru, ale charakterizuje, jaká je průměrná výběrová chyba odhadů při všech možných výběrech ze základního souboru (za dodržení stejných podmínek). 4 MSE z angl. mean square error 5 SE z angl. standard error

81 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Poznámka. Nechť X 1,..., X n je náhodný výběr rozsahu n z libovolného rozdělení, které má střední hodnotu E(X) = µ a konečný rozptyl D(X) = σ 2. Pro střední hodnotu µ platí, že odhad µ = X je nestranný, proto podle (4.3) je směrodatná chyba odhadu rovna směrodatné odchylce výběrového průměru, tj. SE(X) = σ(x) = σ n. Protože D(X) = σ neznáme, použijeme odhad σ = S a směrodatnou chybu odhadneme pomocí výběrové směrodatné chyby ŜE(X) = σ n = S n. (4.4) Poznámka. Doposud jsme náhodný výběr značili jako množinu náhodných veličin X 1,..., X n a hodnoty náhodného výběru jako hodnoty těchto veličin x 1,..., x n. Bez újmy na obecnosti budeme dále používat jistého zjednodušení ve vyjádření náhodného výběru v podobě x 1,..., x n Příklad. Uvnitř tanku T 72 byla sledována teplota vzduchu. Při cvičení byly naměřeny v 10 tancích následující hodnoty (ve C): 25,4 28,0 20,1 27,4 25,6 23,9 24,8 26,4 27,0 25,4. Určete a) bodový odhad střední hodnoty a směrodatné odchylky teploty vzduchu v tancích T 72, b) směrodatnou chybu odhadu střední hodnoty. Řešení. Náhodnou veličinu teplota vzduchu v tancích T 72 označme X. Nejprve určíme ty charakteristiky, které budeme potřebovat: n = 10, x = 25,4 a s = 2,238. a) Bodovým odhadem střední hodnoty teploty vzduchu je výběrový průměr a platí µ = x = 25,4. Podobně směrodatnou odchylku teploty vzduchu odhadneme pomocí výběrové směrodatné odchylky, tj. σ = s = 2,238. b) Pro odhad směrodatné chyby odhadu střední hodnoty platí ŜE(x) = σ n = s n = 2, = 0,708. To tedy znamená, že odhadem µ = 25,400 C průměrné teploty v tanku T 72 se dopouštíme v průměru chyby ±0,708. Řešení v aplikaci STAT1. V pracovním sešitu otevřeme list popisné charakteristiky a vybereme proměnnou tank. Na listu Popisné charakteristiky nalezneme všechny potřebné výstupy (viz obr. 4.1).

82 82 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Obr. 4.1 Popisné charakteristiky v pracovním sešitu STAT Úkoly a problémy k modulu Nezávisle opakovaná laboratorní měření určité konstanty µ jsou charakterizována náhodným výběrem x 1,..., x n, E(x i ) = µ, D(x i ) = σ 2, i = 1,..., n. Uvažme statistiky M n = 1 n n i=1 x i a L n = x 1 + x n. 2 a) Ověřte, zda M n a L n jsou nestranné odhady konstanty µ. b) Zjistěte, který z těchto dvou odhadů je lepší. c) Ověřte, zda M n a L n jsou asymptoticky nestranné odhady konstanty µ. d) Ověřte, zda L n je konzistentním odhadem konstanty µ. 2. V rámci pluku bylo vybráno 20 tankových osádek, u kterých se měřila rychlost nastoupení do tanků (v s): 10,5 10,8 11,2 10,9 10,4 10,6 10,9 11,0 10,3 10,8 10,6 11,3 10,5 10,7 10,8 10,9 10,9 10,8 10,7 11,0. a) Bodově odhadněte střední hodnotu a rozptyl doby potřebné k nastoupení osádky do tanku u celého pluku. b) Určete směrodatnou chybu odhadu střední hodnoty. 3. U nového typu stroje se zjišťoval čas potřebný na vykonání pracovní operace. Výsledky měření jsou uvedeny v tabulce. Určete bodový odhad střední hodnoty a směrodatné odchylky délky pracovní operace. čas (s) počet Náhodný výběr z normálního rozdělení má rozsah n = 200, výběrový průměr x = = 7,03 a 200 (x i x) 2 = 796. Určete výběrovou směrodatnou odchylku a bodový i=1 odhad střední hodnoty a rozptylu základního souboru.

83 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 83 Řešení. 1. a) ano; b) pro n 3 je M n lepší; c) ano; d) ne; 2. a) 10,780; 0,064 b) 0,056; 3. 33,060; 1,063; 4. 2; 7,03; 3,98. Další úlohy na procvičování: [Budíková]: str , odstavce 13.2, [Kříž 1]: str , [Karpíšek]: str , odstavce Intervalové odhady parametrů Bodové odhady, jimiž jsme se dosud zabývali, představují odhady vyjádřené jediným číslem. Nyní půjde o to sestrojit na základě daného náhodného výběru takový interval, jehož konce jsou statistiky, a který s předem zvolenou pravděpodobností pokryje skutečnou hodnotu parametru τ. V tomto případě mluvíme o intervalovém odhadu parametru τ. Příbuzná úloha je stanovit na základě náhodného výběru statistiku, o níž lze s dostatečně velkou pravděpodobností prohlásit, že skutečná hodnota parametru τ je větší než tato statistika. V tomto případě mluvíme o tzv. dolním odhadu parametru τ. Analogicky zavedeme pojem horního odhadu Definice. Nechť x 1, x 2,..., x n je náhodný výběr z rozdělení s hustotou pravděpodobnosti f(x, τ). Jsou-li T d (x 1, x 2,..., x n ) a T h (x 1, x 2,..., x n ) statistiky, pro něž platí P (T d < τ < T h ) = 1 α, (4.5) potom interval (T d, T h ) se nazývá 100(1 α)% interval spolehlivosti pro parametr τ. Číslo 1 α je koeficient spolehlivosti (spolehlivost), číslo α nazýváme riziko odhadu. Jestliže pro interval spolehlivosti odpovídající rovnici (4.5) platí P (τ T d ) = α 2, P (τ T h) = α 2, (4.6) pak interval (T d, T h ) nazýváme 100(1 α)% oboustranným intervalem spolehlivosti.

84 84 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík α/2 1 α α/2 T d τ T h Obr. 4.2 Oboustranný interval spolehlivosti (T d, T h ) pro parametr τ při zvoleném riziku α Někdy je důležité odhadnout neznámý parametr pouze shora (tzv. horní odhad) nebo pouze zdola (tzv. dolní odhad). Pak použijeme jednostranné intervaly spolehlivosti. Platí-li P (τ < T h ) = 1 α, P (τ T h ) = α, (4.7) pak interval (, T h ) nazýváme 100(1 α)% pravostranným intervalem spolehlivosti a statistiku T h nazýváme horním odhadem parametru τ se spolehlivostí 1 α (nebo rizikem α). 1 α α τ T h Obr. 4.3 Pravostranný interval spolehlivosti (, T h ) pro parametr τ při zvoleném riziku α Platí-li P (τ > T d ) = 1 α, P (τ T d ) = α, (4.8) pak interval (T d, ) nazýváme 100(1 α)% levostranným intervalem spolehlivosti a statistiku T d nazýváme dolním odhadem parametru τ se spolehlivostí 1 α (nebo rizikem α). α T d 1 α τ Obr. 4.4 Levostranný interval spolehlivosti (T d, ) pro parametr τ při zvoleném riziku α

85 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Poznámky. 1. Volba spolehlivosti 1 α je ovlivněna dvěma protichůdnými požadavky: jednak aby byla dosažena co největší spolehlivost odhadu, avšak také dostatečná přesnost. V praxi se nejčastěji používá hodnota α = 0,05 a α = 0, Zvýšení spolehlivosti 1 α, tedy snížení rizika α, vede při zachování rozsahu výběru n k rozšíření intervalu spolehlivosti (viz dále poznámka 4.3.5). 3. Zmenšit šířku intervalu spolehlivosti lze: snížením spolehlivosti, což má za následek také zvýšení přesnosti odhadu, zvýšením rozsahu výběru n, ovšem s ohledem na to, že velikost intervalu spolehlivosti se zmenší úměrně n. 4. Při srovnání bodového a intervalového odhadu je zřejmé, že bodový odhad má spolehlivost nulovou (pro spojité rozdělení pravděpodobností) anebo často zanedbatelnou (pro diskrétní rozdělení pravděpodobností). Proto intervalové odhady poskytují významně dokonalejší pohled na vlastnosti pozorované náhodné veličiny než odhady bodové. 4.3 Intervalové odhady parametrů normálního rozdělení Už víme, že normální rozdělení N(µ, σ 2 ) náhodné veličiny X má dva parametry, střední hodnotu µ a rozptyl σ 2. Z modulu 4.1 plyne, že nejlepším bodovým odhadem střední hodnoty µ sledované veličiny je výběrový průměr x a nejlepším bodovým odhadem rozptylu σ 2 je výběrový rozptyl s 2. Nyní zkonstruujeme intervalové odhady obou těchto parametrů. Nechť x 1, x 2,..., x n je náhodný výběr rozsahu n z normálního rozdělení N(µ, σ 2 ), x jeho výběrový průměr a s 2 jeho výběrový rozptyl. Při konstrukci intervalu spolehlivosti pro neznámý parametr µ budeme předpokládat, že neznáme ani rozptyl σ 2. Vyjdeme z věty o normálním rozdělení (viz S 3762, věta 5.4.7) a použijeme statistiku t = x µ n, s která má Studentovo t-rozdělení s n 1 stupni volnosti; píšeme t(n 1) Věta. Pro riziko odhadu α (0, 1) je a) 100(1 α)% oboustranný interval spolehlivosti pro střední hodnotu µ tvaru ( x t 1 α/2 (n 1) s ; x + t 1 α/2 (n 1) s ), n n kde t 1 α/2 (n 1) značí 100(1 α/2)% kvantil Studentova rozdělení s n 1 stupni volnosti.

86 86 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík b) Podobně 100(1 α)% pravostranný interval spolehlivosti pro střední hodnotu µ je tvaru ( ; x + t 1 α (n 1) s ), n c) 100(1 α)% levostranný interval spolehlivosti pro střední hodnotu µ je tvaru ( x t 1 α (n 1) s ) ;, n kde t 1 α (n 1) značí 100(1 α)% kvantil Studentova rozdělení s n 1 stupni volnosti. Důkaz. Vyjdeme z věty o normálním rozdělení a použijeme statistiku t = x µ n t(n 1). s a) Oboustranný interval spolehlivosti pro střední hodnotu µ odvodíme z vlastností Studentova t-rozdělení: pro kvantily t α/2 (n 1) a t 1 α/2 (n 1) zřejmě platí (viz obrázek 4.5) 1 α = P ( t α/2 (n 1) < t < t 1 α/2 (n 1) ) = ( = P = P = P t 1 α/2 (n 1) < x µ s ) n < t1 α/2 (n 1) = ( t 1 α/2 (n 1) s n < x µ < t 1 α/2 (n 1) s n ) = ( x t 1 α/2 (n 1) s < µ < x + t n 1 α/2 (n 1) s ). n b) Podobně odvodíme pravostranný interval spolehlivosti: pro kvantil t α (n 1) totiž platí ( ) x µ 1 α = P (t > t α (n 1)) = P n > tα (n 1) = s c) Analogicky. = P = P ( x µ > t 1 α (n 1) s ) ( = P µ > x t 1 α (n 1) s ) = n n ( µ < x + t 1 α (n 1) s ). n

87 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 87 Obr. 4.5 Konstrukce 100(1 α)% oboustranného intervalu spolehlivosti pro µ Poznámky. 1. Výraz t 1 α/2 (n 1) s n resp. t 1 α (n 1) s n se nazývá přípustná chyba oboustranného resp. jednostranného intervalového odhadu parametru µ a značíme ji. 2. Souvislost přípustné chyby s odhadem směrodatné chyby SE(X) (viz poznámka ) je vidět na tomto schématu, např. pro dolní odhad: Obr. 4.6 Souvislost přípustné a výběrové směrodatné chyby. Odtud je také zřejmé, že pro větší spolehlivost 1 α má interval spolehlivosti tendenci se rozšiřovat, a pro větší rozsah náhodného výběru n naopak zužovat Příklad. Při zjišťování spotřeby benzinu určitého typu automobilu při rychlosti 90 km za hodinu byly u 20 náhodně vybraných automobilů zjištěny tyto hodnoty (v l/100 km): 6,5 6,8 6,7 6,0 5,6 6,6 5,5 6,4 5,5 6,5 6,3 6,2 6,3 5,9 5,8 6,4 6,5 6,3 5,7 6,1 Předpokládejme, že spotřeba benzinu je náhodná veličina s normálním rozdělením.

88 88 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík a) Odhadněte průměrnou spotřebu benzinu u sledovaného typu automobilu a dané rychlosti, a určete směrodatnou chybu tohoto odhadu. b) Určete, v jakých mezích lze se spolehlivostí 95 % očekávat průměrnou spotřebu benzinu u tohoto typu automobilu. c) S 95% spolehlivostí určete průměrnou spotřebu benzinu, která nebude překročená. Řešení. Náhodnou veličinu spotřeba benzinu označme X. Z výběrového souboru nejprve určíme výběrový průměr x = 6,180 a výběrovou směrodatnou odchylku s = = 0,399. a) Bodovým odhadem střední hodnoty spotřeby benzinu je výběrový průměr a platí µ = x = 6,180. Pro odhad směrodatné chyby odhadu střední hodnoty platí ŜE(x) = σ n = s n = 0, = 0,089. To tedy znamená, že odhad průměrné spotřeby benzinu u sledovaného typu automobilu a dané rychlosti je na základě našeho náhodného výběru 6,180 l/100 km. Při tomto odhadu se dopouštíme v průměru chyby ±0,089. b) Stanovení mezí, v jakých se bude s danou spolehlivostí pohybovat průměrná spotřeba benzinu, znamená určení oboustranného intervalu spolehlivosti pro střední hodnotu µ naší náhodné veličiny. Při konstrukci intervalu spolehlivosti vyjdeme z předpokladu, že náhodná veličina X má normální rozdělení. Podle použijeme vztah x t 1 α/2 (n 1) s < µ < x + t 1 α/2 (n 1) s. n n Protože α = 0,05 a rozsah náhodného výběru je n = 20, zapíšeme interval ve tvaru x t 0,975 (19) s n < µ < x + t 0,975 (19) s n a po dosazení výběrových charakteristik a kvantilu t 0,975 (19) = 2,093 dostaneme 6,180 2,093 0, < µ < 6, ,093 0,399 20, 5,993 < µ < 6,367. Se spolehlivostí 95 % lze tedy průměrnou spotřebu benzinu u tohoto typu automobilu očekávat v intervalu (5,993; 6,367). c) V praktických aplikacích se budeme muset rozhodovat, jaký interval bude odpovídat našemu problému. Charakter otázky (jaká průměrná spotřeba nebude překročená) směřuje ke konstrukci pravostranného intervalu spolehlivosti pro parametr µ. Podle použijeme pravostranný interval µ < x + t 1 α (n 1) s n.

89 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 89 S ohledem na požadovanou spolehlivost ponecháme riziko odhadu α = 0,05. Po dosazení výběrových charakteristik a kvantilu t 0,95 (19) = 1,729 dostaneme µ < x + t 0,95 (19) s n, µ < 6, ,729 0,399 20, µ < 6,334. S 95% spolehlivostí u sledovaného typu automobilu při rychlosti 90 km/hod. nepřekročí průměrná spotřeba benzinu 6,334 l na 100 km. Řešení v Excelu. Pro určení intervalových odhadů střední hodnoty µ normálního rozdělení náhodné veličiny X lze použít analytický nástroj Popisná statistika v Excelu 2003: Nástroje/Analýza dat/popisná statistika resp. 2007: Data/Analýza dat/popisná statistika(viz obr. 4.7). V otevřeném okně zadáme adresu datové oblasti a určíme umístění výstupní oblasti. Z možností výstupu zatrhneme postupně položky Celkový přehled, Hladina spolehlivosti pro střední hodnotu a do políčka vepíšeme spolehlivost 1 α. Výsledkem je velikost přípustné chyby, pojmenované poněkud nešťastně Hladina významnosti, pomocí které stanovíme hranice intervalu ve tvaru x a x +. Obr. 4.7 Okno Popisná statistika

90 90 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Obr. 4.8 Výstupní matice a) První výsledná položka v matici (viz obr. 4.8) je střední hodnota 6,18; ve skutečnosti se jedná o výběrový průměr! Proto pro bodový odhad střední hodnoty µ platí: µ = x = 6,18 a odhad stední chyby je ŜE(x). = 0,0893. b) Protože α = 0,05, potom pro oboustranný interval spolehlivosti parametru µ zadáme spolehlivost 1 α = 95 % (viz obr. 4.8) a hranice intervalu vypočítáme přímo z rovnic µ = x ± = 6,18 ± 0,187, odkud µ (5,993; 6,367). c) Protože nástroj Popisná statistika poskytuje přípustnou chybu pro oboustranný interval spolehlivosti, potom pro horní odhad parametru µ musíme zadat spolehlivost 1 α = 90 % (viz obr. 4.8) a hranici intervalu vypočítáme přímo z nerovnice µ < x + = 6,18 + 0,154, tedy µ < 6,334. Řešení v aplikaci STAT1. V aplikaci otevřeme list 1V normální a vybereme proměnnou benzin. Na listu Výběr z normálního rozdělení vložíme α = 0,05 a nalezneme všechny potřebné výstupy, v našem případě v části 1 bodové odhady a v části 3 intervalové odhady parametru µ (viz obr. 4.9).

91 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 91 Obr. 4.9 Intervalové odhady střední hodnoty v pracovním sešitu STAT 1 Na výstupu jsou vidět výsledky úloh: a) µ = 1,180; ŜE(x) = 0,089, b) 5,993 < µ < 6,367, c) µ < 6, Příklad. U 50 chemických analýz na ověření koncentrace určité chemické látky v jednom typu roztoku jsme dostali tyto výsledky (v %): % počet Určete intervalový odhad střední (tedy průměrné) koncentrace látky v roztoku s rizikem odhadu α, je-li: a) α = 0,1, b) α = 0,05, c) α = 0,01. Řešení. Náhodnou veličinu koncentrace látky v roztoku označme X. Dále budeme předpokládat, že náhodná veličina X má normální rozdělení s neznámými parametry µ a σ 2. Oboustranný interval spolehlivosti pro střední hodnotu µ naší náhodné veličiny X je podle x t 1 α/2 (n 1) s n < µ < x + t 1 α/2 (n 1) s n. Z výběrového souboru o rozsahu n = 50 nejprve určíme výběrový průměr x = 41,9 a výběrovou směrodatnou odchylku s = 1,488. Dosazením výběrových charakteristik a příslušných kvantilů dostáváme v závislosti na zvoleném riziku odhadu α:

92 92 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík a) Pro α = 0,1 a t 0,95 (49) = 1,677 dostaneme x t 0,95 (49) s n < µ < x + t 0,95 (49) s n 41,9 1,677 1, < µ < 41,9 + 1,677 1,488 50, 41,547 < µ < 42,253. S 90% spolehlivostí lze tvrdit, že střední koncentraci látky v roztoku lze očekávat v intervalu (41,547; 42,253). Šířka tohoto intervalu odpovídá dvojnásobné přípustné chybě 2 = 0,706. b) Pro α = 0,05 a t 0,975 (49) = 2,010 dostaneme x t 0,975 (49) s n < µ < x + t 0,975 (49) s n 41,9 2,010 1, < µ < 41,9 + 2,010 1,488 50, 41,477 < µ < 42, % interval spolehlivosti pro průměrnou koncentraci látky v roztoku je (41,477; 42,323). Šířka tohoto intervalu odpovídá dvojnásobné přípustné chybě 2 = 0,846. c) Pro α = 0,01 a t 0,995 (49) = 2,680 dostaneme x t 0,995 (49) s n < µ < x + t 0,995 (49) s n 41,9 2,680 1, < µ < 41,9 + 2,680 1,488 50, 41,336 < µ < 42,464. Podobně s pravděpodobností 99 % bude střední koncentrace látky v roztoku ležet v intervalu (49,072; 50,394). Šířka tohoto intervalu odpovídá dvojnásobné přípustné chybě 2 = 1,128. α = 0,05 α = 0,1 41,336 41,477 41,547 42,253 42,323 42,464 α = 0,01 Obr Šířka intervalu spolehlivosti v závislosti na zvoleném riziku α

93 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Poznámka. Předchozí příklad (viz obrázek 4.10) dokumentuje skutečnost, že s rostoucím rizikem α klesá šířka intervalu spolehlivosti. Jinak řečeno, s rostoucí spolehlivostí 1 α roste i šířka intervalu spolehlivosti. Odvození uvedené vlastnosti ponecháme na čtenáři, neboť plyne přímo z tvrzení a vlastností kvantilů Studentova t-rozdělení. Při konstrukci intervalu spolehlivosti pro neznámý parametr σ 2 budeme opět vycházet z toho, že střední hodnotu µ neznáme. Východiskem je opět věta o normálním rozdělení (viz S 3762, věta 5.4.7) a používá se statistika χ 2 = (n 1)s2 σ 2, která má Pearsonovo χ 2 -rozdělení s n 1 stupni volnosti; píšeme χ 2 (n 1) Věta. Pro riziko odhadu α (0, 1) je a) 100(1 α)% oboustranný interval spolehlivosti pro rozptyl σ 2 tvaru ( ) (n 1)s 2 (n 1)s 2 χ 2 1 α/2 (n 1);, (n 1) χ 2 α/2 kde χ 2 1 α/2 (n 1) resp. χ2 α/2 (n 1) značí 100(1 α/2)% resp. 100α/2% kvantil Pearsonova rozdělení s n 1 stupni volnosti. b) Dále 100(1 α)% pravostranný interval spolehlivosti pro rozptyl σ 2 je tvaru ( 0; ) (n 1)s 2, χ 2 α(n 1) kde χ 2 α(n 1) značí 100α% kvantil Pearsonova rozdělení s n 1 stupni volnosti, c) podobně 100(1 α)% levostranný interval spolehlivosti pro rozptyl σ 2 je tvaru ( ) (n 1)s 2 χ 2 1 α(n 1) ;, kde χ 2 1 α(n 1) značí 100(1 α)% kvantil Pearsonova rozdělení s n 1 stupni volnosti. Důkaz. Vyjdeme z věty o normálním rozdělení a použijeme statistiku χ 2 = (n 1)s2 σ 2 χ 2 (n 1).

94 94 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Obr Konstrukce 100(1 α)% oboustranného intervalu spolehlivosti pro σ 2 a) Oboustranný interval spolehlivosti pro rozptyl σ 2 odvodíme z vlastností Pearsonova χ 2 -rozdělení: pro kvantily χ 2 1 α/2 (n 1) a χ2 α/2 (n 1) totiž platí (viz obrázek 4.11) ) 1 α = P (χ 2 α/2 (n 1) < χ2 < χ 2 1 α/2 (n 1) = = P ) 2α/2 (n 1)s2 (χ (n 1) < σ 2 < χ 2 1 α/2 (n 1) = ( ) χ 2 α/2 (n 1) = P (n 1)s 2 < 1 σ 2 < χ2 1 α/2 (n 1) (n 1)s 2 = ( (n 1)s 2 = P χ 2 1 α/2 (n 1) < σ2 < ) (n 1)s2. (n 1) χ 2 α/2 b) Podobně odvodíme pravostranný interval spolehlivosti: pro kvantil χ 2 α(n 1) platí 1 α = P ( χ 2 > χ 2 α(n 1) ) ( ) (n 1)s 2 = P σ 2 > χ 2 α(n 1) = = P ( ) 1 σ 2 > χ2 α(n 1) (n 1)s 2 = P (σ 2 < ) (n 1)s2 χ 2. α(n 1) Poznámka. Intervalové odhady pro směrodatnou odchylku σ získáme odmocněním hranic intervalů spolehlivosti pro rozptyl σ 2. Pozornost je třeba věnovat jednotkám,

95 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 95 v jakých se oba parametry vyjadřují: rozptyl je vždy vyjádřen ve čtvercích jednotek měřeného znaku, směrodatná odchylka v jednotkách původních Příklad. Výrobce určitého zboží jej dodává odběratelům v balíčcích o předepsané hmotnosti 250 g. Za účelem posouzení přesnosti balícího automatu bylo náhodně vybráno 15 balíčků a zjištěna jejich hmotnost (v g): Na základě provedeného měření posuďte, zda balící automat provádí balení dostatečně přesně, tj. zda variabilita hmotnosti balíčků vyjádřená směrodatnou odchylkou nepřekračuje 15 g (předem stanovená hodnota). Předpokládejme, že hmotnost balíčků je náhodná veličina s normálním rozdělením N(µ, σ 2 ). Řešení. Přesnost určitého procesu se statisticky posuzuje vždy pomocí variability sledované veličiny. V našem případě se má posoudit přesnost balícího automatu, a to pomocí směrodatné odchylky, která nemá být větší, než stanovená hodnota (15 g). Odtud je zřejmé, že naším úkolem je stanovit pravostranný intervalový odhad směrodatné odchylky σ. Z výběrového souboru o rozsahu n = 15 určíme nejprve výběrový rozptyl s 2 = = 150,838. Pro pravostranný odhad rozptylu σ 2 použijeme dle vztah σ 2 < (n 1)s2 χ 2 α(n 1). Protože spolehlivost odhadu není předem stanovená, zvolíme sami riziko omylu α = = 0,05 a zapíšeme interval spolehlivosti ve tvaru σ 2 < (n 1) s2 χ 2 0,05(14). Pro rozsah souboru n = 15 je χ 2 0,05(14) = 6,57 (z tabulek), tedy σ 2 < ,838, 6,57 Po odmocnění dostaneme σ 2 < 321,420. σ < 17, % interval spolehlivosti pro rozptyl σ 2 tedy je (0; 321,420) a pro směrodatnou odchylku platí σ (0; 17,928). Z praktického pohledu je však důležitější, že norma stanovená pro posouzení přesnosti balícího automatu (hodnota 15 g) leží uvnitř tohoto intervalu, což znamená, že s 95% spolehlivostí automat balení dostatečně přesně neprovádí. Řešení v aplikaci STAT1. V pracovním sešitu otevřeme list 1V normální a vybereme proměnnou automat. Na listu Výběr z normálního rozdělení nalezneme

96 96 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík všechny potřebné výstupy, v našem případě v části 5 a 6 intervalové odhady rozptylu σ 2 a směrodatné odchylky σ (viz obr. 4.12). Obr Intervalové odhady rozptylu a směrodatné odchylky v pracovním sešitu STAT 1 Na výstupu je vidět výsledek: σ < 17,927. Rozdíl oproti předcházejícímu výsledku ( 0,001) je způsobený zaokrouhlením výběrového rozptylu při ručním výpočtu Příklad. Při konstrukci nosníků posuzujeme kvalitu použité technologie mimo jiné na základě variability pevnosti vyjádřené směrodatnou odchylkou. Předpokládáme, že pevnost nosníků má normální rozdělení s neznámými parametry µ a σ 2. Na základě n nezávislých opakovaných měření se má stanovit hodnota směrodatné odchylky σ, která bude s rizikem α = 0,05 překročena. Jestliže výběrová směrodatná odchylka nabyla hodnoty s = 107,5 (v N), určete příslušný interval spolehlivosti pro rozsahy náhodného výběru: a) n = 8, b) n = 16, c) n = 30. Řešení. Náhodnou veličinu pevnost nosníku označme X. Ze zadání úlohy plyne, že hledáme levostranný interval spolehlivosti pro rozptyl σ 2 a následně odtud pro směrodatnou odchylku σ, který je podle roven σ 2 > (n 1)s2 χ 2 1 α(n 1), resp. σ > (n 1)s 2 χ 2 1 α(n 1). Dosazením výběrové směrodatné odchylky a příslušných kvantilů dostáváme v závislosti na rozsahu výběru n: a) Pro n = 8, χ 2 0,95(7) = 14,067 dostaneme σ > (n 1)s 2 χ 2 0,95(7) = 7 107,5 2 14,067. = 75,833. Se spolehlivostí 95 % lze tvrdit, že směrodatná odchylka překročí hodnotu 75,833.

97 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 97 b) Pro n = 16, χ 2 0,95(15) = 24,996 dostaneme σ > (n 1)s 2 χ 2 0,95(15) = ,5 2 24,996. = 83, % levostranný interval spolehlivosti pro směrodatnou odchylku je (83,276; ). c) Pro n = 30, χ 2 0,95(29) = 42,557 dostaneme σ > (n 1)s 2 χ 2 0,95(29) = ,5 2 42,557. = 88,741. Dolní interval spolehlivosti pro směrodatnou odchylku je při riziku 0,05 roven (88,741; ). n = 16 n = 30 75,833 83,276 88,741 n = 8 Obr Šířka intervalu spolehlivosti v závislosti na rozsahu výběru Poznámka. Srovnáním výsledků v předchozím příkladě (viz obrázek 4.13) dojdeme k závěru, že s rostoucím rozsahem výběru klesá šířka intervalu spolehlivosti. Jinak řečeno, s rostoucím rozsahem výběru obdržíme přesnější intervalové odhady parametrů. Exaktní odvození uvedené vlastnosti ponecháme opět na čtenáři, neboť plyne z tvrzení a vlastností kvantilů Pearsonova χ 2 -rozdělení Úkoly a problémy k modulu Analogicky jako v b) odvoďte levostranný interval spolehlivosti pro střední hodnotu µ. Návod: použijte kvantil t 1 α (n 1). 2. Analogicky jako v b) odvoďte levostranný interval spolehlivosti pro rozptyl σ 2. Návod: použijte kvantil χ 2 1 α(n 1). 3. Jaký vliv má změna spolehlivosti na velikost intervalového odhadu při zachování rozsahu náhodného výběru? 4. Jaký vliv má změna rozsahu náhodného výběru na velikost intervalového odhadu při zachování jeho spolehlivosti?

98 98 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 5. Určete oboustranný intervalový odhad průměrné spotřeby benzinu (podle příkladu 4.3.3) pro n = 10, 20 a 30, pokud budete uvažovat výběrový průměr x = 6,180 a výběrovou směrodatnou odchylku s = 0,399. Co to bude znamenat pro šířku intervalu? 6. Při 15 zkouškách sportovního letadla byly naměřené tyto hodnoty jeho maximální rychlosti (v m/s): 42,2 41,8 42,5 42,0 42,5 42,3 43,1 42,8 43,8 43,4 41,1 41,7 41,3 44,1 42,3. Předpokládejte, že maximální rychlost letadla má normální rozdělení. Určete a) bodový odhad střední hodnoty a směrodatné odchylky maximální rychlosti letadla, b) směrodatnou chybu odhadu střední hodnoty a vysvětlete, co znamená, c) oboustranný 95% interval spolehlivosti pro střední hodnotu. 7. Zjišťování sklizňových ztrát u obilí se provádí výběrovým způsobem. Prvky výběrového souboru jsou plochy o výměře 1 m 2, na nichž se sbírají nesklizená zrna a zjišťuje se jejich hmotnost. Na 12 takových plochách jsme zjistili tyto ztráty (v g): 8,2 11,1 13,0 11,5 10,5 10,5 8,3 11,2 13,7 10,6 12,8 10,6. Předpokládejte, že sklizňové ztráty mají normální rozdělení. Určete a) odhad průměrných ztrát na 1 m 2 a stanovte přesnost tohoto odhadu, b) mez, o které můžete s 95% pravděpodobností prohlásit, že ji průměrné ztráty na 1 m 2 nepřekročily, c) bodový odhad rozptylu, směrodatné odchylky a oboustranný 95% interval spolehlivosti pro směrodatnou odchylku, d) odhad pravděpodobnosti, že ztráty na jednom vybraném m 2 nebudou větší než 13 g. 8. Ze série 1000 kusů výrobků bylo vybráno 140 kusů ke kontrolnímu měření délky výrobku. Výsledky jsou uvedené v tabulce (v mm): rozměr počet Předpokládejte, že délka výrobku je náhodná veličina s normálním rozdělením. Určete: a) odhad průměrné délky výrobku v celé sérii a stanovte přesnost tohoto odhadu, b) interval, ve kterém se s 99% spolehlivostí nachází průměrná délka všech výrobků v sérii a stanovte přesnost tohoto odhadu, c) přesnost frézování pomocí bodového odhadu a 99% intervalového odhadu rozptylu délky výrobku, d) mez přesnosti v mm, která s pravděpodobností 0,95 už nebude překročena a vysvětlete její praktický význam.

99 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Z denní produkce pekaře bylo vybráno 45 kusů pletýnek o jmenovité hmotnosti 80 g ke kontrolnímu vážení. Z výsledků byl vypočten výběrový průměr 80,332 a výběrová směrodatná odchylka 1,718. Předpokládejte, že hmotnost pletýnek je náhodná veličina s normálním rozdělením. Určete: a) průměrnou hmotnost pletýnek v celé produkci a stanovte přesnost tohoto odhadu, b) rozptyl hmotnosti pletýnek v celé produkci (v jakých jednotkách?), c) s 95% spolehlivostí průměrnou hmotnost pletýnek pomocí intervalu spolehlivosti a odpovězte na otázku, zda lze považovat odchylku výběrového průměru od normy 80 g za náhodnou nebo je důvod k podezření na odchylku od této normy. 10. Bylo zkoušeno 100 náhodně vybraných ocelových tyček na meze průtažnosti daného druhu oceli. Zpracováním výsledků byly určeny empirické charakteristiky x = = 286,4 Nmm 2 a s 2 = 119,79 N 2 mm 4. Určete bodové a intervalové odhady parametrů µ a σ se spolehlivostí 0,99 za předpokladu, že sledovaná náhodná veličina má normální rozdělení. Řešení. 5. a) 5,894 6,466; b) 5,993 6,367; c) 6,031 6,329; 6. a) 42,46; 0,863; b) 0,223; c) 41,982 42,938; 7. a) 11; 0,483; b) 11,867; c) 2,798; 1,673; 1,185 2,840; d) 0,885; 8. a) 40,4; 0,132; b) 40,060 40,740; 0,340; c) 2,443;1,839 3,432; d) 1,738; 9. a) 80,332; 0,256; b) 2,952; c) 79,816 80,848, odchylka od normy je náhodná; 10. µ = 286,4 Nmm 2 ; σ = 10,945 Nmm 2 ; 283, ,275; 9,237 13,353. Další úlohy na procvičování: [Budíková]: str , odstavec 13.4, [Kříž 1]: str , [Karpíšek]: str , odstavec Intervalový odhad střední hodnoty pro výběry velkého rozsahu V předchozím paragrafu jsme odvodili intervalové odhady parametrů normálního rozdělení. Nyní se zaměříme na situaci, kdy náhodný výběr x 1, x 2,..., x n nebude nutně pocházet z normálního rozdělení, ale bude dostatečně velkého rozsahu. Nechť x 1, x 2,..., x n je náhodný výběr rozsahu n z libovolného rozdělení se střední hodnotou µ a konečným rozptylem σ 2. Při konstrukci intervalu spolehlivosti pro neznámý parametr µ vyjdeme z centrální limitní věty (viz S 3762, věta 5.3.7). Budeme předpokládat, že n (tj. dostatečně velké n, v praxi požadujeme alespoň n > 30,

100 100 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík při výraznější asymetrii sledovaného znaku raději n > 100), a použijeme statistiku která má asymptoticky rozdělení N(0, 1). u = x µ n, s Věta. Pro riziko odhadu α (0, 1) je a) 100(1 α)% oboustranný interval spolehlivosti pro střední hodnotu µ tvaru ( ) s s x u 1 α/2 ; x + u 1 α/2, n n kde u 1 α/2 značí 100(1 α/2)% kvantil normovaného normálního rozdělení N(0, 1). b) Podobně 100(1 α)% pravostranný interval spolehlivosti pro střední hodnotu µ je tvaru ( ) s ; x + u 1 α, n c) 100(1 α)% levostranný interval spolehlivosti pro střední hodnotu µ je tvaru ( ) s x u 1 α ;, n kde u 1 α značí 100(1 α)% kvantil normovaného normálního rozdělení N(0, 1). Důkaz. Vyjdeme z centrální limitní věty, a použijeme statistiku u = x µ n N(0, 1). s a) Oboustranný interval spolehlivosti pro střední hodnotu µ odvodíme z vlastností normovaného normálního rozdělení N(0, 1): pro kvantily u α/2 a u 1 α/2 totiž platí (viz obrázek 4.14) 1 α = P ( u α/2 < u < u 1 α/2 ) = ( = P u 1 α/2 < x µ ) n < u1 α/2 = s ( = P u 1 α/2 ) s s < x µ < u n 1 α/2 = n ( ) s s = P x u 1 α/2 < µ < x + u n 1 α/2. n

101 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 101 b) Podobně odvodíme pravostranný interval spolehlivosti: pro kvantil u α totiž platí ( ) x µ 1 α = P (u > u α ) = P n > uα = s ( ) s = P x µ > u 1 α = P n = P ( ) s µ < x + u 1 α. n ( µ > x u 1 α s n ) = Obr Konstrukce 100(1 α)% oboustranného intervalu spolehlivosti pro µ Příklad. Z provozních důvodů sledujeme dobu životnosti žárovek od určitého dodavatele. Údaje o jejich životnosti (v hodinách) jsou uvedeny v následující tabulce: a) Na základě náhodného výběru 50 kusů odhadněte střední dobu životnosti žárovek.

102 102 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík b) Odhadněte přesnost tohoto bodového odhadu. c) Sestrojte 95% interval spolehlivosti pro střední dobu životnosti. d) Určete a interpretujte přípustnou chybu tohoto odhadu. e) Pomocí jednostranného intervalu spolehlivosti určete dolní mez pro střední dobu životnosti takovou, aby pravděpodobnost jejího překročení byla 0,95. Řešení. Nejprve určíme výběrové charakteristiky x = 997,08, s = 104,709 a n = 50. a) Životnost žárovek považujme za náhodnou veličinu X, jejíž rozdělení neznáme a počet měření je dostatečně velký. Střední hodnotu E(X) = µ chceme na základě náhodného výběru odhadnout. Z modulu 4.1 víme, že bodovým odhadem střední hodnoty µ je výběrový průměr X, zapíšeme µ = x. Tedy odhad průměrné životnosti žárovek je µ = x = 997,08. b) Přesnost bodového odhadu µ = x odhadneme pomocí výběrové směrodatné chyby tohoto odhadu ŜE(x) = s = 104,709. = 14,808. n 50 V průměru se dopouštíme chyby ±14,808, když tvrdíme, že průměrná životnost je 997,08 hodin. c) 95% interval spolehlivosti znamená, že odhadovaný parametr E(X) = µ bude pokryt tímto intervalem s rizikem odhadu α = 0,05. Pro oboustranný interval spolehlivosti platí podle věty s s x u 0,975 < µ < x + u 0,975, n n 997,080 1, , < µ < 997, , ,709 50, 968,056 < µ < 1026,104. S pravděpodobností 0,95 lze očekávat, že průměrná životnost žárovek bude ležet v intervalu (968,056; 1026,104). d) Přípustná chyba odhadu parametru E(X) = µ sledované náhodné veličiny je rovna s = u 0,975 = 1, ,709 = 29,024. n 50 Hodnota 29,024 tedy říká, že s pravděpodobností 0,95 můžeme očekávat maximální možnou chybu odhadu ±29,024, když tvrdíme, že střední doba životnosti žárovek se nachází v intervalu (968,056; 1026,104). e) Jde o jednostranný interval spolehlivosti, pro který má podle zadání platit P (X > X d ) = 0,95

103 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 103 a tedy podle věty µ > x u 0,95 s n, µ > 997,080 1, ,709 50, µ > 972,721. S 95% spolehlivostí průměrná životnost žárovek překročí 972,721 hodin. Řešení v aplikaci STAT1. V pracovním sešitu otevřeme list 1V libovolné a vybereme proměnnou žárovky. Na listu Výběr z libovolného rozdělení nalezneme všechny potřebné výstupy, v našem případě v části 1 a 3 bodové odhady parametrů a intervalové odhady pro střední hodnotu (viz obr. 4.15). Obr Intervalové odhady střední hodnoty v pracovním sešitu STAT 1 Rozdíl oproti předcházejícím výsledkům je způsobený zaokrouhlováním při ručním výpočtu. Stanovení rozsahu výběru Jak velký rozsah výběru n stanovit, abychom s dostatečně vysokou spolehlivostí 1 α mohli tvrdit, že odchylka výběrového průměru x od střední hodnoty µ základního souboru nepřekročí stanovenou hodnotu přípustné chyby, se snadno odvodí

104 104 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík z pravděpodobnosti (viz věta 4.4.1): ( ) s s 1 α = P x u 1 α/2 < µ < x + u 1 α/2 = n n = P (x < µ < x + ) = P ( < x µ < ) = = P ( x µ < ). Odtud plyne u 1 α/2 s < n a tedy hledaná podmínka je s 2 n > u 2 1 α/2. (4.9) Poznámky. 1. Pokud je známo, že daný náhodný výběr pochází z normálního rozdělení a známe také rozptyl σ 2 tohoto rozdělení, nahradíme v nerovnosti (4.9) hodnotu s 2 známou hodnotou σ Nemáme-li žádné předběžné měření k dispozici (tj. neznáme ani s 2 ), potom se doporučuje provést tzv. předvýběr výběr o malém rozsahu n a na jeho základě spočítat výběrový rozptyl s 2. Za předpokladu normálního rozdělení lze potom stanovit rozsah n > t 2 1 α/2(n 1) s 2 2. Pokud nelze předpokládat normalitu dat, použijeme místo kvantilu t 1 α/2 (n 1) Studentova rozdělení opět kvantil u 1 α/2 rozdělení N(0, 1) Příklad. Navážeme na příklad Chceme zjistit, kolik žárovek musíme vybrat, abychom odhad střední doby životnosti provedli s 95% spolehlivostí, jestliže jsme ochotni připustit maximální možnou chybu ve výši ±35 hodin. Řešení. Pro určení minimálního rozsahu výběru lze použít vztah (4.9), neboť náhodný výběr 50 žárovek lze považovat za předvýběr, na jehož základě jsme získali výběrovou směrodatnou odchylku s = 104,709. Tedy s 2 n > u 2 0,975, 2 n > 1, , = 34,383. K zajištění požadované přesnosti a spolehlivosti by stačilo provést šetření v souboru o rozsahu n = 35. Řešení v aplikaci STAT1. V pracovním sešitu otevřeme list 1V libovolné a vybereme proměnnou žárovky. Na listu Výběr z libovolného rozdělení nalezneme všechny potřebné výstupy, v našem případě v části 2 velikost výběru (viz obr. 4.15).

105 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Úkoly a problémy k modulu Analogicky jako v b) odvoďte levostranný interval spolehlivosti pro střední hodnotu µ. Návod: použijte kvantil u 1 α. 2. Úlohu /9 c) řešte aniž předpokládáte normální rozdělení příslušné náhodné veličiny. Oba výsledky porovnejte a zdůvodněte. 3. Úlohu /10 řešte pouze pro parametr µ aniž předpokládáte normální rozdělení příslušné náhodné veličiny. Oba výsledky porovnejte a zdůvodněte. 4. Ve zkušebně bylo vyšetřeno 100 betonových kvádrů pro stanovení jejich pevnosti v tlaku. Na základě výsledků měření byly stanoveny výběrové charakteristiky x = = 250,2 a s = 11,74 MPa. Se spolehlivostí 99 % určete a) přípustnou chybu odhadu parametru µ, b) kolik měření musíme provést, aby přípustná chyba nepřesáhla hodnotu 2,8? 5. Nechť x 1,..., x n je náhodný výběr z rozdělení N(µ; 0,04). Jaký musí být nejmenší počet měření, aby šířka intervalu spolehlivosti pro neznámou střední hodnotu µ nepřesáhla číslo 0,16? Úlohu řešte pro a) riziko α = 0,05, b) riziko α = 0,01. Řešení ,830 80,834, odchylka od normy je náhodná; 3. µ = 286,4 Nmm 2 ; 283, ,219; 4. a) 3,024; b) 117; 5. a) 25; b) 42. Další úlohy na procvičování: [Kříž 1]: str Intervalový odhad parametru alternativního rozdělení Dále se zaměříme na odhad parametru alternativního rozdělení A(π). Budeme tedy předpokládat, že pozorovaná náhodná veličina X má alternativní rozdělení pravděpodobnosti s parametrem π, tedy ekvivalentně řečeno binomické rozdělení B(1, π). Při hledání odhadu π jde vlastně o odhad velikosti podílu (části) prvků základního souboru majících sledovanou vlastnost. Připomeňme, že náhodná veličina X A(π) nabývá hodnot 1, resp. 0, v závislosti na tom, zda daný prvek má, resp. nemá, sledovanou vlastnost. Nechť x 1, x 2,..., x n je náhodný výběr rozsahu n z alternativního rozdělení A(π). Lze ukázat (viz modul 4.1), že nejlepším nestranným bodovým odhadem parametru π

106 106 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík je statistika π = p = 1 n n x i, přičemž statistika np = n x i, má zřejmě binomické rozdělení B(n, π). Při konstrukci i=1 intervalu spolehlivosti pro neznámý parametr π vyjdeme z Moivre-Laplaceovy věty pro podíl (viz S 3762, věta 5.3.3) a použijeme statistiku u = i=1 p π π(1 π) n, (4.10) která má pro dostatečně velká n přibližně normální rozdělení N(0, 1). Za dostatečně velká n se v tomto případě považují n > 9/π(1 π) Věta. Pro riziko odhadu α (0, 1) je a) 100(1 α)% oboustranný interval spolehlivosti pro parametr π tvaru ( ) p(1 p) p(1 p) p u 1 α/2 ; p + u 1 α/2, n n kde u 1 α/2 značí 100(1 α/2)% kvantil normovaného normálního rozdělení N(0, 1). b) Podobně 100(1 α)% pravostranný interval spolehlivosti pro parametr π je tvaru ( ) p(1 p) 0; p + u 1 α, n c) 100(1 α)% levostranný interval spolehlivosti pro parametr π je tvaru ( ) p(1 p) p u 1 α ;, n kde u 1 α značí 100(1 α)% kvantil normovaného normálního rozdělení N(0, 1). Důkaz. Vyjdeme z Moivre-Laplaceovy věty pro podíl a použijeme statistiku u = p π π(1 π) n N(0, 1). V dalších úvahách nahradíme ve výrazu pod odmocninou parametr π jeho odhadem p.

107 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 107 a) Oboustranný interval spolehlivosti pro střední hodnotu π pak odvodíme z vlastností N(0, 1) rozdělení: pro kvantily u α/2 a u 1 α/2 totiž platí 1 α = P ( u α/2 < u < u 1 α/2 ) = = P = P = P ( ( ( u 1 α/2 < u 1 α/2 p(1 p) n p u 1 α/2 p(1 p) n p π p(1 p) n < u1 α/2 ) = ) p(1 p) < p π < u 1 α/2 = n ) p(1 p) < π < p + u 1 α/2. n b) Podobně odvodíme pravostranný interval spolehlivosti: pro kvantil u α totiž platí ( ) p π 1 α = P (u > u α ) = P n > uα = p(1 p) = P = P ( ( p π > u 1 α p(1 p) n π < p + u 1 α p(1 p) n ) ). = P ( π > p u 1 α p(1 p) n ) = Poznámka. Odhad parametru π tedy slouží jako odhad podílu prvků základního souboru majících sledovanou vlastnost Příklad. Při výrobě určitých výrobků jsme dosud používali některé komponenty dovážené z jisté země. Obchod s touto zemí se ale velmi zkomplikoval a my jsme byli nuceni změnit dodavatele. Zajímá nás, zda změnou dodavatele nedošlo i ke změně kvality našich výrobků. Zatímco dříve bylo mezi našimi výrobky v průměru 5 % zmetků, zjistila výstupní kontrola mezi 250 nově vyrobenými výrobky 16 nevyhovujících. Na základě 99% intervalu spolehlivosti rozhodněte, zda došlo ke změně kvality výrobků. Řešení. Nejprve vypočteme bodový odhad π = p = = 0,064. Vzhledem k tomu, že provádíme náhodný výběr velkého rozsahu, tj. ( 16 np(1 p) = ) = 14,976 > 9, 250

108 108 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík má statistika (4.10) asymptoticky normované normální rozdělení. Vzorec pro oboustranný interval spolehlivosti pro relativní četnost má podle věty tvar p(1 p) p(1 p) p u 0,995 < π < p + u 0,995, n n 0,064 0,936 0,064 0,936 0,064 2,576 < π < 0, ,576, ,024 < π < 0,104. Interval spolehlivosti obsahuje hodnotu původního podílu zmetků 0,05 a dá se tedy s 99% spolehlivostí předpokládat, že změna dodavatele neměla za následek změnu kvality zmíněných výrobků Příklad. Při průzkumu zájmu o nový výrobek odpovědělo ze 400 dotázaných zákazníků určitého supermarketu kladně na otázku, zda si nový výrobek koupí, 80 zákazníků. Určete bodový i intervalový odhad podílu těchto zákazníků ze základního souboru všech zákazníků daného supermarketu. Řešení. Bodovým odhadem relativní četnosti zákazníků, kteří hodlají zakoupit nový výrobek, je π = p = 80 = 0,2, tedy přibližně 20 % všech zákazníků supermarketu si 400 chce koupit nový výrobek. Se spolehlivostí 1 α = 0,95 dostáváme podle věty intervalový odhad ,960 p(1 p) p(1 p) p u 0,975 < π < p + u 0,975, n n 80 (1 ) < π < , ,161 < π < 0, ( Pro spolehlivost 0,99 obdržíme analogickým způsobem intervalový odhad 0,149 < π < < 0,252. Se spolehlivostí 0,95, resp. 0,99, si nový výrobek koupí přibližně 16 až 24 %, resp. 15 až 25 %, všech zákazníků supermarketu. ), Úkoly a problémy k modulu Analogicky jako v odvoďte levostranný interval spolehlivosti pro parametr π. Návod: použijte kvantil u 1 α. 2. Při kontrole záručních listů určitého druhu masové konzervy ve skladu produktů masného průmyslu bylo náhodně vybráno 320 konzerv a zjištěno, že 59 jich má prošlou záruční lhůtu. Stanovte bodový odhad a s 95% spolehlivostí také intervalový odhad procentuálního podílu konzerv s prošlou záruční lhůtou ve skladech dané firmy. Odhadněte bodově i intervalově počet N konzerv s prošlou záruční lhůtou u dané firmy se skladem obsahujícím celkem konzerv daného druhu.

109 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík V náhodném výběru pneumatik vyráběných velkou evropskou nadnárodní společností 10 % pneumatik nevyhovuje novým požadavkům. Sestrojte 95% interval spolehlivosti pro podíl pneumatik, které v celé populaci pneumatik nevyhovují dané normě, jestliže rozsah výběru n je a) 100, b) 400, c) Řešení ,4 %; 14,2 22,6 %; N = 3680; N (2840, 4520); 3. a) 0,041 0,159; b) 0,071 0,129; c) 0,085 0,115. Další úlohy na procvičování: [Kříž 1]: str. 88, [Karpíšek]: str , odstavec 7.3.

110 110 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 4.6 Shrnutí 4. kapitoly Klíčová slova: bodový odhad, nestranný odhad, asymptoticky nestranný odhad, nejlepší nestranný odhad, konzistentní odhad, střední kvadratická chyba odhadu, směrodatná chyba odhadu, interval spolehlivosti, spolehlivost a riziko odhadu, oboustranný a jednostranný interval spolehlivosti, přípustná chyba odhadu Základní úlohy: Posouzení kvality a výpočet bodového odhadu. Posouzení kvality a konstrukce intervalového odhadu. Intervalový odhad parametrů normálního rozdělení. Intervalový odhad střední hodnoty pro výběry velkého rozsahu. Stanovení rozsahu výběru. Intervalový odhad parametru alternativního rozdělení. Doporučená literatura pro hlubší studium: [Budíková]: str , odstavce , [Cyhelský]: str , odstavce , [Hindls]: str , odstavec 4.2, [Karpíšek]: str , odstavce [Kříž 2]: str Test ke kapitole 4 A. Teoretická část 1. Rozhodněte, která tvrzení jsou pravdivá: a) Každý vydatný odhad daného parametru je také asymptoticky nestraným odhadem tohoto parametru. b) Rozptyl konzistentního odhadu je roven nule. c) Vychýlení asymptoticky nestranného odhadu je rovno nule. d) Součet spolehlivosti a rizika je u každého intervalu spolehlivosti roven 1. e) Zvýšení rizika vede při zachování rozsahu výběru k rozšíření intervalu spolehlivosti. f) Přípustná chyba vyjadřuje chybu daného bodového odhadu.

111 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 111 B. Praktická část 1. Nechť X 1,..., X n je náhodný výběr rozsahu n > 3 z rozdělení, které má střední hodnotu E(X) = µ a konečný rozptyl D(X) = σ 2. Uvažme statistiky A n = 1 n 2 n x i a B n = 1 n 1 x i. n 2 i=1 i=2 a) Ověřte, zda A n a B n jsou nestranné odhady parametru µ. b) Zjistěte, který z těchto dvou odhadů má menší rozptyl. c) Ověřte, zda A n a B n jsou asymptoticky nestranné odhady konstanty µ. d) Ověřte, zda A n a B n jsou konzistentní odhady konstanty µ. 2. V jisté nemocnici bylo náhodně vybráno 50 novorozenců, u nichž byla, mimo jiné, sledována porodní hmotnost (v gramech) a věk matky (v letech) narozeného dítěte. Na základě tohoto náhodného výběru byla spočtena průměrná hmotnost novorozence 3496,08 g a směrodatná odchylka hmotnosti 502,688 g. Podobně průměrný věk matky 25,38 let a směrodatná odchylka věku 4,522 let. Určete a) 95% interval spolehlivosti pro hmotnost novorozenců, b) s 95% spolehlivostí dolní hranici pro stření hodnotu věku matky. 3. Potřebujeme zjistit, kolik absolventek střední zdravotnické školy bychom museli nejméně vybrat, abychom získali odhad jejich nástupní mzdy s maximální možnou chybou ve výši ±200 Kč. Odhad přitom chceme provést s 90% spolehlivostí. Vycházíme z předpokladu, že v základním souboru je směrodatná odchylka mezd ve výši 995 Kč. 4. Při výrobě elektronických disků se kontroluje jejich tloušťka. Náhodně bylo vybráno 20 disků a byla změřena jejich tloušťka (v 0,01 mm): Předpokládejte, že sledovaná veličina má normální rozdělení. a) Určete bodový odhad střední hodnoty a směrodatné odchylky tloušťky disků. b) Určete přesnost (směrodatnou chybu) odhadu střední hodnoty. c) Sestrojte 95% interval spolehlivosti pro střední hodnotu tloušťky disků. d) Sestrojte 95% interval spolehlivosti pro směrodatnou odchylku tloušťky disků. 5. Na sídlišti, kde žije 6000 dospělých obyvatel, bylo náhodně rozdáno 320 anketních lístků s jedinou otázkou: Jakmile bude na sídlišti postaveno nové kino, budete jej pravidelně navštěvovat?. Kladnou odpověď na danou otázku poskytlo celkem 16 osob. a) Se spolehlivostí 90 % odhadněte, s jakým zájmem o prvidelné návštěvy kina můžeme v budoucnu počítat? b) Se spolehlivostí 90 % vypočtěte, kolik míst by mělo kino nejméně mít, aby byl uspokojen zájem všech pravidelných návštěvníků.

112 112 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Řešení. A. 1. a) pravda; b) nepravda; c) nepravda; d) pravda; e) nepravda; f) nepravda. B. 1. a) pouze B n ; b) A n ; c) pouze B n ; d) pouze B n ; 2. a) 3356, ,415; b) 24,328; 3. 67; 4. a) 10,15 a 2,681; b) 0,59945; c) 8,895 11,405; d) 2,039 3,916; 5. a) ; b) 396.

113 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ Vedle bodového a intervalového odhadu, s nimiž jsme se seznámili v předchozí kapitole, existuje testování hypotéz jako další, pravděpodobně nejčastější způsob statistické indukce. Při sledování náhodných veličin jsme často nuceni ověřit určité předpoklady či domněnky o jejich vlastnostech pomocí pozorovaných hodnot. Jedná se např. o rozhodnutí, zda nová technologie, seřízení stroje, reklama, změna financování, řízení společnosti apod. vedly ke změně ve sledovaných parametrech výrobku, obratu, zisku apod., anebo zda jakost dodávky výrobků či surovin má dohodnutou úroveň. Jinými slovy cílem této kapitoly je statisticky ohodnotit platnost takto formulovaných tvrzení a to s předem zvolenou přesností. Cílem kapitoly je: definovat pojem statistické hypotézy a popsat princip jejího testování, popsat možné varianty testování hypotéz, odvodit a interpretovat testy hypotéz o parametrech rozdělení náhodné veličiny, odvodit a interpretovat testy hypotéz o rozdělení základního souboru, ukázat testování hypotéz pomocí aplikace STAT Pojem hypotézy a podstata testování hypotéz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (např. µ, σ 2, σ, π, λ, E(X), D(X),... ) nebo tvrzení o tvaru rozdělení této náhodné veličiny (např. normální,... ). Postup, jímž ověřujeme danou hypotézu, se nazývá test statistické hypotézy (viz definice 5.1.4) Poznámka. Předpokládejme, že je potřeba rozhodnout, zda např. střední hodnota daného základního souboru µ je rovna určité konkrétní hodnotě µ 0. Tímto jsme vyslovili hypotézu o parametru základního souboru. Na základě vyčerpávajícího šetření celého základního souboru by bylo možné bezpečně rozhodnout o správnosti či nesprávnosti této hypotézy. Takové vyčerpávající šetření je většinou neekonomické nebo technicky neproveditelné, proto podrobíme šetření jen určitou část základního souboru, provedeme tedy náhodný výběr a pro rozhodnutí o správnosti vyslovené hypotézy použijeme výběrový soubor (viz modul 3.1). Vypočteme-li ze získaných hodnot náhodného výběru x 1, x 2,..., x n statistiku T n, která je např. nestranným a konzistentním odhadem parametru µ (tj. T n = µ), zpravidla se zjistí, že hodnota µ se liší od µ 0 a stojíme před otázkou, zda odchylka bodového odhadu µ od µ 0 je způsobena náhodným kolísáním statistiky T n, či zda je způsobena tím, že µ 0 se skutečně liší od µ.

114 114 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Definice. Předpoklad, který vyslovíme o určitém parametru či tvaru rozdělení základního souboru, nazýváme nulová hypotéza a značíme H. Naopak tvrzení, které popírá vlastnost vyslovenou v nulové hypotéze, nazýváme alternativní hypotéza a značíme A Poznámka. Například nulovou hypotézu o konkrétní střední hodnotě µ zapíšeme ve tvaru H : µ = µ 0. Na první pohled se zdá, že alternativní hypotéza musí mít vždy tvar A : µ µ 0. Ovšem není tomu tak vždy, například se stává, že musí vždy platit µ µ 0 a potom má alternativní hypotéza tvar A : µ > µ 0. Rozlišujeme tyto varianty: A : µ µ 0 oboustranná alternativní hypotéza (oboustranný test), A : µ > µ 0 jednostranná alternativní hypotéza (pravostranný test), A : µ < µ 0 jednostranná alternativní hypotéza (levostranný test) Definice. Pravidlo, které každým hodnotám pozorovaných dat (na daném základním souboru) přiřadí právě jedno ze dvou rozhodnutí: zamítáme H (nebo ekvivalentně přijímáme resp. nezamítáme A), přijímáme resp. nezamítáme H (nebo ekvivalentně zamítáme A), nazýváme statistickým testem Poznámky. 1. Při rozhodování o platnosti H a A se můžeme dopustit jedné ze dvou chyb. Stane li se, že zamítáme H, když H je správná, uděláme tzv. chybu prvního druhu. Jestliže nezamítáme H, ačkoliv správná není, jedná se o tzv. chybu druhého druhu. Je přirozené požadovat po statistickém testu, aby pravděpodobnosti obou chyb byly minimální. Bohužel při pevném rozsahu výběru má zmenšování pravděpodobnosti chyby prvního druhu za následek růst pravděpodobnosti chyby druhého druhu a naopak. Proto se obvykle trvá jen na požadavku, aby pravděpodobnost chyby prvního druhu byla nejvýše rovna α, kde α je číslo z intervalu (0, 1). 2. Číslo α se nazývá hladina významnosti testu, udává tedy maximální pravděpodobnost chyby prvního druhu. Jeho volba je ovlivněna závažností důsledků, k nimž vede chyba prvního druhu, v praxi se nejčastěji volí α = 0,05 nebo α = 0,01. Test se potom snažíme konstruovat tak, aby pravděpodobnost chyby druhého druhu byla minimální při požadavku, že pravděpodobnost chyby prvního druhu je nejvýše rovna α. 3. Podobně maximální pravděpodobnost chyby druhého druhu označujeme β. Číslo 1 β se potom nazývá síla testu a vyjadřuje minimální pravděpodobnost, s jakou zamítáme nulovou hypotézu H, platí-li ve skutečnosti alternativní hypotéza A. Skutečnosti popsané v poznámce přehledně ilustruje následující tabulka.

115 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 115 skutečnost H je pravdivá H je nepravdivá úsudek o H rozhodnutí pst. rozhodnutí pst. nezamítá se správné 1 α chyba 2. druhu β zamítá se chyba 1. druhu α správné 1 β Tab. 5.1 Důsledky rozhodnutí při testování hypotéz Vlastní test tedy provádíme tak (viz poznámka 5.1.5), že pro zvolenou hodnotu α pravděpodobnosti chyby 1. druhu minimalizujeme pravděpodobnost β chyby 2. druhu. Nejprve zavedeme vhodnou statistiku T n, která má při platnosti H známé rozdělení 6 (např. t, u, χ 2, F ). Budeme jí říkat testové kritérium. Obor hodnot testového kritéria rozdělíme na dvě disjunktní podmnožiny, W α a W 1 α. Když testové kritérium T n nabude hodnoty z W α, zamítneme nulovou hypotézu H, a naopak, když testové kritérium T n nabude hodnoty z W 1 α, nulovou hypotézu H nezamítneme. Obor W α odpovídá tzv. kritickému oboru testu a obor W 1 α odpovídá oboru přijetí. Stanovení kritického oboru a oboru přijetí provádíme pomocí kritické hodnoty k, která je obvykle vhodným kvantilem rozdělení použitého testového kritéria. Celá situace je znázorněná na následujícím obrázku 5.1. Je zde vidět funkce hustoty rozdělení, z něhož pochází náhodný výběr jak pro testovanou hypotézu, tak pro alternativní hypotézu, a také vztah mezi pravděpodobnostmi α a β. Obr. 5.1 Vztah mezi chybou 1. a 2. druhu Poznámky. 1. Při oboustranném testu, tj. např. H : µ = µ 0 proti A : µ µ 0, lze kritický obor 6 s ohledem na stanovené cíle se dále omezíme pouze na spojitá rozdělení pravděpodobností

116 116 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík W α vyjádřit pomocí kritických hodnot k L, k P ve tvaru W α = (, k L k P, ) (viz obrázek 5.2). Obr. 5.2 Grafické znázornění kritického oboru W α při oboustranném testu 2. Při pravostranném testu, tj. např. H : µ = µ 0 proti A : µ > µ 0, lze kritický obor W α vyjádřit pomocí kritické hodnoty k ve tvaru W α = k, ) (viz obrázek 5.3). Obr. 5.3 Grafické znázornění kritického oboru W α při pravostranném testu 3. Při levostranném testu, tj. např. H : µ = µ 0 proti A : µ < µ 0, lze kritický obor W α vyjádřit pomocí kritické hodnoty k ve tvaru W α = (, k (viz obrázek 5.4).

117 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 117 Obr. 5.4 Grafické znázornění kritického oboru W α při levostranném testu Postup při testování užitím kritického oboru W α 1. Zformulujeme hypotézy H, A (jako alternativní volíme hypotézu, kterou chceme s ohledem na věcný problém prokázat). 2. Zvolíme hladinu významnosti α (zpravidla 0,05 nebo 0,01). 3. Zvolíme vhodné testové kritérium pochopitelně vzhledem k testovanému parametru nebo testované vlastnosti, vypočteme hodnotu testového kritéria. 4. Určíme kritický obor W α s ohledem na formulaci hypotézy A, určíme příslušné kritické hodnoty (tj. kvantily). 5. Zformulujeme závěr: Jestliže hodnota testového kritéria padne do kritického oboru, zamítneme hypotézu H a říkáme, že s pravděpodobností 1 α platí hypotéza A. Riziko nesprávnosti tohoto výroku je 100α %. Jestliže hodnota testového kritéria padne do oboru přijetí (tj. nepadne do kritického oboru), říkáme že hypotézu H nemůžeme na dané hladině významnosti zamítnout. Výroku o správnosti H se vyhneme, neboť nebudeme určovat pravděpodobnost chyby β. Jinou alternativou, jak testovat statistické hypotézy, je využít intervaly spolehlivosti. Metodu si pro jednoduchost vysvětleme na situaci popsané v poznámce Nejprve uvažujme oboustranný test, tj. testování hypotézy H : µ = µ 0 proti alternativě A : µ µ 0. Předpokládejme, že (d, h) je 100(1 α)% interval spolehlivosti pro parametr µ. Když platí nulová hypotéza H, potom P (d < µ < h) = 1 α. Zjistíme-li v konkrétní situaci, že µ 0 (d, h) potom buď nastal jev, který měl pravděpodobnost α (který při obvyklé volbě α = 0,05 nebo α = 0,01 je prakticky nemožný při jednom provádění

118 118 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík pokusu) a nebo µ 0 (d, h) protože µ µ 0. Protože při jednom konání pokusu nepředpokládáme, že by nastal jev, který má pravděpodobnost α, volíme statistický test takto: pro µ 0 (d, h) zamítáme nulovou hypotézu H, pro µ 0 (d, h) nezamítáme nulovou hypotézu H. Kdybychom chtěli testovat nulovou hypotézu H : µ = µ 0 proti alternativě A : µ > µ 0 respektive A : µ < µ 0, využili bychom pro test na hladině významnosti α dolního odhadu d (levostranný interval spolehlivosti pro µ) respektive horního odhadu h (pravostranný interval spolehlivosti) parametru µ. Nulovou hypotézu H potom zamítáme pro d > µ 0 respektive pro h < µ 0. Postup při testování užitím intervalu spolehlivosti 1. Zformulujeme hypotézy H, A (jako alternativní volíme hypotézu, kterou chceme s ohledem na věcný problém prokázat). 2. Zvolíme hladinu významnosti α (zpravidla 0,05 nebo 0,01). 3. Vypočteme vhodný interval spolehlivosti s ohledem na testovaný parametr a formulaci alternativní hypotézy A. 4. Zformulujeme závěr: Jestliže daná hodnota testového parametru (tj. např. µ 0 ) padne do intervalu spolehlivosti, nezamítáme na hladině významnosti α nulovou hypotézu H. Jestliže daná hodnota testového parametru (tj. např. µ 0 ) nepadne do intervalu spolehlivosti, zamítáme na hladině významnosti α nulovou hypotézu H. Statistický software ve svých výsledkových výstupech většinou nepoužívá k testování statistických hypotéz kritické hodnoty ani intervaly spolehlivosti. K rozhodnutí o zamítnutí nebo nezamítnutí nulové hypotézy užívá tzv. p-hodnotu Definice. p-hodnota (p-value) je nejmenší hladina významnosti, při které je možné ještě zamítnout nulovou hypotézu H. V případě pravostranného testu (tj. např. A : µ > µ 0 ) je p-hodnota dána obsahem plochy pod funkcí hustoty pravděpodobnosti testovací statistiky napravo od její hodnoty (viz obrázek 5.5) a spočteme ji jako p-hodnota = 1 F ( ), kde F ( ) značí hodnotu distribuční funkce pro danou hodnotu testovací statistiky.

119 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 119 Obr. 5.5 p-hodnota při pravostranném testu V případě levostranného testu (tj. např. A : µ < µ 0 ) je p-hodnota dána obsahem plochy pod funkcí hustoty pravděpodobnosti testovací statistiky nalevo od její hodnoty (viz obrázek 5.6) a spočteme ji jako p-hodnota = F ( ). Obr. 5.6 p-hodnota při pravostranném testu V případě oboustranného testu (tj. např. A : µ µ 0 ) a symetrického rozdělení testované statistiky (tj. především t, u) představuje p-hodnota dvojnásobek obsahu plochy pod funkcí hustoty pravděpodobnosti testovací statistiky napravo od absolutní hodnoty testovací statistiky (viz obrázek 5.7) a jednoduchou úpravou lze odvodit p-hodnota = 1 2(1 F ( )), kde F ( ) značí hodnotu distribuční funkce pro danou absolutní hodnotu testovací statistiky.

120 120 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Obr. 5.7 p-hodnota při oboustranném testu Poznámka. V případě asymetrického rozdělení se p-hodnota spočte jako p-hodnota = 2 min{f ( ), 1 F ( )}. Postup při testování užitím p-hodnoty 1. Zformulujeme hypotézy H, A (jako alternativní volíme hypotézu, kterou chceme s ohledem na věcný problém prokázat). 2. Zvolíme hladinu významnosti α (zpravidla 0,05 nebo 0,01). 3. Užitím vhodného software spočteme p-hodnotu. 4. Zformulujeme závěr: Jestliže α > p-hodnota, zamítáme nulovou hypotézu H. Jestliže α < p-hodnota, nezamítáme nulovou hypotézu H Poznámka. Srovnáme-li p-hodnotu s hladinou významnosti α (viz obrázek 5.8), jejich podstata je stejná. Hladina významnosti je předpokládaná pravděpodobnost zamítnutí nulové hypotézy ještě před uskutečněním testu. Naopak p-hodnota je nejmenší pravděpodobnost zamítnutí nulové hypotézy určená na základě testovacího kritéria (tzn. po uskutečnění testu).

121 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 121 Obr. 5.8 Vztah mezi α a p-hodnotou Na závěr tohoto odstavce si demonstrujeme všechny tři uvedené způsoby testování hypotéz na jednoduchém příkladě Příklad. Měřením délky 10 válečků byly získány hodnoty (list data v aplikaci STAT1): 5,37 5,36 5,35 5,40 5,41 5,34 5,29 5,43 5,42 5,32 Na hladině významnosti 0,05 testujte hypotézu, že střední naměřená délka válečku je 5,40 mm. Předpokládejte, že naměřená data pochází z normálního rozdělení. Úlohu řešte užitím a) kritického oboru, b) intervalu spolehlivosti, c) p-hodnoty. Řešení. Z naměřených dat získáme výběrové charakteristiky x = 5,369 mm a s = = 0,0458 mm. Budeme testovat hypotézu H : µ = 5,40 proti alternativě A : µ 5,40. Testové kritérium je statistika (proč se použije právě tato statistika, se dozvíme později v modulu 5.3) t = x µ 0 n, s která má při platnosti hypotézy H Studentovo rozdělení t(ν) s ν = n 1 stupni volnosti. a) Nejprve provedeme testování pomocí kritického oboru: 1) Hypotézy: H : µ = 5,40 proti A : µ 5,40. 2) Hladina významnosti: α = 0,05. 3) Testové kritérium: t = x µ 0 n t(9). s Hodnota testového kritéria: t = x µ 0 s 5,369 5,40 n = 10 = 2,140. 0,0458

122 122 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 4) Kritický obor odpovídající zvolené alternativní hypotéze (viz poznámka 5.1.6) je W α = (, k L k P, ), kde k L a k P jsou kritické hodnoty, pro které musí platit (viz obrázek 5.2) P (t < k L ) = P (t > k P ) = α, tj. F (k 2 L) = α, F (k 2 P ) = = 1 α, kde F značí distribuční funkci Studentova rozdělení t(9). Odtud plyne 2 k L = t α/2 (9) = t 1 α/2 (9) a k P = t 1 α/2 (9), kde t 1 α/2 (9) je kvantil Studentova rozdělení t(9). Proto W α = (, t 1 α/2 (9) t 1 α/2 (9), ) a tedy W 0,05 = (, t 0,975 (9) t 0,975 (9), ), odtud zkráceně W 0,05 = (, 2,262 2,262, ), W 0,05 : t t 1 0,05/2 (9) = t 0,975 (9) = 2,262. 5) Hodnota testového kritéria nepatří do kritického oboru, tj. neplatí 2,140 2,262, což znamená, že na hladině významnosti 0,05 nezamítáme nulovou hypotézu H. b) Pomocí intervalu spolehlivosti: 1) H : µ = 5,40 proti A : µ 5,40 2) α = 0,05 3) S ohledem na formulaci hypotéz určíme oboustranný interval spolehlivosti pro střední hodnotu µ: ( x t 0,975 (9) s ; x + t 0,975 (9) s ), n n ( 5,369 2,262 0,0458 ; 5, ,262 0,0458 ), (5,336; 5,402). 4) Hodnota testového parametru µ 0 = 5,40 patří do intervalu spolehlivosti, a proto na hladině významnosti 0,05 nezamítáme nulovou hypotézu H. c) Pomocí p-hodnoty: 1) H : µ = 5,40 proti A : µ 5,40 2) α = 0,05 3) Pomocí vhodného software určíme, že p-hodnota = 0,061. 4) Protože 0,05 < 0,061, nezamítáme na hladině významnosti 0,05 nulovou hypotézu H Poznámky. 1. Všechny tři popsané metody testování statistických hypotéz jsou implementovány do aplikace STAT1 (viz příklad 5.3.3, obrázek 5.9). 2. V dalším textu se při testování statistických hypotéz omezíme výhradně na metodu založenou na kritickém oboru W α.

123 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Test o nulové šikmosti a nulové špičatosti náhodné veličiny Při testování hypotéz o parametrech je vždy nutné ověřit předpoklad, že daný náhodný výběr pochází z normálního rozdělení. Existuje celá řada takových metod, nyní si popíšeme test založený na šikmosti a špičatosti náhodné veličiny. Některé další alternativy testování normality náhodné veličiny jsou také popsány v části 5.5. O normálním rozdělení víme, že má nulové koeficienty šikmosti a špičatosti α 3 = = 0 a α 4 = 0. Proto k ověření hypotézy, že náhodný výběr x 1, x 2,..., x n pochází z normálního rozdělení náhodné veličiny X, použijeme výběrovou šikmost a špičatost a 3 a a 4. Připomeňme a 3 = n i=1 (x i x) 3, a n s 3 4 = n n i=1 (x i x) 4 n s 4 n 3. Pokud je tedy rozdělení náhodné veličiny X normální, musí mít oba koeficienty nulové, proto rozdělíme test na dvě části: Věta. (Test o nulové šikmosti) Formulujme hypotézy: Označme u 3 = H : α 3 = 0 A : α 3 0. a 3 D(a3 ), kde D(a 3) = 6(n 2) (n + 1)(n + 3). Testové kritérium je statistika u 3, která má při platnosti hypotézy H přibližně normované normální rozdělení. Kritický obor je W α = { u 3, u 3 u 1 α/2 }, kde u 1 α/2 je kvantil rozdělení N(0, 1) Věta. (Test o nulové špičatosti) Formulujme hypotézy: Označme H : α 4 = 0 A : α 4 0. u 4 = a n+1 D(a4 ), kde D(a 4) = 24n(n 2)(n 3) (n + 1) 2 (n + 3)(n + 5). Testové kritérium je statistika u 4, která má při platnosti hypotézy H přibližně normované normální rozdělení. Kritický obor je W α = { u 4, u 4 u 1 α/2 }, kde u 1 α/2 je kvantil rozdělení N(0, 1).

124 124 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Poznámka. Hypotézu, že náhodný výběr x 1, x 2,..., x n pochází z normálního rozdělení náhodné veličiny X, nezamítáme pouze tehdy, když nelze zamítnout současně hypotézu o nulové šikmosti i nulové špičatosti Příklad. Uvažujeme skupinu 60 pacientů, kterým byla změřena hladina jisté charakteristiky v krvi. Z naměřených dat byla spočtena výběrová šikmost a 3 = 0,675 a výběrová špičatost a 4 = 0,559. Užitím testu o nulové šikmosti a nulové špičatosti ověřte na hladině významnosti 0,05 a 0,01, zda výběr pochází z normálního rozdělení. Řešení. Máme k dispozici tyto údaje: n = 60, a 3 = 0,675, a 4 = 0,559. Budeme testovat hypotézu H : náhodná veličina X má normální rozdělení A : náhodná veličina X nemá normální rozdělení, a to pomocí testu o nulové šikmosti a testu o nulové špičatosti: 1. test: H : α 3 = 0 A : α 3 0 a 3 u 3 = D(a3 ) = 0,675. = 2,243, 0,09055 kde D(a 3 ) = 6(n 2) (n+1)(n+3) = = 0,09055 W 0,05 : u 3 u 0,975 W 0,05 : 2,243 1, platí Hypotézu o nulové šikmosti zamítáme na hladině významnosti 0, test: H : α 4 = 0 A : α 4 0 kde D(a 4 ) = u 4 = a n+1 D(a4 ) = 0, = 1,176, 0, n(n 2)(n 3) = (n+1) 2 (n+3)(n+5) = 0,31243 W 0,05 : u 4 u 0,975 W 0,05 : 1,176 1, neplatí Hypotézu o nulové špičatosti nezamítáme na hladině významnosti 0,05. Protože jsme na hladině významnosti 0,05 zamítli nulovou šikmost, není možné náš výběr považovat za výběr z normálního rozdělení (i přesto, že nezamítáme nulovou špičatost). Podobně pro hladinu významnosti 0,01 provedeme testy: 1. test: H : α 3 = 0 A : α 3 0 W 0,01 : u 3 u 0,995 W 0,01 : 2,243 2, neplatí Hypotézu o nulové šikmosti nezamítáme na hladině významnosti 0,01.

125 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík test: H : α 4 = 0 A : α 4 0 W 0,01 : u 4 u 0,995 W 0,05 : 1,176 2, neplatí Hypotézu o nulové špičatosti nezamítáme na hladině významnosti 0,01. Protože jsme na hladině významnosti 0,01 nezamítli ani nulovou šikmost ani špičatost, je možné náš výběr považovat za výběr z normálního rozdělení Poznámka. Oba testy o nulové šikmosti i špičatosti jsou součástí aplikace STAT1, listy popisné charakteristiky, bodové rozdělení a intervalové rozdělení Úkoly a problémy k modulu 5.2 V následujích úlohách pracujte vždy s hladinou významnosti α = 0, Proveďte test o nulové šikmosti a nulové špičatosti na datovém souboru z příkladu Ověřte, zda výběr z příkladu pochází z normálního rozdělení. 3. Ověřte, zda výběr z příkladu pochází z normálního rozdělení. 4. Ověřte, zda výběr z příkladu pochází z normálního rozdělení. Řešení. 1. nulová šikmost i nulová špičatost se zamítá; 2. normalita se nezamítá; 3. normalita se nezamítá; 4. normalita se nezamítá. Další úlohy na procvičování: [Kříž 1]: str Jednovýběrové testy hypotéz V předchozích odstavcích jsme se seznámili se základními vlastnostmi a principy testování statistických hypotéz. Nyní přistoupíme ke konkrétním typům testů. Vždy budeme vycházet z bodových odhadů daných parametrů a pomocí statistik se známým rozdělením (normální rozdělení, Studentovo t-rozdělení, Pearsonovo χ 2 -rozdělení, Fisherovo-Snedecorovo F -rozdělení) budeme konstruovat vhodné testy.

126 126 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Testy o parametrech normálního rozdělení (µ a σ 2 ) Normální rozdělení je charakterizováno dvěma parametry, a to střední hodnotou µ a rozptylem σ 2. Proto si postupně odvodíme test hypotézy o střední hodnotě a rozptylu tohoto rozdělení. Připomeňme, že je v obou případech nutné ověřit předpoklad o normalitě (viz věty a 5.2.2), pokud ovšem není již z povahy problému zřejmé, že náhodná veličina X, ze které daný náhodný výběr pochází, má normální rozdělení Věta. (Test o střední hodnotě normálního rozdělení jednovýběrový t test) Nechť x 1, x 2,..., x n značí hodnoty náhodného výběru z N(µ, σ 2 ), kde parametr σ 2 není znám. Testujeme hypotézu, že parametr µ je roven hodnotě µ 0 : H : µ = µ 0, testové kritérium je statistika t = x µ 0 n, s která má při platnosti hypotézy H Studentovo rozdělení t(ν) s ν = n 1 stupni volnosti. Podle alternativní hypotézy volíme následující kritické obory: alternativní hypotéza A : µ > µ 0 kritický obor W α = {t, t t 1 α (ν)} A : µ < µ 0 W α = {t, t t 1 α (ν)} A : µ µ 0 W α = { t, t t 1 α/2 (ν) } kde t 1 α (ν), t 1 α/2 (ν) jsou kvantily Studentova rozdělení, ν = n Poznámka. Výše uvedená věta vyplývá z [Kříž 3], věta Příklad. Výrobce určitého typu automobilů tvrdí, že průměrná spotřeba benzínu (v l/100 km) při rychlosti 90 km za hodinu je 6 l/100 km. Našim zákazníkům nechceme nabízet takový typ automobilu, který má spotřebu benzínu vyšší. Na hladině významnosti α = 0,05 ověřte pravdivost tvrzení výrobce. Předpokládejte normální rozdělení pro náhodnou veličinu představující spotřebu benzínu (v l/100 km). Pro provedení testu použijte náhodný výběr 20 automobilů z příkladu Řešení. Základní číselné charakteristiky náhodného výběru jsou n = 20, x = = 6,180, s = 0,399. Budeme testovat hypotézu H : µ = 6 proti alternativě A : µ > 6. Testové kritérium je statistika t = x µ 0 s 6, n = 20 = 2,015. 0,399

127 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 127 Kritický obor odpovídající zvolené alternativní hypotéze je W 0,05 : t t 1 0,05 (19) = = t 0,95 (19) = 1,729. Hodnota testového kritéria patří do kritického oboru (2,015 1,729), čímž se nám na hladině významnosti 0,05 podařilo zamítnout nulovou hypotézu, tj. průměrná spotřeba benzínu je s 95% spolehlivostí vyšší, než udává výrobce. Nyní přistoupíme k formulaci testu o parametru σ 2 normálního rozdělení Věta. (Test o rozptylu normálního rozdělení) Nechť x 1, x 2,..., x n značí hodnoty náhodného výběru z N(µ, σ 2 ), kde parametr µ není znám. Testujeme hypotézu, že parametr σ 2 je roven hodnotě σ 2 0: testové kritérium je statistika H : σ 2 = σ 2 0, χ 2 = (n 1)s2, σ0 2 která má při platnosti hypotézy H Pearsonovo rozdělení χ 2 (ν) s ν = n 1 stupni volnosti. Podle alternativní hypotézy volíme následující kritické obory: alternativní hypotéza kritický obor A : σ 2 > σ0 2 W α = { χ 2, χ 2 χ 2 1 α(ν) } A : σ 2 < σ0 2 W α = {χ 2, χ 2 χ 2 α(ν)} } A : σ 2 σ0 2 W α = {χ 2, χ 2 χ 2α/2 (ν) χ2 χ 21 α/2 (ν) kde χ 2 1 α(ν), χ 2 α(ν), χ 2 1 α/2 (ν), χ2 α/2 (ν) jsou kvantily Pearsonova rozdělení, ν = n Poznámka. Výše uvedená věta vyplývá z [Kříž 3], věta Příklad. Odběratel dostává od výrobce balíčky o předepsané hmotnosti 250 g. Předpokládáme, že hmotnost balíčků je náhodná veličina, jež se řídí normálním rozdělením. Balíčky jsou plněny automaticky. Po určité době bylo nutné vyměnit balící automat. Chceme ověřit na hladině významnosti α = 0,05, že po změně balícího automatu nedošlo ke zhoršení přesnosti při plnění balíčků (tj. ke zvýšení směrodatné odchylky, která u původního automatu vykazovala hodnotu 10 g). U 15 náhodně vybraných balíčků jsme zjistili tyto hmotnosti (v g):

128 128 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Řešení. Základní číselné charakteristiky náhodného výběru jsou (viz příklad 4.3.8) n = 15, s 2 = 150,838. Budeme testovat hypotézu H : σ 2 = 10 2 proti alternativě A : σ 2 > Testové kritérium je statistika χ 2 = (n 1)s2 σ 2 0 = , = 21, 117. Kritický obor odpovídající zvolené alternativní hypotéze je W 0,05 : χ 2 χ 2 1 0,05(14) = = χ 2 0,95(14) = 23,7. Hodnota testového kritéria nepatří do kritického oboru (21, 117 < < 23,7), čímž se na hladině významnosti 0,05 nepodařilo prokázat zhoršení přesnosti balícího automatu. Test o střední hodnotě pro velký výběr V případě, že neznáme rozdělení sledované náhodné veličiny a rozsah náhodného výběru je dostatečně velký (požadujeme alespoň n > 30, při asymetrickém rozdělení n > 50), můžeme pro testování o parametru µ využít centrální limitní větu. Dostáváme testové kritérium, které má asymptoticky normální rozdělení Věta. (Test o střední hodnotě pro velký výběr) Nechť x 1, x 2,..., x n značí hodnoty náhodného výběru z libovolného rozdělení se střední hodnotou µ a dostatečně velkým rozsahem n. Testujeme hypotézu, že parametr µ je roven hodnotě µ 0 : H : µ = µ 0, testové kritérium je statistika u = x µ 0 n, s která má při platnosti nulové hypotézy H přibližně normální rozdělení N(0, 1). Podle alternativní hypotézy volíme následující kritické obory: alternativní hypotéza kritický obor A : µ > µ 0 W α = {u, u u 1 α } A : µ < µ 0 W α = {u, u u 1 α } A : µ µ 0 W α = { } u, u u 1 α/2 kde u 1 α, u 1 α/2 jsou kvantily normovaného normálního rozdělení N(0, 1) Poznámka. Výše uvedená věta vyplývá z [Kříž 3], věta Příklad. Výrobce tvrdí, že jím vyrobené žárovky mají životnost v průměru 1000 hodin. Vzhledem k předpokládané objednávce velkého množství tohoto zboží se

129 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 129 chceme ujistit, že jejich životnost není nižší. Na základě údajů o životnosti 50 náhodně vybraných žárovek (viz příklad 4.4.2) ověřte na hladině významnosti α = 0,05, že životnost žárovek je nižší. Řešení. Základní číselné charakteristiky náhodného výběru jsou n = 50, x = = 997,080, s = 104,709. Budeme testovat hypotézu H : µ = 1000 proti alternativě A : µ < Testové kritérium je statistika u = x µ 0 s 997, n = 50 = 0, ,709 Kritický obor odpovídající zvolené alternativní hypotéze je W 0,05 : u u 1 0,05 = = u 0,95 = 1,645. Hodnota testového kritéria nepatří do kritického oboru ( 0,197 > > 1,645), čímž se nám na hladině významnosti 0,05 nepodařilo zamítnout nulovou hypotézu, tedy s 95% spolehlivostí nelze tvrdit, že průměrná životnost je menší než 1000 hodin. Test o parametru alternativního rozdělení Obdobně jako v kapitole 4.5 budeme předpokládat, že pozorovaná náhodná veličina X má alternativní rozdělění A(π). Při testování hypotézy o parametru π základního souboru tedy půjde o testování podílu jednotek základního souboru majících určitou sledovanou vlastnost (např. podíl občanů ČR, kteří se zúčastnili posledních voleb). Díky Moivre-Laplaceově centrální limitní větě lze použít testové kritérium, které má přibližně normální rozdělení Věta. (Test o podílu pro velký výběr) Nechť x 1, x 2,..., x n značí hodnoty náhodného výběru z alternativního rozdělení A(π) a p je výběrová relativní četnost sledovaného znaku, tj. p = 1 n n i=1 x i. Testujeme hypotézu, že parametr π je roven hodnotě π 0 : H : π = π 0, testové kriterium je statistika u = p π 0 π0 (1 π 0 ) n, která má při platnosti nulové hypotézy H přibližně normální rozdělení N(0, 1). Podle alternativní hypotézy volíme následující kritické obory: alternativní hypotéza kritický obor A : π > π 0 W α = {u, u u 1 α } A : π < π 0 W α = {u, u u 1 α } A : π π 0 W α = { } u, u u 1 α/2 kde u 1 α, u 1 α/2 jsou kvantily normovaného normálního rozdělení N(0, 1).

130 130 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Poznámka. Výše uvedená věta vyplývá z [Kříž 3], věta Příklad. Vraťme se k řešenému příkladu Pomocí testu o podílu π ověřte na hladině významnosti α = 0,05 předpoklad o změně kvality výrobků i po změně dodavatele. Řešení. Jedná se o test o hodnotě podílu jednotek s určitou vlastností v základním souboru. Ze zadání úlohy plyne, že u alternativní hypotézy jde o prokázání změny v kvalitě, tedy o zlepšení či zhoršení dosavadního stavu. Základní číselné charakteristiky jsou: n = 250, p = 0,064. Budeme testovat hypotézu H : π = 0,05 proti alternativě A : π 0,05. Testové kritérium je statistika u = p π 0 0,064 0,05. n = 250 = 1,016. π0 (1 π 0 ) 0,05(1 0,05) Kritický obor odpovídající zvolené alternativní hypotéze je W 0,05 : u u 1 0,05/2 = = u 0,975 = 1,960. Hodnota testového kritéria nepadne do kritického oboru ( 1,016 < < 1,960), čímž jsme na hladině významnosti 0,05 neprokázali, že by se se změnou dodavatele změnila kvalita výrobků. Jednovýběrové testy v aplikaci STAT1 Aplikace STAT1 obsahuje jednovýběrový test středních hodnot a rozptylů pro výběry z normálního rozdělení (list 1V-normální ), jednovýběrový test středních hodnot pro výběry velkého rozsahu (list 1V-libovolné ) a jednovýběrový test pro podíl (list 1V a 2V-podíly ). Demonstrujme nejprve užití této pomůcky na datech z příkladu popisujících spotřebu benzínu (v l/100 km) u určitého typu automobilu. Protože předpokládáme, že náhodná veličina Spotřeba má normální rozdělení, zvolíme list 1V-normální a v horní levé části vybereme ze seznamu odpovídající proměnnou benzin. Pro vybraná data jsou spočteny základní charakteristiky (rozsah, průměr, výběrová směrodatná odchylka a výběrový rozptyl). V pravé části zvolíme hladinu významnosti, v našem případě 0,05. Nyní se budeme snažit potvrdit či vyvrátit obavy prodejce, který nechce zákazníkům nabízet takový typ automobilu, který má spotřebu benzínu vyšší než deklaruje výrobce, tj. 6 l/100 km. V části 4. Testy hypotéz o střední hodnotě zvolíme alternativní hypotézu µ > µ 0, za µ 0 volíme hodnotu 6. Získáme tyto výsledky: hodnota testového kritéria t = 2,015, kritická hodnota (kvantil t-rozdělení) t 0,95 (19) = 1,729, p-hodnota je 0,029. Hodnota testového kritéria padne do kritického oboru (výsledek ano ), p- hodnota je menší než zvolená hladina významnosti, proto se nulová hypotéza H zamítá ve prospěch alternativní hypotézy A. Ulohu lze také řešit pomocí intervalu spolehlivosti (část 3. Intervalové odhady pro střední hodnotu ), neboť vzhledem k alternativní hypotéze je dolní odhad parametru µ > µ 0 (6,026 > 6), což vede ke stejnému závěru, tj. nulová hypotéza H se zamítá. Na hladině významnosti 0,05 můžeme říci, že obavy

131 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 131 prodejce se potvrdily, tedy průměrná spotřeba benzínu je s 95% spolehlivostí vyšší, než udává výrobce. Obr. 5.9 Výpočet t testu pro náhodný výběr z normálního rozdělení pomocí STAT Úkoly a problémy k modulu Na základě náhodného výběru rozsahu n = 10 byly spočteny charakteristiky x = = 32 a s 2 = 15. Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota příslušného základního souboru je µ = 30. Předpokládejte, že se jedná o náhodný výběr z normálního rozdělení. 2. Požadovaná střední hodnota vlhkosti v pražené kávě je 4,2 % a směrodatná odchylka 0,4 %. Ve 20 vzorcích byly analýzou zjištěny tyto skutečné hodnoty vlhkosti v %: 4,5 4,3 4,1 4,9 4,6 3,2 4,4 5,1 4,8 4,0 3,7 4,4 3,9 4,1 4,2 4,1 4,7 4,3 4,2 4,4 Předpokládejte, že se jedná o náhodný výběr z normálního rozdělení (ověřte). Na hladině významnosti 0,05 zjistěte, zda základní soubor, z nehož vzorky pocházejí, vykazuje požadovanou

132 132 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík a) střední hodnotu vlhkosti, b) variabilitu. 3. Na základě výběrového souboru o rozsahu 10 byla spočtena charakteristika s 2 = = 2,0. Na hladině významnosti 0,01 testujte hypotézu, že základní soubor má rozptyl σ 2 = 0,2. Předpokládejte, že se jedná o náhodný výběr z normálního rozdělení. 4. Při zjišťování zaměřeném na mzdy absolventek potřebujeme informace o variabilitě této veličiny. Dosud podobné úvahy vycházely z předpokladu, že jde o normálně rozdělenou veličinu se směrodatnou odchylkou 995 Kč. Na hladině významnosti 0,05 ověřte, zda je představa o variabilitě dosud aktuální, jestliže jste v malém výběru předcházejícímu vlastnímu zjišťování zaznamenali charakteristiky n = 25, x = = Kč, s = 1152 Kč. 5. Výrobce nealkoholického nápoje udává u objemu 2l lahví směrodatnou odchylku 0,05 l. Náhodně bylo vybráno 20 lahví, u nichž byl zjištěn přesný obsah (v l): 1,93 1,94 1,92 2,01 1,93 2,07 2,03 2,03 1,98 1,96 2,03 2,00 2,10 1,99 2,02 2,02 1,96 2,02 1,86 2,04 Předpokládejme, že objem nápoje v láhvi je náhodná veličina s normálním rozdělením. Na hladině významnosti 0,05 ověřte tvrzení výrobce ohledně přesnosti (variabilitě) plnění lahví. 6. Cestovní kancelář organizuje zahraniční zájezdy podle individuálních přání zákazníků. Na základě údajů za několik minulých let se ví, že 30 % všech takto organizovaných zájezdů má za cíl zemi X. Po zhoršení postojů místního obyvatelstva k cizincům se obává, že se zájem o tuto zemi mezi zákazníky sníží. Ze 150 náhodně vybraných zákazníků v tomto roce má 38 za cíl právě zemi X. Prokazují nejnovější data pokles zájmu o onu zemi? Test proveďte na hladině významnosti 0, Podle tvrzení výrobce je přesnost přístroje při opakovaném měření dána směrodatnou odchylkou σ = 0,9. Z výsledků 20 měření téhož vzorku byl spočten výběrový rozptyl s 2 = 1,44. Na hladině významnosti 0,05 rozhodněte, zda tento údaj není v rozporu s tvrzením výrobce. 8. Zástupci ekologického hnutí aktivně vystupují proti výstavbě nové továrny v oblasti, jejíž životní prostředí je již tak dost poznamenané průmyslovou činností. Předpokládají, že jedním z důsledků nezdravého životního prostředí je i nízká porodní hmotnost novorozenců dané oblasti. Má smysl, aby použili nižší porodní hmotnost jako argument proti výstavbě nové továrny, když ví, že porodní hmotnost zdravé populace má normální rozdělení se střední hodnotou 3500 g? Své tvrzení chtějí prokázat na souboru 50 náhodně vybraných novorozenců této oblasti narozených v minulém roce, u nichž naměřili průměrnou hmotnost 3310 g a směrodatnou odchylku 500 g. Test proveďte na hladině významnosti 0,01.

133 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Výrobce chce zkontrolovat dodržování předepsané hmotnosti balíčků (viz příklad 4.3.8). Předpokládáme, že si nepřeje, aby docházelo k nadměrnému plnění balíčků. K jakému závěru dospěje (α = 0,05)? 10. V nedávné době omezila provoz v menším městě továrna, která z větší části zaměstnává pracovníky dojíždějící z okolí. Společnost provozující osobní přepravu se obává, že klesne průměrný počet přepravovaných osob jedním autobusem na určitých linkách. Z tohoto důvodu provedla šetření ve 40 náhodně vybraných autobusech a příslušných linkách v době přepravní špičky s těmito výsledky: Počet cestujících v jednom autobusu Počet případů Z minulých let je známo, že průměrný počet cestujících v jednom autobusu za srovnatelných podmínek byl 36 osob. V případě, že by se prokázalo, že počet přepravovaných osob klesl, bude přepravní společnost muset omezit provoz. Jak se rozhodne (α = 0,05)? 11. Na základě dlouhodobých statistik je známo, že se rodí více chlapců než děvčat. Pravděpodobnost narození chlapce je 0,5142. V jistém měsíci v minulosti byl však podíl 0,492. Protože se jednalo o období po vážné ekologické havárii, vzniklo podezření, že nižší podíl chlapců byl způsoben právě touto havárií. a) Prokažte na hladině významnosti 0,05, že tomu tak je, byl-li celkový počet novorozenců v daném měsíci 250. b) Proveďte test i pro případ, že by celkový počet novorozenců byl Dle nejmenované společnosti, která se zabývá průzkumem spotřebitelských zvyklostí, označilo v minulém období 33 % domácností jako místo svých hlavních nákupů hypermarkety. Společnost předpokládá další růst jejich obliby. Za účelem prokázání tohoto předpokladu náhodně vybrala 250 obyvatel a zjistila, že hypermarketům dává přednost 93 ze všech dotázaných. Je výsledek průzkumu v souladu s uvedeným předpokladem (α = 0,05)? Řešení. 1. H : µ = 30, A : µ 30, t = 1,633, nezamítáme; 2. a) H : µ = 4,2, A : µ 4,2, t = 0,986, nezamítáme; b) H : σ = 0,4, A : σ 0,4, χ 2 = 22,059, nezamítáme; 3. H : σ 2 = 0,2, A : σ 2 0,2, χ 2 = 90, zamítáme; 4. H : σ = 995, A : σ 995, χ 2 = 32,171, směrodatná odchylka 995 Kč je dosud aktuální; 5. H : σ = 0,05, A : σ 0,05, χ 2 = 24,928, nezamítáme tvrzení výrobce; 6. H : π = 0,3, A : π < 0,3, u = 1,247, test neprokázal snížený zájem o zájezdy do země X; 7. H : σ = 0,9, A : σ > 0,9, χ 2 = 33,778, přesnost přístroje je nižší; 8. H : µ = 3500, A : µ < 3500, u = 2,687, tvrzení aktivistů je oprávněné;

134 134 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 9. H : µ = 250, A : µ > 250, t = 0,147, nárůst hmotnosti balíčků nebyl prokázán; 10. H : µ = 36, A : µ < 36, u = 2,795, společnost bude muset provoz omezit; 11. a) H : π = 0,5142, A : π < 0,5142, u = 0,7023, vliv havárie se neprokázal; b)u = 1,7203, vliv havárie se prokázal; 12. H : π = 0,33, A : π < 0,33, u = 1,4123, růst obliby nebyl prokázán. Další úlohy na procvičování: [Kříž 1]: str Dvouvýběrové testy hypotéz Předtím než přistoupíme k popisu testů shody parametrů ve dvou souborech, musíme rozlišit, zda provádíme úsudky z nezávislých nebo závislých náhodných výběrů. U nezávislých výběrů se předpokládá, že výběr jednotek z jednoho základního souboru nezávisí na výběru jednotek ze souboru druhého. Naopak u závislých výběrů často výsledek z prvního výběru vytváří logický pár s výsledkem z druhého výběru (hovoříme o tzv. párových testech). V některých případech může být vytvoření takového páru dáno přímo tím, že měření provádíme u stejných jednotek za různých okolností (např. testujeme vliv určitého léku na organismus, takže u vybraných pacientů provedeme šetření před podáním preparátu, poté aplikujeme lék a u stejných pacientů provedeme opětovné šetření; výsledky před a po podání léku porovnáme testem). Jindy je párová vazba zprostředkovaná (např. provádíme mediální průzkum sledovanosti televizních programů v domácnostech, kdy dotazování probíhá u manželských párů, přičemž se předpokládá, že manželé, sledující často programy společně, konfrontuje své názory, a psychologicky se tak obecným zdrojem závislosti stává společné soužití v páru). Test pro nezávislé výběry ze dvou normálních rozdělení (shoda rozptylů a shoda středních hodnot) Normální rozdělení je charakterizováno dvěma parametry, a to střední hodnotou a rozptylem. Při porovnávání dvou náhodných výběrů ze dvou normálních rozdělení tedy můžeme testovat jak shodu středních hodnot, tak i shodu rozptylů. Při testování se budeme vycházet z bodových odhadů daných parametrů a pomocí statistik se známým rozdělením (Studentovo t-rozdělení, F -rozdělení, normální rozdělení) budeme konstruovat vhodné testy. Nejprve uvedeme test shody rozptylů, neboť informaci o tom, zda rozptyly v porovnávaných základních souborech jsou shodné či nikoli, budeme potřebovat při výběru testové statistiky sloužící k porovnávání středních hodnot.

135 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Věta. (F -test shody rozptylů) Nechť x 1, x 2,..., x n1 značí hodnoty náhodného výběru z N(µ 1, σ 2 1), y 1, y 2,..., y n2 značí hodnoty náhodného výběru z N(µ 2, σ 2 2), s 2 x a s 2 y jsou odpovídající hodnoty výběrových rozptylů. Testujeme hypotézu, že parametr σ 2 1 je roven hodnotě σ 2 2: testové kritérium je statistika H : σ 2 1 = σ 2 2, F = s2 x, s 2 y která má při platnosti hypotézy H Fisherovo-Snedecorovo rozdělení s ν 1 = n 1 1 a ν 2 = n 2 1 stupni volnosti. Podle alternativní hypotézy volíme následující kritické obory: alternativní hypotéza kritický obor A : σ 2 1 > σ 2 2 W α = {F, F F 1 α (ν 1, ν 2 )} A : σ1 2 < σ2 2 W α = {F, F F α (ν 1, ν 2 )} A : σ1 2 σ2 2 W α = { F, F F α (ν 1, ν 2 2 ) F F 1 α (ν 1, ν 2 2 ) } kde F α, F 1 α, F 1 α 2 jsou kvantily Fisher-Snedecorova rozdělení, ν 1 = n 1 1, ν 2 = n Příklad. Přesnost nastavení automatického obráběcího stroje je charakterizována rozptylem délky obrobeného výrobku. Před seřízením bylo náhodně změřeno 10 výrobků a byl zjištěn rozptyl 4 mm 2. Po seřízení stroje byl u 15 náhodně vybraných výrobků naměřen rozptyl 0,5 mm 2. Za předpokladu normálního rozdělení délky obrobeného výrobku ověřte s 95% spolehlivostí, že se po seřízení zvýšila přesnost stroje. Řešení. Základní číselné charakteristiky obou souborů jsou: n 1 = 10, s 2 x = 4, n 2 = 15, s 2 y = 0,5. Budeme testovat hypotézu H : σ 2 1 = σ 2 2 proti alternativní hypotéze A : σ 2 1 > σ 2 2. Testové kritérium má hodnotu F = s2 x s 2 y = 4 0,5 = 8. Kritický obor je W 0,05 : F F 0,925 (9, 14), tedy F 4,030. Hodnota testového kritéria (F = 8) patří do kritického oboru, hypotézu o rovnosti rozptylů tedy můžeme na hladině významnosti 0,05 zamítnout ve prospěch alternativní hypotézy vyjadřující fakt, že rozptyl před seřízením je větší nežli rozptyl po seřízení. Se spolehlivostí 95 % můžeme tvrdit, že se po seřízení přesnost stroje zvýšila.

136 136 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Poznámka. F -test je možné také spočítat pomocí EXCELu. V záložce Nástroje vybereme položku Analýza dat a z následného dialogového okna zvolíme Dvouvýběrový F -test pro rozpyl. Nyní přistoupíme k formulaci testů sloužící k porovnávání středních hodnot dvou základních souborů. S takovým úkolem se při zpracovávání statistických dat setkáváme velice často. Rozlišujeme dva případy: rozptyly v základních souborech shodné (homoskedasticita) a rozptyly jsou různé (heteroskedasticita). Pro každý případ je odvozen jiný test Věta. (Test shody středních hodnot za předpokladu homoskedasticity σ1 2 = σ2) 2 Nechť x 1, x 2,..., x n1 značí hodnoty náhodného výběru z N(µ 1, σ1), 2 y 1, y 2,..., y n2 značí hodnoty náhodného výběru z N(µ 2, σ2), 2 x, y, s 2 x a s 2 y jsou odpovídající hodnoty výběrových průměrů a rozptylů. Testujeme hypotézu, že parametr µ 1 je roven hodnotě µ 2 (σ1 2 = σ2): 2 testové kritérium je statistika kde H : µ 1 = µ 2, t = x y n1 n 2, S n 1 + n 2 [ (n1 1)s 2 x + (n 2 1)s 2 y S = n 1 + n 2 2 která má při platnosti nulové hypotézy H Studentovo rozdělení s ν = n 1 + n 2 2 stupni volnosti. ] 1/2 Podle alternativní hypotézy volíme následující kritické obory: alternativní hypotéza A : µ 1 > µ 2 A : µ 1 < µ 2 A : µ 1 µ 2 kritický obor W α = {t, t t 1 α (ν)} W α = {t, t t 1 α (ν)} W α = { t, t t 1 α 2 (ν)} kde t 1 α, t 1 α 2 jsou kvantily Studentova rozdělení, ν = n 1 + n Příklad. V rámci tělesné výchovy na vysoké škole byl u skupiny studentů (experimentální skupina) zaveden inovovaný způsob tréninku. Ověřte, zda tento nový přístup vede k lepším výkonům. Výsledky ve skoku z místa (v cm) jsou uvedeny v tabulce. Předpokládejte, že se jedná o výběry z normálního rozdělení. Experimentální skupina Srovnávací skupina

137 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 137 Řešení. Základní číselné charakteristiky obou souborů jsou: n 1 = 19, x = 239,368, s x = 11,553, s 2 x = 133,468, n 2 = 15, y = 228,333, s y = 14,105, s 2 y = 198,952. Nejprve otestujeme, za jsou rozptyly o obou souborech stejné. Budeme testovat hypotézu H : σ 2 1 = σ 2 2 proti alternativní hypotéze A : σ 2 1 σ 2 2. Testové kritérium má hodnotu F = s2 x s 2 y = 133, ,952. = 0,671. Kritický obor je W 0,05 : F F 0,025 (18, 14) nebo F F 0,975 (18, 14), tedy F 0,371 nebo F 2,879. Hodnota testového kritéria (0,671) nepadne do kritického oboru, hypotézu o rovnosti rozptylů tedy nemůžeme na hladině významnosti 0,05 zamítnou. Pro další výpočty budeme tedy předpokládat homoskedasticitu (σ1 2 = σ2). 2 Nyní ověříme, zda je možné považovat nový způsob tělesné přípravy za efektivní. Budeme testovat hypotézu H : µ 1 = µ 2 proti alternativě A : µ 1 > µ 2. Testové kritérium má tvar kde S = t = x y S [ (n1 1)s 2 x +(n 2 1)s 2 y n 1 +n 2 2 n1 n 2 n 1 + n 2 = 239, , , = 2,509, ] 1/2 [ ] 1/2 = (19 1) 133,468+(15 1) 198, = 12,733. Kritický obor odpovídající zvolené alternativní hypotéze je W 0,05 : t t 1 0,05 ( ) = t 0,95 (32) = = 1,694. Hodnota testového kritéria padne do kritického oboru (2,509 1,694), proto můžeme tvrdit, že s pravděpodobností 95 % vede inovovaný způsob tréninku k lepším výkonům ve skoku do dálky Poznámka. Daný t-test je možné také spočítat pomocí EXCELu. V záložce Nástroje vybereme položku Analýza dat a z následného dialogového okna zvolíme Dvouvýběrový t-test s rovností rozptylů Věta. (Test shody středních hodnot za předpokladu heteroskedasticity σ 2 1 σ 2 2) Nechť x 1, x 2,..., x n1 značí hodnoty náhodného výběru z N(µ 1, σ 2 1), y 1, y 2,..., y n2 značí hodnoty náhodného výběru z N(µ 2, σ 2 2), x, y, s 2 x a s 2 y odpovídající hodnoty výběrových průměrů a rozptylů. Testujeme hypotézu, že parametr µ 1 je roven hodnotě µ 2 (σ 2 1 σ 2 2): H : µ 1 = µ 2, testové kritérium je statistika t = x y, s 2 x n 1 + s2 y n 2

138 138 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík která má při platnosti nulové hypotézy H přibližně Studentovo rozdělení s ν stupni volnosti. Stupně volnosti daného rozdělení určíme ze vztahu ν zaokrouhleno dolů na nejbližší celé číslo. ( ) s 2 2 x n 1 + s2 y n 2 ( ) 1 s 2 2 ( ) x n 1 1 n s 2 2 y n 2 1 n 2 Podle alternativní hypotézy volíme následující kritické obory: alternativní hypotéza A : µ 1 > µ 2 A : µ 1 < µ 2 A : µ 1 µ 2 kritický obor W α = {t, t t 1 α (ν)} W α = {t, t t 1 α (ν)} W α = { t, t t 1 α 2 (ν)} kde t 1 α, t 1 α jsou kvantily Studentova rozdělení, stupně volnosti ν se určí pomocí 2 zmíněného vztahu Příklad. Supermarket odebírá uzenářské výrobky od dvou dodavatelů. Za důležitou považuje dobu, která uplyne od předání objednávky dodavatelům do okamžiku dodání objednaného zboží. První dodavatel byl testován v 15 případech, průměrná doba čekání na objednané zboží byla 50,5 hod. při výběrovém rozptylu 11,1 hod. 2. U druhého dodavatele uzenin bylo provedeno 10 měření s průměrnou dobou čekání 48,3 hod. a výběrovým rozptylem 2,8 hod. 2. Na 5% hladině významnosti ověřte hypotézu, zda mezi oběma dodavateli existuje takový rozdíl v rychlosti dodávek uzenin, který by byl pro vedení prodejny podstatný. Řešení. Základní číselné charakteristiky jsou: n 1 = 15, x = 50,5, s 2 x = 11,1, n 2 = 10, y = 48,3, s 2 y = 2,8. Nejprve otestujeme, zda jsou rozptyly v obou souborech stejné. Budeme testovat hypotézu H : σ 2 1 = σ 2 2 proti alternativní hypotéze A : σ 2 1 σ 2 2. Testové kritérium má hodnotu F = s2 x s 2 y = 11,1 2,8. = 3,964. Kritický obor je W 0,05 : F F 0,025 (14, 9) nebo F F 0,975 (14, 9), tedy F 0,312 nebo F 3,798. Hodnota testového kritéria (3,964) padne do kritického oboru, hypotézu o rovnosti rozptylů tedy můžeme na hladině významnosti 0,05 zamítnou. Pro další výpočty budeme tedy předpokládat heteroskedasticitu (σ 2 1 σ 2 2).

139 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 139 Protože máme za úkol potvrdit, případně vyvrátit tvrzení, že mezi dodavateli uzenin existuje významný rozdíl, budeme testovat hypotézu H : µ 1 = µ 2 proti alternativě A : µ 1 µ 2. Testové kritérium má tvar ν t = x y s 2 x n 1 + s2 y n 2 = 50,5 48,3 11,1 + 2, Počet stupňů volnosti statistiky t určíme ze vzorce ( ) s 2 2 x n 1 + s2 y ( 11,1 n 2 ( ) 1 s 2 2 x n 1 1 n n 2 1 ( s 2 y n 2 ) 2 = 1 14 ( 11, ) 2, ) = 2,178.. ( 2,8 ) 2 = 21,754 ν = Kritický obor odpovídající zvolené alternativní hypotéze je W 0,05 : t t 1 0,05 (21) = = t 0,95 (21) = 2,080. Hodnota testového kritéria padne do kritického oboru (2,178 2,080), proto můžeme tvrdit, že s pravděpodobností 95 % existuje mezi dodavateli statisticky významný rozdíl Poznámka. Daný t-test je možné také spočítat pomocí EXCELu. V záložce Nástroje vybereme položku Analýza dat a z následného dialogového okna zvolíme Dvouvýběrový t-test s nerovností rozptylů. Test o shodě dvou středních hodnot pro velké nezávislé výběry V případě, že rozdělení základních souborů není známé a rozsahy obou náhodných výběrů jsou dostatečně veliké (větší než 30, při asymetrickém rozdělení lépe větší než 50), můžeme pro testování shody středních hodnot použít centrální limitní větu (viz [Kříž 3], odstavec 5.3). Dostáváme potom testové kritérium, které má asymptoticky normální rozdělení Věta. (Test o shodě dvou středních hodnot pro velké nezávislé výběry) Nechť x 1, x 2,..., x n1 značí hodnoty náhodného výběru z prvního rozdělení, y 1, y 2,..., y n2 značí hodnoty náhodného výběru z druhého rozdělení, x, y, s 2 x a s 2 y jsou odpovídající hodnoty výběrových průměrů a rozptylů. Testujeme hypotézu, že parametr µ 1 je roven hodnotě µ 2 : testové kriterium je statistika H : µ 1 = µ 2, u = x y, s 2 x n 1 + s2 y n 2 která má při platnosti nulové hypotézy H přibližně normální rozdělení N(0, 1).

140 140 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Podle alternativní hypotézy volíme následující kritické obory: alternativní hypotéza kritický obor A : µ 1 > µ 2 W α = {u, u u 1 α } A : µ 1 < µ 2 W α = {u, u u 1 α } A : µ 1 µ 2 W α = { } u, u u 1 α 2 kde u 1 α, u 1 α jsou kvantily rozdělení N(0, 1) Příklad. Na trhu jsou k dispozici 2 typy žárovek. U obou typů bylo provedeno 100 měření životnosti těchto žárovek. U prvního typu byla zjištěna průměrná životnost 1060 hodin s výběrovou smměrodatnou odchylkou 90 hodin, u druhého typu byla naměřena průměrná životnost 1100 hodin se směrodatnou odchylkou 130 hodin. Na hladině významnosti 0,05 ověřte, zda lze u 2. typu žárovek očekávat vyšší životnost. Řešení. 1. typ: n 1 = 100, x = 1060, s x = typ: n 2 = 100, y = 1100, s y = 130 Budeme testovat hypotézu H : µ 1 = µ 2 proti alternativě A : µ 1 < µ 2. Testové kritérium je statistika u = x y s 2 x n 1 + s2 y n 2 = u = = 2,530. Kritický obor odpovídající zvolené alternativní hypotéze je W 0,05 : u u 1 0,05 = = u 0.95 = 1,645. Hodnota testového kritéria padne do kritického oboru ( 2,530 1,645), čímž jsme na hladině významnosti 0,05 prokázali, že životnost prvního typu žárovek je menší než životnost druhého typu Poznámka. Daný test je možné také spočítat pomocí EXCELu. V záložce Nástroje vybereme položku Analýza dat a z následného dialogového okna zvolíme Dvouvýběrový z-test na střední hodnotu. Test o shodě dvou středních hodnot pro závislé výběry (párový test) Uvažujme situaci, kdy ve výběru o rozsahu n spolu vždy 2 měření určitým způsobem souvisí (např. měření na jednom prvku je provedeno dvakrát za různých podmínek). Uvažujeme tedy dvě závislé náhodné veličiny X a Y se středními hodnotami µ 1 a µ 2, u kterých nás budou zajímat jejich diference D = X Y. Předpokládejme, že máme náhodný výběr D 1, D 2,..., D n, kde diference D i = X i Y i mají normální rozdělení N(µ, σ 2 ), kde µ = µ 1 µ 2 (σ 2 není třeba znát). Statistika T = D µ S D n, kde D je výběrový průměr diferencí a S D je výběrová směrodatná odchylka diferencí, má potom Studentovo rozdělení s ν = n 1 stupni volnosti. Jedná se vlastně o jednovýběrový t-test aplikovaný na diference.

141 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Věta. (Párový t-test) Nechť d 1 = x 1 y 1, d 2 = x 2 y 2,..., d n = x n y n jsou naměřené hodnoty diferencí, d je jejich průměr a s d jejich výběrová směrodatná odchylka. Testujeme hypotézu, že parametr µ 1 je roven hodnotě µ 2 : testové kritérium je statistika H : µ 1 = µ 2, t = d s d n, která má při platnosti nulové hypotézy H Studentovo rozdělení s ν = n 1 stupni volnosti. Podle alternativní hypotézy volíme následující kritické obory: alternativní hypotéza A : µ 1 > µ 2 A : µ 1 < µ 2 A : µ 1 µ 2 kritický obor W α = {t, t t 1 α (ν)} W α = {t, t t 1 α (ν)} W α = { t, t t 1 α 2 (ν)} kde t 1 α, t 1 α jsou kvantily Studentova rozdělení, ν = n Příklad. Firma provedla test znalostí angličtiny u svých devíti zaměstnanců. Poté jim zaplatila jazykový kurz a po něm opět otestovala jejich znalosti. Počty bodu získané jednotlivými zaměstnanci před a po kursu zachycuje tabulka: Zaměstnanec Před kurzem Po kurzu Na hladině významnosti 0,05 ověřte, zda došlo k významnému zlepšení znalostí angličtiny. Řešení. Ze zadání vyplývá, že se jedná o závislé výběry, pro testování použijeme tedy párového testu. Nejprve určíme hodnoty diferencí d i = x i y i. x i y i d i Průměr diferencí d = 3, výběrová směrodatná odchylka diferencí s d = 3,640. Budeme testovat hypotézu H : µ 1 = µ 2 proti alternativě A : µ 1 < µ 2 vyjadřující, že došlo ke zlepšení znalostí angličtiny po absolvování kurzu. Testové kritérium t = d s d n = = 2,472. 3,640

142 142 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík Kritický obor W 0,05 : t t 1 0,05 (9) = t 0,95 (9) = 1,860. Jelikož hodnota testového kritéria padne do kritického oboru, můžeme s pravděpodobnosti 95 % tvrdit, že kurz měl pozitivní dopad na znalosti angličtiny Poznámka. Párový test je možné také spočítat pomocí EXCELu. V záložce Nástroje vybereme položku Analýza dat a z následného dialogového okna zvolíme Dvouvýběrový párový t-test na střední hodnotu. Test o shodě dvou pravděpodobností pro velké nezávislé výběry Nechť π 1 je pravděpodobnost úspěchu v 1 pokusu. Opakujeme-li nezávisle tento pokus n 1 -krát, náhodná veličina X udávající celkový počet úspěchů v těchto n 1 pokusech má binomické rozdělení B(n 1, π 1 ) 7. Opakujeme-li tento pokus n 2 -krát za jiných podmínek, úspěch nastane s pravděpodobností π 2. Náhodná veličina Y udávající celkový počet úspěchů v těchto n 2 pokusech má potom binomické rozdělení B(n 2, π 2 ) 8. Označme p 1 = X/n 1 a p 2 = Y/n 2. Z centrální limitní věty pro velké hodnoty n 1 a n 2 potom vyplývá, že ( p 1 N π 1, π ) ( 1(1 π 1 ), p 1 N π 2, π ) 2(1 π 2 ). n 1 n 2 Tohoto výsledku použijeme při konstrukci testu o shodě 2 podílů Věta. (Test o shodě dvou pravděpodobností pro velké nezávislé výběry) Nechť x 1, x 2,..., x n1 značí hodnoty náhodného výběru z alternativního rozdělení A(π 1 ), y 1, y 2,..., y n2 značí hodnoty náhodného výběru z alternativního rozdělení A(π 2 ), p 1 = ˆπ 1 = n 1 i=1 x i/n 1, označme p 2 = ˆπ 2 = n 2 i=1 y i/n 2 odhady pravděpodobností (podílů) π 1 a π 2. Testujeme hypotézu, že parametr π 1 je roven hodnotě π 2 : testové kritérium je statistika H : π 1 = π 2, u = p 1 p 2, p 1 (1 p 1 ) n 1 + p 2(1 p 2 ) n 2 která má při platnosti nulové hypotézy H přibližně normální rozdělení N(0, 1). Podle alternativní hypotézy volíme následující kritické obory: 7 X = X 1 + X X n1, kde X i i = 1,..., n 1 jsou nezávislé náhodné veličiny s alternativním rozdělením A(π 1 ) 8 Y = Y 1 + Y Y n2, kde Y i i = 1,..., n 2 jsou nezávislé náhodné veličiny s alternativním rozdělením A(π 2 )

143 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 143 alternativní hypotéza kritický obor A : π 1 > π 2 W α = {u, u u 1 α } A : π 1 < π 2 W α = {u, u u 1 α } A : π 1 π 2 W α = { } u, u u 1 α 2 kde u 1 α, u 1 α jsou kvantily rozdělení N(0, 1) Poznámka.Uvedený test je vhodné použít, pokud platí, že n 1 p 1 (1 p 1 ) 9 a n 2 p 2 (1 p 2 ) Příklad. Máme k dispozici údaje o počtu narozených dětí v rámci dvou regionů. V regionu A zjistili, že během sledovaného období se v rámci 120 dětí narodilo 51 chlapců, zatímco v regionu B se za stejné období narodilo celkem 150 dětí, z toho 66 děvčat. Je možné konstatovat, že pravděpodobnost narození chlapce je u obou regionů stejná? Řešení. Region A: n 1 = 120, p 1 = 51 = 0, Region B: n 2 = 150, p 2 = = 0, Budeme testovat hypotézu H : π 1 = π 2 vyjadřující, že pravděpodobnost narození chlapce je v obou regionech stejná, proti alternativní hypotéze A : π 1 π 2 (pravděpodobnost narození chlapce stejná není). Testové kritérium je statistika u = p 1 p 2 = p 1 (1 p 1 ) n 1 + p 2(1 p 2 ) n 2 0,425 0,56 0,425(1 0,425) + 0,56(1 0,56) = 2,226. Kritický obor odpovídající zvolené alternativní hypotéze je W 0,05 : u u 1 0,05/2 = = u 0,975 = 1,96. Jelikož 2,226 1,96, hodnota testového kritéria padne do kritického oboru. Můžeme tedy se spolehlivostí 95 % tvrdit, že pravděpodobnost narození chlapce není v obou regionech stejná. Výpočet dvouvýběrových testů pomocí aplikace STAT1 Pro účely výuky předmětu Statistika I byla vytvořena aplikace STAT1, pomocí níž je možné provádět mimo základního zpracování dat i testování statistických hypotéz. Zaměříme s nyní na problematiku dvouvýběrových testů. STAT1 obsahuje dvouvýběrové testy středních hodnot a rozptylů pro výběry z normálního rozdělení (list 2Vnormální ), dvouvýběrové testy středních hodnot pro výběry velkého rozsahu (list 2Vlibovolné ), dvouvýběrový test středních hodnot pro závislé výběry (list 2V-párový test ) a dvouvýběrový test o shodě podílů (list 1V a 2V-podíly ). Ukážeme nyní, jak je možné použít tuto pomůcku na datech z příkladu popisující výkony ve skoku z místa u experimentální a srovnávací skupiny studentů. Nejprve zvolíme list 2V-normální v horní části vybereme ze seznamu odpovídající data. Jako

144 144 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík první výběr zvolíme např. experimentální skupinu, jako druhý potom srovnávací skupinu. Pro vybraná data jsou spočteny základní charakteristiky (rozsah, průměr, výběrová směrodatná odchylka a výběrový rozptyl). V pravé části zvolíme hladinu významnosti, v našem případě 0,05. Podle předpokladu se má jednat o výběry z normálního rozdělení, proto musíme nejprve rozhodnout, zda je možné považovat rozptyly v obou souborech za shodné (homoskedasticita) nebo rozdílné (heteroskedasticita). Budeme tedy testovat hypotézu H : σ 2 1 = σ 2 2 proti alternativě A : σ 2 1 σ 2 2. Ze tří nabídnutých altervativ v části 1. Testy hypotéz a shodě rozptylů zvolíme tu první (σ 2 1 σ 2 2). Získáme následující výsledky: hodnota testového kritéria F = 0,671, kritické hodnoty (kvantily F -rozdělení) jsou F 0,025 (18, 14) = 0,371 a F 0,975 (18, 14) = 2,897, p-hodnota je 0,421. Dále je přímo určeno, zda hodnota testového kritéria padne do kritického oboru (v našem případě tomu tak není - výsledek ne ), tudíž nelze hypotézu H na hladině významnosti 0,05 zamítnou. Pro další výpočty budeme předpokládat homoskedasticitu. I tyto závěry jsou součástí výstupu spočítaného pomocí STAT1. Obr Výpočet F a t testu pro 2 nezávislé výběry z normálního rozdělení pomocí STAT1 Nyní přistoupíme k samotnému testu shody středních hodnot za předpokladu shodných rozpylů (viz výsledek F -testu). Budeme chtít prokázat, že studenti v experimentální skupině dosahují v průměru lepších výsledků ve skoku než studenti ze skupiny srovnávací. V části 2. Testy hypotéz o shodě středních hodnot za předpokladu homoskedasticity zvolíme alternativní hypotézu µ 1 > µ 2. Získáme tyto výsledky: hodnota testového kritéria t = 2,509, kritická hodnota (kvantil t-rozdělení) t 0,95 (32) = 1,694, p-hodnota je 0,009. Hodnota testového kritéria padne do kritického oboru (výsledek

Pojem a úkoly statistiky

Pojem a úkoly statistiky Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby

Více

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti. Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je

Více

Sázíte-li v loterii, je to hazard. Hrajete-li poker, je to zábava. Obchodujete-li na burze, je to ekonomie. Vidíte ten rozdíl?

Sázíte-li v loterii, je to hazard. Hrajete-li poker, je to zábava. Obchodujete-li na burze, je to ekonomie. Vidíte ten rozdíl? 1.1 Základní statistické pojmy a metody Sázíte-li v loterii, je to hazard. Hrajete-li poker, je to zábava. Obchodujete-li na burze, je to ekonomie. Vidíte ten rozdíl? 1 Co se dozvíte Co je to statistika

Více

2.5 STATISTISKÉ ZJIŠŤOVÁNÍ, ZÁKLADNÍ STATISTICKÉ POJMY

2.5 STATISTISKÉ ZJIŠŤOVÁNÍ, ZÁKLADNÍ STATISTICKÉ POJMY Základní statistické pojmy Aleš Drobník strana 1 2.5 STATISTISKÉ ZJIŠŤOVÁNÍ, ZÁKLADNÍ STATISTICKÉ POJMY Organizace (zpravodajská jednotka) provádějí různé druhy statistického zjišťování z důvodu: vlastní

Více

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL Matematika a stejně i matematická statistika a biometrie s námi hovoří řečí čísel. Musíme tedy vlastnosti nebo intenzitu vlastností jedinců změřit kvantifikovat. Měřením

Více

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti ZÁKLADNÍ STATISTICKÉ POJMY HROMADNÝ JEV Statistika pracuje s tzv. HROMADNÝMI JEVY cílem statistického zpracování dat je podání informace o vlastnostech a zákonitostech hromadných jevů: velkého počtu jedinců

Více

STATISTIKA jako vědní obor

STATISTIKA jako vědní obor STATISTIKA jako vědní obor Cílem statistického zpracování dat je podání informace o vlastnostech a zákonitostech hromadných jevů. Statistika se zabývá popisem hromadných jevů - deskriptivní, popisná statistika

Více

statistiky Základy Aplikace v technických a ekonomických oborech Jiří Neubauer, Marek Sedlačík, Oldřich Kříž

statistiky Základy Aplikace v technických a ekonomických oborech Jiří Neubauer, Marek Sedlačík, Oldřich Kříž Jiří Neubauer, Marek Sedlačík, Oldřich Kříž Základy statistiky Aplikace v technických a ekonomických oborech měření a zjišťování teoretické modely empirické modely základy induktivní statistiky počítačové

Více

Z HISTORIE STATISTIKY

Z HISTORIE STATISTIKY Z HISTORIE STATISTIKY Slovo STATISTIKA má latinský základ: status = stav, ale také stát = stav věcí veřejných). Tento pojem dal statistice nejen název, ale také náplň. Několik tisíc let př. n. l. ve staré

Více

statistiky Základy Aplikace v technických a ekonomických oborech Jiří Neubauer, Marek Sedlačík, Oldřich Kříž

statistiky Základy Aplikace v technických a ekonomických oborech Jiří Neubauer, Marek Sedlačík, Oldřich Kříž Jiří Neubauer, Marek Sedlačík, Oldřich Kříž Základy statistiky Aplikace v technických a ekonomických oborech měření a zjišťování teoretické modely empirické modely základy induktivní statistiky počítačové

Více

1 Statistická data a jejich prezentace 1.1 Co je to statistika

1 Statistická data a jejich prezentace 1.1 Co je to statistika 1 Statistická data a jejich prezentace 1.1 Co je to statistika S pojmem»statistika«se můžete v praxi setkat hned ve čtyřech různých významech, které spolu souvisí: 1. Statistika jako údaj nebo souhrn údajů,

Více

statistiky Základy Jiří Neubauer, Marek Sedlačík, Oldřich Kříž

statistiky Základy Jiří Neubauer, Marek Sedlačík, Oldřich Kříž Jiří Neubauer, Marek Sedlačík, Oldřich Kříž Základy statistiky Aplikace v technických a ekonomických oborech 2., rozšířené vydání měření a zjišťování teoretické modely empirické modely základy induktivní

Více

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU vyučující doc. RNDr. Jiří Zháněl, Dr. M I 4 Metodologie I 7. ANALÝZA DAT (KVANTITATIVNÍ VÝZKUM) (MATEMATICKÁ) STATISTIKA DESKRIPTIVNÍ (popisná) ANALYTICKÁ

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení

Více

Úvodní statistické pojmy

Úvodní statistické pojmy Úvodní statistické pojmy STATISTIKA Statistika vznikla z úředních zjišťování (počtu lidí a jejich majetku), univerzitní státovědy, politické aritmetiky (zkoumání společenských jevů na podkladě objektivních

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

Náhodné (statistické) chyby přímých měření

Náhodné (statistické) chyby přímých měření Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně

Více

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) . Statistika Základní pojmy a cíle statistiky Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Statistika Pojmy a cíle

Více

Základy biostatistiky

Základy biostatistiky Základy biostatistiky Veřejné zdravotnictví 3.LF UK Viktor Hynčica Úvod se statistikou se setkáváme denně ankety proč se statistika začala používat ve zdravotnictví skupinový přístup k léčení celé populace

Více

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Zdeněk Karpíšek Jsou tři druhy lží: lži, odsouzeníhodné lži a statistiky. Statistika je logická a přesná metoda, jak nepřesně

Více

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.) Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná

Více

Popisná statistika - úvod

Popisná statistika - úvod Popisná statistika - úvod 1 Popisná statistika - úvod zjišťuje (získává) a poskytuje číselné i slovní údaje (informace); o jevech hromadné povahy; v oblasti ekonomiky a společnosti. Zcela obecně pak při

Více

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia.

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia. Úvod (Proč se zabývat statistikou?) Statistika je metoda analýzy dat, která nachází široké uplatnění v celé řadě ekonomických, technických, přírodovědných a humanitních disciplín. Její význam v poslední

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Statistická šetření - PROČ? Žádná věda není skutečnou vědou, není-li podložena matematickými principy. (L.da Vinci)

Statistická šetření - PROČ? Žádná věda není skutečnou vědou, není-li podložena matematickými principy. (L.da Vinci) Statistická šetření - PROČ? Žádná věda není skutečnou vědou, není-li podložena matematickými principy. (L.da Vinci) Statistická šetření - na kom / čem? statistické jednotky (S.J.) 1 respondent (pacient,

Více

1. Statistická analýza dat Jak vznikají informace Rozložení dat

1. Statistická analýza dat Jak vznikají informace Rozložení dat 1. Statistická analýza dat Jak vznikají informace Rozložení dat J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Význam statistické analýzy dat Sběr a vyhodnocování dat je způsobem k uchopení a pochopení

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení ze 4ST201. Na případné faktické chyby v této prezentaci mě prosím upozorněte. Děkuji Tyto slidy berte pouze jako doplňkový materiál není v nich obsaženo

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní ŘEŠENÍ PRAKTICKÝCH ÚLOH UŽITÍM SOFTWARE STAT1 A R Obsah 1 Užití software STAT1 1 2 Užití software R 3 Literatura 4 Příklady k procvičení 6 1 Užití software STAT1 Praktické užití aplikace STAT1 si ukažme

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

PRAVDĚPODOBNOST A STATISTIKA 1 Metodický list č 1.

PRAVDĚPODOBNOST A STATISTIKA 1 Metodický list č 1. Metodický list č 1. Název tématického celku: Elementární statistické zpracování 1 - Kolekce a interpretace statistických dat, základní pojmy deskriptivní statistiky. Cíl: Základním cílem tohoto tematického

Více

2. Statistická terminologie a vyjadřovací prostředky. 2.1. Statistická terminologie. Statistická jednotka

2. Statistická terminologie a vyjadřovací prostředky. 2.1. Statistická terminologie. Statistická jednotka 2. Statistická terminologie a vyjadřovací prostředky 2.1. Statistická terminologie Statistická jednotka Statistická jednotka = nositel statistické informace, elementární prvek hromadného jevu. Příklady:

Více

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod. P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod. Matematický přístup k výsledkům únavových zkoušek Náhodnost výsledků únavových zkoušek. Únavové

Více

Renáta Bednárová STATISTIKA PRO EKONOMY

Renáta Bednárová STATISTIKA PRO EKONOMY Renáta Bednárová STATISTIKA PRO EKONOMY ZÁKLADNÍ STATISTICKÉ POJMY Statistika Statistický soubor Statistická jednotky Statistický znak STATISTIKA Vědní obor, který se zabývá hromadnými jevy Hromadné jevy

Více

Fyzikální veličiny. - Obecně - Fyzikální veličiny - Zápis fyzikální veličiny - Rozměr fyzikální veličiny. Obecně

Fyzikální veličiny. - Obecně - Fyzikální veličiny - Zápis fyzikální veličiny - Rozměr fyzikální veličiny. Obecně Fyzikální veličiny - Obecně - Fyzikální veličiny - Zápis fyzikální veličiny - Rozměr fyzikální veličiny Obecně Fyzika zkoumá objektivní realitu - hmotu - z určité stránky. Zabývá se její látkovou formou

Více

Teorie pravěpodobnosti 1

Teorie pravěpodobnosti 1 Teorie pravěpodobnosti 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Náhodný jev a pravděpodobnost Každou zákonitost sledovanou v přírodě lze zjednodušeně charakterizovat jako

Více

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D. Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní

Více

Jednostranné intervaly spolehlivosti

Jednostranné intervaly spolehlivosti Jednostranné intervaly spolehlivosti hledáme jen jednu z obou mezí Princip: dle zadání úlohy hledáme jen dolní či jen horní mez podle oboustranného vzorce s tou změnou, že výraz 1-α/2 ve vzorci nahradíme

Více

Základní pojmy a cíle statistiky 1

Základní pojmy a cíle statistiky 1 Základní pojmy a cíle statistiky 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Předmět zkoumání Statistiky Definice statistiky Statistika zasahuje do mnoha oblastí našeho moderního

Více

Úvod do studia statistiky. 1. Významy pojmu statistika

Úvod do studia statistiky. 1. Významy pojmu statistika Přednáška 1/ 1 Úvod do studia statistiky 1. Významy pojmu statistika Co o ní asi všichni víme Statistika je přesný součet nepřesných čísel Statistika nuda je, má však cenné údaje Věřím jen těm statistikám,

Více

Vysoká škola báňská - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra aplikované matematiky STATISTIKA I.

Vysoká škola báňská - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra aplikované matematiky STATISTIKA I. Vysoká škola báňská - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra aplikované matematiky STATISTIKA I. pro kombinované a distanční studium Radim Briš Martina Litschmannová

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) = Základní rozdělení pravděpodobnosti Diskrétní rozdělení pravděpodobnosti. Pojem Náhodná veličina s Binomickým rozdělením Bi(n, p), kde n je přirozené číslo, p je reálné číslo, < p < má pravděpodobnostní

Více

Statistické metody uţívané při ověřování platnosti hypotéz

Statistické metody uţívané při ověřování platnosti hypotéz Statistické metody uţívané při ověřování platnosti hypotéz Hypotéza Domněnka, předpoklad Nejčastěji o rozdělení, středních hodnotách, závislostech, Hypotézy ve vědeckém výzkumu pracovní, věcné hypotézy

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

VÝBĚR A JEHO REPREZENTATIVNOST

VÝBĚR A JEHO REPREZENTATIVNOST VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí malého vzorku, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU:

Více

Statistika. Klíčové kompetence V rámci výuky statistiky jsou naplňovány tyto klíčové kompetence: řešení problémů, komunikativní,

Statistika. Klíčové kompetence V rámci výuky statistiky jsou naplňovány tyto klíčové kompetence: řešení problémů, komunikativní, Dodatek č. 5. Školního vzdělávacího programu Obchodní akademie Lysá nad Labem, obor 63-41-M/02 Obchodní akademie, platného od 1. 9. 2012 - platnost od 1. 9. 2015 Statistika je povinný předmět pro 2. ročník,

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Název školy Gymnázium, Šternberk, Horní nám. 5 Číslo projektu CZ.1.07/1.5.00/34.0218 Šablona III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Označení materiálu VY_32_INOVACE_Hor017 Vypracoval(a),

Více

Statistika I (KMI/PSTAT)

Statistika I (KMI/PSTAT) Statistika I (KMI/PSTAT) Cvičení první aneb Sumační symbolika, úvod do popisné statistiky Statistika I (KMI/PSTAT) 1 / 15 Obsah hodiny Po dnešní hodině byste měli být schopni: správně používat sumační

Více

Náhodné chyby přímých měření

Náhodné chyby přímých měření Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.

Více

Diskrétní náhodná veličina

Diskrétní náhodná veličina Lekce Diskrétní náhodná veličina Výsledek náhodného pokusu může být vyjádřen slovně to vede k zavedení pojmu náhodného jevu Výsledek náhodného pokusu můžeme někdy vyjádřit i číselně, což vede k pojmu náhodné

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

1. Matematická logika

1. Matematická logika MATEMATICKÝ JAZYK Jazyk slouží člověku k vyjádření soudů a myšlenek. Jeho psaná forma má tvar vět. Každá vědní disciplína si vytváří svůj specifický jazyk v úzké návaznosti na jazyk živý. I matematika

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 1. KAPITOLA - PRAVDĚPODOBNOST 2.10.2017 Kontakt Mgr. Jana Sekničková, Ph.D. jana.seknickova@vse.cz Katedra softwarového inženýrství Fakulta

Více

Tabulka 1. Výběr z datové tabulky

Tabulka 1. Výběr z datové tabulky 1. Zadání domácího úkolu Vyberte si datový soubor obsahující alespoň jednu kvalitativní a jednu kvantitativní proměnnou s alespoň 30 statistickými jednotkami (alespoň 30 jednotlivých údajů). Zdroje dat

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi

Více

Úvod do analýzy rozptylu

Úvod do analýzy rozptylu Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme

Více

Vybraná rozdělení náhodné veličiny

Vybraná rozdělení náhodné veličiny 3.3 Vybraná rozdělení náhodné veličiny 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Rozdělení Z 3 4 5 6 7 8 9 10 11 12 13 14 15 Život je umění vytvářet uspokojivé závěry na základě nedostatečných předpokladů.

Více

Reálná čísla a výrazy. Početní operace s reálnými čísly. Složitější úlohy se závorkami. Slovní úlohy. Číselné výrazy. Výrazy a mnohočleny

Reálná čísla a výrazy. Početní operace s reálnými čísly. Složitější úlohy se závorkami. Slovní úlohy. Číselné výrazy. Výrazy a mnohočleny A B C D E F 1 Vzdělávací oblast: Matematika a její aplikace 2 Vzdělávací obor: Cvičení z matematiky 3 Ročník: 9. 4 Klíčové kompetence (Dílčí kompetence) 5 Kompetence k učení učí se vybírat a využívat vhodné

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

Třídění statistických dat

Třídění statistických dat 2.1 Třídění statistických dat Všechny muže ve městě rozdělíme na 2 skupiny: A) muži, kteří chodí k holiči B) muži, kteří se holí sami Do které skupiny zařadíme holiče? prof. Raymond M. Smullyan, Dr. Math.

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací! Statistika aneb známe tři druhy lži: úmyslná neúmyslná statistika Statistika je metoda, jak vyjádřit nejistá data s přesností na setinu procenta. den..00..00 3..00..00..00..00..00..00..00..00..00..00 3..00..00..00..00..00..00..00

Více

Mezinárodní výzkum PISA 2009

Mezinárodní výzkum PISA 2009 Mezinárodní výzkum PISA 2009 Zdroj informací: Palečková, J., Tomášek, V., Basl, J,: Hlavní zjištění výzkumu PISA 2009 (Umíme ještě číst?). Praha: ÚIV 2010. Palečková, J., Tomášek V. Hlavní zjištění PISA

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky V této kapitole se seznámíme se základy popisné statistiky, představíme si základní pojmy a budeme si je ilustrovat na praktických příkladech. Kapitola je psána formou volného

Více

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY Test z teorie 1. Střední hodnota pevně zvolené náhodné veličiny je a) náhodná veličina, b) konstanta, c) náhodný jev, d) výběrová charakteristika. 2. Výběrový

Více

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,

Více

Téma číslo 5 Základy zkoumání v pedagogice II (metody) Pavel Doulík, Úvod do pedagogiky

Téma číslo 5 Základy zkoumání v pedagogice II (metody) Pavel Doulík, Úvod do pedagogiky Téma číslo 5 Základy zkoumání v pedagogice II (metody) Pavel Doulík, Úvod do pedagogiky 1 Teoretická východiska empirického zkoumání pedagogických jevů. Typy výzkumů, jejich různá pojetí. Základní terminologie

Více

2. Množiny, funkce. Poznámka: Prvky množiny mohou být opět množiny. Takovou množinu, pak nazýváme systém množin, značí se

2. Množiny, funkce. Poznámka: Prvky množiny mohou být opět množiny. Takovou množinu, pak nazýváme systém množin, značí se MNOŽIN, ZÁKLDNÍ POJMY Pojem množiny patří v matematice ke stěžejním. Nelze jej zavést ve formě definice pomocí primitivních pojmů; považuje se totiž rovněž za pojem primitivní. Představa o pojmu množina

Více

Určeno studentům středního vzdělávání s maturitní zkouškou, předmět: Marketing a management, téma: Marketingový výzkum

Určeno studentům středního vzdělávání s maturitní zkouškou, předmět: Marketing a management, téma: Marketingový výzkum Určeno studentům středního vzdělávání s maturitní zkouškou, předmět: Marketing a management, téma: Marketingový výzkum Pracovní list vytvořila: Mgr. Radka Drobná Období vytvoření VM: duben 2012 Klíčová

Více

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Množiny, funkce

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Množiny, funkce Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/07.0018 2. Množiny, funkce MNOŽIN, ZÁKLDNÍ POJMY Pojem množiny patří v matematice ke stěžejním. Nelze jej zavést ve formě definice pomocí

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

PROHLOUBENÍ NABÍDKY DALŠÍHO VZDĚLÁVÁNÍ NA VŠPJ A SVOŠS V JIHLAVĚ

PROHLOUBENÍ NABÍDKY DALŠÍHO VZDĚLÁVÁNÍ NA VŠPJ A SVOŠS V JIHLAVĚ Projekt č. CZ.1.07/3.2.09/03.0015 PROHLOUBENÍ NABÍDKY DALŠÍHO VZDĚLÁVÁNÍ NA VŠPJ A SVOŠS V JIHLAVĚ http://www.vspj.cz/skola/evropske/opvk Tento projekt je spolufinancován Evropským sociálním fondem a státním

Více

Gymnázium, Český Krumlov

Gymnázium, Český Krumlov Gymnázium, Český Krumlov Vyučovací předmět Fyzika Třída: 6.A - Prima (ročník 1.O) Úvod do předmětu FYZIKA Jan Kučera, 2011 1 Organizační záležitosti výuky Pomůcky související s výukou: Pracovní sešit (formát

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení. + odevzdání seminární práce (úkoly na PC)

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení. + odevzdání seminární práce (úkoly na PC) STATISTIKA 1 RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení + odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců) KONZULTACE Není hanba, že nevíš, ale že se neptáš.

Více

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 4. října 2018 Podmíněná pravděpodobnost Při počítání pravděpodobnosti můžeme k náhodnému pokusu přidat i nějakou dodatečnou podmínku. Podmíněná pravděpodobnost

Více

STATISTIKA LS 2013. Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D.

STATISTIKA LS 2013. Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D. STATISTIKA LS 2013 Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D. Cvičící: Ing. Ondřej Grunt RNDr. Pavel Jahoda, Ph.D. Ing. Kateřina Janurová Mgr. Tereza

Více

GEN104 Koncipování empirického výzkumu

GEN104 Koncipování empirického výzkumu GEN104 Koncipování empirického výzkumu Hypotézy Proměnné Konceptualizace Operacionalizace Měření Indikátory Využity podklady Mgr. K. Nedbálkové, Ph.D. etapy výzkumu I Formulace problému (čtu, co se ví,

Více

Mark tingový výzkum. Téma. Marketingový výzkum. Realizace. Tomek - Vávrová Katedra ekonomiky, manažerství a humanitních věd FEL-ČVUT Y16MVY

Mark tingový výzkum. Téma. Marketingový výzkum. Realizace. Tomek - Vávrová Katedra ekonomiky, manažerství a humanitních věd FEL-ČVUT Y16MVY Marketingový výzkum Realizace Tomek - Vávrová YMVY Proces marketingového výzkumu Návrh projektu výzkumu Stanovení zdrojů a způsobu získávání informací Sběr informací Vyhodnocení výzkumu a interpretace

Více

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného

Více

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů) VYBRANÉ TESTY NEPARAMETRICKÝCH HYPOTÉZ TESTY DOBRÉ SHODY Název testu Předpoklady testu Testová statistika Nulové rozdělení test dobré shody Očekávané četnosti, alespoň 80% očekávaných četností >5 ( ) (p

Více

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule

Více

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}.

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}. 5. Náhodná veličina Poznámka: Pro popis náhodného pokusu jsme zavedli pojem jevového pole S jako množiny všech možných výsledků a pravděpodobnost náhodných jevů P jako míru výskytů jednotlivých výsledků.

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Pravděpodobnost je. Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Pravděpodobnost je. Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava Pravděpodobnost je Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava ŠKOMAM, 24. 1. 2017 Čím se zabývá teorie pravděpodobnosti? Pokus děj, který probíhá, resp. nastává opakovaně

Více

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2 Na úloze ukážeme postup analýzy velkého výběru s odlehlými prvky pro určení typu rozdělení koncentrace kyseliny močové u 50 dárců krve. Jaká je míra polohy a rozptýlení uvedeného výběru? Z grafických diagnostik

Více

1. Matematická logika

1. Matematická logika Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/07.0018 1. Matematická logika Základem každé vědy (tedy i matematiky i fyziky) je soubor jistých znalostí. To, co z těchto izolovaných poznatků

Více

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce

Více

STATISTICKÉ PROGRAMY

STATISTICKÉ PROGRAMY Slezská univerzita v Opavě Obchodně podnikatelská fakulta v Karviné STATISTICKÉ PROGRAMY VYUŽITÍ EXCELU A SPSS PRO VĚDECKO-VÝZKUMNOU ČINNOST Elena Mielcová, Radmila Stoklasová a Jaroslav Ramík Karviná

Více

Hodnocení kvality logistických procesů

Hodnocení kvality logistických procesů Téma 5. Hodnocení kvality logistických procesů Kvalitu logistických procesů nelze vyjádřit absolutně (nelze ji měřit přímo), nýbrž relativně porovnáním Hodnoty těchto znaků někdo buď předem stanovil (norma,

Více