JIHOČESKÁ UNIVERZITA, PEDAGOGICKÁ FAKULTA ÚVOD DO STATISTIKY. Tomáš MRKVIČKA, Vladimíra PETRÁŠKOVÁ

Transkript

1

2 JIHOČESKÁ UNIVERZITA, PEDAGOGICKÁ FAKULTA ÚVOD DO STATISTIKY Tomáš MRKVIČKA, Vladimíra PETRÁŠKOVÁ ČESKÉ BUDĚJOVICE 2006

3 Recenzenti: prof. RNDr. Jindřich Klůfa, CSc., doc. RNDr. Pavel Tlustý, CSc. c Tomáš Mrkvička, Vladimíra Petrášková, 2006 ISBN

4 Obsah 1 Zpracování statistického materiálu Rozloženíčetnostíajejichznázornění Charakteristikypolohy Charakteristikyvariability Teorie pravděpodobnosti Náhodnéveličiny Náhodnévektory Základnírozdělenínáhodnýchveličin Normálnírozděleníarozděleníznějodvozená Pearsonovorozdělení Studentovorozdělení Fisherovo-Snedecorovorozdělení

5 2 OBSAH 2.5 Kritickéhodnoty Náhodný výběr 35 4 Odhady parametrů Intervalové odhady pro parametry normálního rozdělení IntervalovýodhadstředníhodnotypomocíCLV Parametrické testy Jednovýběrovýttest Testorozptylunormálníhorozdělení Párovýttest Dvouvýběrovýttest Testshodnostidvourozptylů Porovnávání středních hodnot při nestejných rozptylech TestostředníhodnotěpomocíCLV Neparametrické testy Znaménkovýtest JednovýběrovýWilcoxonůvtest DvouvýběrovýWilcoxonůvtest... 63

6 OBSAH 3 7 Porovnání více výběrů Analýzarozptylujednoduchéhotřídění Kruskalův-Wallisůvtest Analýzarozptyludvojnéhotřídění Friedmanůvtest Lineární regrese Lineárníregresesjednouvysvětlujícíproměnnou Lineárníregresesvícevysvětlujícímiproměnnými Polynomiálníregrese Nelineárníregrese Korelační analýza Výběrovýkorelačníkoeficient Spearmanůvkorelačníkoeficient Testy dobré shody Pearsonův χ 2 test Testnormality TestPoissonovarozdělení

7 4 OBSAH 10.4 Kolmogorovův-Smirnovůvjednovýběrovýtest Kontingenční tabulky Testnezávislosti Testhomogenitymultinomickýchrozdělení Test χ 2 večtyřpolníchtabulkách Fisherůvfaktoriálovýtest McNemarůvtest Testsymetrie Statistické tabulky 123

8 Předmluva Statistika je v dnešní době nedílnou součástí každodenního života. Setkáváme se s ní na každém kroku(např. při zpracování výsledků sčítání lidu, voleb, při zpracování výsledků získaných laboratorní cestou atd.). Díky množství zpracovávaných dat se dnes do popředí zájmu dostává statistický software, bez kterého bychom se neobešli. Užití statistického softwaru má však svá úskalí. Člověk, který neovládá základy teorie z oblasti statistky a který se zaměří pouze na počítačové zpracování dat(včetně jejich interpretace), může dojít k chybným závěrům. I statistické testy mají totiž své předpoklady, bez jejichž ověření užití testu nemusí vést ke správnému výsledku. Cílem této knihy je podat ucelený přehled o základních statistických testech, které jsou nedílnou součástí každého statistického software. Kniha je určena pro všechny, kteří se chtějí seznámit se základy statistiky. V úvodních částech knihy jsou stručně shrnuty základy teorie pravděpodobnosti. Poté následují parametrické testy a neparametrické testy, základy analýzy rozptylu, korelační analýza, testy dobré shody a základní testy v kontingenčních tabulkách. Jednotlivé kapitoly jsou doprovázeny řešenými příklady, které čtenáři napomohou k lepšímu pochopení dané problematiky. V závěru knihy jsou uvedeny statistické tabulky, které napomáhají tomu, že kniha je relativně samostatná. Autoři chtějí také touto cestou poděkovat recenzentům prof. RNDr. JindřichuKlůfovi,CSc.adoc.RNDr.PavluTlustému,CSc.zapřečtenítextua cenné připomínky. V Českých Budějovicích v listopadu 2006 Tomáš Mrkvička a Vladimíra Petrášková 5

9 6 OBSAH

10 Kapitola 1 Zpracování statistického materiálu Dříve než se začneme zaobírat základními statistickými metodami, definujeme základní pojmy z oblasti zpracování statistického materiálu. Definice 1.1 Definujme následující pojmy: 1.Statistickýmsouboremnazývámesouborreálnýchčíselx 1,...,x n.kterými mohou být například výsledky nějakých měření nebo pokusů. 2. Argumentem statistického souboru budeme nazývat znak příslušející jednotlivým reálným číslům. Například výšku, váhu, IQ Celkový počet(n) všech prvků uvažovaného souboru nazýváme rozsahem souboru. Prostývýpishodnotstatistickéhosouboru x 1,...,x n jeprovětší nzcela nepřehledný, je proto třeba informaci o tomto souboru zkoncentrovat do 7

11 8 KAPITOLA 1. ZPRACOVÁNÍ STATISTICKÉHO MATERIÁLU menšího počtu ukazatelů. K tomuto účelu můžeme využít četnosti a jejich znázornění. Nebo různé popisné charakteristiky, které shrnují vlastnosti statistického souboru do jednoho čísla. Nejdůležitějšími charakteristikami jsou charakteristiky popisující polohu a rozptýlení souboru. 1.1 Rozložení četností a jejich znázornění Definice 1.2 Nechť a je minimální hodnota argumentu X, b je maximální hodnotaargumentuxdanéhostatistickéhosouboru,tj. x min = a, x max = b. 1.Interval < a,b >nazývámevariačnímoborem(nebotéžoboremvariability, intervalem variability) argumentu X daného statistického souboru. 2.Rozdíl x = b anazývámevariačnímrozpětímargumentuxdaného statistického souboru. 3.Variačníobor < a,b >rozkládámenamenšíčástinazývanétřídy(popř. třídní intervaly) argumentu X. 4. Šířkou(délkou) h třídy příslušného třídního intervalu a, b nazýváme číslo h = b k a k.číslo 1 2 (a k + b k )nazývámestředemtřídy,číslo a k dolníhranicíuvažovanétřídy,číslo b k horníhranicíuvažovanétřídy. 5.Hodnotu x k argumentux,kterájezpravidladánastředem k-tétřídyazastupuje všechny hodnoty patřící do této třídy, nazýváme třídním znakem k-té třídy. Při rozkladu variačního oboru a, b na třídy budeme dbát zpravidla těchto zásad:

12 1.1. ROZLOŽENÍ ČETNOSTÍ A JEJICH ZNÁZORNĚNÍ 9 1. Obsahuje-li soubor jen malý počet hodnot argumentu X, volíme každou hodnotu x k tohotoargumentuzasamostatnoutřídu.pokudstatistický soubormáznačněvelkýpočetrůznýchhodnot x k argumentu X(popř. je jich nekonečně mnoho), sdružujeme hodnoty argumentu v třídy. Přitom šířky tříd volíme obvykle stejně velké. Pro výpočet šířky h lze použítpřibližnéhovzorce h 8 (b a). 100 Přivolběpočtutřídníchintervalůsedoporučuje,abyjichbylo8až20. Záleží na rozsahu souboru a účelu statistické tabulky. Počet k třídních intervalůvolímenapř. k 3,3log(n)nebo k n,kde njerozsah souboru. Dvě pozorování považujeme za ekvivalentní, jakmile padnou do téhož třídního intervalu. 2. Jestliže na hranici dvou sousedních tříd padne více hodnot argumentu, zařazujeme polovinu z nich do nižší třídy a druhou polovinu do třídy vyšší. Zbyla-li ještě jedna hodnota(toto odpovídá lichému počtu hodnot ležících na hranic), rozhodneme o její příslušnosti k dané třídě losem. Není vhodné zařazovat stereotypně takové hraniční hodnoty vždy dovyšší,popř.nižšítřídy,neboťbysetímmohlzkreslitcelkovýobraz rozložení uvažovaného souboru ve prospěch vyšších, popř. nižších tříd. 3. Vyskytuje-li se v hraničních třídách velmi málo hodnot argumentu X, je vhodné tyto třídy spojit se sousední třídou v třídu jedinou. Definice 1.3 Druhy četností: 1. Počet prvků souboru patřících do k-té třídy nazýváme absolutní četností argumentu v k-té třídě nebo absolutní třídní četností(stručně četností)k-tétřídyaznačímejej f k. 2.Je-li f k absolutnítřídníčetnost k-tétřídyanrozsahuvažovanéhosouboru, potom

13 10 KAPITOLA 1. ZPRACOVÁNÍ STATISTICKÉHO MATERIÁLU a) f k n nazývámerelativníčetnostík-tétřídy, b) 100 f k n nazývámeprocentnírelativníčetnostík-tétřídy. 3.Kumulativní(součtovou)absolutníčetností F k k-tétřídynazýváme součetvšechčetností f j aždok-tétřídyvčetně,tj. F k = k f j. j=1 4.Kumulativnírelativníčetností R k k-tétřídynazývámesoučet R k = k j=1 f j n = F k n. Poznámka 1.1 Pro četnosti platí některé vlastnosti(uvažujeme statistický souborrozsahun,kterýjerozdělendortříd) r f k = n k=1 F r = n 3. r k=1 f k n = 1 Definice 1.4 Tabulkou rozložení četností daného statistického souboru nazýváme tabulku, v níž jsou uvedeny hodnoty argumentu(popř. třídní znaky) s příslušnými absolutními, popř. relativními četnostmi.

14 1.1. ROZLOŽENÍ ČETNOSTÍ A JEJICH ZNÁZORNĚNÍ 11 Příklad 1.1 Na telefonní stanici zaznamenávali počet telefonních výzev za dobu1min.běhemjednéhodinybylovurčitédennídobědosaženotěchto výsledků(v každém řádku jsou hodnoty získané během 10 minut): 3,2,2,3,1,1,0,4,2,1 1,4,0,1,2,3,1,2,5,2 3,0,2,4,1,2,3,0,1,2 1,3,1,2,0,7,3,2,1,1 4,0,0,1,4,2,3,2,1,3 2,2,3,1,4,0,2,1,1,5. Sestavte tabulku rozložení daného statistického souboru. Počet telefonních výzev za 1 min Absolutní četnost Relativní četnost , , ,016 Celkem 60 1 Tabulka 1.1: Tabulka rozložení četností Argument statistického souboru představuje náhodnou veličinu X. Ze zákona velkýchčísel(podrobnějivizvěta3.2)plyne,žerelativníčetnost f k n udává (přibližně)pravděpodobnost,že X padnedo k-tétřídy,takžeplatí p k = P(a k X b k ) f k n,přičemžinterval a k,b k je k-toutřídou. Definice 1.5 Typy znázornění absolutních či relativních četností:

15 12 KAPITOLA 1. ZPRACOVÁNÍ STATISTICKÉHO MATERIÁLU 1. Histogram rozložení absolutních(relativních) četností sestavíme tak, že na osu x vyneseme středy jednotlivých tříd a nad každou úsečkou zobrazující určitou třídu(šířky h) sestrojíme obdélník s výškou rovnou příslušnéabsolutníčetnosti f k,popř.relativníčetnosti f k n.horníobrazpravoúhelníka představuje histogram rozložení četností. Histogram relativních četností aproximuje hustotu rozdělení spojité náhodné veličiny X. 2. Úsečkový diagram(nebo graf) rozložení absolutních(relativních) četností dostaneme, jestliže na ose x zobrazíme středy jednotlivých tříd a vkaždémznichsestrojímevesměruosy yúsečkuodélcerovnépříslušnéabsolutníčetnosti f k,popř.relativníčetnosti f k n. 3. Polygon rozložení četností(spojnicový diagram) dostaneme, jestliže koncové body úsečkového diagramu rozložení četnosti spojíme úsečkami a vytvoříme tak lomenou čáru, která pak představuje hledaný polygon neboli spojnicový diagram. 4. Graf, polygon nebo histogram kumulativních četností dostaneme analogickyjakovbodech1,2a3. 5. Ogivní křivku(stručně ogivu) dostaneme, sestrojíme-li polygon kumulativních relativních četností. Ogiva aproximuje graf distribuční funkce uvažované náhodné veličiny X. 1.2 Charakteristiky polohy Charakteristiky polohy neboli střední hodnoty počítáme nejčastěji pomocí aritmetického, popř. harmonického, popř. geometrického průměru nebo mediánu a modusu.

16 1.2. CHARAKTERISTIKY POLOHY Obrázek 1.1: Histogram a ogiva dat z příkladu 1.1 Definice 1.6 Nechť je dán statistický soubor, jehož argument X nabývá hodnot x 1,x 2,...,x n,kteréjsoupopř.roztříděnydortříd,přičemž f k značíabsolutní četnost k-té třídy. 1.Aritmetickýprůměr Xjedefinovánvztahy X = 1 n n x k = 1 n k=1 r f i x i. (1.1) i=1 2.Geometrickýprůměr X g jedefinovánvztahem X g = n x 1 x 2... x n (1.2) 3.Harmonickýprůměr X h jedefinovánvztahy X h = 1 A,kde A = 1 n n k=1 1 x k = 1 n r i=1 f i x i. (1.3) Ve vztazích 1.1, 1.3 jsou uvedeny dva tvary. První tvar odpovídá souboru neroztříděnému a druhý tvar roztříděnému. Geometrický průměr nelze použít, pokud argument X nabývá nulové hodnoty, popř. hodnoty záporné. Harmonický průměr lze použít tehdy, má-li smysl součet reciprokých hodnot.

17 14 KAPITOLA 1. ZPRACOVÁNÍ STATISTICKÉHO MATERIÁLU Věta 1.1 Pro libovolný statistický soubor X platí: X h X g X. Nechťjedánstatistickýsoubor,jehožargumentXnabýváhodnotx 1,x 2,...,x n. Setřídíme-li hodnoty podle velikosti, dostaneme tzv. setříděný statistický soubor X (1),X (2),...,X (n), kdex (1) označujenejmenšíhodnotu,x (2) označujedruhounejmenšíhodnotu,...obecně X (i) označuje i-toupořadovouhodnotu. Definice 1.7 Medián netříděného souboru je určen dvěma způsoby, v závislosti na počtu prvků statistického souboru. V případě lichého počtu hodnot vezmeme za medián x prostřední hodnotu setříděného souboru x = X ([ n 2]+1). Pokud X má sudý počet hodnot, vezmeme za medián x aritmetický průměr prostředních dvou hodnot setříděného souboru x = X ([ n 2]) +X ([ n 2]+1). 2 Medián je speciálním případem výběrového kvantilu. Výběrovým kvantilem nazýváme hodnotu zvolenou tak, že pozorování, která jsou menší než tato hodnota, tvoří předepsaný díl výběru(např. 10% výběrový kvantil označuje hodnotu, která je větší než 10% hodnot statistického souboru a menší než 90% hodnot statistického souboru). Rozeznáváme tři speciální případy výběrového kvantilu: 25% výběrový kvantil se nazývá dolní výběrový kvartil, 50% výběrový kvantil je medián a 75% výběrový kvantil se nazývá horní výběrový kvartil.

18 1.3. CHARAKTERISTIKY VARIABILITY 15 Definice 1.8 Nechť argument statistického souboru může nabývat pouze konečně mnoha hodnot. Pak modus je hodnota argumentu s největší absolutní četností. Modus nemusí být určen jednoznačně. Příklad 1.2 Uvažujme následující hypotetický příklad. Ve firmě F existují 4 platové třídy s platy uvedenými v následující tabulce. Počet zaměstnanců udává, kolik zaměstnanců je v dané platové třídě. třída zařazení plat v Kč počet zaměstnanců 1. výkonná síla mistr náměstek ředitel Tabulka 1.2: Tabulka četností příjmu zaměstnanců ve firmě F. Spočtěme některé charakteristiky polohy. Aritmetický průměr X = , geometrickýprůměr X g = ,harmonickýprůměr X h = Jelikož máme 44 hodnot, bude medián průměr 22. a 23. pořadové hodnoty, tedy x = Dolnívýběrovýkvartilbudeprůměr11.a12.pořadové hodnoty, tj a horní výběrový kvartil je Každá charakteristika polohy nám dává jen parciální informaci o statistickém souboru, zatímco grafy rozložení četností nám dávají úplnou informaci o statistickém souboru. 1.3 Charakteristiky variability Definice 1.9 Charakteristiky variability: 1.Rozptylem (disperzí) s 2 statickéhosouborusrozsahem nnazýváme aritmetickýprůměrkvadratickýchodchylek (x k X) 2 hodnotargumentu

19 16 KAPITOLA 1. ZPRACOVÁNÍ STATISTICKÉHO MATERIÁLU Xodaritmetickéhoprůměru X s 2 = 1 n n (x k X) 2 = 1 n k=1 r f i (x i X) 2. (1.4) i=1 2. Směrodatnou odchylkou s nazýváme s2 = s 0. (1.5) 3.Průměrnouodchylkou dnazývámearitmetickýprůměrabsolutníchhodnotodchylekodaritmetickéhoprůměru X,tj. d = 1 n n x k X = 1 n k=1 r f i x i X. (1.6) i=1 4. Variační koeficient v statistického souboru je definován jako v = s X. (1.7) Poznámka 1.2 Rozptyl je definován vzorcem(1.4), pro jeho výpočet se však častěji používá vzorce s 2 = 1 n n (x 2 k) X 2 = 1 n k=1 r f i x 2 i X 2. (1.8) i=1 Poznámka 1.3 Hodnoty argumentu statistického souboru jsou realizace nějaké náhodné veličiny. Např. počet telefonních hovorů na ústředně za 1 minutu (viz příklad 1.1) je náhodná veličina, která má Poissonovo rozdělení X Po(λ). Všechny charakteristiky polohy aproximují střední hodnotu náhodné veličiny EX = λ. Podobně rozptyl statistického souboru aproximuje rozptyl náhodné veličiny VarX = λ.

20 1.3. CHARAKTERISTIKY VARIABILITY 17 Poznámka 1.4 Rozptyl uvedený ve vzorcích(1.4) a(1.8) rozptyl náhodné veličiny podhodnocuje, proto se k výpočtu rozptylu častěji používá vzorců: S 2 = 1 n 1 S 2 = 1 n 1 n k=1 n k=1 ( xk X ) 2 = 1 n 1 (x 2 k) n n 1 X 2 = 1 n 1 r ( f i xi X ) 2, (1.9) i=1 r i=1 f i x 2 i n n 1 X 2. (1.10) Tyto vzorce již teoretickou hodnotu nepodhodnocují(podrobněji viz věta 3.1). Poznámka 1.5 Variační koeficient slouží k srovnání variability dvou a více statistických souborů, které mají výrazně odlišnou polohu znaku nebo jsou vyjádřeny v různých měrových jednotkách. Příklad 1.3 Uvažujme produkci ve dvou firmách. Produkce firmy A se vykazujevkusechafirmybvtunách.posuďte,vekterézfirembylaběhem sledovaného období 10 dnů výroba rovnoměrnější([4]). Den Celkem FirmaA(1000ks) x i FirmaB(tuny) y i Tabulka1.3:TabulkaprodukcefiremAaB. NejdřívevypočtemevariačníkoeficientproprodukcifirmyA:Průměr X = 2,3,směrodatnáodchylka s X = 1atudížvariačníkoeficient v X = s X / X = 0,4. AnalogickyvypočtemevariačníkoeficientprofirmuB:Průměr Ȳ = 6,směrodatnáodchylka s Y = 1,55atudížvariačníkoeficient v Y = s Y /Ȳ = 0,25. TedyrovnoměrnějšíjevdanédekáděvýrobavefirměB.

21 18 KAPITOLA 1. ZPRACOVÁNÍ STATISTICKÉHO MATERIÁLU

22 Kapitola 2 Teorie pravděpodobnosti V této kapitole shrneme základní pojmy a tvrzení z teorie pravděpodobnosti, které budeme potřebovat pro další studium matematické statistiky. Pro hlubší studium teorie pravděpodobnosti doporučujeme čtenáři knihy[3] a[5]. 2.1 Náhodné veličiny Uvažujme pravděpodobnostní prostor (Ω, A, P). Ω je neprázdná množina všech výsledků náhodného pokusu, výsledky označujeme ω. A je σ-algebra sestrojenána Ω. P : A 0,1 Rjefunkcepřiřazujícíkaždémnožině A A její pravděpodobnost. Této funkci se říká pravděpodobnostní míra. Pro podrobnější zavedení těchto pojmů je možno nahlédnout např. do[3]. Definice 2.1 Náhodnou veličinou rozumíme každé měřitelné zobrazení X z (Ω,A,P)do R. 19

23 20 KAPITOLA 2. TEORIE PRAVDĚPODOBNOSTI Jinak řečeno, měřitelné zobrazení je takové zobrazení, které zobrazuje měřitelnémnožiny(tj.tycoležívσ-algebře A)naměřitelnémnožinyvR.Toto zavedení nám pomůže eliminovat problémy s neměřitelnými množinami. Definice 2.2 Distribuční funkce F náhodné veličiny X je dána vzorcem F(x) = P(ω : X(ω) < x). Zkráceně píšeme F(x) = P(X < x). Příklad2.1Uvažujmenáhodnýpokus-hodkostkou Ω = {1,2,3,4,5,6}, P(ω) = 1/6.Sestrojmenáhodnouveličinu,kteráukazuje,zdapadlo6činěco jiného. X(6) = 1,jinak X(ω) = 0.Distribučnífunkce F jepakdefinována takto: F(x) = 0,pokud x 0, F(x) = 5/6,pokud 0 < x 1aF(x) = 1, pokud x > 1. Uvažujme jiný náhodný pokus- náhodně vybereme studenta. Ω je tudíž množina všech studentů. Nechť náhodná veličina X ukazuje výšku studenta ωvmetrech,tudíž X(ω) (0,3). V předchozím příkladě si můžeme povšimnout, že existují dva typy náhodných veličin. Pokud množina možných výsledků náhodné veličiny je diskrétní (množina obsahuje konečně mnoho hodnot nebo spočetně), pak hovoříme o diskrétní náhodné veličině nebo o diskrétním rozdělení náhodné veličiny. Pokud množina možných výsledků náhodné veličiny je interval(množina obsahuje nespočetně mnoho hodnot), pak hovoříme o spojité náhodné veličině nebo o spojitém rozdělení náhodné veličiny. Náhodné veličiny mohou být i kombinací těchto dvou typů, ovšem takové veličiny se v praxi vyskytují velmi zřídka a proto se jimy zabývat nebudeme.

24 2.1. NÁHODNÉ VELIČINY 21 Diskrétní náhodné veličiny Nechť náhodná veličina X může nabývat nejvýše spočetně mnoha hodnot x 1,x 2,...Označme P(X = x i ) = p i 0, i = 1,2,...Zřejměplatí p i = 1. Distribučnífunkce Fmávhodnotách x i skoky p i, i = 1,2,...Vostatních bodechje Fkonstantní.Pravděpodobnost,že Xpadnedomnožiny B R, udává vzorec P(X B) = p i. i:x i B Střední hodnota X neboli též očekávaná hodnota náhodné veličiny je dána vzorcem EX = i x i p i. (2.1) Někdy je nezbytné počítat střední hodnotu z nějaké funkce náhodné veličiny X.Např.nechťnáhodnáveličina Xudávávýslednéčíslovruletěasázkyje možné uzavírat jen na jedno číslo. Nás bude zajímat střední hodnota naší výhry, kde výhra představuje funkci g aplikovanou na výsledek náhodné veličiny X. Eg(X) = i g(x i )p i. (2.2) Spojité náhodné veličiny Nechť náhodná veličina X nabývá nespočetně mnoha hodnot. Potom nemůžeme každé hodnotě přiřadit její pravděpodobnost výskytu, ale přiřadíme jí funkční hodnotu f(x), která udává relativní pravděpodobnost výskytu x jako výsledku náhodné veličiny. Tato funkce se nazývá hustota náhodné veličiny. Distribuční funkce F(x) = x f(t)dt.

25 22 KAPITOLA 2. TEORIE PRAVDĚPODOBNOSTI Zřejměplatí f(x)dx = 1.Pravděpodobnost,že X padnedomnožiny B R,udávávzorec P(X B) = f(x)dx. Střední hodnota X je dána vzorcem EX = Střední hodnota funkce náhodné veličiny X Eg(X) = B xf(x)dx. (2.3) g(x)f(x)dx. (2.4) Nejpoužívanější charakteristika polohy náhodné veličiny je střední hodnota, existují ovšem i další charakteristiky polohy. Medián µ náhodné veličiny X je definován vztahy: P(X µ) 1 2, P(X µ) 1 2. Modus µ náhodné veličiny X je nejpravděpodobnější hodnota výsledku náhodné veličiny X. Pro spojité náhodné veličiny je modus definován vztahem µ =argmax x (f(x)).prodiskrétnínáhodnéveličinyjemodusdefinovánvztahem µ =argmax i (p i ). Rozptyl X(základní charakteristika rozptýlení náhodné veličiny) se vypočte jako VarX = E(X EX) 2 = EX 2 (EX) 2. Rozptylseněkdyoznačujesymbolem σ 2,veličině σ = VarXpakříkáme směrodatná odchylka. Věta2.1Nechť Y = a+bx.existuje-li EX,pak EY = a+bex.je-linavíc EX 2 <,pak VarY = b 2 VarX.

26 2.2. NÁHODNÉ VEKTORY Náhodné vektory Mějmenáhodnéveličiny X 1,...,X n,kteréjsoudefinovanénastejnémpravděpodobnostnímprostoru (Ω,A,P).Pak X = (X 1,...,X n ) T senazývánáhodný vektor. Distribuční funkcí náhodného vektoru rozumíme funkci F(x 1,...,x n ) = P(X 1 < x 1,...,X n < x n ). Středníhodnotanáhodnéhovektoruje EX = (EX 1,...,EX n ) T. Pro jednoduchost se nyní zabývejme pouze dvěma náhodnými veličinami X, Y. Pro libovolný, konečný počet náhodných veličin se všechny vztahy v tomto odstavci odvodí analogicky. Diskrétní případ: Sdružené rozdělení náhodného vektoru je dáno pravděpodobnostmi P(X = (x i,y j )) = p ij, i = 1,2,...,j = 1,2,... Marginální rozdělení je rozdělení pouze části vektoru. V případě dvou náhodných veličin existují pouze marginální rozdělení náhodných veličin X, Y. Zaveďme p i = p ij, p j = p ij. j i Tudíž marginální rozdělení jsou dána vztahy: P(X = x i ) = p i, P(Y = y j ) = p j, i = 1,2,...,j = 1,2,... Střední hodnota funkce náhodného vektoru je dána vzorcem Eg(X) = i,j g(x i,y j )p ij. Spojitý případ: Sdružené rozdělení náhodného vektoru je dáno hustotou f X (x,y), x,y R.

27 24 KAPITOLA 2. TEORIE PRAVDĚPODOBNOSTI Distribuční funkce F(x,y) = x y f(u, v)dudv. Hustoty marginálních rozdělení jsou dány vztahy f X (x) = f(x,y)dy, x R, f Y (y) = f(x,y)dx, y R. R R Střední hodnota funkce náhodného vektoru je dána vzorcem Eg(X) = g(x, y)f(x, y)dxdy. R R Kovariancí náhodných veličin X a Y rozumíme výraz Cov(X,Y) = E(X EX)(Y EY) = EXY EXEY. Jezřejmé,že VarX = Cov(X,X).Kovariancenáhodnýchveličin Xa Y se častooznačuje σ XY. Věta2.2Nechť Xa Y jsounáhodnéveličiny,potom Var(X +Y) = VarX +2Cov(X,Y)+VarY, pokud všechny výrazy na pravé straně existují. Řekneme, že dvě náhodné veličiny X a Y jsou nezávislé, jestliže jejich sdružená distribuční funkce je rovna součinu marginálních distribučních funkcí F X,Y (x,y) = F X (x)f Y (y). Jsou-li náhodné veličiny X a Y diskrétní, pak jsou nezávislé, jestliže pro jejich sdružené a marginální rozdělení platí vztah p ij = p i p j i,j.

28 2.3. ZÁKLADNÍ ROZDĚLENÍ NÁHODNÝCH VELIČIN 25 Jsou-li náhodné veličiny X a Y spojité, pak jsou nezávislé, jestliže jejich sdružená hustota je rovna součinu marginálních hustot f X,Y (x,y) = f X (x)f Y (y). Toto je matematická definice termínu nezávislosti, který se užívá i v běžné řeči. Věta2.3Nechť Xa Y jsounezávislénáhodnéveličinyskonečnýmistředními hodnotami. Pak platí E(XY) = (EX)(EY). Věta 2.4 Nechť X a Y jsou nezávislé náhodné veličiny s konečnými rozptyly. Pak platí Cov(X,Y) = 0. Platí-li Cov(X, Y) = 0, pak říkáme, že náhodné veličiny jsou nekorelované. Z nekorelovanosti ještě neplyne nezávislost! Ovšem předchozího tvrzení se často využívá při testech nezávislosti dvou náhodných veličin. Místo kovariance se v nich využívá její normovaný tvar, kterému říkáme korelační koeficient: ρ = Cov(X,Y) VarX VarY. Věta2.5Platí 1 ρ 1.Navíc ρ = 1,právětehdy,když Y = a + bx, b > 0, ρ = 1,právětehdy,když Y = a+bx, b < Základní rozdělení náhodných veličin Alternativní rozdělení A(p) představuje úspěch/neúspěch pokusu s pravděpodobností 0 < p < 1. To znamená, že alternativní rozdělení nabývá pouze

29 26 KAPITOLA 2. TEORIE PRAVDĚPODOBNOSTI dvouhodnot:úspěch-1,neúspěch-0. P(X = 1) = p, P(X = 0) = 1 p. EX = p, Var(X) = p(1 p). Binomické rozdělení Bi(n, p) představuje počet úspěchů v n nezávislých pokusech, přičemž pravděpodobnost úspěchu je 0 < p < 1. Jinak řečeno, binomické rozdělení je součet n nezávislých alternativních rozdělení. P(X = k) = ( ) n p k (1 p) n k, k = 0,1,...,n. k EX = np, Var(X) = np(1 p). Hypergeometrické rozdělení HGeom(n, M, N) se používá místo binomického rozdělení v experimentech, ve kterých n představuje počet tahů bez vracení(u binomického je n počet tahů s vracením) z osudí majícího N prvků, z nichž M prvků představuje při vytažení úspěch(u binomického by M/N = p) Hypergeometrické rozdělení pak představuje počet úspěchů v tomto experimentu. ( M N M ) P(X = k) = k)( n k ( N, k = 0,1,...,n. n) EX = n M N, Var(X) = nm N ( 1 M ) N n N N 1. Poissonovo rozdělení Po(λ) λ > 0 představuje počet událostí, které nastanou za určitý čas. P(X = k) = e λλk k!. EX = λ, Var(X) = λ.

30 2.3. ZÁKLADNÍ ROZDĚLENÍ NÁHODNÝCH VELIČIN 27 Geometrické rozdělení Geom(p) představuje počet neúspěšných nezávislých pokusů, které nastanou před prvním úspěchem, přičemž pravděpodobnostúspěchuje 0 < p < 1. P(X = k) = p(1 p) k. EX = 1 p 1 p, Var(X) =. p p 2 MultinomickérozděleníM(n,p 1,...,p k ) jepatrněnejdůležitějšímdiskrétním mnohorozměrným rozdělením. Mějme urnu a v ní kuličky k různých barev.nechťpravděpodobnostvytaženíkuličkyi-tébarvyjerovna p i,i= 1,2,...,k,přičemž 0 < p i < 1, p p k = 1.Ztétourny n-krátnezávisle na sobě vytáhneme po jedné kuličce. Kuličku po vytažení vždy vracíme zpětdourny.počtykuličeki-tébarvy,kterétaktobylyvybránypo ntazích označme X i.paksdruženérozdělenínáhodnýchveličin X 1,...,X k jedáno vzorcem P(X 1 = x 1,...,X k = x k ) = n! x 1!...x k! px p x k k, kde x i {0,1,...,n} i = 1,2,...,k, x x k = n. EX i = np i, Var(X i ) = np i (1 p i ) i = 1,...k, Cov(X i,x j ) = np i p j, i j. Marginálnírozdělení X i jebinomickérozděleníbi(n,p i ). Rovnoměrné rozdělení na intervalu A, B, U[A, B]. Všechny body intervalu A, B mají stejnou pravděpodobnost výskytu. f(x) = 1, pro x [A,B], f(x) = 0, jinak. B A EX = A+B, Var(X) = (B A)2.

31 28 KAPITOLA 2. TEORIE PRAVDĚPODOBNOSTI Exponenciální rozdělení Exp(λ) představuje dobu čekání do určité události, např. dobu do poruchy určitého zařízení. f(x) = 1 λ e x/λ, pro x > 0, f(x) = 0, jinak. EX = λ, Var(X) = λ Normální rozdělení a rozdělení z něj odvozená Normálnírozdělenísestředníhodnotou µarozptylem σ 2 značímen(µ,σ 2 ) a toto rozdělení má hustotu [ ] 1 f(x) = exp (x µ)2, x R. 2πσ 2 2σ Obrázek 2.1: Graf hustoty normálního rozdělení- plná čára N(0,1), čárkovaná N(0,2), tečkovaná N(0,1/2). Nejčastěji budeme pracovat s normovaným normálním rozdělením N(0,1). Jeho hustotu budeme označovat φ(x) = 1 2π e x2 /2, x R

32 2.4. NORMÁLNÍ ROZDĚLENÍ A ROZDĚLENÍ Z NĚJ ODVOZENÁ 29 a distribuční funkci budeme označovat Φ(x) = x φ(u)du. Funkce φjesudá,ztohoplyne Φ( x) = 1 Φ(x). Normované normální rozdělení je významné především následujícím tvrzením: součet nezávislých náhodných veličin, jehož střední hodnotu posuneme do0arozptylupravímena1,seblížíprozvětšujícísepočetnáhodných veličin k normovanému normálnímu rozdělení. Věta2.6CentrálnílimitnívětaNechť X 1,...,X n jeposloupnostnezávislých, stejně rozdělených náhodných veličin se střední hodnotu µ a konečným rozptylem σ 2.Pak n i=1 X i nµ nσ 2 má při n asymptoticky rozdělení N(0,1). Příklad 2.2 Jaká je pravděpodobnost, že ze 120 hodů kostkou, padne alespoň 14 šestek? Označme X i A(1/6)náhodnouveličinu,kterápředstavujeto,zdanám padne6činikolivi-témhodukostkou.pro X i platí,že EX i = 1/6, σ 2 = 5/36. Tudíž je třeba vypočíst: P ) X i 14. ( 120 i=1 Spočtěmetentopříkladnejprvepřímo.Náhodnáveličina X = 120 i=1 X imá binomické rozdělení Bi(120, 1/6). Pomocí počítače a definice binomického rozdělení spočteme, že P (X 14) = 1 13 k=0 p k = 1 13 k=0 ( 120 k ) (1/6) k (5/6) (120 k) = 0,95.

33 30 KAPITOLA 2. TEORIE PRAVDĚPODOBNOSTI Nyní spočtěme tento příklad pomocí aproximace CLV. Použití CLV spočívá v úpravě výrazu do podoby, ve které se nachází výraz asymptoticky se blížící normálnímu rozdělení. ( 120 ) P X i 14 = P Výraz U = tedy psát, že i=1 120 i=1 np nσ 2 P ( 120 ( 120 i=1 np nσ 2 ) 14 np. nσ 2 mápodleclvasymptotickynormálnírozdělenímůžeme ) ( ) X i 14 = P U / /36 i=1 Podle definice distribuční funkce normálního rozdělení máme ( 120 ) P X i 14 = 1 P (U < 1,47) = 1 Φ( 1,47). i=1 V tabulkách nebo ve statistickém softwaru najdeme hodnotu distribuční funkce Φ( 1, 47) = 0, 07. Hledaná pravděpodobnost je podle aproximace CLV rovna 0,93. Příklad 2.3 Kolikrát musíme hodit kostkou, aby pravděpodobnost, že padne alespoň 10 šestek, byla větší nebo rovna 0,95. Obdobnějakovminulémpříkladěoznačme X i A(1/6)náhodnouveličinu, kterápředstavujeto,zdanámpadne6činikolivi-témhodukostkou.pro X i platí,že EX i = 1/6, σ 2 = 5/36.Problémmůžemepřepsatnanerovnici ( n ) P X i 10 0,95, i=1 kdeneznámáje n-počethodůkostkou.použitíclvspočívávúpravěnerovnice do podoby, ve které se nachází výraz asymptoticky se blížící normálnímu rozdělení. P ( n i=1 X i n/6 5n/36 10 n/6 5n/36 ) 0,95.

34 2.4. NORMÁLNÍ ROZDĚLENÍ A ROZDĚLENÍ Z NĚJ ODVOZENÁ 31 Výraz U = n i=1 X i n/6 5n/36 mápodleclvasymptotickynormálnírozdělení. P ( U 10 n/6 5n/36 ) = 0,95 Tímto předpisem je ovšem definována kritická hodnota normálního rozdělení u(0,05) = 1,64(vizodstavec2.5).Tedy 10 n/6 5n/36 = 1,64 Tutokvadratickourovnicisnadnovyřešímeavyjdenám n = 96.Nebolimusíme hodit nejméně 96-krát kostkou, abychom měli 95% pravděpodobnost, že padne alespoň deset šestek. Pro vyjádření dalších rozdělení si zopakujme definice Gama a Beta funkce. Γ(a) = Vlastnosti: Γ(a+1) = a Γ(a), Γ( 1 2 ) = π 0 x a 1 e x dx, a > 0 B(a,b) = Γ(a) Γ(b) Γ(a+b) Pearsonovo rozdělení Nechťnáhodnéveličiny U 1, U 2,..., U k jsounezávisléamajínormovanénormální rozdělením N(0,1). Pak χ 2 k = k i=1 mátzv.rozdělení χ 2 (čtětechikvadrát)skstupnivolnostiashustotou(pro u > 0)tvaru f k (u) = U 2 i 1 Γ(k/2) 2 k/2 u(k/2) 1 e u/2, u > 0.

35 32 KAPITOLA 2. TEORIE PRAVDĚPODOBNOSTI Eχ 2 k = k, Var χ 2 k = 2k Obrázek2.2:GrafhustotyPearsonovarozdělení-plnáčára χ 2 10,čárkovaná χ 2 20,tečkovaná χ Studentovo rozdělení Mějme dvě nezávislé náhodné veličiny, a to náhodnou veličinu U s normovanýmnormálnímrozdělenímn(0,1)anáhodnouveličinu V srozdělením χ 2 s k stupni volnosti. Pak veličina T k = U V k má Studentovo rozdělení t s hustotou tvaru f k (t) = s k stupni volnosti. 1 B( 1 2, k 2 ) k (1+ t2 k ) (k+1)/2, t R ET k = 0, Var T k = k k 2, t k k Φ.

36 2.5. KRITICKÉ HODNOTY Obrázek 2.3: Graf hustoty Studentova rozdělení- plná čára N(0,1), čárkovaná t 10,tečkovaná t Fisherovo-Snedecorovo rozdělení Nechťdvěnezávislénáhodnéveličinymajírozdělení χ 2,atoUskstupni volnosti, kdežto náhodná veličina V s n stupni volnosti. Pak náhodná veličina F k,n = U/k V/n má Fisherovo-Snedecorovo rozdělení s k a n stupni volnosti a hustotou f k,n (z) = 1 B( k 2, n 2 ) ( ) k/2 k n z (k 2)/2 (1+z k n )(k+n)/2, z > 0. EF k,n = n n 2, Var F k,n = 2n2 (n+k 2) (n 2) 2 (n 4)k. 2.5 Kritické hodnoty Kritické hodnoty obvykle vyjadřují hranici, kterou náhodná veličina překročí se zadanou pravděpodobností α. Kritickým hodnotám se někdy také říká kvantily. Kritické hodnoty se dají nalézt v tabulkách či ve specializovaných

37 34 KAPITOLA 2. TEORIE PRAVDĚPODOBNOSTI Obrázek2.4:GrafhustotyFisherova-Snedecorovarozdělení-plnáčáraF 10,10, čárkovaná F 20,10,tečkovaná F 5,10. programech. V programu Excel jsou to funkce NORM.INV, CHI.INV, T.INV, F.INV. Kritické hodnoty normálního rozdělení u(α) X N(0,1), P(X u(α)) = α. KritickéhodnotyPearsonovarozdělení χ 2 k (α) X χ 2 k, P(X χ 2 k(α)) = α. KritickéhodnotyStudentovarozdělení t k (α) X t k, P(X t k (α)) = α. KritickéhodnotyFisherova-Snedecorovarozdělení F k,n (α) X F k,n, P(X F k,n (α)) = α. KritickéhodnotyFisherova-Snedecorovarozdělení F k,n (α)jsoutabelovány pro 0 < α 0,5.Pro 0,5 < α 1počítámekritickéhodnotydlevztahu F k,n (α) = 1 F n,k (1 α).

38 Kapitola 3 Náhodný výběr V mnoha případech nemůžeme při statistickém zpracování dat vycházet ze základního souboru Z(např. má-li soubor nekonečný nebo značně velký rozsah) a musíme se omezit na nějaký podsoubor souboru Z. Statistické výsledky, získané zpracováním statistického podsouboru, pak zobecníme na základní statistický soubor Z(toto nazýváme statistickou indukcí). Znamená to tedy, že vyšetřujeme jen určitou část prvků zkoumaného souboru, kterou nazýváme výběrovýn souborem. Statistická indukce nám nedává zobecněné závěry s naprostou jistotou, ale jen s předem danou pravděpodobností. Základem je teorie náhodných výběrů, které se nyní věnujeme. Náhodné výběry můžeme dělit podle způsobu provedení nebo podle rozsahu. Rozdělení náhodných výběrů podle způsobu provedení a)prostýnáhodnývýběrsvrácenímjetakovývýběr,přiněmžsekaždý prvek základního souboru vrátí po vybrání zpět do souboru a další prvek se vybírá opět z celého základního souboru. b)prostý náhodný výběr bez vráceníjetakovývýběr,přiněmžse 35

39 36 KAPITOLA 3. NÁHODNÝ VÝBĚR vybraný prvek nevrací zpět do základního souboru. c) Oblastní(stratifikovaný) výběr spočívá v tom, že základní výběr rozdělíme na stejnorodé disjunktní části a v každé z nich pak provedeme náhodný výběr. O základním souboru ovšem musíme mít dostatečné informace umožňující správnou volbu jednotlivých oblastí. d) Systematický(mechanický) náhodný výběr spočívá v tom, že prvky základního statistického souboru seřadíme do určitého pořadí, z prvních kprvkůsouboru(n kn,kdenjerozsahzákladního,njerozsah výběru) vybereme náhodně jeden prvek a od něho počínaje vybereme každý k-tý, 2k-tý...prvek. Rozdělení náhodných výběrů podle rozsahu a)malýnáhodnývýběr-rozsahvýběru n < 30. b)velkýnáhodnývýběr-rozsahvýběru n 30. Budeme uvažovat pouze prostý náhodný výběr s vrácením. Ve spojitosti s teorií pravděpodobnosti budeme o prostém náhodném výběru uvažovat následovně. Definice 3.1 Nechť Z je statistický soubor, jehož argument představuje náhodnou veličinu X. Náhodným výběrem z rozdělení náhodné veličiny X budeme nazývat posloupnost n nezávislých realizací pokusu, danou náhodnýmiveličinami X 1,X 2,...,X n,kterémajítotéžrozděleníjakonáhodnáveličina X a jsou sdruženě nezávislé.(neboli náhodným výběrem nazýváme takový výběr, který poskytuje každému prvku základního statistického souboru stejnou a nezávislou pravděpodobnost, že bude zahrnut do výběru.)

40 37 Definice 3.2 Charakteristiky základního souboru Z(náhodné veličiny X) budeme nazývat teoretickými. Charakteristicky získané z empirického výběru budeme nazývat empirickými(výběrovými). Teoretické charakteristiky základního souboru představují vždy určité číslo, zatím co empirické charakteristiky představují náhodné veličiny, neboť se mění od jednoho náhodného výběru k druhému. Nazýváme je statistikami. Jestliže známe typ rozdělení náhodné veličiny X(představuje argument základního statistického souboru Z), můžeme za určitých předpokladů použít empirických charakteristik k určení odpovídajících teoretických charakteristik. Příklad 3.1 Statistický soubor představují všichni muži České republiky. Argumentem je jejich věk. Náhodná veličina X určuje věk náhodného muže z České republiky. Pro určení charakteristik náhodné veličiny X provedeme náhodný výběr o rozsahu n. Věk každého vybraného muže je jednou realizací náhodné veličiny X. Výsledné empirické charakteristiky pak odhadují teoretické charakteristiky. Příklad 3.2(viz příklad 1.1) X je náhodná veličina udávající počet telefonníchvýzevzadobu1minuty.bylprovedennáhodnývýběrzrozdělení X,jehož výsledky jsou zaznamenány v příkladu 1.1. Předpokládejme, že X Po(λ). Určímeempirickoustředníhodnotunapř.aritmetickýmprůměrem X = 2. Určímeempirickýrozptylnapř.podlevzorce1.9, S 2 = 2,1356.Zteoriepravděpodobnosti víme, že EX = λ = VarX pro Poissonova rozdělení. Položme si otázku, zda empirická data prokazují úvodní hypotézu(x Po(λ)). Tyto otázky a mnohé další řeší matematická statistika, kterou se budeme zabývat v následujících kapitolách. Zatím pouze položme teoretickou střední hodnotu EX = 2,neboli λ = 2,anapišmesipříslušnépravděpodobnosti P(X = k) pro k = 0,1,2,...7aporovnejmejespříslušnýmirelativnímičetnostmi.Z

41 38 KAPITOLA 3. NÁHODNÝ VÝBĚR k P(X = k) Relativníčetnostpro kvýzevzajednuminutu 0 0,135 0, ,271 0, ,271 0, ,180 0, ,090 0, ,360 0, , ,003 0,016 Tabulka 3.1: Porovnání teoretických pravděpodobností s relativními četnostmi. tabulky je vidět, že teoretické pravděpodobnosti se chovají podobně jako relativní četnosti, ale jestli stačí tato podobnost na prohlášení, že X Po(2), zatím říct nemůžeme. Definice3.3NechťX 1,...,X n jenáhodnývýběrzrozdělení,kterémástřední hodnotu µakonečnýrozptyl σ 2.Zaveďmeveličiny X = 1 n n i=1 X i, S 2 = 1 n 1 n (X i X) 2, i=1 kde XnazývámevýběrovýprůměraS 2 nazývámevýběrovýrozptyl. Věta3.1Nechť X 1,...,X n jenáhodnývýběrzrozdělení,kterémástřední hodnotu µakonečnýrozptyl σ 2,pak E X = µ, Var X = σ2 n, ES2 = σ 2. Věta3.2SilnýzákonvelkýchčíselNechť X 1,...,X n jenáhodnývýběr zrozdělení,kterémástředníhodnotu µakonečnýrozptyl σ 2,pak X µ skoro jist.

42 39 Konvergence skoro jistě znamená, že existuje pouze množina(a Ω) pravděpodobnosti 0(P(A)=0), pro kterou výraz nekonverguje. Věta3.3NáhodnývýběrznormálníhorozděleníNechť X 1,...,X n je náhodnývýběrzn(µ,σ 2 ),kde σ 2 > 0.Pakplatínásledujícítvrzení: X N(µ, σ2 n ). Je-li n 2,pak (n 1)S 2 /σ 2 χ 2 n 1. Je-li n 2,pak Xa S 2 jsounezávislé. Je-li n 2,pak X µ S n tn 1. Důkazy výše uvedených vět může čtenář nalézt např v[2].

43 40 KAPITOLA 3. NÁHODNÝ VÝBĚR

44 Kapitola 4 Odhady parametrů Jedním z cílů statistické indukce je odhad charakteristik(neboli parametrů) základního statistického souboru. Rozlišujeme dva druhy odhadů Bodovéodhady Intervalové odhady neboli intervaly spolehlivosti Bodové odhady střední hodnoty a rozptylu: Věta 3.1 nám říká, že Xjenestrannýodhadstředníhodnoty µ(e X = µ), S 2 jenestrannýodhad σ 2. Výše uvedené bodové odhady vyjadřují nejpravděpodobnější místo výskytu teoretickéhodnoty µči σ 2.Bodovéodhadyselišívýběrodvýběru.Častoje nutné určit nepřesnost bodového odhadu. K tomu slouží odhad intervalový, který nám určuje interval kolem bodového odhadu, který nám zaručuje, že teoretickáhodnota µči σ 2 ležívtomtointervalusvelkoupravděpodobností. Tatopravděpodobnostsenazývákoeficientspolehlivosti q = 1 α. αse 41

45 42 KAPITOLA 4. ODHADY PARAMETRŮ nejčastěji volí 0,05, 0,01 nebo ve výjimečných případech, kdy potřebujeme mít zaručenou velkou jistotu, Definice4.1Jsou-li B 1, B 2 takovéstatistikypříslušnéparametru βzákladníhosouboru,žepročíslo α (0,1)platí P(B 1 β B 2 ) = 1 α, pakinterval B 1,B 2 nazývámekonfidenčnímintervalemproparametr β ospolehlivosti 1 α.používásetakénázvuinterval 100(1 α)-procentní spolehlivosti pro parametr β nebo názvu konfidenční interval pro parametr β se 100(1 α)- procentní spolehlivostí. 4.1 Intervalové odhady pro parametry normálního rozdělení Mějme X 1,...,X n náhodnývýběrzn(µ,σ 2 ),parametr σ 2 > 0neníznám. Potom podle věty 3.3 platí X µ n tn 1, S tudíž podle definice kritické hodnoty Studentova rozdělení je ( P t n 1 (α/2) X ) µ n tn 1 (1 α/2) = 1 α, S přeuspořádáním dostaneme oboustranný intervalový odhad pro střední hodnotu µ normálního rozdělení o spolehlivosti 1 α X t n 1 (1 α/2) S n, X +t n 1 (1 α/2) S n. (4.1) Intervalovýodhadprorozptyl σ 2 dostanemeobdobně. (n 1)S 2 /σ 2 χ 2 n 1.

46 4.1. INTERVALOVÉ ODHADY PRO PARAMETRY NORMÁLNÍHO ROZDĚLENÍ43 P ( ( α χ 2 n 1 (n 1)S 2) 2 /σ 2 χ 2 n 1 ( )) 1 α = 1 α, 2 přeuspořádánímdostanemeoboustrannýintervalovýodhadprorozptyl σ 2 normálního rozdělení o spolehlivosti 1 α S 2 (n 1) χ 2 n 1( 1 α 2 ), S2 (n 1) χn 1( 2 α ) 2. (4.2) Příklad 4.1 Při kontrole balicího automatu, který má plnit cukrem balíčky o váze1kg,bylypřipřesnémpřevážení5balíčkůzjištěnytytoodchylky(vgramech) od požadované hodnoty(viz[1]): 3,2, 2,0, 1. Bodový odhad systematické odchylky je X = 1 n n i=1 X i = 1 ( ) = 0,8. 5 Pro výpočet intervalového odhadu pro systematickou odchylku musíme předpokládat, že jednotlivé odchylky jsou realizace nezávislých náhodných veličin srozdělením N(µ,σ 2 ),kde σ 2 jeneznámýparametr.spočteme ( n ) S 2 = 1 Xi 2 n n 1 X 2 i=1 S 2 = 1 4 {[( 3) ( 2) ( 1) 2 ] 5( 0,8) 2 } = 3.7. Směrodatná odchylka S = 1, Kritickou hodnotu nalezneme ve statistickýchtabulkách,eventuálněvestatistickémsoftwaru t 4 (0,975) = 2,776. Intervalový odhad o spolehlivosti 0,95 pro systematickou odchylku je tedy roven X t 4 (0,975) S, X +t 4 (0,975) S = 3,18;1,

47 44 KAPITOLA 4. ODHADY PARAMETRŮ Někdy je třeba odhadnout rozsah výběru n, abychom dostali požadovanou šířku intervalového odhadu. Nechť požadovaná šířka intervalu o spolehlivosti 0,95je1.Výšejsmeprovedli5měření,znichžjsmeodhadlisměrodatnou odchylku S. Ptáme se, kolik ještě máme udělat měření(za předpokladu, že směrodatná odchylka je S), aby šířka výsledného intervalového odhadu byla 1. Podle vzorce 4.1 dostaneme, že šířka intervalového odhadu o spolehlivosti 0,95 je d = 2t n 1 (0,975) S n. V odstavci jsme uvedli, že Studentovo rozdělení se zvětšujícím se stupněm volnosti n konverguje k normálnímu rozdělení, nahradíme tedy kvantil t n 1 (0,975)kvantilemnormálníhorozdělení u(0,975) = 1,96.HladinyuStudentova a normálního rozdělení se neshodují, protože kvantily jsou u těchto rozdělení zavedeny rozdílně. Odtud dostáváme, že n. = 4u(0,975) 2S2 d 2 = 4 1,9623,7 1 = 56,85. Je tudíž nutné provést nejméně 57 měření, aby šířka výsledného intervalového odhadu byla přibližně 1. Intervalový odhad o spolehlivosti 0,95 pro rozptyl spočteme podle vzorce 4.2, přičemžkvantilyrozdělení χ 2 naleznemevtabulkách. S 2 (n 1) χ 2 n 1(0.025), S 2 (n 1) 3,7 4 = χ 2 n 1(0,975) 11,14, 3,7 4 = 1,33,30,83. 0, Intervalový odhad střední hodnoty pomocí CLV V případě, že náhodné veličiny nemají normální rozdělení, nemůžeme použít předchozí odhady. Je-li však náhodných veličin větší počet, můžeme pak využít centrální limitní věty, která jednoduše řečeno říká, že součet většího počtu

48 4.2. INTERVALOVÝ ODHAD STŘEDNÍ HODNOTY POMOCÍ CLV 45 náhodných veličin se chová jako normální rozdělení. Pro použití aproximace pomocí CLV se obvykle doporučuje rozsah náhodného výběru n 20. Mějme X 1,...,X n náhodnývýběrzrozdělenískonečnoustředníhodnotou µakonečnýmrozptylem σ 2.Potompodlecentrálnílimitnívětymá X µ n n Φ N(0,1) S asymptoticky normované normální rozdělení. Podle definice kritické hodnoty normovaného normálního rozdělení je ( P u(1 α 2 ) X ) µ α n u(1 S 2 ) = 1 α, přeuspořádáním dostaneme oboustranný intervalový odhad pro střední hodnotu µospolehlivosti 1 α X u(1 α 2 ) S n, X +u(1 α 2 ) S n. (4.3) Příklad4.2Bylprovedenpokus,přiněmžjsme600kráthodilikostkoua z toho 75 krát padla šestka. Zajímá nás odhad pravděpodobnosti padnutí šestkynatétokostce.zaveďmesináhodnéveličiny X 1,...,X 600 salternativnímrozděleníma(p),kdeúspěch(x = 1)nastane,kdyžpadne6,aneúspěch (X = 0)nastanepřivýsledcíchhodu1-5.Zajímánás p = P[X = 1].Bodový odhad pje X = 75/600 = Výběrovýrozptyl S 2 = 1 n 1 n i=1 ( Xi X ) 2 1 ( = 75(1 0,125) (0 0,125) 2) = 0, Pro vˇypočet intervalového odhadu o spolehlivosti 95% potřebujeme znát ještě hodnotu u(0, 975) = X u(0,975) S n, X +u(0,975) S n = 0,098;0,151.

49 46 KAPITOLA 4. ODHADY PARAMETRŮ Tudíž skutečná pravděpodobnost padnutí šestky na této kostce leží s pravděpodobností 0,95 v intervalu 0, 098; 0, 151. Pokud by kostka byla symetrická, pak tato pravděpodobnost by byla 1/6 = 0, 166. Tato pravděpodobnost neleží v intervalovém odhadu o spolehlivosti 95%, tedy tato kostka není spravedlivá s pravděpodobností 0,95. Porovnejte s příkladem 5.5.

50 Kapitola 5 Parametrické testy Ve vědeckém výzkumu i v aplikacích se problémy často formulují ve tvaru hypotéz. Statistická hypotéza je tvrzení, které se týká pravděpodobnostního rozdělení, případně parametrů náhodné veličiny. Každá úloha testování hypotéz je formulována tak, že proti sobě stojí dvě hypotézy, a to hypotéza H 0 (nulová)protialternativní H 1.Vtétokapitolesebudemezaobíratpouze parametickými testy, tzn. budeme předpokládat znalost pravděpodobnostního rozdělení příslušné náhodné veličiny, testovat budeme parametr daného rozdělení. Předpokládejme, že rozdělení náhodné veličiny závisí na parametru θ.oparametru θsedomníváme,žebymohlbýtrovendanémučíslu θ 0. Vtomtopřípaděnulovouhypotézuzapisujemevetvaru H 0 : θ = θ 0.Alternativníhypotéza H 1 můžebýtbuďvetvaru H 1 : θ θ 0 nebo H 1 : θ > θ 0, popř. H 1 : θ < θ 0.Vprvnímpřípaděsejednáooboustrannouhypotézu,ve druhém o jednostrannou(přesněji pravostrannou, popř. levostrannou). Při svém rozhodnutí o platnosti H 1 či H 0 se můžeme dopustit jedné ze dvouchyb.stane-lise,žezamítneme H 0,ačkolijesprávná,udělámetzv. chybu prvního druhu.stane-lise,ženezamítneme H 0,ačkolisprávná není, uděláme tzv. chybu druhého druhu. Při testování samozřejmě poža- 47

51 48 KAPITOLA 5. PARAMETRICKÉ TESTY dujeme, aby pravděpodobnosti obou chyb byly co možná nejmenší. Při rozhodování o správnosti té či oné hypotézy se opíráme o tak zvanou testovací statistiku T. Testovací statistika je předem daný funkční předpis závisející nanějakémnáhodnémvýběru X 1,X 2,...,X n zurčitéhorozdělení.hodnoty statistiky T mohouležetvjednézedvoudisjunktníchmnožin,atobuďv kritickémoboru W (oborzamítnutíhypotézy H 0 )nebovoborupřijetí V (obornezamítnutíhypotézy H 0 ).Jakužbylořečeno,můžemesepřitestování dopustit jedné ze dvou chyb, přičemž se obvykle trvá jen na požadavku, aby pravděpodobnost chyby prvního druhu byla rovna nebo menší než α, kde αjenějakédanéčíslozintervalu(0,1).vpraxisenejčastějivolí α = 0,05 nebo α = 0,01ačíslu αseříkáhladinatestu. Poznámka 5.1 v současné době udává běžný statistický software(statistica, S+, R, SAS, ale i Excel) tzv. dosaženou hladinu(v anglicky psané literatuře udávané pod názvem P-value, significance value). Je to nejmenší hladina testu,přikterébychomještěhypotézu H 0 zamítli.tudížzvolíme-li α = 0,05, ap-valuevyjdemenšínež0,05(neborovna),pakzamítámehypotézu H 0 nahladině α = 0,05.PokudP-valuevyjdevětšínež0,05,paknezamítáme hypotézu H 0 nahladině α = 0, Jednovýběrový t test Nechť X 1,...,X n,jenáhodnývýběrzn(µ,σ 2 ),kde n > 1.Parametr σ 2 > 0 neníznám.jetřebatestovathypotézu H 0 : µ = µ 0,kde µ 0 jedanéčíslo,proti alternativě H 1 : µ µ 0.Hypotézu H 0 zamítneme,bude-li Xhodněvzdáleno odčísla µ 0.Zvěty3.3víme,žezaplatnostihypotézy H 0 mástatistika T = ( X µ 0 ) n S t n 1

52 5.2. TEST O ROZPTYLU NORMÁLNÍHO ROZDĚLENÍ 49 Studentovo rozdělení o n 1 stupních volnosti. Podle definice kritické hodnoty Studentova rozdělení dostaneme, že P ( T t n 1 (1 α/2)) = α. Tedyhypotézu H 0 zamítnemenahladině α,jestližeplatí T t n 1 (1 α/2). vpřípadějednostrannéalternativy H 1 : µ > µ 0,resp. H 1 : µ < µ 0 hypotézu H 0 zamítneme,jestliže T t n 1 (1 α), resp. T t n 1 (1 α). Příklad5.1Vraťmesekpříkladu4.1.Máserozhodnoutotom,zdaautomat másystematickouvýchylku.tudížjetřebatestovathypotézu H 0 : µ = 0proti alternativě H 1 : µ 0nahladině α = 0,05(tj.žeodchylkykolísajíkolemnuly a nejsou systematicky posunuty ani do kladných ani do záporných hodnot). Máme n = 5,µ 0 = 0, X = 0,8,S = 1,9235, T = X µ 0 n = 0,93. S Protože 0,93 < t 4 (0,975) = 2,776,nezamítáme H 0.Tudížzjištěnádata neodporují předpokladu, že automat nemá systematickou odchylku. Všimněte si,že µ 0 = 0(středníhodnotazaplatnostihypotézy H 0 )ležíuvnitřintervalového odhadu o spolehlivosti 0,95. Neboli 0 je pravděpodobná hodnota skutečné středníhodnotyatudížnemůžemezamítnout H 0.Obapřístupyktestování hypotéz, jak klasický přístup, tak přes intervalový odhad, jsou ekvivalentní. 5.2 Test o rozptylu normálního rozdělení Nechť X 1,...,X n jenáhodnývýběrzn(µ,σ 2 ),kde n > 1.Jetřebatestovat hypotézu H 0 : σ 2 = σ 2 0,kde σ 2 0jedanéčíslo,protialternativě H 1 : σ 2 σ 2 0.

53 50 KAPITOLA 5. PARAMETRICKÉ TESTY Hypotézu H 0 zamítneme,bude-li S 2 hodněvzdálenoodčísla σ 2 0.Zvěty3.3 víme,žezaplatnostihypotézy H 0 mástatistika T = (n 1)S2 σ 2 0 χ 2 n 1 χ 2 rozděleníon 1stupníchvolnosti.Podledefinicekritickéhodnotyrozdělení χ 2 dostaneme,že ( ( α P χ 2 n 1 (n 1)S 2) 2 /σ0 2 χ 2 n 1 ( 1 α )) = 1 α, 2 Tedyhypotézu H 0 zamítnemenahladině α,jestližeplatí ( α ( T χ 2 n 1 nebo T χ 2) 2 n 1 1 α ). 2 VpřípadějednostrannéalternativyH 1 : σ 2 > σ 2 0,resp.H 1 : σ 2 < σ 2 0hypotézu H 0 zamítneme,jestliže T χ 2 n 1(1 α), resp. T χ 2 n 1(α). Příklad 5.2 Zácvik laboranta na určitém optickém přístroji považujeme za ukončený, jestliže při měření určitého objektu dosahuje rozptylu nejvýše 0,0196. Byly naměřeny hodnoty: 6,82; 6,44; 6,38; 6,21; 6,38; 6,60; 6,32. v tomto případě je třeba provést test s jednostrannou alternativou. Zajímá nás, zda σ 2 0,0196 nebo σ 2 > 0,0196. Zahypotézu H 0 musíme vždy zvolit,tudokterépatřírovnost.tudížtestujeme H 0 : σ 2 0,0196proti alternativě H 1 : σ 2 > 0,0196.Spočtemevýběrovýrozptyl S 2 = 0,0406a statistiku T = 6S2 0,0196 = 12,44.Kritickáhodnota χ2 6(0,95) = 12,59,tudíž T < χ 2 6(0,95)atedynemůžemezamítnouthypotézu H 0.Všimnětesi,žeodhad rozptylu je výrazně větší než požadovaný rozptyl, ale naměřená data nám neumožňují zamítnout hypotézu, že rozptyl je roven požadované hodnotě na hladině α = 0,05.Neboli,jevícenež5%pravděpodobnost,ženaměřenádata by mohla vzniknout z normálního rozdělení s rozptylem 0,0196.

54 5.3. PÁROVÝ T TEST Párovýttest Mějmenáhodnývýběr (Y 1,Z 1 ),(Y 2,Z 2 ),...,(Y n,z n )znějakéhodvourozměrnéhorozdělení,jehožvektorstředníchhodnotje (µ 1,µ 2 ).Chcemetestovat hypotézu H 0 : µ 1 µ 2 = protialternativě H 1 : µ 1 µ 2,kde je nějaké dané číslo(nejčastěji = 0). Položíme X 1 = Y 1 Z 1,X 2 = Y 2 Z 2,...,X n = Y n Z n. Veličiny X 1,X 2,...,X n jsounezávislé.předpokládejme,že X i N(µ,σ 2 ),i = 1,2,...,n.Zřejměµ = µ 1 µ 2.Jsou-litytopředpokladysplněny,pakjeúloha převedenanajednovýběrovýttest.zveličin X 1,X 2,...,X n vypočteme Xa S 2.Hypotézu H 0 zamítnemenahladině α,platí-li T = ( X ) n S t n 1(1 α/2). Párovýttestsepoužívávsituacích,kdynakaždémznobjektůmámenaměřeny dvě veličiny. Jednotlivé objekty lze zpravidla pokládat za nezávislé, ale měření na témž objektu nikoli. Párový t test použijeme, když např. testujemeúčinnostnějakéholékuna npacientech,přičemž Y i jsouhodnoty naměřenépředpodánímlékuaz i jsouhodnotynaměřenépopodáníléku. Příklad5.3Máserozhodnoutnahladině α = 0,05,zdaléknasnížení krevního tlaku je účinný či nikoli. Bylo proto vybráno 6 pacientů jimž byl změřentlakpředaplikacílékuahodinupoaplikaciléku.vyššízobouhodnot měření tlaku každého pacienta je zaznamenána v tabulce. Pacient Předpodánímléku: Popodáníléku: Rozdíl Rozdíly měření budeme považovat za realizace nezávislých náhodných veličin srozdělením N(µ,σ 2 ),kde σ 2 neníznámo.pokudléknemávlivnatlakkrve,

Zobrazit více