Statistika A. Obsah: (1) Popisná statistika, (2) Pravděpodobnost, (3) Základy odhadu



Podobné dokumenty
Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

KGG/STG Statistika pro geografy

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Výběrové charakteristiky a jejich rozdělení

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Zápočtová práce STATISTIKA I

ROZDĚLENÍ NÁHODNÝCH VELIČIN

= = 2368

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Charakterizace rozdělení

PRAVDĚPODOBNOST A STATISTIKA

Základy teorie pravděpodobnosti

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Charakteristika datového souboru

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

4ST201 STATISTIKA CVIČENÍ Č. 7

Náhodná veličina a rozdělení pravděpodobnosti

Pravděpodobnost a aplikovaná statistika

Náhodné (statistické) chyby přímých měření

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Testování statistických hypotéz

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Vybraná rozdělení náhodné veličiny

Pravděpodobnost a aplikovaná statistika

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Náhodná veličina. Michal Fusek. 10. přednáška z ESMAT. Ústav matematiky FEKT VUT, Michal Fusek

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

MATEMATICKÁ STATISTIKA

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Téma 22. Ondřej Nývlt

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Praktická statistika. Petr Ponížil Eva Kutálková

Základy popisné statistiky

I. D i s k r é t n í r o z d ě l e n í

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Cvičení ze statistiky - 9. Filip Děchtěrenko

Testování statistických hypotéz

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

p(x) = P (X = x), x R,

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Pravděpodobnost a statistika

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

Testování statistických hypotéz. Obecný postup

Normální (Gaussovo) rozdělení

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

NÁHODNÉ VELIČINY JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU NA HODNOTY NÁHODNÝCH VELIČIN?

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

Náhodné chyby přímých měření

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

4. ZÁKLADNÍ TYPY ROZDĚLENÍ PRAVDĚPODOBNOSTI DISKRÉTNÍ NÁHODNÉ VELIČINY

Diskrétní matematika. DiM /01, zimní semestr 2018/2019

12. cvičení z PST. 20. prosince 2017

2 ) 4, Φ 1 (1 0,005)

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Analýza dat na PC I.

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA 1 Metodický list č 1.

15. T e s t o v á n í h y p o t é z

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

15. T e s t o v á n í h y p o t é z

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Testování statistických hypotéz

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Cvičení ze statistiky - 8. Filip Děchtěrenko

ÚVOD. Rozdělení slouží: K přesnému popisu pravděpodobnostního chování NV Střední hodnota, rozptyl, korelace atd.

7. Rozdělení pravděpodobnosti ve statistice

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Inovace bakalářského studijního oboru Aplikovaná chemie

Testy. Pavel Provinský. 19. listopadu 2013

Transkript:

Statistika A Obsah: (1) Popisná statistika, (2) Pravděpodobnost, (3) Základy odhadu parametrů a testování hypotéz Literatura: (H) Hindls & kol. Statistika pro ekonomy. Professional Publishing 2002 nebo podobná publikace (S) Seger & kol. Statistika v hospodářství. ETC Publishing 1998 Software: Statgraphics, (Excel) Vyučující: Martin Šmíd, martin@klec.cz, 777 605 528 Stránky s informacemi: www.klec.cz/st Tento učební text je velim stručný - pro přípravu k bakalářské zkušce doporučuji prosudovat též některou monografii (zde se budu odkazovat na Hindse & kol) a vyřešit příklady na hlavní metody (například dle cvičebnic Jarošová a kol., vydalo VŠE) Podmínky zápočtu: - domácí práce: test hypotézy a odhad parametru (bodový i intervalový) na základě skutečných dat (například ze zaměstnání, koníčku či ekonomických dat) 1

K čemu je statistika? Příklad: Firma zaměstnává dva prodejce, kteří mají pro svou činnost stejné podmínky, přičemž první dosáhl v minulém roce lepších výsledků než druhý. Jak ale rozlišit, nakolik je tento rozdíl výsledkem náhody a nakolik ho lze přičíst horší práci druhého prodejce? Jiný příklad: Agentura pro výzkum veřejného mínění odhaduje výsledky referenda. Je jasné, že zeptat se všech obyvatel by pro ni bylo přinejmenším nákladné, spíše však neproveditelné. Kolika lidí se má zeptat, aby získala dost přesný výsledek, ale aby výzkum moc nestál? 2

Ještě jiný příklad: Manažer firmy se rozhoduje, jakou stanovit cenu opalovacího krému tak, aby maximalizoval zisk své firmy. Ví, že je prodejnost krému závisí hlavně na jeho ceně, na úrovni jeho propagace, ale také na jiných, jím neovlivnitelných, faktorech (konkurence, počasí). Proto ví, že nemůže prodej krému při dané ceně a propagaci předpovědět přesně. Jak má tedy v takové situaci stanovit cenu? A ještě jeden: Tento manažer byl do firmy před pěti dosazen s tím, že zvýší zisky. Ve skutečnosti byly zisky někdy nižší, někdy vyšší. Jak můžou majitelé rozlišit, zda jsou fulktuace ziskovosti náhodné nebo zda mají stoupající trend? Řešení prvních dvou problémů nabízí okruh (3) tohoto semestru, řešení třetího, čtvrtého a mnoha dalších se dozvíte v letním semestru. 3

Základní rozdělení statistiky Popisná statistika Matematická statistika účel vyznat se ve známých datech odhadnout neznámá data obsah sběr, sumarizace, analýza popis, odhady a předpovědi a prezentace dat náhodných dějů metody aritmetické výpočty teorie pravděpodobnosti výstupy numerické ukazatele, grafy bodové a intervalové odhady rozhodnutí o platnosti hypotéz výsledky přesné nepřesné obtížnost malá velká pro matematika nudná zajímavá Poznámka. Rozdělení není v praxi tak striktní: I popisná statistika musí občas odhadovat neznámá data, naprotitomu matematická statistika si občas vypůjčuje metody popisné statistiky. 4

1. Statistické proměnné Statistická jednotka: elementární jednotka statistického pozorování (např. osoba, organizace) Statistický znak (proměnná): vlastnost statistické jednotky (např. mzda, stáří) Základní (populační) soubor: množina všech zkoumaných statistických jednotek (rozsah N) Výběrový soubor: množina vybraných statistických jednotek z populačního souboru (rozsah n) 5

Statistické znaky (proměnné) měřitelné (metrické): číselné proměnné, jejichž porovnání (rozdílem a podílem) má smysl spojité - tělesná výška, věk, plat, spotřeba auta nespojité (diskrétní) - počet dětí (nebo čehokoli jiného), body v soutěži (nebo kdekoli jinde) pořadové (ordinální) - ty, které lze porovnávat: jakékoli pořadí, známka ve škole, výsledky dotazníku typu rozhodně ano, spíše ano, spíše ne, rozhodně ne, vzdělání ZŠ/SŠ/VŠ kvalitativní (kategoriální) - ty, jež mohou nabývat konečně mnoha hodnot alternativní - ty, které nabývají pouze dvou hodnot: muž/žena, zdravý/nemocný, jiné proměnné typu ano/ne množné: barva očí, státní příslušnost 6

Poznámky Každá metrická proměnná je ordinální a na každou metrickou či ordinální proměnná s konečně mnoha hodnotami může být nahĺıženo jako na kvalitativní. Pokud má diskrétní proměnná mnoho hodnot, bere se často jako spojitá (viz plat) Někdy se spojité proměnné seskupují do kategoríı (například plat 5000-10000, 10001-15000 atd). Pak jde samozřejmě pouze o ordinální či kategoriální proměnnou. Důvodem seskupování bývá přehlednost, z hlediska matematické statistiky jde ovšem o ztrátu informace. V (H) se metrickým a ordinálním proměnným souhrnně říká kvantitativní - přičemž tyto jsou definovány jako proměnné, které lze vyjádřit číselně. Podle mne to není tak úplně vhodná definice - i kategorie lze přeci očíslovat. To, zda je proměnná ordinální či pouze kategoriální, nevyplývá jen z její povahy, ale z pohledu statistika: Například jednoho stagistika může zajímat kraj, kde respondent bydĺı, jen jako kategorie (třeba chce zjišt ova platy v jednotlivýcj krajích), zatímco jiný bude brát v úvahu kreje dle rozlohy (podle níž pak lze kraje samozřejmě seřadit). 7

Rozdělení četností Uvažujme proměnnou, která může nabývat pouze k možných hodnot, které očíslujme 1, 2,..., k. Pod slovem absolutní rozdělení rozumíme počty n 1, n 2,..., n k jednotek s příslušnou hodnotou znaku, slovem relativní rozdělení máme na mysli frekvence p 1, p 2,..., p k, p i = n i /n. Kumulativní rozdělení: - absolutní: n 1, n 2 + n 2,..., i=1 k n i = n - relativní: p 1, p 2 + p 2,..., i=1 k p i = 1 Intervalové rozdělení: hodnoty se nejprve seskupí do intervalů, pro něž se rozdělení spočítá. Histogram, polygon, výsečový graf: grafická vyjádření rozdělení, viz například (H) 8

2. Základní charakteristiky Charakteristiky polohy aritmetický průměr x prostý x = 1 n n x i vážený x = 1 n k x i n i = k x i p i i=1 i=1 i=1 medián x prostřední hodnota znaku x = { x((n+1)/2) pro liché n x (n/2) +x ((n+2)/2) 2 pro sudé n modus ˆx nejčetnější hodnota znaku p%-kvantil x p viz dále 9

Charakteristiky variability rozptyl σ 2 = n i=1 (x i x) 2 n σ 2 = k i=1 (x i x) 2 n i n = k (x i x) 2 p i i=1 výběrový rozptyl s 2 = n i=1 (x i x) 2 n 1 s 2 = k i=1 (x i x) 2 n i n 1 = n n 1 k (x i x) 2 p i i=1 směrodatná odchylka σ = σ 2 s = s 2 variační koeficient (%) V = σ x 10

Charakteristiky tvaru rozdělení šikmost (skewness) α = n i=1 (x i x) 3 nσ 3 špičatost (kurtosis) β = n i=1 (x i x) 4 nσ 4 3 11

Kvantily p-procentní kvantil je taková hodnota znaku, že p jednotek v souboru má znak menší nebo roven této hodnotě (a tedy 100 p procent jednotek jej má větší). Význačné kvantily: - 50-procentní kvantil se nazává medián - 25-procentní kvantil se nazývá první kvartil, 75-procentní kvantil se nazývá třetí kvantil - 10,20,...,90-procentní kvantily se nazývají decily Příklad: Pokud se tedy řškne, že 23 procent lidí má nižší (nebo stejný) příjem než 5000 Kč, znamená to, že 5000 je 23-procentní kvantil proměnné příjem. 12

3. Počet pravděpodobnosti Definice pravděpodobnosti Klasická definice (Laplace): Poměr příznivých případů ku všem možným případům. Příklad. Na minci může padnout bud panna nebo orel, celkem mohou tedy nastat dva případy. Pravděpodobnost toho, že padne panna je dle klasické definice 1/2. Jiný příklad: Jaká je pravděpodobnost, že náhodně vytažená mariášová karta bude červená? Odpověd : V baĺıčku 32 karet je 8 červených. Podle klasické definice je hledaná pravděpodobnost 8/32 = 1/4. Úmluva: Dále budeme kvůli ušetření místa i mých prstů někdy psát prst místo pravděpodobnost. 13

Problém: V tramvaji mohlu nastat dvě možnosti: revizor nás bud zkontroluje nebo nezkontroluje. Zkušenost však ukazuje, že pravděpodobnost kontroly není 1/2, ale je menší. Statistická definice (von Mises): Uvažujme opakovatelný pokus, jehož výsledkem je bud příznivý nebo nepříznivý výsledek. Pak definujeme Pravděpodobnost úspěchu = lim počet pokusů početpříznivých výsledků počet pokusů Úskaĺı: Protože máme k dispozici jen konečné množství času, můžeme udělat jen konečně mnoho pokusů: Prst podle této definice se tedy nikdy nedozvíme... Obeplutí úskaĺı: Pravděpodobnost se odhaduje na základě dostatečně velkého množství pokusů, přičemž nepřesnost tohoto odhadu lze kvantifikovat (viz okruh 9). Ad revizor: Než se Josef rozhodl, zda bude nebo nebude jezdit načerno, kupoval si ĺıstek a dělal si čárky pokaždé, když přišel revizor. Z dvouset jízd přišla kontrola čtyřikrát, proto Josef odhadl pravděpodobnost příchodu revizora na 0.02.. 14

Problém Často nelze uspořádat dostatečné množství pokusů s naprosto stejnými podmínkami. Řešení tohoto problému: Tento problém se většinou ignoruje (což je možná jeden z důvodů malé důvěryhodnosti statistických metod mezi praktiky). Proto vždy pamatujme, že prabděpodobnostní modely jsou jen a jen modely, které sedí tu lépe, tu hůře, nikoli skutečnost. Demonstrace: Josef usoudil, že jím odhadnutá prst příchodu revizora je dost malá, aby se vyplatilo jezdit načerno. To ovšem netušil, že dopravní podnik mezitím vyslal kromě revízorů kontrolovat do terénu ještě 100 administrativních pracovníků (tj. dělal svůj pokus za jiných podmínek, než za kterých aplikoval výsledky), čímž se frekvence kontrol zvýšila a Josef platil a platil. Poznámka. V teorii pravděpodobnosti se (nejen) kvůli výše zmíněnému úskaĺı a problému použivá axiomatická definice prsti (prst se nijak nespojuje s praxí - hledí se na ni jen jako na matematický objekt), my však vystačíme se statistickou definicí. 15

Definice a vztahy mezi pravděpodobnostmí Necht A a B jsou výroky, jejichž pravdivost závisí na náhodě (říkejme jim náhodné jevy). Definice: Jev A je jistý pokud P (A) = 1. Jev A je nemožný pokud P (A) = 0. Jevy A a B jsou neslučitelné pokud P (A B) = 0. Jevy A a B jsou nezávislé pokud P (A B) = P (A)P (B) Přeloženo do lidské řeči: Jev A je jistý pokud určitě nastane. Jev A je nemožný pokud určitě nenastane. Jevy A a B jsou neslučitelné pokud se nemůže stát, že oba nastanou současně. Jevy A a B jsou nezávislé výskyt jednoho z nich nijak neovlivňuje výskyt druhého. Jinými slovy: pokud výskyt jednoho jevu nepřináší žádnou novou informaci o druhém jevu. 16

Podmíněná pravděpodobnost: Necht P (B) > 0. Pravděpodobnost jevu A za podmínky, že nastal jev B, definujeme vztahem P (A B) = lim počet pokusů počet současných výskytů A i B počet výskytů B Slovy: Pravděpodobnost, že nastane A pokud víme, že už nastal B. Ilustrace: Pravděpodobnost, že si ĺıznu červenou z plného pakĺıku je 1/32. Pokud jsou v pakĺıku už jen čtyři karty, je podmíněná pravděpodobnost ĺıznutí červené sedmy pokud (za podmínky, že) červená sedma ještě nešla rovna 1/4.. Pravděpodobnost, že zemřu cestou letadlem je malá. Pravděpodobnost, že zemřu za podmínky že v mém letadle je bomba, je velká. Pravděpodobnost, že zbohatnu na burze, je malá. Pravděpodobnost téhož, pokud mám dostatek informací, je větší. 17

Vztahy: P ( A) = 1 P (A), (1) P (A B) = P (A) + P (B) P (A B), (2) P (A B) = P (A B)P (B). (3) Důkaz: první dva lze ověřit pomocí definice prsti, třetí vyplývá z definice podmíněné prsti. Intuice: Ad. (1): je celkem jasné, že pokud něco nastane na 80%, pak opak nastane na 20%. Ad. (2): Jaká je prst, že si ĺıznu svrška (S) nebo zelenou (Z)? Mám celkem 32 možností Svršci jsou čtyři, zelených je osm. Zelený svršek se ale nesmí počítat dvakrát: počet příznivých případů je tedy 8+4 1 = 11. A opravdu: P (Z S) = P (Z)+P (S) P (Z S) = 11/32 (viz příklad (2) níže). Ad. (3) Tento vztah víceméně ilustruje slovní definici - opkud chování A nezáleží na B, pak nemůže mluvit ani do jeho prsti Důsledek 1: Pokud jsou A a B neslučitelné, pak P (A B) = P (A) + P (B) (4) Důkaz: díky neslučitelnosti platí P (A B) = 0 takže lze použít (2). Důsledek 2: Necht P (B) > 0. Pak A a B jsou nezávislé právě tehdy, když P (A B) = P (A). Důkaz: Stačí dosadit (3) do definice podm. prsti. 18

Příklady. (1) P (náhodně vybraná karta nebude červená) (1) = 1 1/4 = 3/4 (2) P (náhodně vybraná karta bude sedma nebo červená) (2) = P (sedma) + P (červená) P (červená sedma) = 4/32 + 8/32 1/32 = 11/32 = 0.344 (3) P (alespoň jedna ze dvou karet je sedma) (1) = 1 P (první není sedma druhá není sedma) (3) = 1 P (první není sedma druhá není sedma)p (druhá není sedma) 28 27 = 1 28 31 28 32 = 0.213 19

Jiný příklad. Předpokládejme, že jsou dva po sobě jdoucí hody kostkou nezávislé. Pak P (ze dvou hodů padne aspoň jedna šestka) (1) = 1 P [(nepadne poprvé) (nepadne podruhé)] nezáv. = 1 P (nepadne poprvé)p (nepadne podruhé) = 1 (5/6)(5/6) = 11/36 = 0.306 20

4. a 5. Náhodné veličiny, rozdělení Náhodná veličina je číselná veličina, závislá na náhodných jevech. Představa: Náhodnou veličinu si lze představit jako stroj, ze kterého vypadávají ĺıstečky z hodnotami. Příklady. Výsledek hodu kostkou, počet částic vyletujících ze zářiče, výška náhodně vybrané osoby, teplota v poledne. Co je a co není n.v. závisí jistě na okolnostech: mám-li jízdní řád, není pro mne doba příjezdu autobusu náhodná, nemám-li jej, jeví se mi přijezd jako náhodná veličina. Pravděpodobnostní chování náhodné veličiny X (neboli její rozdělení) je určeno distribuční funkcí, která je definována vztahem F (x) = P (X x) (5) Vlastnosti d.f. (bez důkazu): lim x F (x) = 1, lim x F (x) = 0 Použití: Z d.f. lze např. snadno odečíst pravděpodobnost, že veličina padne do zadaného intervalu: P [X (a, b]] = F (b) F (a) Důkaz P [(X > a) (X b)] (1) = 1 P [(X a) (X > b)] (4) = 1 (P (X a) + P (X > b)) = (1 P (X > b)) P (X a) (1) = P (X b) P (X a) (5) = F (b) F (a) 21

Diskrétní náhodné veličiny jsou ty, které mají nejvýše spočetně mnoho hodnot. Většinou se definují pomocí pravděpodobnostní funkce: p i = P (X = x i ) kde x 1, x 2,... jsou možné hodnoty veličiny. Vztah distribuční a pravděpodobnostní funkce: F (x) = x i x p i Střední hodnota: EX = i=1 x ip i (analogie průměru z popisné statistiky) Rozptyl: D(X) = E(X EX) 2 = = EX 2 (EX) 2 = (x i EX) 2 p i i=1 ( ) 2 x 2 i p i x i p i Poznámka: Nezaměňovat s rozptylem z popisné statistiky, byt s níém souvisí. Interpretace: Střední hodnota je analogíı průměru. D(X) (této veličině se říká směrodatná odchylka) měří střední odchylku od průměru. Směrodatná odchylka se se též používá jako míra rizika. i=1 i=1 22

Příklad: Je-li pravděpodobnost příchodu revizora 0.02, ĺıstek stojí 12Kč a je-li pokuta je 400 Kč, pak výnos V černého pasažéra (ve srovnání s případem, že by platil) je diskrétní náhodná veličina s x 1 = 12, p 1 = 0.98, x 2 = 400 a p 2 = 0.02. Střední hodnota výnosu je rozptyl činí EV = 12 0.98 400 0.02 = 3.76, D(V ) = EV 2 (EV ) 2 = 12 2 0.98 + 400 2 0.02 3.76 = 3336.98 směrodatná odchylka je tedy 57.68. 23

Nejčastější typy (rozdělení) diskrétních n. v.: Alternativní A(p) p x = p x (1 p) 1 x pro x = 0, 1, p (0, 1) EX = p D(X) = p(1 p) Binomické Bi(n, p) p x = ( n x) p x (1 p) n x pro x = 0, 1,..., n, p (0, 1) EX = np D(X) = np(1 p) Poissonovo Po(λ) p x = λx x! e λ pro x = 0, 1,..., λ > 0 EX = λ D(X) = λ 24

Vztahy mezi rozděleními: Platí, že A(p) + A(p) +... + A(p) } {{ } součet n nezávislých Bi(n, p) (6) Důkaz lze provést indukcí dle n pomocí přímého výpočtu prstních funkcí. Pokud je n velké, pak Bi(n, p) P o(np), Bez důkazu. X R znamená, že veličina X má rozdělení R. 25

Příklady Počet úspěchů v jednom pokusu s prstí úspěchu p A(p) Počet úspěchů v n takových pokusech (dle prvního vztahu) Bi(n, p). Například počet pannen z 10 hodů mincí Bi(10, 1/2), počet šestek z pěti hodů kostkou Bi(5, 1/6), počet kontrol revizorem ze 100 jízd Bi(100, 0.02) (pokud je prst příchodu revizora 0.02). Počet kladných odpovědí v anketě mezi n respondenty v prípadě, že poměr kladně odpovídajících v celé populaci je p, má Bi(n, p). Proč? Jednotlivé dotazy si můžeme představit jako nezávislé pokusy s prstí úspěchu p. Pokud předpokládáme, že nějaká událost nastane stejně pravděpodobně v kterémkoli čase a jednotlivé události na sobě nezávísí, pak má počet takovýchto události v určitém časovém intervalu Poissonovo rozdělení. Příklady: počet poruch stroje, počet zákazníků přišlých do obchodu v určitém časovém intervalu, počet rozpadů v radioaktivním vzorku. Proč? Časový interval můžeme rozdělit na n velmi malých úseků, kdy je prst p, že přijde zákazník, velmi malá, a prst, že přijdou dva, ještě mnohem menší, takže ji můžeme zanedbat. Opět si lze představit, že konáme n nezávislych pokusů, celkový počet zákazníků má tedy Bi(n, p), které lze díky druhému vztahu nahradit P o(np). 26

Příklad: Jaká je pravděpodobnost, že revizor přijde méně než dvakrát za 100 jízd, když prst jeho příchodu při jedné jízdě je 0.02? Řešení: Jak víme, kontrlo má Bi(100, 0, 02) dle (4) platí P(prijde 2) = P(nepřijde) + P(přijde jednou) + P(přijde 2 krát) = p 0 + p 1 + p 2 ( 100 ) ( 100 ) = 0.98 100 + 0.98 99 0.02 0 1 ( 100 ) + 0.98 98 0.02 2 = 0.67 2 27

Spojitá rozdělení jsou ta, která mohou nabývat všech hodnot nějakého intervalu. Nejčastěji se definují pomocí hustoty f(x). Vztah hustoty a distribuční funkce: funkce jinými slovy f(x) = F (x) = P(X x) = df (x) dx 0 x f(t) dt, Důsledek: Prst, že náhodná velična padne do intervalu (a, b) je určena plochou vymezenou hustotou nad intervalem (a, b). Interpretace hustoty: Pokud konáme mnohokrát opakujeme pozorování spojité náhodné veličiny a získaný vzorek zobrazíme pomocí histogramu s dostatečně malou šířkou intervalů, tvar histogramu se vzrůstajícím počtem pozorování stále více přibližuje k tvaru hustoty. Střední hodnota: EX = x f(x) dx 28

Rozptyl: Kvantil: D(X) = E(X EX) 2 = = EX 2 (EX) 2 = (x EX) 2 f(x) dx x 2 f(x) dx q α : P(X α) = α tj. taková hondnota, která je překročena s prstí α. ( x f(x) dx Poznámka: Nezaměňovat s rozptylem a kvantilem z popisné statistiky, byt s nimi souvisí. ) 2

Nejčastější spojitá rozdělení Rovnoměrné R(a, b) f(x) = 1 pro x (a, b) b a EX = a+b D(X) = (b a)2 2 12 Normální N(µ, σ 2 ) f(x) = 1 2πσ 2 EX = µ D(X) = σ 2 e (x µ)2 2σ 2 pro x R, µ R, σ 2 > 0 Lognormální LN(µ, σ 2 ) X LN(µ; σ 2 ) lnx N(µ; σ 2 ) EX = e µ+σ2 /2 D(X) = e 2µ+σ2 (e σ2 1) 29

Chí-kvadrát χ 2 (n) V = n Ui 2 χ 2 (n), kde U i N(0; 1), U 1,..., U n nezávislé i=1 Studentovo t(n) T = U V n t(n), kde U N(0, 1), V χ 2 (n), U, V nezávislé Fisherovo Snedecorovo F(n 1, n 2 ) Z = V 1 n 1 V 2 n 2 F(n 1, n 2 ), kde V 1 χ 2 (n 1 ), V 2 χ 2 (n 2 ), V 1, V 2 nezávislé 30

Příklady Pokud není důvod, proč by veličina měla nabývat jedné hodnoty pravděpodobněji než jiné, voĺıme rovoměrné rozdělení (příklad: tramvaj má interval 10 minut a my nemáme jízdní řád. Voĺıme tedy R(0, 10)). Normální rozdělení má ve statistice ústřední postavení, viz dále. Z některých modelů chování cen akcíı vyplývá, že ceny akcíı mají lognormální rozdělení. Zbylá tři rozdělení byla odvozena pro potřeby statistiky a v přírodě se spíše nevyskytují, viz dále. 31

Počítání s E a D Pro každé dvě náhodné veličiny X a Y a konstanty a, b R platí E(aX + by ) = aex + bey (7) Bez důkazu. Jsou-li X a Y nezávislé, pak D(aX + by ) = a 2 D(X) + b 2 D(Y ) (8) Bez důkazu. 32

Výpočet pravděpodobnostních a distribučních funkcí v Excelu: Bi(n, p): p x = BINOMDIST(x,n,p,NEPRAVDA), F (x) = BINOMDIST(x,n,p,PRAVDA) P o(λ): p x = POISSON(x,λ,NEPRAVDA), F (x) = POISSON(x,λ,PRAVDA), N(µ, σ 2 ): f(x) = NORMDIST(x,µ,σ, NEPRAVDA), F (x) = NORMDIST(x,µ,σ, PRAVDA), q α = NORMINV(α,µ,σ), N(0, 1): F (x) = NORMSDIST(x), q α = NORMSINV(α), χ 2 (n): F (x) = 1-CHIDIST(x,n), q α = CHIINV(1 α,n) 33

t(n): F (x) = 1-TDIST(x,n,1), q α = TINV(1 2α,n) F (n 1, n 2 ): F (x) = 1-FDIST(x,n 1,n 2 ), q α = FINV(1 α,n 1,n 2 )

Limitní vlastnosti Definice. Veličiny X a Y jsou nezávislé, pokud pro každé A R, B R platí P(X A Y B) = P(X A)P(Y B). Zákon velkých čísel: Je-li X 1, X 2,... posloupnost nezávislých stejně rozdělených veličin, EX i = µ <, pak 1 n n i=1 X i n µ Bez důkazu. Poznámka: jde o tzv. konvergenci v pravděpodobnosti. Centrální limitní věta: Je-li X 1, X 2,... posloupnost nezávislých stejně rozdělených veličin s vlastností EX i = µ, D(X i ) = σ 2 <, pak n i=1 X i nµ nσ 2 n N(0, 1). Bez důkazu. Poznámka: jde o tzv. konvergenci v distribuci. 34

Použití limitních vlastností: ZVČ: Zaručuje, čím větší rozsáhlejší vzorek populace populace budeme mít, tím více se přebližujeme k skutečné odnotě průměru. Příklad: Pokud bude černý pasažéř jezdit dost dlouho, jeho průěmrný výdělek se bude stále více bĺıžit 3.76. CLV: Díky této větě můžeme pracovat i s náhodnými veličinami, jejichž rozdělení neznáme: pokud máme dostatečně velký vzorek populace, můžeme například průměr tohoto vzorku považovat za (přibližně) normálně rozdělenou veličinu (a používat testy, které předpokládají normální rozdělení, viz dále). 35

Aproximace rozdělení: S určitou licencí lze CLV přepsat jako ( n X i N E X i, D( i=1 i i X i ) ) Aplikace: Protože lze Bi(n, p) vyjádřit jako součet nezávislých náhodných veličin (viz výše), lze na tyto sčítance použít CLV: Bi(n, p) N(np, np(1 p)) Podobně, protože lze Poissonovo rozdělení vyjádřit jakou součet mnoha Poissonových rozdělení (lze dokázat přímým výpočtem pravděpodobnsotních funkcí) můžeme psát P o(λ) N(λ, λ). 36

6. Výběr Výběr z konečné populace. Uvažujme konečnou populaci u kterých měříme určitou hodnotu. Vyberemi-li náhodně n členů populace (tj. každá n-tice musí být vybrána se stejnou pravděpodobností), pak se soubor n naměřených hodnot nazývá výběrem z konečné populace o rozsahu n. Poznámka: Hodnota znaku, naměřená u jednoho náhodně vybraného člena populace, je náhodnou veličinou s pravděpodobnostní funkcí rovnou relativnímu rozdělení četnosti znaku, střední hodnotou rovnou aritmetickému průměru znaku a rozptylem rovným rozptylu definovanému v popisné statistice. Bez důkazu. Výběr z nekonečné populace. Pokud výběr vzniká opakovaným měřením hodnoty nějaké náhodné veličiny, a pokud neexistuje omezení rozsahu výběru (například v případě opakovaného konání pokusu), hovoříme o výběru z nekonečné populace. Aproximace: V praxi se často s výběrem z konečné pracuje jako by to byl výběr z nekonečné populace. Důvodem je fakt, že se s druhým zmíněným mnohem lépe počítá. Poznámka: U výběru též bývá požadováno, aby byly jednotlivé hodnoty nezávislé. V praxi to znamená, že způsob výběru jedné hodnoty nesmí 37

záviset na způsobu výběru druhé. Například, vybral-li jsem jednoho respondenta v chudinslé čtvrti (a zkoumaná veličina na chudobě závisí), neměl bych tam vybrat všechny ostatní. Úmluva Nadále tedy budeme pod slovem výběr o rozsahu n rozumět n- tici nezávislých stejně rozdělených veličin. Budeme-li mluvit o výběru z rozdělení R, bude to znamenat, že všechny veličiny mají rozdělení R.

7., 8. Statistické odhady Předpokládejme, že má veličina X známé rozdělení s neznámým parametrem θ, jehož hodnotu chceme odhadnout. Dále předpokládejme, že máme k dispozici výběr X 1, X 2,..., X n z rozdělení X. Bodové odhady ˆθ(X 1, X 2,..., X n ) R (dále budeme psát jen ˆθ). Klasifikace bodových odhadů: Odhad ˆθ je nestranný (nevychýlený), pokud Eˆθ = θ konzistentní, pokud lim n ˆθ n = θ Jde o konvergenci v pravděpodobnosti. 38

Nejběžnější bodové odhady X = 1 n n i=1 X n je nestranným a konzistentním odhadem parametru EX, přičemž D( X) = 1 n D(X). Má-li X normální rozdělení, má X též normální rozdělení. Důkaz nestrannosti: E X (7) n = 1/n i=1 EX n i = 1/n EX = EX. Konzistence vyplývá i=1 ze ZVČ. Výpočet rozptylu: vyplývá z (8). Normalita: bez důkazu. s 2 = 1 n 1 n i=1 (X i X) 2 je nestranným konzistentím odhadem D(X). Má-li X normální rozdělení, má veličina S 2 / D(X) rozdělení χ 2 n 1. Bez důkazu. Je-li X Bi(n, p) se známým n a neznámým p, je ˆp = X/n nestranným konzistentním odhadem p. Důkaz konzistence: Jak bylo řečeno dříve, Bi(n,p) = n Důkaz nestrannosti: Dle vlastností binomického rozdělení EX = np, tudíž EX/n = p. (6) n i=1 A(p) n ZVČ = EA(p) = p. 39

Intervalové odhady (též intervaly spolehlivosti) Náhodný interval tvaru (θ d, θ h ). Bývá konstruován tak, aby překryl parametr θ s předem určenou pravděpodobností 1 α. Klasifikace intervalových odhadů levostranný interval spolehlivosti: P(θ (, θ h )) = 1 α pravostranný interval spolehlivosti: P(θ (θ d, )) = 1 α dvoustranný interval spolehlivosti: P(θ (θ d, θ h )) = 1 α 40

Intervalové odhady parametrů normálního rozdělení N(µ, σ 2 ) Intervaly spolehivosti pro µ, pokud je σ 2 znám: Oboustranný: ( x u 1 α 2 Levostranný: ( x u 1 α Pravostranný: (, x + u 1 α σ n, x + u 1 α 2 n σ, ), σ n ) σ n ), u 1 α 2 a u 1 α jsou kvantily N(0, 1) Intervaly spolehivosti pro µ, pokud σ 2 není znám: Oboustranný: ( x t 1 α 2 Levostranný: ( x t 1 α Pravostranný: (, x + t 1 α s n, x + t 1 α 2 s n, ), s n ), s n ), t 1 α 2 a t 1 α jsou kvantily t(n). 41

Intervaly spolehlivosti pro parametr σ 2 ( Oboustranný: Levostranný: Pravostrammý: χ 2 1 α 2 a χ 2 α 2 (n 1) s 2 χ 2 1 α 2 ( (n 1) s 2 χ 2 1 α (, ) (n 1) s2 χ 2 α 2, ),, (n 1) s2 χ 2 α ), jsou kvantily χ 2 (n 1), 42

Intervaly spolehlivosti pro teoretickou relativní četnost π (přibližné, jen pro dostatečně velké n) ( ) ˆp(1 ˆp) ˆp(1 ˆp) Oboustranný: ˆp u 1 α, ˆp + u 2 n 1 α 2 n ) ˆp(1 ˆp) Levostranný: (ˆp u 1 α, n ) Pravostranný: (, ˆp + u 1 α ˆp(1 ˆp) n 43

Statistické odhady ve Statgraphicsu Bodové odhady EX a D(X): Describe Numeric Data One-Variable Analysis V Tabular options zatrhnout Summary Statistics, Výsledek: X Average s Standard deviation Intervalové odhady: Describe Numeric Data One-Variable Analysis V Tabular options zatrhnout Confidence interval Výsledek: oboustranný pro EX oboustranný pro DX confidence interval for mean confidence interval for standard deviation 44

Statistické odhady ve Excelu X s PRŮMĚR SMODCH.VÝBĚR Ostatní je potřeba dopočítat nebo použít Nástroje Analýza dat 45

9. Testování hypotéz Uvažujme náhodnou veličinu s neznámým parametrem, mějme dvě (vylučující se) hypotézy o parametru (první nazvěme nulovou hypotézou a značme ji H 0, druhé řikejme alternativa a značme ji H 1. předpokládejme, že máme k dispozici výběr z tohoto rozdělení a řešme problém, ke které hypotéze se na základě tohoto výběru přiklonit. 46

Příklad: Chceme zjistit, zda je mince symetrická, tj. že obě strany padají průměrně stejně často (nulová hypotéza) nebo zda jedna strana padá průměrně častěji než druhá (alternativa) Řečeno v řeči statistiky: H 0 : EX = 1/2, H 1 : EX 1/2 kde X = 0, když padne panna, a X = 1, padne-li orel. Abychom rozhodli, hodíme dostatčněkrát mincí (získáme výběr). Pokud bude průměr případů, kdy padne orel, dostatečně bĺızko 1/2, příkloníme se k H 0, pokud bude dostatečně odlišný od 1/2, přikloníme se k H 1. Problém: Jak se pozná dostatečně odlišný výsledek? Nemůže nastat případ, kdy se nemohu rozhodnout ani pro jednu hypotézu? Odpověd na druhou otázku je ano, odpověd na první otázku viz dále. 47

Statistické testování hypotéz Mějme hypotézu H 0 a alternativu H 1 týkající se parametru µ a výběr X 1, X 2,..., X n. Statistický test definujeme jako trojici tvořenou funkcí t = t(x 1, X 2,..., X n ), množinou W a číslen α. Funkci t říkáme statistika, množině W kritický obor číslu α říkáme hladina. Pokud se stane, že t W, říkáme, že v testu vyšel statisticky významný výsledek a zamítáme H 0 na hladině α. Pokud t / W, hypotézu H 0 nezamítáme. V našem příkladu s mincí by bylo t = X, W = [0, 1/2 δ) (1/2 + δ] pro vhodně zvolené δ. 48

Chyba prvního druhu: Pravděpodobnost, že zamítneme H 0, ačkoli je správná. Chyba druhého druhu: Pravděpodobnost, že nezamítneme H 0, ačkoli platí H 1. Testy jsou konstruovány vždy tak, že chyba prvního druhu je menší nebo rovna hladině. Jako hladina testu se většinou bere 0.05. Tedy platí, že čím nižší je hladina, tím menší je prst, že se zmýĺıme, zamítneme-li H 0, testy s nižší hladinou jsou tedy kvalitnější Pokud bychom nesymetrii kostky chtěli testovat na hladině α, museli bychom δ nastavit tak, aby v případě, že EX = 1/2 platilo P [ X 1/2 δ] α. 49

Pozor! Pokud hypotézu nezamítáme, neznamená, že ji přijímáme! Představme si, že by mince byla nesymetrická, ale jen velmi málo, to znamená, že ani po mnoha hodech by průměr nebyl dostatečně vzdálený od 1/2, tj. nepadl by do kritického oboru. Na základě testu bychom tedy nemohli zamitnout H 0. Kdybychom však přijali H 1, dopustili bychom se omylu. Proto říkáme jen, že H 0 nezamítáme. 50

Test hypotézy o průměru normálního rozdělení proti některé z alternativ H 0 : µ = µ 0 H 1 : µ > µ 0 (pravostranná alternativa) H 1 : µ < µ 0 (levostranná alternativa) H 1 : µ µ 0 (oboustranná alternativa) Příklad: Máme skupinu desetiletých dětí a zjišt ujeme, zda nemají nadnormální vzrůst (řekněme, že běžný průměrný vzrůst je 130cm). O biologických veličinách se často předpokládá, že mají normální rozděleni. Použijeme tedy tento test s H 0 : µ = 130, H 1 : µ > 130. 51

Známe-li rozptyl, pak test vypadá následonvě - jako statistika se použije u = x µ 0 σ n N(0, 1), kritický obor závisí na alternativě Alternativní hypotéza Kritický obor H 1 : µ < µ 0 u 1, 64 H 1 : µ > µ 0 u 1, 64 H 1 : µ µ 0 u 1, 96 a u 1, 96 Neznáme-li rozptyl, je statistika: t = x µ 0 s n t(n 1), kritický obor pak Alternativní hypotéza Kritický obor H 1 : µ < µ 0 t t α (n 1) H 1 : µ > µ 0 t t 1 α (n 1) H 1 : µ µ 0 t t α/2 (n 1) a t t 1 α/2 (n 1) Tento druhý test se nazývá jednovýběrový t-test 52

Jednovýběrový t-test ve Statgraphicsu. Describe Hypothesis test Do Sample mean vložit X, do Sample sigma veličinu s (pozor, nikoli s 2 ) do Null hypothesis hodnotu µ 0, do Sample size hodnotu n a zatrhnout Normal Mean. Po odeslání ze zobrazí výsledek testu s neznámým rozptylem s alternativou µ µ 0. Jednostranné testy můžeme zvolit pomocí pravého tlačítka a volby Analysis options. Užitečná rada. Ve Statgraphicsu (a jiných programech) nemusíme srovnávat statistiky s tabulkami - zda test vyšel významně, poznáme podle veličiny p-value: Pokud je menší než hladina našeho testu, vyšel test významně. 53

Test shody dvou průměrů normálního rozdělení H 0 : µ 1 = µ 2 při známých rozptylech (za platnosti H 0 ): u = x 1 x 2 N(0, 1) σ 2 1 n 1 + σ2 2 n 2 při neznámých rozptylech za předpokladu σ 2 1 = σ2 2 (za platnosti H 0): t = x 1 x 2 (n1 1)s 2 1 +(n 2 1)s 2 2 n 1 +n 2 2 t(n 1 + n 2 2) 1 n 1 + 1 n 1 Alternativní hypotéza Kritický obor H 1 : µ 1 < µ 2 t t α (n 1 + n 2 2) H 1 : µ 1 > µ 2 t t 1 α (n 1 + n 2 2) H 1 : µ 1 µ 2 t t α/2 (n 1 + n 2 2) a t t 1 α/2 (n 1 + n 2 2) (Tento test se nazývá dvouvýběrový t-test se shodou rozptylů). 55

při neznámých rozptylech bez předpokladu σ 2 1 = σ2 2 (za platnosti H 0): t = x 1 x 2 t(ν), ν = s 2 1 n 1 + s2 2 n 2 ( s2 1 n 1 + s2 2 n 2 ) 2 1 n 1 1 ( s2 1 n 1 ) 2 + 1 n 2 1 ( s2 2 n 2 ) 2 (Tento test se nazývá dvouvýběrový t-test se beze shody rozptylů). Přiklad: Při testování léku se jedné skupině pacientů podá lék a druhé placebo (pilulky s neúčinnou látkou) a srovnává se, zda je průměrná změna příznaku nemoci u první skupiny významně větší než u druhé skupiny. Pro srovnání se použije jeden z t-testů

To, zda použít test se shodou rozptylů nebo beze shody rozptylů může vyplynout bud z nějaké teoretické úvahy nebo na základě následujícícho Testu shody rozptylů dvou normálních rozdělení: H 0 : σ 2 1 = σ2 2 proti jedné z alternativ H 1 : σ 2 1 > σ2 2, H 1 : σ 2 1 < σ2 2, H 1 : σ 2 1 σ2 2 Testová statistika F (za platnosti H 0 ): F = s2 1 s 2 2 F (n 1 1, n 2 1) Alternativní hypotéza Kritický obor H 1 : σ1 2 < σ2 2 F F α (n 1 1, n 2 1) H 1 : σ 2 1 > σ2 2 F F 1 α ((n 1 1, n 2 1) H 1 : σ 2 1 σ2 2 F F α/2 (n 1 1, n 2 1) a F F 1 α/2 (n 1 1, n 2 1) Testy parametrů dvou normálních rozdělení v SG: Compare Two Samples Two Sample Comparison, v Tabular Options zatrhnout Comparison of Means (pro střední hodnoty) a/nebo Comparison of Standard Deviations (pro rozptyly). 56

Párový t-test Předpokládáme n 1 = n 2 = n a testujme H 0 : µ 1 = µ 2 Určíme d i = x 1i x 2i, z nich spočteme d a s 2 d. statistika t (za platnosti H 0 ): t = d s 2 d n 1 t(n 1) Alternativní hypotéza Kritický obor H 1 : µ 1 < µ 2 t t α (n 1) H 1 : µ 1 > µ 2 t t 1 α (n 1) H 1 : µ 1 µ 2 t t α/2 (n 1) a t t 1 α/2 (n 1) Použije se zejména v případě dvou měření na každé jednotce (v tomtopřípadě by bylo chybou použít dvouvýběrový test, protože měření mohou být závislá. Příklad použití - jiný test účinnosti léku: Skupině ličí je změřena hodnota příznaku léčené nemoci, pak je jim podán lék, a opět je změřena hodnota příznaku. Pomocí testu se zjistí, zda je rozdíl významný. Párový t-test ve SG: Compare Two Samples Paired Samples Comparison 57

Test parametru alternativního rozdělení H 0 : π = π 0. Pokud n > 9/(π(1 π)) (za platnosti H 0 ): u = p π 0 π0 (1 π 0 ) n N(0, 1) kde p je výběrová četnost. Příklad: Politická strana měla preference 10% a chtěla si ověřit, zda její preference neklesly. Nový výzkum na vzorku 100 lidí odhadl preference na 8%. Je důvod se znepokojovat? Řešení: Testujeme hypotézu H 0 : π = 0.1 oproti H 1 : π > 0.1. Protože 9/(0.1 0.9) = 81 100, můžeme použít uvedený test. Vychází u = 0.08 0.10 0.02 100 = 10 = 0.66 0.10(1 0.10) 0.3 Protože jednostranná kritická hodnota normálního rozdělení je 1.64, nemůžeme hypotézu H 0 zamítnout, tedy není důvod se znepokojovat. Kdyby ovšem byl průzkum proveden na 1000 respondentech a vyšlo by 8%, statistika by vyšla 2.1, dala by se H 0 zamítnout.

Test parametru Poissonova rozdělení Pokud n > 9/λ (za platnosti H 0 ): H 0 : λ = λ 0 u = p λ 0 λ0 n N(0, 1) 58

Testy parametrů dalších rozdělení v případě velkých výběrů test střední hodnoty H 0 : E(X) = E 0 (X) podle CLV (za platnosti H 0 ): u = x E 0(X) D(X) n N(0, 1) D(X) obvykle neznáme, tak ho nahradíme vhodným konzistentním odhadem pořízeným z dat. Zpravidla výběrovým rozptylem s 2. 59

10. Některé neparametrické testy χ 2 -test dobré shody H 0 : p j = π j H 1 : non H 0 Kritický obor: G = k (n j nπ j ) 2 j=1 nπ j > χ 2 1 α (k 1) lze použití jen pro nπ j > 5 Príklad použití: Podnik chce zjistit, zda je pravda, že 70% výrobků má vynikající kvalitu, 20% obstojnou kvalitu a 10% je zmetků, přičemž nechce kontrolovat celou produkci. Vybere tedy z produkce vzorek n výrobků a použije χ 2 test s parametry π 1 = 0.7,π 2 = 0.2 a π 3 = 0.1 (n musí být alespoň 50, aby byla splněna podmínka pro π 1 ). 60

Kolmogorovův Smirnovův test - testování tvaru rozdělení H 0 : X F (spojitá d.f.) H 1 : non H 0 Kritický obor: d n = sup x R F n (x) F (x) d 1 α (n), F n (x) = 1 n n i=1 I(X i x) empirická distribuční funkce d 1 α (n) tabelovaná kritická hodnota Jednovýběrové neparametrické testy: H 0 : medianx = a Dvouvýběrové neparametrické testy: H 0 : medianx = mediany Jedno a dvouvýběrové neparametrické testy lze použít pro značně nenormální veličiny 61

Zápočet K udělení zápočtu je třeba odevzdat samostatnou práci Práce má dvě části - odhad nějakého parametru - testování nějaké statistické hypotézy Musí se týkat skutečných statistických dat. Požadovaná struktura:: 1. Formulace problému (například zkoumání délky vlasů mužů a žen, odhad výnosu Harvardských fondů atd.) 2. Fromulace modelu (předpoklad o rozdělení, jeho odůvodnění čí test) 3. Odhad parametru (bodový i intervalový) a test (například odhad délky vlasů u mužu a žen) 4. Test hypotézy (například test, zda mají muži delši vlasy než ženy) 5. Interpretace Úkoly odevzdejte týden před termínem, na který jste se příhlásili, a to elektronicky na adresu martin@klec.cz. Za odevzdaný se považuje úkol tehdy, pokud jeho přijetí emailem potvrdím. V případě problémů s mailem mne kontaktujte telefonicky. 62