STATISTIKA A ANALÝZA DAT. Jan Picek. Katedra aplikované matematiky. doktorandské studium na EF TUL 2013/2014

Podobné dokumenty
MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Základy teorie pravděpodobnosti

Téma 22. Ondřej Nývlt

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Pravděpodobnost a aplikovaná statistika

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Charakterizace rozdělení

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Náhodná veličina a rozdělení pravděpodobnosti

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

Charakteristika datového souboru

MATEMATICKÁ STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

15. T e s t o v á n í h y p o t é z

7. Rozdělení pravděpodobnosti ve statistice

Výběrové charakteristiky a jejich rozdělení

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

NMAI059 Pravděpodobnost a statistika

Deskriptivní statistické metody II. Míry polohy Míry variability

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Pravděpodobnost a statistika I KMA/K413

MATEMATICKÁ STATISTIKA - XP01MST

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Zápočtová práce STATISTIKA I

NÁHODNÁ VELIČINA. 3. cvičení

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability


Pravděpodobnost a matematická statistika

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Statistika II. Jiří Neubauer

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

15. T e s t o v á n í h y p o t é z

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Praktická statistika. Petr Ponížil Eva Kutálková

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Jevy a náhodná veličina

Normální (Gaussovo) rozdělení

JAK MODELOVAT VÝSLEDKY

I. D i s k r é t n í r o z d ě l e n í

PRAVDĚPODOBNOST A STATISTIKA

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

PRAVDĚPODOBNOST A STATISTIKA

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

p(x) = P (X = x), x R,

Základy popisné statistiky

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Mnohorozměrná statistická data

Inovace bakalářského studijního oboru Aplikovaná chemie

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Definice spojité náhodné veličiny zjednodušená verze

5. T e s t o v á n í h y p o t é z

Vybraná rozdělení náhodné veličiny

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

Základy teorie odhadu parametrů bodový odhad

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Náhodná veličina. Michal Fusek. 10. přednáška z ESMAT. Ústav matematiky FEKT VUT, Michal Fusek

Chyby měření 210DPSM

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

PRAVDĚPODOBNOST A STATISTIKA

Číselné charakteristiky a jejich výpočet

Diskrétní náhodná veličina

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Číselné charakteristiky

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Poznámky k předmětu Aplikovaná statistika, 5.téma

Normální (Gaussovo) rozdělení

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Statistika pro geografy

Transkript:

STATISTIKA A ANALÝZA DAT Katedra aplikované matematiky doktorandské studium na EF TUL 2013/2014

KONTAKT Katedra aplikované matematiky Fakulta přírodovědně-humanitní a pedagogická budova H (4.patro), Voroněžská 13 tel. 485 352 290, konzultační hodiny:út 9:00-10:30 e-mail: jan.picek@tul.cz

POŽADAVKY Požadavky: Zpracování semestrální práce zaměřené na využití statistických metod ve vazbě na téma disertační práce. Ústní komisionální zkouška.

LITERATURA ANDĚL, J.. 4. vyd. Praha: Matfyzpress, 2007. ISBN 978-80-7378-003-6. HEBÁK, P. a kol. Vícerozměrné statistické metody, díl 1-3. 2. vyd. Praha: Informatorium, 2007. ISBN 978-80-7333-001-9. HENDL, J. Přehled statistických metod zpracování dat. Portál: Praha, 2012 (4.vyd.). ISBN 978-80-262-0200-4. MELOUN, M. a J. MILITKÝ. Kompendium statistického zpracování dat. 2. vyd. Praha: Academia, 2006. ISBN 80-200-1396-2. PECÁKOVÁ, I. Statistika v terénních průzkumech. 2. vyd. Praha: Professional Publishing, 2011. ISBN 978-80-7431-039-3. ŘEZANKOVÁ, H., D. HÚSEK a V. SNÁŠEJ. Shluková analýza dat. 2. vyd. Praha: Professional Publishing, 2009. ISBN 978-80-86946-81-8.

LITERATURA JUREČKOVÁ, J. a J. PICEK. Robust statistical methods with R. 1st ed. Boca Raton: Chapman & Hall, 2005. ISBN 9781584884545. WARNER, R. M. Applied Statistics: From Bivariate Through Multivariate Techniques. 2nd ed. Thousand Oaks: SAGE Publications, 2012. ISBN 978-1412991346.

LITERATURA http://moodle.vsb.cz/vyuka/course/info.php?id=3 Jaroslav Ramík: v marketingu http://www.studopory.vsb.cz/ http://mathonline.fme.vutbr.cz/ http://home.zcu.cz/ friesl/hpsb/tit.html http://kap.fp.tul.cz

ÚVOD Motto: "Vystačím si s průměrem...", "Co po mne chcete, to je přece výsledek z počítače..."

ÚVOD Motto: "Vystačím si s průměrem...", "Co po mne chcete, to je přece výsledek z počítače..." I tak jednoduchý ukazatel, jako je aritmetický průměr, může mít vlastnosti, které překvapí.

ÚVOD Motto: "Vystačím si s průměrem...", "Co po mne chcete, to je přece výsledek z počítače..." I tak jednoduchý ukazatel, jako je aritmetický průměr, může mít vlastnosti, které překvapí. Příklad č. 1: Naprostá většina lidí má nadprůměrný počet nohou

ÚVOD Motto: "Vystačím si s průměrem...", "Co po mne chcete, to je přece výsledek z počítače..." I tak jednoduchý ukazatel, jako je aritmetický průměr, může mít vlastnosti, které překvapí. Příklad č. 1: Naprostá většina lidí má nadprůměrný počet nohou Příklad č. 2: Dvě firmy na trhu zabývající se stejnou činností uvádí průměrnou mzdu. První ji má 22 857 Kč a druhá 18 981 Kč.

ÚVOD 1. firma: 10 dělníků... 15 000 2 adm. pracovníci... 25 000 1 zástupce ředitele... 40 000 1 ředitel... 80 000

ÚVOD 1. firma: 10 dělníků... 15 000 2 adm. pracovníci... 25 000 1 zástupce ředitele... 40 000 1 ředitel... 80 000 průměr... 22 857

ÚVOD 1. firma: 10 dělníků... 15 000 2 adm. pracovníci... 25 000 1 zástupce ředitele... 40 000 1 ředitel... 80 000 průměr... 22 857 2. firma: 100 dělníků... 17 000 5 adm. pracovníků... 30 000 2 zástupci ředitele... 50 000 1 ředitel... 100 000

ÚVOD 1. firma: 10 dělníků... 15 000 2 adm. pracovníci... 25 000 1 zástupce ředitele... 40 000 1 ředitel... 80 000 průměr... 22 857 2. firma: 100 dělníků... 17 000 5 adm. pracovníků... 30 000 2 zástupci ředitele... 50 000 1 ředitel... 100 000 průměr... 18 981

ÚVOD Opustíme-li průměry, situace může být ještě zamotanější okres A okres B kategorie ženy muži celkem ženy muži celkem mladší 5 6 11 3 4 7 starší 6 3 9 9 5 14 celkem 11 9 20 12 9 21 V mladší věk. kategorii je podíl žen v okrese A větší než v okrese B: 5 11 = 45,5% > 3 7 = 42,9% Ve starší věkové kategorie je to stejné: 6 9 = 66,7% > 9 14 = 64,3%

ÚVOD Opustíme-li průměry, situace může být ještě zamotanější okres A okres B kategorie ženy muži celkem ženy muži celkem mladší 5 6 11 3 4 7 starší 6 3 9 9 5 14 celkem 11 9 20 12 9 21 V mladší věk. kategorii je podíl žen v okrese A větší než v okrese B: 5 11 = 45,5% > 3 7 = 42,9% Ve starší věkové kategorie je to stejné: 6 9 = 66,7% > 9 14 = 64,3% Je podíl žen v okrese A větší než v okrese B?

ÚVOD Opustíme-li průměry, situace může být ještě zamotanější okres A okres B kategorie ženy muži celkem ženy muži celkem mladší 5 6 11 3 4 7 starší 6 3 9 9 5 14 celkem 11 9 20 12 9 21 V mladší věk. kategorii je podíl žen v okrese A větší než v okrese B: 5 11 = 45,5% > 3 7 = 42,9% Ve starší věkové kategorie je to stejné: 6 9 = 66,7% > 9 14 = 64,3% Je podíl žen v okrese A větší než v okrese B? NE 11 12 = 55,0% > 20 21 = 57,1%

ÚVOD Okres Podíl žáků na gymnáziích Jablonec 38.6% Semily 29.0% Liberec 18.6%

ÚVOD Okres Podíl žáků na gymnáziích Jablonec 38.6% Semily 29.0% Liberec 18.6% Okres počet Studenti Podíl Jablonec 986 2555 38.6% Semily 1009 3479 29.0% Liberec 1614 8680 18.6%

ÚVOD Okres Podíl žáků na gymnáziích Jablonec 38.6% Semily 29.0% Liberec 18.6% Okres počet Studenti Podíl Bydlí Podíl Jablonec 986 2555 38.6% 4196 23.5% Semily 1009 3479 29.0% 3724 27.1% Liberec 1614 8680 18.6% 7724 20.9%

MĚŘENÉ ZNAKY A MĚŘÍCÍ ŠKÁLY Vlastnosti, které jsou podrobovány měření, označujeme jako znaky. Znak je měřen na vhodné zvolené škále, stupnici.

MĚŘENÉ ZNAKY A MĚŘÍCÍ ŠKÁLY Vlastnosti, které jsou podrobovány měření, označujeme jako znaky. Znak je měřen na vhodné zvolené škále, stupnici. Měření rozdělujeme podle typu: 1. Metrické (kardinální) 2. Ordinální 3. Nominální (jmenné)

DATA: TŘÍDĚNÍ Předmětem zájmu obvykle není jediný, izolovaný objekt, ale soubor objektů. Pozorování či měření se podrobují všichny prvky tohoto souboru. Pro každou ze sledovaných vlastností, definujících znak, tak dostáváme soubor údajů odečítaných na příslušných škálách - tj. data x 1,...,x n.

DATA: TŘÍDĚNÍ Předmětem zájmu obvykle není jediný, izolovaný objekt, ale soubor objektů. Pozorování či měření se podrobují všichny prvky tohoto souboru. Pro každou ze sledovaných vlastností, definujících znak, tak dostáváme soubor údajů odečítaných na příslušných škálách - tj. data x 1,...,x n. 174, 178, 183, 168, 163, 175, 178, 177, 169, 182, 188, 176, 177, 178, 184, 185, 170, 168, 157, 158, 174, 174, 173, 171, 168, 170, 172, 174, 176, 179, 179, 188, 186, 181, 180, 169, 172, 174, 165, 164, 156, 174, 184, 182, 181, 172, 176, 177, 185, 181, 178, 175, 170, 168, 180, 183, 183, 181, 180, 173, 175, 177, 179, 164, 161, 172, 174, 178, 184, 176, 179, 162, 182, 177.

DATA: TŘÍDĚNÍ Třídní rozdělení četností: Interval absol. relativ. kumul.abs. kumul.rel. 156, 161) 3 0.04 3 0.04 161, 166) 6 0.08 9 0.12 166, 171) 9 0.12 18 0.24 171, 176) 17 0.23 35 0.47 176, 181) 21 0.29 56 0.76 181, 186) 15 0.20 71 0.96 186, 191) 3 0.04 74 1.00

DATA: TŘÍDĚNÍ Počet a volba tříd: mnoho málo Doporučení: M = 1+3.3log(n) Stugarsovo pravidlo M = n odmocninové pravidlo

DATA: TŘÍDĚNÍ 25 20 15 10 5 0 155 160 165 170 175 180 185 190 Histogram

DATA: TŘÍDĚNÍ Pohlaví Kuřák Nekuřák Muž 300 300 Žena 150 250 Známka počet žáků 1 4 2 8 3 5 4 2 5 1

DATA: POPIS Základní úlohou, které řeší popis dat, je úloha kondenzace, zhuštění informace v datech obsažené, tak že se původní primární data zredukují do mnohem menšího počtu údajů, tzv. charakteristik souboru: polohy variability (proměnlivosti) vzájemného vztahu, souvislosti mezi měřenými daty...

CHARAKTERISTIKY POLOHY 1 aritmetický průměr citlivý na hrubé chyby, pouze pro metrický znak x = 1 n x i. n i=1

CHARAKTERISTIKY POLOHY 1 aritmetický průměr citlivý na hrubé chyby, pouze pro metrický znak x = 1 n x i. n 2 výběrový medián "robustní" - není ovlivněn i velkými změnami několika hodnot. n liché: ˆx = x ( n+1 2 ) i=1

CHARAKTERISTIKY POLOHY 1 aritmetický průměr citlivý na hrubé chyby, pouze pro metrický znak x = 1 n x i. n 2 výběrový medián "robustní" - není ovlivněn i velkými změnami několika hodnot. n liché: ˆx = x ( n+1 ( 2 ) ) n sudé: ˆx = 1 x 2 ( n 2 ) +x ( n 2 +1). 3 modální hodnota (modus) x je definován jako nejčetnější hodnota. Obecně není určena jednoznačně. i=1

CHARAKTERISTIKY POLOHY setříděná data: x (1) x (2)... x (n) 156 157 158 161 162 163 164 164 165 168 168 168 168 169 169 170 170 170 171 172 172 172 172 173 173 174 174 174 174 174 174 174 175 175 175 176 176 176 176 177 177 177 177 177 178 178 178 178 178 179 179 179 179 180 180 180 181 181 181 181 182 182 182 183 183 183 184 184 184 185 185 186 188 188

CHARAKTERISTIKY POLOHY α-kvantil x α ( α (0,1)) x α = x ( αn ), kde a označuje a, pokud je to celé číslo, jinak nejbliží vyšší celé číslo. Kromě mediánu, což je kvantil pro α = 0.5, se často užívají i kvartily, x 0.25 a x 0.75.

CHARAKTERISTIKY POLOHY 156 157 158 161 162 163 164 164 165 168 168 168 168 169 169 170 170 170 171 172 172 172 172 173 173 174 174 174 174 174 174 174 175 175 175 176 176 176 176 177 177 177 177 177 178 178 178 178 178 179 179 179 179 180 180 180 181 181 181 181 182 182 182 183 183 183 184 184 184 185 185 186 188 188

CHARAKTERISTIKY VARIABILITY

CHARAKTERISTIKY VARIABILITY Rozptyl (variance, disperze) - průměrná kvadratická odchylka od průměru ( s 2 = 1 n n ) (x i x) 2 = 1 x 2 i n x 2 n n i=1 směrodatná odchylka s = s 2 střední chyba s n i=1 variační koeficient v = s x - definován pouze pro x 1,...,x n > 0.

CHARAKTERISTIKY VARIABILITY průměrná absolutní odchylka d = 1 n n x i ˆx i=1 rozpětí R = x (n) x (1) mezikvartilové rozpětí R M = x 0.75 x 0.25 entropie (pro nominální znak) h = r i=1 n ( i n log ni ) n

DALŠÍ CHARAKTERISTIKY 1 Obecný moment k tého řádu m k = 1 n x k n i, k = 0,1,... i=1 2 Centrální moment k tého řádu m k = 1 n (x i x) k, k = 0,1,... n i=1 3 šikmost míra (ne)symetrie 4 špičatost a 3 = m 3 s 3 a 4 = m 4 s 4

Průměr je x = 1 n výběrový rozptyl s 2 = 1 n směrodatná odchylka n x i = 175.08, i=1 n (x i x n ) 2 = 51.72, i=1 s = s 2 = 7.19, variační koeficient v = = 0.041, s x šikmost špičatost a 3 = 1 n n i=1 (x i x) 3 s 3 1 n n i=1 (x i x) 4 = 0.629,

CHARAKTERISTIKY - BOX PLOT č. výška výška otce výška matky váha tuk 1. 153.0 178 176 42.5 44.0 2. 161.0 180 165 61.0 88.0 3. 163.0 182 170 62.0 69.0 4. 175.0 180 170 65.5 58.0 5. 149.0 175 163 54.6 69.5 6. 171.0 175 160 105.2 120.5 7. 159.0 187 174 60.7 66.0 8. 159.0 177 167 58.0 74.0 9. 162.0 189 175 63.0 49.2 10. 152.5 178 170 46.3 31.7 11. 162.0 194 168 82.0 80.5 12. 162.5 183 168 76.4 89.7

CHARAKTERISTIKY - BOX PLOT č. výška výška otce výška matky váha tuk 13. 161.5 182 180 74.0 85.2 14. 150.0 176 160 53.1 52.2 15. 150.5 173 165 52.8 45.3 16. 163.5 183 170 46.2 30.5 17. 159.5 180 165 57.2 57.5 18. 167.5 187 173 65.5 57.5 19. 167.0 188 164 67.9 48.9 20. 170.0 180 175 63.3 66.6 21. 161.0 179 168 64.0 62.4 22. 160.0 183 171 49.5 31.9

CHARAKTERISTIKY - BOX PLOT 150 160 170 180 190

CHARAKTERISTIKY VZTAHU

CHARAKTERISTIKY VZTAHU Statistiky ukazují, že 10% dopravních nehod způsobují opilí řidiči. Z toho plyne, že zbývajících 90% dopravních nehod je způsobeno střízlivými řidiči. Nemělo by se tedy střízlivým řidičům zakázat řízení vozidel?

CHARAKTERISTIKY VZTAHU (x 1,y 1 ),...,(x n,y n ) korelační koeficient: r x,y = C x,y s x s y. kovariance: C x,y = 1 n ( n n (x i x)(y i ȳ) = 1 x i y i ) xȳ, n i=1 i=1

CHARAKTERISTIKY VZTAHU Korelační matice (výška, výška otce, výška matky, váha, tuk): 1.00000000 0.38105466 0.17817213 0.58595366 0.33694167 0.38105466 1.00000000 0.39432681 0.21713439 0.05810178 0.17817213 0.39432681 1.00000000 0.19823197 0.22884187 0.58595366 0.21713439 0.19823197 1.00000000 0.84130799 0.33694167 0.05810178 0.22884187 0.84130799 1.00000000

CHARAKTERISTIKY VZTAHU Spearmanův korelační koeficient R i a Q i je pořadí r S = 1 6 n(n 2 1) n (R i Q i ) 2 i=1

CHARAKTERISTIKY VZTAHU Žák (i) x i y i R i Q i 1. 2 1 2 2 2. 4 2 9 6 3. 3 1 5,5 2 4. 3 2 5,5 6 5. 2 2 2 6 6. 2 3 2 9 7. 4 2 9 6 8. 4 4 9 10 9. 3 1 5,5 2 10. 3 2 5,5 6

CHARAKTERISTIKY VZTAHU Žák (i) x i y i R i Q i 1. 2 1 2 2 2. 4 2 9 6 3. 3 1 5,5 2 4. 3 2 5,5 6 5. 2 2 2 6 6. 2 3 2 9 7. 4 2 9 6 8. 4 4 9 10 9. 3 1 5,5 2 10. 3 2 5,5 6 r S = 0.266

CHARAKTERISTIKY VZTAHU Pohlaví Kuřák Nekuřák Muž 300 300 Žena 150 250

CHARAKTERISTIKY VZTAHU Pohlaví Kuřák Nekuřák Muž 300 300 Žena 150 250 Míry asociace založeny na χ 2 = r i=1 ( s nij n i.n j. j=1 n i. n j. n n ) 2 např. χ C = 2 χ 2 +n

CHARAKTERISTIKY VZTAHU Pohlaví Kuřák Nekuřák Muž 300 300 Žena 150 250 C = 0.122 Míry asociace založeny na χ 2 = r i=1 ( s nij n i.n j. j=1 n i. n j. n n ) 2 např. χ C = 2 χ 2 +n

INDUKTIVNÍ STATISTIKA - ÚVOD Příklad: placení školného, dotáži se několika vybranných jedinců: 1. 7 osob, 1x ANO, 7x NE pro je 1 7 = 0.143 = 14.3(%)

INDUKTIVNÍ STATISTIKA - ÚVOD Příklad: placení školného, dotáži se několika vybranných jedinců: 1. 7 osob, 1x ANO, 7x NE pro je 1 7 = 0.143 = 14.3(%) Kolik osob do šetření vybrat?

INDUKTIVNÍ STATISTIKA - ÚVOD Příklad: placení školného, dotáži se několika vybranných jedinců: 1. 7 osob, 1x ANO, 7x NE pro je 1 7 = 0.143 = 14.3(%) Kolik osob do šetření vybrat? 2. 3000 osob, 430x ANO, 2570x NE pro je 430 3000 = 0.143 = 14.3(%)

INDUKTIVNÍ STATISTIKA - ÚVOD Příklad: placení školného, dotáži se několika vybranných jedinců: 1. 7 osob, 1x ANO, 7x NE pro je 1 7 = 0.143 = 14.3(%) Kolik osob do šetření vybrat? 2. 3000 osob, 430x ANO, 2570x NE pro je 430 3000 = 0.143 = 14.3(%) Přesnost - tzv. intervalové odhady, kvalita - reprezentativnost

INDUKTIVNÍ STATISTIKA - ÚVOD Intervalový odhad: 1) (0.4%,57.9%) 2) (13.1%,15.6%)

INDUKTIVNÍ STATISTIKA - ÚVOD Intervalový odhad: 1) (0.4%,57.9%) 2) (13.1%,15.6%) Základní soubor - úplné šetření Vzorek - výběrové šetření

INDUKTIVNÍ STATISTIKA - ÚVOD Matematická statistika řeší dvě základní úlohy: odhady (v základním souboru) rozhodovací problémy (testování hypotéz) Obvykle předpokládáme, že pro danou situaci známe vhodný model (distribuční funkci, hustotu aj.) až na hodnotu parametrů. Úlohy jsou pak převedeny na úvahy o těchto parametrech.

ODHADY bodový (odhad číslem) intervalový - interval, který s předepsanou pravděpodobností (1 α) pokrývá hodnotu neznámého parametru

PRAVDĚPODOBNOST Předmětem teorie pravděpodobnosti je studium náhodných dějů, tj. takových dějů, jejichž výsledek není předem jednoznačně určen a očekává se pouze, že výsledek bude jedním z dané množiny možných výsledků Ω neprázdná abstraktní množina. Počet jejích prvků může být konečný, spočetný, ale i nespočetný. Náhodnému ději budeme říkat náhodný pokus. Výsledkem pokusu mohou být čísla, číselné vektory, číselné posloupnosti, časový průběh nějaké funkce na daném intervalu, ale i libovolný kvalitativní ukazatel. Všechny možné výsledky pokusu ω Ω nazýváme elementárními jevy. Podmnožiny množiny Ω nazýváme jevy

PRAVDĚPODOBNOST Klasická definice pravděpodobnosti. Tato definice je použitelná v případech, kdy situace je popsána konečným počtem n různých výsledků (elementárních jevů ω), z nichž každý je "stejně možný". Potom P(A) = m(a) n, kde m(a) je počet elementárních jevů, které tvoří náhodný jev A.

PRAVDĚPODOBNOST Náhodná veličina Cíl: matematický popis náhodných jevů ("kvantifikovace" popisu - vyjádření pomocí reálných čísel.) odpovědi v anketě "ano", "ne" "1", "0", "kvalita výrobku" označení 1,2,3,... pro třídy kvality, Často je už náš základní prostor jevů částí R (výsledky měření, doba bezporuchového provozu, počet výrobků za směnu atd.).

PRAVDĚPODOBNOST Náhodnou veličinou budeme nazývat zobrazení X : Ω R. Náhodná veličina se vyznačuje rozdělením pravděpodobnosti na R, což není nic jiného než původní pravděpodobnost na Ω převedená na R. Existují dva typy náhodných veličin, náhodná veličina s diskrétním rozdělením pravděpodobnosti a náhodná veličina se spojitým rozdělením pravděpodobnosti.

PRAVDĚPODOBNOST Diskrétní rozdělení Řekneme, že náhodná veličina X je náhodná veličina s diskrétním rozdělením pravděpodobnosti, jestliže existuje nejvýše spočetně mnoho bodůx j a nejvýše spočetně mnoho kladných čísel p j = P(X = x j ) > 0, splňujících j P(X = x j) = 1. Funkci P X (x j ) = P(X = x j ) nazýváme pravděpodobnostní funkcí.

PRAVDĚPODOBNOST Řekneme, že náhodná veličina X je náhodná veličina s (absolutně) spojitým rozdělením, jestliže existuje nezáporná reálná funkce f X reálné proměnné taková, že P(a X < b) = pro libovolná reálná a,b; a b. b a f X (x)dx Funkce f X se nazývá hustotou rozdělení pravděpodobnosti.

PRAVDĚPODOBNOST Distribuční funkcí náhodné veličiny X budeme nazývat reálnou funkci reálné proměnné, pro kterou platí F X (x) = P(X < x).

PRAVDĚPODOBNOST Vlastnosti distribuční funkce 1. 0 F X (x) 1 pro všechna reálná x. 2. F X je neklesající funkce, tj. F X (x 1 ) F X (x 2 ) pro každé x 1,x 2 R,x 1 < x 2. 3. Pro libovolná reálná čísla a,b R;a < b platí P(a X < b) = F X (b) F X (a). 4. lim F X(x) = 0, lim F X (x) = 1. x x 5. F X je zleva spojitá v libovolném bodě x R. 6. Pro libovolné reálné číslo x R platí P(X = x) = lim t x+ F X (t) F X (x). 7. Distribuční funkce má nejvýše spočetně mnoho bodů nespojitosti.

PRAVDĚPODOBNOST Číselné charakteristiky Rozdělení pravděpodobnosti dává úplnou informaci o náhodném chování náhodné veličiny. Při vyhodnocování pokusů a sledování náhodných jevů však často vystačíme se znalostí jen některých zvláštních charakteristik, které odráží nějakou důležitou stránku tohoto pokusu resp. náhodného jevu.

PRAVDĚPODOBNOST Nejdůležitější z takovýchto charakteristik je hodnota, kolem které se kumulují hodnoty náhodné veličiny. Tuto hodnotu nazýváme střední hodnotou, někdy též hovoříme o očekávané hodnotě. EX = i I x i P(X = x i ). resp. EX = + xf X (x)dx.

PRAVDĚPODOBNOST Rozptyl Kromě střední hodnoty, nejužívanějším momentem je druhý centrální, tzv. rozptyl (variance) náhodné veličiny resp. varx = E(X EX) 2 = i I (x i EX) 2 P(X = x i ). varx = E(X EX) 2 = + (x EX) 2 f X (x)dx Druhou odmocninu z rozptylu nazýváme směrodatnou odchylkou (σ).

PRAVDĚPODOBNOST Vlastnosti rozptylu a střední hodnoty. 1. varx 0. 2. varx = EX 2 (EX) 2. 3. Necht a,b R a X je náhodná veličina, potom platí var(a+bx) = b 2 varx a E(a+bX) = a+bex. 4. Nemusí existovat.

PRAVDĚPODOBNOST Je-li g funkce, pak Eg(X) = i I g(x i )P(X = x i ). resp. Eg(X) = + g(x)f X (x)dx.

PRAVDĚPODOBNOST Obecné a centrální momenty Obecný moment r-tého řádu µ r = EX r = i I x r i P(X = x i ), r = 1,2,..., resp. µ r = EX r = + x r f X (x)dx.

PRAVDĚPODOBNOST Centrální moment r-tého řádu µ r = E(X EX) r = i I (x i EX) r P(X = x i ) resp. µ r = E(X EX) r = + (x EX) r f X (x)dx Šikmost a špičatost: α 3 = α 3 (X) = µ 3 σ 3, α 4 = α 4 (X) = µ 4 σ 4 ( 3)

PRAVDĚPODOBNOST Kvantilové číselné charakteristiky Necht X náhodná veličina s distribuční funkci F X. Potom funkce F 1 X daná vztahem F 1 X (α) = inf{x; F X(x) α} 0 < α < 1, se nazývá kvantilová funkce. Hodnotám funkce F 1 X (α) říká α-kvantil (nebo 100α%-ní kvantil).

PRAVDĚPODOBNOST Mediánem x rozumíme 50%-ní kvantil. Dolním kvartilem x 0.25 rozumíme 25%-ní kv. Horním kvartilem x 0.75 rozumíme 75%-ní kv. k-tým decilem rozumíme F 1 X (k/10) pro k = 1,2,...,9. k-tým percentilem rozumíme F 1 X (k/100) pro k = 1,2,...,99. mezikvartilové rozpětí x 0.75 x 0.25

PRAVDĚPODOBNOST Používaná diskrétní rozdělení

PRAVDĚPODOBNOST Alternativní rozdělení X Alt(p) Necht náhodná veličina X nabývá pouze dvou hodnot 0 a 1, a to s pravděpodobnostmi P(X = 1) = p, P(X = 0) = (1 p), kde 0 < p < 1. Rozdělení se někdy označuje jako 0 1. EX = p, varx = p(1 p)

PRAVDĚPODOBNOST Binomické rozdělení X Bi(n, p) Necht náhodná veličina X nabývá hodnot 0,1,...,n s pravděpodobnostmi ( ) n P(X = i) = p i (1 p) n i, i = 0,1,...,n, i kde 0 < p < 1. EX = np, varx = np(1 p)

PRAVDĚPODOBNOST Binomické rozdělení X Bi(n, p) Binomickým rozdělením se řídí četnost nějakého jevu A v n nezávislých pokusech, když v každém pokusu je pravděpodobnost jevu A stále stejná a je rovna p.

PRAVDĚPODOBNOST Poissonovo rozdělení X P o(λ) Necht X je náhodná veličina nabývající hodnot i = 0,1,2,... s pravděpodobnostmi kde λ > 0 je dané číslo. P(X = i) = λi i! e λ, EX = var(x)

PRAVDĚPODOBNOST Poissonovo rozdělení X P o(λ) Nejčastěji se používá pro popis pravděpodobnosti počtu událostí v nějakém časovém intervalu. (počet telefonních hovorů, dopravních nehod, příchodů zákazníků do obchodu apod.) Poissonovo rozdělení je možno také použít místo binomické náhodné veličiny X Bi(n,p), přičemž n je velmi velké číslo, p je velmi malé číslo a součin λ = np je stálý.

PRAVDĚPODOBNOST Geometrické rozdělení X Ge(p) Uvažujme náhodnou veličinu X, která nabývá hodnot i = 0,1,2,..., a to s pravděpodobnostmi kde p (0,1) je parametr. P(X = i) = p(1 p) i, EX = 1 p, varx = (1 p)p2 p

PRAVDĚPODOBNOST Geometrické rozdělení X Ge(p) Sledujme výskyt jevu A v nezávislých opakováních náhodného pokusu, přičemž pravděpodobnost jevu A je v každém pokusu rovna p. Náhodná veličina s geometrickým rozdělením udává počet nezávislých opakování onoho náhodného pokusu před prvním výskytem jevu A.

PRAVDĚPODOBNOST Hypergeometrické rozdělení X Hg(N, n, M) Necht N,M a n jsou přirozená čísla taková, že M < N, n < N. Necht X nabývá pouze celočíselných hodnot i s pravděpodobnostmi ) P(X = i) = ( M )( N M i n i ( N n), pro max(0,m +n N) i min(m,n). EX = na ( na(n A), var(x) = 1 n 1 ). N N 2 N 1

PRAVDĚPODOBNOST Hypergeometrické rozdělení X Hg(N, n, A) Toto rozdělení je možné popsat následující situací. Uvažujme množinu, která obsahuje N objektů, z nichž M má jistou vlastnost. Vybereme náhodně z této množiny n objektů. Potom X označuje počet vybraných objektů mající uvažovanou vlastnost.

PRAVDĚPODOBNOST Spojitá rozdělení

PRAVDĚPODOBNOST F X (x) = x f X (y)dy pro každé x R. Ve všech bodech, kde existuje derivace distribuční funkce F X, platí vztah df X (x) = f X (x). dx f X (x)dx = 1

PRAVDĚPODOBNOST Pro libovolná reálná čísla a,ba b platí P (a X b) = P (a < X b) = P (a X < b) = P (a < X < b) = b a f X (t)dt.

PRAVDĚPODOBNOST Rovnoměrné rozdělení { X R(a, b) 1 pro a < x < b f(x) = b a 0 pro x a nebo x b. 0 x a x a F(x) = a < x < b b a 1 x b. Dále je EX = (a+b) 2, var(x) = (b a)2. 12

PRAVDĚPODOBNOST Normální (Gaussovo) rozdělení X N(µ,σ) f(x) = 1 ( exp 1 ) (x µ) 2, prox R, 2πσ 2 σ 2 parametry: µ = EX a σ 2 = var(x). Distribuční funkce - nexistuje žádná explicitní formule. Hodnoty distribuční funkce s parametry 0, 1 velice přesně tabelovány.

PRAVDĚPODOBNOST 0.8 µ=0, σ=0.5 0.6 0.4 µ=0, σ=1 µ=2, σ=1 0.2 µ=0, σ=2 0.0-4 -2 0 2 4 Graf hustoty normalního rozdělení pro různé hodnoty parametrů µ a σ.

PRAVDĚPODOBNOST Exponenciální rozdělení X Exp(c) { ce cx x 0 f(x) = 0 jinak, x { 1 e cx x 0 F X (x) = f(t)dt = 0 x < 0. EX = 1/c, var(x) = 1/c 2

PRAVDĚPODOBNOST Weibullovo rozdělení X Wb(c,d) Zobecněním exponenciálního rozdělení { 1 e cx d x 0 F(x) = 0 x < 0. s parametry c,d > 0. { cdx f(x) = d 1 exp( cx d ) x 0 0 x < 0.

PRAVDĚPODOBNOST 1.0 0.8 0.6 0.4 c=2, d=1 c=1, d=1 c=1, d=2 0.2 c=1, d=0.5 0.0 0.0 0.5 1.0 1.5 2.0 Graf hustoty Weibullova rozdělení pro různé hodnoty parametrů c a d.

PRAVDĚPODOBNOST Cauchyovo rozdělení parametry θ a λ. f(x) = 1 π λ λ 2 +(x θ) 2, F(x) = 1 2 + 1 π arctan ( x θ λ ). Toto rozdělení nemá střední hodnotu a rozptyl.

ODHADY Matematická statistika řeší dvě základní úlohy: odhady (v základním souboru) rozhodovací problémy (testování hypotéz) Obvykle předpokládáme, že pro danou situaci známe vhodný model (distribuční funkci, hustotu aj.) až na hodnotu parametrů. Úlohy jsou pak převedeny na úvahy o těchto parametrech.

ODHADY Informaci pro statistickou analýzu obdržíme ve formě dat, která považujeme za realizace zkoumaných náhodných veličin. Náhodným výběrem rozumíme vektor složený z nezávislých a stejně rozdělených náhodných veličin. Číslo n je rozsah výběru. Náhodný výběr je model pro situace, kdy pozorujeme n nezávislých, stejných" objektů, nebo opakujeme nezávisle n krát tentýž pokus. Náhodná veličina je modelem pro onu veličinu, kterou na daných objektech zkoumáme.

ODHADY "výběr" za rozumnou dobu a s rozumnými náklady schopni zjistit údaje jen o n vybraných objektech. Na základě výběru děláme závěry o charakteristikách celého souboru. Příklady: namátková či výběrová kontrola výrobků, výzkumy veřejného mínění, testování léčebných postupů. Důležitou otázka - reprezentativnost

ODHADY Mezi nejpoužívanější odhady : výběrový průměr a výběrový rozptyl S 2 = 1 n 1 X n = 1 n n i=1 X i n (X i X n ) 2 = 1 n n 1 ( Xi 2 n X n,) 2 i=1 i=1

ODHADY Necht X 1,...,X n je náhodný výběr z rozdělení, které má střední hodnotu µ a konečný rozptyl σ 2. Pak platí E X = µ, var X = σ2 n Necht X 1,...,X n je náhodný výběr N(µ,σ 2 ). Pak platí X N(µ,σ 2 /n).

ODHADY Necht X 1,...,X n je náhodný výběr z rozdělení, které má střední hodnotu µ a konečný rozptyl σ 2. Pak platí ES 2 = σ 2 vars 2 = σ 4 2n (n 1) 2 Necht X 1,...,X n je náhodný výběr N(µ,σ 2 ). Pak platí (n 1)S 2 /σ 2 χ 2 n 1 a X a S 2 jsou nezávislé.

ODHADY Náhodná veličina Z = m 1 Z2 j má χ 2 -rozdělení, když Z 1,Z 2,...,Z m jsou nezávislé stejně rozdělené veličiny z rozdělení N(0,1). Pak hustota Z je g m (z) = 1 2 m 2 Γ ( m 2 )e z 2 z m 2 1, pro z 0, Γ(p) je gamma-funkce, 0 x p 1 e x dx, pro p celé > 0 je Γ(p) = (p 1)!. E(Z) = n, var(z) = 2n

ODHADY Necht X 1,...,X n je náhodný výběr z rozdělení, které má střední hodnotu µ a konečný rozptyl σ 2. Pak platí ES 2 = σ 2 vars 2 = σ 4 2n (n 1) 2 Necht X 1,...,X n je náhodný výběr N(µ,σ 2 ). Pak platí (n 1)S 2 /σ 2 χ 2 n 1 a X a S 2 jsou nezávislé.

ODHADY Necht U, Z jsou nezávislé náhodné veličiny, kde U je normální N(0,1) a Z 2 má χ 2 -rozdělení o n stupních volnosti. Pak veličina T = U Z n má Studentovo t-rozdělení o n stupních volnosti dané hustotou h n (t) = ( ) n+1 1 ( nb n, 1+ 1 2 2), t2 2 n < t <.

ODHADY Necht U, V jsou dvě nezávislé náhodné veličiny o χ 2 -rozděleních o n a m stupních volnosti. Rozdělení jejich podílu W = U/n V/m se pak nazývá F -rozdělení s n a m stupni volnosti a má hustotu g n,m (z) = g n,m = 0 n n 2 m m 2 z n 2 1 B( n 2,m 2)(m+nz) n+m 2 pro z > 0 jinak.

ODHADY Teorie bodového odhadu Náhodný výběr (reprezentuje data): nezávislé stejně rozdělené náhodné veličiny mají rozdělení z určité třídy rozdělení {F(x,θ)}, kde θ Θ R k je neznámý parametr. Uvažujeme tedy náhodný vektor X, jejíž rozdělení závisí na parametru θ. F X (x,θ) = n F(x i,θ) i=1

ODHADY Úkolem je odhad parametru θ. Parametr θ "charakterizuje vlastnost, kterou z dat chceme odhadnout." Odhad je obecně funkcí pozorovaných náhodných veličin, tj. T(X) z R n to R k (statistika). Odhad je opět náhodná veličina (vektor), konkrétní "odhad" aktuální hodnoty parametru θ je hodnota T(X), když x je realizace X. Cíl vybrat funkci statistiku T n (X), která by "co nejlépe" odhadovala neznámý parametr θ.

ODHADY Požadované vlastnosti odhadů: 1 Nestrannost (nevychýlenost): pro každé θ platí E θ T n (X) = θ. 2 Konzistence: lim n T n (X) = θ 3 Eficience (vydatnost): odhad T n (x) je eficientní, když pro každý jiný odhad T n(x) mající konečný druhý moment platí E θ {(T n (X) θ) 2 } E θ {(T n(x) θ) 2 } tj. pro nestranné odhady var θ (T n (X) var θ (T n(x))

ODHADY Metody odhadu Metoda maximální věrohodnosti Maximálně věrohodným odhadem parametru θ při naměřených hodnotách x 1,x 2,...,x n je hodnota θ 0 Θ, pro kterou je věrohodnostní funkce L θ (x) maximální. L θ (x) = n i=1 f(x i,θ) pro spojité, resp. P(X i = x i,θ) pro diskrétní rozložení pravděpodobnosti.

ODHADY Protože logl má maximum v témže bodě jako L, prakticky se často odhad hledá jako řešení věrohodnostní rovnice logl θ (x)/ θ = 0. Maximálně věrohodný odhad je konzistentní.

ODHADY Momentová metoda Porovnání teoretických a výběrových momentů

ODHADY Odhady: bodový (odhad číslem) intervalový - interval, který s předepsanou pravděpodobností (1 α) pokrývá hodnotu neznámého parametru

ODHADY Intervalový odhad: model normálního rozdělení 100(1 α)% interval pro µ a neznámé σ 2 : (X t n 1 (1 α/2) S n,x +t n 1 (1 α/2) S n ) pro µ a známé σ 2 : (X Φ 1 (1 α/2) σ n,x +Φ 1 (1 α/2) σ n ) t n 1 (1 α/2), Φ 1 (1 α/2) - kvantily (tabulkové hodnoty), α - zvolená (předepsaná) hodnota, obvykle 0.05, 0.01

ODHADY Intervalový odhad: model normálního rozdělení 100(1 α)% interval pro σ 2 : ( ) (n 1)S 2 χ 2 n 1(1 α/2), (n 1)S2 χ 2 n 1(α/2) χ 2 n 1(α/2) - kvantily (tabulkové hodnoty), α - zvolená (předepsaná) hodnota, obvykle 0.05, 0.01

ODHADY Intervalový odhad: model binomického rozdělení 100(1 α)% interval pro p: ( m n Φ 1 (1 α/2) m(1 m n n ), m n + Φ 1 (1 α/2) m(1 m n n Φ 1 (1 α/2) - kvantil normálního rozdělení (tabulky), m/n relativní četnost "výskytu sledovaného jevu" ve výběrovém souboru

TESTY Testování hypotéz: Na základě náhodného výběru x = (X 1,...,X n ), jehož rozdělení závisí na parametru θ, který patří do parametrického prostoru Θ, chceme rozhodnout, zda platí určité tvrzení o náhodné veličině, například, že θ patří do určité vlastní podmnožiny θ prostoru Θ. Toto tvrzení nazýváme (nulová) hypotéza.

TESTY Toto tvrzení nazýváme (nulová) hypotéza. H 0 : θ θ. Protikladné tvrzení v rámci uvažovaného modelu se nazývá alternativa, např. A : θ / θ. Je-li θ jednobodová, pak mluvíme o jednoduché hypotéze.

TESTY Vlastní test: Na základě náhodného výběru zkonstruujeme testovou statistiku T a určíme množinu W, která se nazve kritický obor. Nastane-li jev {T W}, pak zamítneme hypotézu H 0. Při tomto rozhodování nastane některý z následujících případů: 1. H 0 platí a test ji nezamítá. Rozhodnutí je správné. 2. H 0 neplatí a test ji zamítá. Rozhodnutí je správné. 3. H 0 platí a test ji zamítá. Říká se, že nastala chyba 1. druh 4. H 0 neplatí a test ji nezamítá. Říká se, že nastala chyba 2.

TESTY Kriticky obor přitom konstruujeme tak, aby pravděpodobnost chyby 1. druhu nepřekročila předem dané číslo α hladina testu. Nejlepší volba kritického oboru a testové statistiky je taková, kdy při dodržení podmínky na chybu na chybu 1. druhu je pravděpodobnost chyby 2. druhu minimální.

TESTY T-test: Model normální rozdělení: nulová hypotéza: H 0 : µ = µ 0 (předepsané číslo) alternativa: A : µ µ 0

TESTY Rozhodovací kritérium: T = X µ 0 S n Je-li T t n 1 (1 α/2) zamítám nulovou hypotézu ("tvrdím, že správná je alternativa"), v případě opačné nerovnosti nezamítám nulovou hypotézu ("je správná").

TESTY Párový t-test: se používá v situacích, kdy máme na každém z n objektů měřeny dvě veličiny (X 1,Y 1 ),...,(X n,y n ). Jednotlivé objekty lze zpravidla pokládat za nezávislé, ale měření na témž objektu nikoli. Položme Z 1 = X 1 Y 1,...,Z n = X n Y n. Předpokládejme, že Z i N(µ,σ 2 ), i = 1,...,n, kde µ = µ 1 µ 2. Jsou-li tyto předpoklady splněny, pak jde o test H : µ = 0 proti alternativě A : µ 0. (Úloha převedena na jednovýběrový t-test.)

TESTY Testová statistika: T = Z S n, kde S 2 = 1 n 1 n (Z i Z) 2 i=1 Je-li T t n 1 (1 α/2) zamítám nulovou hypotézu, v případě opačné nerovnosti nezamítám nulovou hypotézu.

TESTY Dvouvýběrový t-test: jako párový test porovnává dvě skupiny dat (měření), můžeme ho použít pouze v situacích, kdy máme skutečně zajištěnu nezávislost všech veličin X 1,...,X n,y 1,...,Y m. Užijeme-li dvouvýběrový t test v situaci, pro kterou je nezbytný test párový, pak to zpravidla vede k nesmyslným výsledkům. Naproti tomu není hrubou chybou použít párový test v případě n = m i v situaci, pro kterou je vhodnější dvouvýběrový t-test.

TESTY Položme kde S 2 = 1 ( ) (n 1)S 2 n+m 2 X +(m 1)SY 2, S 2 X = 1 n 1 S 2 Y = 1 m 1 n (X i X) 2, i=1 m (Y i Y) 2 i=1

TESTY Testová statistika: T = X Y S nm n+m. Je-li T t n+m 2 (1 α/2) zamítám nulovou hypotézu (tj. střední hodnoty jsou různé), v případě opačné nerovnosti nezamítám nulovou hypotézu (rovnost středních hodnot).

TESTY Znaménkový test: Alternativa k t-testu, nepožaduje se normalita. Testuje se hypotéza H : x = x 0, tj. medián je roven danému číslu.

TESTY POSTUP: 1. Vyloučíme z dalšího zpracování pozorování, pro něž X i = x 0 a příslušně snížíme rozsah výběru n. 2. Určíme v kolika případech nastal jev X i > x 0. Počet těchto případů označíme Z. 3. Z je náhodná veličina s binomickým rozdělením Bi(n,p), kde p = P(X i > x 0 ).

TESTY TESTOVÁ STATISTIKA. U = Z n/2 n/4 = 2Z n. n Je-li U Φ 1 (1 α/2) zamítám nulovou hypotézu (medián není roven číslu x 0 ), v případě opačné nerovnosti nezamítám nulovou hypotézu.

TESTY Jednovýběrový Wilcoxonův test: Test o hodnotě mediánu (jako znaménkový test), založen na pořadí hodnot. 1. Vyloučíme z dalšího zpracování pozorování, pro něž X i = x 0 a příslušně snížíme rozsah n. 2. Určíme pořadí R + i náhodných veličin X i x 0. 3. Test je založen na součtu pořadí R + i těch veličin X i x 0, pro které je X i x 0 > 0.

TESTY TESTOVÁ STATISTIKA. V = i:x i >x 0 R + i U = V n(n+1) 4 n(n+1)(2n+1) 24 Je-li U Φ 1 (1 α/2) zamítám nulovou hypotézu (medián není roven číslu x 0 ), v případě opačné nerovnosti nezamítám nulovou hypotézu.

TESTY Dvouvýběrový Wilcoxonův test: Test o shodě hodnot mediánů (obdoba dvouvýběrového t-testu), založen na pořadí hodnot. 1. Určíme pořadí R i náhodných veličin ve sloučeném výběru. 2. Test je založen na součtu pořadí R i těch veličin, které jsou v prvním výběru.

TESTY TESTOVÁ STATISTIKA. V x = x i R x i U = V x nx(nx+ny+1) 2 n xn y(n x+n y+1) 12 Je-li U Φ 1 (1 α/2) zamítám nulovou hypotézu (mediány si nejsou rovny), v případě opačné nerovnosti nezamítám nulovou hypotézu.