MASARYKOVA UNIVERZITA PŘÍRODOVĚDECKÁ FAKULTA BAKALÁŘSKÁ PRÁCE. Dvouvýběrové parametrické a neparametrické testy

Podobné dokumenty
Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Testování statistických hypotéz

12. Neparametrické hypotézy

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Mendelova univerzita v Brně Statistika projekt

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Metody zkoumání závislosti numerických proměnných

a další charakteristikou je četnost výběrového souboru n.

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

PRAVDĚPODOBNOST A STATISTIKA

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

4.2 Elementární statistické zpracování Rozdělení četností

Generování dvojrozměrných rozdělení pomocí copulí

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

, jsou naměřené a vypočtené hodnoty závisle

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Úvod do korelační a regresní analýzy

Úvod do teorie měření

[ jednotky ] Chyby měření

PRAVDĚPODOBNOST A STATISTIKA

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

12. N á h o d n ý v ý b ě r

NEPARAMETRICKÉ METODY

Intervalové odhady parametrů některých rozdělení.

VY_52_INOVACE_J 05 01

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

11. Popisná statistika

Odhady parametrů 1. Odhady parametrů

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

8. Zákony velkých čísel

Lineární regrese ( ) 2

Náhodný výběr 1. Náhodný výběr

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

Testy statistických hypotéz

Pravděpodobnost a aplikovaná statistika

Doc. Ing. Dagmar Blatná, CSc.

Chyby přímých měření. Úvod

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

Pravděpodobnost a aplikovaná statistika

S1P Popisná statistika. Popisná statistika. Libor Žák

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

Kapitola 6. : Neparametrické testy o mediánech

Přednáška č. 2 náhodné veličiny

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY. Přírodovědecká fakulta ANALÝZA DAT. 2. upravené vydání. Josef Tvrdík

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

Statistika - vícerozměrné metody

Jednoduchá lineární regrese

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

Pravděpodobnost a aplikovaná statistika

8 NELINEÁRNÍ REGRESNÍ MODELY

Deskriptivní statistika 1

8. Analýza rozptylu.

Spolehlivost a diagnostika

UNIVERZITA JANA EVANGELISTY PURKYNĚ V ÚSTÍ NAD LABEM PEDAGOGICKÁ FAKULTA Katedra tělesné výchovy

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Intervalové odhady parametrů

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

P2: Statistické zpracování dat

Pravděpodobnostní modely

11. Časové řady Pojem a klasifikace časových řad

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

Testování hypotéz. 3.1 Základní pojmy a obecný postup při testování

9. Měření závislostí ve statistice Pevná a volná závislost

TECHNICKÁ UNIVERZITA V LIBERCI

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT. Josef Tvrdík

Přednáška VIII. Testování hypotéz o kvantitativních proměnných

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

Testování statistických hypotéz

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

PRAVDĚPODOBNOST A STATISTIKA

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

14. B o d o v é o d h a d y p a r a m e t r ů

APLIKOVANÁ STATISTIKA

SP2 Korelační analýza. Korelační analýza. Libor Žák

1. Základy měření neelektrických veličin

MATEMATICKÁ INDUKCE. 1. Princip matematické indukce

jsou varianty znaku) b) při intervalovém třídění (hodnoty x

Odhady a testy hypotéz o regresních přímkách

17. Statistické hypotézy parametrické testy

Náhodné jevy, jevové pole, pravděpodobnost

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

8. Odhady parametrů rozdělení pravděpodobnosti

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

Regresní a korelační analýza

Intervalový odhad. nazveme levostranným intervalem pro odhad parametru Θ. Statistiku. , kde číslo α je blízké nule, nazveme horním

Univerzita Karlova v Praze Pedagogická fakulta

Odhad parametrů normálního rozdělení a testy hypotéz o těchto parametrech * Věty o výběru z normálního rozdělení

1.1 Definice a základní pojmy

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Statistická analýza dat

Transkript:

MASARYKOVA UNIVERZITA PŘÍRODOVĚDECKÁ FAKULTA BAKALÁŘSKÁ PRÁCE Dvouvýběrové parametrcké a eparametrcké testy Bro 5/6 Zuzaa Berá

Prohlášeí Prohlašuj, že jsem tuto bakalářskou prác vypracovala samostatě za odborého vedeí RNDr Mare Budíkové, Dr Dále prohlašuj, že veškeré podklady, ze kterých jsem čerpala, jsou uvedey v sezamu lteratury V Brě de 8 květa 6 Zuzaa Berá

Poděkováí Děkuj tímto paí RNDr Mar Budíkové, Dr za odboré vedeí bakalářské práce, ceé rady a přpomíky, stejě tak za materály a především čas, který m věovala

Obsah Úvod 4 Testy ormalty 5 Testováí ormalty pomocí škmost a špčatost 5 Test založeý a škmost 5 Test založeý a špčatost 6 3 Test založeý a škmost a špčatost zároveň 6 Posouzeí ormalty pomocí ormálího dagramu 7 3 Testováí ormalty pomocí software STATISTICA 7 3 Kolmogorův-Smrovův test (K-S test) 7 3 Shaprův-Wlkův test ormalty (S-W test) 7 33 Normal probablty plot (N-P plot) 8 34 Quatle-Quatle plot (Q-Q plot) 8 35 Krabcový dagram (Box plot) 8 Párové testy 7 Parametrcké párové testy 7 Párový t-test 7 Morgaův-Ptmaův test 7 3 Test hypotézy H : µ x µ y, σ = σ Y = prot H : µ x µ y, σ σ Y 8 4 Provedeí testů s pomocí software STATISTICA 8 Neparametrcké párové testy Jedovýběrový Wlcoxoův test Zamékový test 3 Provedeí testů s pomocí software STATISTICA 3 Dvouvýběrové testy 5 3 Parametrcké dvouvýběrové testy 5 3 Testováí rovost středích hodot 5 3 Dvouvýběrový t-test 5 3 Test Cochraův-Coxův 7 33 Aspové-Welchův test 7 34 Satterthwateův test 7 3 Test shodost dvou rozptylů 8 3 Fsherův F test 8 3 Leveův test 8 33 Provedeí testů s pomocí software STATISTICA 9 3 Neparametrcké dvouvýběrové testy 3 3 Dvouvýběrový Wlcoxoův test 3 3 Waldův-Wolfowtzův test 33 33 Dvouvýběrový Kolmogorův - Smrovův test 33 34 Provedeí testů s pomocí software STATISTICA 34 4 Permutačí testy 36 4 Permutačí test pro dva závslé výběry 36 4 Provedeí permutačích testů pomocí software R 37 4 Párový permutačí test 37 4 Permutačí test pro dva ezávslé výběry 39 43 Porováí p-hodot získaých permutačím testem a klasckým t-testem 4 Tabulky krtckých hodot pro eparametrcké testy 4 Ozačeí 44 Použtá lterartura a zdroje 45 3

Úvod Cílem mé bakalářské práce a téma Dvouvýběrové parametrcké a eparametrcké testy je sezámt čteáře s metodam, kterým lze testovat hypotézy o středích hodotách ebo medáech dvou rozděleí, jmž se řídí dva ezávslé áhodé výběry resp jede áhodý výběr z dvourozměrého rozděleí V každé kaptole jsou uvedey předpoklady provedeí jedotlvých testů, jejch teoretcká kostrukce, dále způsob provedeí daého testu pomocí vhodého software (STATISTICA, R) a v závěru kaptoly jsou testy demostrováy a kokrétích příkladech, které pracují s reálým daty z ekoomcké praxe Jedá se o hodoty makroekoomckých agregátů za rok 3 v 5 zemích Evropské ue a zemích, které přstouply k EU v roce 4 Př ukázkách testů se často porovávají data všech 5 zemí (epracujeme tedy s áhodým výběrem, ale s celým základím souborem) Důvodem je jedak velm malý rozsah dat, která máme k dspozc (maxmálě 5), a také skutečost, že hlavím cílem bylo a těchto datech demostrovat provedeí daých testů a kolv vyvozováí kokrétích závěrů apř pro úrově ekoomk zemí Jak jž bylo uvedeo, k testováí jsou použty software STATISTICA a R STATISTICA je komerčí statstcký programový systém, a který Masarykova uverzta vlastí multlcec R je jazyk a prostředí pro statstcké výpočty a grafku Jedá se o volě šířtelý software, který je možé stáhout apříklad a strákách http://wwwr-projectorg/ Prví kaptola této práce ukazuje způsoby testováí ormalty výběrů, což je utý předpoklad k provedeí tzv parametrckých testů Druhá kaptola uvádí metody párového testováí (tedy testováí dvou avzájem závslých výběrů) Ve třetí kaptole jsou uvedey metody dvouvýběrových testů (pro ezávslé výběry) Čtvrtá kaptola se zabývá tzv permutačím testy Na závěr jsou přložey tabulky krtckých hodot pro vybraé eparametrcké testy (tabulky kvatlů č krtckých hodot pro parametrcké testy je možé alézt apříklad v uvedeé lteratuře, stejě jako v moha dalších publkacích zabývajících se pravděpodobostí a matematckou statstkou) a sezam použtých ozačeí 4

Testy ormalty Př rozhodováí o tom, který test použjeme pro porováváí dvou výběrových souborů, hraje důležtou rol skutečost, zda daé výběry pocházejí z ormálího rozděleí, č kolv K ověřeí této skutečost můžeme využít ěkolka způsobů: Testováí ormalty pomocí škmost a špčatost Př tomto testu vycházíme z předpokladu, že pochází-l výběr z ormálího rozděleí, pak pro jeho škmost a 3 a špčatost a 4 platí, že mají asymptotcky ormálí rozděleí s parametry 6 E ( a 3 ) =, E ( a4 ) = 3 + 6 ( ) ( ) D a3 = a ( a4 ) ( + )( + 3) 4( )( 3) ( + ) ( + 3)( + 5) D = m3 m4 Škmost a špčatost vypočteme pomocí ásledujících vzorců: a 3 =, a 3 4 =, 4 s s k kde mk = ( x x), k =,, je cetrálí momet k-tého řádu a s = ( x x) je směrodatí odchylka Test založeý a škmost Testujeme ulovou hypotézu H o ormaltě výběru prot hypotéze H, že výběr pochází z ějakého esymetrckého rozděleí Postupujeme v závslost a velkost rozsahu : Pro 5 alezeme krtcké hodoty ve čláku Mulhollad: O the ull dstrbuto of b for samples of sze at most 5 wth tables (977); pro > 5 v tabulkách Pearso a Hartley: Bometrka Tables for Statstcas (956, 97) Pro můžeme využít asymptotcké ormalty a3 Vypočteme U 3 = D a V případě, že ( ) 3 U u, zamítáme H 3 α D Agosto a kol test provádějí s pomocí výpočtu dalších velč: 3( + 7 7)( + )( + 3) b =, = ( b ) ( )( + 5)( + 7)( + 9) W, δ =, lw 5

a = W, Pro > 8 má 3 U 3 U 3 Z 3 = δ l + + a a N, H tedy zamítáme v případě, že Z přblžě rozděleí ( ) Z u 3 α Test založeý a špčatost Test prot hypotéze H, že výběr se lší špčatostí, je založe a velčě a 4 Opět postupujeme v závslost a rozsahu výběru: Krtcké hodoty pro 5 alezeme v tabulkách Pearso a Hartley (956, 97) a v kze D Agosto a Stephes: Goodess-of-ft Techques (986) Pro 5 můžeme využít lmtích výsledků a4 E( a4 ) Vypočteme U 4 = D a ( ) H zamítáme v případě, že D Agosto a kol dále vypočítají ( 5 + ) ( + 7)( + 9) 4 α U 4 u ( + 3)( + 5) ( )( 3) 6 6 B =, A 9A 3 + U 4 A 4 Z 4 = 9A Velča 4 ormálím rozděleím a v případě, že Z má přblžě rozděleí (,) A 8 4 = 6 + + + B B B, N Pro můžeme využít aproxmace Z u zamíteme hypotézu o ormaltě rozděleí 4 α 3 Test založeý a škmost a špčatost zároveň Teto test je založe a velčě U + 3 U 4 3 4 χ α Hypotézu o ormaltě zamítáme, pokud U +U ( ) doporučuje pouze pro výběry o rozsahu Pro můžeme ale použít test založeý a Z 3 + Z 4 χ α ( ) Z 3 Z 4, zamítáme ulovou hypotézu o ormaltě výběru Teto postup se ovšem + V případě, že vyjde Pozámka V [] jsou uvedey ještě další testy, k jejch provedeí jsou ale třeba specálí tabulky 6

Posouzeí ormalty pomocí ormálího dagramu Dalším způsobem, jak posoudt ormaltu výběru, je sestrojeí ormálího dagramu (ormal probablty plot) Sestrojíme graf tak, že do dvourozměrého systému souřadc zaeseme body Φ, x( ), kde Φ ( p) je kvatlová fukce stadardzovaého + ormálího rozděleí Pro tuto fukc platí P ( Z Φ ( p) ) = p (fukčí hodota Φ ( p) omezuje shora áhodou velču Z ~ N(,) s pravděpodobostí p ) a je totožá s verzí fukcí k dstrbučí fukc Φ ( x) Použjeme-l pro sestrojeí tohoto grafu data z ormálího rozděleí, výsledé body budou soustředěé kolem dagoálí přímky Kovexí uspořádáí bodů ukazuje a kladou škmost souboru a kokáví a škmost záporou Př posuzováí ormalty více (v ašem případě dvou) výběrů je třeba sestrojt ormálí dagram pro každý výběr zvlášť 3 Testováí ormalty pomocí software STATISTICA V programu STATISTICA můžeme ormaltu výběru testovat ásledujícím způsoby: 3 Kolmogorův-Smrovův test (K-S test) K-S test testuje ulovou hypotézu H říkající, že výběr x s dstrbučí fukcí ( x) Φ Ozačíme ( ) testovou statstku D = sup F ( x) Φ( x) < x<,, pochází z rozděleí F výběrovou dstrbučí fukc a vypočteme V případě, že D ( α ), kde ( α ) D D je tabelovaá krtcká hodota, zamítáme H a hladě α K-S test ve STATISTICE ám poskytuje hodotu testové statstky (oz d) a dvě p-hodoty Prví z ch použjeme v stuac, kdy předem záme parametry µ a σ a druhou, ozačeou Llefors p, pokud parametry ezáme Pokud se ve výstupu objeví hlášeí p = s (=o sgfcat), pak H ezamítáme a hladě α Ve STATISTICE uložíme pozorovaá data do sloupce a te ozačíme apř Z Meu vybereme Statstcs Basc statstcs / Tables Descrptve statstcs Jako Varables vybereme, dále Normalty, kde zaškrteme Kolmogorov-Smrov & Llefors test for ormalty a klkeme a Frequecy tables Výstupem je tabulka obsahující hodotu testové statstky d a p-hodotu 3 Shaprův-Wlkův test ormalty (S-W test) S-W test testuje hypotézu, že áhodý výběr rozděleí s parametry N ( µ,σ ),, pochází z ormálího, a to a základě zjštěí, zda body Q-Q grafu (vz íže) se výzamě odlšují od regresí přímky proložeé těmto body Ve STATISTICE postupujeme stejě jako př K-S testu, je v posledím kroku zaškrteme Shapro Wlk s test Frequecy tables Ve výsledé tabulce je tetokrát uvedea hodota testové statstky W a příslušá p-hodota 7

33 Normal probablty plot (N-P plot) Kostrukce N-P plotu ve STATISTICE je sadá: Z Meu vybereme Graphs D Graphs Normal Probablty Plots Varables (jméo sloupce s daty k testováí) Výsledý obrázek dokážeme terpretovat a základě teoretckých zalostí z předešlé kaptoly 34 Quatle-Quatle plot (Q-Q plot) Pomocí Q-Q plotu můžeme grafcky posoudt, zda data pocházejí z ějakého zámého rozděleí Ve STATISTICE máme a výběr hed z ěkolka typů rozděleí, my se ale spokojíme s ormálím Teoretcká kostrukce probíhá tak, že a svslou osu zazameáváme hodoty x ( ),,x( ) (což jsou aměřeé hodoty x,,x uspořádaé vzestupě podle velkost) a a vodorovou osu kvatly u α j, kde α j j r = + adj adj Velčy r adj a adj jsou korgující faktory,5, mplctě esoucí hodoty r adj =,375 a adj =,5 V případě, že jsou ěkteré hodoty x () x () shodé, za j bereme průměré pořadí odpovídající této skupce Body ( uα j ( ), x( j ) ) metodou ejmeších čtverců proložíme přímku Čím méě se body odchylují od této přímky, tím je lepší soulad mez emprckým a ormálím rozděleím Ve STATISTICE postupujeme podobě jako př kostrukc N-P plotu: Z dvourozměrých grafů vybereme Quatle-Quatle plots, zaškrteme Normal a vybereme proměou (ázev sloupce dat, jejchž rozděleí chceme ověřt) Výsledý obrázek je podobý N-P plotu a můžeme z ěj opět posoudt shodu ašeho rozděleí s ormálím 35 Krabcový dagram (Box plot) Naše testy můžeme doplt ještě sestrojeím krabcových dagramů Ty se často používají př porováváí dvou č ěkolka souborů dat a je možé z ch vyčíst zajímavé vlastost souborů, jako jejch symetr a varabltu ebo exstec odlehlých č extrémích hodot Krabcový dagram sestrojíme ásledově: umístěí jeho dvou protlehlých stra bude určeo hodotam dolího a horího kvartlu, středí příčku sestrojíme a úrov medáu Tykadla vybíhající ve z obdélíku budou sahat k ejvzdáleějšímu pozorováí, které eí od blžšího kvartlu vzdáleo více ež délku jedeapůlásobku kvartlového rozpětí (tzv vtří hradba) Exstují-l ějaká vzdáleější pozorováí, vyzačíme je zvlášť jako odlehlá pozorováí V případě, že ěkterá hodota leží za tzv vější hradbou (je ve vzdáleost trojásobku kvartlového rozpětí od blžšího kvartlu), ozačíme j jako extrémí hodotu Ve STATISTICE opět vybíráme z abídky dvourozměrých grafů Box plots Do Depedet varable vložíme ázev ašeho sloupce dat Dále pro data pocházející z ormálího rozděleí zaškrteme, že chceme sestrojt Box plot se středí příčkou v průměru (mea) a v případě dat z jého rozděleí vybereme medá (meda) Z výsledého obrázku můžeme vyčíst jedak vlastost obou výběrů a také, jak jsou s podobé avzájem Pozámka Ještě s přpomeňme výpočet jedotlvých charakterstk použtých př kostrukc box plotu: 8

Defce Medá x ~ udává co do velkost prostředí hodotu výběru a defujeme ho x + ~ x = x + x + pro lché pro sudé Dále pro < část čísla Potom percetl < p defujme p-percetl: Nechť k = [ p], kde [ ] je symbol pro celou x p je dá vztahem x p x = ( k+ ) ( x + x ) ( k ) ( k+ ) pro pro k p, k = p Medá je specálím případem percetlu pro p =, 5 Př volbě p =, 5 získáme dolí kvartl a př p =, 75 horí kvartl Rozdíl horího a dolího kvartlu azýváme kvartlové rozpětí Testováí ormalty pomocí STATISTIKY s budeme demostrovat a dvou příkladech: Data Míra flace v % za r 3 Máme k dspozc hodoty procetí míry flace za rok 3 v 5 zemích EU před vstupem ových zemí v roce 4 a těchto ově přstoupvších zemí Data jsou uvedea v ásledující tabulce: Míra flace v % za rok 3 Belge,5 Česká republka -, Dásko, Estosko,4 Fsko,3 Kypr 4, Frace, Ltva -, Irsko 4, Lotyšsko,9 Itále,8 Maďarsko 4,7 Lucembursko,5 Malta,5 Německo, Polsko,7 Nzozemsko, Slovesko 8,5 Portugalsko 3,3 Slovsko 5,7 Rakousko,3 Řecko 3,4 Spojeé království,4 Špaělsko 3, Švédsko,3 Vložíme hodoty do STATISTIKY a podle předcházejícího ávodu provedeme K-S test a S-W test a sestrojíme dagostcké grafy 9

Pro prvích 5 zemí ám STATISTICA vrátla ásledující p-hodoty a hodoty testových statstk: Frequecy table: Mra flace EU 5 (mra_flace_eu) Lllefors p> Shapro-Wlk W=,95499, p=,665 Jelkož obě p-hodoty jsou větší ež,5, a daé hladě výzamost ezamítáme ulovou hypotézu o ormaltě rozděleí výběru Teto výsledek dále ověříme sestrojeím N-P plotu a Q-Q plotu Na obrázcích a můžeme pozorovat, že aměřeá data se skutečě jak výrazě eodchylují od osy kvadratu, což svědčí pro aš hypotézu Stejě tak vypočteme hodoty testových statstk a p-hodoty pro jedotlvé testy pro ových zemí EU: Frequecy table: Mra flace EU (mra_flace_eu) Lllefors p> Shapro-Wlk W=,97639, p=,9497 Na základě zjštěých hodot opět ezamítáme ulovou hypotézu o ormaltě rozděleí a stejě jako v předchozím případě se ještě ujstíme sestrojeím N-P a Q-Q plotu (obrázky 3 a 4) Na závěr ještě sestrojíme krabcové dagramy pro oba výběry, pomocí chž můžeme vzuálě porovat jejch rozděleí (obrázek 5 ), Normal Probablty Plot of Mra flace EU 5 (mra_flace_eu v*5c),5, Expected Normal Value,5, -,5 -, -,5 -,,5,,5,,5 3, 3,5 4, 4,5 Observed Value Obrázek : N-P plot: Míra flace v % v roce 3 v zemích EU 5

4,5 Quatle-Quatle Plot of Mra flace EU 5 (mra_flace_eu v*5c) Dstrbuto: Normal Mra flace EU 5 =,85+,997*x,5,,5,5,75,9,95 4, 3,5 Observed Value 3,,5,,5,,5 -, -,5 -, -,5,,5,,5, Theoretcal Quatle Obrázek : Q-Q plot: Míra flace v % v roce 3 v zemích EU 5, Normal Probablty Plot of Mra flace EU (mra_flace_eu v*5c),5, Expected Normal Value,5, -,5 -, -,5 -, - 4 6 8 Observed Value Obrázek 3: N-P plot: Míra flace v % v roce 3 v ových zemích EU

Quatle-Quatle Plot of Mra flace EU (mra_flace_eu v*5c) Dstrbuto: Normal Mra flace EU =,9+3,535*x,5,,5,5,75,9,95 8 6 Observed Value 4 - -4 -, -,5 -, -,5,,5,,5, Theoretcal Quatle Obrázek 4: Q-Q plot: Míra flace v % v roce 3 v ových zemích EU Box Plot (mra_flace_eu 4v*5c) 8 6 4 - Mra flace EU 5 Mra flace EU Mea ±SE ±SD Outlers Extremes Obrázek 5: Krabcové dagramy pro míru flace v % v roce 3 pro 5 zemí EU ově vstoupvších

Data HDP a obyvatele v tržích ceách za rok 3 Nyí budeme pracovat s hodotam HDP a obyvatele v tržích ceách za rok 3 v 5 + zemích EU HDP a obyvatele v tržích ceách za rok 3 Belge 5 9 Česká republka 5 4 Dásko 7 3 Estosko 56 Fsko 4 58 Kypr 8 84 Frace 5 7 Ltva 66 Irsko 9 36 Lotyšsko 8 94 Itále 3 9 Maďarsko 3 37 Lucembursko 46 37 Malta 6 68 Německo 4 5 Polsko 34 Nzozemsko 6 63 Slovesko 74 Portugalsko 6 74 Slovsko 7 Rakousko 6 99 Řecko 7 8 Spojeé království 6 49 Špaělsko 5 Švédsko 5 36 Opět vložíme hodoty do STATISTIKY Nejprve otestujeme ormaltu HDP aměřeého v zemích EU 5 V K-S a S-W testu jsme získal ásledující hodoty: Frequecy table: HDP EU 5 (HDP_v_EU) Lllefors p<, Shapro-Wlk W=,7657, p=,38 Jelkož výsledé p-hodoty jsou přílš malé, zamítáme tetokrát hypotézu o ormaltě výběru V tomto závěru se ještě utvrdíme sestrojeím N-P a Q-Q plotu (obrázky 6 a 7) Především v N-P plotu můžeme vysledovat, že aměřeé hodoty jsou skutečě v okolí osy kvadratu rozptýley velce epravdelě Dále otestujeme druhý výběr, zbývajících zemí: Frequecy table: HDP EU (HDP_v_EU) Lllefors p> Shapro-Wlk W=,936, p=,35998 Vdíme, že tetokrát emůžeme zamítout ulovou hypotézu o ormaltě dat Pokud ale budeme chtít tyto dva výběry porovávat, musíme použít ěkterý z eparametrckých testů (vz dále), abychom předešl zkresleí výsledku z důvodu porušeí ormalty prvího výběru Testy opět doplíme o N-P a Q-Q plot (obrázky 8 a 9) a a závěr sestrojíme box plot pro oba výběry (obrázek ) Pozámka Jelkož tetokrát pracujeme s daty z eormálího rozděleí, středí příčku box plotu sestrojíme v medáu 3

3, Normal Probablty Plot of HDP EU 5 (HDP_v_EU v*6c),5, Expected Normal Value,5,,5, -,5 -, -,5 -, 5 5 3 35 4 45 5 Observed Value Obrázek 6: N-P plot: HDP a obyvatele v tržích ceách v roce 3 v zemích EU 5 5 Quatle-Quatle Plot of HDP EU 5 (HDP_v_EU v*6c) Dstrbuto: Normal HDP EU 5 = 5866,6667+5947,578*x,5,,5,5,75,9,95 45 4 Observed Value 35 3 5 5 -, -,5 -, -,5,,5,,5, Theoretcal Quatle Obrázek 7: Q-Q plot: HDP a obyvatele v tržích ceách v roce 3 v zemích EU 5 4

, Normal Probablty Plot of HDP EU (HDP_v_EU v*6c),5, Expected Normal Value,5, -,5 -, -,5 -, 8 4 6 8 Observed Value Obrázek 8: N-P plot: HDP a obyvatele v tržích ceách v roce 3 v ových zemích EU Quatle-Quatle Plot of HDP EU (HDP_v_EU v*6c) Dstrbuto: Normal HDP EU = 3375+354,5634*x,5,,5,5,75,9,95 8 6 Observed Value 4 8 6 -, -,5 -, -,5,,5,,5, Theoretcal Quatle Obrázek 9: Q-Q plot: HDP a obyvatele v tržích ceách v roce 3 v ových zemích EU 5

5 Box Plot (HDP_v_EU v*6c) 45 4 35 3 5 5 5 HDP EU 5 HDP EU Meda 5%-75% No-Outler Rage Outlers Extremes Obrázek : Krabcové dagramy pro HDP a obyvatele v tržích ceách v roce 3 pro 5 zemí EU a ově vstoupvších Pozámka Jelkož k provedeí testů uvedeých v ásledujících kaptolách bude pro ás klíčová vědomost, zda porováváme data z ormálího, aebo jého rozděleí, provedeme před každým testováím testy ormalty pro použtá data 6

Párové testy Nejprve se zaměříme a párové testy K m přstupujeme, máme-l k dspozc jede áhodý výběr z dvourozměrého rozděleí Máme dvojce áhodých velč (, Y ),, (, Y ) Tyto dvojce jsou avzájem ezávslé, uvtř jedotlvých dvojc (, Y ) je ale ezávslost porušea, jelkož se jedá o velčy zjšťovaé buď a stejém objektu, ebo a dvou objektech, které jsou ějakým způsobem příbuzé Jde vlastě o výběr dvojc (, Y ),, (, Y ) ze stejého souboru (apříklad zjšťujeme hodoty určtých ukazatelů v čase t a těch samých ukazatelů v čase t ) Párové testy, stejě jako testy dvouvýběrové (vz kaptola 3), dělíme a testy parametrcké a eparametrcké Př užtí parametrckých testů předpokládáme, že daé výběry pocházejí z určtého typu rozděleí, které závsí a ějakých ezámých parametrech V ašem případě se jedá o rozděleí ormálí K provedeí eparametrckých testů epotřebujeme předpoklad o určtém typu rozděleí, ale spokojíme se se splěím pouze obecých podmíek (apř spojtost dstrbučí fukce) Neparametrcké testy používáme také v stuac, kdy zkoumaá data emají tervalový č poměrový charakter, ale pouze ordálí Tyto testy jsou ovšem ve srováí s testy parametrckým slabší Parametrcké párové testy Př těchto testech, jak jž bylo uvedeo, vycházíme z předpokladu ormalty výběrů Párový t-test Budeme testovat hypotézu H, že středí hodota rozdílu Postupujeme tak, že zavedeme ovou áhodou velču Z Y Y je rova = Za předpokladu, že Z pochází z ormálího rozděleí s ezámým rozptylem, provedeme párový t-test (jedá se v podstatě o klascký jedoduchý t-test pro velčy Z,Z µ z Vypočteme testovou statstku T = S Nulovou hypotézu H : µ zamítáme a hladě výzamost α ve prospěch alteratví hypotézy : z z = H µ, pokud t ( ) Morgaův-Ptmaův test T α Pro testováí hypotézy H : σ = σ Y o rovost rozptylů prot použjeme Morgaův-Ptmaův test: m Vypočteme výběrové rozptyly S x = ( ) SY = m = H σ σ : Y a ( Y Y ) = 7

a dále výběrový korelačí koefcet r = = = Y Y = Y Y S SY Zavedeme testovou statstku T =, která má za platost H rozděleí S S r t ( ) H zamítáme v případě, že t ( ) T α Y 3 Test hypotézy H µ = µ σ = σ prot H µ µ σ σ : x y, Y : x y, Y Dále můžeme testovat hypotézu H : µ x µ y, σ = σ Y alteratvě H Položme Z = Y, V = + Y pro =,, a ozačme ZV Z V b =, b = Z b V, = = = = = V V = = = prot oboustraé R = Z b Z b = = = Za platost H má velča Z V F = ( ) Z = R R rozděleí (, ) F H zamíteme a hladě výzamost α, pokud F (, ) F α 4 Provedeí testů s pomocí software STATISTICA Nyí s ukážeme provedeí vybraých testů ve STATISTICE: Párový t-test Ve STATISTICE vytvoříme datový soubor o dvou proměých a případech a vložíme sem aměřeá data V Basc Statstcs/Tables zvolíme t-test depedet samples Ve výstupu s prohlédeme hodotu testové statstky a p-hodotu V případě, že ta bude meší ež zvoleá hlada výzamost α, zamítáme ulovou hypotézu o rovost středích hodot výběrů V ašem příkladě použjeme hodoty průměrého věku př odchodu do důchodu mužů a že áhodě vybraých zemí EU v roce 3 8

Data Průměrý věk odchodu do důchodu mužů a že za rok 3 ve vybraých 8 zemí EU Hodoty jsou uvedey v ásledující tabulce: Země Průměrý věk př odchodu do důchodu v roce 3 Muž Žey Belge 58,6 58,7 Česká republka 6, 59, Dásko 6,3 6, Německo 6,9 6,4 Řecko 63,9 6,5 Špaělsko 6,6 6,3 Frace 59,7 59,6 Irsko 6, 6,8 Itále 6,9 6, Maďarsko 6,9 6, Nzozemsko 6, 59,9 Rakousko 59,4 58, Polsko 59,8 56,4 Portugalsko 63,7 6,6 Slovesko 6, 55,9 Fsko 6,7 6, Švédsko 63,5 6,8 Spojeé království 64, 6,9 Nejprve a hladě výzamost,5 otestujeme předpoklad ormalty (postup jsme uvedl v předcházející kaptole) Jelkož všechy získaé p-hodoty jsou větší ež,5, předpoklad o ormaltě ezamítáme Provedeím párového t-testu jsme získal ásledující tabulku s hodotam: Mea StdDv N Dff Muz 6,4556,639395 StdDv Dff t df p Zey 6,33889,68856 8,66667,45355 3,59 7,68 V tabulce jsou vypočtey základí charakterstky, hodota testové statstky T (ozačea t) a p-hodota Jelkož p-hodota je meší ež,5, a daé hladě výzamost zamítáme hypotézu o rovost středích hodot Pozámka Jž př pohledu a použtá data se dal teto výsledek očekávat; s výjmkou Maďarska je totž průměrý důchodový věk u že ve všech zemích žší ež u mužů Morgaův-Ptmaův test Dále provedeme test a shodost rozptylů těchto dvou výběrů Teto test eí ve STATISTICE mplemetová přímo, budeme tedy postupovat obdobě, jako př teoretcké kostrukc testu V testu pracujeme s charakterstkam výběrový rozptyl, směrodatá odchylka a výběrový korelačí koefcet, které můžeme vypočítat s pomocí Basc statstcs ad Tables K výpočtu prvích dvou charakterstk použjeme Descrptve statstcs, kde v Advaced zaškrteme Stadard devato a Varace 9

Varace StdDev Muz,569474,6958 Zey 4,59886,44485 Výběrový korelačí koefcet vypočteme s pomocí Correlato matrxes, kde vybereme Oe varable lst a do Frst lst vložíme aše dva sloupce s daty V Optos zaškrteme Dsplay r, p-levels, ad N s a příkazem Summary zobrazíme tabulku: Muz Zey Muz,,7366 p= --- p=, Zey,7366, p=, p= --- Hodota výběrového korelačího koefcetu je,7366 Dále pokračujeme apříklad tak, že s do Workbooku s popsým statstkam (descrptve statstcs) přdáme 3 proměé; do prví zkopírujeme hodotu výběrového korelačího koefcetu a do Log ame druhé proměé vložíme získaé hodoty dosazeé do vzorce pro výpočet testové statstky T V ašem případě hodota T vyšla -,8565 Nakoec do Log ame třetí proměé vložíme fukc Vstudet(975;8), která vypočítá,975-kvatl Studetova rozložeí s 8 stup volost a tuto hodotu porováme se získaou statstkou T Jelkož hodota tohoto kvatlu vyšla,9, což je méě ež hodota testové statstky T v absolutí hodotě, a hladě výzamost,5 tedy ezamítáme ulovou hypotézu o rovost rozptylů Test hypotézy H : µ x µ y, σ = σ Y = prot H : µ x µ y, σ σ Y Provedeí tohoto testu ve STATISTICE bude poměrě zdlouhavé, jelkož použté statstky b, b, R a F zde ejsou mplemetovaé, a tudíž je budeme muset počítat mechacky Budeme pracovat opět se stejým daty Nejdříve přdáme ke sloupcům s daty dvě ové proměé Z a V, do jejchž Log ame vložíme příslušé vzorce Přdáme s ještě další pomocé proměé, do kterých s uložíme dílčí výpočty Z V Z, V Pomocí fukce, Sum v Descrptve statstcs vypočteme sumu všech těchto pomocých proměých Výsledky, které se otevřou a ové stráce Workbooku, traspoujeme pomocí Data Traspose Fle Přdáme s do Workbooku čtyř ové proměé, ve kterých po řadě vypočítáme b, b, R a F (opět vkládáme příslušé vzorce do Log ame proměých) Nakoec vytvoříme ještě jedou proměou, do jejíhož Log ame vložíme fukc VF(95;;8), která vypočte,95-kvatl Fsherova Sedecorova rozděleí se stup volost a 8 Výsledky můžeme pozorovat v tabulce: Z V ZV Z V Sum,5 434,5 578,53 63,9 9657,93 b b R F F-kvatl -,65897577,68885 33,5894 7,987683 3,5545575 Jelkož platí F (, ),5 F α, zamítáme H : µ x µ y, σ = σ Y = a hladě výzamost

Neparametrcké párové testy V případě, že velča Z = Y epochází z ormálího rozděleí, ale pouze z ějakého spojtého rozděleí, musíme provést ěkterý z eparametrckých párových testů Jelkož adále pracujeme už jeom s jedím sloupcem hodot, v podstatě tedy s jedím výběrem, použjeme jedovýběrové varaty testů Jedovýběrový Wlcoxoův test Pokud spojté rozděleí Z je avíc symetrcké podle medáu (křvka hustoty Z je symetrcká se středem symetre v medáu), můžeme použít jedovýběrový Wlcoxoův test Budeme testovat hypotézu, že medá Z je rove ule prot oboustraé alteratvě Test provedeme tak, že všech hodot srováme podle velkost, přčemž vyškrteme + pozorováí, kdy = Y a sížíme o ě Dále zjstíme pořadí hodot Z a určíme W součet pořadí Z, která jsou kladá (tz > Y ) a Za platost H o ulovém medáu má velča rozptyl ( W ) W součet pořadí přes záporé hodoty + + W středí hodotu ( W ) = ( +) E a 4 + ( + )( + ) D = 4 H zamítáme a hladě výzamost α, pokud testová statstka (která je rova ( W +, W ) + m v případě oboustraé alteratvy, W pro levostraou alteratvu a W pro pravostraou alteratvu) je meší ebo rova krtcké hodotě uvedeé v tabulce ( + ) W Pro velká vypočteme statstku U = 4, která se v případě platost ulové ( + )( + ) 4 hypotézy asymptotcky řídí rozděleím N(,) Hypotézu H o ulovém medáu Z (tedy o rovost medáů velč a Y ) zamítáme a hladě výzamost přblžě α, jestlže U u V případě ěkolka shodých pozorováí jmeovatel statstky U výrazem α Z, ozačíme jejch počty t, a ahradíme 3 ( + )( + ) ( t j t j ) 4, t

Zamékový test Pokud je splě pouze předpoklad spojtost rozděleí velčy Z a kolv souměrost podle medáu, použjeme test zamékový Opět vyškrteme pozorováí, kdy Z = a sížíme Ozačíme Vpočet případů, kdy > Y Vypočteme testovou statstku U u α V U = a H zamíteme, jestlže 4 Teto test se v prax používá pro výběry s rozsahem Pro výběry s meším rozsahem α ajdeme ve specálích tabulkách krtcké hodoty k a k s vlastostm P ( V k ) a α P ( V k ), kde zároveň k je ejvětší a k ejmeší z čísel, pro která platí daé erovost Nulovou hypotézu o rovost medáů potom zamítáme a hladě ejvýše α, jestlže V k ebo V k 3 Provedeí testů s pomocí software STATISTICA Párový Wlcoxoův test Ve STATISTICE vytvoříme datový soubor se dvěma proměým a případy a vložíme sem aměřeá data Z abídky Statstcs vybereme Noparametrcs Comparg two depedet samples (varables) Jako Varables uložíme do Frst varable lst ázev ašeho prvího sloupce hodot a do Secod varable lst ázev druhého sloupce a vybereme Wlcoxo matched par test Ve výstupí tabulce alezeme hodotu testové statstky (ozačea T), hodotu asymptotcké testové statstky (oz Z) a její p-hodotu (Ve STATISTICE tedy pracujeme s asymptotckou testovou statstkou bez ohledu a rozsah výběru ) My s použtí párového Wlcoxoova testu ukážeme a příkladě, kde budeme pracovat s hodotam tempa růstu HDP v % v letech a 3 ve 5 zemích EU Naměřeé hodoty jsou uvedey v tabulce Data U dat jsme ejprve otestoval ormaltu pomocí K-S a S-W testu Jelkož p-hodoty vyšly výrazě meší ež,5, zamítáme hypotézu o ormaltě rozděleí dat a přkročíme tedy k eparametrckému testováí Provedeím Wlcoxoova testu jsme získal ásledující hodoty: Vald T Z p-level & 3 5 3,,5743,9447 Jelkož p-hodota ám vyšla vyšší ež hlada výzamost,5, emůžeme zamítout ulovou hypotézu říkající, že růst HDP ve 5 zemích deší EU byl v roce stejý jako v roce 3

Data Tempo růstu reálého HDP v %, v letech a 3 Země Mezročí změa HDP, % 3 Belge,7, Česká republka,,9 Dásko,,4 Estosko 6, 4,7 Fsko,3,9 Frace,,5 Irsko 6,9,4 Itále,4,3 Kypr,, Ltva 6,8 9, Lotyšsko 6, 7,4 Lucembursko,7, Maďarsko 3,5,9 Malta,7,4 Německo, -, Nzozemsko, -,7 Polsko,4 3,7 Portugalsko,4 -,3 Rakousko,4,7 Řecko 3,9 4,3 Slovesko 4,4 4, Slovsko 3,4,3 Spojeé království,6, Špaělsko,,4 Švédsko,,6 Párový zamékový test Tato data otestujeme ještě párovým zamékovým testem Postupujeme stejě jako u párového Wlcoxoova testu, je v posledím kroku zaškrteme Sg test amísto Wlcoxo matched par test No of Percet Z p-level No-tes v<v & 3 4 37,5,6,37434 P-hodota, která se ám objevla v tabulce, je opět větší ež,5, hypotézu o shodém růstu HDP v 5 zemích EU v letech a 3 tedy ezamítáme Pozámka Když srováme p-hodoty zamékového a Wlcoxoova testu, vdíme, že Wlcoxoův test je slější Na závěr s ještě daé výsledky zázoríme grafcky V Comparg two varables vybereme Box & Whsker Type, vložíme ázvy ašch sloupců s proměým a zaškrteme Meda/Quart/Rage Na krabcových dagramech (obrázek ) můžeme pozorovat, že 3

medáy obou výběrů se skutečě elší A to přes velkou varabltu dat, která je patrá a prví pohled jak z dagramů, tak ze samotých aměřeých hodot Box & Whsker Plot 8 6 4-3 Meda 5%-75% M-Max Obrázek : Krabcové dagramy: Tempo růstu reálého HDP v % v zemích EU v letech a 3 4

3 Dvouvýběrové testy Dvouvýběrové testy používáme pro testováí dvou avzájem ezávslých áhodých výběrů Jako příklad můžeme uvést porováváí makroekoomckých ukazatelů ve dvou růzých zemích ve stejém období (Pozor: Kdybychom chtěl porovávat data v jedé zem ve dvou růzých obdobích, musíme užít testů párových, vz kaptola ) Př rozhodováí, který z dvouvýběrových testů použít, hraje opět klíčovou rol skutečost, zda daá data pocházejí z ějakého zámého rozděleí (v ašem případě ormálího), č kolv V závslost a splěí č esplěí podmíky ormalty dělíme testy a parametrcké a eparametrcké (tedy stejě jako u párového testováí) Začeme opět testy parametrckým 3 Parametrcké dvouvýběrové testy 3 Testováí rovost středích hodot 3 Dvouvýběrový t-test Nechť,, m je áhodý výběr z ormálího rozděleí ( µ,σ ) je áhodý výběr z ormálího rozděleí ( ) echť, m, σ Ozačme N a echť Y,,Y µ N,σ a tyto výběry jsou ezávslé Dále = m m =, Y = = výběrové průměry a m S x = ( ) m =, SY = ( Y Y ) = výběrové rozptyly Potom áhodá velča T = má rozděleí t m+ Y ( µ µ ) ( m ) S + ( ) S Y ( m + ) m m + Důkaz vz [] 5

Testujeme ulovou hypotézu H µ µ = δ, kde δ je daé číslo ( ejčastěj δ = ) prot : hypotéze alteratví H : µ µ δ ( H : µ µ < δ, eboh : µ µ > δ ) Vypočteme hodotu statstky T (dosazeím µ µ = δ ) H zamítáme a hladě α ve prospěch (oboustraé) alteratví hypotézy µ µ δ T t α m + H, jestlže ( ) : V případě jedostraých testů postupujeme aalogcky: H zamítáme a hladě α ve prospěch alteratví hypotézy ( m + ) T t α H zamítáme a hladě α ve prospěch alteratví hypotézy ( m + ) T t α H : H : µ µ < δ µ µ > δ, jestlže, jestlže Pozámka 3 Test můžeme provést pomocí kostrukce ( α )% tervalu spolehlvost pro rozdíl středích hodot Iterval spolehlvost zkostruujeme ásledově: T t α m +, která je splěa v případě platost ulové Vyjdeme z erovost ( ) hypotézy a postupým úpravam dospějeme až k žádaému tervalu ( m ) Y ( µ µ ) ( m ) S + ( ) ( m + ) ( m + ) + α t α m + SY t ( ) (( m ) S + ( ) SY )( m + ) m + + Y µ µ m( m + ) a ( ) (( m ) S + ( ) SY )( m + ) µ t + α m m( m + ) t α m µ + Y µ µ = δ t ( m + ) ( m ) S + ( ) SY )( m + ) m( m + ) α + Y Zjstíme, zda áš odhad δ leží v daém tervalu V případě, že δ leží mmo teto terval, zamítáme H a hladě α ve prospěch (oboustraé) alteratví hypotézy (aalogcky kostruujeme jedostraé tervaly spolehlvost) 6

V t-testu jsme předpokládal shodost rozptylů V případě rozptylů růzých použjeme test Cochraův-Coxův: 3 Test Cochraův-Coxův Vypočteme S v =, m v Y SY =, S = v + vy, T * = Y S δ, t * = v t α ( m) + v t ( ) v + v Y Y α H zamítáme, pokud * * T t (Aalogcky pro jedostraé testy) Dále můžeme použít Aspové-Welchův test: 33 Aspové-Welchův test Vypočteme f 4 S = v + v Y m * H zamítáme v případě, že T t ( f ) α α kvatl pomocí leárí terpolace Nebo použjeme Satterthwateův test: 34 Satterthwateův test Vypočteme 4 S h = v + v Y m + + * H zamítáme, jestlže T t ( h) α terpolací stejě jako v předchozím testu Všechy tř výše uvedeé testy pracují a hladě přblžě α Pokud f evyjde jako celé číslo, vypočteme V případě, že h eí celé číslo, postupujeme leárí Předpoklad o rovost rozptylů můžeme otestovat pomocí F testu (vz dále) Aděl ale v [] uvádí, že se edoporučuje rozhodovat o výběru testu až podle výsledku F testu 7

3 Test shodost dvou rozptylů Př testováí shodost rozptylů testujeme ulovou hypotézu H σ = σ : Y σ (tz = ) prot oboustraé alteratvě σ : σ H σ σ Y ( ) Y σ Y Předpokládejme, že,, m a Y,,Y jsou avzájem ezávslé áhodé výběry z rozděleí po řadě N ( µ, σ ), N( Y, σ Y ) Platí-l Důkaz vz [] µ Dále předpokládejme, že m,, σ, σ σ = σ Y, pak áhodá velča SY S Z = má rozděleí ( m, ) F Test provedeme tak, že sestrojíme ( α )% terval spolehlvost s hracem: D = Fα ( m, ) =, H = F (, ) α m F, m α ( ) H zamítáme, pokud Z eleží v tomto tervalu 3 Fsherův F test K řešeí můžeme použít také Fsherův F test založeý a porováí většího a mešího z obou odhadů rozptylů: Vypočteme statstku F : a max F = m ( S, SY ) ( S, S ) H zamíteme v případě, že F (, ) Y F α max m Nevýhodou tohoto testu je jeho vysoká ctlvost a ormálí rozděleí Proto se k porováí dvou rozptylů používá častěj přblžý Leveův test 3 Leveův test Teto test porovává průměré odchylky od výběrového průměru jedotlvých výběrů Jedá se o dvouvýběrový t test, který pracuje s áhodým velčam, Y Y Místo statstky T se zpravdla používá její kvadrát porovává s kvatlem F (, + m ) = t ( + m ) hodotách F α α Y F = T a te se H zamítáme př velkých 8

33 Provedeí testů s pomocí software STATISTICA Testy o středích hodotách s budeme demostrovat a datech Míra flace v % za rok 3 v 5 původích zemích EU a ově vstoupvších Jelkož jž v prví kaptole jsme otestoval ormaltu těchto dat, můžeme teto předpoklad považovat za splěý a přstoupt k parametrckým testům Dvouvýběrový t-test Dvouvýběrový t-test je ve STATISTICE mplemetová, jeho provedeí je sadé a rychlé Vytvoříme datový soubor o dvou proměých a potřebém počtu případů, který odpovídá rozsahu většího výběru Vložíme sem aše data a z abídky Basc statstcs/tables vybereme t-test, depedet, by varables Ve výstupí tabulce ajdeme hodotu testového krtéra (t-value) a p-hodotu Přpomeňme s data, se kterým pracujeme: Míra flace v % za rok 3 Belge,5 Česká republka -, Dásko, Estosko,4 Fsko,3 Kypr 4, Frace, Ltva -, Irsko 4, Lotyšsko,9 Itále,8 Maďarsko 4,7 Lucembursko,5 Malta,5 Německo, Polsko,7 Nzozemsko, Slovesko 8,5 Portugalsko 3,3 Slovsko 5,7 Rakousko,3 Řecko 3,4 Spojeé království,4 Špaělsko 3, Švédsko,3 Hodota testové statstky a p-hodota pro áš příklad jsou: t-value Mra flace EU 5 vs Mra flace EU -,796856,433684 Jelkož p-hodota je větší ež hlada výzamost,5, ulovou hypotézu o rovost středích hodot a daé hladě ezamítáme O správost tohoto závěru se můžeme přesvědčt sestrojeím tervalu spolehlvost pro rozdíl středích hodot Pomocí Descrptve statstcs vypočteme výběrové rozptyly obou výběrů a teto soubor traspoujeme Přdáme tř ové proměé, přčemž do prví vložíme t α m + (jeho vypočteí jsme s už ukázal v předcházející kaptole) hodotu kvatlu ( ) a do dalších dvou zapíšeme vzorec pro výpočet dolí/horí meze tervalu Naše výsledky jsou uvedey v tabulce p 9

Mra flace EU 5 Mra flace EU t-kvatl Hor mez Dol mez Varace,85538 8,4388889,686576,6444796 -,6444796 Jelkož áš odhad µ µ = leží v tervalu určeém těmto mezem, došl jsme ke stejému závěru, a to, že a daé hladě výzamost,5 emůžeme zamítout ulovou hypotézu o rovost středích hodot V tomto testu jsme předpokládal rovost rozptylů O správost tohoto předpokladu se přesvědčíme F-testem v další část textu V případě rozptylů růzých použjeme ěkterý z ásledujících testů Test Cochraův-Coxův Budeme postupovat tak, že využjeme ašeho traspoovaého souboru (jehož základem byl výpočet výběrových rozptylů) Pomocí Descrptve statstcs vypočteme ještě výběrové průměry a zjstíme jejch rozdíl Přdáme opět ěkolk ových proměých a s pomocí jejch Log ame vypočítáme popořadě jedotlvé charakterstky Výsledky pro áš příklad jsou uvedey v tabulce Mra flace EU 5 Mra flace EU rozdl_prumeru Varace,85538 8,4388889 -,633333333 vx vy S T* t*,5375873,84388889,947958 -,6687943,35 Jelkož statstka * T se achází v tervalu ( t *,t * ), opět ezamítáme ulovou hypotézu Aspové-Welchův test Pokračujeme opět ve stejém workbooku, kam přdáme statstku f a ásledě t f Obdržel jsme tyto hodoty: vypočteme hodotu kvatlu ( ) f f-t-kvatl,5688,35 Jelkož α * T opět leží v tervalu t ( ) ( ) α f, t f α Satterthwateův test, ulovou hypotézu ezamítáme Jelkož teto test je velce podobý testu předcházejícímu, pracujeme opět se stejým workbookem h h-t-kvatl,499,67343 Na základě ašch výsledků jsme a tetokrát ezamítl ulovou hypotézu 3

Pozámka 3 Jak jž bylo řečeo, tř výše uvedeé testy pracují a hladě přblžě α (v ašem případě α =, 5 ) Test shodost dvou rozptylů K ukázce testů shodost dvou rozptylů použjeme opět stejá data Na základě ašch výsledků tedy uvdíme, jak moc relevatí bylo použtí t-testu (předpokládajícího rovost rozptylů obou výběrů) Prví test ve STATISTICE provedeme tak, že pomocí Descrptve statstcs vypočteme výběrové rozptyly (oz varace) a a jejch základě velču Z (Opět pomocí traspoováí dat ve workbooku a přdáí proměé) Dále s ve stejém workbooku echáme spočíst hrace tervalu, kterým jsou ( α ) kvatly Fsherova rozděleí se stup volost m, (tedy v ašem případě 5 a ) Nakoec se podíváme, zda Z leží v tomto tervalu, č kolv, a v ávazost a tom formulujeme závěr testu Získal jsme tyto výsledky: Mra flace EU 5 Mra flace EU Z,5-F-kvatl,975-F-kvatl Varace,85538 8,4388889,955693,3594396 3,7979548 Jž a prví pohled je zřejmé, že Z eleží v daém tervalu, ulovou hypotézu o shodých rozptylech tedy zamítáme a hladě výzamost,5 Teto závěr ám říká, že výsledky t-testu emůžeme považovat za směrodaté (Ncméě v ašem případě testy, které epředpokládaly rovost rozptylů, ám daly stejé závěry) Fsherův F test Fsherův F-test je mplemetová v samotém dvouvýběrovém t-testu Stačí tedy provést dvouvýběrový t-test pro ezávslé výběry a v tabulce alezeme hodotu testové statstky F a p-hodotu: F-rato Varaces p Varaces Mra flace EU 5 vs Mra flace EU,46883,6 Podle ašeho očekáváí je p-hodota opět meší ež zvoleá hlada výzamoost,5, a tudíž a daé hladě zamítáme ulovou hypotézu Leveův test Výsledek s ověříme ještě Leveovým testem Te je také součástí dvouvýběrového t-testu Vrátíme se tedy do T-test for Idepedet Samples a v Optos zaškrteme Levee s test STATISTICA ám vrátí tabulku obsahující hodotu kvatlu F, + m = t + m, počet stupňů volost a p-hodotou pro Leveův test: α ( ) ( ) α Levee F(,df) df Levee p Levee Mra flace EU 5 vs Mra flace EU,487 3,96 3

Jelkož p-hodota je žší ež zvoleá hlada výzamost,5, opět zamítáme ulovou hypotézu Pozámka 33 Dagostcké grafy pro oba výběry byly zkostruováy jž v prví kaptole 3 Neparametrcké dvouvýběrové testy Neparametrcké dvouvýběrové testy používáme v stuac, kdy eí splě předpoklad ormalty dat V případě výběrů s větším rozsahy ( 3) míré porušeí ormalty emá zásadí dopad a výsledky testu Pokud se ale jedá o výběry malých rozsahů z výrazě eormálího rozděleí, je třeba použít testy eparametrcké, které evyžadují předpoklad o kokrétím typu rozděleí 3 Dvouvýběrový Wlcoxoův test Předpokládejme, že,, m je áhodý výběr z ějakého spojtého rozděleí a Y,,Y je a ěm ezávslý áhodý výběr ze stejého spojtého rozděleí, které je prot prvímu posuuté o kostatu δ Náhodé velčy,, m a Y δ,,y δ mají tedy vlastě stejé rozděleí Testovat budeme ulovou hypotézu H : δ =, tz že tato rozděleí jsou totožá (dstrbučí fukce těchto rozděleí jsou shodé) prot oboustraé alteratvě H : δ Test provedeme tak, že všech m + hodot,, m, Y,,Y uspořádáme vzestupě podle velkost Ozačíme T součet pořadí hodot,, m a T součet pořadí hodot Y,,Y Pro součet T+ T platí: T + T = ( m + )( m + + ) ( + ) Vypočteme statstky U = m + T, Platí U + U = m m U, U U w m, U ( + ) m m = m + T Zjstíme ( U ) a porováme s tabelovaou krtckou hodotou w ( α m, ) ( ) ( α ) V případě, že m, zamítáme H a hladě α Test založeý a statstkách ěkdy azývá Maův-Whteyův test (pod tímto ázvem je také mplemetová ve Statstce) Pro m, (v prax stačí m, > 3) má statstka U asymptotcky ormálí rozděleí Vypočteme statstku U = m U V případě platost H má m( m + + ) H tedy zamítáme a hladě α v případě, že U u U asymptotcky rozděleí N (,) α 3

Pokud se rozděleí áhodých výběrů lší eje posuutím, ale apř rozptylem ebo tvarem, použjeme test Waldův-Wolfowtzův (je ale slabší ež dvouvýběrový Wlcoxoův), ebo Kolmogorův-Smrovův test 3 Waldův-Wolfowtzův test Nechť,, m ay,,y jsou dva ezávslé áhodé výběry ze dvou spojtých rozděleí Testujeme hypotézu, že oba výběry pocházejí ze stejého rozděleí oprot alteratvě, že pocházejí z rozděleí růzých Opět uspořádáme všech m+ hodot vzestupě podle velkost Jako testovou statstku použjeme R, což je počet terací (počet posloupostí za α α sebou ásledujících hodot patřících do stejého výběru) Pokud ( ), kde ( ) R r m, je tabelovaá krtcká hodota, H zamítáme a hladě výzamost α V případě větších rozsahů výběrů (, m > ) můžeme využít asymptotcké ormalty R m m V případě platost H platí: E ( R) = +, ( ) ( m m ) D R = + m + m + m a statstka U R E( R) = má asymptotcky rozděleí (,) D( R) N ( ) ( ) H zamíteme a asymptotcké hladě výzamost α, pokud absolutí hodota 33 Dvouvýběrový Kolmogorův - Smrovův test r m, U u α Nechť,, m ay,,y jsou dva ezávslé áhodé výběry ze dvou spojtých rozděleí Testujeme hypotézu, že dstrbučí fukce těchto dvou rozděleí jsou shodé, tz že všech m + velč pochází z téhož rozděleí Za předpokladu, že x je daé reálé číslo, ξ x =, je-l x, zavedeme ejprve áhodé velčy ( ) m ( x) = ξ, je-l > x pro =,, m Položme F ( x) = ξ ( x) Fukce ( x) m m = F m je emprcká dstrbučí fukce Emprckou dstrbučí fukc druhého výběru vypočteme aalogcky a ozačíme G ( y) že s rostoucím m a se fukce F m ( x) a G ( y) blíží skutečým dstrbučím fukcím F ( x) a G ( y) Ozačme D = sup F ( x) G ( x) Můžeme ukázat, m, m V případě malých hodot čísel m a porováme D m, x D m, α s tabelovaou krtckou hodotou ( ) F ( x) a G ( y) zamítáme a hladě výzamost α, pokud D ( α ) Nulovou hypotézu o rovost dstrbučích fukcí D m m,, + D m, = * V případě větších m a krtckou hodotu aproxmujeme číslem ( α ) a * H zamítáme opět pokud D ( α ) D m, m, m l m α 33

34 Provedeí testů s pomocí software STATISTICA Všechy tř výše uvedeé eparametrcké testy jsou ve STATISTICE mplemetováy, což ám velce usadí jejch provedeí Dvouvýběrový Wlcoxoův test Nejprve vložíme do STATISTIKY data, se kterým chceme pracovat Tetokrát postupujeme trochu jak; vytvoříme datový soubor o proměých a m+ případech Do prvího sloupce vložíme ejdříve m hodot prvího výběru a doplíme hodotam výběru druhého Do druhého sloupce apíšeme m jedček (ozačuje data prvího výběru) a dvojek Z meu Statstcs vybereme Noparametrc Comparg two depedet samples (groups) Do Depedet varable vložíme ázev ašeho sloupce s aměřeým hodotam a do Groupg varable pořadí výběru a zvolíme Ma Whtey U test Ve výstupí tabulce máme součty pořadí T,T (oz Rak sum), hodotu testové statstky m ( U, U ) (oz U), hodotu asymptotcké testové statstky U (zde oz Z ), její p-hodotu a dále přesou p-hodotu (oz * sded exact p), kterou použjeme pro výběry s rozsahy meším ež 3 Ke kostrukc dvouvýběrového Wlcoxoova testu, stejě jako dvou dalších testů, použjeme data HDP a obyvatele v tržích ceách za rok 3, se kterým jsme pracoval jž v prví kaptole Pozámka 34 Zde ám z testů ormalty vyplyulo, že prví výběr (hodoty EU 5) je výrazě eormálí, tudíž jsme zvoll eparametrcké testováí Přpomeeme s aměřeé hodoty: HDP a obyvatele v tržích ceách za rok 3 Belge 5 9 Česká republka 5 4 Dásko 7 3 Estosko 56 Fsko 4 58 Kypr 8 84 Frace 5 7 Ltva 66 Irsko 9 36 Lotyšsko 8 94 Itále 3 9 Maďarsko 3 37 Lucembursko 46 37 Malta 6 68 Německo 4 5 Polsko 34 Nzozemsko 6 63 Slovesko 74 Portugalsko 6 74 Slovsko 7 Rakousko 6 99 Řecko 7 8 Spojeé království 6 49 Špaělsko 5 Švédsko 5 36 Podle předešlého ávodu vložíme data do STATISTIKY a provedeme dvouvýběrový Wlcoxoův test Obdržel jsme tabulku s ásledujícím hodotam: HDP EU 5+ Rak Sum Group Rak Sum Group U Z p-level *sded exact p 67, 58, 3, 3,99384,65,4 34

Jelkož přesá p-hodota je o moho meší ež,5, a daé hladě zamítáme ulovou hypotézu o totožost rozděleí HDP v zemích EU 5 a EU Pozámka 35 V prví kaptole jsme zkostruoval krabcový dagram pro oba výběry Jeho podoba ás utvrzuje ve správost ašeho závěru Tato data dále otestujeme testem Waldovým Wolfowtzovým a dvouvýběrovým Kolmogorovým Smrovovým testem Postupovat budeme stejě jako u předcházejícího testu, ale v posledím kroku vybereme Wald-Wolfowtz Rus Test, resp Kolmogorov-Smrov Test Waldův-Wolfowtzův test Ve výstupí tabulce se objeví rozsahy a průměry obou výběrů, hodota asymptotcké testové statstky U (oz Z), p-hodota pro U, hodota asymptotcké testové statstky s opravou a spojtost (Z adj ), p-hodotu pro Z adj, počet terací (No of Rus) a počet shodých pozorováí (No of tes) Hodoty, které ás zajímají jsou uvedey v tabulce: Mea Group Mea Group Z p-level Z adjstd p-level No of rus HDP EU 5+ 5866,67 3375 -,9848,838,7769,5578 6 No of tes Jelkož aše p-hoota (p-hodota pro adjustovaé Z) je meší ež,5, v tomto případě zamítáme ulovou hypotézu o shodém rozděleí Dvouvýběrový Kolmogorův - Smrovův test Zde ve výstupí tabulce získáme maxmálí záporý (oz Max Neg Dfferc) a maxmálí kladý rozdíl (Max Pos Dfferc) mez hodotam obou výběrových dstrbučích fukcí, dolí omezeí pro p-hodotu, průměry, směrodaté odchylky a rozsahy obou výběrů Vybraé hodoty jsou uvedey v tabulce: Max Neg Max Pos p-level Mea Group Mea StdDev StdDev Group Group Group HDP EU 5+,,866667 p < 5866,67 3375, 6633,38 3439,7 Jelkož vypočteá p-hodota je výrazě meší ež,5, a daé hladě výzamost zamítáme ulovou hypotézu 35

4 Permutačí testy Permutačí testy patří mez výpočetě tezví metody testováí Pomocí permutačích testů můžeme testovat dva ezávslé áhodé výběry ebo provádět párové testováí Testujeme ulovou hypotézu o shodost rozděleí obou výběrů Začeme kostrukcí párového testu Provedeí testu pro dva ezávslé výběry bez použtí výpočetí techky je komplkovaé, a proto azačíme pouze jeho uskutečěí pomocí software R 4 Permutačí test pro dva závslé výběry Postup s ukážeme a příkladě s hodotam tempa růstu reálého HDP v ových čleských zemích EU v letech a 3 Data 4 Tempo růstu reálého HDP v % v letech a 3 v ových zemích EU Mezročí změa Země HDP, % 3 Česká republka,,9 Estosko 6, 4,7 Kypr,, Ltva 6,8 9, Lotyšsko 6, 7,4 Maďarsko 3,5,9 Malta,7,4 Polsko,4 3,7 Slovesko 4,4 4, Slovsko 3,4,3 Pro zjedodušeí výpočtu všecha data vyásobíme (abychom elmoval počítáí s reálým čísly) Budeme tedy počítat s mezročí změou HDP v desetách procet Upraveá data tedy mají tvar: Mezročí změa Země HDP,,% 3 Česká republka 9 Estosko 6 47 Kypr Ltva 68 9 Lotyšsko 6 74 Maďarsko 35 9 Malta 7 4 Polsko 4 37 Slovesko 44 4 Slovsko 34 3 36

Postup je ásledující: Stejě jako u zamékového č jedovýběrového Wlcoxoova testu opět zavedeme velču Z jako rozdíl aměřeých velč (data z roku ) a Y (data z roku 3) Opět z pozorováí vyloučíme případy, kdy Z = V ašem kokrétím Z Permutačí test počítá přímo dosažeou hladu testu p Podle ašeho předpokladu (ulové hypotézy) by těchto 9 hodot mělo kolísat kolem uly Představme s všechy devítce, které získáme tak, že před každé z čísel buď umístíme, ebo eumístíme zaméko mus Jelkož pro každé z čísel máme právě dvě možost, celkem příkladu budeme tedy dál pracovat s vektorem = ( 9,3,, 3,6,3, 3,,) tedy máme 9 = 5 možostí Mez těmto možostm teď musíme ajít všechy devítce, které prot ulové hypotéze svědčí alespoň tolk, jako aše data Nejprve s ukážeme provedeí testu prot jedostraé alteratvě, která říká, že tempo růstu HDP v roce 3 bylo rychlejší ež v roce (ve prospěch této hypotézy ám svědčí všecha záporá z ) Jako krtérum porováváí zvolíme součet všech zaméky opatřeých čísel z Stejě tak bychom mohl jako odhad použít průměr těchto devít hodot Součet ašch dat je - Ve prospěch alteratví hypotézy budou svědčt ty devítce, jejchž součet je ejvýše - Teto požadavek splňují všechy devítce, u chž součet kladých čísel epřesáhe číslo 45 Výpočtem zjstíme, že takovýchto devítc je právě 6 Dosažeá hlada testu je potom p = 6 / 5 =,364 Nulovou hypotézu tedy ezamítáme Nyí otestujeme oboustraou alteratvu V její prospěch budou vedle těchto 6 devítc svědčt také případy, kdy celkový součet je přílš vysoký (tz v roce bylo rychlejší tempo růstu HDP ež v roce 3) Těchto devítc je symetrcky 6 a hlada testu je potom p = 34 / 5 =, 638 Opět tedy a hladě výzamost,5 ezamítáme ulovou hypotézu o shodost rozděleí výběrů 4 Provedeí permutačích testů pomocí software R 4 Párový permutačí test Nejprve je třeba astalovat příslušý balík obsahující permutačí test (Další možostí je test vlastoručě aprogramovat) V abídce Packages (a horí lště) zvolíme Istal package(s) from CRAN Program se přes teret spojí se vzdáleou khovou a abíde ám dostupé balíky, z chž vybereme exactraktests Poté je ještě třeba příslušý balík ahrát do programu pomocí Load package z abídky Packages V tomto balíku je zahruta podrobá ápověda, kterou vyvoláme příkazem help(permtest) Přstoupíme k samotému testu Chceme testovat dva výběry, je proto třeba je ejprve ahrát Každý výběr zvlášť uložíme jako vektor pomocí příkazu ázev_vektoru<-c(x,,x) (apříklad výběr uložíme jako x a jako y) Pokud s chceme daé výběry prohlédout, stačí v příkazové řádce zadat x (resp y) Příkaz pro spuštěí permutačího testu má ásledující tvar: permtest(x, y, pared=false, alteratve=c("twosded", "less", "greater"), mu=, exact=null, coft=false, coflevel=95, tol=null, ), kde jedotlvé parametry zameají: x, y vektory celočíselých hodot, pared upřesňuje, zda chceme provést párový test (=TRUE), ebo epárový (=FALSE), 37

alteratve mu exact coft alteratví hypotéza two sded (oboustraá; předvoleá v případě especfkováí), greater (větší), ebo less (meší); stačí zadat počátečí písmeo, hodota specfkující voltelý parametr polohy, specfkuje, zda chceme, aby byla počítáa přesá p-hodota, upřesňuje, zda chceme vypočítat terval spolehlvost (pouze pro případ dvou ezávslých výběrů), coflevel hlada spolehlvost, (tj α ) pro terval, tol v případě, že zadáváme reálá data, jsou převedea do celočíselých ásobeím; potom hodota tol musí být větší ež absolutí rozdíl hodoty skutečého kvatlu a aproxmovaého Pozámka 4 Neí uté vypsovat všechy argumety a jejch hodoty Permutačí test má předvoleé parametry (vz obecý tvar), takže je třeba zadávat pouze ty formace, které esouhlasí s předastaveým Například pokud zadáme pouze permtest(x,y), provede se oboustraý permutačí test pro dva ezávslé výběry testující hypotézu, že µ = Pozámka 4 V případě, že chceme provádět epárový test pro výběry lšící se rozsahem, je třeba za vektor x považovat výběr s meším rozsahem Výstup obsahuje v závslost a ám zadaých parametrech: formac, zda se jedá o párový č epárový test, výčet proměých do testu vstupujících, hodotu testové statstky T a p-hodotu, alteratví hypotézu, případě terval spolehlvost a daou hladou spolehlvost Zkusíme tedy v programu R ověřt výsledky, které jsme získal výpočtem Nejprve vložíme aše data do vektorů x a y a podle ávodu zadáme příkaz k provedeí testu > x<-c(,6,,68,6,35,7,4,44,34) > y<-c(9,47,,9,74,9,4,37,4,3) > permtest(x,y,pared=true,alteratve="less") Ve výstupu máme ásledující formace: -sample Permutato Test data: x ad y T = 45, p-value = 364 alteratve hypothess: true mu s less tha Př testu prot jedostraé meší alteratvě ám skutečě vyšla p-hodota rova,364 Na hladě výzamost,5 tedy ezamítáme ulovou hypotézu o shodost rozděleí Provedeme ještě oboustraou alteratvu: > permtest(x,y,pared=true,alteratve="twosded") -sample Permutato Test data: x ad y 38