UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY. Přírodovědecká fakulta ANALÝZA DAT. 2. upravené vydání. Josef Tvrdík



Podobné dokumenty
Metody zkoumání závislosti numerických proměnných

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT. Josef Tvrdík

a další charakteristikou je četnost výběrového souboru n.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Úvod do korelační a regresní analýzy

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

Testování statistických hypotéz

, jsou naměřené a vypočtené hodnoty závisle

Mendelova univerzita v Brně Statistika projekt

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

4.2 Elementární statistické zpracování Rozdělení četností

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Odhady parametrů 1. Odhady parametrů

Generování dvojrozměrných rozdělení pomocí copulí

12. N á h o d n ý v ý b ě r

12. Neparametrické hypotézy

Testy statistických hypotéz

NEPARAMETRICKÉ METODY

8. Zákony velkých čísel

Náhodný výběr 1. Náhodný výběr

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

9. Měření závislostí ve statistice Pevná a volná závislost

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Univerzita Karlova v Praze Pedagogická fakulta

Deskriptivní statistika 1

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a aplikovaná statistika

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

Úvod do teorie měření

Spolehlivost a diagnostika

Intervalové odhady parametrů některých rozdělení.

APLIKOVANÁ STATISTIKA

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT. Josef Tvrdík

Statistika - vícerozměrné metody

Chyby přímých měření. Úvod

Jednoduchá lineární regrese

Pravděpodobnost a aplikovaná statistika

ZÁKLADY PRAVDĚPODOBNOSTI A STATISTIKY

Doc. Ing. Dagmar Blatná, CSc.

S1P Popisná statistika. Popisná statistika. Libor Žák

PRAVDĚPODOBNOST A STATISTIKA

8 NELINEÁRNÍ REGRESNÍ MODELY

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

jsou varianty znaku) b) při intervalovém třídění (hodnoty x

PRAVDĚPODOBNOST A STATISTIKA

[ jednotky ] Chyby měření

14. Korelace Teoretické základy korelace Způsoby měření závislostí pro různé typy dat

UNIVERZITA JANA EVANGELISTY PURKYNĚ V ÚSTÍ NAD LABEM PEDAGOGICKÁ FAKULTA Katedra tělesné výchovy

Pravděpodobnostní modely

Optimalizace portfolia

8. Analýza rozptylu.

11. Časové řady Pojem a klasifikace časových řad

Přednáška č. 2 náhodné veličiny

P1: Úvod do experimentálních metod

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

11. Popisná statistika

VY_52_INOVACE_J 05 01

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

Lineární regrese ( ) 2

Výsledky této ásti regresní analýzy jsou asto na výstupu z poítae prezentovány ve form tabulky analýzy rozptylu.

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Statistická analýza dat

Metody statistické analýzy. doc. Ing. Dagmar Blatná, CSc.

U. Jestliže lineární zobrazení Df x n n

1 Popis statistických dat. 1.1 Popis nominálních a ordinálních znaků

1.1 Definice a základní pojmy

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

14. B o d o v é o d h a d y p a r a m e t r ů

MATICOVÉ HRY MATICOVÝCH HER

Náhodné jevy, jevové pole, pravděpodobnost

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

Fakulta elektrotechniky a informatiky Statistika STATISTIKA

Pravděpodobnost a aplikovaná statistika

Komplexní čísla. Definice komplexních čísel

8.2.1 Aritmetická posloupnost I

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Téma 6: Indexy a diference

Matematika I, část II

Regresní a korelační analýza

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

7 LIMITNÍ VĚTY. Čas ke studiu kapitoly: 70 minut. Cíl:

LABORATORNÍ CVIČENÍ Z FYZIKY. Měření objemu tuhých těles přímou metodou

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Transkript:

UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT. upraveé vydáí Josef Tvrdík OSTRAVSKÁ UNIVERZITA 008

OBSAH: Úvod... 3 Parametrcké testy o shodě středích hodot... 4. Jedovýběrový t-test... 4. Dvouvýběrový t-test... 5.3 Párový t-test... 0 3 Aalýza rozptylu - jedoduché tříděí... 4 Základy leárí regrese... 9 5 Neparametrcké metody... 3 5. Testy dobré shody... 3 5. Kotgečí tabulky - test ezávslost... 34 5.3 Zamékový test... 39 5.4 Jedovýběrový Wlcoxoův test... 4 5.5 Dvouvýběrový Wlcoxoův test... 44 5.6 Kruskalův-Wallsův test... 47 5.7 Spearmaův koefcet pořadové korelace... 49 6 Programové prostředky pro statstcké výpočty... 54 6. Tabulkový procesor Excel... 54 6. Statstcké programové systémy... 58 6.3 Programový paket NCSS... 58 7 Prezetace výsledků aalýzy dat... 66 7. Prezetace tabulek a užtí vhodých grafů... 66 7 Některé chyby prezetace ve studetských pracích... 70 Lteratura - kometovaý sezam... 74 Iteraktví učebce pro základí kurs statstky:... 76 Statstcké tabulky... 77 Dstrbučí fukce ormovaého ormálího rozděleí... 77 Vybraé kvatly rozděleí Chí-kvadrát... 78 Vybraé kvatly Studetova t-rozděleí... 79 Vybraé kvatly Fsherova Sedecorova F-rozděleí... 80 Krtcké hodoty pro jedovýběrový Wlcoxoův test... 8 Krtcké hodoty pro dvouvýběrový Wlcoxoův (Maův-Whteyův) test... 8 Krtcké hodoty Spearmaova korelačího koefcetu... 83

Úvod Teto text slouží jako opora pro předmět Aalýza dat. Navazuje a kurs Základy matematcké statstky. Cílem kursu je aplkovat základí statstcké zalost v relatvě jedoduchých úlohách, s mž se velm často setkáváme př aalýze dat. I když je text apsá s co ejvětší sahou vysvětlovat uté pojmy jejch aplkac jedoduše bez zbytečých a z pohledu využtí statstckých metod okrajových podrobostí, počítejte s tím, že text ebude oddechová četba a že spoustu věcí bude potřeba důkladě promýšlet a opakovaě se k m vracet, ěkdy s opakováím pojmů z předmětu Základy matematcké statstky. Časovou áročost zvládutí tohoto textu a vyřešeí zadaých příkladů lze odhadout a přblžě 80 až 00 hod. V ěkterých příkladech, jejchž řešeí je uvedeo v učebím textu, se užívají data ze souborů BI97.ASC. Pokud s chcete uvedeá řešeí sam ověřt a zopakovat, tato data s můžete stáhout z webových stráek autora textu, http://albert.osu.cz/tvrdk/dow/vyuka.html. Hlaví úlohou, kterou byste měl osvědčt pozatky získaé v tomto kursu, je aalýza vám vybraého souboru dat z vašeho okolí. Proto se poohléděte po datech, které byste chtěl statstcky zpracovat, a kde jste zvědav a výsledky této aalýzy. Případé ejasost včas kozultujte s vyučujícím. Výsledky aalýzy bude pak potřeba předložt formou vytštěé stručé a přehledé zprávy, pokud možo v rozsahu max. 3 stray. Před přípravou zprávy s prostudujte kap. 7 o prezetac výsledků. Ostatí korespodečí úlohy budou zadáy a začátku semestru. 3

Parametrcké testy o shodě středích hodot. Jedovýběrový t-test Jedovýběrový oboustraý t-test byl podrobě vysvětle v učebím textu Základy matematcké statstky. Doporučujeme se k tomu vrátt a základy testováí hypotéz s zovu přpomeout. Máme áhodý výběr ( X, X,, ) rozděleých, tj. X ezávslých áhodých velč ormálě ~ ( µ, σ ), =,,,. Testujeme hypotézu, že středí X N hodota rozděleí populace, z íž máme výběr, tj. µ je rova ějaké daé hodotě µ 0. prot alteratvě, že µ µ 0 Za platost ulové hypotézy má statstka T rozděleí podle ásledujícího vztahu X µ 0 T = ~ t s/ a př oboustraé alteratvě µ µ 0 je krtcký obor W (, t ( /) [ ( /), α t α + ) Pokud hodota T patří do krtckého oboru, tak ulovou hypotézu µ = µ 0 pro daé α zamítáme. Oboustraá alteratva H : µ µ 0 však eí jedá možá formulace alteratví hypotézy. Máme-l k dspozc ějakou aprorí formac o středí hodotě populace, ze které je realzová výběr, můžeme zformulovat alteratvu jedostraě: H 0 : µ = µ 0 H : µ > µ 0 (tzv. pravostraá alteratva) Další postup testu bude zcela aalogcký jako u oboustraého testu, pouze W t ( α), +. Nulovou hypotézu můžeme krtcký obor bude jý, totž [ ) zamítout ve prospěch této alteratvy tehdy, když výběrový průměr X je o hodě větší ež µ 0, přesěj vyjádřeo, když pro hodotu testového krtéra platí X µ 0 t ( ) α. s/ Vdíme, že pravděpodobost eoprávěého zamítutí ulové hypotézy je opět rova hladě výzamost α. Tím, že jsme alteratvu formuloval s využtím ějaké aprorí formace, stačí k zamítutí ulové hypotézy, aby hodota testového krtera T byla alespoň t ( ) α. U oboustraé alteratvy by to bylo t ( α/). Zcela aalogcky, pokud bychom měl k tomu důvod, můžeme formulovat levostraou alteratvu H : µ < µ 0. Pak krtcký obor je W (, t ( α). 4

Obecě př užíváí testů, zejméa jedostraých, je vhodé ejdříve formulovat alteratvu ve tvaru obsahujícím tvrzeí, které bychom chtěl prokázat. Pak pokud ulovou hypotézu zamíteme, máme téměř jstotu (s rzkem rovým α ), že tvrzeí vyjádřeé alteratví hypotézou je pravdvé.. Dvouvýběrový t-test Předpokládáme, že máme dva ezávslé výběry o rozsahu, resp., ze dvou ormálě rozděleých populací, prví populace má rozděleí N ( µ, σ ), druhá N ( µ, σ ). Z kaptoly 4. v textu pro Základy matematcké statstky víme (vz rov. 4.-0), že když ezámé parametry σ, σ můžeme považovat za shodé, tedy σ = σ = σ (rozptyl v obou populacích je shodý), pak pro áhodou velču T platí X X ( µ µ ) T = ~ t +. ( ) s + ( ) s + + Chceme-l testovat hypotézu, že středí hodoty v obou populacích jsou shodé, tj. H 0 : µ = µ prot ěkteré z alteratv H : µ µ (oboustraá alteratva) H : µ < µ (levostraá alteratva) H : µ > µ (pravostraá alteratva) užjeme testovou statstku X X Teq =, () ( ) s + ( ) s + + která má za platost ulové hypotézy Studetovo t-rozděleí s + stup volost. Pokud rozptyly v obou populacích shodé ejsou, tj. σ σ, užívá se pro test hypotézy o shodě středích hodot statstka x x T = oeq, () s s + která má přblžě t-rozděleí s ν stup volost, kde počet stupňů volost ν se určí podle vztahu 5

ν = s s + s + s Zameá to tedy, že př testováí ulové hypotézy o shodě středích hodot se musíme rozhodout, zda je ebo eí splě předpoklad o shodě rozptylů, tj. σ = σ = σ a podle toho volt testové krterum daé výrazem () ebo (). Toto rozhodutí provedeme testem hypotézy H 0 : σ σ σ. = σ prot alteratvě H : Pokud aše výběry o rozsazích, jsou z ormálě rozděleých populací, N ( µ, σ ), N ( µ, σ ), platí (vz vztah 4.-5, Základy matematcké statstky) s ~ σ ( ) a tedy také platí s / σ s / σ χ a ~ F, ( ) s ~ χ σ Za platost ulové hypotézy σ = σ má testová statstka Sedecorovo rozděleí s parametry,, s = ~ F, s F = s / s Fsher- F (3) Lze se dohodout, že dexováí výběrů zvolíme tak, aby platlo s s. Praktcky to zameá. ve jmeovatel bude meší z obou výběrových rozptylů. Pak krtckým oborem bude W = F ), ( α), +, (4) jým slovy, hypotézu o shodě rozptylů σ = σ zamíteme, když poměr výběrových rozptylů ásledující obrázek, F 59, 6 ( 0, 95) =, 804. s / s bude podstatě větší ež jeda. Stuac lustruje 6

hustota F-rozděleí f(x).4. 0.8 =59 =6 0.6 0.4 α = 0,05 0. 0 0.6..8.4 x Př testováí hypotéz obvykle používáme statstcký software. Př dvouvýběrovém t-testu prováděém v Excelu ejdříve otestujeme hypotézu o shodě rozptylů (v doplňku Aalýza dat fukce s ázvem Dvouvýběrový F-test pro rozptyl) a podle jeho výsledku se rozhodeme, zda máme užít fukc Dvouvýběrový t-test s rovostí rozptylů ebo Dvouvýběrový t-test s erovostí rozptylů. V NCSS je ve výsledcích vyhodocea jak testová statstka () pro rovost rozptylů, tak krtérum () pro eshodu rozptylů. Je a ás, abychom s vybral správou část výsledku pro terpretac. Postup s ukážeme a příkladu. Příklad : Máme posoudt, zda středí hodota velčy K (data BI97) jsou stejé v populac odrůdy odrůdy. Použjeme program NCSS, z meu Aalyss vybereme T-Tests, z ch Twosample. Zadáme k jako Respose varable a velču Odruda jako Group varable (tato velča rozděluje pozorováí do dvou skup) a dostaeme výstup, který zde uvedeme ve zkráceé podobě. Varable k Descrptve Statstcs Secto Stadard 95% LCL 95% UCL Varable Cout Mea Devato of Mea of Mea odruda= 60 3.84833 3.4597.95659 4.74007 odruda= 7.7778.76777.089 3.765 Equal-Varace T-Test Secto Alteratve Prob Decso Power Power Hypothess T-Value Level (5%) (Alpha=.05) (Alpha=.0) Dfferece <> 0.7 0.0960 Reject Ho 0.590054 0.3480 Dfferece < 0.7 0.98599 Accept Ho 0.00006 0.000003 Dfferece > 0.7 0.0480 Reject Ho 0.708885 0.44086 Dfferece: (odruda=)-(odruda=) 7

Asp-Welch Uequal-Varace Test Secto Alteratve Prob Decso Power Power Hypothess T-Value Level (5%) (Alpha=.05) (Alpha=.0) Dfferece <> 0.4054 0.0960 Reject Ho 0.658359 0.40780 Dfferece < 0.4054 0.99040 Accept Ho 0.00009 0.00000 Dfferece > 0.4054 0.009580 Reject Ho 0.76856 0.50535 Dfferece: (odruda=)-(odruda=) Tests of Assumptos Secto Assumpto Value Probablty Decso(5%) Skewess Normalty (odruda=) -0.373 0.8435 Caot reject ormalty Skewess Normalty (odruda=) 0.7455 0.455956 Caot reject ormalty Varace-Rato Equal-Varace Test.5556 0.89787 Caot reject equal varaces 0.00 Box Plot 7.00 k 4.00.00 8.00 G Groups G I zkráceý výstup je dost obsažý a apoprvé ám dá trochu práce se v ěm oretovat a správě terpretovat výsledky. Naším úkolem je testovat ulovou hypotézu o shodě středích hodot prot oboustraé alteratvě, tj. H 0 : µ = µ H : µ µ Stejou ulovou alteratví hypotézu můžeme formulovat takto: H 0 : µ µ = 0 H : µ µ 0 Této formulac odpovídá forma výsledků, kde se objevuje rozdíl středích hodot (dfferece). Ještě se musíme rozhodout, zda máme pro aše rozhodováí užít statstku T eq defovaou rov. () ebo statstku T oeq defovaou rov. (), čl který odstavec z výsledků se ás týká, zda Equal varaces secto ebo Uequal varaces secto. Musíme rozhodout, zda můžeme považovat za splěý předpoklad o shodě rozptylů v obou populacích č kolv. K tomuto rozhodutí ám poslouží test hypotézy H 0 : σ = σ prot alteratvě H : σ σ. Jeho výsledky alezeme v odstavc testů předpokladů (Tests of Assumptos) a řádku Varace-Rato Equal-Varace Test. Tam alezeme hodotu testové statstky spočteé podle vztahu (3) a kromě toho také tzv. dosažeou úroveň výzamost této hodoty, která je uvedea ve sloupc Probablty. Tato výzamost (probablty, ěkdy ozačovaá také p-value, prob-level ebo krátce p) je často užívaou charakterstkou, která usadňuje terpretac výsledků. V případě jedostraého testu, a to teto test je, vz krtcký obor daý vztahem (4), p udává pravděpodobost, že za platost ulové hypotézy bude mít testová 8

statstka hodotu větší ež hodotu spočítaou z výběru, tedy v ašem příkladu p = P( X, 5556) 0, 9. Smysl p v tomto příkladu v jých jedostraých testech vysvětluje ásledující obrázek. h u sto ta F -ro zděleí f(x).4. 0.8 =59 =6 0.6 0.4 0.,5556 p = 0,9 0 0.6..8.4 Je zřejmé, že pokud platí p α, ulovou hypotézu zamítáme, jak ezamítáme. Jelkož v ašem příkladu vyšlo p 0, 9, tedy větší ež obvykle voleá hlada výzamost α = 0, 05, přjímáme představu o shodě rozptylů v obou populacích, σ = σ. Proto statstka pro test hypotézy o rovost středích hodot obou populací je statstka T eq defovaá rovcí (). Její hodotu alezeme ve výsledcích v odstavc Equal-Varace T-Test. Její hodota je,7 a u í je uvedea odpovídající hodota p. Jelkož ale v tomto případě se jedá o oboustraý test, p udává pravděpodobost, že za platost ulové hypotézy bude absolutí hodota testové statstky větší ebo rova absolutí hodotě statstky spočítaé z výběru, tedy v ašem příkladu p = P( X, 7) 0, 03. Jedoduše řečeo, u oboustraých testů zamítáme ulovou hypotézu, je-l hodota testové statstky buď velm velká ebo velm malá. Opět pokud platí, že p α, ulovou hypotézu zamítáme. Názorě stuac vdíme a ásledujícím obrázku. x f (x ) p / p / 0 x 9

Jelkož v uvedeém příkladu je p 0, 03, hypotézu o shodě středích hodot, tedy µ µ = 0, a hladě výzamost α = 0, 05 zamítáme. Pokud bychom předem z ějakých důvodů zvoll hladu výzamost α = 0, 0, aše výběrová data by ám eposkytovala důvod ulovou hypotézu zamítout. Obecě můžeme říc, že počítačové výstupy výsledků statstckých testů s uvedeým hodotam p usadňují terpretac v tom, že epotřebujeme pro určováí krtckého oboru statstcké tabulky. To, zda vypočteá statstka je č eí v krtckém oboru, pozáme bezprostředě z hodoty p: Je-l p α, víme, že hodota testového krtera je v krtckém oboru, pokud p > α, hodota testového krtera v krtckém oboru eí. V uvedeém dvouvýběrovém t-testu se vychází z předpokladu, že oba výběry jsou z ormálě rozděleých populací. Splěí tohoto předpokladu eí tak důležté, pokud rozsahy obou výběrů jsou dost velké. Jak víme z odstavce o cetrálí lmtí větě, př dostatečě velkém počtu pozorováí má testové krterum X X U = (5) s s + ormovaé ormálí rozděleí N(0,) a př velkém počtu stupňů volost se tvar t - rozděleí přblžuje rozděleí N(0,). Pro velké rozsahy výběrů hodoty testových statstk () a () se přblžují hodotě daé rov. (5) a statstku U můžeme pak použít pro test hypotézy o shodě středích hodot dvou populací lbovolého rozděleí..3 Párový t-test Dalším často užívaým t-testem je tzv. párový t-test. Obecě o párových testech hovoříme tehdy, když máme pro vybraé objekty změřey dvojce hodot, apř. délka levé a pravé kočety, kreví tlak před a po podáí léku, stupeň opotřebeí pravé a levé peumatky atd. Ve statstce je tato stuace ozačováa jako dva závslé výběry stejého rozsahu. Máme-l tedy dva závslé áhodé výběry ( X, X,, X ), ( Y, Y,, Y ), můžeme zjstt rozdíly těchto hodot: D = X Y.a spočítat výběrové statstky, průměr D a rozptyl s D. Př testu hypotézy o shodě středích hodot velč X a Y, tedy H 0 : µ µ = 0 vlastě testujeme, zda středí hodota velčy D je ulová. To je stuace, kterou už záme z jedovýběrového t-testu. Testovým krterem pro test této hypotézy je D Tp =, (6) sd/ která má rozděleí t -. Podobě jako u jedovýběrového testu může být alteratví hypotéza formulováa jako oboustraá ebo jedostraá. 0

Př párovém testu můžeme ulovou hypotézu formulovat eje tak, že středí hodoty obou velč jsou shodé, ale tak, že jejch rozdíl je rove hodotě a, H 0 : µ µ = a. Pak testovou statstkou je D a Tp =, (7) sd/ která opět za platost ulové hypotézy má rozděleí t -. Souhr: Statstcký test hypotézy se užívá k rozhodováí za ejstoty. Rozhodujeme mez ulovou hypotézou a alteratvou. Jsou dva druhy chybého rozhodutí. Pravděpodobost chyby I. druhu př testu volíme předem (hlada výzamost). Test hypotézy je aalogcký rozhodováí soudu, ale rozdíl je v tom, že pravděpodobost chyby prvího druhu je u statstckých testů záma, dokoce j zvolíme. Krtcký obor test závsí a tom, jak je zformulováa alteratva. Kotrolí otázky:. Proč testy o parametrech jsou rozhodováí v ejstotě?. Vysvětlete rozdíl mez chybou prvího a druhého druhu. 3. Proč je zamítutí ulové hypotézy pro praktcké rozhodováí užtečější výsledek ež ezamítutí ulové hypotézy? 4. Kdy můžeme formulovat jedostraou alteratvu? Jakou ám to pak přáší výhodu? 5. Čím se lší párový t-test od jedovýběrového t-testu? Pojmy k zapamatováí: statstcké testováí hypotéz ulová hypotéza, alteratva chyby prvího a druhého druhu hlada výzamost síla testu testová statstka (krterum) krtcký obor jedovýběrový t-test dvouvýběrový t-test párové testy, párový t-test hodota testové statstky a odpovídající p-value Korespodečí úlohy č. a Budou zadáy a začátku semestru.

3 Aalýza rozptylu - jedoduché tříděí Jako aalýza rozptylu (ANOVA) je ozačová soubor postupů duktví statstky užívaých př testováí hypotéz o středích hodotách př růzém, často velm komplkovaém uspořádáí expermetu. Aalýzou rozptylu se podrobě zabývají specalzovaé statstcké moografe. Zde s ukážeme je základí myšleky aalýzy rozptylu a úloze, která se azývá aalýza rozptylu s jedoduchým tříděím (oe-way ANOVA). K prostudováí této kaptoly by mělo stačt as až 3 hody. Na aalýzu rozptylu s jedoduchým tříděím můžeme pohlížet jako a zobecěí dvouvýběrového t-testu pro stuac, kdy máme testovat shodu středích hodot ve více ež dvou populacích. V takových úlohách emůžeme použít opakovaě dvouvýběrový t-test pro všechy dvojce výběru, pokud chceme, aby pravděpodobost chyby prvího druhu byla rova zvoleé hladě výzamost. Předpokládejme, že máme I ( I ) ezávslých výběrů (tj. pozorovaá data jsou z I růzých skup). Náhodé velčy ( jejch pozorovaé hodoty) v -tém výběru ozačíme Y, Y,, Y, >, =,,, I. Výběry jsou z populací, které mají rozděleí N (, σ ), tedy rozptyly ve všech populacích jsou shodé. µ Celkem tedy máme k dspozc = I = ezávslých áhodých velč. Nulovou hypotézu, kterou chceme testovat, můžeme zapsat jako H 0 : µ = µ = = µ I () Každou tuto áhodou velču můžeme tedy vyjádřt jako součet Y = µ + α + ε, j =,,, ; =,,, I, () j j kde áhodé velčy e j jsou ezávslé a mají stejé rozděleí N (0, σ ), σ > 0. Tím jsme formuloval statstcký model: Každou pozorovaou hodotu Y j považujeme za součet hodoty µ společé pro všechy skupy, hodoty α vyjadřující vlv -té skupy a ormálě rozděleé áhodé složky ε j s ulovou středí hodotou. Hodoty µ, σ, α, α,, α I jsou ezámé parametry modelu. Pokud přdáme tzv. reparametrzačí podmíku I α = 0 =, (3) jsou hodoty parametrů µ, α, α,, α I určey jedozačě a ulovou hypotézu () můžeme zapsat jako H 0 : α = α = = α I = 0 (4) Tato formulace je ekvvaletí formulac (). Parametr α pak můžeme chápat jako výsledek (efekt) charakterzující -tou skupu, v aalýze rozptylu se ěkdy říká efekt -tého ošetřeí (treatmet). Testovaá hypotéza vyjadřuje, že skupy se elší, vlv ošetřeí je ulový.

Úkolem aalýzy rozptylu je vlastě vysvětlt varabltu všech vyšetřovaých áhodých velč, čl vysvětlt varabltu jejch pozorovaých hodot. Pro zkráceí dalšího zápsu zavedeme ozačeí Y Y = j= Y j Y = = Y I (skupové součty), j= Y = Y = Y Y I j = = j= I Y = j = (skupové průměry) j (celkový součet), = = Yj (celkový průměr) (5) V těchto zkratkách je vždy dex, přes který se sčítá, vyzače tečkou. Vdíme, že Y je výběrový průměr -tého výběru (skupový průměr), Y je výběrový průměr ze všech pozorováí (celkový průměr, grad mea). Celkovou varabltu pozorovaých hodot charakterzuje součet čtverců odchylek od celkového průměru S T I = j = ( Y ) j Y = (6) Teto tzv. celkový součet čtverců můžeme rozložt I ( ) I S = Y Y = ( Y Y ) + ( Y Y ) = T j j = j = = j = I I I ( Yj Y ) ( Yj Y )( Y Y ) ( Y Y ) = + + = = j = = j = = j = (7) = + + = I I I ( Yj Y ) ( Y Y ) ( Yj Y ) ( Y Y ) = j = = j = = I I ( Yj Y ) ( Y Y ) = j = = = + Prostředí čle v součtu, eboť j = rove ule). I ( Y Y ) ( Y Y ) = 0 j = j =, ( Y Y ) = 0, =,,, I (součet odchylek od průměru je vždy j 3

Dva čley v posledím řádku (7) jsou charakterstkam varablty uvtř skup S = ( ) I Y Y (8) e j = j = (součet čtverců odchylek pozorovaých hodot od skupových průměrů), mez skupam = ( ) A I (9) = S Y Y (vážeý součet čtverců odchylek skupových průměrů od celkového průměru). Vztah (7) tedy můžeme přepsat jako ST = Se + S A (0) Jak víme, celkový součet čtverců S T má ( - ) stupňů volost. Mezskupový součet čtverců S A má ( I ) stupňů volost a součet čtverců uvtř skup (také se říká resduálí ebo chybový, Error Sum of Squares) S e má zbylé stupě volost, tj. ( - I). Pokud platí ulová hypotéza (4), je jak statstka S / ( A I ), tak statstka S / ( e I ) estraým odhadem téhož rozptylu σ a jejch podíl má tedy za platost ulové hypotézy F-rozděleí F = SA/( I ) ~ F S /( I) e I, I () Pokud ulová hypotéza eplatí, je statstka S / ( A I ) výrazě větší. Krtckým oborem pro zamítutí ulové hypotézy (4) je W = FI, I( α), + ). Výsledky aalýzy rozptylu jsou obvykle prezetováy v tabulkové formě, v počítačových výstupech se sloupcem s hodotou dosažeé úrově výzamost p, což je pravděpodobost, že áhodá velča mající rozděleí FI, I je větší ebo rova hodotě statstky F. Výzam hodoty p vysvětluje ásledující obrázek. Je zřejmé, že pokud platí, p α, ulovou hypotézu zamítáme, jak ezamítáme. 4

hustota F-rozděleí f(x).4. 0.8 0.6 0.4 0. F p 0 0.6..8.4 x Tabulka výsledků aalýzy rozptylu s jedoduchým tříděím má ásledující tvar: zdroj varablty mez skupam suma čtverců stupě volost středí čtverec (mea square) S A I S A / (I ) F p S A ( I ) hodota p S ( I ) e uvtř skup S e I S e / ( - I) celkový S T S T / ( - ) U složtějších ávrhů expermetu má tabulka výsledků aalýzy rozptylu více řádků. Zamíteme-l ulovou hypotézu o shodě všech středích hodot H 0 : µ = µ = = µ I, obvykle ás zajímá, která dvojce středích hodot se lší. K tomu slouží testy azývaé mohoásobé porováí (multple comparso). Těch je ěkolk druhů, pops a základí formace k jejch užtí alezeeme v ole mauálu NCSS, zájemce o podrobější formace odkazujeme a lteraturu, apř. Aděl 978, 993, Havráek 993 atd., podobě jako zájemce o složtější modely aalýzy rozptylu. 5

Pozámka: Pokud bychom užl aalýzu rozptylu s jedoduchým tříděím a data pocházející je ze dvou výběrů, bude mít statstka F z rov. () tvar S A / F = ~ F, Se /( ) a hodota statstky F bude rova druhé mocě statstky t ze dvouvýběrového oboustraého t-testu pro shodé rozptyly. Tyto dva testy jsou tedy ekvvaletí. Rozkladu celkového rozptylu (0) můžeme užít pro výpočet směrodaté odchylky, máme-l k dspozc pouze skupové charakterstky - průměry x, počty pozorováí a směrodaté odchylky s, =,,, I. Směrodatá odchylka je odmoca z celkového rozptylu, tj. I I ST Se + SA s = = = s + x x = = kde celkový průměr spočítáme jako vážeý průměr skupových průměrů, I x = x =. ( ) ( ), () 6

Aplkac aalýzy rozptylu s jedoduchým tříděím ukážeme a ásledujícím příkladu. Příklad: Máme posoudt, zda středí hodota velčy Delka (data BI97) jsou stejé ve všech čtyřech lokaltách. Pro test hypotézy o shodě středích hodot H 0 : µ = µ = µ 3 = µ 4 užjeme aalýzu rozptylu s jedoduchým tříděím. Výpočet provedeme s pomocí programu NCSS. V ěm z meu Aalyss vybereme ANOVA, dále Oe-way ANOVA. Zadáme velču Delka jako Depedet varable a velču Lokatta jako Factor varable (tato velča rozděluje pozorováí do čtyřech skup) a dostaeme výstup, který zda uvedeme ve zkráceé podobě: Aalyss of Varace Report Respose delka Box Plot 00.00 50.00 delka 00.00 50.00 0.00 3 4 lokal Aalyss of Varace Table Source Sum of Mea Prob Term DF Squares Square F-Rato Level A (lokal) 3 3737.3 45.773.68 0.76777 S(A) 87 64438.07 740.6674 Total (Adjusted) 90 6875.38 Z tabulky aalýzy rozptylu vdíme, že p = 0,77. Tedy ulovou hypotézu emůžeme zamítout a žádé rozumě zvoleé hladě výzamost. Rozdíly v poloze pozorovaých hodot velčy Delka v jedotlvých skupách (vz krabcové dagramy a obrázku) emůžeme přčítat ějakým systematckým rozdílům mez skupam, ale pouze důsledku ahodlého kolísáí. 7

Kotrolí otázky:. Jaká hypotéza se testuje v aalýze rozptylu s jedoduchým tříděím?. Jaké jsou předpoklady pro užtí aalýzy rozptylu s jedoduchým tříděím? 3. Co je celkový průměr a skupové průměry? 4. Čemu se říká celkový součet čtverců a jak jej lze rozložt? 5. Co je v aalýze rozptylu s jedoduchým tříděím testovou statstkou, jaké má rozděleí za platost ulové hypotézy? 6. Kdy zamítáme ulovou hypotézu? Pojmy k zapamatováí: skupové průměry a celkový průměr celkový součet čtverců a jeho rozklad mport a export dat varablta uvtř skup a mez skupam tabulka výsledků aalýzy rozptylu 8

4 Základy leárí regrese Regrese je sad ejčastěj užívaá statstcká metoda. Odhaduje se, že 80 až 90 % aplkací statstky je ějakou z varat regresí aalýzy. Prcpy regresí aalýzy se pokusíme vysvětlt a ejjedodušším tzv. klasckém leárím regresím modelu. K prostudováí této kaptoly s vyhraďte as 4 hody. Leárí regrese se zabývá problémem vysvětleí změ hodot jedé velčy leárí závslostí a jedé ebo více jých velčách. Uvažujme ejjedodušší případ, kdy vysvětlujeme velču Y lárí závslostí a jedé vysvětlující velčě x. Data mají tvar, který je uvede v ásledující tabulce: x Y x Y x Y x Y Předpokládáme, že hodoty velčy x umíme astavt přesě (apř. teplotu v termostatu), hodoty Y jsou zatížey áhodým kolísáím, způsobeým třeba epřesostm měřící metody (apř. objem plyu). K dspozc tedy máme dvojc pozorovaých hodot. Grafcké zázorěí takových dat ukazuje ásledující obrázek. Y 0 0 x Na obrázku vdíme, že s rostoucí hodotou velčy x se zhruba leárě měí hodota Y, body a obrázku kolísají kolem myšleé přímky, kterou bychom mohl aměřeým body proložt. 9

Hodoty velčy Y můžeme vyjádřt jako součet dvou složek: Y = β0 + β x + ε, =,,, () kde β 0, β jsou ezámé koefcety určující leárí závslost a ε áhodá kolísáí. Pokud středí hodoty áhodého kolísáí jsou ulové, E( ε ) = 0, =,,,, rov. () můžeme přepsat EY ( x = x) = EY ( ) = β + βx () 0 čl středí hodoty áhodých velč Y za podmíky, že velča x má hodotu x, leží a přímce daé rov. (). Rovce () a () formulují regresí model, v tomto případě leárí regresí model s jedou vysvětlující proměou (regresorem) x a vysvětlovaou proměou Y. Nezámé koefcety β 0, β jsou parametry regresího modelu, také se jm říká regresí koefcety. Regresí model je vlastě vyjádřeím aší představy o závslost velčy Y a velčě x. Jedou ze základích úloh regresí aalýzy je odhad parametrů regresího modelu z pozorovaých dat. V případě ašeho leárího modelu je potřeba odhadout regresí koefcety β 0, β z dat, tz. alézt takové hodoty b 0, b, které by určovaly přímku Yˆ = b0 + bx co ejlépe prokládající aměřeá data. Hodoty b 0, b, jsou pak odhady regresích koefcetů β 0, β, Y ɵ je odhadem E( Y x = x ). Co ejlepší proložeí může být formulováo růzým způsoby, ejčastěj se užívá metoda ejmeších čtverců (MNČ), tj. hledáme takové hodoty b 0 (úsek, který vytíá přímka a ose Y), b (směrce přímky), aby součet čtverců odchylek pozorovaých hodot Y od hodot Y ɵ byl co ejmeší: ( ˆ ) ( 0 ) e = = m (3) = = S Y Y Y b bx Metodu ejmeších čtverců vysvětluje ásledující obrázek. Řešíme úlohu, jak volt hodoty b 0 a b, aby součet ploch vyzačeých čtverců byl co ejmeší. 0

Y b b 0 0 0 x Hodoty b 0, b mmalzující S e alezeme tak, že parcálí dervace S e podle b 0, b položíme rovy ule: S e S e = 0, = 0. b b 0 Tím dostaeme soustavu tzv. ormálích rovc (v tomto případě dvou rovc), v obecém případě, kdy regresí model má více parametrů ež model s jedím regresorem, je počet ormálích rovc rove počtu parametrů. Jsou-l ormálí rovce leárí jako v tomto regresím modelu, říkáme, že regresí model je leárí v parametrech. Sado alezeme, že parcálí dervace jsou rovy ásledujícím výrazům S b e 0 S b e = ( Y b0 b x ) = Y b0 b x, = = = [ ( 0 ) ] 0 = Y b b x x = x Y b x b x. (4) = = = = V mmu jsou parcálí dervace rovy ule, takže po jedoduchých úpravách dostaeme soustavu dvou ormálích rovc 0 b + b x = Y b0 x + b x = xy (5) Řešeí této soustavy rovc můžeme vyjádřt explctě takto:

b b = = ( Y b x ) Y bx (6) 0 = x Y x ( x )( Y ) ( x ) ( )( ) ( ) xy x Y = x x. (7) Z rov. (6) vdíme, že přímka proložeá metodou ejmeších čtverců, tj. splňující podmíku (3), prochází bodem xy,. Dosadíme-l z rov. (7) do (6), dostaeme b 0 = = ( xy ) ( x )( Y ) Y ( ) x x ( Y )( x ) ( xy )( x ) x ( ) x x = (8) Nyí přpomeeme ěkteré rovost, které využjeme př dalším výkladu o statstckých vlastostech odhadů b 0, b. ( ) ( ) ( x ) = x x + x = x x = x x x = x xx + x = x x x + x = (9) ( x ) ( ) ( ) x x = x xx x x x x x = = (0) ( x x )( Y Y ) ( xy Yx xy xy ) = xy x Y Y x + xy = = xy xy xy + xy = ( x ) ( Y ) = xy xy = xy = + = ( ) x x Y = xy x Y = x Y = xy = ( x x )( Y Y ) () ()

Z rov. (7), (9) a () pak dostaeme ( x )( Y ) [ ] xy b ( ) ( x x)( Y Y ) sxy = = =, ( x ) x x s x ( ) ( ) x kde s x je výběrový rozptyl velčy x a s xy je výběrová kovarace. Jelkož r xy sxy =, vdíme, že b s s x y sxy sy = = rxy. s s x Tz., že směrc regresí přímky můžeme vypočítat z hodoty korelačího koefcetu. Jak vdíme, směrce korelačí koefcet musí mít stejé zaméko. x S využtím () a () můžeme rov. (7) přepsat ( x x ) Y b = x x ( ) (3) Odtud b x x = x x Y ( ) ( ) Pak pro středí hodoty áhodých velč v předchozí rovc platí ( x xx ) β ( x x ) ( ) ( ) ( ) Eb ( ) x x = x x EY ( ) = x x ( β + βx) = 0 = β = Když tuto rovost dělíme výrazem ( x x ) je estraým odhadem parametru β. Podobě pro b 0 můžeme dosadt do (6) Y ( x x) Y x x x ( ) x = ( x x) ( x x), dostaeme E( b ) = β, takže b b0 = Y b x = Y = cy. Můžeme ukázat, že ( x x x x x x ) c = ( x x) ( x x) = ( ) = 0 = a také, že ( x x x x x x x ) ( ) c x = x = x x x ( x x) = = 0 ( x x) Pak pro středí hodotu b 0 platí E( b0 ) = c E( Y ) = c ( β 0 + β) x = β 0 c + β c x = β 0. Tedy b 0 je estraým odhadem parametru β 0. 3

Chceme-l určt rozptyly odhadů b 0, b, potřebujeme ještě další předpoklady o áhodé složce e v rov. (): a) E( ε ) = 0, =,,, b) (teto předpoklad už byl vyslove dříve); var( ε) = ( ε) = σ, =,,, E (rozptyl e je kostatí, tzv. homoskedascta); c) cov( ε, ε) = E( ε, ε) = 0, j, j, =,,, j j ( ε, ε j jsou ekorelovaé). Z rov. () vdíme, že var( Y ) = var( e ) = σ. Pak z rov. (3) dostaeme var( b ) = x x var( Y ) = [ ( x x) ] ( ) σ ( x x). (4) Z rov. (4) vdíme, že rozptyl odhadu směrce regresí přímky můžeme sížt vhodou volbou hodot regresoru tak, aby ( x x ) byla co ejvětší. Z rov. (6) dostaeme x var( b0 ) = var( Y ) + x var( b ) = σ + ( x x ) (5) Podobě tedy rozptyl odhadu úseku regresí přímky můžeme sížt zvětšeím x x byla co ejvětší. rozsahu výběru a volbou hodot regresoru tak, aby ( ) Přdáme-l k předpokladům (a), (b), (c) ještě předpoklad (d) d) ε σ = N(0, ),,, (odchylky hodot Y od leárí závslost mají ormálí rozděleí), pak b j βj N j = var( b ) ~ ( 0, ), 0, (6) j Pokud bychom zal var( b j ), mohla by statstka defovaá rov. (6) sloužt jako testové krtérum pro testy hypotéz o parametrech regresího modelu. Obyčejě však var( b j ) ezáme, eboť ezáme σ - vz rov. (4) a (5). Hodotu σ (tzv. rezduálí rozptyl) však můžeme odhadout: ( Y ˆ Y ) ( Y b bx ) S = s = = = 0 e = = ˆ σ. (7) 4

Charakterstka s defovaá rov. (7) - výběrový resduálí rozptyl - je estraým odhadem hodoty σ. Dosadíme-l teto odhad do rov. (4) a (5) místo σ, získáme odhady rozptylů regresích parametrů. Ozačme odmocy z těchto odhadů rozptylů sb ( j), j = 0, (směrodatá odchylka ebo také stadardí chyba odhadu regresího parametru). Pak áhodá velča bj βj ~ t, j = 0,, (8) sb ( ) j bj a pro testováí hypotéz β j = 0 můžeme užít statstku ~ t sb ( ) j. Pozámka: Leárí regresí model () můžeme celkem sado zobect, může obsahovat více ež jede regresor. Máme-l k regresorů, k >, leárí regresí model má tvar: Y = β0 + βx + βx + + βkxk + e, =,,, Pak resduálí rozptyl se odhaduje jako ˆ σ e = ( Y ˆ ) Y S = s = = k k tj. součet resduálích čtverců se dělí rozsahem výběru zmešeým o počet parametrů regresího modelu, což je k+. bj βj Pak platí ~ t k, j = 0,,, k, sb ( ) j tedy tyto áhodé velčy mají Studetovo t-rozděleí s -k- stup volost. Příklad: Uvažujme data ze souboru BI97. Naším úkolem je odhad regresích parametrů leárího modelu závslost velčy VAHA a velčě DELKA. V řešeí využjeme statstcký program NCSS. Volbou Fle/Ope otevřeme soubor BI97.S0 (tzv. savefle vytvořeý dříve programem NCSS) a v meu Aalyss vybereme Multple Regresso.. V šabloě regrese zvolíme jako vysvětlovaou velču (Depedet varable) VAHA, jako regresory (Idepedet varables) zvolíme jedou velču, a to DELKA. Po spuštěí výpočtu dostaeme ásledující výstup (zde je uvede v trochu zkráceé podobě): 5