UČEBNÍ TEXTY OSTRAVSKÉ UNIVERZITY Přírodovědecká fakulta ANALÝZA DAT Josef Tvrdík OSTRAVSKÁ UNIVERZITA 00
OBSAH ÚVOD... 3 PROGRAMOVÉ PROSTŘEDKY PRO STATISTICKÉ VÝPOČTY... 4. TABULKOVÝ PROCESOR EXCEL...4. STATISTICKÉ PROGRAMOVÉ SYSTÉMY...0.. NCSS...0.. SOLO...6 3 ANALÝZA ROZPTYLU - JEDNODUCHÉ TŘÍDĚNÍ... 9 4 ZÁKLADY LINEÁRNÍ REGRESE... 6 5 NEPARAMETRICKÉ METODY... 38 5. ZNAMÉNKOVÝ TEST...39 5. JEDNOVÝBĚROVÝ WILCOXONŮV TEST...4 5.3 DVOUVÝBĚROVÝ WILCOXONŮV TEST...44 5.4 KRUSKALŮV-WALLISŮV TEST...47 5.5 SPEARMANŮV KOEFICIENT POŘADOVÉ KORELACE...49 5.6 KONTINGENČNÍ TABULKY - TEST NEZÁVISLOSTI...53 LITERATURA - KOMENTOVANÝ SEZNAM... 59 STATISTICKÉ TABULKY... 6 Tabulka : Dstrbučí fukce ormovaého ormálího rozděleí...63 Tabulka : Vybraé kvatly rozděleí Chí-kvadrát...64 Tabulka 3: Vybraé kvatly Studetova t-rozděleí...65 Tabulka 4: Vybraé kvatly Fsherova Sedecorova F-rozděleí...66 Tabulka 5: Krtcké hodoty pro jedovýběrový Wlcooův test...67 Tabulka 6: Krtcké hodoty pro dvouvýběrový Wlcooův (Maův-Whteyův) test...68 Tabulka 7: Krtcké hodoty Spearmaova korelačího koefcetu...69
Úvod Teto tet slouží jako opora pro kurs azvaý Aalýza dat. Navazuje a kurs Základy matematcké statstky. Cílem kursu je aplkovat základí statstcké zalost v relatvě jedoduchých úlohách, s mž se velm často setkáváme př aalýze emprckých dat. I když je tet apsá s co ejvětší sahou vysvětlovat uté pojmy jejch aplkac jedoduše bez zbytečých a z pohledu využtí statstckých metod okrajových podrobostí, počítejte s tím, že tet ebude oddechová četba a že spoustu věcí bude potřeba důkladě promýšlet a k moha se opakovaě vracet. V řadě lustratvích příkladů jsou užta data ze souboru BI97, která už dost dobře záte z kursu Základy matematcké statstky, zejméa z kaptoly o popsé statstce. Časovou áročost zvládutí tohoto tetu a vyřešeí zadaých příkladů lze odhadout a přblžě 40 až 60 hod. Hlaví korespodečí úlohou, kterou byste v tomto kursu měl osvědčt získaé pozatky, je aalýza vám vybraého souboru dat z vašeho okolí. Proto se poohléděte po stuac a datech, které byste chtěl statstcky zpracovat a kde jste zvědav a výsledky této aalýzy. Případé ejasost včas kozultujte s vyučujícím. Výsledky aalýzy bude pak potřeba předložt formou vytštěé stručé a přehledé zprávy v rozsahu ma. 3 stray. Ostatí korespodečí úlohy jsou zařazey a koc příslušé kaptoly. 3
Programové prostředky pro statstcké výpočty Tato kaptola by vám měla pomoc v oretac v programových prostředcích užívaých ve statstckých výpočtech a aalýze dat. Jsou zde uvedey společé rysy těchto softwarových produktů. Podroběj jsou zmíěy tabulkový procesor Ecel a statstcký paket NCSS, eboť s těmto produkty se ejpravděpodoběj setkáte př řešeí vašch úloh př studu a Ostravské uverstě. Př prvím čteí této kaptoly, a které by mělo stačt až 3 hody, postačí, když získáte oretac v základích problémech a obtížích, se kterým se můžete ve výpočtech a terpretac výsledků setkat. Spíše počítejte s tím, že př řešeí kokrétího problému se budete k této kaptole vracet. Podpora statstckého zpracováí dat je součástí moha obecých programových systémů oretovaých a prác s databázem, a grafcké zpracováí dat, matematckých programových prostředků (Matlab, Mathematca) a kromě toho estuje ěkolk desítek specalzovaých statstckých programových paketů. Společým rysem těchto programových prostředků jsou operace s datovou matcí, tj. dvojrozměrou tabulkou, ve které sloupce jsou velčy a řádky pozorovaé objekty. Pro prác s tabulkam jsou určey tabulkové procesory (a př. Ecel), které jsou vybavey celou řadou statstckých fukcí a grafckých prostředků. Tyto programové prostředky začě usadňují statstcké výpočty a dovolují užvatel soustředt se a správé použtí statstckých metod, kolv a výpočetí ámahu.. Tabulkový procesor Ecel Ecel je typckým představtelem tabulkových procesorů, ěkterá jeho verse je dostupá praktcky a každém počítač. Stadardí součástí Ecelu je ěkolk desítek statstckých fukcí, které mohou být užty př statstckých výpočtech. Je vybave poměrě kvaltí grafkou, která dovoluje pohodlé kresleí statstckých grafů (prozatím s výjmkou apř. krabcových dagramů a ěkterých dalších ve statstce užívaých typů grafů). Kromě toho lze Ecel rozšířt o stadardě dodávaý doplěk Aalýza dat, který pokrývá praktcky všechy metody vysvětlovaé v základích kursech statstcké aalýzy dat. Vzhledem k tomu, že Ecel je tzv. lokalzová, to zameá, že podrobá ápověda ke všem fukcím je k dspozc v čeště, a práce s tabulkovým procesory je součástí výuky předcházejících předmětů, ebudeme se jím yí podroběj zabývat. Pouze přpojujeme upozorěí a ěkteré edostatky zjštěé ve statstckých fukcích a doplňku Aalýza dat. V tetu jsou užty ctace z helpů české lokalzace Ecelu 97. 4
Často užívaým modulem doplňku Aalýzy dat je Hstogram. S využtím mplctího astaveí vstupích parametrů můžete dostat ásledující obrázek: Hstogram 30 5 0 četost 5 0 četost 5 0 45 6. 77.44444444 93.66666667 09.8888889 6. třídy 4.3333333 58.5555556 74.7777778 další Drobé vady a kráse hstogramu je možo omluvt. Legeda a adps Hstogram jsou zbytečé, je zabírají místo, pops vodorové osy eříká c. Sloupce ejsou ad celou šířkou tervalů, počet výzamých číslc v popsu pod sloupc je esmyslě velký. To lze apravt vhodější volbou vstupích parametrů ebo dodatečou úpravou grafu. Závažějším edostatkem však je, že hodoty popsující středy sloupců (středy jedotlvých tervalů) ejsou hodoty odpovídající středu, ale pravému okraj tervalu. Ecel 97 ěkdy selhává ve výpočtu běžých základích jedorozměrých statstk. V Ecelu je zřejmě pro výpočet výběrového rozptylu a dalších s ím souvsejících fukcí (SMODCH, SMODCH.VYBER) užt ve starších statstckých učebcích doporučovaý vzorec s ( ) Pro velké hodoty a př jejch malé varabltě je počítačová hodota výrazu v hraatých závorkách dost odlšá od skutečého součtu čtverců odchylek od průměru, př velm velkých hodotách může být dokoce záporá. Podle výsledků ěkolka testovacích příkladů lze soudt, že v Ecelu je tato možost vyřešea tak, že bez jakéhokol varováí je výsledá hodota rozptylu získaá Ecelem rova ule. 5
Mez statstckým fukcem jsou fukce pro výpočet hodot dstrbučích fukcí a kvatlů často užívaých rozděleí. Jeda z ch se jmeuje NORMDIST a z jejího helpu se dočteme ásledující: ápověda: NORMDIST Vrací kumulatví ormálí rozděleí se zadaou středí hodotou a směrodatou odchylkou. Tato fukce má ve statstce velm šroké použtí, včetě testováí hypotéz. Sytae NORMDIST(; průměr; směrod_odch; kumulatví) X je hodota, pro ž počítáme rozděleí. Průměr je artmetcký průměr rozděleí. Směrod_odch je směrodatá odchylka rozděleí. Kumulatví je logcká hodota, která určuje tvar fukce. Pokud kumulatví je PRAVDA, NORMDIST vrací kumulatví dstrbučí fukc; je-l NEPRAVDA, vrací pravděpodobostí míru. Pozámky... Pokud průměr 0 a směrod_odch, NORMDIST vrací stadardí ormálí rozděleí, NORMSDIST. Příklad NORMDIST(4;40;,5;PRAVDA) se rová 0,908789 koec ápovědy. Fukce NORMDIST je stěží může vracet kumulatví ormálí rozděleí, ale z popsu lze vytušt, že tím je míěa hodota dstrbučí fukce ebo hustoty (kol pravděpodobostí míra ) ormálího rozděleí podle toho, jakou zadáme hodotu posledího vstupího parametru kumulatví. Druhý parametr je vysvětle jako artmetcký průměr rozděleí, což patrě vzklo chybým překladem aglckého termíu mea, který měl být přelože jako středí hodota. Ncméě se dočteme, že pro stadardí ormálí rozděleí (česky se říká ormalzovaé ormálí rozděleí) můžeme použít fukc NORMSDIST, která fuguje zcela podle ašeho očekáváí, NORMSDIST (.96) 0.97500. Podobě řádě se chová verzí fukce NORMSINV, eboť pro zadaou hodotu dstrbučí fukce vrátí správou hodotu kvatlu, apř. NORMSINV (0.05) -.95996. Zkusíme-l kvatly t-rozděleí, které očekáváme pod fukcí s ázvem TINV, její druhý parametr je počet stupňů volost. K ašemu překvapeí však zjstíme, že TINV (0.05, 500) +.487, ačkol bychom očekával hodotu blízkou -.96, tj. blízkou tomuto kvatlu ormovaého ormálího rozděleí. Na další pokus můžeme alézt hodotu kvatlu podobou očekávaé alespoň co do absolutí hodoty, TINV (0.05,500) +.96478. Lehce zepokoje ahlédeme do helpu fukce TINV a dočteme se: 6
ápověda: TINV Vrací verzí fukc k fukc TDIST pro daé stupě volost. Sytae TINV(prst; volost) Prst je pravděpodobost daého dvojstraého t-rozděleí. Volost je počet stupňů volost. Pozámky: Pokud eí ěkterý z argumetů umercký, vrací fukce TINV chybovou hodotu #HODNOTA!. Pokud je prst < 0 ebo pokud je prst >, vrací TINV chybovou hodotu #NUM!. Pokud eí argumet volost celé číslo, je a celé číslo převede. Pokud je volost <, vrací TINV chybovou hodotu #NUM!. Fukce TINV se počítá jako TINVp( t<x ), kde X je áhodá proměá, která doprovází t-rozděleí. Fukce TINV používá opakující se techku propočítáváí fukce. Se zadaou pravděpodobostí hodotou se fukce TINV opakuje dokud eí výsledek přesý a ± 30^-7. Pokud fukce TINV edosáhe požadovaého výsledku po 00 opakováích, vrací fukce chybovou hodoty #N/A. Příklad: TINV(0,054645;60) se rová,96 koec ápovědy. Některé formulace z ápovědy ás možá pobavly, ěkteré trochu vyvedly z míry ebo uvedly do pochybostí, apř. pravděpodobost daého dvojstraého t-rozděleí. Co to vůbec je pravděpodobost ějakého rozděleí a co se může skrývat pod dvojstraým t-rozděleím? Ncméě je jasé, že klíčem k pochopeí je zjstt, k jaké fukc je fukce TINV verzí a zde je uvedeo, že k fukc TDIST. Z helpu fukce TDIST zjstíme toto: ápověda: TDIST Vrátí hodotu dstrbučí fukce t Studetova rozděleí. V případě, že ezáme směrodatou odchylku základího souboru, je j možo odhadout pomocí výběrové směrodaté odchylky t. T-rozděleí je používáo př hypotetckém testováí malých vzorků dat. Sytae TDIST(; volost; stray) X je číslo, pro které hledáme hodotu dstrbučí fukce. Volost je celé číslo, ozačující počet stupňů volost. Stray určuje, zda se jedá o jedostraé č dvoustraé rozděleí. Pokud je parametr stray, vrací TDIST hodotu fukce jedostraého rozděleí. Pokud je parametr stray, vrací TDIST hodotu fukce dvojstraého rozděleí. Pozámky: Pokud eí argumet umercký, vrací fukce TDIST chybovou hodotu #HODNOTA!. Pokud je volost <, vrací TDIST chybovou hodotu #NUM!. 7
Argumety volost a stray jsou převáděy a celá čísla. Pokud argumet stray abývá jých hodot ež ebo, vrací TDIST chybovou hodotu #NUM!. Fukce TDIST se počítá jako TDISTp( <X ), kde X je áhodá proměá, která doprovází t-rozděleí. Příklad: TDIST(,96;60,) se rová 0,054645 koec ápovědy. Naše dlema se jak ezmešlo, podle ápovědy se obě fukce počítají stejě, TDISTp( <X ) a TINVp( t<x ), obě fukce mají být zřejmě ějaké pravděpodobost. Ale jak mohla vyjít hodota fukce TINV větší ež jeda? Navíc TDIST jsou vlastě fukce dvě, vybíráme jedu z ch zadáím hodoty jejího třetího vstupího parametru stray. Ke které z ch je TINV verzí? Naštěstí z uvedeých příkladů a ápověd můžeme usoudt téměř s jstou, že platí ásledující vztah: TINV ( α, ) t ( α / ), kde t ( α / ) je ( α / ) -kvatl t-rozděleí s stup volost, takže ezáporé hodoty kvatlů umíme pomocí fukce TINV vyčíslt. To, že t- rozděleí je symetrcké, sad eí uté přpomíat, takže a kvatly t-rozděleí se umíme dostat v Ecelu. Roztomlost alezeme v modulech doplňku Aalýza dat pro běžé statstcké testy. Např. dvouvýběrový t-test poskyte ásledující výstup: Dvouvýběrový t-test s rovostí rozptylů Soubor Soubor stř. hodota.99 07.7778 rozptyl 734.0097 83.056 pozorováí 64 7 společý rozptyl 76.354 hyp. rozdíl st. hodot 0 rozdíl 89 t stat 0.654039 P(T<t) () 0.57387 t krt ().6656 P(T<t) () 0.54773 t krt ().986978 Pro užvatele rozlšujícího mez jedostraým a oboustraým testem je výstup redudatí, užvatel mez těmto varatam erozlšujícímu tato redudace stejě epomůže. Zájem může vzbudt statstka ozačeá jako rozdíl. Skutečost, že platí rozdíl + (tedy je rove počtu stupňů volost) svádí k doměce, že zkratku df terpretoval překladatel jako aglcké dfferece a přeložl do češty. Tato chyba se vyskytuje ve většě testů mplemetovaých v doplňku Aalýza dat. 8
Užíváte-l pro statstcké výpočty Ecel, vždy velm pečlvě zkoumejte, co vlastě vám ve výsledcích Ecel poskytuje a výstupy z Ecelu, zejméa z jeho české lokalzovaé verse, epřeášejte bez rozmyslu do svých prezetací a dokumetů. 9
. Statstcké programové systémy Statstckých programů komerčě šířeých estuje velké možství. Jako ejpopulárější příklady můžeme zmít SPSS, SAS, S-Plus, Statstca, Stata, Mtab, Ustat ebo NCSS. To jsou tzv. obecé, tj. pokrývají celou škálu statstckých metod, jé jsou specalzovaé a aalýzu ěkterých dat (časové řady, kategorálí data ap.). Všechy statstcké programy však mají tyto základí fukce: mport dat (vstup datové tabulky přpraveé v jém programovém prostředku, třeba v Ecelu ebo v Accesu) mapulace s daty (trasformace, uspořádávaí dat, výběry podmož datové matce, spojováí datových matc) základí deskrptví statstky grafcké prostředky ukládáí dat k sadému využtí pro další zpracováí (tzv. savefle) eport dat (ve formátech vhodých pro jé programové prostředky) presetace výsledků ve formě souborů pro další zpracováí tetovým procesory Ovládáí statstckých programů je v současé době možé většou přes meu a koy podobě jako u ostatích programových produktů pracujících pod Wdows, dříve převažovalo ovládáí pomocí příkazového jazyka, které bylo poěkud áročější pro epravdelého užvatele ebo začátečíka. Vzhledem k tomu, že Ostravská uversta je vybavea statstckým pakety SOLO a NCSS, zaměříme se a tyto produkty podroběj... NCSS Ozačeí NCSS je zkratka ázvu Number Crucher Statstcal Systems. Autorem tohoto statstckého paketu je Jerry L. Htze, stejě jako zámého paketu SOLO. V NCSS lze ostatě ávazost a SOLO sado vystopovat, zejméa v paletě metod a ve struktuře a orgazac výstupů. NCSS je uversálí statstcký paket, doporučovaý zejméa užvatelůmestatstkům. Pokrývá však aprostou většu požadavků velm sofstkovaé statstcké aalýzy dat. Ovládá se pomocí výběru z meu. NCSS komukuje stylem abízím, co pravděpodobě můžete ebo máte v daé stuac požadovat, pokud vám to evyhovuje, musíte to vyjádřt. Výsledky (tetový grafcký výstup společě) jsou ve formátu RTF (Rch Tet Format) a tedy sado mportovatelé do běžých tetových procesorů. Základy ovládáí NCSS lustrují ásledující obrázky. Výběrem z meu přepíáme mez pracovím oky se zpracovávaým daty, okem tzv. šablo (templates), ve kterém specfkujeme vstupí parametry zvoleé aalytcké procedury, okem 0
aktuálích výsledků a okem tzv. LOG souboru s výsledky pro trvalé uložeí po ukočeí sezeí. Hlaví způsob ovládáí je výběr z meu a vyplňováí formulářů pomocí myš, v mohém podobé prác s tabulkovým procesory. Vyplěé šabloy lze uložt pro opakovaé použtí. Do LOG souboru se ukládají pouze ty výsledky, které užvatel uloží eplctě, jak jsou ztracey a oko aktuálích výsledků je přepsováo ásledující spuštěou procedurou. Zadáváí trasformací velč a sdružováí kategorí je jedoduché, spuštěí výpočtu je pro podmožu případů je možé, ale poměrě komplkovaé, je potřeba defovat logckou podmíku vybírá podmožy pomocí fukce FILTER a př všech výpočtech teto fltr pak aktvovat ve vstupích parametrech výpočtu. Pokud úloha vyžaduje komplkovaější předzpracováí dat, je většou výhodé toto předzpracováí udělat jým programovým prostředkem apř. Ecelem a data pak do NCSS mportovat. Import a eport moha běžých formátů dat je součástí NCSS. Tabulka s datovou matcí se lší od Ecelu v tom, že ázvy velč jsou v ázvech sloupců a a velčy apř. př zadáváí vstupích parametrů výpočtu do šabloy se odkazujeme pomocí jejch jme.
Kromě datové matce máme k dspozc lst s ázvy velč, ve kterém můžeme ázvy velč upravovat a také zadávat artmetcké výrazy pro výpočet odvozeých velč (trasformace). Šablou pro zadáváí trasformací otevřeme z položky Data v hlavím meu, odkud lze otevřít šablou pro astaveí a aktvac fltru:
Požadovaé výpočty se zadávají volbou z meu, a př. zde z položky Aalyss hlavího meu rozbalíme skupy mplemetovaých statstckých metod: 3
Vyplěím šabloy se vstupím parametry výpočtu je možé specfkovat úroveň podrobost a formát výstupu. Výstup je pak ve formátu RTF v okě aktuálího výstupu: 4
Podobě volbou Graphcs v hlavím meu otevřeme abídku grafckých procedur. U všech těchto procedur je možé specfkovat obsah vzhled grafckých výstupů: 5
Součástí fukcí NCSS je tzv. pravděpodobostí kalkulátor, který ahrazuje obsáhlé statstcké tabulky: Výhodou NCSS je sadé ovládáí pomocí meu, pohodlá práce s méě rozsáhlým daty, vysoká grafcká kvalta výstupů jejch sadý mport do tetových procesorů. K dspozc je podrobá ápověda ve formě kompletího mauálu v aglčtě. Pomocí NCSS byly zpracováy ěkteré výsledky a grafy v těchto skrptech. Přestože NCSS je kvaltí ástroj pro statstckou aalýzu dat a dovolí vám velm rychlou a efektví prác, ale eí, ostatě jako žádý jý statstcký program, pojstkou prot chybám v aplkacích statstky... SOLO Nyí už poěkud zapomeutý paket SOLO je uversálí programový statstcký paket pracující pod operačím systémem MS DOS a s mmálím ároky a hardware. Pro užvatele programu SOLO je k dspozc český mauál v khově Ostravské uversty. Ovládá se pomocí meu a vyplňováí formulářů z klávesce. Ve srováí s NCSS je horší kvalta výstupů, eboť výsledky v programu SOLO jsou ukládáy do tetových (ASCII) souborů a obtížější práce s grafckým výstupy. V abídce základích statstckých metod jsou oba pakety srovatelé. 6
Př užíváí statstckých programových prostředků věujte pozorost převodům zpracovávaých dat mez růzým programovým prostředky. Častým zdrojem obtíží př tomto převodu (bývá ozačová také jako mport a eport dat) mohou být zejméa chybějící hodoty v datech, které emusí být předvedey správě. Pokud data obsahují desetá čísla, můžou vkout potíže př eshodách oddělovače desetých míst (čárka ebo tečka). Proto př operacích eportu a mportu dat byste vždy měl zkotrolovat prví a posledí řádek datové matce a základí popsé charakterstky převáděého souboru, abyste tak s vysokou pravděpodobostí mohl vyloučt echtěou změu v datech způsobeou esprávým převodem. Ze špatých dat elze získat dobré výsledky. Statstcká aalýza dat s dobrým programovým vybaveím je v aprosté většě případů duševě áročá čost vyžadující soustředěí a obezřetost. Dovedost ovládáí statstckého software představuje je meší část požadavků kladeých a řeštele úlohy. Kotrolí otázky:. Jaká je obvyklá struktura dat zpracovávaá statstckým programy?. Co je to mport dat a jaká jsou jeho úskalí? 3. Jaké jsou výhody a evýhody Ecelu ve srováí se specalzovaým statstckým pakety? 4. Na datech ze souboru BI97 s vyzkoušejte základí statstcké fukce a doplěk Aalýza dat. Pojmy k zapamatováí: statstcká data, jejch struktura obvyklé fukce ve statstckých paketech mport a eport dat statstcké fukce v Ecelu a jejch edostatky doplěk Ecelu Aalýza dat 7
Korespodečí úloha č. Vygeerujte v Ecelu áhodý výběr o rozsahu 000 z ormálě rozděleé populace se středí hodotou 6 a rozptylem. Návod: Z cetrálí lmtí věty víte, že součet áhodých čísel z rovoměrého rozděleí a tervalu (0,) tj. získaých v Ecelu fukcí NAHCIS má přblžě ormálí rozděle. Vygeerujte tedy tabulku o 000 řádcích a k sloupcích s áhodým čísly z rovoměrého rozděleí a tervalu (0,) a výběr z ormálího rozděleí pak můžete získat jako řádkové součty ve sloupc k + v této tabulce. Z vlastostí spojtého rovoměrého rozděleí určete, jak velký počet sloupců k potřebujete, abyste dostal výběr z populace se středí hodotou 6 a rozptylem. a) akreslete hstogram velčy v prvím sloupc vaší tabulky a hstogram velčy v (k+)-ím sloupc vaší tabulky b) testujte hypotézu, že výběr v (k+)-ím sloupc je z populace se středí hodotou 6 (užjte jedovýběrový t-test) c) opakujte celý postup 00 krát (využjte opakováí výpočtu v Ecelu stskem klávesy F9) a zjstěte relatví četost zamítutí ulové hypotézy. Zdůvoděte zjštěé výsledky. 8
3 Aalýza rozptylu - jedoduché tříděí Jako aalýza rozptylu (ANOVA) je ozačová soubor postupů duktví statstky užívaých př testováí hypotéz o středích hodotách př růzém, často velm komplkovaém uspořádáí epermetu. Aalýzou rozptylu se podrobě zabývají specalzovaé statstcké moografe. Zde s ukážeme je základí myšleky aalýzy rozptylu a úloze, která se azývá aalýza rozptylu s jedoduchým tříděím (oe-way ANOVA). K prostudováí této kaptoly by mělo stačt as až 3 hody. Na aalýzu rozptylu s jedoduchým tříděím můžeme pohlížet jako a zobecěí dvouvýběrového t-testu pro stuac, kdy máme testovat shodu středích hodot ve více ež dvou populacích. V takových úlohách emůžeme použít opakovaě dvouvýběrový t-test pro všechy dvojce výběru, pokud chceme, aby pravděpodobost chyby prvího druhu byla rova zvoleé hladě výzamost. Předpokládejme, že máme I ( I ) ezávslých výběrů (tj. pozorovaá data jsou z I růzých skup). Náhodé velčy ( jejch pozorovaé hodoty) v -tém výběru ozačíme Y, Y, K, Y, >,,, K, I výběry jsou z populací, které mají rozděleí N ( µ, σ ), tedy rozptyly ve všech populacích jsou shodé. I Celkem tedy máme k dspozc ezávslých áhodých velč. Nulovou hypotézu, kterou chceme testovat, můžeme zapsat jako H 0 : µ µ K µ I () Každou tuto áhodou velču můžeme tedy vyjádřt jako součet Y j µ + α + e j,, K, ;,, K, I () j, kde áhodé velčy e j jsou ezávslé a mají stejé rozděleí N(0, σ ), σ > 0. Tím jsme formuloval statstcký model: Každou pozorovaou hodotu Y j považujeme za součet hodoty µ společé pro všechy skupy, hodoty α vyjadřující vlv -té skupy a ormálě rozděleé áhodé složky e s ulovou středí hodotou. Hodoty µ, σ, α, α, K, αi jsou ezámé parametry modelu. Pokud přdáme tzv. reparametrzačí podmíku j I α 0, (3) 9
jsou hodoty parametrů µ, α, α, K, α I určey jedozačě a ulovou hypotézu () můžeme zapsat jako H 0 : α α K α I (4) 0 Tato formulace je ekvvaletí formulac (). Parametr α pak můžeme chápat jako výsledek (efekt) charakterzující -tou skupu, v aalýze rozptylu se ěkdy říká efekt -tého ošetřeí (treatmet). Testovaá hypotéza vyjadřuje, že skupy se elší, vlv ošetřeí je ulový. Úkolem aalýzy rozptylu je vlastě vysvětlt varabltu všech vyšetřovaých áhodých velč, čl vysvětlt varabltu jejch pozorovaých hodot. Pro zkráceí dalšího zápsu zavedeme ozačeí Y Y j, Y j Y I I Y j j Y, Y Y Y j I Y j Y j j (5) V těchto zkratkách je vždy de, přes který se sčítá, vyzače tečkou. Vdíme, že Y. je výběrový průměr -tého výběru (skupový průměr), Y je výběrový průměr ze všech pozorováí (celkový průměr, grad mea). Varabltu pozorováí charakterzuje součet čtverců odchylek od celkového průměru S T I ( Y Y (6) j j ) Teto tzv. celkový součet čtverců můžeme rozložt S T I I ( Yj Y ) [ ( Yj Y ) + ( Y Y )] I I I ( Yj Y ) + [ ( Yj Y )( Y Y )] + ( Y Y ) j j I I I ( Yj Y ) + ( Y Y ) ( Yj Y ) + ( Y Y ) j j I I ( Yj Y ) + ( Y Y ) j j j j (7) 0
Pozámka: Prostředí čle v součtu, ( Y Y ) ( Yj Y ) 0, I j eboť ( Yj Y ) 0,, K,I (součet odchylek od průměru je vždy rove j ule) Koec pozámky. Dva čley v posledím řádku (7) jsou charakterstkam varablty I uvtř skup Se ( Yj Y ) (8) j (součet čtverců odchylek pozorovaých hodot od skupových průměrů) I mez skupam S ( Y Y ) (9) A A (vážeý součet čtverců odchylek skupových průměrů od celkového průměru). Vztah (7) tedy můžeme zapsat jako S S + S (0) T e Jak víme, celkový součet čtverců S T má ( - ) stupňů volost, mezskupový součet čtverců S A má ( I ) stupňů volost a vtří (také se říká resduálí ebo chybový, Error Sum of Squares) S e má zbylé stupě volost, tj. ( - I). Pokud platí ulová hypotéza (4), je jak statstka SA /( I ), tak statstka Se /( I) estraým odhadem téhož rozptylu σ a jejch podíl má tedy za platost ulové hypotézy F-rozděleí F SA /( I ) FI I S /( I) ~, () e Pokud ulová hypotéza eplatí, je statstka SA /( I ) výrazě větší. Krtckým oborem pro zamítutí ulové hypotézy (4) je W F, I( α ), + ). I Výsledky aalýzy rozptylu jsou obvykle presetováy v tabulkové formě, v počítačových výstupech se sloupcem s hodotou p, což je pravděpodobost, že áhodá velča mající rozděleí F je větší ebo rova hodotě I, I statstky F. Výzam hodoty p vysvětluje ásledující obrázek. Je zřejmé, že pokud platí, p α, ulovou hypotézu zamítáme, jak ezamítáme.
hustota F-rozděleí f().4. 0.8 0.6 0.4 0. F p 0 0.6..8.4 U složtějších ávrhů epermetu má tabulka výsledků aalýzy rozptylu více řádků. zdroj varablty suma čtverců stupě volost středí čtverec (mea square) mez skupam S A I S A / (I ) F p SA ( I ) hodota p S ( I) e uvtř skup S e I S e / ( - I) celkový S T S T / ( - ) Zamíteme-l ulovou hypotézu o shodě všech středích hodot H 0 : µ µ K µ I, obvykle ás zajímá, která dvojce středích hodot se lší. K tomu slouží testy azývaé mohoásobé porováí (multple comparso). Těch je ěkolk druhů a zájemce odkazujeme a lteraturu, apř. Aděl 978, 993, Havráek 993 atd., podobě jako zájemce o složtější modely aalýzy rozptylu.
Pozámka: Pokud bychom užl aalýzu rozptylu s jedoduchým tříděím a data pocházející je ze dvou výběrů, bude mít statstka F z rov.() tvar F S / A ~ F, Se /( ) a hodota statstky F bude rova druhé mocě statstky t ze dvouvýběrového oboustraého t-testu. Tyto dva testy jsou tedy ekvvaletí. Koec pozámky. Rozkladu celkového rozptylu (0) můžeme užít pro výpočet směrodaté odchylky, máme-l k dspozc pouze skupové charakterstky - průměry a směrodaté odchylky s,,, K, I. Směrodatá odchylka je odmoca z celkového rozptylu, tj. I ST Se + S A s s I ( ) + ( ), () kde celkový průměr spočítáme jako vážeý průměr skupových průměrů, I. 3
Aplkac aalýzy rozptylu s jedoduchým tříděím ukážeme a ásledujícím příkladu. Příklad: Máme posoudt, zda středí hodota velčy Delka (data BI97) jsou stejé ve všech čtyřech lokaltách.. Pro test hypotézy o shodě středích hodot H 0 : µ µ µ 3 µ 4 užjeme aalýzu rozptylu s jedoduchým tříděím. Výpočet provedeme s pomocí programu NCSS. V ěm z meu Aalyss vybereme ANOVA, dále Oe-way ANOVA. Zadáme velču Delka jako Depedet varable a velču Lokatta jako Factor varable (tato velča rozděluje pozorováí do čtyřech skup) a dostaeme výstup, který zda uvedeme ve zkráceé podobě: Aalyss of Varace Report Respose delka Bo Plot Secto Bo Plot 00.00 50.00 delka 00.00 50.00 0.00 3 4 lokal Aalyss of Varace Table Source Sum of Mea Prob Term DF Squares Square F-Rato Level A (lokal) 3 3737.3 45.773.68 0.76777 S(A) 87 64438.07 740.6674 Total (Adjusted) 90 6875.38 Z tabulky aalýzy rozptylu vdíme, že p 0,77. Tedy ulovou hypotézu emůžeme zamítout a žádé rozumě zvoleé hladě výzamost. Rozdíly v poloze pozorovaých hodot velčy Delka v jedotlvých skupách (vz krabcové dagramy a obrázku) emůžeme přčítat ějakým systematckým rozdílům mez skupam, ale pouze důsledku ahodlého kolísáí. 4
Kotrolí otázky:. Jaká hypotéza se testuje v aalýze rozptylu s jedoduchým tříděím?. Jaké jsou předpoklady pro užtí aalýzy rozptylu s jedoduchým tříděím? 3. Co je celkový průměr a skupové průměry? 4. Čemu se říká celkový součet čtverců a jak jej lze rozložt? 5. Co je v aalýze rozptylu s jedoduchým tříděím testovou statstkou, jaké má rozděleí za platost ulové hypotézy? 6. Kdy zamítáme ulovou hypotézu? Pojmy k zapamatováí: skupové průměry a celkový průměr celkový součet čtverců a jeho rozklad mport a eport dat varablta uvtř skup a mez skupam tabulka výsledků aalýzy rozptylu 5
4 Základy leárí regrese Regrese je sad ejčastěj užívaá statstcká metoda. Odhaduje se, že 80 až 90% aplkací statstky je ějakou z varat regresí aalýzy. Prcpy regresí aalýzy se pokusíme vysvětlt a ejjedodušším tzv. klasckém leárím regresím modelu. K prostudováí této kaptoly s reservujte as 4 hody. Leárí regrese se zabývá problémem vysvětleí změ jedé áhodé velčy leárí závslostí a jedé ebo více jých velčách. Uvažujme ejedodušší případ, kdy máme jedu áhodou velču Y a jedu velču. Data mají tvar, který je uvede v ásledující tabulce: Y Y Y M Y Hodoty velčy umíme astavt přesě (apř. teplotu v termostatu), hodoty velčy Y jsou zatížey áhodým kolísáí, způsobeým třeba epřesostm měřící metody (apř. objem plyu). K dspozc tedy máme dvojc pozorovaých hodot. Příklad takových dat ukazuje obrázek 4. Y 0 0 Obr. 4- Na obrázku vdíme, že s rostoucí hodotou se zhruba leárě měí hodota Y, body a obrázku kolísají kolem myšleé přímky, kterou bychom mohl aměřeým body proložt. Hodoty áhodé velčy Y můžeme vyjádřt jako součet dvou složek: Y β + β + e,,,k, () 0 kde β 0, β jsou ezámé koefcety a e áhodá složka (prostě hodota ějaké áhodé velčy). 6
Pokud Ee ( ) 0,,, K,, rov. () můžeme přepsat EY ( ) β0 + β () čl středí hodoty áhodé velčy Y za podmíky, že velča má hodotu, leží a přímce daé rov.(). Rovce () a () formulují regresí model, v tomto případě leárí regresí model s jedou vysvětlující proměou (regresorem) a jedou vysvětlovaou proměou Y. Nezámé koefcety β 0, β jsou parametry regresího modelu, také se jm říká regresí koefcety. Regresí model je vlastě vyjádřeím aší teoretcké představy o závslost velčy Y a velčě. Jedou ze základích úloh regresí aalýzy je odhad parametrů regresího modelu z pozorovaých dat. V případě ašeho leárího modelu je potřeba odhadout regresí koefcety β 0, β z dat, tz. alézt takové hodoty b 0, b, které by určovaly přímku Y b0 + b co ejlépe prokládající aměřeá data. Hodoty b0, b, jsou pak odhady regresích koefcetů β 0, β, $Y je odhadem EY ( ). Co ejlepší proložeí může být formulováo růzým způsoby, ejčastěj se užívá metoda ejmeších čtverců (MNČ), tj. hledáme takové hodoty b0, (úsek který vytíá přímka a ose Y), b, (směrce přímky), aby součet čtverců odchylek pozorovaých hodot od hodot modelových byl co ejmeší: ( ) ( 0 ) S Y Y $ Y b b m e (3) Metodu ejmeších čtverců vysvětluje ásledující obrázek. Řešíme úlohu, jak volt hodoty b 0, a b, aby součet ploch vyzačeých čtverců byl co ejmeší. Y b b 0 0 0 7
Hodoty b 0,, b mmalzující S e alezeme tak, že parcálí dervace položíme rovy ule: S b e Se 0, 0. (4) b 0 Tím dostaeme soustavu tzv. ormálích rovc (v tomto případě dvou rovc), v obecém případě, kdy regresí model má více parametrů ež model (), je počet ormálích rovc rove počtu parametrů. Jsou-l ormálí rovce leárí (jako třeba v uvedeém příkladě), říkáme, že regresí model je leárí v parametrech. Po dosazeí a úpravách rov.(4) S b e 0 S b e ( Y b0 b) Y b0 b [ ( 0 ) ] Y b b Y b0 b má soustava ormálích rovc tvar b + b Y 0 0 + (5) b b Y Řešeí této soustavy rovc můžeme vyjádřt eplctě, tj. jako b b ( ) Y b Y b (6) 0 Y ( )( Y) ( ) ( )( ( ) Y Y Z rov. (6) vdíme, že přímka proložeá metodou ejmeších čtverců, tj.splňující, Y. podmíku (3), prochází bodem [ ] ) (7) 8
Dosadíme-l z rov. (7) do (6), dostaeme ( ) ( )( ) ( ) ( )( ) ( )( ) ( ) 0 Y Y Y Y Y b (8) Nyí přpomeeme ěkteré rovost, které budou důležté př dalších výkladech o ěkterých statstckých vlastostech odhadů b 0,, b. ( ) ( ) ( ) + + + (9) ( ) ( ) ( ) (0) ( )( ) ( ) ( )( ) + + + Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y () ( ) ( )( ) Y Y Y Y Y Y Y () Z rov. (7), (9) a () pak dostaeme ( )( ) ( ) [ ] b Y Y Y Y s s y ( ) ( )( ) ( ) ( ), kde je výběrový rozptyl velčy a s s y je výběrová kovarace. 9
Jelkož r b y sy sy ry. s s sy, vdíme, že ss y S využtím () a () můžeme rov. (7) přepsat ( ) ( ) Y b (3) Odtud ( ) ( ) Y. b Pak pro středí hodoty áhodých velč v předchozí rovc platí ( ) ( ) ( ) β0 + β β( ) β( ) E( b ) E( Y) ( ) A zřejmě tedy Eb ( ) β, takže b je estraým odhadem parametru β. Podobě pro b můžeme dosadt do (6) 0 b Y b Y ( ) Y ( ) ( ) ( ) 0 Y c Y Pak pro středí hodotu b 0 platí 0 ) c E( Y ) c ( β 0 + β) β 0c + βc E ( b β eboť 0 c a také ( ) ( ) ( ) ( ) 0 c ( ) ( ) ( ) ( ) 0 30
Tedy b 0 je estraým odhadem parametru β 0. Chceme-l určt rozptyly odhadů b 0,, b, potřebujeme ještě další předpoklady o áhodé složce e v rov. (): a) Ee ( ) 0,,, K, (teto předpoklad už byl vyslove dříve) b) var( e) E( e ) σ,,, K, (rozptyl e je kostatí, tzv. homoskedascta) c) cov( e, e ) E( ee ) 0, j,, j,, K, j j (e, e j jsou ekorelovaé) Z rov.() vdíme, že var( Y) var( e ) σ. Pak z rov.(3) dostaeme var( b ) var( Y) [ ( ) ] ( ) σ ( ) (4) Z rov. (4) vdíme, že rozptyl odhadu směrce regresí přímky můžeme sížt byla co ejvětší. vhodou volbou hodot regresoru tak, aby ( ) Z rov.(6) dostaeme var( b0 ) var( Y) + var( b ) σ + (5) ( ) Podobě rozptyl odhadu úseku regresí přímky můžeme sížt zvětšeím byla co ejvětší. rozsahu výběru a volbou hodot regresoru tak, aby ( ) Přdáme-l k předpokladům (a), (b), (c) ještě d) e ~ N( 0, σ ),,, K, (odchylky hodot Y mají ormálí rozděleí), pak b j βj N j var( b ) ~ ( 0, ), 0, (6) j 3
Pokud bychom zal var( b j ), mohla by statstka defovaá rov.(6) sloužt jako testové krtérum pro testy hypotéz o parametrech regresího modelu. Obyčejě však var( b j ) ezáme, eboť ezáme σ - vz rov. (4) a (5). Hodotu (tzv. rezduálí rozptyl) však můžeme odhadout: σ s σ ( Y Y$ ) ( Y b0 b) Se (7) Charakterstka s defovaá rov. (7) - výběrový resduálí rozptyl - je estraým odhadem hodoty σ. Dosadíme-l teto odhad do rov. (4) a (5) místo σ, získáme odhady rozptylů regresích parametrů. Ozačme odmocy z těchto odhadů rozptylů SE( b j ), j 0, (směrodatá odchylka ebo také stadardí chyba odhadu regresího parametru). Pak áhodá velča b j βj t j SE( b ) ~,, 0, (8) j a pro testováí hypotéz β j 0 můžeme užít statstku b j t SE( b ) ~. j Pozámka: Leárí regresí model () můžeme celkem sado zobect, může obsahovat více ež jede regresor. Máme-l k regresorů, k >, leárí regresí model má tvar: Y β + β + β + K β + e,,, 0 p k K, Pak resduálí rozptyl se odhaduje jako σ s Se k ( Y Y ) k tj. součet resduálích čtverců se dělí rozsahem výběru zmešeým o počet parametrů regresího modelu, což je k+. V těchto případech pak platí b j β SE( b ) j j ~ t k, j 0,, K, k, 3
tedy tyto áhodé velčy mají Studetovo t-rozděleí s -k- stup volost. Koec pozámky. Příklad: Uvažujme data ze souboru BI97. Naším úkolem je odhad regresích parametrů leárího modelu závslost velčy VAHA a velčě DELKA. V řešeí využjeme statstcký program NCSS. Volbou Fle/Ope otevřeme soubor BI97.S0 (tzv. savefle vytvořeý dříve programem NCSS) a v meu Aalyss vybereme Multple Regresso.. V šabloě regrese zvolíme jako vysvětlovaou velču (Depedet varable) VAHA, jako regresory (Idepedet varables) zvolíme jedou velču, a to DELKA. Po spuštěí výpočtu dostaeme ásledující výstup (zde je uvede v trochu zkráceé podobě): Multple Regresso Report Depedet vaha Regresso Equato Secto Idepedet Regresso Stadard T-Value Prob Decso Varable Coeffcet Error (Ho: B0) Level (5%) Itercept.7396 4.63085 0.3056 0.760594 Accept Ho delka 0.886450 3.65099E-0 4.797 0.000000 Reject Ho R-Squared 0.86889 Regresso Coeffcet Secto Idepedet Regresso Stadard Lower Upper Stad. Varable Coeffcet Error 95% C.L. 95% C.L. Coeff. Itercept.7396 4.63085-6.9995 9.5443 0.0000 delka 0.886450 3.65099E-0 0.839 0.9589 0.93 T-Crtcal.986979 Aalyss of Varace Secto Sum of Mea Prob Source DF Squares Square F-Rato Level Itercept 899033.3 899033.3 Model 5357.79 5357.79 589.5043 0.000000 Error 89 8087.964 90.8760 Total(Adjusted) 90 6659.76 685.084 Root Mea Square Error 9.5389 R-Squared 0.8688 Mea of Depedet 99.3956 Adj R-Squared 0.8674 Coeffcet of Varato 9.590857E-0 Press Value 846.884 Sum Press Resduals 703.5859 Press R-Squared 0.8635 33
Hstogram of Resduals of vaha Resduals vs Predcted 50.0 30.0 37.5 5.0 Cout 5.0 Resduals 0.0.5-5.0 0.0-30.0-5.0 0.0 5.0 30 Resduals of vaha -30.0 40.0 75.0 0.0 45.0 80 Predcted Možá je délka výstupu této aší jedoduché úlohy poěkud překvapvá, ale aučíme se v tomto výstupu číst. Odhady parametrů leárího regresího modelu jsou v část Regresso Equato Secto. Na řádku Itercept je odhad úseku regresí přímky - vz rov. (8) - a další charakterstky týkající se tohoto parametru, a řádku delka pak je odhad směrce - vz rov. (7) - a další charakterstky týkající se tohoto parametru. Odhady parametrů b 0,, b., jsou tedy ve sloupc Regresso Coeffcet.. Ve sloupc Stadard Error jsou pak SE( b j ), j 0, - vz rov (4),(5) a ásledující tet. Ve sloupc T-Value jsou hodoty testového krtéra b j SE( b ) j pro test hypotézy β j 0 - vz rov. (8)- a ve sloupc Prob Level jsou výzamost p pro oboustraý test. Výsledkem aší úlohy jsou odhady b 0 (úsek),7 a b (směrce)0,886. Kromě toho vdíme, aše data ás opravňují zamítout hypotézu β 0, (p < 0,0000005), takže zřejmě váha s rostoucí délkou se výzamě měí. Naprot tomu hypotézu β 0 0 zamítout emůžeme (p 0,76) a tudíž je oprávěé předpokládat, že regresí přímka prochází počátkem. Takový regresí model je s jedím parametrem, a to směrcí, bychom měl prozkoumat v dalším kroku. Výzam důležté charakterstky R-Squared vysvětlíme pozděj. V část Regresso Coeffcet Secto se opakují odhady regresích koefcetů a jejch směrodatých odchylek a dále jsou zde uvedey 00(-α )-procetí tervalové odhady regresích parametrů ( ve sloupcích Lower 95% C.L a Upper 95% C.L.), hodota α může být zvolea př zadáí výpočtu. Část Aalyss of Varace Secto vysvětlíme pozděj. Z dalších charakterstk je užtečá Root Mea Square Error, což je odmoca z Error Mea Square a je to směrodatá odchylka odhadu, odmoca z výrazu daého rov. (7), tedy výběrová resduálí směrodatá odchylka s. 34
Grafy ve výstupu - hstogram resduí Y Y $ a závslost resduí Y Y $ a hodotě predkovaé regresím modelem, tj. a Y $ jsou užtečým ástrojem pro vzuálí přblžé ověřeí předpokladů (a), (b), (c) a (d) užtých př odvozováí vztahů pro odhad regresích parametrů a rozděleí statstk, zejméa pro ověřeí kostatího rozptylu, ekorelovaost resduí a jejch ormálího rozděleí. Koec příkladu. Nyí se vrátíme k vysvětleí charakterstk, které jsme v předchozím příkladu přeskočl. Z odstavce o aalýze rozptylu víme, že celkový součet čtverců odchylek aměřeých hodot velčy Y od jejch průměru můžeme rozložt a dva sčítace: ( ) ( ) ( Y Y Y Y$ + Y$ Y ) (9) Ozačme jedotlvé sumy čtverců podle jejch výzamu celková suma čtverců (total sum of squares): ( ) TSS Y Y resduálí suma čtverců (resdual sum of squares): RSS Se Y Y$ ( ) modelová suma čtverců (model sum of squares): ( ) MSS Y $ Y Rov. (9) tedy můžeme číst takto: Celkovou varabltu vysvětlovaé velčy rozložíme a část, která odpovídá varabltě vysvětleé regresím modelem a a část, kterou model evysvětluje, která zbývá, tedy je resduálí. To můžeme zapsat: TSS MSS + RSS (0) Pak můžeme zavést koefcet (de) determace R (R-squared). R MSS TSS RSS TSS TSS RSS () TSS Vdíme, že koefcet determace je vlastě podíl celkové varablty závslé velčy vysvětleý regresím modelem. Je zřejmé, že 35
0 R () Hodotu dosahuje R tehdy, když RSS 0 (vz rov. ), tz. v případě leárího regresího modelu s jedím regresorem, že závslost Y a je přesě leárí (model vysvětluje vše). Hodotu 0 dosahuje koefcet determace tehdy, když model evysvětluje c z varablty Y, tz. RSSTSS (regresí přímka je rovoběžá s osou ). Lze také ukázat, že pro leárí regresí model s jedím regresorem - rov. () ebo () -je koefcet determace rove druhé mocě výběrového korelačího koefcetu, tedy R. (3) r y Výběrový koefcet determace R (R-squared), defovaý rov. () je vychýleým odhadem populačího koefcetu determace, adhodocuje. Proto součástí výstupu z regrese je tzv. adjustovaý koefcet determace adjusted R (adj R-squared), který toto vychýleí sžuje. Tabulka aalýzy rozptylu je obvyklou součástí počítačových výstupů regresích programů. Její strukturu pro výběr o rozsahu a regresí model s k parametry (počet regresorů je k -) můžeme vyjádřt zdroj varablty suma čtverců stupě volost středí čtverec (mea square) model MSS k- MSS / (k-) F MSS /( k ) RSS /( k ] error RSS -k RSS / (-k) total TSS - Statstka F v předposledím sloupc tabulky má, jsou-l splěy předpoklady (a) až (d), Fsherovo F rozděleí s (k ) a ( k) stup volost. Tuto statstku můžeme užít pro test hypotézy, že populačí koefcet determace je rove ule. Je-l hodota této F statstky v krtckém oboru, zameá to, že výzamá část varablty velčy Y je vysvětlea leárí závslostí a velčě. 36
Kotrolí otázky:. Co vyjadřuje leárí regresí model, jaký má tvar?. Co jsou parametry leárího modelu? Jak se odhadují z dat? 3. Co se mmalzuje v metodě ejmeších čtverců? 4. Jaké jsou předpoklady v klasckém leárím modelu? Jak jejch platost lze ověřt? 5. Jaké hypotézy o parametrech lze testovat? Co je testovou statstkou? 6. Jakých hodot může abývat koefcet determace? Jak lze jeho hodotu terpretovat? 7. Spočítejte úlohu řešeou v příkladu v této kaptole pomocí Ecelu, zoretujte se ve výstupech a porovejte výsledky. Pojmy k zapamatováí: leárí regresí model odhad parametrů regresího modelu, metoda ejmeších čtverců resduálí rozptyl, rozptyly odhadů parametrů celkový a resduálí součet čtverců, koefcet determace Korespodečí úloha č. Máte tyto charakterstky velč a y: 00 s 7.50 r y 0.90 y.5 Určete: a) rovc regresí přímky, b) koefcet determace. s y.5 37
5 Neparametrcké metody V této rozsáhlé kaptole se sezámíme se základy tzv. eparametrckých metod. Jsou to metody, kdy předmětem testu hypotézy eí tvrzeí o hodotě parametru ějakého kokrétího rozděleí, ale ulová hypotéza je formulováa obecěj, apř. jako shoda rozděleí ebo ezávslost velč. Tuto kaptolu doporučujeme studovat po jedotlvých podkaptolách a podle potřeby se v tetu vracet a vzájemě porovávat výhody a evýhody jedotlvých testů. Postupy a algortmy užívaé v eparametrckých metodách, zejméa operace s pořadím hodot, mohou být spratví pro aplkac v moha oborech formatky. Dosud jsem se setkával je s testy hypotéz o parametrech ormálího rozděleí (t-testy, ANOVA, testy o parametrech leárího regresího modelu). Všechy tyto testy vycházejí z předpokladu, že máme jede ebo více výběrů z ormálího rozděleí. Tak slý předpoklad př praktckých aplkacích ebývá často splě. Pak je a místě otázka, jakou statstckou metodu volt, abychom dostal spolehlvé výsledky a aby aše rozhodutí př testu hypotézy ebylo ovlvěo právě je esplěím předpokladů pro použtí těchto tzv. parametrckých metod. Jedím z dlouhá léta osvědčeých alteratvích postupů je použtí tzv. eparametrckých metod. Nebudeme se podroběj zabývat společým vlastostm eparametrckých metod, je se spokojíme s tím, že eparametrcké metody evyžadují, aby výběry byly z ormálího rozděleí. Většou stačí, když jde o výběry ze spojtých rozděleí, u eparametrckých metod se ulová hypotéza často týká medáu rozděleí. Neparametrcké metody často vycházejí z pořadí pozorovaých hodot v jejch vzestupém uspořádáí. Předpoklady pro aplkac eparametrckých metod jsou oprot parametrckým metodám daleko slabší, tz. že př aplkacích jsou splěy častěj. Obecě však platí, že tato výhoda eparametrckých testů je vyvážea evýhodou ve srováí s testy parametrckým jsou eparametrcké testy slabší, tz. že pravděpodobost zamítutí ulové hypotézy v stuac, kdy zamítuta být má, je meší. Proto by eparametrcké testy měly být užíváy je tehdy, kdy předpoklady pro parametrcké testy splěy ejsou. 38
5. Zamékový test Obvyklá formulace jedovýběrového zamékového testu je ásledující: Uvažujeme výběr ze spojtého rozděleí (emusí být symetrcké) a chceme testovat ulovou hypotézu, že medá tohoto rozděleí ~ je rove jsté hodotě prot jedostraé alteratvě, a př. že medá tohoto rozděleí je 0 větší ež 0, tedy H 0 : ~ 0 H : ~ > 0 Testovou statstkou je počet hodot ve výběru větší ež 0. Za platost ulové hypotézy má testová statstka Z bomcké rozděleí, Z ~ B(, p), kde hodota parametru p 0,5 (z defce medáu), je rozsah výběru. Je-l hodota testové statstky rova z, pak ulovou hypotézu zamítáme ve prospěch alteratvy tehdy, když P( Z z) α, kde α je zvoleá hlada výzamost. Pravděpodobost P ( Z z) α lze sado spočítat jako P( Z z ) k z k k k k z k z k 0 k Z vlastostí bomckého rozděleí můžeme určt středí hodotu a rozptyl testové statstky za platost ulové hypotézy E ( Z) p a var( Z ) p ( p) 4 Pro větší rozsahy výběru lze aplkovat cetrálí lmtí větu, pak ormovaá áhodá velča Z Z U () 4 má přblžě ormovaé ormálí rozděleí N(0, ), což pak lze užít pro přblžé určeí hodoty P( Z z ) u výběrů větších rozsahů. Zamékový test bývá velm často užívá jako test párový, přísá formulace tohoto párového testu je ásledující: Mějme dva závslé výběry ze spojtých rozděleí ( X, X, K, X ) a ( Y, Y, K, Y ) (tz. dvě pozorováí pro každý objekt) a testujeme hypotézu, že medáy obou velč jsou shodé, většou prot jedostraé alteratvě, apř. H 0 : H : X ~ Y ~ X ~ < Y ~ 39
Testovou statstkou je pak počet pozorováí, kdy Y > jako u jedovýběrového zamékového testu. X, další postup je stejý Př volější formulac párového zamékového testu se můžeme spokojt je s kvaltatvím porováím. Např. zjšťujeme, zda jstý léčebý postup přáší pacetům subjektví poct zlepšeí zdravotího stavu. Léčebý postup je aplková a pacetů, dotazem a každého paceta zjstíme, že u z pacetů astalo zlepšeí, u -z zhoršeí. Testujeme tedy hypotézu, že pravděpodobost zlepšeí je rova 0,5 prot jedostraé alteratvě, že tato pravděpodobost je větší, tedy H 0 : p 0, 5 H : p > 0, 5 Příklad: Poltcká straa ABC s chtěla rychlým průzkumem ověřt, zda předvolebí beseda přspěla ke zvýšeí její důvěryhodost. V průzkumu bylo 6 áhodě vybraým účastíkům po besedě položea otázka, zda je jejch důvěra ve strau ABC větší ež před besedou. Odpovědí ANO bylo 0, NE odpovědělo 6 dotázaých. Lze se domívat, že předvolebí beseda přspěla ke zvýšeí její důvěryhodost? Odpověď a tuto otázku dá test hypotézy H 0 : p 0, 5 (beseda eměla vlv) prot alteratvě H : p > 0,5 (beseda zvýšla důvěru) Za platost H 0 má počet kladých odpovědí Z bomcké rozděleí, Z ~ B(6, 0,5). 6 6 6 6 P( Z 0) 6 6 k 0 k k 0 6 k 6 6 6 0,75 6 + + L+ 6 5 0 a tedy ulovou hypotézu zamítout emůžeme, tz. eí důvod věřt, že beseda zvýšla důvěryhodost stray ABC. Pokud bychom užl asymptotckou statstku (), dostaeme z 0 6 u. 6 Pravděpodobost P ( U ) 0, 587, je o dost meší ež přesá hodota spočítaá z bomckého rozděleí B(6, 0,5), ale opět a v tomto případě emůžeme zamítou ulovou hypotézu a jakékolv rozumě zvoleé hladě výzamost α. Dost vysoký rozdíl mez P ( Z 0) 0, 75 a 40
P ( U ) 0,587, tj. přblžě 0,07 je způsobe malým rozsahem výběru ( 6). Př větších hodotách se rozdíly sžují, jak ukazuje ásledující tabulka. z z/ P ( Z 0) u P( U u) 6 0 5/8 0,75 0,5866 3 0 5/8 0,0766 0,07868 64 40 5/8 0,0997 0,075 V tabulce také vdíme, jak s rostoucím rozsahem výběru roste síla testu. Př stejé relatví četost kladých odpovědí pro 6 a 3 ulovou hypotézu ezamítáme, pro 64 už bychom a hladě výzamost α 0, 05 ulovou hypotézu zamítl. 5. Jedovýběrový Wlcooův test Jedovýběrový Wlcooův test se podobě jako jedovýběrový zamékový test užívá k testu hypotézy, že medá ějakého spojtého rozděleí je rove daé hodotě. Oprot zamékovému testu předpokládáme, že rozděleí, z ěhož máme výběr X, X, K, X, je eje spojté, ale symetrcké kolem bodu a, tj. pro jeho hustotu f platí f ( a + ) f ( a ) a hodota a X ~ je hodotou medáu tohoto rozděleí. Jedovýběrovým Wlcooovým testem testujeme hypotézu H 0 : X ~ 0 H ~ : X 0 Předpokládejme, že žádá z hodot ve výběru eí rova. Velčy Y X 0 (odchylky od předpokládaé hodoty 0 ) seřadíme do eklesající posloupost podle jejch absolutí hodoty pořadí hodoty Y () X 0 Y + Y( K Y. Nechť R je ( ) ) ( ) v této posloupost. Je zřejmé, že za platost ulové hypotézy jsou Y, Y, K,Y ezávslé áhodé velčy, jejchž rozděleí je symetrcké kolem uly. Proto by měly být součty pořadí ezáporých odchylek + + + S záporých odchylek S zhruba stejé. R Y 0 R Y < 0 + ( + ) Samozřejmě platí, že součet pořadí je S S + S + + K+ a ulovou hypotézu zamíteme, jestlže se hodoty S +, S podstatě lší, tz. je-l m( S +, S ) meší ebo rovo krtcké hodotě w ( α). Ta je pro meší hodoty tabelováa (vz Tabulka 5 v část Statstcké tabulky ebo apř. Aděl, 993). 4
Tabelovaé krtcké hodoty jsou spočítáy kombatorcky s využtím klascké pravděpodobost. Pro větší rozsahy výběru lze užít asymptotckou apromac. Za platost ulové hypotézy je + ( + ) + E ( S ) a var( S ) ( + )( + ) 4 4 + a bylo také dokázáo, že s rostoucím se rozděleí statstky S blíží ormálímu rozděleí. Pak můžeme k testu ulové hypotézy užít statstku + S + E( S ) U, + var( S ) která má přblžě ormovaé ormálí rozděleí N(0, ). H0 zamíteme, je-l absolutí hodota této statstky U u( α / ), kde u ( α / ) je ( α / ) - kvatl rozděleí N(0, ). Příklad: 0 pokusých osob mělo bez předchozího výcvku ezávsle a sobě odhadout, kdy od daého sgálu uplye jeda muta. Byly získáy ásledující výsledky (v sekudách): 53, 48, 45, 55, 63, 5, 66, 56, 50, 58. Naším úkolem je testovat hypotézu H 0 : X ~ 60s prot alteratvě H : X ~ 60 s, tedy rozhodout, zda aše pozorováí ám poskytuje důvod odmítout představu, že polova osob v populac délku jedé muty podhodocuje a polova adhodocuje. X 53 48 45 55 63 5 66 56 50 58 Y X 60-7 - -5-5 3-9 6-4 -0 - Hodoty Y uspořádáme do eklesající posloupost podle Y : () pořadí 3 4 5 6 7 8 9 0 Y X 60-3 -4-5 6-7 -9-0 - -5 Kladé hodoty Y jsou zvýrazěy. Pak + S + 5, + 0(0 + ) S S S 55 7 48, m( S +, S ) 7. Krtcká hodota v tabulce je w 0 (0,05) 8, tz. že H 0 : X ~ 60s můžeme zamítout. Pokud bychom pro tak malý rozsah výběru užl asymptotcký postup (je však doporučová pro rozsah výběru > 0 ), dostaeme 4
+ ( + ) 0 E ( S ) 7,5 4 4 + ( + )( + ) 0 385 var( S ) 96,5 4 4 4 U S + E( S var( S + + ) ) 7 7,5,09 96,5 Protože U, 96, ( u ( 0,975), 96, vz tabulka ormovaého ormálího rozděleí), zamítl bychom ulovou hypotézu a hladě výzamost α 0, 05 tímto asymptotckým postupem. Kdybychom v tomto příkladu užl zamékový test, ulovou hypotézu bychom zamítout emohl. Př oboustraé alteratvě H : X ~ 0 můžeme zamítout, když hodota testové statstky Z (počet kladých zaméek) je buď přílš malá ( Z k ) ebo přílš velká ( Z k ). Hodoty k, k, jsou ejmeší, resp. ejvětší z čísel, pro která platí α P ( Z k), α P ( Z k ) Za platost ulové hypotézy má Z ~ B(,0,5), tz. rozděleí je symetrcké a k. Hodotu k pro 0 a α 0,05 určíme takto: k k P ( Z k) P( Z k) 0 0 0,000 0 0 04 0 0 0,008 0 04 0 45 0,0547 0 04 Hodota k, počet kladých odchylek je rove, tedy větší ež k a ulovou hypotézu bychom zamítout emohl. Uvedeý příklad lustruje, že Wlcooův jedovýběrový test je slější ež test zamékový. Všměme s, že P ( Z ) 0, 0547, tz. větší ež α 0, 05. Tedy zamékový test by a této hladě výzamost ezamítul H 0 : X ~ 60s a prot jedostraé alteratvě H : X ~ < 60s. Pozámka: Používáme-l statstcký software pro vyhodoceí eparametrckých testů, je a místě obezřetost př terpretac výstupu z programu. Zejméa př terpretac 43
tzv, p-value, Některé statstcké programy uvádějí jako p-value je hodotu z asymptotckého testu, eboť určeí přesé hodoty pro eparametrcký test bývá výpočetě áročé. Proto zejméa př zpracováí výběrů meších rozsahů pečlvě pročtěte mauál ebo help programu a pokud je hodota ve výstupu programu je asymptotcká, použjte krtcké hodoty ze statstckých tabulek. 5.3 Dvouvýběrový Wlcooův test Dvouvýběrový Wlcooův test je eparametrckou obdobou dvouvýběrového t- testu. V případě dvouvýběrového t-testu se testuje hypotéza o shodě středích hodot dvou ormálích rozděleí, ze kterých jsou dva ezávslé výběry. Wlcooův test je založe a pořadí a lze ho použít pro výběry, které ejsou z ormálích rozděleí. Uvažujme dva ezávslé výběry ze dvou spojtých rozděleí: X, X,, áhodý výběr z rozděleí s dstrbučí fukcí F K X m K Y Y, Y,, áhodý výběr z rozděleí s dstrbučí fukcí G Wlcooův dvouvýběrový test je obecě zformulová jako test hypotézy o shodě dstrbučích fukcí H 0 : H : F G F G Ale většou alteratvu chápeme jako posuutí, tj. H : G ( ) F( ), 0, pro kterou je teto test ctlvý (má přjatelou sílu). Pokud se dstrbučí fukce lší spíše je rozptylem ebo tvarem, eí užtí dvouvýběrového Wlcooova testu vhodé. Wlcooův dvouvýběrový test je založe pořadí pozorovaých hodot v tzv. sdružeém výběru. Všech m+ hodot X, X, K, X m,y, Y, K,Y uspořádáme vzestupě, za platost ulové hypotézy jsou oba výběry z téhož rozděleí. Pořadí R ve sdružeém výběru má tedy hodoty,, K, m +. Pokud se ve sdružeém výběru vyskytují shodé hodoty, přřadíme jm odpovídající průměré pořadí. Součet pořadí hodot X, X,, ozačíme, součet pořadí hodot Y, Y,,Y ozačíme T. Je zřejmé, že K K m + + T T R ( m + )( m + + ) a dále, že středí hodoty ET a ET jsou za platost H0 rovy ásobku průměrého pořadí a rozsahu výběru, tj. X m T 44