INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Statstcká aalýza dat Učebí texty k semář Autor: Prof. RNDr. Mla Melou, DrSc. Datum: 5.. 011 Cetrum pro rozvoj výzkumu pokročlých řídcích a sezorckých techologí CZ.1.07/.3.00/09.0031 TENTO STUDIJNÍ MATERIÁL JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY
OBSAH Obsah... 1 1. Iteraktví aalýza jedorozměrých dat... 3 1.1. Úvod... 3 1.. Postup teraktví aalýzy dat... 3 1.3. Exploratorí dagostky v aalýze jedorozměrých dat... 4 1.4. Mocá a Boxova-Coxova trasformace dat... 11 1.5. Itervalový odhad parametrů... 1 1.6. Aalýza malých výběrů... 14 1.7. Test správost výsledku... 14 1.8. Závěr aalýzy jedorozměrých dat... 14 1.9. Lteratura... 15. Metodologe počítačové aalýzy rozptylu, ANOVA... 16.1. Úvod... 16.. Základí pojmy... 16.3. Jedofaktorová aalýza rozptylu... 17.3.1. Techka víceásobého porováí... 0.3.. Ověřeí ormalty chyb... 1.3.3. Ověřeí kostatost rozptylu (homoskedastcty)....4. Dvoufaktorová aalýza rozptylu....4.1. Vyvážeé modely... 6.5. Souhr: Postup př aalýze rozptylu... 9.6. Doporučeá lteratura:... 9 3. Itervalové odhady a míry přesost v kalbrac... 3 3.1. Úvod... 3 3.. Druhy kalbrace... 3 1
3.3. Rozptyl predkce cílové velčy x*... 34 3.4. Kalbračí přímka... 35 3.5. Neleárí model kalbračí křvky... 36 3.6. Itervalové odhady cílové velčy x... 37 3.7. Přesost kalbrace... 38 3.8. Závěry kalbrace... 40 3.9. Doporučeá lteratura... 41 4. Výstavba regresího modelu regresím trpletem... 4 4.1. Úvod... 4 4.1.1. Základí předpoklady metody ejmeších čtverců (MNČ):... 4 4.1.. Regresí dagostka... 43 4.. Krtka dat... 43 4..1. Statstcká aalýza rezduí... 44 4... Obrazce v dagostckých grafech:... 46 4..3. Grafy detfkace vlvých bodů:... 47 4.3. Krtka modelu... 49 4.4. Krtka metody... 51 4.5. Postup výstavby leárího regresího modelu *1, 4+... 53 4.6. Doporučeá lteratura:... 55 Přílohy... 57
1. INTERAKTIVNÍ ANALÝZA JEDNOROZMĚRNÝCH DAT 1.1. Úvod Otázka spolehlvost a správého vyhodoceí expermetálích dat se v době osobích počítačů octá u každého měřeí dat a prvím místě. V kotrolí laboratoř, ať už vodohospodářské, chemcké, bologcké, fyzkálí č jakékolv jé, tvoří základ expermetálí práce měřeí a přístroj. V laboratořích des představují strumetálí metody spojovací čláek mez přírodovědým a techckým obory, protože moderí počítačem řízeé přístroje používá každá laboratoř. Navíc a každém psacím stole laboratoře acházíme počítač, většou ejvyšší kvalty, kapacty a rychlost, vybaveý moderím software. Je proto eomluvtelé vyhodocovat aměřeá data zjedodušeým, aproxmatvím postupy pozůstalým z dob kalkulaček. Kotrolí orgáy, komsař akredtačích komsí ale především kokurečí pracovště v zahračí se předháějí př vyhodocováí dat v užíváí špčkového software s rgorózím matematckým postupy, ve kterých eí žádého zjedodušeí č zaedbáí ějakých statstckých předpokladů. Výsledky dosažeé těmto áročějším postupy se pak berou za valdí a jedě správé a přjatelé třeba v okružím testu. Ukažme s zde proto jede z ovějších postupů teraktví statstcké aalýzy dat, který je založe a dagostkováí v dalogu s osobím počítačem čl a teraktví aalýze a který abízí užvatel hlubší pohled do všech tajemství, ukrytých v expermetálích datech. S tímto problémem souvsí obvykle vhodý software, který zajstí bezproblémové a přátelské prostředí a echá data promluvt. Nezapomeňme přtom a důležté pravdlo, že úroveň užívaého software des prozrazuje úroveň celého pracovště. 1.. Postup teraktví aalýzy dat Obecý postup áročější statstcké aalýzy jedorozměrých dat lze vyjádřt ásledujícím schématem. Iteraktví přístup uvedeý postup ulehčuje, protože větša statstckého software obsahuje uvedeé statstcké dagostky a testy. 1. Průzkumová (exploratorí) aalýza dat (EDA) vyšetřuje především stupeň symetre a špčatost rozděleí, lokálí kocetrac dat a odhaluje také vybočující a podezřelá data. 3
. Ověřeí základích předpokladů o výběru dat se týká ověřeí ormalty, ověřeí ezávslost, ověřeí homogety a koečě určeí mmálí četost aalyzovaých dat. 3. Trasformace dat ásleduje v případě porušeí ěkterého z předpokladů o výběru. Patří sem mocá, expoecálí trasformace a Boxova- Coxova trasformace. 4. Vyčísleí ejlepších odhadů parametrů polohy, rozptýleí a tvaru se týká vyčísleí jedak klasckých odhadů (artmetcký průměr a rozptyl), jedak robustích odhadů (medá, uřezaé průměry, wsorzovaý rozptyl) a koečě adaptvích M-odhadů. Retrasformovaý průměr po trasformac dat se přesto obvykle jeví jako ejlepší odhad středí hodoty. 1.3. Exploratorí dagostky v aalýze jedorozměrých dat Prvím krokem v aalýze jedorozměrých dat je průzkumová, exploratorí aalýza. Jejím cílem je odhalt statstcké zvláštost v datech a ověřt předpoklady o výběru pro ásledé rgorózí statstcké zpracováí. Jedě tak lze zabrát prováděí umerckých výpočtů bez hlubších statstckých souvslostí. Obr. 1-1 Kostrukce barerově-číslcového schématu dkujícího vybočující hodoty: a) dagram rozptýleí s medáem M, kvartly F D (dolí) a F H (horí), vtří hradby B D (dolí) a B H (horí), vější hradby V D (dolí) a V H (horí); b) oblast vybočujících hodot: A přlehlé (B PD je blízké B D a B PH je blízké B H ), B začí oblast vějších a C vzdáleých bodů. Z růzých typů výběru se v laboratoř ejvíce uplatňuje reprezetatví áhodý výběr, {x }, = 1,...,, který má čtyř základí vlastost: 4
(1) Jedotlvé prvky výběru x jsou vzájemě ezávslé. () Výběr je homogeí, tj. všecha x pocházejí ze stejého rozděleí pravděpodobost s kostatím rozptylem. (3) Předpokládá se také, že jde o ormálí rozděleí pravděpodobost. (4) Všechy prvky souboru mají stejou pravděpodobost, že budou zařazey do výběru. Před vlastí aalýzou je vždy ezbyté ověřt platost základích předpokladů, tj. ezávslost, homogetu a ormaltu výběru. Využívá se k tomu robustích kvatlových charakterstk, které umožňují sledováí lokálího chováí dat a které jsou vhodé pro malé ebo středě velké výběry. Vychází se z pořádkových statstk výběru x (1) x ()... x (). Platí, že středí hodota -té pořádkové statstky je rova 100P procetímu kvatlu výběrového rozděleí F -1 (P ) = Q(P ), kde F(x) ozačuje dstrbučí fukc a Q(P ) kvatlovou fukc výběru. Symbol P = /( + 1) ozačuje pořadovou pravděpodobost. Přpomeňme, že 100P procetí výběrový kvatl je hodota, pod kterou leží 100P procet prvků výběru. Optmálí hodoty P závsí a předpokládaém rozděleí výběru. Pro ormálí rozděleí se doporučuje volba P = ( - 3/8)/( + 1/4). Vyeseím hodot x () prot P, = 1,...,, se získá hrubý odhad kvatlové fukce Q(P). Ta je verzí k fukc dstrbučí a jedozačě charakterzuje rozděleí výběru. V průzkumové aalýze se často používá specálích kvatlů L pro pořadové pravděpodobost P = -, = 1,,..., které se také azývají písmeové hodoty. Tabulka 1-1. Ozačeí písmeových hodot -tý kvatl Pořadová pravděpodobost P Symbol písmeové hodoty L Hodota kvatlu u Pj 1 Medá -1 = 1 / M 0 Kvatty - = 1 / 4 F -0.674 3 Oktly -3 = 1 / 8 E -1.15 4 Sedecly -4 = 1 / 16 D -1.53 5
Symbol u P ozačuje kvatl ormovaého ormálího rozděleí N(0, 1). Kromě medáu ( = 1) exstují pro každé > 1 dvojce kvatlů, a to dolí a horí písmeová hodota L D a L H. Dolí písmeová hodota je pro pořadovou pravděpodobost P = -, zatímco horí je pro P = 1 - -. Počet písmeových hodot závsí a rozsahu výběru. Pro velkost výběru lze určt L písmeových hodot včetě medáu dle vztahu L = 1.44 l ( + 1). Obr. 1- Kvatlové grafy (robustí --- a klascké) pro výběry z rozděleí (a) ormálího, symetrckého rozděleí Úlohy E.10, (b) asymetrckého rozděleí Úlohy E.07. Kvatlový graf (osa x: pořadová pravděpodobost P, osa y: pořádková statstka x () ) umožňuje přehledě zázort data a saděj rozlšt tvar rozděleí, který může být symetrcký, seškmeý k vyšším ebo žším hodotám. Ke sadějšímu porováí s ormálím rozděleím se do tohoto grafu zakreslují kvatlové fukce ormálího rozděleí N ˆ ˆ u, pro 0P 1, a to: (1) klasckých odhadů parametrů polohy a rozptýleí ˆ x a ˆ = s, a () robustích odhadů ˆ x0.5 a ˆ /1.349. R F P P Obr. 1-3 Kostrukce (a) dagramu rozptýleí a (b) rozmítutého dagramu rozptýleí pro výběry z rozděleí (a) ormálího, symetrckého rozděleí, (b) asymetrckého rozděleí. 6
Dagram rozptýleí (osa x: hodoty x, osa y: lbovolá úroveň, obyčejě y = 0) představuje jedorozměrou projekc kvatlového grafu do osy x, zatímco rozmítutý dagram rozptýleí představuje týž graf, ale body jsou vhodě rozmítuté ve směru y-ové osy. I př své jedoduchost teto dagram ázorě ukazuje a lokálí kocetrac dat a dkuje podezřelá a vybočující měřeí. Obr. 1-4 Kostrukce (a) krabcového grafu, a (b) vrubového krabcového grafu z dat dagramu rozptýleí pro výběry z rozděleí (a) ormálího, symetrckého rozděleí, (b) asymetrckého rozděleí. Prázdá kolečka dkují vybočující hodoty. Krabcový graf (osa x: úměrá hodotám x, osa y: lbovolý terval) umožňuje vedle zázorěí robustího odhadu polohy, medáu M také posouzeí symetre v okolí kvatlů a posouzeí symetre u koců rozděleí a často detfkac odlehlých dat. Jde o obdélík délky RF FH FD x0.75 x0.5 s vhodě zvoleou šířkou, která je úměrá hodotě. V místě medáu je vertkálí čára. Od obou protlehlých stra tohoto obdélíku pokračují úsečky. Ty jsou ukočey přlehlým hodotam B PH a B PD, ležícím uvtř vtřích hradeb ejblíže k jejch hracím B H, B D, tj. B F 1.5R a B F 1.5R. Pro data H H F D D F pocházející z ormálího rozděleí platí B H - B D = 4.. Prvky výběru mmo vtří hradby jsou považováy za podezřelá měřeí (kroužky). Obdobou je vrubový krabcový graf, který umožňuje posouzeí varablty medáu, vyjádřeou robustím tervalem spolehlvost ID M IH. 7
Obr. 1-5 Grafy polosum pro výběry z rozděleí (a) ormálího, symetrckého rozděleí, (b) asymetrckého rozděleí. Graf polosum (osa x: pořádkové statstky x (), osa y: Z x 1 x 1 0.5( ) dagostkuje tak, že pro symetrcké rozděleí je grafem horzotálí přímka, určeá rovcí x0.5 M. Obr. 1-6 Grafy symetre pro výběry z rozděleí (a) ormálího, symetrckého rozděleí, (b) asymetrckého rozděleí. Graf symetre (osa x: u P / pro P /( 1), osa y: Z 0.5( x 1 x ) je obdobou předešlého grafu, u kterého symetrcká rozděleí vykazují horzotálí přímku. Pokud tato přímka emá ulovou směrc, je směrce odhadem y x0.5 M parametru škmost, asymetre. 8
Obr. 1-7 Kostrukce grafu rozptýleí s kvatly pro výběry z rozděleí (a) ormálího, symetrckého rozděleí, (b) asymetrckého rozděleí. Graf rozptýleí s kvatly (osa x: P, osa y: x ) představuje vlastě kvatlový graf, který se získá spojeím bodů {x (), P } leárím úseky a pro symetrcká rozděleí abývá tato kvatlová fukce sgmodálího tvaru. Pro rozděleí seškmeá k vyšším hodotám je kovexě rostoucí a pro rozděleí seškmeá k žším hodotám kokávě rostoucí. Do kvatlového grafu se zakreslují tř obdélíky F, E a D: (1) Kvartlový obdélík F: a ose x pravděpodobost P = - = 0.5 a 1 - - = 0.75. () Oktlový obdélík E: a y oktly E D a E H a a ose x P 3 = -3 = 0.15 a 1 - -3 = 0.875. (3) Sedeclový obdélík D: a y sedecly D D, D H a a x P 4 = -4 = 0.065 a 1 - -4 = 0.9375. Tato pomůcka může dagostkovat určté aomále: (a) Symetrcké umodálí rozděleí výběru obsahuje obdélíky symetrcky uvtř sebe. (b) Nesymetrcká rozděleí mají pro rozděleí seškmeé k vyšším hodotám vzdáleost mez dolím hraam obdélíků F, E a D výrazě kratší ež mez jejch horím hraam. (c) Odlehlá pozorováí jsou dkováa tím, že a kvatlové fukc mmo obdélík F se objeví áhlý vzrůst. 9
Obr. 1-8 Jádrové odhady hustoty pravděpodobost pro výběry z rozděleí (a) ormálího, symetrckého rozděleí, (b) asymetrckého rozděleí. Čárkovaě je zázorěa hustota Gaussova rozděleí s parametry x a s a plou čarou jádrový odhad hustoty pravděpodobost emprckého rozděleí výběru. Jádrový odhad hustoty pravděpodobost (osa x: x, osa y: hustota pravděpodobost) a hstogram patří k ejužívaějším pomůckám a hstogram pak k ejstarším dagramům hustoty pravděpodobost. U hstogramu jde o obrys sloupcového grafu, kde jsou a ose x jedotlvé třídy, defující šířky sloupců, a výšky sloupců odpovídají emprckým hustotám pravděpodobost. Kvaltu hstogramu ovlvňuje ve začé míře volba počtu tříd L a všech délek tervalů Δ x j. Pro přblžě symetrcká rozděleí výběru lze vyčíslt L podle vztahu L t( ) 0.4 možé užít výraz L, kde fukce t(x) ozačuje celočíselou část čísla x, ebo je t(.46( 1) ). Obr. 1-9 Grafy Q-Q pro porováí rozděleí výběru ormálího rozděleí s teoretckým rozděleím. Kvatl-kvatlový graf (graf Q-Q) (osa x: Q T (P ), osa y: x () ) umožňuje posoudt shodu výběrového rozděleí, charakterzovaého kvatlovou fukcí Q E (P) s kvatlovou fukcí zvoleého teoretckého rozděleí Q T (P). Za odhad 10
kvatlové fukce výběru se užívají pořádkové statstky x (). Př shodě výběrového rozděleí se zvoleým teoretckým rozděleím musí platt přblžá rovost kvatlů x () = Q T (P ), kde P je pořadová pravděpodobost. Pokud je rozděleí výběru shodé se zvoleým teoretckým rozděleím, je závslost x () a Q T (P ) leárí a výsledá závslost se azývá graf Q-Q. Těsost leárí závslost expermetálím body lze posoudt korelačím koefcetem a využít ho jako rozhodčí krtérum př hledáí typu rozděleí. 1.4. Mocá a Boxova-Coxova trasformace dat Pokud se a základě aalýzy dat zjstí, že rozděleí výběru dat se systematcky odlšuje od rozděleí ormálího, vzká problém, jak data vůbec vyhodott. Často je pak ejlepším řešeím vhodá trasformace dat, která vede ke stablzac rozptylu, zesymetrčtěí rozděleí a ěkdy k ormaltě rozděleí. Zesymetrčtěí rozděleí výběru je možé provést užtím prosté mocé trasformace x ( 0) l x pro ( 0) y g( x), x ( 0) která však ezachovává měřítko a eí vzhledem k expoetu λ všude spojtá a proto se hodí pouze pro kladá data. Optmálí odhad expoetu λ se hledá s ohledem a optmalzac charakterstk asymetre (škmost) a špčatost. Pro přblížeí rozděleí výběru k rozděleí ormálímu vzhledem k škmost a špčatost je vhodá Boxova-Coxova trasformace x 1 ( 0) y g( x), pro l x ( 0) která je použtelá rověž pouze pro kladá data. Rozšířeí této trasformace a oblast, kdy rozděleí dat začíá od prahové hodoty x 0, spočívá v áhradě x rozdílem (x - x 0 ), který je vždy kladý. 11
Graf logartmu věrohodostí fukce (osa x: λ, osa y: l L). Pro odhad parametru λ v Boxově-Coxově trasformac lze užít metodu maxmálí věrohodost s tím, že pro ˆ je rozděleí trasformovaé velčy y ormálí, N(, ( y)). Po úpravách bude logartmus věrohodostí fukce ve tvaru y l ( ) l L s ( y) ( 1) l x, 1 kde s ( y ) je výběrový rozptyl trasformovaých dat y. Průběh věrohodostí fukce l L(λ) lze zázort ve zvoleém tervalu, apř. 3 3, a detfkovat maxmum křvky, jejíž souřadce x dkuje odhad ˆ. Dva průsečíky křvky l L(λ) s rovoběžkou s osou x dkují 100(1-α)% terval spolehlvost parametru λ. Čím bude terval spolehlvost +λ D, λ H, šrší, tím je mocá ebo Boxova-Coxova trasformace méě výhodá. Pokud obsahuje terval +λ D, λ H, hodotu λ = 1, eí trasformace ze statstckého hledska příosem. Zpětá trasformace: Po vhodé trasformac se vyčíslí y, s ( y ) a potom pomocí zpěté trasformace využtím Taylorova rozvoje v okolí y se odhadou retrasformovaé parametry polohy a rozptýleí x a ( ) Uvedeý postup vede vesměs k ejlepším odhadům polohy R s x původích dat. s ( x R) a je zvláště vhodý v případech asymetrckého rozděleí výběru. R x R a rozptýleí 1.5. Itervalový odhad parametrů Představuje terval, ve kterém se bude se zadaou pravděpodobostí č statstckou jstotou (1 - α) acházet skutečá hodota čl "pravda" daého parametru μ. Nezámý parametr μ odhadujeme dvěma číselým hodotam L D a L H, které tvoří meze tzv. tervalu spolehlvost čl kofdečího tervalu. Iterval spolehlvost pokryje parametr μ s předem zvoleou, statstckou jstotou čl dostatečě velkou pravděpodobostí P = (1 - α), což lze vyjádřt vztahem P(L D < μ < L H ) = 1 - α, azvaou koefcet spolehlvost (čl kofdečí koefcet, statstcká jstota). Je obyčejě rove 0.95 ebo 0.99. Parametr α se azývá hlada výzamost. Iterval spolehlvost vyjadřuje tvrzeí: Statstcká 1
jstota, s jakou bude "pravda" μ ležet v áhodých mezích L D, L H je rova právě 1 - α. Vlastost tervalu spolehlvost: (1) Čím je rozsah výběru větší, tím je terval spolehlvost užší. () Čím je odhad přesější a má meší rozptyl, tím je terval spolehlvost užší. (3) Čím je vyšší statstcká jstota (1 - α), tím je terval spolehlvost šrší. Kostrukce tervalových odhadů: Postup kostrukce tervalu spolehlvost středí hodoty μ ormálího rozděleí N(μ, σ ): 1. Velký výběr 30: Když ejlepším bodovým odhadem středí hodoty μ je výběrový průměr x s rozděleím N(, / ), pak v tervalu x 1.96 / leží přblžě 95% hodot áhodých velč výběru o rozsahu a 100(1-α)%í terval spolehlvost středí hodoty μ bude vyčísle vztahem x1.96 x 1.96, kde hodota 1.96 je 100(1-0.05/) = 97.5%í kvatl ormovaého ormálího rozděleí u 0.975.. Malý výběr 30: v prax obvykle ezáme směrodatou odchylku σ ale pouze její odhad s a je-l t 1-α/ ( - 1) je 100(1 - α/)%í kvatl Studetova rozděleí bude 100(1 - α)%í terval spolehlvost středí hodoty μ rove s x t1 / ( 1) x t1 / ( 1) s Meze tervalu spolehlvost závsí vedle chyby s a rozsahu výběru. Pro větší rozsahy výběru ( > 30) lze použít místo kvatlu t 1-α/ kvatlu ormovaého ormálího rozděleí u 1-α/ a 100(1 - α)%í oboustraý terval spolehlvost rozptylu σ se vypočte dle ( 1) s ( 1) s, ( 1) ( 1) 1 / / kde je horí a ( 1) / dolí kvatl rozděleí. Robustí terval ( 1) 1 / spolehlvost medáu se přblžě vyčíslí 13
0.707s 0.707s x0.5 u1 / med x0.5 u1 / 1.6. Aalýza malých výběrů Předem je třeba s uvědomt, že závěry z malých výběrů jsou vždy zatížey začou mírou ejstoty. Malých rozsahů proto užjeme je tam, kde skutečě eí možé zvýšt počet měřeí. Horův postup pro malé výběry, 4 0 je založeý a pořádkových statstkách. Nejprve se určí hloubka pvotu je H = (t(( + 1)/))/ ebo H = (t(( + 1)/ + 1)/, pak dolí pvot jako x D = x (H) a horí pvot dle x H = x (+1-H). Odhadem parametru polohy je potom pvotová polosuma P L = (x D + x H )/ a a odhadem parametru rozptýleí je pvotové rozpětí R L = x H - x D. Lze defovat áhodou velču k testováí T L = P L /R L, která má přblžě symetrcké rozděleí, jehož vybraé kvatly jsou dostupé v tabulce 1-1. Potom se 95%í terval spolehlvost středí hodoty vypočte vztahem P R t ( ) P R t ( ). L L L,0.975 L L L,0.975 1.7. Test správost výsledku Testy hypotéz o parametrech μ a σ ormálího rozděleí: soubor s N(μ, σ ), výběr rozsahu a vypočteme průměr x a směrodatou odchylku s. Testy správost výsledku měřeí lze provést pomocí tervalu spolehlvost dle pravdla: pokud 100(1 - α) %í terval spolehlvost parametru μ obsahuje zadaou hodotu μ 0, elze a hladě výzamost α zamítout hypotézu H 0 : μ = μ 0. 1.8. Závěr aalýzy jedorozměrých dat V postupu statstckého vyhodoceí výsledků měřeí slouží průzkumová aalýza dat EDA jako výhodá pomůcka k vyšetřeí zvláštostí statstckého chováí dat. Z ejdůležtějších pomůcek jsou to vedle kvatlového grafu a grafu rozptýleí s kvatly dagram rozptýleí a rozmítutý dagram rozptýleí, krabcový graf, vrubový krabcový graf, graf polosum a symetre, kvatl- 14
kvatlový graf, jádrový odhad hustoty pravděpodobost a hstogram k určeí tvaru rozděleí. U malých výběrů 4 0 poskytuje správé odhady středí hodoty Horův postup pvotů. Pvotová polosuma a pvotové rozpětí umožňují vyčíslt tervalový odhad středí hodoty a avíc jsou oba odhady dostatečě robustí vůč asymetr rozděleí malého výběru a vůč odlehlým hodotám. Studetův t-test správost aalytckého výsledku je ekvvaletí vůč tervalu spolehlvost. Nachází-l se totž hodota μ 0 (tj. pravda, správá hodota, orma, stadard) v tervalu spolehlvost [L D ; L H +, je staoveí správé. Exploratorí aalýza předurčí volbu, zda k testu správost využjeme tervalový odhad artmetckého průměru v případě symetrckého rozděleí ebo retrasformovaého průměru v případě asymetrckého rozděleí. Iteraktví statstcká aalýza př užtí vhodého software umožňuje jedozačě vyšetřt správost aalytckého výsledku. 1.9. Lteratura [1] M. Melou, J. Mltký: Statstcké zpracováí expermetálích dat, Plus Praha 1994 (1. vydáí), East Publshg 1996 (. vydáí), Academa Praha 004 (3. vydáí). [] M. Melou, J. Mltký: Kompedum statstckého zpracováí dat, Academa Praha 00. [3] ADSTAT, TrloByte Statstcal Software s. r. o., Pardubce 1990. 15
. METODOLOGIE POČÍTAČOVÉ ANALÝZY ROZPTYLU, ANOVA.1. Úvod Aalýza rozptylu, ozačovaá ANOVA (z aglckého Aalyss of Varace), se v techcké prax používá buď jako samostatá techka ebo jako postup umožňující aalýzu zdrojů varablty u statstckých modelů. ANOVA jako samostatá techka umožňuje posouzeí výzamost zdrojů varablty v datech, vlvu přípravy vzorků a výsledek aalýzy, vlvu typu přístroje, ldského faktoru a obsluhy a výsledek měřeí. Podstatou aalýzy rozptylu je rozklad celkového rozptylu dat a složky objasěé, jež představují zámé zdroje varablty a složku eobjasěou, áhodou čl šum. Následě se testují hypotézy o výzamost jedotlvých zdrojů varablty. Podle kokrétího uspořádáí expermetu exstuje řada varat aalýzy rozptylu. Přehled základích techk lze alézt v řadě čláků 1, a moografí 3-6. Často se ANOVA vyskytuje v techcké prax v souvslost s techkam pláovaých expermetů. Omezíme se zde a jedodušší techky, vhodé k řešeí běžých vodohospodářských úloh... Základí pojmy Hstorcky se aalýza rozptylu začala rozvíjet zejméa př vyhodocováí dat v zemědělství. Její termologe je proto poěkud specálí. Vedle kvaltatvích faktorů se vyskytují také faktory kvattatví, jako jsou fyzkálí a chemcké velčy. Jedotlvé faktory se vyskytují a jstých úrovích Z 1, Z, Z 3, jež se ozačují jako zpracováí. Tyto úrově mohou být opět kvaltatví ebo kvattatví. Zdrojem varablty výsledků měřeí y j jsou jedotlvé úrově faktoru. Tomu odpovídá jedoduchý model y, kde μ je skutečá 16 = + j hodota výsledků aalýz a ε j pak ozačuje áhodou chybu. Velča μ se skládá ze složky odpovídající celkovému průměru μ ze všech úroví faktoru a efektu -té úrově daého faktoru α, tj., kde μ je středí hodota = + pro -tou úroveň. Účelem aalýzy rozptylu je testováí shody jedotlvých úroví, čl ulové hypotézy H 0 : μ 1 = μ = μ 3, ebo jak vyjádřeo výzamost efektů α čl ulové hypotézy H 0 : α 1 = α = α 3 = 0. Pokud jsou předmětem zájmu j
pouze rozdíly mez daým úrověm, jde o modely s pevým efekty. Pokud jsou jedotlvé úrově pouze výběrem z koečého č ekoečého souboru, jde o modely s áhodým efekty. Výběr mez pevým a áhodým efekty závsí a vlastím záměru aalýzy rozptylu a může se podle ěho mět. Je-l sledová pouze jede faktor, jde o jedofaktorovou aalýzu rozptylu, čl tříděí dle jedoho faktoru. Často se však sleduje vlv ěkolka faktorů, kdy jde o vícefaktorovou aalýzu rozptylu. Jako u jedofaktorové aalýzy rozptylu, můžeme provést rozklad μ j a celkovou středí hodotu, složky α odpovídající efektům faktoru Z, složky β j odpovídající efektům faktoru L a terakce τ j, = + + + j. Čle τ j ozačuje efekt terakce úroví Z a L j. Používá se j j v případech, kdy elze objast varabltu y jk pouze adtvím působeím jedotlvých faktorů. Pro vlastí zpracováí modelů aalýzy rozptylu je důležté, zda je př všech kombacích faktorů provede stejý počet měřeí čl opakováí. Kombace úroví jedotlvých faktorů, apř. Z L j se pak ozačuje jako cela. Pro stejý počet opakováí ve všech celách se expermety ozačují jako vyvážeé, zatímco pro estejý počet opakováí jako evyvážeé. Postupy aalýzy evyvážeých expermetů jsou komplkovaější a avíc může př extrémích rozdílech mez počty opakováí dojít př malých odchylkách od základích předpokladů, apř. ormalty, ke začému zkresleí výsledků testů 5..3. Jedofaktorová aalýza rozptylu Př tříděí podle jedoho faktoru se zkoumá jeho vlv a výsledek expermetu. Pro případ dvou úroví jde o porováí dvou výběrů. Zajímavý bude obecější případ, kdy daý faktor A má celkem K růzých úroví A 1,..., A K. Na každé úrov A je provedeo měřeí,y j }, j = 1,...,. Celkový počet měřeí je N = K Přehledější je uspořádáí dat v Tabulce -1. = 1 17
Tabulka -1. Uspořádáí dat pro jedofaktorovou aalýzu rozptylu Úroveň faktoru A 1 A... A... A K Celek y 11 y 1... y 1... y K1 y 1 y... y... y K.................. Opakováí Měřeí.................. y 1 1 y... y... y KK Průměry ˆ 1 ˆ... ˆ... ˆ K ˆ Počet 1...... K N Sloupcový průměr ˆ představuje součet prvků sloupce pro A děleý počtem opakováí, ˆ = y. Celkový průměr ˆ je součet všech hodot děleý 1 j = 1 1 celkovým počtem dat ˆ = K vztah j K = 1 ˆ. Pro výpočet odhadů efektů α lze pak použít ˆ = ˆ - ˆ. Př zavedeí μ vzke přeurčeý model, obsahující o jede parametr více. Proto se př odhadu efektů α používá ještě jeda omezující 18
podmíka K = 1 zjedodušeou podmíku K = 0. Pro případ vyvážeých expermetů lze použít = 1 = 0. Vlastí aalýza rozptylu, tj. rozklad celkového rozptylu, závsí také a tom, zda jde o modely s pevým ebo áhodým efekty. Základím předpokladem statstcké aalýzy je fakt, že áhodé chyby ε j jsou ezávslé a áhodé velčy s ormálím rozděleím N(0, σ ). Středí hodota chyb je rova ule a rozptyl σ je kostatí. Součet čtverců odchylek od celkového průměru ˆ, defovaý vztahem využtím μ a dvě složky K S c K se rozloží s j = 1 j = 1 = ( y - ˆ ) S = [( y - ˆ ) + ( ˆ - ˆ )] = S + S c j A R = 1 j = 1, kde S A představuje součet čtverců odchylek mez jedotlvým úrověm daého faktoru S A K = ( ˆ - ˆ ) a S R je rezduálí součet čtverců odchylek uvtř = 1 jedotlvých úroví, S R K = ( y - ˆ ) = 1 j = 1 j. Jedotlvé součty čtverců resp. složky rozptylu se zapsují do tabulky, která má pro jedofaktorovou aalýzu rozptylu s pevým efekty tvar Tabulky -. Tabulka -. Tabulka aalýzy rozptylu pro jedoduché tříděí u modelu s pevým efekty Počet stupňů Součet čtverců volost Mez úrověm SA K - 1 Průměrý čtverec S A K - 1 Očekávaá hodota + K = 1 e K - 1 Rezduálí SR N - K S R N - K e Celkový Sc N - 1 - - 19
Posledí sloupec tabulky obsahuje očekávaou hodotu průměrého čtverce. Nevychýleým odhadem rozptylu chyb e je průměrý rezduálí čtverec S R e = N - K. Cílem je především testováí, zda jsou efekty α ulové, tedy zda jedotlvé úrově daého faktoru vedou ke statstcky evýzamým rozdílům ve výsledcích. Nulová hypotéza H 0 : α = 0, = 1,..., K, se ověřuje prot alteratví hypotéze H A : α 0, = 1,..., K. Př testováí se využívá faktu, že velča S A / e má χ -rozděleí s (K - 1) stup volost a velča S R / e má ezávslé χ -rozděleí s (N - K) stup volost. Jejch podíl má pak F-rozděleí s (K - 1) a (N - K) stup volost. Testovací Fsherova statstka F e má tvar S A (N - K) F e =. Př platost ulové hypotézy H 0 má F e statstka Fsherovo F- S R (K - 1) rozděleí s (K - 1) a (N - K) stup volost. Vyjde-l F e větší ež kvatl Fsherova rozděleí F 1-α (K - 1, N - K), je uté ulovou hypotézu H 0 a hladě výzamost α zamítout a efekty považovat za eulové a statstcky výzamé..3.1. Techka víceásobého porováí Pokud vyjde vlv jedotlvých efektů jako statstcky výzamý, jsou rozdíly mez průměry μ, μ j, j rověž výzamé. Pro hlubší aalýzu se používá řady metod, apříklad Scheffého metoda víceásobého porováí 5, pro kterou se zamítá hypotéza H 0 : μ = μ j pro všechy dvojce (, j), pro které platí 1 1 ˆ ˆ ˆ - j (K - 1) F 1-(K -1, N - K) +, j kde ˆ je rezduálí rozptyl ˆ e. Teto vztah se používá pro všechy možé dvojce dexů (, j). V ěkterých případech je třeba testovat pouze zvoleý leárí kotrast q defovaý vztahem C, pro které platí velča q ˆ = K = 1 K K C 0 C > 0 = 1 = 1 q = K C se zámým kostatam = 1 =,. Odhadem leárího kotrastu q je C ˆ. Mají-l výsledky měřeí y j ormálí rozděleí N(μ, σ ), lze 0
testovat ulovovu hypotézu H 0 : q = 0 pomocí statstky F = ˆ qˆ q K 1 C. Př platost ulové hypotézy H 0 má tato testovací statstka F-rozděleí s 1 a (N - K) stup volost. Hypotéza H 0 se zamítá, pokud F q je větší ež kvatl F 1 - α (1, N - K). Dosavadí postupy aalýzy rozptylu jsou správé je za předpokladu, když jedotlvé hodoty y j jsou vzájemě ezávslé, a když chyby ε j mají ormálí rozděleí s kostatím rozptylem. V prax však bývá důležté tyto předpoklady rověž ověřt..3.. Ověřeí ormalty chyb Pro posouzeí ormalty chyb lze použít především raktové grafy. Výhodé je v těchto grafech užtí stadardzovaých rezduí eˆ S = ˆ eˆ j 1 1 -. V případě platost předpokladů klascké aalýzy rozptylu mají stadardzovaá rezdua přblžě ormálí rozděleí N(0, 1). Pokud platí podmíka, že ε j N(0, σ ), vzke v raktovém grafu leárí závslost s ulovým úsekem a jedotkovou směrcí. Obr. -1. Raktový graf pro Jackfe rezdua V řadě případů je možé zlepšt rozděleí dat ve smyslu přblížeí k ormaltě s využtím vhodé trasformace. Častým případem je, že data jsou zeškmeá směrem k vyšším hodotám. Pak je vhodé použít apř. posuutou logartmckou trasformac y * = l (y + C) 1. Optmálí hodota C se volí tak, aby rezdua byla přblžě symetrcká se špčatostí blízkou hodotě Gaussova
rozděleí tj. třem. Pro účely detfkace vybočujících hodot je však výhodé použít Jackkfe rezduí e Jj, která jsou defováa vztahem eˆ = eˆ N - K - 1 N - K - eˆ Jj Sj Sj Za předpokladu ormalty vykazují tato rezdua Studetovo rozděleí s (N - K - 1) stup volost. Oretačě platí, že pokud ê Jj > 10, lze daou hodotu y j považovat za velm slě vybočující...3.3. Ověřeí kostatost rozptylu (homoskedastcty) Předpoklad kostatost rozptylu (homoskedastcty) lze ověřt stejým metodam jako u leárích regresích modelů. U evyvážeých pláů je třeba uvažovat s ekostatostí rozptylu klasckých rezduí způsobem estejého počtu měřeí a jedotlvých úrovích. Pokud je k dspozc dostatečý počet opakováí př jedotlvých úrovích daého faktoru, lze kromě průměru ˆ počítat také výběrové rozptyly s. Předpoklad kostatost rozptylu lze pak ověřt a základě grafu s vs. ˆ. Pokud vzke áhodý shluk bodů, lze považovat předpoklad shody rozptylů u všech úroví za přjatelý. Jak je možé použít vhodou trasformac stablzující rozptyl..4. Dvoufaktorová aalýza rozptylu Př dvoufaktorové aalýze rozptylu se provádí expermety a růzých úrovích dvou faktorů A a B. Kombace úroví faktorů tvoří typckou mřížkovou strukturu, jejímž elemetem je tzv. cela. Platí, že (, j)-tá cela odpovídá kombac úrově A faktoru A a B j faktoru B. Schematcky je mřížková struktura zázorěa v Tabulce -3: V každé cele je obecě j pozorováí. Často se však setkáváme s případem bez opakováí, kdy v každé cele je pouze jedé pozorováí, j = 1. Pro případ aalýzy rozptylu bez opakováí dojde ke j j j zjedodušeí zápsu y = +, kde μ j lze rozložt tak, že kromě řádkových α a sloupcových ß j efektů se zde vyskytuje také terakčí čle τ j. Teto čle je pak důsledkem růzých kombací sloupcových a řádkových efektů.
Tabulka -3. Uspořádáí dat pro dvoufaktorovou aalýzu rozptylu B 1 B... B M A 1...... A............ cela A B.............. A N...... Nejjedodušším je Tukeyův model terakce, vyjádřeý tvarem j = C j, kde C je kostata. Složtější jsou řádkově leárí modely terakcí, vyjádřeé tvarem j = C R ebo sloupcově leárí modely terakcí ve tvaru j j = C K j. Kompletější je adtvě-multplkatví model terakcí = C. Uvedeé vztahy obsahují kromě sloupcových a řádkových j j W kostat δ j a γ obecé kostaty C R, C K, C W. Omezme se zde pouze a ejjedodušší Tukeyův model terakce. Vzhledem ke své specálí defc obsahuje teto model pouze jede parametr C, a proto se ozačuje jako model eadtvty s jedím stupěm volost. Použtí Tukeyova modelu terakce je výhodé zejméa v případech, kdy je v každé cele pouze jedo pozorováí, obr. -. 3