Analýza závslost velčn sledovaných v rámc BD Helena Koutková Vysoké učení techncké v Brně, Fakulta stavební, Ústav matematky a deskrptvní geometre e-mal: koutkovah@fcevutbrcz Abstrakt Příspěvek se zabývá analýzou závslost velčn, které jsou sledovány v rámc technckobezpečnostního dohledu přehrad (BD) Je orentován především na některá úskalí vyskytující se př rutnním použtí statstckých metod, kdy nejsou ověřovány předpoklady těchto metod Úvod Statstcká analýza rozsáhlých souborů dat, které jsou získávány v rámc BD na vodních dílech, se dosud omezuje převážně na odhad korelace (těsnost lneární závslost) a odhad parametrů lneární regresní funkce sledovaných velčn metodou nejmenších čtverců Předpokladem úspěchu použtí statstckých metod je respektování jejch předpokladů Důležté je také uvědomt s, za jakým účelem se statstcké hodnocení provádí ak například z hstorckého chování hráze odvozená přléhavá regresní závslost mez nezávslým (např poloha hladny v nádrž, srážkový úhrn) a závslým (pezometrcká výška ve vrtech, průsak) velčnam by měla umožnt kontrolu, zda se závslé velčny pohybují v přjatelných mezích o vede k doplnění regresního modelu o pásy spolehlvost Základním vstupním předpokladem pro úspěšné použtí regresních modelů je homogenta dat ( stejné vstupní podmínky v období jejch získávání) K odlšení dat získaných za jných podmínek může sloužt mmo jné shluková analýza V dalším textu jsou v případě analýzy závslost pezometrcké výšky (dále označované jako ) ve vrtech (náhodná velčna Y) na hladně vody v nádrž (náhodná velčna X) demonstrovány některé postupy, které by bylo vhodné aplkovat v rámc vyhodnocení velčn naměřených v rámc BD K dspozc bylo 40 měření hodnot hladny a u v období od /3/00 do /6/07, měření byla prováděna průměrně x za 7 dní Grafcká prezentace Základní představu o vlastnostech datového souboru poskytne grafcká prezentace dat, která umožňuje odhalt případné zvláštnost v datech Označme jako x, resp y zjštěné hodnoty hladny a u v -tém pozorování ( =,, N) Zapíšeme-l vektory pozorování (x,y ) do řádků matce, dostaneme datovou matc typu N/ Dvourozměrný datový soubor lze znázornt pomocí bodového dagramu, kde hodnoty proměnných chápeme jako souřadnce bodů v rovně Z bodového dagramu (obr) je patrné, že data netvoří homogenní soubor, což je pro statstcké analýzy nutný předpoklad Jsou zde rozpoznatelné dva shluky a navíc podezřelá měření označená v elpse Jedná se o měření 45-79 ve dnech /9/0 až /3/03 Z obr lze usuzovat, že tyto body patrně odpovídají poruše měření v daném období, kdy byla měřena konstantní hodnota u 93,0 Př další analýze tyto údaje vypustíme Zbývající data podrobíme shlukové analýze za účelem dentfkace příslušných shluků
= -,573+,7066*hladna 96,85 96,5 95,65 95,05 94,45 93,85 93,0 9,55 9,85 9,30 90,75 90,8 89,60 300,7 30,4 30,7 30,0 30,7 303,4 300,97 30,48 30,96 30,47 30,95 303,48 hladna Obr Bodový dagram 304,00 30,00 300,00 98,00 96,00 94,95 93,85 9,80 9,68 90,64 89,60 0 50 00 50 00 50 300 350 400 číslo měření hladna Obr Průběh hodnot hladny a u v závslost na pořadí měření 3 Shluková analýza Cílem shlukové analýzy je roztřídění N pozorování do několka pokud možno homogenních shluků Požadujeme, aby pozorování uvntř jednotlvých shluků byla podobná co nejvíce a pozorování z různých shluků co nejméně Podobnost nebo nepodobnost pozorování měříme pomocí různých měr vzdáleností Nejčastěj se používá eukldovská vzdálenost Z datové matce víme, že: -té pozorování je charakterzováno vektorem pozorování (x, y ), j-té pozorování je charakterzováno vektorem pozorování (x j, y j ) Jejch eukldovská vzdálenost d j je: d j = ( x x j ) + ( y y j ) Čím je vzdálenost d j menší, tím jsou pozorování s ndexy a j podobnější Vzdálenost vypočítané pro všechna pozorování se zapsují do tzv matce vzdáleností Pro vytváření shluků exstuje celá řada algortmů Pokud známe počet k shluků, můžeme např použít tzv metodu k-průměrů Pokud počet k shluků neznáme, což je v aplkacích častější, používá se nejčastěj tzv aglomeratvní herarchcký algortmus, kde se jednotlvé typy lší tím, jak měříme vzdálenost mez vytvářeným shluky Herarchcké shlukování spočívá v tom, že postupně slučujeme pozorování, a to nejprve nejblžší a v dalších krocích pak stále vzdálenější Dostáváme tak postupně rozklady S (),,
S (N) od rozkladu na jednotlvá pozorování S () až do rozkladu S (N), který obsahuje jedný shluk, a to všechna pozorování Přtom každý předchozí rozklad S (m) je zjemněním následujícího S (m+) Př zjemnění shluky v rozkladu S (m) vznkají rozdělením některých shluků v rozkladu S (m+) Postup lze shrnout do 3 kroků Každé pozorování považujeme za samostatný shluk V matc vzdáleností najdeme shluky, jejchž vzdálenost je mnmální 3 yto shluky spojíme do nového, většího shluku Přepočítáme matc vzdáleností Její řád se zmenší o Pokud je počet shluků k >, vrátíme se na krok, pokud je k =, ukončíme výpočet Pro výpočet vzdálenost mez vícebodovým shluky byla použta metoda průměrné vazby, kdy je vzdálenost mez shluky průměrem vzdáleností mez jejch pozorováním Výsledky herarchckého shlukování znázorňujeme grafcky pomocí tzv dendrogramu Je to grafcky znázorněná posloupnost dvojc {(ν,s () ),,(ν N,S (N) )}, kde ν,, ν N je neklesající posloupnost úrovní spojování a S () je roztřídění pozorování odpovídající úrovn ν, =,, N Z dendrogramu pro danou úroveň vzdáleností tzv řez dendrogramu, určíme počet k shluků složení shluků Metoda k-průměrů je neherarchcká metoda, vychází z následujícího algortmu Náhodně stanovíme rozklad souboru N pozorování do k shluků Určíme výběrové průměry (centrody) 3 Pro všechna pozorování spočítáme vzdálenost od všech výběrových centrodů Pozorování zařadíme do toho shluku, k jehož výběrovému centrodu má nejblíže Pokud nedošlo k žádnému přesunu, považujeme aktuální shluky za defntvní, jnak se vrátíme na krok Stejně postupujeme v případě, kdy pracujeme s vícerozměrným daty, než jsou dvourozměrná Na obr 3 je zachycen výsledek herarchckého shlukování pro data z obr Pro úroveň vzdáleností 5 jsme dostal výrazné shluky Stejný výsledek byl získán pomocí metody k-průměrů, k = Do jednotlvých shluků byla zařazena stejná pozorování jako v případě herarchckého shlukování Rozklad do dvou shluků je tvořen tak, jak je jž předem patrné z obr, kde shluk č je pod škmou čárou a shluk č nad ní 8 7 6 5 Vzdálenost 4 3 0 C_3 C_343 C_394 C_379 C_335 C_353 C_98 C_45 Obr 3 Dendrogram C_43 C_3 C_57 C_6 C_7 C_ C_7 Ve shluku je 07 pozorování, v shluku 66 Popsné statstky shluků jsou v tab, ndexy značí shluk resp Na obr 4 jsou znázorněny krabcové grafy Je vdět, že se shluky přílš nelší úrovní hladny, lší se ale její varabltou a varabltou a úrovní u Větší varablta u v shluku je způsobena větší varabltou hladny v shluku Ze stuace na přehradě je známo, že shluk přísluší stavu po technckém zásahu a shluk stavu před zásahem, který nastal mez 7 a 003 Př analýze musí být každý shluk zpracováván zvlášť
Proměnná hladna hladna ab Popsné statstky shluků Počet Průměr Medán Mn Max Dolní kvartl Horní kvartl Rozpětí Kvart rozpětí Sm odch 66 30,48 30,695 300,70 303,480 30,990 30,970,760 0,980 0,658 66 9,6 9,335 89,600 93,00 90,50 9,800 3,500,80 0,764 07 30,684 30,850 30,350 303,380 30,380 303,030,030 0,650 0,449 07 95,695 95,950 93,850 96,950 95,350 96,50 3,00 0,800 0,75 304,0 98 303,5 97 96 303,0 95 hladna 30,5 30,0 94 93 30,5 9 9 30,0 300,5 shluk Medán 5%-75% Neodlehlé hodnoty Odlehlé hodnoty 90 89 Obr 4 Krabcové grafy shluk Medán 5%-75% Neodlehlé hodnoty Odlehlé hodnoty 4 Regresní model Dále se zabýváme závslostí u na hladně v případě shluku Bodový dagram (obr5) ndkuje slnou lneární závslost ěsnost lneární závslost dvou kvanttatvních náhodných velčn měříme výběrovým korelačním koefcentem R, jehož druhá mocnna (výběrový koefcent determnace R ) násobená 00 udává, kolk % varablty jedné z proměnných lze vysvětlt lneární závslostí na druhé V případě shluku je r = 0,895 Jde tedy o slnou lneární závslost, neboť lze lneární závslostí u na hladně vysvětlt 80,% varablty u Zamítáme sce shodu margnálních rozdělení s normálním na hladně významnost 0,0, protože p-hodnota Lleforsova varanty Kolmogorovova testu shody je menší než 0,0 ato rozdělení jsou mírně zeškmená Dvourozměrné rozdělení je však elptcké, což vysthuje graf elpsy na obr 5 Vzhledem k tomu, že se nejedná o výrazné odchýlení od normálního rozdělení, lze testovat hypotézy o hodnotě korelačního koefcentu a konstruovat ntervaly spolehlvost vz [3] 80 40 0 94 hladna: D = 0,73, p < 0,00, Lllefors-p < 0,00 : D = 0,096, p < 0,00, Lllefors-p < 0,00 hladna:: r = 0,80; r = 0,895, p = 00,000; y = -3,87 +,040*x 93 9 9 90 89 88 99,5 300,5 30,5 30,5 303,5 304,5 0 40 80 300,0 30,0 30,0 303,0 304,0 hladna Obr 5 Analýza rozdělení sledovaných velčn ve shluku
Průběh závslost hodnot u (závsle proměnné Y) na hodnotách hladny (nezávsle proměnné X) vysthuje regresní funkce velčny Y vzhledem k velčně X, tj podmíněná střední hodnota E(Y x) náhodné velčny Y za podmínky, že náhodná velčna X nabyla hodnoty x Na základě výše uvedených výsledů předpokládáme, že y = E(Y x) = β 0 + β x, kde β 0 a β jsou neznámé konstanty, tzv regresní parametry Označme β = (β 0,β ) vektorový parametr a x = (,x), potom lze psát y = E(Y x) = x β Jedná se o specální případ lneární regresní funkce velčny Y vzhledem k velčně X (tj funkce, která je lneární vzhledem k parametrům), protože je lneární vzhledem k hodnotám nezávsle proměnné Vektorový parametr β se běžně odhaduje metodou nejmenších čtverců (MNČ), anž by se ověřovaly předpoklady, které zaručují dobré vlastnost MNČ odhadů y jsou zaručeny, pokud se vektor pozorování závsle proměnné řídí tzv klasckým lneárním regresním modelem (KLRM) Označme tedy Y =(Y,,Y n ) sloupcový n-rozměrný náhodný vektor, jehož složky Y jsou neznámé hodnoty závsle proměnné Y za podmínky, že nezávsle proměnná X nabyla hodnoty x, tj Y =Y x pro =,, n O náhodném vektoru Y říkáme, že se řídí KLRM, jestlže pro jeho střední hodnotu E(Y) a kovaranční matc cov(y) platí E(Y )= Aβ, cov(y) = σ I, kde A je tzv regresní matce, což je v případě naší regresní funkce matce, jejíž -tý řádek je x = (,x ), =,, n β je k rozměrný sloupcový vektorový parametr, u nás β = (β 0,β ) I je jednotková matce typu n/n a σ je neznámý parametr KLRM můžeme psát ve tvaru Y = Aβ + ε, kde ε = ( ε,, ε n ) je vektor tzv náhodných chyb, který má nulový vektor středních hodnot a kovaranční matc σ I a který je výsledncí neuvažovaných náhodných vlvů V běžně používané MNČ se předpokládá, že regresní parametry mohou nabývat lbovolných hodnot, tj nejsou na ně kladeny žádné omezující požadavky Jednoznačnost MNČ pak zaručuje regulárnost matce A Pokud je regresní matce A stochastcká, což v našem případě je, protože se nejedná o plánovaný a řízený laboratorní experment, ale o pozorování dvourozměrného rozdělení náhodného vektoru (X,Y), můžeme využít všech postupů regresních modelů s tím, že požadujeme, aby vysvětlující proměnná a náhodná chyba byly nezávslé náhodné velčny Matc A můžeme také považovat za determnstckou, pokud jsou hodnoty nezávsle proměnných měřeny s větší přesností než hodnoty závsle proměnných Pro konstrukc ntervalů spolehlvost a testy hypotéz se předpokládá vícerozměrné normální rozdělení vektoru náhodných chyb ε (tedy náhodného vektoru Y) nebo dostatečně velký rozsah souboru a nevelké odchylky od normálního rozdělení Za výše uvedených předpokladů je MNČ odhad βˆ vektorového parametru β, tj statstka, ve které funkce S ( β ) = ( Y Aβ ) ( Y Aβ ) = ε ε nabude absolutní mnmum, nejlepším nestranným lneárním odhadem parametru β edy odhady složek vektorového parametru β jsou lneárním kombnacem složek vektoru Y, jejch realzace kolísají okolo jejch skutečné hodnoty a mez všem nestranným lneárním odhady mají nejmenší rozptyl Hledání MNČ odhadu βˆ pak vede na řešení soustavy normálních rovnc A Aβ = A Y
Jedná se o soustavu k lneárních rovnc pro neznámý vektor parametrů β, která má v případě regulární regresní matce A právě jedno řešení βˆ = - ( A A) A Y oto řešení je přímo hledaným odhadem vektoru β získaným metodou nejmenších čtverců Bodové odhady parametrckých funkcí, tj funkcí parametru β, pak dostaneme tak, že za parametr β dosadíme jeho odhad βˆ ak např pro odhad Ŷ vektoru Y používáme odhad Ê( Y ) jeho střední hodnoty E(Y), tj Y ˆ = Ê( Y ) = Aβˆ Odhad εˆ vektoru chyb ε je εˆ = Y Yˆ Složky tohoto vektoru se nazývají (klascká) rezdua Bodovým odhadem regresní funkce y=e(y x)= β 0 + β x = x β je statstka Ê(Y x ) = x βˆ uto statstku používáme pro předpověď Ŷ x hodnoty y x velčny Y x= E(Y x)+ ε x Všechny výše uvedené odhady jsou za předpokladu, že se náhodný vektor Y řídí KLRM, opět nejlepší nestranné lneární odhady Nestranným odhadem rozptylu σ je statstka S = Se /( n k ), kde k je počet regresních parametrů v regresní funkc a S e = ˆ S( β) = ( Y Y) ˆ ( Y Y) ˆ = ˆε εˆ je tzv rezduální součet čtverců Statstku S nazýváme směrodatná chyba modelu 4 Adekvátnost modelu Statstckým krtérem kvalty modelu je rezduální součet čtverců S e směrodatná chyba modelu S, které měří rozptýlenost hodnot náhodné velčny Y okolo regresní funkce Čím jsou obě statstky menší, tím je model adekvátnější Nevýhodou obou statstk je, že nejsou omezeny shora a hodí se tudíž spíše pro porovnávání kvalty různých modelů V případě, že má regresní funkce absolutní člen, lze varabltu závsle proměnné Y vyjádřenou tzv celkovým součtem čtverců S c rozložt na část, která není vysvětlená regresním modelem (tj rezduální součet čtverců S e ) a část, která je regresním modelem vysvětlena, tj tzv teoretcký (regresní) součet čtverců S t, tj n n n Sc = Se + St, Sc = (Y MY ), St = (Ŷ M Y ), MY = Y = = n = Lze ukázat, že St / Sc = Se / Sc = R, kde R je výběrový koefcent determnace Krtérem shody modelu s daty je tedy v tomto případě výběrový koefcent determnace R, který je omezen shora číslem a jehož nterpretac známe O kvaltě modelu svědčí délka ntervalů spolehlvost pro konkrétní hodnoty Y x V případě velkého rozsahu souboru je 95 resp 99%-ní nterval spolehlvost pro konkrétní hodnotu Y x (tj nterval, který j s pravděpodobností aspoň 0,95 resp 0,99 překryje) nterval, jehož krajní meze jsou přblžně rovny Ŷ x ± S resp Ŷ x ± 3S Vztahy pro výpočet přesného ntervalu spolehlvost pro konkrétní hodnotu Y x, regresní funkc, tj E(Y x) regresní parametry lze najít např v [5] Meze ntervalu spolehlvost pro konkrétní hodnotu Y x př spojtě se měnícím x vytvoří tzv pás spolehlvost okolo regresní
funkce V aproxmatvním případě jsou meze pásu rovnoběžné s regresní funkcí Př menším rozsahu dat je pás nejužší v bodě, jehož souřadnce jsou průměry nezávsle a závsle proměnné a směrem k větším menším hodnotám nezávsle proměnné se rozšřuje Odhad regresní funkce ve shluku je ŷ = -3,873+,0398x Směrodatná chyba modelu, která se používá ke konstrukc ntervalů spolehlvost, je s = 0,34 Odhad koefcentu determnace je 0,80 Z hledska shody pozorovaných a modelovaných hodnot (odhadů hstorckých dat) se jedná o kvaltní model Realzace 95%-ního ntervalu spolehlvost pro konkrétní hodnotu Y x je přblžně (,040x -3,605,,040x-,605) Regresní model včetně 95%-ního pásu spolehlvost je na obr6, výsek tímto modelem v závslost na pořadí měření je na obr7 Příslušné hodnoty pro měření 400 40 jsou uvedeny v tab ak např odhad hodnoty u a odhad střední hodnoty u ve dn //07 je 89,636, naměřená hodnota byla 89,6 Hodnota u je s pravděpodobností aspoň 0,95 v rozmezí 88,949 až 90,30 93,00 9,55 9,7 9,77 9,40 9,05 90,64 90,30 89,94 89,60 93,5 300,7 30,8 30,59 30,03 30,47 30,87 303,34 300,95 30,39 30,80 30,4 30,67 303,07 hladna Obr 6 Regresní model v případě shluku odhad u 95%-ní pás spolehlvost pro konkrétní hodnotu u 93,0 9,5 9,0 9,5 9,0 90,5 90,0 89,5 89,0 88,5 344 349 354 359 364 369 374 379 384 389 394 399 404 409 číslo měření odhad u 95%-ní pás spolehlvost pro konkrétní hodnotu u Obr 7 Výsek regresním modelem včetně pásů spolehlvost
ab Odhady u a střední hodnoty u získané metodou nejmenších čtverců Čísm 400 40 40 403 404 405 406 407 408 409 40 Datum Hladna lak Odhad u Klascká rezdua -95%PI +95%PI Odhad AR /8/06 300,97 89,67 89,656 0,04 88,970 90,34 89,808 /5/06 300,98 89,65 89,666-0,06 88,98 90,35 89,73 //07 300,95 89,6 89,635-0,05 88,949 90,30 89,69 /8/07 300,99 89,6 89,676-0,056 88,99 90,36 89,664 /5/07 30,06 89,63 89,749-0,9 89,065 90,433 89,74 //07 30,8 89,66 89,874-0,4 89,9 90,557 89,794 /9/07 30,5 89,70 89,947-0,47 89,65 90,69 89,798 /5/07 30,34 90, 9,080-0,960 90,405 9,756 90,89 //07 30,6 90,46 9,37-0,9 90,695 9,047 90,774 /9/07 30,83 9,8 9,590-0,40 90,93 9,66 90,849 /6/07 30,87 9,44 9,63-0,9 90,955 9,308 9,83 Legenda: -95%PI a +95%PI značí dolní a horní mez 95%-ního ntervalu spolehlvost konkrétní hodnoty u, odhad AR značí odhad hodnoty u pomocí autoregresního modelu řádu 4 Analýza rezduí K ověřování předpokladů o náhodné chybě, kvaltě dat ale k vylepšování modelu využíváme analýzu rezduí Obecně lze říc, že jakákolv nenáhodnost zjštěná u rezduí naznačuje určté nedostatky modelu Př analýze rezduí se vychází z klasckých rezduí, která jsou nestranným odhady náhodných chyb Na rozdíl od nch jsou ale korelovaná a mají nekonstantní rozptyl Místo klasckých rezduí se používají další typy rezduí, které mají některé lepší vlastnost pro statstckou analýzu Dále se používají různé grafy, zejména grafy rezduí prot hodnotám predkce, hodnotám nezávsle proměnné nebo prot pořadovému číslu pozorování Graf rezduí prot nezávsle proměnné hladna (obr 8) mírně ndkuje heteroskedastcký model Rozptyl podmíněných rozdělení se nejeví konstantní, má tendenc slabě růst s růstem hodnot nezávsle proměnné Statstckým testy (Glejser a Goldfeld vz [3]), ale nezamítáme hypotézu o konstantním rozptylu na hladně významnost 0,0 Z grafu rezduí prot pořadí měření (obr 8) je patrné nenáhodné cyklcké kolísání, což ndkuje, že navržený model není správný Nenáhodné kolísání může být způsobeno nezařazením proměnné čas do modelu nebo autokorelací náhodných chyb Pro test nulové hypotézy o nekorelovanost náhodných chyb prot alternatvní hypotéze o korelovanost sousedních chyb lze použít Durbn - Watsonovu statstku D N ( ˆ ε ˆ ε ) = = N ε =,6 klrezdua =,5566E--5,353E-4*x,6 klrezdua = 0,8555-0,006*x,4,4,,,0,0 rezdua 0,8 0,6 0,4 0, 0,0-0, -0,4-0,6-0,8 -,0 -, 300,7 30,4 30,80 30,3 30,8 303,34 300,97 30,49 30,04 30,57 303,06 rezdua 0,8 0,6 0,4 0, 0,0-0, -0,4-0,6-0,8 -,0 -, 45 59 73 87 30 35 39 343 357 37 385 399 hladna číslo měření Obr 8 Graf klasckých rezduí prot nezávsle proměnné a pořadí měření
Prot nulové hypotéze svědčí hodnoty statstky D vzdálené od čísla Korelovanost náhodných chyb byla potvrzena tímto testem na hladně významnost 0,0 Na obr 9 je hstogram rozdělení standardzovaných rezduí, z něhož je patrné nepřílš velké odchýlení od normálního rozdělení Lleforsova varanta Kolmogorovova testu shody normální rozdělení na hladně významnost 0,05 nezamítá 70 D = 0,04, p < ns, Lllefors-p < 60 50 absolutní četnost 40 30 0 0 0-4 -3 - - 0 3 4 5 standartzovaná rezdua Obr 9 Hstogram standardzovaných rezduí a jeho porovnání s hustotou normálního rozdělení 43 Postupy př porušení předpokladů KLRM Pokud lneární model není základní, tj kovaranční matce náhodné chyby ε není rovna σ I, ale lze j vyjádřt ve tvaru σ W, kde matce W není jednotková, mluvíme o tzv zobecněném lneárním regresním modelu Pokud je matce W regulární, hledáme odhad βˆ Z vektoru β tzv zobecněnou metodu nejmenších čtverců, tj hledáme statstku β ˆ Z, ve která funkce S Z ( β ) = ( Y Aβ ) W ( Y Aβ ) = ε W ε nabude absolutního mnma Z teoretckého hledska je zobecněný lneární regresní model trválním zobecněním KLRM, na který jej lze převést lneární transformací Z praktckého hledska je to ale horší, protože matc W obvykle neznáme a musíme najít její odhad Pokud bychom odhad vektoru β v zobecněném modelu hledal stejně jako v KLRM, dostaneme obecně méně přesné odhady regresních parametrů a vychýlený a méně přesný odhad směrodatné odchylky σ modelu Zobecněný lneární model dostaneme např v případě nekonstantnost rozptylu náhodné chyby, tj v případě tzv heteroskedastckého modelu, ale v případě, že jsou náhodné chyby korelované, tj v případě autoregresního modelu Pomocí zobecněného modelu lze řešt případy, kdy jsou na regresní parametry kladeny omezující podmínky My se zde omezíme pouze na případ autokorelace, tj korelovanost náhodných chyb Ostatní případy lze nalézt např v [3] S autokorelací se setkáváme především v případech, kdy se pozorování vztahují k různým časovým okamžkům nebo ntervalům Pak se může stát, že náhodné chyby ε závsí na předchozích hodnotách, tj není splněn předpoklad o jejch nekorelovanost S autokorelací se můžeme setkat v případě, že do regresního modelu nejsou zařazeny všechny významné vysvětlující proměnné Předpokládejme, tedy, že jsou náhodné chyby ε korelovány a řídí se autoregresním modelem AR(p) řádu p, tj ε = ϕ ε + + ϕ pε p + τ pro =,, n, kde ϕ,, ϕ p jsou neznámé parametry a τ je jná náhodná chyba, která splňuje stejné předpoklady jako náhodná chyba v KLRM V případě AR(), který se vyskytuje nejčastěj, lze psát
Y = x β + ε, ε = ϕε + τ pro =,, n, kde ϕ = ρ = cor( ε, ε ), E( ε ) = E( τ ) = 0, D( ε ) = σ ε, D( τ ) = στ Lze ukázat, že στ j στ j σ ε =, cov( ε ε ρ ρ σ, j ) = = ε ρ ρ edy cov( ε ) = σ τ W, kde n ρ ρ K ρ n = ρ ρ K ρ W ρ M M M M M n n n 3 ρ ρ ρ L Model AR() lze zapsat ve tvaru Y = Aβ + ε, E( ε ) = 0, cov( ε ) = σ τ W Inverzní matc W - k matc W lze vyjádřt ve tvaru W - = P P, kde ρ 0 0 L 0 ρ 0 L 0 P = 0 ρ L 0 M M M L M 0 0 0 L Vynásobíme-l AR() zleva matcí P, převedeme jej na KLRM: Z = Qβ + τ, E( τ ) = 0, cov( τ ) = στ I, Z = PY, Q = PA, τ = Pε Zobecněný odhad βˆ Z parametru β pak můžeme hledat v transformovaném KLRM, podobně tam můžeme konstruovat ntervalové odhady a testovat hypotézy Výsledky transformujeme zpět do původního modelu Pro test nulové hypotézy o nekorelovanost náhodných chyb prot alternatvní hypotéze o korelovanostε,ε lze použít jž zmíněnou Durbn - Watsonovu statstku D Za odhad ρ lze vzít odhad ρˆ korelačního koefcentu velčn ε,ε ˆ ρ = 0, 5D Potom pro odhad Y ~ hodnoty velčny Y pomocí AR() dostaneme Y ~ = ˆ ˆ (Y ˆ x β + ρ Z x βz ) pro =,, n Korelovanost náhodných chyb našch dat byla prokázána Průběh závslost u na hladně lépe než KLRM vysthuje AR() V případě shluku dostáváme odhad ρ 0,735 a odhad ~ y = 6,7+,040x 0,764x + 0, 735y pro =,, n Směrodatná chyba autoregresního modelu je 0,4, zatímco pro KLRM je 0,34 Šířka 95%- ního pásu spolehlvost pro konkrétní hodnotu u je 0,896 oprot šířce,364 tohoto pásu v KLRM Šířka pásu je tedy o 0,34 menší, tj představuje 65,7% šířky pásu v KLRM Hodnoty odhadů ve shluku pomocí modelu AR() jsou uvedeny v posledním sloupc tab Na obr 0 je výsek autoregresním modelem spolu s regresním odhady Na obr je pak autokorelační model včetně pásů spolehlvost pro konkrétní hodnotu u
93,0 9,80 9,55 9,7 9,9 9,66 9,37 9, 90,86 90,60 90,35 90,0 89,85 89,60 odhad odhad AR 45 56 67 78 89 300 3 3 333 344 355 366 377 388 399 40 číslo měření Obr 0 Základní a autoregresní model 93,00 9,50 9,09 9,8 9,54 9,7 9,00 90,7 90,45 90,8 89,8 89,50 89,00 45 56 67 78 89 300 3 3 333 344 355 366 377 388 399 40 číslo měření odhad AR 95%-ní pás spolehlvost pro konkrétní hodnotu Obr Autoregresní model s pásy spolehlvost pro konkrétní hodnotu u 5 Závěr Př statstcké analýze závslost dvou velčn je vhodné vždy vycházet z grafcké prezentace dat a umožní odhalt případné defekty v datech, jako jsou např hrubé chyby měření a heterogenta dat Hrubé chyby je zapotřebí odstrant a pokud jsou data heterogenní, je zapotřebí je rozložt do homogenních skupn a analýzu provádět s každým shlukem zvlášť Identfkac shluků realzujeme shlukovou analýzou nebo na základě znalost poměrů na vodním díle Př samotné analýze závslost sledujeme dvě její vlastnost - těsnost a průběh Orentační nformace o těchto aspektech získáme z bodového dagramu dat Pro měření těsnost závslost dvou velčn se nejčastěj používá korelační koefcent, který měří těsnost lneární závslost Průběh závslost modelujeme pomocí regresní funkce, u které se předpokládá, že je znám její tvar Regresní parametry se v aplkacích běžně odhadují metodou nejmenších čtverců Běžně
se ale neověřují podmínky její použtelnost, které zaručují dobré vlastnost získaných odhadů, an se nekonstruují ntervalové odhady konkrétních hodnot závsle proměnné, jejchž šířka mmo jné svědčí také o kvaltách odhadů Je tedy třeba znát předpoklady metody nejmenších čtverců a umět je ověřt V tomto směru je důležtá analýza rezduí, která umožní nejen ověřt dané předpoklady, ale naznačí, jak model opravt v případě, že tyto předpoklady nejsou splněny Pozn Příspěvek byl zpracován v rámc řešení grantového projektu GAČR 03/05/39 Lteratura [] Anděl, J Matematcká statstka MAFYZPRESS Praha, 993 [] Budíková, M Aplkace shlukové analýzy v ekolog Sborník prací letní školy ROBUS 000 [3] Hebák, P - Hustopecký, J Vícerozměrné statstcké metody s aplkacem SNL Praha, 987 [4] Hendl, J Přehled statstckých metod zpracování dat PORÁL Praha, 006 [5] Meloun, M - Mltký, J Statstcké zpracování expermentálních dat ARS MAGNA Praha, 998 [6] SAISICA for Wndows StatSoft, Inc 000