Vývoj dynamického modelu pro odhad radonové

Univerzia Karlova v Praze Maemaicko-fyzikální fakula DIPLOMOVÁ PRÁCE Barbora Lebdušková Vývoj dynamického modelu pro odhad radonové záěže budov Kaedra pravděpodobnosi a maemaické saisiky Vedoucí diplomové práce: RNDr. Ing. Marek Brabec, PhD., Sání zdravoní úsav Sudijní program: Maemaika, maemaická saisika

Ráda bych zde poděkovala panu RNDr. Ing. Brabcovi, PhD. za rpělivý přísup a poskynuí da a dále svojí rodině za podporu, keré se mi od ní dosalo. Prohlašuji, že jsem svou diplomovou práci napsala samosaně a výhradně s použiím ciovaných pramenů. Souhlasím se zapůjčováním práce. V Praze dne 10.12.2009 Barbora Lebdušková 2

Obsah 1 Úvod 5 2 Funkcionální daa 6 2.1 Odhad funkcionálních da na základě diskréních pozorování...... 6 2.2 Typ báze................................... 9 2.2.1 Fourierova báze........................... 9 2.2.2 Příklad 1.............................. 11 2.2.3 B-splajn............................... 12 2.2.4 Pokračování příkladu 1....................... 15 3 Analýza funkcionálních da 18 3.1 Definice základních charakerisik..................... 18 3.1.1 Inervaly spolehlivosi....................... 19 3.2 Concurren model pro funkcionální daa................. 20 3.2.1 Popis modelu............................ 20 3.2.2 Minimalizační kriérium...................... 21 3.2.3 Inervaly spolehlivosi pro regresní paramery.......... 23 3.2.4 Příklad 2.............................. 25 3.3 Aplikace na reálná daa........................... 29 3.3.1 Popis da.............................. 29 3.3.2 Vyvoření fukcionálních da.................... 30 3.3.3 Concurren model.......................... 33 4 Výpočení prosředí 35 4.1 Základní funkce............................... 35 4.2 Charakerisiky funkcionálních da.................... 38 4.3 Concurren model.............................. 39 5 Shrnuí 41 3

Název práce: Vývoj dynamického modelu pro odhad radonové záěže budov Auor: Barbora Lebdušková Kaedra (úsav): Kaedra pravděpodobnosi a maemaické saisiky Vedoucí diplomové práce: RNDr. Ing. Marek Brabec, PhD. e-mail vedoucího: mbrabec@cs.cas.szu Absrak: V předložené práci je popsána meoda odhadu funkcionálních da na základě diskréních pozorování. Jedná se o aproximaci pomocí báze, přičemž se zde pracuje s periodickou Fourierovou bází a neperiodickým B-splajnem. Další čás práce se věnuje concurren modelu pro funkcionální daa. Je zde odvozen var inervalů spolehllivosi regresní funkce a na simulovaných daech analyzována cilivos modelu. Jedna kapiola je věnována funkcím programovacího jazyka R, keré umožňují výpoče výše popsaných posupů. V poslední čási je eno model aplikován na reálná daa obsahující měření koncenrace radonu v esovacím objeku. Klíčová slova: Fourierova báze, B-splajn, concurren model Tile: Dynamic model for esimaion of radon concenraion in buildings Auhor: Barbora Lebdušková Deparmen: Deparmen of probabiliy and mahemaical saisics Supervisor: RNDr. Ing. Marek Brabec, PhD. Supervisor s e-mail address: mbrabec@cs.cas.szu Absrac: In he presen work he mehod for esimaion of funcional daa from discree values is described. The basis aproximaion is used and ypes of funcions for basis consrucion are Fourier funcions and b-spline. Nex par of he work aends o he concurren model for funcional daa. Here is also described consrucion of confidence inerval for he regression funcion. One chaper is focused on applicaion of hese echniques in language R. In he las par of he work he he series of radon concenraion measuremens in experimenal building is analysed. Keywords: Fourier basis, B-spline, concurren model 4

Kapiola 1 Úvod Cílem éo práce je vyvoři model, kerý popisuje vzah mezi náhodnými veličinami v průběhu času. Klasický regresní model popisuje uo závislos diskréním způsobem a nebere v úvahu, že se může v čase měni. Model popsaný v éo práci akovou dynamiku umožňuje, a o akovým způsobem, že modeluje proměnnou v čase pomocí vysvělujících proměnných v émže čase. Běžně se eno model označuje anglickým ermínem concurren, český ekvivalen je souběžný. Dále se budeme drže anglického označení. Odvodila jsem pro eno model odhad regresní funkce a jejích inervalů spolehlivosi a na simulovaných daech zkoumala cilivos ohoo modelu. Aby bylo možné akový model zkonsruova, je zapořebí mí zv. funkcionální daa. To znamená, že jednolivá pozorování jsou spojié funkce. Tomu, jak akový formá da získa z diskréních měření, jsem věnovala úvodní čás práce. Jedná se o aproximaci naměřených hodno pomocí lineární kombinace několika vybraných funkcí. Tyo skupiny funkcí se nazývají báze a exisuje jich celá řada. Vybrala jsem dva nejrozšířejnější ypy. Fourierova báze reprezenuje skupinu periodických bází a B-splajn neperiodické báze. Na simulovaných daech hodnoím jejich vlasnosi. Pro Fourierovu bázi jsem odvodila var penalizační maice, kerá se využívá při hledání koeficienů lineární kombinace. V závěru jsem model aplikovala na reálná daa, kerá popisují koncenraci radonu v esovacím objeku. Všechny výpočy jsem prováděla v sofwaru R 2.9.0, kerý je volně dosupný. Přepisy jednolivých programů jsou na přiloženém CD. Základní možnosi knihovny fda jsem popsala v kapiole (4). 5

Kapiola 2 Funkcionální daa V reálném živoě se časo sekáváme s jevy, jejichž průběh se dá popsa spojiou funkcí v určiém časovém inervalu. Může se jedna například o měření eploy v průběhu roku apod. Daa, kde jednolivá pozorování nejsou skaláry, ale spojié reálné funkce, budeme označova jako funkcionální daa. Budeme uvažova sadu funkcionálních da y j (),j = 1,...,q, T, (2.1) kde T je časový inerval. Ve skuečnosi však nepozorujeme hodnoy y j souvisle v celém inervalu T, ale pouze v bodech 1, 2,..., n, keré náleží do inervalu T R. Je edy nuné odhadnou hodnoy y j pro celý inerval T. V následujících odsavcích zmíníme základní meody získání odhadů ŷ j. Pro jednoduchos budeme uvažova j = 1 a y 1 () označíme jako y (). 2.1 Odhad funkcionálních da na základě diskréních pozorování Uvažujme funkcionální bázi {φ l ()} L l=1, kde T R, akovou, že y ( i ) = L φ l ( i ) c l + ǫ ( i ), (2.2) l=1 kde c = (c 1,..., c L ) je vekor koeficienů, ǫ () je náhodná chyba a body ( 1,..., n ) T jsou časové okamžiky, ve kerých byly pozorovány diskréní hodnoy náhodné veličiny y. Znamená o, že hodnoy ǫ ( i ) musí bý nezávislé a sejně rozdělené. Báze můžeme podle charakeru funkcí φ l rozděli na periodické a neperiodické. Poče funkcí báze 6

budeme dále označova jako dimenzi báze. Dimenze báze ovlivňuje, jak hodně se budou liši hodnoy odhadu ŷ () = L l=1 φ l () c l od naměřených hodno y ( i ). Pokud bychom kvaliu odhadu posuzovali pouze podle míry odlišnosi od originálních da, odhadli bychom hodnoy c pomocí minimalizace souču čverců (SSE), [ ] 2 n L SSE (c) = y ( i ) φ l ( i ) c l. (2.3) i=1 Dále budeme používa označení y () = (y ( 1 ),...,y ( n )) a Φ nech je maice, jejíž sloupce voří funkce φ l, l = 1,...,L, v bodech 1,..., n. Výraz (2.3) je možné zapsa jako l=1 SSE (c) = (y Φc) (y Φc) = = y y y Φc c Φy + c Φ Φc. (2.4) Teno výraz je minimální pro ĉ = (Φ Φ) 1 Φ y. Tímo přísupem se reguluje pouze chyba odhadu, kerá se zmenšuje s rosoucí dimenzí báze. V případě použií dosaečně vysokého poču bazických funkcí, dosáhneme vždy odhadu jehož SSE bude nulová. Další nevýhodou ako konsruovaných odhadů je nesabilia derivací. Cílem je však nají odhad, kerý na jedné sraně dosaečně dobře kopíruje původní daa, ale zároveň nemá příliš vysoký rozpyl. Toho docílíme bud použiím báze s menší dimenzí, nebo když míso sřední čvercové chyby (3.14) použijeme jako minimalizační kriérium penalizovanou čvercovou chybu [ ] 2 n L PSSE λ (c) = y ( i ) φ l ( i ) c l + λpen (ŷ) = i=1 l=1 = (y Φc) (y Φc) + λpen (ŷ). (2.5) V omo případě je dobré použí co nejvěší bázi. Jako vhodné penalizační kriérium je možné vzí například PEN m (ŷ) = [D m ŷ ()] 2 d = = (D m c φ ()) 2 d = T = (D m c φ ()) (D m φ ()c )d = T[ ] = c (D m φ()) (D m φ ())d c = ozn. T = c Rc, (2.6) 7

kde D m značí m-ou derivaci a φ je vekor funkcí φ l (), pro l = 1,..., L. (Pokud chceme hladkou derivaci odhadu ŷ řádu r, musí plai m = r+2.) Nejběžnější volbou je m = 2, proože v případě, kdy má křivka vysoký rozpyl, je hodnoa [D 2 ŷ ()] 2 vysoká. Poom se ĉ, keré minimalizuje penalizovaný souče čverců (P SSE viz (2.5)), dá vyjádři jako a odhad ŷ lze zapsa jako ĉ = (Φ Φ + λr) 1 Φ y (2.7) ŷ = Φ (Φ Φ + λr) 1 Φ y = S λ,φ y. (2.8) Poměr mezi přesnosí a rozpylem odhadu je určen velikosí parameru λ. Pokud je paramer λ = 0, nedochází k penalizaci a výsledný odhad je příliš variabilní. V opačném případě (λ je vysoká) se odhad blíží lineární funkci. Je edy velmi důležié nasavi eno paramer co nejlépe. V případě, že předpokládáme nezávislos y ( i ), můžeme použí meodu cross-validace nebo zobecněné cross-validace. První meoda je zde popsána na základě informací z knihy [4] a popis druhé je čerpán z knihy [11]. Cross-validace (CV): Na základě daových bodů y ( 1 ),...,y ( n ) určíme pro j = 1,...,n odhady ŷ j, keré jsou založené vždy na všech daech kromě y ( j ). To znamená, že pro výpoče akového odhadu použijeme daové body y ( 1 ),...,y ( j 1 ),y ( j+1 ),...,y ( n ). Spočíáme CV (λ) = 1 n n j=1 [ y ( j ) ŷ ( j ) j ] 2. (2.9) Opimální λ minimalizuje výraz (2.9). Zobecněná cross-validace (GCV): Spočíáme kde r ( ) značí sopu maice. [ ][ n GCV (λ) = n r (S λφ ) Opimální λ minimalizuje výraz (2.10). 8 SSE n r (S λφ ) ], (2.10)

Meoda GCV byla poprvé popsána v článku [2] a původně sloužila jako aproximace meody CV. Posupem času se ukázalo, že v praxi má GCV časo lepší vlasnosi než CV. Výše uvedená auomaická opimalizace parameru λ nemusí vždy dáva dobré výsledky. Velmi časo může nasa siuace, že daa nejsou nezávislá. Poom obě meody (GCV i CV) dávají odhad, kerý příliš kopíruje originální daa a pro další využií je nevhodný. V akovém případě je možné použí meody, keré byly vyvinuy právě pro závislé časové řady. Touo problemaikou se zabývá článek [3]. Jiným možným řešením je zvoli paramer λ bez použií auomaických meod pouze na základě vlasního úsudku. Pro hodnocení kvaliy modelu se používá normalizovaný souče čverců (RMSE), kerý je definovaný ako RMSE = 1 n 1 (ŷ ( i ) y ( i )) 2 = n n (y Φc) (y Φc). (2.11) 2.2 Typ báze i 1 Jak jsme již uvedli dříve, báze můžeme rozděli na periodické a neperiodické. V éo kapiole se seznámíme se zásupci obou ěcho skupin. Periodické báze bude reprezenova Fourierova báze a z neperiodických bází uvedeme B-splajn. Možnosí, jak voli bázi, je však daleko více. Kromě již zmíněných dvou je možné použí například jádrové funkce. Dále exisují speciální báze pro vyhlazování monoonních funkcí apod. Podrobnější popis éo problemaiky je možné nají v [11]. Volba báze je velmi důležiá a vždy musíme zvažova dvě důležiá kriéria. Prvním je výpočení náročnos a druhým schopnos báze aproximova původní hodnoy. S rychlým vývojem výpočení echniky se první kriérium sice dosává mírně do pozadí, ale sále není zanedbaelné. Oba zde uvedené ypy báze dobře splňují yo požadavky. 2.2.1 Fourierova báze Tao báze je odvozena od Fourierových řad. V knize [11] je definována následovně: Definice 2.2.1 Fourierova báze je definována jako {φ l ()} L l=1. Jednolivé φ l () mají var φ 1 () = 1, φ 2r () = sin rω, φ 2r+1 () = cosrω, 9

Fourierova baze 1.0 0.5 0.0 0.5 1.0 l = 1 l = 2 l = 3 0 0.1 0.2 0.3 0.4 0.6 0.7 0.8 0.9 1 Obrázek 2.1: První ři funkce Fourierovy báze. kde r je celé číslo a ω paramer, kerý určuje délku periody 2π/ω. Zobrazení φ l pro l = 1, 2, 3 je na obrázku (2.1). Tao báze je periodická a je vhodná hlavně pro daa, kerá jsou sabilní v čase, popřípadě mají periodický charaker. Budeme předpokláda, že poče funkcí L v bázi je lichý (zn. obsahuje ke každé složce sin ( ) příslušnou složku cos ( )), j. L = 2r + 1, r je kladné celé číslo, P je (2r + 1)-diagonální maice s diagonálou (1, 1, 1, 2, 2,..., r, r) a T = ( a, b ). Poom pro všechna kladná celá čísla s plaí: φ() = (1, sin ω, cosω,...,sin rω, cosrω), D 4s 3 φ() = ω 4s 3 P 4s 3 (0, cosω, sin ω,..., cosrω, sin rω), D 4s 2 φ() = ω 4s 2 P 4s 2 (0, sin ω, cosω,...,sin rω, cosrω), D 4s 1 φ() = ω 2 P 2 D 4s 3 φ(), D 4s φ() = ω 2 P 2 D 4s 2 φ(), 1 sin ω 1 cosω 1... sin ωr 1 cosωr 1 1 sin ω 2 cosω 2... sin ωr 2 cosωr 2 Φ () =......, (2.12) 1 sin ω n cos ω n... sin ωr n cosωr n 10

R 4s 3 = ω 8s 6 P 8s 6 0 0... 0 [ 0 1 sin 2ω + ] [ b 4ω 2 a... cos(r+1)ω 2ω(r+1)...... [ ] 0 cos(r+1)ω cos(r 1)ω b 2ω(r+1) 2ω(r 1) a... cos(r 1)ω 2ω(r 1) [ 1 sin 2ωr + ] b 4ωr 2 a ] b a, R 4s 2 = ω 8s 4 P 8s 4 0 0... 0 [ 0 1 sin 2ω + ] [ b 4ω 2 a... cos(r+1)ω 2ω(r+1)...... [ ] 0 cos(r+1)ω cos(1 r)ω b 2ω(r+1) 2ω(1 r) a... cos(1 r)ω 2ω(1 r) [ 1 sin 2ωr + ] b 4ωr 2 a ] b a, R 4s 1 = ω 4 P 4 R 4s 3, R 4s = ω 4 P 4 R 4s 2, kde [f (x)] b a = f (b) f (a). 2.2.2 Příklad 1 Teno příklad ilusruje nevhodnos Fourierovy báze pro neperiodická daa. Vygenerujeme řadu periodických a neperiodických da a porovnáme, jak fungují Fourierovy odhady. Periodická funkce má var f 1 () = sin () + cos (π), (0, 2π). Jako pozorovaná daa byly použiy hodnoy f 1 ( i ) + ǫ 1 ( i ) v bodech i = 2πi 100, i = 0,..., 100, přičemž ǫ 1 N (0, 0, 4 2 ). Pro vyhlazení byla použia Fourierova báze skládající se ze 101 funkcí a pro penalizaci PEN 2 (viz 2.6). Paramer λ byl spočen pomocí meody zobecněné cross-validace a jeho hodnoa je 0, 0089. Neperiodická daa odpovídají modelu f 2 (s) = e s3 + ǫ 2 (s), s (0, 1). 11

Periodicka funkce Neperiodicka funkce y 2 1 0 1 2 Fourierova baze replikace 1 y 1.0 1.5 2.0 Fourierova baze replikace 1 0.00 0.70 1.40 2.09 2.79 3.49 4.19 4.89 5.59 6.28 0.00 0.11 0.22 0.33 0.44 0.56 0.67 0.78 0.89 1.00 x x Obrázek 2.2: Vhodnos Fourierovy báze pro periodická a neperiodická daa - žluě jsou vyznačena simulovaná daa, červeně hodnoy funkce f 1 () (popř. f 2 ()) a zeleně výsledný odhad. Hodnoy byly počíány v bodech s i = i 100, i = 0,..., 100 a ǫ 2 N ( 0, (0, 1) 2). Pro získání parameru λ používáme sejnou meodu i bázi jako v prvním případě. Pro ao daa vyšel paramer λ = 7, 08 10 6. Výsledky jsou znázorněny na obrázku (2.2). V prvním případě proběhlo vyhlazení velmi dobře, ale ve druhém nasal problém s okraji definičního oboru a ani meoda zobecněné cross-validace nefunguje, jak bychom očekávali. Paramer λ je příliš malý a dochází k nedosaečnému vyhlazení. Příklad ukazuje nevhodnos Fourierovy báze pro neperiodická daa. Na obrázku 2.3 je průběh GCV (λ). Je vidě, že pro periodická daa není minimum funkce GCV (λ) osře vymezené. Znamená o, že informace o parameru λ není dosaečně určující, j. výsledný odhad není příliš cilivý na změny ohoo parameru. 2.2.3 B-splajn Splajny nabízejí věší variabiliu než Fourierova báze, ale jsou aké složiější. Exisuje velké množsví různých ypů splajnů. V éo kapiole se podrobněji seznámíme s B- splajnem. Opě nás bude zajíma odhad ŷ (), T, na základě bodů y ( i ). Budeme předpokláda, že T je inerval s krajními body s 1 a s m, a body s 2,..., s m 1 jsou vniřní body (uzly) ohoo inervalu. Obecně je polynomiální splajn definován ak, že na subinervalech mezi libovolnými dvěma sousedními uzly je definován polynom supně K a v 12

Periodicka daa Fourierova baze Neperiodicka daa Fourierova baze GCV 0 2000 4000 6000 GCV 50 100 150 200 7 6 5 4 3 2 1 0 log10(lambda) 7 6 5 4 3 2 1 0 log10(lambda) Obrázek 2.3: Závislos GCV na velikosi parameru λ. každém uzlu mají sousední polynomy sejnou hodnou (výsledná funkce je spojiá), a o i pro K 1 derivací. Pokud však chceme hladkou (nejen spojiou) p-ou derivaci, musí bý supeň splajnu alespoň p + 2. Nejběžněji používaný je kubický B-splajn, j. K = 3, ale pro práci s derivacemi je zapořebí zvoli vyšší supeň splajnu. Podrobný popis splajnů je možné naléz v knize [1], ze keré pochází aké následující definice. Definice 2.2.2 Nech je s = (s 1,...,s m ) neklesající posloupnos bodů z inervalu T. Pak jednolivé B-splajny řádu k = 1,..., K definujeme pomocí rekurzivního vzorce B j,1 (s) = B j,k (s) = { 1 pro sj s < s j+1, 0 jinak, s s j B j,k 1 (s) + s j+k s B j+1,k 1 (). s j+k 1 s j s j+k s j+1 V případě, že se ve sčíanci vyskyuje výraz 0, položíme ho rovný 0. Na obrázku (2.4) 0 jsou vykresleny B-splajny řádu 1, 2, 3 a 4. Poče funkcí báze = řádu splajnu + poče vniřních uzlů +1. V následující věě jsou shrnuy základní vlasnosi B-splajnu. Věa 2.2.1 Nech B j,k (s) je B-splajn z definice 2.2.2 definovaný na inervalu T, poom pro všechna k = 1,..., K plaí následující vlasnosi. B-splajn báze je složena z nezáporných funkcí, j. B j,k (s) = 0, s / [s j, s j+k ] a zároveň B j,k (s) > 0, s (s j, s j+k ). (2.13) 13

B splajn baze supen 0 B splajn baze supen 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 B splajn baze supen 2 B splajn baze supen 3 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Obrázek 2.4: První čyři funkce B-splajn báze. 14

Periodicka funkce Neperiodicka funkce B splajn baze replikace 1 B splajn baze replikace 1 y 2 1 0 1 2 y 1.0 1.5 2.0 2.5 0.00 0.70 1.40 2.09 2.79 3.49 4.19 4.89 5.59 6.28 0.00 0.11 0.22 0.33 0.44 0.56 0.67 0.78 0.89 1.00 x x Obrázek 2.5: Vhodnos B-splajn báze pro periodická a neperiodická daa - žluě jsou vyznačena generovaná daa, červeně odhadovaná funkce a zeleně výsledný odhad. Souče všech funkcí báze je v každém bodě inervalu T roven 1, j. B j,k (s) = 1, s T. (2.14) Důkaz: Viz [4]. j Z definice B-splajnu je vidě, že uzly (s 1,..., s m ) nemusí bý oožné s ( 1,..., n ). Následující simulační sudie ukazuje vliv volby uzlů na kvaliu výsledného odhadu ŷ (). 2.2.4 Pokračování příkladu 1 Teno příklad navazuje na Příklad 1 (2.2.2). Výchozí daa jsou shodná. Opě použijeme penalizaci a pro hledání vhodného parameru λ zobecněnou cross-validaci. Rozdíl je pouze v bázi. Tenokrá použijeme kubický B-splajn, jehož uzly se shodují s definičním oborem generovaných da. Výsledky jsou na obrázku (2.5). Je vidě, že B-splajn je vhodný pro oba ypy da. Abychom mohli porovna meodu z příkladu 1 (2.2.2) a zde popsanou meodu, simulovali jsme 1000 periodických i neperiodických daových řad, provedli vyhlazení podle výše uvedených posupů a spočíali odhad sřední čvercové chyby. Definice 2.2.3 Sřední čvercová chyba (MSE) odhadu ŷ () funkce f () definované na T R je definovaná jako MSE (ŷ) = E (ŷ () f ()) 2, (2.15) 15

Periodická daa Neperiodická daa B-splajn báze 2, 1224 0.0007 Fourierova báze 2, 0296 0, 0234 Tabulka 2.1: Hodnoy odhadu MSE pokud ao sřední hodnoa exisuje. Tako definovaná sřední čvercová chyba funkcionálního odhadu je aké funkce, a proo je možné kvaliu odhadu posuzova v jednolivých bodech definičního oboru. Pokud však chceme jednoznačně porovna dva odhady, bude vhodnější použí průměrnou sřední čvercovou chybu (MMSE). Definice 2.2.4 Průměrná sřední čvercová chyba (MSE) odhadu ŷ () funkce f () definované na T R je definovaná jako MMSE (ŷ) = E (ŷ () f ()) 2 d, (2.16) pokud ao sřední hodnoa exisuje. T Přehled výsledných odhadů MMSE je shrnu v abulce (2.1). Na obrázku 2.6 jsou vykresleny odhady MSE pro jednolivé ypy da a bází. Zeleně je vyznačená MSE odhadu zkonsruovaného pomocí B-splajn báze, žluě pak MSE Fourierova odhadu. Z výsledků je zřejmě, že pro periodická daa je lepší voli Fourierovu bázi. Odhad vyvořený pomocí B-splajn báze neodpovídá skuečnosi pro hodnoy na okrajích definičního oboru, ale celkový rozdíl není zdaleka ak výrazný jako u neperiodických da, kde se jasně jako lepší ukázala B-splajn báze. Fourierova báze v omo případě dává velmi špané výsledky na okrajích definičního oboru. 16

Periodicka funkce Neperiodicka funkce y 0.02 0.03 0.04 0.05 0.06 0.07 0.08 y 0.0 0.2 0.4 0.6 0.8 0.00 0.70 1.40 2.09 2.79 3.49 4.19 4.89 5.59 6.28 0.00 0.11 0.22 0.33 0.44 0.56 0.67 0.78 0.89 1.00 x Obrázek 2.6: Porovnání Fourierovy báze a B-splajn báze - zeleně je vyznačena MSE B-splajn odhadu, žluě MSE Fourierova odhadu. 17

Kapiola 3 Analýza funkcionálních da 3.1 Definice základních charakerisik Pro funkcionální daa, sejně jako pro bodová pozorování, definujme základní charakerisiky, keré jsou nezbyné pro další analýzu. V celé éo kapiole budeme předpokláda, že máme n fukcionálních pozorování y i (), kde T a T je nějaký časový inerval. Průměrová funkce: Rozpylová funkce: ȳ () = 1 n n y i (), T. (3.1) i=1 Kovarianční funkce: var y () = 1 n 1 n [y i () ȳ ()] 2, T. (3.2) i=1 cov y ( 1, 2 ) = 1 n 1 Korelační funkce: n [y i ( 1 ) ȳ ( 1 )] [y i ( 2 ) ȳ ( 2 )], 1, 2 T. (3.3) i=1 cor y ( 1, 2 ) = cov y ( 1, 2 ) vary ( 1 ) var y ( 2 ), 1, 2 T. (3.4) 18

K popisu závislosi dvou funkcionálních veličin slouží následující dvě funkce: Cross-kovarianční funkce: cov x,y ( 1, 2 ) = 1 n [x i ( 1 ) x ( 1 )] [y i ( 2 ) ȳ ( 2 )], n 1 1, 2 T (3.5) Cross-korelační funkce: i=1 cor x,y ( 1, 2 ) = cov x,y ( 1, 2 ) varx ( 1 ) var y ( 2 ), 1, 2 T. (3.6) 3.1.1 Inervaly spolehlivosi V éo kapiole uvedeme obecný var inervalu spolehlivosi pro odhad ŷ, jak je uveden v článku [7], a porovnáme ho s inervalem spolehlivosi uvedeným v knize [5]. Budeme předpokláda, že máme pouze jeden funkcionální odhad ŷ (), kde T, spočíaný na základě da y ( 1 ),...,y ( J ), kde 1,..., J T. V článcích [13] a [8] je dokázáno, že splajny jsou Bayesovské odhady s Gaussovu apriorní husoou, pro keré plaí ŷ = S λ,φ y, Paramer σ 2 se odhadne jako V ar (ŷ) = σ 2 S λ,φ. σ 2 = SSE n r (S λφ ). Poom 100 (1 α)% inerval spolehlivosi má mee ŷ ( i ) ± z α/2 σ (S λφ ) ii, (3.7) kde z α/2 značí α/2 kvanil normovaného normálního rozdělení. Přísup z knihy [5] se liší odhadem rozpylu ŷ (). Teno přísup předpokládá exisenci n funkcionálních odhadů éže funkce (n funkcionálních pozorování). Zajímá nás rozpyl odhadů ŷ () Dále označíme σ 2 e ( j ) = 1 n 1 n [ yi ( j ) c jφ () ] 2. i=1 19

Σ 2 e = ( σ 2 e ( 1),..., σ 2 e ( m) ). (3.8) Předpokládáme, že rozpyl funkcionálních da je aké funkcionální pozorování, proo ho vyhladíme pomocí meod popsaných va kapiole 2. Nech {ψ r (), r = 1,...,R} je vhodná báze, pak σ 2 e ( j) = Nyní můžeme jako odhad σ z výrazu (3.7) v bodě j použí R b r ψ r ( j ). (3.9) r=1 Σ 2 e = Ψb. (3.10) σ ( j ) = Σ e ( j ) (S λφ ) ii. (3.11) Porovnání obou ypů inervalů spolehlivosi pro daa z příkladu 1 je na obrázku 3.1. Pro vyvoření odhadu byla použia B-splajn báze (pro Fourierovu báze jsou výsledky obdobné). Zeleně plně je znázorněn odhad založený na první replikaci, zelená přerušovaná je odhadovaná funkce, červeně je vyznačen 95% inerval spolehlivosi z článku [7] a žluě 95% inerval z knihy [5]. Je vidě, že v obou případech je širší inerval založený pouze na jedné replikaci, udíž obsahující menší informaci. 3.2 Concurren model pro funkcionální daa Cílem je nají způsob, jak modelova závislos dvou (popř. více) funkcionálních náhodných veličin. Použijeme model popsaný v [10] jako concurren model. 3.2.1 Popis modelu Jedná se o model, kerý je v podsaě funkcionálním rozšířením regresního modelu. Teno model vysvěluje funkcionální náhodnou veličinu y pomocí jiných funkcionálních náhodných veličin x j, kde j = 1,...,q. Proměnná q značí poče vysvělujících proměnných. Obecný var modelu se dá zapsa jako y i () = q x ij () β j () + ǫ i (), (3.12) j=1 20

Inerval spolehlivosi Inerval spolehlivosi y 2 1 0 1 2 Periodicka daa B splajn y 1.0 1.5 2.0 2.5 Neperiodicka daa B splajn Obrázek 3.1: Inervaly spolehlivosi - zeleně plně odhad založený na první replikaci, zeleně přerušovaně odhadovaná funkce, červeně 95% inerval spolehlivosi z článku [7] a žluě 95%f inerval z knihy [5]. kde i = 1,..., n je poče pozorování a pro jednoduchos uvažujme [0, 1]. Velmi časo x i0 = 1, poom je ve sčíanci β 0 () obsažena variabilia, kerou nelze vyjádři pomocí proměnných x j (). Dále předpokládejme, že náhodné složky modelu (3.12) ǫ i () jsou nezávislé a sejně rozdělené. V doslovném překladu bychom mohli použí označení souběžný model. Teno název vysihuje o, že hodnoy náhodná veličina y v čase jsou modelovány pomocí hodno náhodných veličin x j ve shodném čase. Maicový zápis výrazu 3.12: y () = Z () β () + ǫ(). (3.13) Opimální paramer β budeme hleda obdobně jako v klasickém regresním modelu. Siuace je však v omo případě komplikovanější, proože jednolivé β j nejsou konsany, ale funkce v čase. 3.2.2 Minimalizační kriérium Nyní se budeme zabýva vhodným minimalizačním kriériem pro nalezení opimálního odhadu pro paramer β. Pokud bychom zvolili prosé rozšíření regresního souču nejmenších čverců (2.3), výsledný model by byl zaížen příliš vysokým rozpylem. SSE = (y () Z () β ()) (y () Z () β ())d (3.14) T 21

Z ohoo důvodu rozšíříme výraz (3.14) o penalizační čás, kerá nám zaručí určiou míru hladkosi výsledného modelu. Výsledné minimalizační kriérium má var LMSSE (β) = (y () Z () β ()) (y () Z ()β ()) d + + T q λ j j=1 T [L j β j ()] 2 d, (3.15) kde L je označení diferenciálního operáoru. Opimální velikos parameru λ lze opě urči cross-validací. Dále budeme předpokláda, že pro regresní funkce β j exisuje rozvoj K j β j () = b kj θ kj () = θ j () b j, (3.16) k=1 kde K j je poče funkcí báze {θ kj }. Dále definujme maici b = (b 1, b 2,...,b q ), kerá má q řádků a K β = q j=1 K j sloupců. Poom Θ () je definována jako θ 1 () 0... 0 0 θ 2 ()... 0 Θ() =..... (3.6) 0 0... θ q () Poom β () = Θ() b a výraz (3.13) je možné zapsa jako y () = Z ()Θ() b + ǫ (). Dále definujme blokovou diagonální maici R s j bloky λ j [L j θ j ()] [L j θ j ()] d. T Minimalizační kriérium LMSSE (3.15) je možné upravi následujícím způsobem: LMSSE (β) = [ y () y () 2b Θ () Z () y () + T + b Θ () Z () Z ()Θ() b ] d + b R (λ) b. (3.18) 22

Odhad parameru b je řešením sousavy normálních rovnic. Tuo sousavu získáme, když položíme derivaci LMSSE (β) rovnu nule. Pokud označíme A = Θ () Z () Z ()Θ() d + R (λ), (3.20) T d = pak sousavu normálních rovnic můžeme zapsa ako T Θ () Z () y () d, (3.21) A b = d. (3.22) V někerých případech je možné řešení sousavy (3.22) vyjádři explicině, ale obecně je vhodné uo sousavu řeši numerickými meodami inegrace. 3.2.3 Inervaly spolehlivosi pro regresní paramery Pro konsrukci inervalů spolehlivosi pro regresní paramer β, je zapořebí nejprve spočía rezidua modelu (3.12). Pro p-é pozorování i-é replikace bude mí příslušné reziduum var r pi = y pi q x ij ( p ) β j ( p ), (3.23) j=1 což se v maicovém zápisu dá přepsa jako r pi = y pi Z i ( p ) β ( p ), (3.24) kde Z i značí i-ý řádek maice Z. Pokud exisují y pi pro všechna i = 1,...,n a p = 1,..., P, je možné zkonsruova odhad kovarianční maice reziduí. Teno odhad má následující var Σ = 1 n rr, (3.25) kde r je maice reziduí. Je nuné si uvědomi, že variabilia obsažená v maici Σ obsahuje aké variabiliu z modelu, kerý byl použi pro vyhlazení da (viz (2.2)). Je důležié si uvědomi, že y ip jsou pozorovaná daa a y () je jejich vyhlazení. Z modelu (2.2) vyplývá, že y i () = c i φ(), 23

kde c i je vekor regresních koeficienů a φ() = (φ 1 (),...,φ L ()) je příslušná báze. Pokud dále označíme C = (c 1,...,c n ), plaí y () = Cφ (). (3.26) Jesliže oo vyjádření y () dosadíme do sousavy normálních rovnic (3.22), dosaneme b = A 1 Θ () Z () Cφ() d = T [ ] = A 1 φ () (Θ () Z ())d vec (C) (3.27) T kde vec ( ) je funkce, kerá převádí maici na vekor. Pro A R n n plaí vec (A) = (a 1,...,a n ), kde a 1,..., a n jsou sloupce maice A. Symbol značí Kroneckerův součin. Uvedeme definici z knihy [6]. Definice 3.2.1 Nech A R m n, B R p q. Poom Kroneckerův součin maic A a B je definován jako maice a 11 B... a 1n B A B =..... R mp nq. (3.28) a m1 B... a mn B Odvození vzorce (3.27) jsme provedli podle následující věy. Věa 3.2.1 Pro libovolné maice A, B a C, pro keré je definován součin ABC, plaí Důkaz: Viz [6]. vec(abc) = (C B)vec(A). (3.29) Vzorec (3.27) popisuje závislos řešení sousavy normálních rovnic (3.22) na způsobu vyhlazení původních da. Nyní přisoupíme k vyjádření rozpylu odhadu b. ) var( b = E ( b E b)( b E b) = [ ] = A 1 Φ () (Θ ()Z ())d E (vec (C) E (vec (C))) T ( [ (vec (C) E (vec (C))) A 1 Φ() (Θ () Z ())d]) = = FJF, (3.30) T 24

kde F R K β nl a F = A 1 [ T ] Φ () (Θ ()Z ())d, přičemž plaí b = F vec (C). Dále J R nl nl je bloková diagonální maice s bloky GΣ G, kde G R L L, G = (Φ Φ + λr) 1 Φ (viz výraz (2.7)) a plaí C = Gy. Meze 100 (1 α)% inervalu spolehlivosi odhadu parameru β budou mí var kde β () = Θ () b. 3.2.4 Příklad 2 ) β ± z α/2 var ( b Θ ii, (3.31) V omo příkladu budeme srovnáva spolehlivos modelu v závislosi na různém rozpylu modelovaných veličin. Nejprve budeme uvažova pouze rozpyl závislé proměnné, poé přidáme rozpyl concurren modelu a nakonec se zamyslíme nad možnou variabiliou nezávislé proměnné. Pro výpočy použijeme inerval T = [0, 2π], poče replikací n = 50. Nezávislé proměnné budou varu x i1 () = 1 a x i2 () = sin () + cos (π) pro T. Dále definujeme hodnoy regresních funkcí a následně dopočíáme hodnoy závislé proměnné v čase. Teno oočený posup nám umožní posoudi, jak dobře model pracuje. Jako regresní funkce zvolíme β 0 () = a β 1 () = cos (). Zbývá urči var závislé proměnné y. Plaí y i ( p ) = p + cos ( p )[sin ( p ) + cos (π p )] + ǫ ( p ), přičemž ( 1,..., P ) je ekvidisanní dělení inervalu T, P = 101 a rozdělení náhodné složky ǫ je N (0, σ 2 ). Za σ budeme posupně brá 0,1, 0,6 a 1. Na obrázku (3.2) jsou zobrazeny hodnoy y 1 ( p ) (šedé body) spolu s odhady ŷ 1 ( p ) (zelené křivky). K vyhlazení byl použi kubický B-splajn s penalizací druhého řádu, uzly v bodech p a paramerem λ, kerý byl určen zobecněnou cross-validací. Hodnoy parameru λ pro různé hodnoy σ jsou v abulce (3.1). Tabulka dále obsahuje průměrnou RMSE, kerá se spočíá jako průměr RMSE i jednolivých křivek. Definice RMSE i pro model (3.13) je 1 RMSE i = n (y i Z i β) (y i Z i β) (3.32) Dále odhadneme paramer β modelu (3.13). Při výpoču minimalizačního kriéria (3.15) položíme λ c = 0, 00001 (označení λ c budeme i nadále používa pro paramer λ concurren modelu). Kód pro výpoče v sofwaru R je na přiloženém CD. 25

Replikace 1 B splajn: lambda = 0.00158, sigma = 0.1 Replikace 1 B splajn: lambda = 0.01585, sigma = 0.6 Replikace 1 B splajn: lambda = 0.03981, sigma = 1 y() 1 2 3 4 5 6 7 y() 0 2 4 6 8 y() 2 0 2 4 6 8 Obrázek 3.2: Zobrazení y 1 ( p ) (šedě), B-splajn odhad (zeleně), skuečná hodnoa y () (červěně ečkovaně). Typ báze B-splajn σ 0, 1 0, 6 1, 0 λ 0, 002 0, 016 0, 040 průměrná RMSE 0, 100 0, 595 0, 995 Tabulka 3.1: Hodnoy parameru λ pro různá σ Na obrázku (3.3) jsou vykresleny odhady regresních funkcí β (zelená křivka) s 95% inervaly spolehlivosi (žluá přerušovaná křivka) a pro srovnání je zobrazena i funkce, kerá byla použia při generování da. Je vidě, že se původní funkce od odhadu liší, a o ím více, čím je vyšší rozpyl ǫ. Dále sojí za povšimnuí širší inerval spolehlivosi na okrajích inervalu T. Vyplývá o z vlasnosi B-splajnu, kerý je na okrajích definičího inervalu méně sabilní, a proo zde mají odhady vyšší rozpyl. Na obrázku (3.4) je vidě srovnání původní funkce použié při generování da (červená ečkovaná křivka), odhad éo funkce pomocí B-splajnu (zelená křivka) a odhadu, kerý dává concurren model (žluá křivka). Je vidě, že se B-splajn odhad od simulační křivky lišil více než výsledný odhad. Je o způsobeno ím, že informace obsažená v concurren modelu je věší než informace, se kerou pracuje B-splajn model. Dále je parné, že výsledný odhad má méně osré lokální exrémy, což kopíruje rozdíl mezi funkcí β a jejím odhadem. Teno rozdíl je parnější u da s vyšším rozpylem (sejně jako u regresní funkce). Do éo chvíle jsme pracovali s day, kde k x i1 a x i2 byly shodné pro všechna i = 1,...,50. Nyní jako nezávislé proměnné použijeme funkce, keré zkonsruujeme jako hladké odhady x i1 ( p ) +ψ ( p ) a x i2 ( p )+ψ ( p ), přičemž ψ je náhodná, normálně rozdělená veličina s nulovou sřední hodnoou a rozpylem 0, 5 2. Tvar regresní funkce zůsává sejný a pro konsrukci pozorování y použijeme σ = 0, 6. Budeme esova vliv 26

Odhad regresni funkce bea_1() lambda = 0.045 Odhad regresni funkce bea_1() lambda = 0.01585 Odhad regresni funkce bea_1() lambda = 0.002 bea_1() 1 2 3 4 5 6 7 bea_1() 0 2 4 6 bea_1() 0 2 4 6 Odhad regresni funkce bea_2() lambda = 0.045 Odhad regresni funkce bea_2() lambda = 0.01585 Odhad regresni funkce bea_2() lambda = 0.002 bea_2() 1.0 0.5 0.0 0.5 1.0 1.5 bea_2() 1.0 0.5 0.0 0.5 1.0 bea_2() 1.0 0.5 0.0 0.5 1.0 Obrázek 3.3: Zobrazení odhadů regresní funkce β () (zeleně), 95% inervaly spolehlivosi (žluě), hodnoa β () použiá při generování da (červěně ečkovaně). Replikace 1 B splajn: lambda = 0.00158, sigma = 0.1 Replikace 1 B splajn: lambda = 0.01585, sigma = 0.6 Replikace 1 B splajn: lambda = 0.002, sigma = 0.1 y() 1 2 3 4 5 6 7 y() 0 2 4 6 8 y() 1 2 3 4 5 6 7 Obrázek 3.4: Zobrazení y 1 ( p ) (šedě), B-splajn odhad (zeleně), skuečná hodnoa y () (červěně ečkovaně) a výsledný odhad z concurren modelu (žluě). 27

λ c 0, 001 0, 1 (CV) 1 průměrná RMSE 0, 5958 0, 6002 0, 6050 Tabulka 3.2: Hodnoy parameru λ pro různá σ Odhad regresni funkce bea_1() lambda_c = 1 Odhad regresni funkce bea_1() lambda_c = 10 Odhad regresni funkce bea_1() lambda_c = 1 bea_1() 0 2 4 6 bea_1() 0 2 4 6 bea_1() 0 2 4 6 Odhad regresni funkce bea_2() lambda_c = 0.01 Odhad regresni funkce bea_2() lambda_c = 0.1 Odhad regresni funkce bea_2() lambda_c = 1 bea_2() 1.0 0.5 0.0 0.5 1.0 bea_2() 1.0 0.5 0.0 0.5 1.0 bea_2() 1.0 0.5 0.0 0.5 1.0 Obrázek 3.5: Zobrazení odhadů regresní funkce β () (zeleně), 95% inervaly spolehlivosi (žluě), hodnoa β () použiá při generování da (červěně ečkovaně). parameru λ c jednak na var odhadu regresní funkce, ale aké na celkovou přesnos modelu (velikos průměrné RMSE). V abulce (3.2) jsou shrnuy hodnoy průměré RMSE pro různé hodnoy λ c a na obrázku 3.5 jsou zobrazeny příslušné odhady regresních funkcí. Z výsledku je parné, že odhad regresní funkce silně závisí na volbě parameru λ c. Je však zajímavé, že predikční schopnos modelu se příliš nemění. Ve všech případech je dobrá. Pokud by rozpyl regresních funkcí vysoký, s rosoucí hodnoou parameru λ c by se kvalia odhadu začala posupně zhoršova. Nyní se podíváme, co se sane, když odhad závislé funkcionální proměnné bude málo penalizovaný. Daa použijeme sejná jako v předchozí čási, lambda c = 1 a λ = 0, 00001. Odhady regresní funkce jsou na obrázku (3.6) a průměrná RMSE je 0,5907. Pokud 28

Replikace 1 B splajn: lambda = 1e 05, sigma = 0.6 Odhad regresni funkce bea_1() lambda = 1e 05 Odhad regresni funkce bea_2() lambda = 1e 05 y() 0 2 4 6 8 bea_1() 1 bea_2() 1.0 0.5 0.0 0.5 1.0 Obrázek 3.6: Zobrazení odhadů regresní funkce β () (zeleně), 95% inervaly spolehlivosi (žluě), hodnoa β () použiá při generování da (červěně ečkovaně). výsledky porovnáme s výsledky pro λ = 0, 016 (výsledek zobecněné cross-validace), je vidě, že pro horší odhad proměnné y dává model lepší odhad regresní funkce a zároveň predikční schopnos modelu je sále velmi dobrá. 3.3 Aplikace na reálná daa Jak již bylo zmíněno v úvodu, jedním z cílů éo práce je nají vhodný model, kerý by popisoval vzájemnou závislos objemové akiviy radonu (dále OAR) naměřené na různých mísech esovaného objeku. K řešení éo úlohy využijeme výše uvedené posupy. Začneme ím, že se podrobněji podíváme na srukuru da, se kerými budeme dále pracova. 3.3.1 Popis da Daa byla naměřena ve dnech 3.10.2008 až 20.10.2008 v rodinném domě Lažný v rámci sudie vlivu užívání savby na výsledné hodnoy OAR. Měřila se objemová akivia radonu (Rn m 3 ), eploa ( C) a relaivní vlhkos (%). Měření probíhalo na pěi různých mísech, v různých časových okamžicích. Přehled časové srukury měření je v abulce 3.3. V dalším exu budeme pro jednolivá mísa a příslušné daové řady používa označení M1 až M5 (viz 3.3). Z údajů v abulce (3.3) je vidě, že první ři daové řady nemohou bý pravidelné. Skuečně zde došlo k siuaci, že inerval mezi dvěma měřeními je odlišný od všech osaních. V prvním případě ao siuace mezi měřeními z 14.10.2008. První z nich proběhlo v 16:10, a další následovalo až v 16:56. V druhém případě se jednalo opě o 29

Míso měření Počáek měření Konec měření Časový inerval měření Děský pokoj - M1 3.10.2008 16:10 20.10.2008 13:56 30 min Chodba - M2 3.10.2008 16:04 20.10.2008 13:55 30 min Kuchyň - M3 3.10.2008 15:58 20.10.2008 13:52 30 min Kuchyň 1 - M4 3.10.2008 16:24 20.10.2008 15:00 2 min Obývací pokoj -M5 3.10.2008 17:00 20.10.2008 15:00 60 min Tabulka 3.3: Časová srukura měření měření s daem 14.10.2008, ale enokrá v časech 16:04 a 16:55. V posledním případě se jedná sále o 14.10.2008, ale časy jsou 15:58 a 16:52. Za funkcionální náhodnou veličinu budeme považova vyhlazený průběh OAR v jednom dni. Pro vyvoření funkcionálních da použijeme posupy popsané v kapiole (2.1). Nejprve pozorování rozdělíme podle daa měření. Pro první a poslední den není k dispozici dosaek da, proo je z další analýzy vyřadíme. Získáme edy 16 řad pro každé míso měření. Na obrázku (3.3.1) jsou graficky znázorněny základní charakerisiky pro jednolivé řady naměřených hodno (jedná se o klasický krabicový graf, kde sřední učná čára značí medián, spodní a horní okraje obdélníku značí první a řeí kvaril). V daech M3 a M4 chybí po jednom pozorování. V prvním případě chybí jak čas měření, ak naměřená hodnoa. V daech M4 chybí pouze naměřená hodnoa. Jednou z možnosí, jak uo siuaci řeši, by bylo pozorování úplně vynecha. Poom by se však naměřené hodnoy nedaly zapsa do jedné maice a opimální vyhlazení kraší řady by muselo bý provedeno zvláš. To je při výpočech velmi neprakické, proo chybějící hodnou nahradíme lineární aproximací. Pro zjednodušení další práce normalizujeme časové okamžiky na inerval [0, 1] Z ěcho grafů je parná podobnos mezi M1, M2 a M3, M5. Budeme hleda model pro vzah mezi M1 a M2. Na první pohled se zdají hodnoy ěcho veličin podobné. Dá se o předpokláda i proo, že se mísa měření nacházela blízko sebe. 3.3.2 Vyvoření fukcionálních da Pro vyhlazení da použijeme Fourierovu bázi, proože očekáváme, že průběh OAR bude vykazova periodiciu. Vyplývá o z oho, že daa byla měřena souvisle, a proo by konečná hodnoa jednoho dne neměla bý příliš rozdílná od počáeční hodnoy dne následujícího. Problém je v om, že hodnoy nebyly měřeny pro všechny dny ve sejných časech, proo použijeme pouze prvních 11, u kerých je čas konzisenní. 30

Zakladni charakerisiky M1 Zakladni charakerisiky M2 Zakladni charakerisiky M3 Bq/m^3 0 50 100 150 200 250 300 Bq/m^3 0 50 100 150 200 250 300 Bq/m^3 0 100 200 300 400 500 600 700 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Den Den Den Zakladni charakerisiky M4 Zakladni charakerisiky M5 Bq/m^3 200 400 600 800 1000 1200 Bq/m^3 200 400 600 800 1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Den Den M1 Dimenze báze je 49 (koeficieny modelu odhadneme na základě penalizovaného souču čverců (2.5) a PEN 4, proo může bý dimenze báze ak vysoká). Paramer λ = 6 10 11 byl určen pomocí zobecněné cross-validace. Normalia reziduí se nepovrdila pouze u 2. a 11. křivky. Z důvodu nedosaku da yo křivky z další analýzy nevyřadíme. Pro esování normaliy jsme použili W es (viz [12]). Na obrázku 3.8 jsou zobrazeny výsledné odhady, jejich první derivace a na posledním grafu průměr a směrodaná odchylka odhadů. M2 Dimenze báze a penalizační kriérium jsou shodné jako v předchozím případě. Paramer λ = 2 10 11 byl opě určen zobecněnou cross-validací. Normalia reziduí se neprokázala u 2., 9. a 10. křivky. Na obrázku 3.8 jsou zobrazeny výsledné odhady, jejich první derivace a na posledním grafu průměr a směrodaná odchylka odhadů. 31

Funkcionalni daa (Fourierova baze) M1 lambda = 6e 11 1. derivace (Fourierova baze) M1 lambda = 6e 11 Prumer a smerodana odchylka M1 Rn/Bq^3 50 100 150 200 250 300 Rn/Bq^3 2000 1000 0 1000 2000 Rn/Bq^3 20 40 60 80 100 Obrázek 3.7: Odhady funkcionálních da, první derivace odhadu, průměr odhadů (žluě) a směrodaná odchylka odhadů (zeleně) Funkcionalni daa (Fourierova baze) M2 lambda = 2e 11 1. derivace (Fourierova baze) M2 lambda = 2e 11 Prumer a smerodana odchylka M2 Rn/Bq^3 50 100 150 200 250 Rn/Bq^3 1000 0 1000 2000 Rn/Bq^3 20 40 60 80 Obrázek 3.8: Odhady funkcionálních da, první derivace odhadu, průměr odhadů (žluě) a směrodaná odchylka odhadů (zeleně) 32

Odhad regresni funkce bea_1() bea_1() 0.8 1.0 1.2 1.4 1.6 3.3.3 Concurren model Budeme odhadova model Obrázek 3.9: Odhad regresní funkce modelu (3.33) M1 i () = M2 i () β () + ǫ i (), (3.33) kde R. Paramer λ c jsme určili cross-validací a jeho hodnoa je 0,3. Odhad regresní funkce β () spolu s 95% inervalem spolehlivosi je na obrázku 3.9. Průměrná RMSE vychází 28,83. Na obrázku 3.10 jsou odhady M1 predikované modelem (3.33). Je vidě, že inerval spolehlivosi pro odhad β () je širší v první polovině definičního oboru. Je o způsobeno vyšším rozpylem M1. Tvar funkce odpovídá omu, že průměr M1 je v první polovině inervalu T vyšší, než průměr M2, proo je regresní funkce věší než jedna. Je vidě, že i v druhé polovině odpovídá průběh regresní funkce skuečnosi. Teno příklad dobře ukazuje, že meoda skuečně funguje. Pro konsrukci složiějších modelů je nuné provés podrobnější analýzu rozpylu, např. pomocí meody hlavních komponen (viz [11]). 33

Replikace 1 Replikace 2 Replikace 3 y() 0 50 100 150 200 250 300 y() 0 50 100 150 200 250 300 y() 0 50 100 150 200 250 300 Replikace 4 Replikace 5 Replikace 6 y() 0 50 100 150 200 250 300 y() 0 50 100 150 200 250 300 y() 0 50 100 150 200 250 300 Replikace 7 Replikace 8 Replikace 9 y() 0 50 100 150 200 250 300 y() 0 50 100 150 200 250 300 y() 0 50 100 150 200 250 300 Replikace 10 Replikace 11 y() 0 50 100 150 200 250 300 y() 0 50 100 150 200 250 300 Obrázek 3.10: Odhad regresní funkce modelu (3.33) 34

Kapiola 4 Výpočení prosředí Tao kapiola shrnuje možnosi prakické aplikace posupů popsaných v éo práci. Pokud chceme využí již vyvořené procedury, je možné si vybra ze dvou programovacích jazyků. Prvním z nich je MATLAB. Podrobnější popis k funkcím v omo jazyce je možné nají v článku [9] nebo v knize [5]. Druhým jazykem, ve kerém exisuje implemenace funkcionální daové anylýzy je R, popř. S-Plus. Knihovna napsaná v omo jazyce se jmenuje fda. Podrobný popis funkcí a jejich paramerů je možné nají v nápovědě k éo knihovně nebo v knize [5], proo nebudeme u jednolivých funkcí uvádě podrobné vysvělení všech paramerů, ale pouze y klíčové. Cílem éo kapioly je vysvěli hlavní srukuru práce s funkcionálními day a zároveň zmíni základní funkce éo knihovny. 4.1 Základní funkce Abychom mohli získa z vekoru hodno funkcionální pozorování, je nuné nejprve vyvoři bázi. Knihovna fda umožňuje použí několik ypů bází, ale uvedeme pouze výše uvedenou bázi odvozenou od Fourierových řad (viz (2.12)) a b-splajn (viz (2.13)) bázi. Jedná se o dva nejčasěji používané ypy. Funkce, keré vyváří yo ypy bází, se jmenují následovně: creae.fourier.basis(rangeval=c(0,1), nbasis=3, period=diff(rangeval), dropind=null,...) paramery: rangeval: Vekor obsahující krajní body definičního oboru báze. nbasis: Celé číslo určující poče funkcí báze. 35

period: Perioda Fourierových funkcí. dropind: Teno paramer umožňuje vylouči někeré funkce z báze (např. nasavení dropind=1 vyvoří bázi bez absoluního členu). creae.bspline.basis(rangeval=null,nbasis=null, norder=4, breaks=null, dropind=null,...) paramery: rangeval: Vekor obsahující krajní body definičního oboru báze. nbasis: Celé číslo určující poče funkcí báze. norder: Řád splajnu. Plaí řád splajnu = supeň splajnu - 1. breaks: Dělící body inervalu, na kerém je b-splajn definovaný (krajní body spolu s vniřními uzly). Pokud označíme nbreaks = lengh(breaks), pak plaí nbasis = nbreaks + norder - 2 dropind: Viz creae.fourier.basis. Další paramery slouží k přesnější konsrukci výsledné báze. Výsledkem ěcho funkcí jsou objeky řídy basisfd, což je lis obsahující informaci o ypu báze (ype), poču funkcí báze (nbasis), definičním oboru (rangeval) a dalších paramerech (params). Pokud zadáme poče funkcí Fourierovy báze sudý, auomaicky je doplněn o chybějící člen. Zobrazení funkcí báze lze získa pomocí funkce plo(). K získání maice konkréních hodno báze v daných bodech definičního oboru (maice Φ), popřípadě jejich derivací, slouží funkce gebasismarix(evalarg, basisobj, nderiv=0) paramery: evalarg: Vekor bodů, ve kerých mají bý spočíány hodnoy báze. basisobj: Objek řídy basisfd. nderiv: Celé číslo určující supeň derivace. Nejjednodušší cesou, jak vyvoři z vekoru hodno funkcionální pozorování, je použí funkci daa2fd. Tao funkce je sice velmi jednoduchá (paramery jsou pouze vsupní daa, definiční obor a objek řídy basisfd), ale opimalizace se provádí pouze na základě SSE (viz (2.3)) a nelze použí penalizaci. Proo nebývají výsledky příliš kvaliní. Další funkcí, jejímž výsupem je funkcionální daový objek, je smooh.basis(argvals, y, fdparobj, wvec=rep(1, lengh(argvals)), 36

fdnames=null) paramery: argvals: Definiční obor diskréních pozorování. argvals: Pole obsahující diskréní pozorování. V případě více replikací se předpokládá, že poče sloupců je roven poču replikací a poče řádků odpovídá poču pozorování v jedné replikaci. wvec: Vekor obsahující váhy pro hodnoy y. fdnames: Umožňuje zadání názvů výsledného objeku. fdparobj: Pokud je řídy basisfd, poom se funkce smooh.basis shoduje s daa2fd. To znamená, že paramer λ je nulový a nedochází k penalizaci. Další možnou řídou ohoo parameru je fdpar, poom je možné aplikova opimalizaci pomocí penalizovaného souču čverců PSSE (viz 2.5). Výsupem éo funkce je lis obsahující funkcionální daový objek (fd), poče supňů volnosi (df), hodnou GCV (gcv), vekor (popř. maici) koeficienů C (viz model 2.2), SSE, penalizační maici R (penma) a maici G (y2cmap). Třída ohoo objeku je fdsmooh. Objek řídy fdpar je výsupem funkce fdpar(fdobj=null, Lfdobj=NULL, lambda=0, penma=null), paramery: fdobj: Funkcionální daový objek. Jednou z možnosí je objek řídy basisfd (další možnosi jsou popsány v nápovědě k éo funkci). Lfdobj: Lineární diferenciální operáor, kerý určuje penalizační kriérium. Může o bý objek řídy Lfd nebo celé číslo určující řád derivace. lambda: Nezáporné číslo určující míru vyhlazení. penma: Teno paramer slouží k uložení varu penalizační maice a ím umožňuje ušeři čas výpoču při opakovaném přepočíávání. Aby bylo možné urči hodnou parameru lambda pomocí zobecněné cross-validace, je pořeba funkce lambda2gcv(log10lambda, argvals, y, fdparobj), paramery: log10lambda: log 10 (λ). argvals: Definiční obor y. 37

y: Diskréní pozorování. fdparobj: Objek řídy fdpar. Výsupem je hodnoa zobecněné cross-validační funkce (viz (2.10)). Nakonec uvedeme funkce, kerá umožňuje z funkcionálního daového objeku zkonsruova konkréní hodnoy výsledného odhadu (popř. jeho derivací) v daných bodech. predic(objec, newdaa=null, Lfdobj=NULL,...), eval.fd(evalarg, fdobj, Lfdobj=0) paramery: objec: Objek řídy fdpar nebo fdsmooh. newdaa: Vekor hodno, ve kerých chceme počía hodnou funkcionálního daového objeku fdobj: Objek řídy fd. Lfdobj: Nezáporné celé číslo, keré určuje supeň derivování nebo objek řídy Lfd. 4.2 Charakerisiky funkcionálních da Nyní uvedeme funkce, keré počíají základní charakerisiky z kapioly (3.1). V dalším exu budeme předpokláda, že fdobj je výsupem funkce smooh.basis. Průměrová funkce: mean.fd(fdobj). Sandardní odchylka: sd.fd(fdobj). Kovarianční funkce a cross-kovarianční funkce: var.fd(fdobj1,fdobj2=fdobj1). U poslední funkce záleží na vsupních daech. Pokud je vsupem pouze jedna funkcionální veličina, výsupem je kovarianční funkce. Pokud jsou však vsupem dvě funkcionální veličiny, je výsupem cross-kovarianční funkce. Korelační a cross-korelační funkce 38

se dopočíá pomocí vzorců z kapioly 3.1 (viz (3.4) a (3.6)). 4.3 Concurren model Nyní se budeme zabýva počíáním concurren modelu pomocí knihovny fda. Slouží k omu funkce, keré si nyní uvedeme. Jak napovídá název knihovny, obecně slouží k výpoču regresních funkcionálních modelů, ale zde se budeme zabýva pouze varianou počíající již zmíněný concurren model (viz (3.12)). fregress(y, xfdlis, bealis,...) paramery: y: Závislá proměnná. Může bý ve formáu fd nebo fdpar. xfdlis: Objek řídy lis obsahující nezávislé proměnné (včeně konsaního členu). Prvkem ohoo seznamu může bý bud vekor konsan (v případě, že je nezávislá proměnná skalární), nebo objek řídy fd. V obou případech se poče replikací musí shodova s počem replikací nezávislé proměnné y. bealis: Jedná se opě o seznam. Jeho délka musí bý shodná s délkou xfdlis. Prvky jsou objeky řídy fdpar, keré definují jakým způsobem budou odhadovány regresní funkce. Výsupem éo funkce je seznam obsahující y, xfdlis, bealis, funkcionální daový objek pro odhady parameru β (beaeslis), predikované hodnoy (yhafdobj), inverzní maici C 1, y2cmap (viz dříve), odhad sandardní odchylky odhadu parameru β (beasderrlis), kovarianční maici bvar a maici F (c2bmap). Následující funkce počíá hodnou LMSSE (viz 3.15). fregress.cv(y, xfdlis, bealis,...) paramery: y: Viz fregress(). xfdlis: Viz fregress(). bealis: Viz fregress(). Výsupem je hodnoa minimalizačního kriéria (3.15) (SSE.CV) a cross-validační chyba (errfd.cv). Poslední funkcí, kerou se budeme zabýva je 39

fregress.sderr(y, xfdlis, bealis,...) paramery: y: Viz fregress(). y2cmap: Maice, kerá ransformuje závislou proměnnou y do vekoru (popř. maice) koeficienů C. Tao maice je výsupem funkce smooh.basis. SigmaE: Maice (popřípadě dvourozměrný funkcionální objek), kerá odhaduje kovarianční srukuru reziduí modelu. Výsupem je lis následujících ří objeků. Prvním je beasderrlis. Teno objek obsahuje funkcionální objeky odhadující sandarní odchylky regresních funkcí. Jejich poče odpovídá poču nezávislých proměnných. Další je bvar symerická výběrová kovarianční maice regresních koeficienů. Poslední je maice c2bmap, kerá umožňuje ransformaci koeficienů použiých pro vyhlazení závislé proměnné na regresní koeficieny. Exisuje mnoho dalších funkcí, keré umožňují například pohodlné zobrazení výsledků nebo podrobnější analýzu funkcionálních da. Cílem éo kapioly však nebylo uvés přehled všech funkcí, ale pouze ěch, keré jsou klíčové pro aplikaci výše uvedených posupů. 40

Kapiola 5 Shrnuí Podařilo se nám eoreicky popsa meody pro získání funkcionálních da na základě diskréních pozorování. Na simulovaných daech jsme ukázali výhody a nevýhody jednolivých přísupů. Dále jsme zformulovali model pro funkcionální daa, kerý modeluje závislos funkcionálních náhodných veličin dynamicky v čase. Teno model je cilivý na rozpyl proměnných a aké na velikos parameru λ c. Model není příliš cilivý na velikos parameru λ, kerý určuje míru vyhlazení závislé proměnné. Na simulovaných daech bylo vidě, že i pro nevhodný paramer λ dává model dobré výsledky a že jeho predikční schopnos je lepší než predikční schopnos modelu (2.2). Nakonec jsme eno model aplikovali na reálná daa. Srukura modelu byla úmyslně volena jednoduše, aby výsledky byly jasně inerpreovaelné a ověřielné. 41