Univerzita Karlova v Praze Matematicko fyzikální fakulta DIPLOMOVÁ PRÁCE. Alžbeta Demeterová

Podobné dokumenty
Klimatické modely a scénáře změny klimatu. Jaroslava Kalvová, MFF UK v Praze

11. PROJEKCE BUDOUCÍHO KLIMATU NA ZEMI

KLIMATICKÝ DOWNSCALING. ZOO76 Meteorologie a klimatologie Petr Kolář PřF MU Brno

Možné dopady klimatické změny na dostupnost vodních zdrojů Jaroslav Rožnovský

AVDAT Nelineární regresní model

Regresní analýza 1. Regresní analýza

Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Průběh průměrných ročních teplot vzduchu (ºC) v období na stanici Praha- Klementinum

AVDAT Klasický lineární model, metoda nejmenších

Změna klimatu dnes a zítra

Klimatická změna minulá, současná i budoucí: Příčiny a projevy

STATISTICKÉ ODHADY Odhady populačních charakteristik

Změny klimatu za posledních 100 let

METODIKA PRO PŘEDPOVĚĎ EXTRÉMNÍCH TEPLOT NA LETECKÝCH METEOROLOGICKÝCH STANICÍCH AČR

AVDAT Výběr regresorů v mnohorozměrné regresi

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Možné dopady měnícího se klimatu na území České republiky

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

Testování hypotéz o parametrech regresního modelu

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

vzorek vzorek

Korelační a regresní analýza

Odhad parametrů N(µ, σ 2 )

Testování hypotéz o parametrech regresního modelu

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

6. Lineární regresní modely

7. Rozdělení pravděpodobnosti ve statistice

Chyby měření 210DPSM

Jednofaktorová analýza rozptylu

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Úvod do problematiky měření

U Úvod do modelování a simulace systémů

Neuronové časové řady (ANN-TS)

Simulace. Simulace dat. Parametry

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Normální (Gaussovo) rozdělení

Statistická analýza jednorozměrných dat

Aplikovaná statistika v R - cvičení 3

Příloha P.1 Mapa větrných oblastí

PRAVDĚPODOBNOST A STATISTIKA

Úlohy nejmenších čtverců

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Klimatické podmínky výskytů sucha

Modelování a simulace Lukáš Otte

5. hodnotící zpráva IPCC. Radim Tolasz Český hydrometeorologický ústav

AVDAT Geometrie metody nejmenších čtverců

STATISTICKÉ CHARAKTERISTIKY

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

AVDAT Mnohorozměrné metody, metody klasifikace

1. Přednáška. Ing. Miroslav Šulai, MBA

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Časové řady, typy trendových funkcí a odhady trendů

odpovídá jedna a jen jedna hodnota jiných

Nejistoty v konstrukci regionálních scénářů změny klimatu. Martin Dubrovský Ústav fyziky atmosféry AVČR. České Budějovice,

PŘÍČINY ZMĚNY KLIMATU

Vliv Mosteckého jezera na teplotu a vlhkost vzduchu a rychlost větru. Lukáš Pop Ústav fyziky atmosféry v. v. i. AV ČR

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Optimalizace provozních podmínek. Eva Jarošová

Statistika (KMI/PSTAT)

Časové řady, typy trendových funkcí a odhady trendů

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Hodnocení roku 2013 a monitoring sucha na webových stránkách ČHMÚ možnosti zpracování, praktické výstupy

You created this PDF from an application that is not licensed to print to novapdf printer (

Regresní a korelační analýza

CO JE TO KLIMATOLOGIE

, Brno Hanuš Vavrčík Základy statistiky ve vědě

5 HODNOCENÍ PŘEDPOVĚDÍ TEPLOT A SRÁŽEK PRO OBDOBÍ JARNÍCH POVODNÍ V ROCE 2006

UNIVERZITA PARDUBICE

Matematické modelování dopravního proudu

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

5. Lokální, vázané a globální extrémy

You created this PDF from an application that is not licensed to print to novapdf printer (

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Návrh postupu pro stanovení četnosti překročení 24hodinového imisního limitu pro suspendované částice PM 10

10. Předpovídání - aplikace regresní úlohy

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

KALIBRACE. Definice kalibrace: mezinárodní metrologický slovník (VIM 3)

SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování

Hodnocení let 2013 a 2014 a monitoring sucha na webových stránkách ČHMÚ možnosti zpracování, praktické výstupy

Úvodem Dříve les než stromy 3 Operace s maticemi

4EK211 Základy ekonometrie

Aplikovaná numerická matematika

Náhodné chyby přímých měření

Systém rizikové analýzy při sta4ckém návrhu podzemního díla. Jan Pruška

Regresní a korelační analýza

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

Regresní a korelační analýza

Základní statistické charakteristiky

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Výběrové charakteristiky a jejich rozdělení

Hodina 50 Strana 1/14. Gymnázium Budějovická. Hodnocení akcií

Transkript:

Univerzita Karlova v Praze Matematicko fyzikální fakulta DIPLOMOVÁ PRÁCE Alžbeta Demeterová Regionalizace výstupů globálních klimatických modelů lineárními metodami Katedra meteorologie a ochrany prostředí Vedoucí diplomové práce: doc. RNDr. Jaroslava Kalvová, CSc. Studijní program: Fyzika Studijní obor: Meteorologie a klimatologie Praha 2005

ii Poděkování V první řadě bych chtěla poděkovat doc. RNDr. Jaroslavě Kalvové, CSc. za její velkou obětavost a trpělivost při vedení mé diplomové práce. Ráda bych také poděkovala Mgr. Jiřímu Mikšovskému Ph.D. a Mgr. Petrovi Pišoftovi, spoluřešitelům projektu VaV/740/2/03, za technickou pomoc. Děkuji také Mgr. Matoušovi Borákovi za zprostředkování dat a Mgr. Miroslavovi Šimanovi za obětavou pomoc při jejich zpracování. V neposlední řadě chci poděkovat svým rodičům za duševní i finanční podporu, kterou mi poskytovali během mého studia. Prohlašuji, že jsem svou diplomovou práci napsala samostatně a výhradně s použitím citovaných pramenů. Souhlasím se zapůjčováním práce. V Praze dne 12.8.2005 Alžbeta Demeterová

Abstrakt Název práce: Regionalizace výstupů globálních klimatických modelů lineárními metodami Autor: Alžbeta Demeterová Katedra (ústav): katedra meteorologie a ochrany prostředí Vedoucí diplomové práce: Doc. RNDr. Jaroslava Kalvová, CSc. e-mail vedoucího: jaroslava.kalvova@mff.cuni.cz Abstrakt: Globální klimatické modely v sobě nesou řadu omezení, která zvyšují neurčitost jejich výstupů. Navíc, jejich hrubá rozlišovací schopnost kromě jiného neumožňuje vystihnout lokální charakter klimatu. Tato diplomová práce se zaměřuje na zpřesňování odhadu změny průměrné, minimální a maximální denní teploty vzduchu ve výšce 2 m nad povrchem pomocí metod statistického lineárního downscalingu. Zkoumalo se 11 statistických metod odhadů koeficientů vícerozměrné lineární regrese, které byly aplikovány na data s denním a měsíčním časovým krokem. Úspěšnost statistických metod byla hodnocena na základě střední kvadratické chyby (RMSE) a shody ročních chodů regionalizovaných teplotních souborů z NCEP/NCAR reanalýz a výstupů modelu HadCM3 s ročními chody odvozenými z pozorování na pěti vybraných oblastech ČR. Jako nejlepší z postupů se jevila hřebenová regrese, metoda nejmenších částečných čtverců a metoda zpětné eliminace prediktorů při jejich aplikaci na data s denním časovým krokem pro každou roční sezónu zvlášť. Klíčová slova: lineární statistický downscaling, regionalizace, přízemná teplota, klimatická změna, globální klimatické modely, HadCM3 Title: A linear approach to regionalization of global climate models outputs Author: Alžbeta Demeterová Department: Department of Meteorology and Environmental Protection Supervisor: Doc. RNDr. Jaroslava Kalvová, CSc. Supervisors e-mail address: jaroslava.kalvova@mff.cuni.cz Abstract: Global Climate Models have many shortcomings, which magnify their outputs uncertainties. Moreover, coarse resolution of global models prevent reliable capturing of climate features on a local scale. This diploma thesis is focused on improvement of future air temperature changes estimates (daily average, minimum and maximum temperatures at 2 m above the ground) by the means of linear statistical downscaling methods. 11 methods of multiple linear regression coefficients computation were applied to data with both daily and monthly resolution. Reliability of these statistical methods was assessed using both root mean square error and conformity of annual course of regionalized temperatures calculated from NCEP/NCAR reanalysis and HadCM3 outputs with observations in five selected regions of the Czech Republic. The best performance was achieved by the ridge regression, partial least squares method and backward elimination procedure, when applied on daily data and separately for each season. Keywords: linear statistical downscaling, regionalization, air temperature, climate change, Global Climate Models, HadCM3 iii

Obsah 1 Úvod 1 2 Regionalizace výstupů globálních klimatických modelů 4 2.1 Úvod..................................... 4 2.2 Lineární statistický downscaling...................... 5 2.2.1 Výběr prediktandů......................... 6 2.2.2 Výběr oblasti a fyzikálních veličin pro sestavení množiny prediktorů 6 2.2.3 Metody výběru prediktorů..................... 7 3 Datové soubory 8 3.1 Data z globálního klimatického modelu.................. 8 3.1.1 Globální klimatický model HadCM3............... 8 3.1.2 Databáze výstupů HadCM3.................... 9 3.1.3 Proměnné modelu HadCM3 použité při lineárních postupech regionalizace....................... 10 3.2 Reanalýzy.................................. 10 3.3 Staniční data................................ 11 4 Metody zpracování 13 4.1 Stavba lineárního modelu downscalingu.................. 13 4.1.1 Výběr a použití menšího počtu prediktorů............ 14 4.1.2 Dodatečná omezení na regresní koeficienty............ 15 4.1.3 Použití latentních proměnných................... 15 4.2 Standardizace................................ 16 5 Výsledky 17 5.1 Porovnání charakteristik časových řad teploty vzduchu v uzlovém bodě HadCM3 s pozorováními ve vybraných oblastech ČR.......... 17 5.2 Výběr statistické metody výpočtu odhadů regresních koeficientů.... 23 5.2.1 Kritérium RMSE.......................... 23 5.2.2 Charakter ročních chodů teploty vzduchu odvozených z reanalýz a modelu HadCM3 pro období 1961 1990............ 26 5.2.3 Nejvlivnější regresory........................ 31 5.3 Charakteristiky změny teploty v letech 2036 2065........... 34 5.4 Porovnání výsledků dosažených lineárními a nelineárními postupy... 37 6 Závěr 41 iv

OBSAH v A Komentář k DVD médiím obsahujícím výstupy regionalizace 47 A.1 Pojmenování adresářů........................... 47 A.2 Pojmenování souborů............................ 47 B Tabulky teplotních změn v období 2036 2065 50 C Grafy rozpětí neurčitosti v oteplení v období 2036 2065 56

Kapitola 1 Úvod S výjimkou posledních dvou století se globální klima utvářelo převážně na základě přirozených klimatotvorných procesů, bez podstatného vlivu lidské činnosti. Prvně na závažnost problému možného negativního vývoje klimatu, způsobeného antropogenními emisemi CO 2, poukázali klimatologové už koncem 19. století. V padesátých letech 20. století byla v zemské atmosféře naměřena koncentrace CO 2, která byla výrazně vyšší než odhady pro předindustriální období (rok 1750) a růst koncentrace skleníkových plynů v atmosféře dosud pokračuje. V současné době je již koncentrace CO 2 oproti předindustriální éře cca o jednu třetinu vyšší. Teoretické výpočty poukazují na možnou souvislost mezi pozorovaným globálním oteplováním a růstem skleníkového efektu atmosféry (IPCC, 1995). Důležitým úkolem vědců klimatologů v oblasti studia klimatické změny je srozumitelným způsobem předložit vládám jednotlivých států obraz o stavu klimatického systému a jeho možného vývoje. Od těchto analýz se pak odvíjejí požadavky na konkrétní činnosti vedoucí k omezení následků klimatické změny způsobené člověkem. Jedním z účinných nástrojů, jakým v současnosti získáváme informace o klimatických poměrech v budoucnu, jsou globální klimatické modely (GCM). Přesto, že je spolehlivost výstupů GCM poměrně vysoká, nesou v sobě řadu omezení, která zvyšují neurčitost těchto dat. Mezi tyto nedostatky patří například míra našeho dosavadního pochopení procesů probíhajících v klimatickém systému a schopnosti tyto jevy matematicky vyjádřit. Limitováni jsme také úrovní současné výpočetní techniky. Víme, že pokusy s globálními klimatickými modely patří k nejnáročnějším úkolům, jaké byly dosud pomocí počítačů řešeny. Mezi některé důsledky tohoto omezení patří velký prostorový krok sítě uzlových bodů GCM, což se projevuje nutností parametrizace podměřítkových procesů, zkreslením orografie a z toho plynoucími dalšími důsledky. Konečně, i kdybychom měli k dispozici dokonale rychlou výpočetní techniku s dostatečnou paměťovou kapacitou a dokázali popsat všechny faktory ovlivňující klimatotvorné procesy, nebyli bychom schopni pomocí GCM, díky nezanedbatelnému podílu chaotičnosti ve složitém souboru nelineárních zpětných vazeb klimatickém systému, tento libovolně přesně popsat. Tato problematika už ale spadá do oblasti poměrně mladého vědního oboru teorie deterministického chaosu. Úkolem této diplomové práce bylo posoudit možnost regionalizace (downscalingu) teplotních výstupů globálního klimatického modelu HadCM3 lineárními statistickými metodami. Jedná se o statistické postupy, pomocí kterých se snažíme zpřesnit ( zahustit ) předpokládané teplotní změny poskytnuté globálním modelem do vybraných lokalit (stanic), v našem případě do vybraných oblastí ČR. Základní myšlenka je za- 1

1. ÚVOD 2 ložena na tom, že GCM lépe vystihují proměnné ve volné atmosféře než při zemském povrchu. Hledá se tudíž přenosová funkce mezi proměnnými ve volné atmosféře a teplotou vzduchu ve 2 m nad zemí. Downscaling do určité míry pomáhá překlenout problém mezi hrubým horizontálním rozlišením globálních klimatických modelů a požadavky odborníků zabývajících se odhady dopadů změny klimatu, kteří vyžadují co nejpodrobnější časové a prostorové informace. Postup řešení diplomové práce, který jsem měla doporučený, je možno shrnout do následujícího: studovat lineární metody regionalizace výstupů GCM pokusit se navrhnout vhodné prediktory a lineární postupy pro regionalizaci měsíčních, popř. denních výstupů HadCM3 do zvolených oblastí ČR porovnat charakteristiky souborů měřených teplot a teplot získaných lineární regionalizací Z výše uvedeného zadání vychází struktura mé diplomové práce. Po stručném úvodu je na začátku teoretické části diplomové práce (kap. 2) uveden popis dosavadních poznatků v oblasti regionalizace výstupů globálních klimatických modelů. Pozornost je věnována zejména metodě lineárního statistického downscalingu 1. V další kapitole se blíže seznámíme se soubory dat, které použijeme k výpočtům. Představíme verzi britského globálního klimatického modelu HadCM3 a také časové řady staničních pozorování a reanalýz, pomocí kterých budou konstruovány přenosové funkce statistického downscalingu. Čtvrtá kapitola obsahuje popis statistických postupů použitelných pro sestavení lineárního regresního modelu a odhad jeho koeficientů, které určitým způsobem řeší problém multikolinearity a velkého počtu potenciálních regresorů. V úvodu vlastní praktické části diplomové práce (kap. 5) bude nejprve diskutována schopnost globálního klimatického modelu HadCM3 popsat klima v oblasti ČR z hlediska denních maximálních, minimálních a průměrných teplot vzduchu. Základní statistické charakteristiky modelových teplotních souborů ve vybraném uzlovém bodu HadCM3 budou porovnány s charakteristikami souborů měřených teplot pro několik oblastí ČR. V dalším kroku budou počítány regresní koeficienty lineární regresní funkce mezi soubory minimální, maximální a průměrné denní teploty vzduchu charakterizujícími několik oblastí ČR a prediktory (opět s denním krokem) odvozenými z reanalýz mezi soubory měsíčních průměrů minimální, maximální a průměrné denní teploty vzduchu a prediktory (průměrné měsíční hodnoty) odvozenými z reanalýz K odhadu regresních koeficientů budou použity všechny metody popsané v kap. 4, za referenční období je zvoleno období 1961 až 1990. Výpočty budou provedeny opakovaně 1. pro soubory denních dat pro jednotlivé měsíce, roční období a rok jako celek 2. pro soubory měsíčních průměrů pro jednotlivé sezóny roku i pro celý rok 1 downscaling zmenšování měřítka, český ekvivalent není k dispozici

1. ÚVOD 3 Pro všechny varianty pak budou vypočítány soubory teplot odvozené z výstupů HadCM3 (v lineárním regresním vztahu se známými koeficienty, vypočítanými v předchozí fázi řešení budou prediktory odvozené z reanalýz nahrazeny prediktory z HadCM3). Výsledky obou fází výpočtu budou analyzovány a z metod popsaných v kap. 4 pak pomocí vhodného kriteria bude vybráno několik nejlepších. Odhady regresních koeficientů pomocí těchto statistických metod pak použijeme k určení změny denní minimální, maximální a průměrné teploty vzduchu v období 2036 až 2065 vůči zvolenému referenčnímu období (kap. 5.3). Výstupy modelu HadCM3 pro období 2036-2065 vycházejí z emisního scénáře SRES rodiny B2. V rámci projektu VaV/740/2/03, kterého součástí je i tato diplomová práce, se prováděl statistický downscaling rovněž použitím nelineárních metod (neuronových sítí). Na závěr praktické částí diplomové práce jsem se proto pokusila porovnat výsledky lineárního a nelineárního přístupu.

Kapitola 2 Regionalizace výstupů globálních klimatických modelů 2.1 Úvod Při studiu charakteru budoucích změn klimatu se často pracuje s výstupy globálních klimatických modelů. Jde o časové řady hodnot různých meteorologických prvků v bodech třírozměrné sítě nad zemským povrchem, případně i do jisté hloubky oceánů, s měsíčním nebo denním krokem. Některá centra modelování klimatu poskytují výsledky i pro dva (např. Climate Canadian Centre, CCC) nebo čtyři denní termíny. Horizontální rozlišení globálních klimatických modelů se většinou pohybuje kolem 300 500 km (Wilby et al., 2004). Studie zaměřené na dopady klimatických změn však vyžadují přesnější informaci, a to zejména co se týče prostorového a časového měřítka. Blíže je o tomto problému pojednáno v kap. 5.1 na konkrétním případě uzlového bodu modelu HadCM3 ležícího v České republice. Metody, které tento nesoulad mezi měřítky (horizontálním a časovým rozlišením poskytovaných výstupů klimatických modelů a požadavky odborníků zkoumajících charakter a rozsahy klimatických změn) řeší, obecně nazýváme downscaling. Mezi nejvíce užívané metody patří regionální klimatické modely a statistický downscaling. Pro regionální klimatické modely se v literatuře používá též označení dynamický downscaling. Jedná se často o podmodely vystavěné na ohraničené oblasti zahrnuté v GCM 1, ze kterého dynamicky přebírají vstupní data v jednotlivých časových krocích. Hlavními technikami statistického downscalingu, jak uvádí Wilby et al. (2004), jsou zejména typizace počasí 2, metoda stochastických generátorů a regresní modely. Typizace počasí u datových souborů s denním časovým krokem znamená roztřídění dní do konečného počtu skupin s podobnou synoptickou situací, a to na základě shlukové analýzy 3 nebo podle subjektivních cirkulačních klasifikačních schémat. Prediktandem bývá převládající synoptická situace pro daný den. Stochastické generátory se řídí rovnicemi popisujícími statistickou strukturu dat (nejčastěji pomocí autoregresních modelů nebo Markovských řetězců) na rozdíl od dynamických modelů, které jsou postaveny na rovnicích fyzikálních procesů. Regresní modely zachycují lineární, nebo nelineární vztahy 1 GCM Global Climatic Model 2 angl. weather classification 3 angl. cluster analysis 4

2. REGIONALIZACE VÝSTUPŮ GLOBÁLNÍCH KLIMATICKÝCH MODELŮ 5 mezi prediktandem a vlivem meteorologických proměnných ve velkém měřítku zejména ve volné atmosféře. Oproti statistickému downscalingu, který zachycuje jenom ty vztahy, které byly pozorované v minulosti, jsou za perspektivnější považovány regionální klimatické modely (IPCC, 2001). Ty zahrnují fyzikální procesy a zaručují fyzikální konzistenci mezi jednotlivými proměnnými. Na druhé straně jsou však regionální modely náročné na výpočetní čas, a tedy nákladné a jejich rozlišovací schopnost (20 60 km) stále ještě nepopisuje uspokojivě lokální charakter klimatu (IPCC, 2001; Huth, 2003). Statistický downscaling nachází své uplatnění zejména v oblastech se složitější orografií, nebo obecně tam, kde se vyskytují vysoké gradienty meteorologických veličin, nebo tyto gradienty mají velkou proměnlivost (např. ostrovy, hornatá krajina, pobřeží). Jako téměř jediná vhodná metoda se pak jeví při zkoumání klimatických změn v jediném místě. Další specifickou oblastí, kde je statistický downscling hodně využíván, je popis extrémních jevů v menším měřítku než má klimatický model (např. horké vlny, výskyt silných srážek, nebo lokalizace povodní) (Wilby et al., 2004). Předností statistického downscalingu je rovněž možnost zkoumání dopadu klimatických změn i u takových proměnných, které se nenacházejí ve výstupech klimatických modelů. Některé příklady jsou uvedeny v kap. 2.2.1. V naši práci se budeme zabývat postupy lineárního statistického downscalingu. Vzhledem k tomu, že budeme downscaling provádět ne do jednotlivých míst meteorologicých statnic, ale do několika oblastí ČR, budeme tento postup rovněž nazývat regionalizací výstupů klimatických modelů. 2.2 Lineární statistický downscaling Mezi statistickými metodami používanými pro konstrukci modelů downscalingu převažují metody lineární. Nejčastěji je využívána násobná lineární regrese, aplikováná na každou meteorologickou stanici nebo typickou skupinu stanic zvlášť. Z nelineárních metod jsou využívané např. vícerozměrné regresní spliny, kanonická korelační analýza a v současnosti pak zejména neuronové sítě (IPCC, 2001; Huth, 2003). Hlavní myšlenkou lineárního statistického downscalingu je najít lineární empirickou přenosovou funkci (např. sadu regresních koeficientů), pomocí které se přetransformují výstupy globálního klimatického modelu s jeho hrubým rozlišením do zvoleného místa nebo oblasti. Za předpokladu dobré simulace přízemních hodnot meteorologických prvků klimatickým modelem může přenosová funkce představovat vztah modelových hodnot určitého klimatického prvku (např. teploty vzduchu) v uzlových bodech k jeho měřeným lokálním hodnotám (stanice, malá oblast). Častěji však jde o statistický vztah mezi polem jedné nebo více meteorologických proměnných počítaných klimatickým modelem ve volné atmosféře (např. relativní nebo absolutní topografie, tlak vzduchu, vlhkost) a určitou lokální přízemní proměnnou, např. teplotou vzduchu měřenou na meteorologické stanici, nebo průměrem teplot na meteorologických stanicích ve zkoumané oblasti (Palutikof, 1997). Tento druhý přístup používáme i v této práci. Výsledná klimatická změna, kterou získáme použitím downscalingu závisí do jisté míry na výběru konkrétního statistického postupu (např. Huth, 2004; Faraway, 2002; Bradley, 2003; Taylor, 2004) i na konkrétních subjektivních rozhodnutích při konstrukci přenosové funkce (Winkler, 1997), mezi které patří např. výběr vstupních proměnných, volba velikosti jejich pole, jejich časový krok, definice ročních sezón, počet regresorů či

2. REGIONALIZACE VÝSTUPŮ GLOBÁLNÍCH KLIMATICKÝCH MODELŮ 6 prediktorů v regresním modelu atd. 2.2.1 Výběr prediktandů V databázích nejsnáze dostupnými a zároveň nejčastěji požadovanými veličinami ve studiích zabývajících se dopady změny klimatu, je teplota vzduchu (denní maximální, minimální a průměrná; v ČR se měří ve výšce 2 m nad zemským povrchem) a atmosférické srážky. Vzhledem k tomu, že při regionalizaci budeme používat pole meteorologických proměnných ve volné atmosféře (kromě tlaku vzduchu redukovaného na hladinu moře), je tato teplota v dalším označována jako přízemní teplota. Výjimečně se pomocí downscalingu počítají další klimatické veličiny jako denní amplituda teploty vzduchu, množství oblačnosti, sluneční svit, výška základny oblačnosti, vlhkostní proměnné, sněhová pokrývka, výška hladiny moře (Huth, 2003). Podle požadavků lokálního charakteru se někdy zkoumají i exotičtější prediktandy jako výška vln a salinita na pobřeží Polska, začátek období kladení jiker v rybích chovech Severního moře apod. (Wilby et al., 2004). Požadovaná proměnná je definovaná buď v konkrétní lokalitě (meteorologická stanice apod.), nebo se určuje pro třídu stanic klasifikovaných podle jistého kriteria podobnosti. Obecně větší úspěšnosti se dosahuje při downscalingu přízemních teplot vzduchu než u atmosférických srážek. Liší se i výsledky pro různá roční období a různé geografické oblasti (Huth, 2003). 2.2.2 Výběr oblasti a fyzikálních veličin pro sestavení množiny prediktorů K výběru oblasti, ze které určujeme prediktory, existují dva základní přístupy. První možností je použít lokální hodnoty většího množství prediktorů nad jedním místem či v několika uzlových bodech blízkých uvažované stanici. Druhou možností je použít pole jedné či několika málo proměnných definovaných na větší oblasti v uzlových bodech modelové sítě. Ta se volí zpravidla tak, aby byla schopná zachytit důležité atmosférické procesy, jako např. trajektorie tlakových níží, vliv větších vodních ploch, nebo orografii (Wilby et al., 2004). Někdy se k odhadu velikosti této oblasti používají korelační mapky dvourozměrně kvantifikujíci vztah mezi prediktandem a jednotlivými prediktory, které názorně popisují dosah vzájemného vlivu (Wilby et al., 2004). Pro úspěšný downscaling je do velké míry důležitý výběr vhodných fyzikálních proměnných. Měly by splňovat následující podmínky (IPCC, 2001): 1. být úspěšně simulovány globálními klimatickými modely 2. vysvětlovat dostatečně velkou část rozptylu prediktandu 3. vztah mezi prediktorem a prediktandem by neměl být proměnný v čase 4. tento vztah by měl zůstat nezměněn i v budoucím klimatu. První požadavek není u proměnných modelu HadCM3 zcela splněn, jak vyplývá např. z porovnání geografického rozložení mezidenní variability relativní topografie hladin

2. REGIONALIZACE VÝSTUPŮ GLOBÁLNÍCH KLIMATICKÝCH MODELŮ 7 850 a 500 hpa (RT 500 850 ) dat z NCEP/NCAR reanalýz a tohoto modelu v Raidl, Mikšovský (2004). Oproti tomu však byly u průměrných hodnot této veličiny pozorovány už jen minimální rozdíly. Míra, do jaké je splněn druhý požadavek, se zjišťuje pomocí statistik jako je střední kvadratická chyba nebo korelační koeficient mezi hodnotami získanými downscalingem a příslušnými měřenými hodnotami, zkoumáním časové a prostorové struktury obou polí (souborů) hodnot nebo vyšších momentů statistických rozdělení (Huth et al., 2003). Třetí požadavek často neplatí (zejména při úvahách, že klimatické změny povedou ke změně v režimu atmosférické cirkulace, nebo ke kolapsu cirkulace v severním Atlantickém oceánu) a splnění čtvrté podmínky je možné jenom předpokládat, ne však ověřit. Může také nastat situace, že některé proměnné nemusí být jako prediktory při modelování současného klimatu podstatné, avšak pro zachycení klimatické změny se mohou ukázat jako rozhodující (IPCC, 2001; Wilby et al., 2004). Pro odhad teplotní klimatické změny, vyvolané růstem atmosférického CO 2, je potřebné zachytit jak vliv změn atmosférické cirkulace, tak změn radiačních toků v atmosféře (IPCC, 2001). 2.2.3 Metody výběru prediktorů Výchozím statistickým modelem pro lineární statistický downscaling je obvykle klasická vícerozměrná lineární regrese. Prediktory, které máme k dispozici ve formě polí několika meteorologických proměnných, však nesplňují požadavky, které jsou na ně před vstupem do statistického modelu kladeny. Fyzikální propojenost meteorologických proměnných v jednom či několika málo uzlových bodech, nebo v celých polích, vede k jejich silné vzájemné korelaci. Dalším problémem je velký počet regresorů (např. pro oblast 40 60 s. š. a 0 30 v. d. při prostorovém kroku 2,5 x 2,5 a třech meteorologických veličinách jde o 351 proměnných), což vede k nestabilitě přenosové funkce a velkým rozptylům odhadovaných regresních koeficientů. Tento efekt navíc umocňuje malá délka časových řad. Podle StatSoft (1999) poměr regresorů a pozorování by měl být 1:10, nebo až 1:20. Např. u měsíčních řad pro období 30 let je však tento poměr pro výše uvedený případ 351 proměnných přibližně 1:1, u denních dat pro jednu roční sezónu a 30 let přibližně 1:8. Z těchto důvodů se používá řada metod a přístupů, které vedou k redukci počtu regresorů, nebo u některých postupů také k vytvoření vzájemně nekorelovaných proměnných. Bližší popis několika konkrétních metod, které jsou v této práci použity, lze nalézt v kap. 4.

Kapitola 3 Datové soubory 3.1 Data z globálního klimatického modelu Výstupy některých globálních klimatických modelů jsou pro vědecké účely k dispozici v datovém distribučním centru (DDC) Mezivládního panelu klimatické změny (IPCC) na internetové stránce http://ipcc-ddc.cru.uea.ac.uk. Skupina IPCC Task Group on Data and Scenario Support for Impact and Climate Analysis (TGICA) shromažďuje, spravuje a distribuuje výstupy klimatických modelů prostřednictvím třech center: Climatic Research Unit (CRU) ve Velké Británii Deutches Klimarechenzentrum (DKRZ/MPI) v Německu Center for International Earth Science Information Network (CIESIN) na Columbia University, New York, USA Výběr britského modelu HadCM3 pro diplomovou práci vyplýval jednak ze závěrů předchozích projektů řešených na katedře meteorologie a ochrany prostředí, zejména projektu VaV/740/1/00 (Kalvová a kol., 2001), jednak z cílů projektu VaV/740/2/03, jehož součástí je i tato diplomová práce. 3.1.1 Globální klimatický model HadCM3 Zkratka HadCM3 označuje verzi globálního klimatického modelu provozovaného a dále rozvíjeného v Hadley Centre for Climate Prediction and Research (HCCPR), Velká Británie. Jak je uvedeno na internetových stránkách modelu HadCM3 (http://www.metoffice.com/research/hadleycentre/models/hadcm3.html), jde o tzv. spřažený 1 model atmosféra oceán, ve kterém je model všeobecné cirkulace atmosféry (AGCM) propojen s cirkulačním modelem oceánu (OGCM). Model má prostorové rozlišení 2,5 x 3,75 (zeměpisná šířka x délka), globální síť modelu je tedy dána 96 x 73 uzlovými body. Toto rozlišení odpovídá na 45 z. š. cca 295 x 278 km. HadCM je diferenční model, v atmosféře má 19 hladin, v oceánu 20 hladin. Verze modelu HadCM3 se od předešlého HadCM2 liší především parametrizacemi některých fyzikálních procesů. Radiační schéma obsahuje 6 krátkovlnných a 8 dlouhovlnných spektrálních pásem. Schéma zemského povrchu zahrnuje vliv procesů zamrzání a tání na půdní vlhkost. 1 angl. coupled 8

3. DATOVÉ SOUBORY 9 Oproti starší verzi byla upravena parametrizace generování, šíření a disipace orografických a gravitačních vln. Model atmosféry počítá i transport, oxidaci a odstraňování antropogenních emisí sloučenin síry fyzikální depozicí a vymýváním. To umožňuje modelování přímého i nepřímého radiačního působení sulfátových aerosolů. Podstatný rozdíl oproti HadCM2 spočívá také v tom, že radiační vlivy CO 2, vodní páry, ozónu a dalších skleníkových plynů jsou nyní počítány explicitně pro každý plyn zvlášť. Do modelu je zahrnuta i jednoduchá parametrizace pozaďových aerosolů. HadCM3 má stabilní kontrolní běh modelu, téměř bez driftu, nepoužívá korekční toky tepla. 3.1.2 Databáze výstupů HadCM3 Časové řady měsíčních průměrů denní maximální, minimální a průměrné teploty vzduchu (ve výšce 1,5 m nad zemským povrchem) z modelu HadCM3 byly v rámci databáze IPCC volně zpřístupněny na internetu již po roce 2000. Denní data potřebná pro regionalizaci jsou však dostupná jen na požádání. Denní modelové výstupy byly laskavě poskytnuty pro projekt VaV/740/2/03 Hadley Centrem a Britským meteorologickým úřadem prostřednictvím projektu pro výzkum dopadů klimatických změn (Climate Impacts LINK Project DEFRA Contract EPG 1/1/124). Staženo bylo celkem 14 proměnných (tab. 3.1) pro dva různé emisní scénáře (SRES B2a a SRES A2a, viz níže). Tato data byla pak archivována na DVD médiích. Údaje, které jsem použila v této práci (v tab. 3.1 jsou označena *), jsou přepočítány do sítě uzlových bodů s prostorovým krokem 2,5 x 2,5 (pomocí jednodimenzionálních přirozených kubických splinů, individuálně pro jednotlivé zeměpisné šířky (Raidl, Mikšovský, 2004)). Modelová data a údaje z NCEP/NCAR reanalýz (viz níže) tak byly k dispozici v jednotné síti uzlových bodů. Zkratkou SRES 2 se označuje skupina emisních scénářů IPCC (Nakićenović et al., 2000) rozdělená do 4 hlavních rodin označených jako A1, A2, B1, B2. Toto rozdělení zahrnuje jak regionální, tak globální charakter budoucího vývoje světa i vztah k řešení problémů životního prostředí. U scénářů A se předpokládá lhostejnost vůči otázkám životního prostředí, naopak je tomu u scénářů B. Rodiny scénářů s označením 1 se ubírají cestou globálního řešení, kdežto u A2 a B2 se klade důraz na regionální ekonomickou orientaci. Tak např. základní myšlenkou scénářů zahrnutých do rodiny A2 je zachovávat místní identitu, dodržovat tradice. Ekonomický rozvoj je výrazně regionálně orientován. Růst populace se očekává do roku 2100, a to na hodnotu 15 miliard. U rodiny B2 se sice také klade důraz na místní ekonomiku, ale rovněž na trvale udržitelný rozvoj. Světová populace oproti scénářům A2 roste pomaleji. Výstupy HadCM3 podle emisního scénáře B2 zahrnují denní data pro období 1860 2099, celkem 240 let. Prvních 130 let tohoto období (až po rok 1989) tvoří tzv. historický běh klimatického modelu, během kterého se počítalo s pozorovanými ročními přírůstky koncentrací skleníkových plynů. Dalších 110 let již představuje experiment, při kterém se koncentrace skleníkových plynů zvyšovaly podle emisního scénáře B2. Výstupy HadCM3 podle emisního scénáře A2 pokrývají období mezi lety 1990 a 2099 období vlastního experimentu s růstem koncentrací skleníkových plynů podle SRES scénáře emisí A2. Písmenem a se označuje první člen skupinové 3 integrace. 2 SRES Special Report on Emissions Scenarios 3 angl. ensemble

3. DATOVÉ SOUBORY 10 označení proměnná jednotka T avg* průměrná denní teplota vzduchu ve výšce 1,5m K T max* denní maximální teplota vzduchu ve výšce 1,5m K T min* denní minimální teplota vzduchu ve výšce 1,5m K mslp* tlak vzduchu přepočtený na hladinu moře hpa AT 500 *, 700, 850 * absolutní topografie hladin 500, 700 a 850 hpa gpm rhum relativní vlhkost % r500, r700, r850 poměrná vlhkost v hladinách 500, 700 a 850 hpa % prec denní úhrn srážek mm wind denní průměrná rychlost větru ve výšce 10m m.s 1 dscf globální sluneční záření dopadající na zemský povch W.m 2 Tabulka 3.1: Stažené a archivované proměnné modelu HadCM3. * proměnné použité v diplomové práci 3.1.3 Proměnné modelu HadCM3 použité při lineárních postupech regionalizace Problematika výběru proměnných pro lineární postupy regionalizace v souvislosti s požadavky, které na ně klademe, byla blíže popsána v kap. 2.2.2. Dosti omezujícím faktorem je, že v databázi máme k dispozici poměrně chudý výběr meteorologických veličin. Navíc se kvůli konzistenci musíme zaměřit na stejné proměnné, jaké jsou dostupné i z reanalýz, anebo, pokud to jde, žádané proměnné dopočítat. Pro další výpočty byly proto zvoleny následující tři proměnné: absolutní barická topografie hladiny 850 hpa (AT 850 ) tlak vzduchu přepočtený na hladinu moře (mslp) relativní barická topografie (RT 500 850 )4 Pro výpočty byly zvoleny řady historického běhu modelu pro období 1961 1990 a časové řady experimentu s růstem koncentrací CO 2 a aerosolů podle scénáře B2 pro období 2036 2065. Jistou komplikací při porovnávání výsledků je, že model HadCM3 má stejně dlouhé měsíce (o 30 dnech), rok má tedy jen 360 dní, což jsme se pokusili řešit interpolací kubickým splinem po jednotlivých měsících. Výchozí oblast gridových bodů byla ohraničena souřadnicemi: 47,5 52,5 s. š. a 10 20 v. d. s rozlišením 2,5 x 2,5. 3.2 Reanalýzy Pro nalezení statistických vztahů mezi přízemní teplotou a vybranými proměnnými ve volné atmosféře vycházíme z polí prediktorů odvozených z tzv. reanalýz. Reanalýzy představují měřená data upravená pomocí časově invariantní asimilace dat (Kistler et al., 2001). NCEP/NCAR reanalýzy v této práci byly získány od 4 tato proměnná byla dopočítána jako rozdíl geopotenciálních výšek příslušných tlakových hladín

3. DATOVÉ SOUBORY 11 Proměnná jedn. NCEP NCAR HadCM3 A2a HadCM3 B2a Teplota 1000 hp a* K 1951 2000 Teplota 850 hp a* K 1951 2000 Teplota 500 hp a* K 1951 2000 AT 1000 * m 1951 2000 AT 850 * m 1951 2000 1990 2099 1860 2099 AT 500 * m 1951 2000 1990 2099 1860 2099 mslp hpa 1951 2000 ** 1990 2099 1860 2099 RT850 500 m 1951 2000 ** 1990 2099 ** 1860 2099 ** RT1000 500 m 1951 2000 ** Tabulka 3.2: Seznam dostupných proměnných a časových intervalů, pro které jsou data k dispozici. * proměnné jsou uváděny pro hladiny konstantní hodnoty tlaku; ** odvozené proměnnné CIRES Climate Diagnostics Center, Boulder, Colorado, USA, z internetové stránky http://www.cdc.noaa.gov/. Horizontální rozlišení reanalýz je 2,5 x 2,5. K dispozici máme ve srovnání s modelovými výstupy HadCM3 proměnné uvedené v tab. 3.2 pro časové období 1951 2000. Tlak vzduchu na hladině moře byl dopočten z geopotenciální výšky hladiny 1000 hpa a teploty v hladině 1000 hpa pomocí rovnice hydrostatické rovnováhy. Výběr proměnných, oblasti uzlových bodů, hustoty sítě, časového období a případně další volby byly provedeny stejným způsobem jako u modelových dat, jak je popsáno v předešlé kap. 3.1.3. 3.3 Staniční data Řady pozorovaných hodnot teploty vzduchu poskytl Český hydrometeorologický ústav pro řešení projektu GAČR 205/03Z024 a projektu VaV/740/2/03, jehož součástí je i tato diplomová práce. Soubory obsahují denní data z období 1.1.1961 až 31.12.2000. Jedná se o průměrnou denní teplotu vzduchu (označovanou dále jako Tavg), denní maximální (Tmax) a denní minimální (Tmin) teplotu vzduchu. Pro účely projektu VaV/740/2/03, a vzhledem k potřebám koncových uživatelů, bylo na území České republiky vybráno pět oblastí, reprezentovaných stanicemi uvedenými v tab. 3.3 (a). Každou oblast charakterizuje řada vypočítaná jako průměr z měření na příslušných stanicích. Někdy se pro tyto reprezentující řady používá označení technické řady. Vzhledem k malému počtu stanic a k tomu, že jejich poloha ne vždy přesně vystihuje geografický název některých oblastí, chápeme tato pojmenování jako spíš orientační. Souřadnice stanic a jejich nadmořská výška jsou uvedeny v tab. 3.3 (b).

3. DATOVÉ SOUBORY 12 název oblasti stanice p.n.v.* jižní Morava (JiM) Holešov Brno Kuchařovice 266 Vysočina (Vys) Kostelní Myslová Velké Meziříčí Havlíčkův Brod 492 střední Čechy (StC) Žatec Doksany Semčice 198 severní Morava (SeM) Ostrava Mošnov Lučina 276 jižní Čechy (JiC) Husinec Třeboň Tábor 471 (a) zeměpisná nadmořská název stanice délka [ ] šířka [ ] výška [m] Holešov 17,57 49,32 224 Brno, Tuřany 16,69 49,16 241 Kuchařovice 16,09 48,88 334 Kostelní Myslová 15,44 49,16 569 Velké Meziříčí 16,01 49,35 452 Havlíčkův Brod 15,57 49,61 455 Ostrava Mošnov 18,12 49,69 251 Lučina 18,44 49,73 300 Žatec 13,54 50,33 201 Doksany 14,17 50,46 158 Semčice 15,00 50,37 234 Husinec 13,99 49,04 536 Třeboň 14,77 49,01 429 Tábor 14,67 49,41 449 (b) Tabulka 3.3: (a) oblasti ČR, pro které byla prováděna regionalizace výstupů HadCM3 a stanice, které je reprezentují. * průměr nadmořských výšek [m]; (b) geografická poloha stanic a jejich nadmořská výška

Kapitola 4 Metody zpracování Jak je uvedeno v kap. 2.2.3, při konstrukci modelu lineárního statistického downscalingu určité lokální proměnné (v našem případě přízemní teploty) se musíme vyrovnávat s několika problémy, zejména s multikolinearitou a s malým počtem pozorování. V následujících kapitolách si přehledově představíme základní postupy, jak se s uvedenými problémy v rámci vícerozměrné lineární regrese vypořádat. Všechny popisované metody se dají jednoduše implementovat ve statistickém programu R 1. 4.1 Stavba lineárního modelu downscalingu Pro náhodný sloupcový vektor Y = (Y 1,..., Y n ) T závisle proměnné (prediktandu, regresandu) a matici X n p pozorování nezávisle proměnných (prediktorů, regresorů) předpokládejme lineární model Y = Xβ + ε, kde β = (β 1,..., β p ) T je sloupcový vektor neznámých, odhadovaných parametrů a ε = (ε 1,..., ε n ) T je vektor nezávislých náhodných veličin takový, že ε N(0, σ 2 I). T označuje transpozici. Vektor β se nejčastěji odhaduje metodou nejmenších čtverců, tedy minimalizací výrazu S(β) = (Y Xβ) T (Y Xβ), která vede k řešení b (odhad vektoru β): b = (X T X) 1 X T Y, Var (b) = (X T X) 1 σ 2, kde symbol Var označuje rozptyl. Ve statistickém software R je metoda klasických nejmenších čtverců implementována pomocí funkce lm, která kromě vlastního odhadu regresních koeficientů počítá i řadu dalších doprovodných charakteristik. V dalším budeme tento statistický model označovat jako Full.lm. Jsou-li jednotlivé sloupce matice X spolu silně korelované, hovoříme o tzv. multikolinearitě. Ta způsobuje špatnou podmíněnost matice X T X, což se projevuje velkými rozptyly odhadů regresních koeficientů, takže není možné vektor β přesně odhadnout a jeho odhad bývá velmi citlivý na malé změny v matici X (Zvára, 2005). 1 více o tomto programu viz např. domovskou stránku http://www.r-project.org 13

4. METODY ZPRACOVÁNÍ 14 Rozptyl odhadů regresních koeficientů se také zvětšuje s klesajícím počtem pozorování, a i proto se doporučuje (StatSoft, 1999) mít k dispozici alespoň 10 až 20 krát více pozorování než prediktorů. 4.1.1 Výběr a použití menšího počtu prediktorů Při redukci velkého počtu prediktorů zahrnutých do lineárního regresního modelu dochází zpravidla k vychýlení odhadu regresních koeficientů. Z identity E(b β) 2 = Var (b) + [E(b) β] 2, kde symbol E označuje střední hodnotu, je však patrné, že i vychýlený odhad s malým rozptylem může vést k menší kvadratické chybě E(b β) 2 než nestranný odhad s rozptylem velkým (Taylor, 2004). Na této myšlence jsou založeny následující statistické postupy: Prověření všech možností (All subsets regression) Pro zvolený maximální počet regresorů p se vyšetří všech 2 p možných modelů. Pro každé k = 1,..., p se pak vybere nejlepší podmodel s k regresory. Tento postup je v programu R realizován funkcí regsubsets při použití metody exhaustive jako nastavitelného parametru. Další metody téže funkce umožňují provádět sofistikovanější dopředný výběr (parametr forward ) či zpětnou eliminaci regresorů (parametr backward ). Metodu dále označujeme jako AllSubs.ex, AllSubs.for anebo AllSubs.back podle zvoleného nastavení. Zpětná eliminace (Backward elimination) Na počátku uvažujeme model se všemi prediktory a postupně z něj odstraňujeme právě ten regresor, po jehož vyloučení dostaneme podmodel s nejpříznivější hodnotou nějakého sledovaného kritéria optimality. Při splnění určité podmínky se celý postup ukončí. Tento postup, založený na Akaikeho informačním kritériu AIC (Zvára, 2005), je implementován v programu R pomocí funkce stepaic. Stejnou funkci lze použít i pro řešení níže zmiňovaných úloh dopředného výběru či krokové regrese. Pracovním názvem této metody je StepAIC.back. Dopředný výběr (Forward selection) K triviálnímu modelu s prázdnou množinou regresorů se v každém kroku přidá vždy ten regresor, který vede k největšímu zlepšení sledovaného kritéria optimality. Ve vhodný okamžik se výsledný model prohlásí za konečný. V textu jej označujeme jako StepAIC.for. Kroková regrese (Stepwise regression) Jde o kombinaci dopředného výběru a zpětné eliminace. Po přidání vybraného regresoru do tvořeného modelu se vždy prověří i možnost vyloučení nějakého z již zařazených regresorů. Celý tento postup se snaží zohlednit skutečnost, že významnost zařazeného regresoru se může po zahrnutí dalších proměnných do modelu změnit. Tuto metodu označujeme jako StepAIC.both. Forward stagewise regrese (Bradley et al., 2003) Tuto metodu lze chápat jako jakousi opatrnou verzi dopředného výběru. Vycházíme z nulového počátečního odhadu b regresních koeficientů. V každém kroku nejprve vybereme regresor nejvíce

4. METODY ZPRACOVÁNÍ 15 korelovaný s dosud nevysvětlenou částí závisle proměnné (Y Xb) a pak nepatrně v patřičném směru změníme hodnotu odhadu regresního koeficientu u tohoto regresoru. Celý postup iterativně opakujeme a v jistém okamžiku ukončíme. V programu R lze uvedenou proceduru realizovat pomocí funkce lars, stejně tak jako metodu následující a v práci nese název LarsAlg.Fwstage. Least angle regrese (Bradley et al., 2003) Označena je jako LarsAlg.lar. Jedná se o mírnou a úspornou modifikaci předchozí metody s počtem kroků rovným počtu všech regresorů. V každé iteraci se k dosud uvažovaným prediktorům přidá další a všechny jejich koeficienty se zvětšují současně ve stejném poměru. K přidání daného regresoru dochází tehdy, když se jeho korelace s dosud nevysvětlenou částí závisle proměnné vyrovná její korelaci s už zařazenými prediktory. 4.1.2 Dodatečná omezení na regresní koeficienty Hřebenová regrese V tomto případě hledáme odhad b tak, aby minimalizoval součet čtverců S(β) za dodatečné podmínky p i=1 βi 2 C 1. Ekvivalentně můžeme požadovat minimalizaci penalizovaného součtu čtverců Pro takto získaný odhad platí S p (β) = (Y Xβ) T (Y Xβ) + λβ T β. b = (X T X + λi) 1 X T Y. V programu R je tato metoda implementována funkcí lm.ridge, která umožňuje i optimální určení parametru λ pomocí zobecněné krosvalidace (Faraway, 2002). Její název v dalším textu je LmRidge. Lasso regrese Tato metoda, v dalším označovaná jako LarsAlg.lasso, se liší od předchozí jen jiným omezením kladeným na regresní koeficienty, tentokrát ve tvaru p i=1 β i C 2. Takto nalezený odhad b mívá (aspoň pro dostatečně malé hodnoty C 2 ) některé složky nulové, takže svým způsobem i redukuje počet regresorů zahrnutých do modelu. Provedení této metody v programu R umožňuje již zmíněná funkce lars. 4.1.3 Použití latentních proměnných Tyto metody spočívají v nahrazení velkého počtu regresorů menším počtem jejich vzájemně nekorelovaných lineárních kombinací (tzv. latentních proměnných či komponent), v jistém smyslu optimálních. V programu R umožňuje použití těchto metod například funkce mvr. Analýza hlavních komponent (PCA) V tomto případě hledáme nekorelované komponenty tak, aby postupně maximálním možným způsobem vysvětlovaly variabilitu nezávisle proměnných (Faraway, 2002). Tato metoda ponese označení Ana- Comp.PCA.

4. METODY ZPRACOVÁNÍ 16 Metoda částečných nejmenších čtverců (PLS) V dalším textu bude vystupovat jako AnaComp.PLS. Tento postup spočívá v hledání takových komponent, které by postupně vysvětlovaly velkou míru variability nezávisle proměnných a ještě byly co možná nejvíce korelované se závisle proměnnou. (Faraway, 2002) V případě obou zmíněných metod se následně provádí regrese s několika prvními nalezenými komponentami a z takto odhadnutých regresních koeficientů u použitých komponent se pak dopočítají odhady koeficientů u původních regresorů. 4.2 Standardizace Závislé proměnné i regresory ve statistickém lineárním modelu mají obecně různá měřítka, což někdy vede i k řádovým rozdílům ve velikosti hodnot těchto veličin (T avg, T max, T min jsou řádu jednotek či desítek C, AT 850 se pohybují kolem 1, 5.10 3 m, mslp je řádově 10 3 hpa a RT850 500 dosahují hodnot kolem 4.10 3 m). Kdyby proměnné měly vstoupit do regresního modelu v původních hodnotách, příslušná použitá metoda konstrukce přenosové funkce by určila takové regresní koeficienty, které by svou velikostí kompenzovaly tuto vzájemnou řádovou odlišnost. Regresní koeficienty by pak byly vzájemně nesrovnatelné, tj. nebylo by možné na základě jejich velikostí usuzovat na vlivnost příslušných regresorů. Otázkou, zda do výpočtů použít surová data nebo je předem standardizovat (získat časové řady s nulovou střední hodnotou a rozptylem rovným jedné), se zabývalo mnoho autorů (např. Winkler, 1997; Huth, 2002). Obecně je doporučeno s prediktory, případně také s prediktandy při konstrukci přenosové funkce statistického modelu pracovat ve formě normalizovaných anomálií, tj. ve standardizovaném tvaru (po odečtení průměru a vydělení směrodatnou odchylkou). Tímto způsobem dochází také k redukci systematické odchylky ve střední hodnotě a rozptylu prediktorů z klimatického modelu vůči pozorovaným řadám proměnných, nebo řadám z realanlýz (Wilby et al., 2004). Po tom, co se pro daný soubor standardizovaných proměnných vybranou statistickou metodou odvodí sada odhadů regresních koeficientů, mohou se dále upravit tak, abychom pro další výpočty s přenosovou funkcí mohli pracovat už s původními, nestandardizovanými hodnotami proměnných. Pro výpočet těchto koeficientů lze podobně jako ve Zvára (2005) odvodit vztahy: b j = Var (Y ) Var (X j ) b j b 0 = E (Y ) j E (X j )b j, kde b j značí regresní koeficienty vypočtené pomocí normalizovaných anomálií a b 0 a b j absolutní člen a regresní koeficienty po úpravě pro nestandardizované prediktory. Var (Y ) a Var (X j ) jsou rozptyly závislé a nezávislé proměnné, E (Y ) a E (X j ) jejich střední hodnoty. Díky tomuto přizpůsobení regresních koeficientů nestandardizovaným prediktorům získáme hodnoty závisle proměnné i s informací o její střední hodnotě a rozptylu, o kterou bychom při pouhém použití standardizovaných prediktorů přišli.

Kapitola 5 Výsledky Příprava vstupních dat a generování souborů výsledků downscalingu před vlastním tabelárním a grafickým zpracováním představovalo podstatnou část práce na této studii. K dispozici jsme měli data z jednotlivých stanic České republiky, z NCEP/NCAR reanalýz a z globálního klimatického modelu HadCM3. Ze staničních dat jsme připravili technické (průměrné) řady pro pět vybraných oblastí ČR pro průměrnou, minimální a maximální denní teplotu vzduchu. Z časových řad tří proměnných (AT 850, mslp, RT850 500) v gridových bodech vybrané oblasti NCEP/NCAR reanalýz a modelu HadCM3 bylo potřeba vybrat určité úseky. U reanalýz šlo o denní časové řady období 1961 1990, desetiletí 1990 2000 a o vytvoření měsíčních průměrů pro tyto časové úseky. U modelu HadCM3 jsme navíc připravili časové řady pro klimatické období 2036 2065 a teplotní soubory pro gridový bod ležící na území ČR. Kromě odhadů regresních koeficientů pomocí metod popsaných v kap. 4 a jejich různých variant (u některých metod byla možnost nastavit maximální počet regresorů nebo hlavních komponent apod., celkem kolem 100 variant) byla v rámci jednoho programu ve statistickém programovacím jazyce R vygenerována řada dalších souborů, které jsou podrobněji popsány v Příloze A a které jsou obsahem čtyřech DVD médií archivovaných na katedře meteorologie a ochrany prostředí MFF UK. Analýza těchto souborů vedla k závěrům shrnutým do následujících kapitol. Všechny tabulky, grafy a jejich zdrojová data spolu se vstupními daty pro regionalizaci jsou součástí této diplomové práce na přiloženém CD. 5.1 Porovnání charakteristik časových řad teploty vzduchu v uzlovém bodě HadCM3 s pozorováními ve vybraných oblastech ČR Důvodů, proč se při zkoumání změn klimatu pomocí výstupů globálních klimatických modelů přistupuje k metodám regionalizace, je několik. Jednou z hlavních příčin použití downscalingu je nedostatečně hustá síť těchto výstupů. Jednotlivé gridové body jsou reprezentanty celých oblastí, v rámci kterých se klima může do jisté míry odlišovat. Řídká síť vede rovněž ke zhlazení informace o orografii, takže nadmořská výška bodů neodpovídá výšce skutečného povrchu. I hranice kontinentů, menší ostrovy nebo moře klimatický model určí jenom s přesností svého rozlišení. U HadCM3 jde o čtvercové plochy rozměrů 2,5 x 3,75 zeměpisné šířky a délky, což na 45. rovnoběžce představuje 17

5. VÝSLEDKY 18 přibližně 295 x 278 km. Dalším důsledkem řídké sítě globálního klimatického modelu je neschopnost vystihnout procesy, probíhající v menším měřítku než je výpočetní prostorový krok. Tento problém se částečně řeší zaváděním různých parametrizací v klimatickém modelu (jedná se např. o tvorbu oblačnosti). Tyto parametrizace však na druhé straně vnášejí do výpočtů modelu určitá zkreslení. K dalším chybám dochází také při výpočtu hodnot proměnných ve výši meteorologické budky (např. teplota ve výšce 1,5 m). Tyto proměnné se počítají s řadou zjednodušení pomocí hodnot z nejnižší vrstvy globálního klimatického modelu, která se nachází několik desítek až stovek metrů nad zemským povrchem a z hodnot na zemském povrchu (Palutikof, 1997). Pro kvantitativní představu o schopnosti modelu popsat klima z hlediska proměnných, na které se pozornost dopadových studií zaměřuje nejvíce tedy přízemních veličin, jsme vybrali časové řady průměrné, minimální a maximální denní teploty ve výšce 1,5 m nad zemským povrchem v uzlovém bodě o souřadnicích 50 s. š. a 15 v. d. Tato data jsme porovnali s příslušnými teplotními řadami zprůměrovaných hodnot pozorování ve stanicích z pěti zkoumaných oblastí, pojmenovaných jako Vysočina (Vys), jižní Morava (JiM), jižní Čechy (JiC), severní Morava (SeM) a střední Čechy (StC) 1 (viz tab. 3.3). Časové řady proměnných pocházejí z období let 1961 1990 (tzn. u dat z HadCM3 z jeho historického běhu) a mají denní časový krok. Porovnání základních statistických charakteristik pro rok jako celek, daný gridový bod a zkoumané oblasti poskytuje tab. 5.1. Tytéž charakteristiky pro jednotlivá roční období jsou uvedeny v tab. 5.2 a 5.3. Průměr a medián průměrné a maximální denní teploty modelu HadCM3 je ve srovnání s oblastmi ČR nižší. HadCM3 podceňuje tyto teploty i oproti oblastem, které mají nadmořskou výšku vyšší než uzlový bod (Vysočina leží výše o 133 m a oblast jižní Čechy o 92 m výše než je poloha uzlového bodu podle modelové orografie). U minimální denní teploty není již situace tak jednoznačná. Průměr souborů oblasti Vysočina a jižní Čechy je nižší, u oblasti Vysočina je nižší i medián. Směrodatná odchylka řad průměrné a minimální denní teploty nabývá v uzlovém bodě oproti ostatním oblastem nejvyšších hodnot. Tento rozdíl se pohybuje v rozmezí 0,1 a 0,7 C. U maximální denní teploty je kolísání kolem průměru u souborů uzlového bodu HadCM3 naopak nejmenší (o 0,3 až 0,5 C menší, než u uvažovaných oblastí ČR). Absolutní minima (maxima) časových řad modelu jsou v uzlovém bodě ve srovnání se všemi oblastmi ČR nejnižší (nejvyšší). U absolutních minim teploty tyto rozdíly přesahují vzhedem k jednotlivým oblastem i 6 C a u absolutních maxim souborů maximálních denních teplot dokonce 10 C. Při podrobnější analýze, při které se zabýváme jednotlivými ročními obdobími (tab. 5.2 a 5.3), se dostáváme k následujícím závěrům. Charakteristiky průměrné, minimální a maximální denní teploty pro gridový bod se nejvíce blíží hodnotám charakteristik souborů pro oblast Vysočina. Naopak, v absolutní hodnotě největší rozdíly vůči teplotním řadám gridového bodu najdeme u souborů teplotních řad oblasti střední Čechy. Průměrné hodnoty a mediány jsou u souborů z uzlového bodu HadCM3 ve všech ročních obdobích (s výjimkou Tmin v létě) nižší než u teplotních souborů pro zvolené oblasti. Teplotní řady se v uzlovém bodě v těchto charakteristikách nejvíce liší od oblastí jižní Morava a střední Čechy. U průměrných hodnot se rozdíl pohybuje v rozmezí 0,8 C až 3,6 C (zejména na jaře a v létě a u maximálních denních teplot). Rozdíl 1 názvy oblastí jsou pouze orientační, neodpovídají zcela geografické poloze stanic (viz střední Čechy)