ROBUST Sborník prací 13. letní školy JČMF ROBUST 2004 uspořádané Jednotou českých matematiků a fyziků

Rozměr: px
Začít zobrazení ze stránky:

Download "ROBUST Sborník prací 13. letní školy JČMF ROBUST 2004 uspořádané Jednotou českých matematiků a fyziků"

Transkript

1

2

3 ROBUST 2004 Sborník prací 13. letní školy JČMF ROBUST 2004 uspořádané Jednotou českých matematiků a fyziků zapodporykpmsmffuk a České statistické společnosti vednech7. 11.června2004vTřešti Praha 2004

4 Všechna práva vyhrazena. Tato publikace ani žádná její část nesmí být reprodukována nebo šířena v žádné formě, elektronické nebo mechanické, včetně fotokopií, bez písemného souhlasu vydavatele. c (eds.) Jaromír Antoch a Gejza Dohnal c Jednota českých matematiků a fyziků ISBN JČMF

5 ROBUST2004 PÁRSLOVÚVODEM Ve dnech června 2004 se v prostorách školícího střediska AV ČR v Třešti uskutečnila již třináctá letní škola JČMF ROBUST Tato akce byla připravema skupinou pro výpočetní statistiku MVS JČMF za podpory ČStS,KPMSMFFUK,MÚAVČRaÚTMFSIČVUT.Akcesezúčastnilo 84 účastníků z ČR, Slovenska, Belgie a USA. Tak jako v minulosti, i ROBUST 2004 byl věnován vybraným trendům matematické i aplikované statistiky, teorie pravděpodobnosti a analýzy dat. Pozvání k přednesení přehledných přednášek přijali: Prof.RNDr.TomášCipra,DrSc.,MFFUKPraha,Zajištěnívpojišťovnictví a jeho matematické aspekty. Doc. RNDr. Daniela Jarušková, CSc., FSV ČVUT Praha, Extrémy gaussovských posloupností a procesů. Doc.RNDr.JanPicek,CSc,TULLiberecTestyaodhadyParetova indexu. Doc. RNDr. Zuzana Prášková, CSc, MFF UK Praha, Metoda bootstrap 25let. Celkem bylo předneseno 62 přednášek, z toho 28 přednesli postgraduální studenti. Již poněkolikáté jich bylo, k naší velké radosti, tolik, že jsme mohli z jejich vystoupení nejenom vytvořit dva samostatné půldenní bloky, ale ocenit též nejlepší vystoupení/dosažené výsledky. Komise pod předsednictvím prof. G. Wimmera z MFF UKo v Bratislavě vyhodnotila vystoupení přednášejících a navrhla firmě Elkan k ocenění za nejlepší prezentovanou práci Ing. M. Omelky. Mnoho času též bylo věnováno diskusím. Pondělní večer byl věnován volné diskusi o výuce statistiky a pravděpodobnosti, především pro informatiky a informatiku. Během úterního večera vystoupili zástupci firem Elkan a TriloByte, kteří předvedli nejnovější verze programů MATHEMATICA a S+. Vedle odborných diskusí se též konaly diskuse volnější, a to ať již během středečního výletu do Telče a Brnice či návštěvy památníku Franze Kafky a muzea třešťských betlémů. I počasí nám tentokrát vyšlo, snad jenom s vyjímkou deště během čtvrtečního večerního opekání buřtů v zámecké zahradě. Z přednesených 62 přednášek naleznete 51 v přiloženém sborníku. Jinými slovy to znamená, že připěli prakticky všichni přednášející. Chtěli bychom tímto poděkovat nejenom jim, ale též všem těm, kteří články recenzovali. Budete se možná divit, že čtyři články nejsou zařazený podle abecedy nýbrž iv

6 nakoncisborníku.vemteprosímnavědomí,žesenejednáo chybu editorůsborníku,nýbržoneoprávněnouvíruautorůvto,žepokud něco pošloudo sítě,takjejich zásilka dorazíkpříjemci.dovolujemesitouto cestou všem čtenářům připomenout, že odeslání mailu v době spamů a antispamových ochran nikterak neazaručuje, že zpráva skutečně dorazí... V Praze 24. prosince 2004 Jaromír Antoch a Gejza Dohnal v

7 OBSAH Barbora ARENDACKÁ Konfidenčné intervaly pre variančný komponent v modeli sdvomivariančnýmikomponentami...1 Lucie BELZOVÁ Inferencezaloženánasekvenčníchpořadích...9 Viktor BENEŠ, Michaela PROKEŠOVÁ Časoprostorovébodovéprocesy Martin BETINEC Poznámkykeshlukovéanalýzeprvoků Marek BRABEC Regressionwithtruncateddata Václav ČAPEK Rozumísistatistikasmedicínou? Tomáš CIPRA Zajištěnívpojišťovnictvíajehomatematickéaspekty Petr DOSTÁL Asymptotická analýza strategií obchodování s akcií při existencitransakčníchnákladů...67 Lucie FAJFROVÁ Speed of convergence to equilibrium of zero range process onabinarytree Marie FORBELSKÁ Klasifikačnípravidlaproeliptickyvrstevnicovározdělení Michal FRIESL Neparametrické Bayesovské odhady v Koziolově-Greenově modelunáhodnéhocenzorování...93 Zdeněk HLÁVKA Odhad rizikově neutrální hustoty založený na cenách evropskýchopcí vi

8 Daniel HLUBINKA Dvourozměrná rozdělení charakteristik sféroidů: Extrémyastereologie Klára HORNIŠOVÁ Linearizácianelineárnejregresieaoblastispoľahlivosti Dušan HÚSEK, Hana ŘEZANKOVÁ, Václav SNÁŠEL Shlukováníatextovédokumenty Jana HUSOVÁ Slabákonvergencesupremanáhodnýchprocesů Daniela JARUŠKOVÁ Extrémygaussovskýchposloupnostíaprocesů Jan KALINA, P. Laurie DAVIES Locatingeyes Jan KLASCHKA, Emil KOTRČ Klasifikačníaregresnílesy Lenka KOMÁRKOVÁ MOSUM-type tests for a change-point problem with censoreddata Michala KOTLÍKOVÁ, Hana MAŠKOVÁ, Arnoštka NETRVALOVÁ, Pavel NOVÝ, Dagmar SPÍRALOVÁ, František VÁVRA, David ZMRHAL Informaceadezinformace-statistickýpohled Alena KOUBKOVÁ, Jaroslav KRÁL Pravděpodobnost a matematická statistika vinformatickýchoborech Alena KOUBKOVÁ, F.T. BARBOSA, G. MOLENBERGHS A statistical proposal for sequential clinical trials indifferentcancerlocations Milena KOVÁŘOVÁ ProjevyglobálníchzměnvbiosférickérezervaciTřeboňsko vii

9 David KRAUS TestinggoodnessoffitintheCox Aalenmodel Pavla KUNDEROVÁ Lineárníregresnímodelysrušivýmiparametry Petr LACHOUT Asymptotikaodhadůpomocíempirickéhorozdělení Jaroslav MAREK, Eva FIŠEROVÁ Statisticalanalysisofgeodeticalmeasurements Petr NOVOTNÝ Optimálnísegmentacedat Marek OMELKA Thetestoffullspecificationofthenormaldistribution Jan PICEK TestyaodhadyParetovaindexu Pavel PLÁT ModifikaceWhiteovatestupronejmenšíváženéčtverce Zuzana PRÁŠKOVÁ Metodabootstrap Luboš PRCHAL Detekcelineárníhotrenduvrozptylunormálníhorozdělení Zdeněk PŮLPÁN Uspořádánívýsledkůšetřeníreprezentovanýchfuzzyčísly Soňa REISNEROVÁ AnalýzapřežitíaCoxůvmodelprodiskrétníčas Monika RENCOVÁ Extrémyvteplotníchřadách Alexander SAVIN Testy a konfidenčné intervaly pre strednú hodnotu vmodelochjednoduchéhotriedenia viii

10 Ivan SAXL, Lucie ILUCOVÁ Historiegrafickéhozobrazovánístatistickýchdat Miroslav ŠIMAN A note on rank-based testing for conditional heteroskedasticity Petr ŠIMEČEK, Milan STUDENÝ Využití pojmu Hilbertovy báze pro ověřování hypotézy oshodnostistrukturálníchakombinatorickýchimsetů Marie ŠIMEČKOVÁ Nejmenší useknuté čtverce(lts) jako diagnostický nástroj Jan Ámos VÍŠEK WeightedGMMestimation Petr VOLF Odhadypočtukomponentmodelu Gejza WIMMER, Viktor WITKOVSKÝ Konfidenčné intervaly pre efekt ošetrenia vklinickýchpokusoch Jitka ZICHOVÁ Grafickémodelyvanalýzefinančníchdat Ivan ŽEŽULA, Daniel KLEIN Robustnostvmodelurůstovýchkřivek Jitka BARTOŠOVÁ PříspěvekkanalýzerozdělenípříjmůdomácnostívČR Zdeněk FABIÁN Novécharakteristikyrozděleníavýběrůzrozdělení Michal KULICH Odhadyregresníchparametrůsneúplnýmidaty Josef TVRDÍK Stochastické algoritmy v odhadech parametrů regresních modelů ix

11 ROBUST 2004 c JČMF 2004 KONFIDENČNÉ INTERVALY PRE VARIANČNÝ KOMPONENT V MODELI S DVOMI VARIANČNÝMI KOMPONENTAMI Barbora Arendacká Kľúčové slová: Konfidenčné intervaly, variančný komponent, zovšeobecnené testovacie premenné, zovšeobecnené p-hodnoty. Abstrakt: Konštrukcia konfidenčného intervalu, resp. testovanie hypotézy oneznámomvariančnomkomponente σ 2 1 vtriederozdelení N t(0, σ 2 1 W+σ2 I t ) súúlohysrušivýmparametrom σ 2,ktorýchriešenieklasickýmimetódamije známe len v špeciálnych prípadoch. V článku uvedieme ako je možné tieto úlohy riešiť pomocou zovšeobecnených p-hodnôt(pojem zaviedli Tsui a Weerahandi[9]) a ukážeme ako môžme voliť zovšeobecnené testovacie premenné vprípade,keďmatica Wmáviacakodverôznevlastnéhodnoty.(Nanejednoznačnosť použiteľnej testovacej premennej v tejto situácii upozornili Zhou amathew[11].) 1 Úvod Uvažujme normálne rozdelený n-rozmerný vektor pozorovaní y, y N n (Xβ, σ 2 1ZZ T + σ 2 I n ), (1) kde βa(σ 2 1, σ 2 ) T súvektoryneznámychparametrov, σ 2 1 0, σ 2 >0aR(Z) R(X), kde R(A) označuje priestor generovaný stĺpcami matice A. Úloha testovať hypotézu H 0 : σ 2 1 σ 2 10vs. H 1 : σ 2 1 > σ 2 10 (2) preľubovoľnénezáporné σ10jepotominvariantnávzhľadomnaposunutie 2 vstrednejhodnote,t.j.natransformáciu y y+ Xβ, β R p1 amodel(1)môžmezredukovaťskonštruovanímmaximálnehoinvariantu z= B T y, kde,akhodnosť X je p, B T je(n p) nmaticataká,že B T B=I n p a BB T = M= I X(X T X) X T.Vektor zmápotomnormálnerozdelenie N n p (0, σ1 2W+ σ2 I n p ),kde W= B T ZZ T B. Olsen, Seely a Birkes[6] ukázali, že minimálne postačujúce štatistiky pre triedurozdelenívektora zmajútvar U i = z T E i Ei T z, i=1,...,r,súnavzájomnezávisléaplatí U i ( λ i σ1 2 + σ 2 ) χ 2 ν i, i = 1,...,r,kde λ 1 > λ 2 > > λ r 0súnavzájomrôznevlastnéhodnotymaticeW, ν 1, ν 2,..., ν r ichnásobnostiae i, i=1,..., rje(n p) ν i matica,ktorej stĺpce tvoria ortonormálne vlastné vektory prislúchajúce k vlastnej hodnote λ i,teda W= r i=1 λ ie i Ei T.

12 2 Barbora Arendacká Vďalšombudemepredpokladať,žematica W jesingulárna,t.j. λ r =0. Tátopodmienkaniejesplnenálenvsituáciách,keďmámekdipozíciiiba minimálny počet pozorovaní. Prehľad presných testov na hladine významnosti α pre(2) možno nájsť včlánku[1],pozritiež[8].testysúznámelenvprípade,keď σ 2 10=0,vtedy jenulováhypotézav(2)ekvivalentnáshypotézou H 0 : θ = 0, θ = σ2 1 σ 2. Testovacie štatistiky je potom možné použiť na konštrukciu konfidenčných intervalov pre θ. Dve z týchto štatistík sú: T W = T GM = P r 1 i=1 Ui U r P r 1 i=1 λiui U r Waldovtest[7] -modifikovanýwaldovtest[2] Postup pre konštrukciu konfidenčných intervalov priamo pre variančný komponent σ1 2 navrholmichalski[4]založiťnabayesovskominvariantnom kvadratickomnevychýlenom(biqu)odhade ˆσ 1(u, 2 v)pre σ1 2 vzhľadomna apriórnerozdelenietaké,že E(σ1 2) = u, E(σ2 )=1, V ar(σ1 2)=v, V ar(σ2 )= 0, u, v 0,resp.naodhadeˆσ 1 2( ),ktorýdostanemeakolimitubiquod- hadovpre v.vobochprípadochsadápríslušnýodhadvyjadriťako lineárnakombináciapostačujúcichštatistík U i :ˆσ 1 2= r i=1 cb i U i,kdekonštanty c B i majúznámytvar.pritomtopostupesavšakpočítajúkonfidenčné intervaly pre každú hodnotu θ zvlášť a ako výsledný interval navrhuje Michalski zvoliť interval s najväčšou dĺžkou ako určitú ochranu pred najhoršou možnou situáciou. Iný prístup, ktorý umožňuje konštruovať konfidenčné intervaly priamo pre σ1 2,resp.testovať(2)ajprenenulové σ2 10,sazakladánazovšeobecnených p-hodnotách a zovšeobecnených testovacích premenných. Tieto pojmy zaviedli Tsui a Weerahandi[9] a ďalej rozpracoval Weerahandi[10]. V nasledujúcej časti aplikujeme tento prístup na náš problém. 2 Riešenie pomocou zovšeobecnených testovacích premenných V úlohách s rušivými parametrami pri testovaní hypotéz pomocou p-hodnôt je často nemožné alebo nie práve jednoduché nájsť testovaciu štatistiku vhodnú na definovanie extrémnej oblasti, ktorej distribúcia nezávisí od rušivých parametrov. Tento problém je ale riešiteľný, ak namiesto jednej globálnej testovacej štatistiky pre daný problém, budeme hľadať vhodnú testovaciu štatistiku pre každú realizáciu dát osobitne. Ide teda o to, nájsť funkciu závislú okrem náhodného výberu a parametrov(ako testovacia štatistika) aj na napozorovaných dátach, takú, že pre každé pevné napozorované hodnoty dát je nájdená funkcia vhodnou testovacou štatistikou na definovanie extrémnej oblasti.vnašomprípadepôjdeofunkciu T(U, u, σ 2 1, σ 2 ),kde U=(U 1,...,U r ) je vektor postačujúcich štatistík a u je jeho napozorovaná hodnota, s vlastnosťami:

13 Konfidenčné intervaly pre variančný komponent 3 1. napozorovanáhodnota t obs = T(u, u, σ 2 1, σ2 )nezávisínaneznámych parametroch, 2. prepevné σ 2 1,distribúcia Tnezávisína σ 2 prekaždé u, 3. prepevné uaσ 2 je P(T t, σ1 2)nerastúcafunkcia σ2 1prekaždé t. T potom nazývame zovšeobecnenou testovacou premennou stochasticky rastúcouvσ 2 1 (ďalejlenzovšeobecnenátestovaciapremenná).vďakavlastnosti3 T usporadúva výberový priestor a zovšeobecnená extrémna oblasť pre testovanie(2)založenána Tmátvar C(u, σ 2 1, σ 2 )={v; T(v, u, σ 2 1, σ 2 ) T(u, u, σ 2 1, σ 2 )}, k nej prislúchajúca zovšeobecnená p-hodnota je p(u)= sup P(U C(u, σ1 2, σ2 ) σ1 2 )= σ1 2 σ2 10 = sup P(T(U, u, σ1 2, σ2 ) t obs σ1 2 )=P(T(U, u, σ2 10, σ2 ) t obs σ10 2 ). σ1 2 σ2 10 Vďaka vlastnosti 2 testovacej premennej T je p-hodnota vyčísliteľná. Podobne ako klasická p-hodnota, aj zovšeobecnená p-hodnota slúži ako miera súhlasu, resp. nesúhlasu dát s nulovou hypotézou. Jej vysoké hodnoty hovoria v prospech nulovej, nízke v prospech alternatívnej hypotézy, a teda testy založené na zovšeobecnených p-hodnotách zamietajú nulovú hypotézu pre malé hodnoty p(u). K zovšeobecnenej extrémnej oblasti môžme zadefinovať na dátach založenú silofunkciu π(u, σ 2 1)=P(U C(u, σ 2 1, σ 2 ) σ 2 1), pre ktorú platí: a) π(u, σ 2 10 )=p(u), b) akje T(U, u, σ 2 1, σ 2 )spojitánáhodnápremennáprekaždé u, π(u, σ 2 1)= 1 F T(U,u,σ 2 1,σ 2 )(t obs σ 2 1 ),atedaprepevné uje π(u, u, σ2 1 ) = 1 F T (T(U, u, σ 2 1, σ 2 ) σ 2 1)náhodnápremennárovnomernerozdelenána (0,1), c) prekaždépevné uje π(u, σ 2 1)neklesajúcoufunkciou σ 2 1. Vďaka b) a c) môžme pomocou silofunkcie π skonštruovať konfidenčný intervalpre σ 2 1.Pre γ 1, γ 2 (0,1)také,že γ 2 γ 1 =1 αadanénapozorované u platí: P(γ 1 π(u, u, σ 2 1) γ 2 )=1 α (3) a hranice obojstranného(1 α)100%-ného zovšeobecneného konfidenčného intervalu(σ 2 1, σ2 1 )pre σ2 1 získameriešenímrovníc π(u, σ 2 1)=γ 1 a π(u, σ 2 1 )=γ 2. (4)

14 4 Barbora Arendacká Keďže pravdepodobnostné tvrdenie(3) platí podmienene pri danom, pevnom u, zovšeobecnený konfidenčný interval si zachováva frekvenčné vlastnosti konfidenčného intervalu podmienene, pri danom u. Priamo nevyplýva, že jeho nepodmienená pravdepodobnosť pokrytia je tiež 1 α. Zachovanie konfidenčnej úrovne sa overuje simulačne, keďže priamy výpočet skutočnej pravdepodobnosti pokrytia zovšeobecneného konfidenčného intervalu je komplikovaný. Konkrétne testovacie premenné U Označme V 1 = 1 σ 2 +σ 1 2 χ2 U λ1 ν 1,..., V r 1 = r 1 σ 2 +σ 1 2 χ2 λr 1 ν r 1 a V r = Ur σ 2 χ 2 ν r auvažujmenajprvprípad r=2.waldovaštatistikamávtomtoprípade tvar T W = U 1 /U 2.Napozorovanáhodnotatohtopodielu, u 1 /u 2,nezávisína neznámychparametroch,alejehodistribúciazávisínarušivomparametri σ 2, keďže: U 1 = V 1(λ 1 σ1+ 2 σ 2 ) U 2 V 2 σ 2 = V ( 1 σ 2 ) 1 λ 1 V 2 σ 2+1. Závislosťnaparametri σ 2 odstránimeprenásobenímjehoprevrátenejhodnoty vprvomvýrazevzátvorkenáhodnoupremennou U 2 apredelenímnapozorovanouhodnotou u 2.Jezrejmé,ženapozorovanáhodnotaceléhovýrazu sa nezmení, a teda zostane nezávislá na neznámych parametroch, a zároveň distribúcia vzniknutého výrazu bude spĺ ňať vlastnosť 2 zovšeobecnenej testovacej premennej. Dostaneme T(U 1, U 2, u 1, u 2, σ1 2, σ2 ) = V ( 1 σ1 2 λ U 2 1 V 2 = V 1 V 2 ) σ 2 +1 u 2 ) ( λ 1 σ 2 1 V 2 u 2 +1 = ( 1 = V 1 + λ 1σ 2 ) 1. V 2 u 2 Je ľahké overiť, že T spĺňa aj vlastnosť 3 zovšeobecnenej testovacej premennej. Podobným postupom dostaneme v prípade, keď r > 2, testovaciu premennú r 1 ( 1 T c1,...,c r 1 = c i V i + λ iσ 2 ) 1, V r u r i=1 kde c i, i = 1,...,r 1súľubovoľnékladnéreálnečísla.Kýmvprípade r=2sadáukázať,ževšetkyzovšeobecnenétestyzaloženéna U 1, U 2,je možnézaložiťna T,vprípade,keďpočetvlastnýchhodnôtmatice Wjevyšší ako 2, sa táto jednoznačnosť stráca. Práve na príklade testovacej premennej T c1,...,c r 1 natopoukázalizhouamathew[11].akovoliťkonštanty c i zostáva stále nevyriešené. Istou inšpiráciou však môžu byť testovacie štatistiky na testovanienulovosti σ 2 1uvedenévčasti1.

15 Konfidenčné intervaly pre variančný komponent 5 Uvažujme testovacie premenné r 1 ( 1 T 1 = T 1,...,1 = V i + λ iσ 2 ) 1, V r u r i=1 r 1 ( 1 T λ = T λ1,...,λ r 1 = λ i V i + λ iσ1 2 V r i=1 T 1/λ = T 1/λ1,...,1/λ r 1 = r 1 i=1 u r ), ( 1 1 V i + λ iσ1 2 λ i V r u r Jezrejmé,žepritestovaní(2)so σ 2 10=0jezaplatnosti H 0 T 1 zhodnáswaldovouštatistikou T W,resp. T λ sgnotovou-michalskéhoštatistikou T GM. Ďalej,výjduczodhaduˆσ 2 1 ( )= r i=1 cb i U i, c B i = 1 λ i P r 1 i=1 νi, i=1,...,r dostaneme T 1/λ. Totiž,ˆσ 2 1 ( )= r i=1 cb i V i(σ 2 + λ i σ 2 1 )aodstránenímzávislostiposledného výrazunaparametri σ 2 prenásobenímtohtoparametranapozorovanouhodnotou u r ajehopredelenímnáhodnoupremennou U r,dostanemezovšeobecnenú testovaciu premennú r 1 c B i V i i=1 s napozorovanou hodnotou i=1 ( ) ur + λ i σ1 2 + c B r V u r r r 1 c B i u i + c B r u r, i=1 odktorejodvodenánadátachzaloženásilofunkcia π(u 1,...,u r, σ1 2)pretes- tovanie(2) má tvar: ( r 1 ( ) ) π = P c B i V ur i + λ i σ1 2 + c B r V u r 1 r c B i u i+ c B r u r σ1 2 = i=1 r i=1 ( r 1 ( ) ) 1 ur r 1 = P i=1 λ r 1 i i=1 ν V i + λ i σ1 2 1 i V r i=1 λ r 1 i i=1 ν u i σ1 2 = i ( r 1 ( 1 1 = P V i + λ iσ 2 ) ) r 1 1 u i σ1 2 = λ i V r u r λ i u r i=1 = P(T 1/λ t 1/λ σ 2 1)=π T1/λ (u 1,...,u r, σ 2 1). Nejednoznačnosť, ktorá sa objavuje pri testovaní(2) sa však neobmedzuje len naproblémvoľbykonštánt c i v T c1,..,c r 1.Dajúsaskonštruovaťďalšietestovaciepremenné,ktorésanedajúodvodiťzpremennej T c1,..,c r 1 prežiadnu voľbu c i.napríklad, ).

16 6 Barbora Arendacká T 2 = r 1 i=1 V i V r i=1 r 1 i=1 u i u r + λ i σ1 2V. r Keďtestujeme(2)so σ10 2 =0budezovšeobecnenáp-hodnotaspočítanápomocou T 2 zhodnásklasickoup-hodnotouspočítanoupomocouwaldovejštatistiky T W.Vprípadenevyváženéhomodelujednoduchéhotriedeniasnáhodnýmefektomsatestovaciapremenná T 2 zhodujestestovacoupremennou navrhnutou Weerahandim[10] pre tento model. Príťažlivouvlastnosťou T 2 jejednoduchosťvýpočtujejnadátachzaloženej silofunkcie. Tá sa dá vyjadriť ako jednorozmerný integrál, pod ktorým vystupujelenhustotaadistribučnáfunkcia χ 2 rozdelenia. Označme W= r 1 i=1 V i, W χ 2 ν, ν= r 1 i=1 ν i. Keďženapozorovanáhodnota T 2 je0, ( r 1 ) π T2 (u 1,...,u r, σ1 2 )=P r 1 u i V i /V r u r + λ i σ1 2V 0 σ1 2 = r = P ( W r 1 i=1 u i V r u+λ i σ 2 1 V r σ 2 1 ) =1 i=1 0 ( r 1 ) u i v F W u+λ i σ1 2v f Vr (v)dv, kde F W, f Vr označujúdistribučnúfunkciuahustotupríslušnejnáhodnejpremennej. Naprotitomu, T c1,..,c r 1 jeprepevné σ1 2 rozdelenáakolineárnakombináciasnáhodnýmikoeficientaminezávislých χ 2 rozdelenýchnáhodných premenných. Pri výpočte hodnôt jej na dátach založenej silofunkcie možno využiť nasledujúci vzťah: π Tc1,...,c r 1 (u 1,..., u r, σ 2 1)=P = 0 ( r 1 i=1 ( 1 c i V i + λ iσ 2 ) 1 V r i=1 ( ( r 1 1 F v i=1 c i u i u r u r )) r 1 i=1 f Vr (v)dv, c i u i u r σ 2 1 kde F v jedistribučnáfunkcialineárnejkombinácienezávislých χ 2 rozdelených náhodnýchpremenných r 1 i=1 c i( 1 v + λiσ2 1 u r )V i ajejhodnotysadajúspočítať Imhofovýmalgoritmom[3],af Vr jehustota χ 2 ν r rozdelenia. Numerické výsledky Podľavyššieuvedenýchvzťahovjemožnéprekonkrétnedátaazvolené σ 2 1 spočítať hodnoty na dátach založených silofunkcií pre jednotlivé zovšeobecnené testovacie premenné. Hranice obojstranného konfidenčného intervalu je podobnemožnézískaťnumerickýmriešením(4)prevhodnezvolené γ 1, γ 2, ) =

17 Konfidenčné intervaly pre variančný komponent 7 napríklad,vprípadeobojstranného95%-néhointervalumôžmezvoliť γ 1 = 0.025aγ 2 =0.975.Akoužbolospomenuté,skutočnúkonfidenčnúúroveň takto skonštruovaných intervalov je vhodné overiť simulačne. Z tohto pohľadu sme jednotlivé testovacie premenné skúmali(s uspokojivým výsledkom) na konkrétnych prípadoch modelu(1). Tu uvedieme len jeden. Ideomodel(1)sX = (1 30 s), Z = (A r),kde1 n označuje n 1vektorjednotiek, sje30 1vektorsi-touzložkou s i = 3+6 (i 1)/29, A=I ( označujekroneckerovsúčin)arje30 1vektorsi-tou zložkou r i =( 2+4 (i 1)/29) 2. Nazáklade2000simuláciípreskutočnéhodnotyparametrov(σ 2 1, σ2 )zmnožiny {(0.1,10),(0.5,2),(1,1),(2,0.5),(5,0.2)} sa nasimulované pravdepodobnosti pokrytia intervalov získaných pomocou jednotlivých testovacích premenných pohybovali v rozpätí od do , čo nenaznačuje že by skutočné pravdepodobnosti pokrytia týchto zovšeobecnených intervalov boli nižšie ako stanovená 95%-ná úroveň. Isté rozdiely medzi jednotlivými testovacími premennými sa však objavujú pri porovnaní dĺžok intervalov pomocou nich skonštruovaných. Podľa našich skúseností sa v tomto smere javí ako nie príliš vhodná na použitie testovacia premenná T λ,ktoránielenževediekširšímintervalom,alenavyšeajrozsah dĺžok jednotlivých intervalov je pomerne veľký. V uvedenom príklade pri (σ 2 1, σ 2 )=(5,0.2)bolrozdielmedzinajkratšímanajdlhšímintervalomviac ako Priemerné dĺžky intervalov založené na 20 simuláciách sú uvedené v nasledujúcej tabuľke. (σ1 2, σ2 ) (0.1,10) (0.5,2) (1,1) (2,0.5) (5,0.2) T T T 1/λ T λ Tabulka 1: Priemerné dĺžky 95%-ných konfidenčných intervalov. 3 Záver Zovšeobecnené testovacie premenné predstavujú možnosť ako konštruovať, v istom zmysle presné, konfidenčné intervaly v úlohách s rušivými parametrami. V článku sme ukázali, ako ich je možné použiť na konštrukciu konfidenčnýchintervalovpreparameter σ 2 1 vmodelisdvomivariančnýmikomponentami. Navrhli sme ako voliť konštanty v testovacej premennej z článku[11] a uviedli sme tiež alternatívnu, výpočtovo jednoduchšiu testovaciu premennú. Okrem jednej, sa podľa simulačnej štúdie všetky nami skúmané testovacie premenné javia vhodné na použitie.

18 8 Barbora Arendacká Reference [1]GnotS.,Jankowiak-Ros lanowkam.,michalskia.(1992).testingforhypothesis in mixed linear models with two variance components. Listy Biometryczne Biometrical Letters 29, [2] Gnot S., Michalski A.(1991). Linear and quadratic estimation from interand intra-block sources of information. Statistics 22, [3] Imhof J.P.(1961). Computing the distribution of quadratic forms in normal variables. Biometrika 48, [4] Michalski A.(2003). On some aspects of the optimal statistical inference on variance components in mixed linear models. Tatra Mountains Mathematical Publications 26, [5] Michalski A., Zmyślony R.(1996). Testing hypotheses for variance components in mixed linear models. Statistics 27, [6] Olsen A., Seely J., Birkes D.(1976). Invariant quadratic unbiased estimation for two variance components. The Annals of Statistics 5, [7] Seely J., El-Bassiouni Y.(1983). Applying Wald s variance component test.theannalsofstatistics11, [8] Šírková L., Witkovský V. (2001). On testing variance components in unbalanced mixed linear model. Applications of Mathematics 46, [9] Tsui K.W., Weerahandi S.(1989). Generalized p-values in significance testing of hypotheses in the presence of nuisance parameters. Journal of the American Statistical Association 84, [10] Weerahandi S. (1995). Exact statistical methods for data analysis. Springer-Verlag, New York. [11] Zhou L., Mathew T.(1994). Some tests for variance components using generalized p-values. Technometrics 36, Poďakovanie: Ďakujem RNDr.V.Witkovskému CSc. za mnohé podnetné rady a pripomienky. Práca bola podporená grantami Vedeckej grantovej agentúry Slovenskej republiky VEGA 1/0264/03 a VEGA 2/4026/04. Adresa: B. Arendacká, Ústav merania SAV, Dúbravská cesta 9, Bratislava, SR barbora.arendacka@post.sk

19 ROBUST 2004 c JČMF 2004 INFERENCE ZALOŽENÁ NA SEKVENČNÍCH POŘADÍCH Lucie Belzová Klíčová slova: Pořadí, sekvenční pořadí, Wilcoxonův test. Abstrakt:Tématemčlánkujsou klasická asekvenčnípořadí.jsouzde uvedeny jejich definice, základní vlastnosti a vztah mezi nimi. Dále je ukazáno, že testové statistiky založené na pořadích resp. na sekvenčních pořadích (tj.vtestovéstatisticenahradíme klasické pořadísekvenčním)jsouzaurčitých předpokladů ekvivalentní. 1 Pořadí a sekvenční pořadí Nechť X 1,..., X n jsou nezávislé náhodné veličiny se spojitou distribuční funkcí F.Náhodnéveličiny X 1,..., X n uspořádámepodlevelikostianejmenší znichoznačíme X (1),druhounejmenší X (2) ažnejvětší X (n).platítedy X (1) X (2)... X (n). X (i) senazývá i-tápořádkovástatistika. Jestliženáhodnáveličina X i je j-tácodovelikostimeziveličinami X 1,..., X n,tj.(x i = X (j) ),pakpořadí R in tétoveličinyjerovnočíslu j.hodnota R in jetedyrovnapočtutěchveličin,kteréjsoumenšíneborovny X i. Dáledefinujemesekvenčnípořadí R ii náhodnéveličiny X i jakopořadí X i meziveličinami X 1,..., X i.barndorff-nielsen[1]dokázali,ženáhodné veličiny R 11, R 22,... R nn jsounezávisléaplatí P(R ii = r i )= 1 i, r i=1,..., i; i=1,...,n. Uvažujme lineární pořadovou statistiku následujícího tvaru: n ( ) Rin T n = c in J n, (1) n+1 i=1 kde c 1n, c 2n,...c nn jsouznáméregresníkonstantyaj n ( i jsou skóry generované následujícím způsobem: ( ) i J n =EJ(U (i) ), n+1 n+1 )pro i=1,...,n kde U (i) je i-tápořádkovástatistikaznnezávislýchrovnoměrněrozdělených náhodných veličin na intervalu(0, 1). Dále předpokládáme, že 1 0 J(u)du=0, (2)

20 10 Lucie Belzová a kde 0 < i=1 1 0 J 2 (u)du=a< (3) n c in =0. (4) i=1 Nyní uvažujme statistiku založenou na sekvenčních pořadích: n ( ) Rii M n = (c in c i 1,n )J i, (5) i+1 c i 1,n = 1 i 1 c jn a c 0,n =0. i 1 j=1 Tedy M n jesoučtemnezávislýchnáhodnýchveličin. Mason[3] dokázal, že pokud platí max 1 i n c 2 in n = o(1) (c jn c nn ) 2 j=1 jsoustatistiky T n a M n asymptotickyekvivaletnípodlekvadratickéhostředu, tj. platí ( ) Tn M n n E 0, (6) kde σ 2 n=vart n. σ 2 n 2 Dvouvýběrový Wilcoxonův test Nechť X 1,...,X m resp. Y 1,..., Y n jenáhodnývýběrzrozdělenísdistribuční funkcí Fresp. G. Dvouvýběrový Wilcoxonův test testuje hypotézu, že distribuční funkce F a Gjsoustejné,tj. H 0 : F = G,protialternativěposunutívpoloze,tzn. H 1 : G(x)=F(x ), 0. Veličiny X 1,...,X m, Y 1,...,Y n (tzv.sdruženývýběr)uspořádámevzestupněpodlevelikostiaoznačíme R in, i=1,...n,(n= m+n)pořadí i-té veličiny ze sdruženého výběru. Pak Wilcoxonova statistika je rovna součtu pořadí druhého výběru, tedy W N = N i=m+1 Platí T N = W N provolbu J(u)=ua R in. (7) c in = 0 i=1,...,m = 1 i=m+1,...,n.

21 Inference založená na sekvenčních pořadích 11 Bohužel pro tuto skórovou funkci a tyto regresní konstanty neplatí podmínky(2) a(4), proto upravíme volbu následovně: J(u)=u 1 2 c in = n N i=1,..., m i=m+1,...,n. = m N Potompořadovéstatistiky T N a M N jsourovny: T N = n N m i=1 ( ) RiN N m 2 N N i=m+1 ( ) RiN N (8) M N = n N ( R 11 1 ) 2 + N i=m+1 ( ) m Rii i 1 i+1 1, (9) 2 protože c in c i 1,N = n N i=1 = 0 i=2,...,m i=m+1,...,n. = m i 1 3 Simulace 3.1 Normální rozdělení Uvažujmenáhodnévýběry X 1,..., X m zn(0,1)ay 1,..., Y m zn(,1),kde =0,0.25,0.5,0.75,1,1.5,2,2.5,3. Prorozsahyvýběrů m=15, n=20resp. m=n=50resp. m=n=100 arůznévelikostiposunutí( )bylyspočtenytestovéstatistiky T n (Wilcoxonova)aM n ( sekvenčníwilcoxonova )aoběbylyporovnányskritickou hodnotu Wilcoxonova testu na hladině spolehlivosti α = Pro každou kombinaci volby rozsahu a posunutí se provedlo 1000 simulací. procentuální zastoupení shodných rozhodnutí Wilcoxonova a Wilcoxonovasekvenčního testuprojednotlivésituace.jevidět,žesrostoucímirozsahy výběrů jsou rozhodnutí testů ve více případech stejná. Dále, jak bychom očekávali, počet shodných rozhodnutí roste s rostoucím posunutím od určité hodnoty posunutí p(závisí na rozsazích výběrů). A naopak, pokud posunutí jemezi0ap,početstejnýchrozhodnutíklesá. Pro m = 15, n = 20a = 0.75jsouvtabulce(Tab.2)avgrafu (Graf 2) uvedeny počty jednotlivých možností rozhodnutí obou testů.(tato kombinace parametrů měla nejméně shodných rozhodnutí 79,5%.) Pro ostatní kombinace parametrů je situace obdobná, tj. sekvenční test je slabší než Wilcoxonův.

22 12 Lucie Belzová m=15,n=20 m=n=50 m=n= ,0 98,3 98,4 0,25 92,6 94,9 94,6 0,5 88,0 93,5 98,3 0,75 79,5 97,4 100,0 1 84,8 100,0 100,0 1,5 97,3 100,0 100,0 2 99,8 100,0 100,0 2,5 100,0 100,0 100, ,0 100,0 100,0 Tabulka 1: Shodné rozhodnutí Wilcoxonova a Sekvenčního testu pro normální rozdělení(v procentech). Shodné rozhodnutí Wilcoxonova a Sekvenčního testu pro normální rozdělení (v procentech) procenta ,25 0,5 0,75 1 1,5 2 2,5 3 posunutí m=15,n=20 m=n=50 m=n=100 Graf1 Wilcoxon Sekvenční zamítl nezamítl zamítl nezamítl Tabulka2:Normálnírozdělení, m=15, n=20, =1,5.

23 Inference založená na sekvenčních pořadích 13 X1,...X15 ~ N(0,1), Y1,...Y20~N(0.75,1) Sekven ní nezamitl zamitl zamitl Wilcoxon nezamitl Graf2 3.2 Logistické rozdělení Vzhledem k tomu, že Wilcoxonuv test je lokálně nejsilnejší pořadový test (viz[2]) pro logistické rozdělení, byla obdobná simulace provedena i pro logistické rozdělení L(a, b), které má hustotu f(x)= exp{ x a b } (1+exp{ x a b })2 x, a R, b >0. Analogicky jako u normálního rozdělení se nagerovaly náhodné výběry X 1,..., X m zl(0,1)ay 1,..., Y m zl(,1),kde =0,0.25,0.5,0.75,1, 1.5,2,2.5,3,3.5,4am=15, n=20resp. m=n=50resp. m=n=100. Výsledky jsou obdobné jako u normálního rozdělení. Dle tabulky(tab. 3) a grafu(graf 3) je patrné, že opět počet shodných rozhodnutí Wilcoxonova a sekvenčního testu roste s rozsahem výběrů a velikostí posunutí od určité hodnotyposunutí p.připevnýchrozsazíchakdyž 0, p,početstejných rozhodnutí klesá. Jako v případě normálního rozdělení i pro logistické rozdělení je zde uveden graf(graf 4) a tabulka(tab. 4) se zastoupením jednotlivých rozhodnutí obou testů pro kombinaci parametrů, u které bylo nejméně shodných rozhodnutí.tentokráttatosituacenastalaopětprorozsahyvýběrů m=15, n=20, ale velikost posunutí je větší a to 1,5. Pro ostatní kombinace parametrů je rozložení rozhodnutí obdobné,tedy opět můžeme prohlásit, že Wilcoxonův test je silnější než-li sekvenční.

24 14 Lucie Belzová m=15,n=20 m=n=50 m=n= ,6 98,5 98,8 0,25 94,4 96,0 97,5 0,5 93,6 94,1 95,2 0,75 87,1 91,1 96,3 1 86,1 94,5 99,3 1,5 84,0 99,4 100,0 2 88,8 100,0 100,0 2,5 96,7 100,0 100,0 3 98,8 100,0 100,0 3,5 99,6 100,0 100, ,0 100,0 100,0 Tabulka 3: Shodné rozhodnutí Wilcoxonova a Sekvenčního testu pro logistické rozdělení(v procentech). Shodné rozhodnutí Wilcoxonova a Sekvenčního testu pro logistické rozdělení (v procentech) 100 procenta ,25 0,5 0,75 1 1,5 2 2,5 3 3,5 4 posunutí m=15,n=20 m=n=50 m=n=100 Graf3 Wilcoxon Sekvenční zamítl nezamítl zamítl nezamítl Tabulka4:Logistickérozdělení, m=15, n=20, =1,5.

25 Inference založená na sekvenčních pořadích 15 X1,...X15 ~ L(0,1), Y1,...Y20~L(1.5,1) nezamitl Sekven ní zamitl 515 zamitl nezamitl Wilcoxon Graf4 4 Závěr Pro normální a logistické rozdělení jsme nevyvrátili platnost vztahu(6), tj. vtestovéstatistiky T n a M n jsouasymptotickyekvivaletnípodlekvadratického středu. Dále se ukázalo, že Wilcoxonův test je silnější než jeho sekvenční analogie. A za třetí čím větší posunutí u druhého výběru uvažujeme, tím více je shodných rozhodnutí uvažovaných testů. Reference [1] Barndorff-Nielsen O.(1963). On the limit behaviour of extreme order statistics. The Annals of Matematical Statistics 34, [2] Jurečková J.(1981). Pořadové testy. SPN Praha. [3]MasonDavidM.(1981).Ontheuseofastatisticbasedonsequentialranks to prove limit theorems for simple linear rank statistics. The Annals of Statistics9, Poděkování: Tato práce je podporována výzkumným záměrem MSM Adresa:L.Belzová,KPMS,MFFUK,Sokolovská83,Praha8-Karlín belzova@karlin.mff.cuni.cz

26 16

27 ROBUST 2004 c JČMF 2004 ČASOPROSTOROVÉ BODOVÉ PROCESY Viktor Beneš, Michaela Prokešová Klíčová slova: Časoprostorové procesy, kótovaný bodový proces, věrohodnost, Coxovy procesy, podmíněná intenzita, metoda minimálního kontrastu. Abstrakt: Příspěvek uvádí základní přístupy k modelování náhodných bodovýchprocesůvčaseaprostoru.vprvníčástisepracujespojmempodmíněné intenzity v kontextu kótovaných časových procesů. Druhá část se zabývá dvojně stochastickými procesy, kde se porovnávají modely s různě definovanými řídícími poli. 1 Základní pojmy časoprostorových procesů Časoprostorové bodové procesy se užívají k modelování náhodných událostí v čase a prostoru(prostoru nejčastěji dvou- či tří- dimenzionálním). Oborů aplikací je mnoho, jmenujme např. epidemiologii výskyty nákazy v regionu, nukleární medicínu z radioaktivního zdroje implantovaného v orgánu se zachycují fotony na povrchu detektoru, seismologii epicentra zemětřesení v Zemi, životní prostředí- výskyt lesních požárů, nebo zemědělství růst plevele na poli, apod. O časoprostorových bodových procesech pojednávají monografie[12] a zejména[6], další časopisecké citace obsahuje přehledový článek[11]. V definici náhodného bodového procesu na podmnožině S Eukleidovského prostoru R d seoznačí Nsystémlokálněkonečnýchpodmnožin Savybavíse σ-algebrou N= {B N;card(B A)=m, m=0,1,2,..., A B(S)},kde B(.)značíborelovskou σ-algebrunapříslušnémnožině, B(R k )=B k.náhodný bodovýprocesjepotomnáhodnýelement X: (Ω, A, P) (N, N),kde zobrazení je definováno na obecném pravděpodobnostním prostoru. Současně X(A)značípočetbodů Xv A B(S).Zabývejmesepojmemvěrohodnost realizace(x 1,..., x n )bodovéhoprocesu Xvomezenémnožině A S. Janossyhomíra J n (restrikcena A)mátvar J n (dx 1 dx n A) P(právě nbodůvapojednomvdx 1,...,dx n ) (v tomto přehledovém článku kvůli stručnosti stavíme na heuristických definicích, rigorozní postup lze najít např. v[6]. Bodový proces se nazývá regulární,existuje-lihustota j n míry J n vzhledemkµ n,kde µjedanáreferenční míra na S. Potom věrohodnost L A realizace(x 1,..., x n ) na A je L A (x 1,...,x n )=j n (x 1,..., x n A). Zajímá nás analytické vyjádření věrohodnosti. Uvažme nejprve Poissonův bodovýprocesva R d sfunkcíintenzity λ(x).zderealizace(x 1,..., x n ), má věrohodnost n ( ) L A = λ(x i )exp λ(x)dx. A i=1

28 18 Viktor Beneš, Michaela Prokešová Provětšinujinýchprostorových(v R d )procesůjevyjádřenívěrohodnosti obtížné. Pročasovýbodovýproces X v R + vhodnýmpodmíněním σ-algebrou událostídočasu tdefinujemepodmíněnouintenzitu λ předpisem H t λ (t)dt E[X(dt) H t ]. Položme A=[0, T]auvažmerealizaci t 1 < t 2 < < t X(T) procesu Xna A, píšeme X(T)=X(A).Zdeobecněmávěrohodnosttvar L A (t 1,...,t X(T) )= X(T) i=1 λ (t i )exp ( T 0 λ (x)dx ). (1) Proto časová poloosa díky svému uspořádání podpoří modelování časoprostorového bodového procesu, technickým nástrojem je kótovaný bodový proces. Nechť(K, B K )jeseparabilníúplnýmetrickýprostorkótsreferenčnímírou λ K. Kótovanýbodový procesvznikápřiřazenímkót k i K bodům x i S. Xjekótovanýbodovýproces {(x i, k i )}na S Kje-li X g = {(x i )} bodový proces na S. Časoprostorový proces je potom kótovaný bodový procesna R + R d.kótovanýbodovýproces Xna S Ksenazýváregulární, jestliže existuje Janossyho hustota j n (t 1,...,t n, k 1,..., k n )dt 1...dt n λ K (dk 1 )... λ K (dk n ) P( bodyvdt i skótamivdk i ). Proregulárníkótovanýbodovýproces Xna R + Ksedefinujepodmíněná intenzitajakonáhodnáfunkce λ (t, k) E[X(dt dk) H t ]. Realizace X na[0, T] Ktvaru(t 1, k 1 ),...,(t Xg(T), k Xg(T))mávěrohodnost L T = X g(t) i=1 λ (t i, k i )exp ( T 0 K λ (u, v)duλ K (dv) ). (2) Jedním ze základních modelů časoprostorových bodových procesů jsou samobudící se procesy. Dospějeme k nim tak, že nejprve popíšeme časový Hawkesůvprocesna S R + ([7]).Vtomtomodeluseuvažujídvatypy bodůa)stacionárnípoissonůvbodovýprocesimigrantůsintenzitou µ c,b) proexistujícíbody t i následnícitvořínezávislépoissonovybodovéprocesy smírouintenzity µ(a t i ),kde µ(s) <1asuppµ R +.Hustotu µvzhledem k Lebesgueově míře značíme též µ. Podmíněná intenzita Hawkesova procesu je lineární: λ (t)=µ c + µ(t t i ). 0<t i< t Tedy pro parametrický tvar hustoty µ se odhad parametrů modelu realizuje metodou maximální věrohodnosti užitím(1).

29 Časoprostorové bodové procesy 19 Ověření shody modelu s daty(viz[9]) je založeno na jiném základním principu nazývaném náhodná změna času(viz[14]). Volně řečeno, procházíme-li R + od0tak,ževčase tjerychlost 1 λ (t),potomokamžiky,kdy dosahujeme body procesu, tvoří stacionární Poissonův proces s jednotkovou intenzitou.tedypoodhadu λ následujeposouzenítransformovanérealizace známými metodami pro stacionární Poissonův proces. IntegrálzpodmíněnéintenzityΛ (t)= t 0 λ (u)dusenazývákompenzátorbodovéhoprocesu Xna R + aznámýjerozkladformulovanývnásledujícívětě. Xjeadaptovanýnafiltraci F= {F t, t R + }(rostoucísystém σ-algeber),jestliže X(t)je F t -měřitelnéprokaždé t. Věta1.1. Nechť Xjeadaptovanýnafiltraci Famáspojitoupodmíněnou intenzitu λ,pakproces M(t)=X(t) Λ (t) je F-martingal,t.j.prokaždé s > t >0 E[M(s) F t ]=M(t). Pro časoprostorové procesy formulujeme princip náhodné změny času přesně. Věta 1.2. Nechť X jekótovanýbodovýprocesna R + K spodmíněnou intenzitou λ (t, κ)kladnouna[0, ) Kazlevaspojitouvtλ K -s.j.,skompenzátorem Λ k(t)= t 0 λ (s, k)ds, splňujícímλ k (t) při t, λ K-s.j.Potompřináhodnýchzměnách času (t, k) (Λ k (t), k), je X transformován na kótovaný Poissonův proces s jednotkovou časovou intenzitouastacionárnímrozdělenímkóty λ K (.). Obecněplatí λ (t, k)=λ g (t)f (k t), kde f (k t)jepodmíněnáhustota kótyvčase tpřidaném H t a λ g jepodmíněnáintenzita X g.uprocesu snepredikovatelnýmikótami,kdyrozděleníkótyvx i nezávisínapolohách akótách {(x j, k j )},proněž x j < x i,je f (k t)=f(k t)nenáhodnáfunkce. Jako aplikaci časoprostorového bodového procesu uvádíme modelování výskytu zemětřesení podle[10] založené na ETAS modelu(epidemic-type aftershock sequence), což je zobecněný Hawkesův samobudící se proces. Výskyty zemětřesení jsou popsány kótovaným bodovým procesem s časovoudynamikouakótami(x, y, M),kde(x, y)jeprůmětepicentranazemský povrch a M síla zemětřesení. Jsou dány předpoklady: a) λ (t, x, y, M)=j(M)λ (t, x, y)pronějakoudeterministickoufunkci j,

30 20 Viktor Beneš, Michaela Prokešová b) intenzita imigrantů je funkcí(x, y) c) následníci jsou nezávislí, jejich střední počet je κ(m), d) rozděleníčasuvětvenímáhustotupravděpodobnosti g(t τ),kde τje okamžik výskytu předchůdce, e) rozdělenísílyresp.polohyzávisínasílepředchůdce M ajehopoloze ξ, ηshustotami j(m M )resp. f(x ξ, y η M ) V zavedeném ETAS modelu je podmíněná intenzita λ (t, x, y)=µ(x, y)+ κ(m i )g(t t i )f(x x i, y y i M i ). i:t i<t Parametrická volba funkcí f a g umožňuje odhad parametrů modelu maximalizací věrohodnosti(2) a následně testování shody modelu s daty založené namyšlencezvěty Časoprostorové Coxovy bodové procesy V další části představíme tři modely časoprostorových bodových procesů s aplikacemi zvláště v epidemiologii a ekologii. Všechny tři modely jsou Coxovy procesy, ovšem s různými typy řídících náhodných polí. Začněme tedy definicícoxovaprocesuobecněna R n. Definice2.1.Buď {Z(s):s S}, S R n nezápornénáhodnépoletakové, žespravděpodobností1je s Z(s)lokálněintegrovatelnáfunkce. X nazveme Coxovým procesem řízeným polem Z(alternativně Coxovým procesem sřídícíintenzitou Z),pokudjepodmíněnérozdělení Xzapodmínky Z= z rovno rozdělení Poissonova procesu s funkcí intenzity z. Uvažujeme-liCoxůvprocesnaomezenémnožině B S, B <,potom je jeho hustota vzhledem ke standardnímu Poissonovu procesu dána vzorcem [ ( ) ] f(x)=e exp B Z(s)ds Z(s), x N(S). (3) B Explicitní vyjádření použité střední hodnoty obvykle není k dispozici a numerická aproximace by vyžadovala počítání mnohorozměrných integrálů velké dimenze. Protože je ale díky podmíněné struktuře Coxových procesů a obecným vlastnostem Poissonova procesu možné vyjádřit různé charakteristiky procesu X pomocí charakteristik použitého řídícího pole, máme k dispozici jednoduché momentové metody odhadu parametrů modelu. Přímo z definice Coxova procesu plyne, že pro míru intenzity procesu X platí Λ(B)= Z(s)ds, B S, (4) B nepodmíněná funkce intenzity je tedy rovna ρ(s) = EZ(s), a párová korelační funkce je dána vztahem s x g(s 1, s 2 )=E[Z(s 1 )Z(s 2 )]/[ρ(s 1 )ρ(s 2 )]. (5)

31 Časoprostorové bodové procesy 21 Obdobně se i další momentové míry a faktoriální momentové míry dají vyjádřit pomocí momentů náhodného pole Z. Další výhodou Coxových procesů je,žepřivhodnévolběmodeluprořídícípole Zmůžemezískatvelmiflexibilní popis časoprostorové kovarianční struktury pozorovaného procesu X, použitelný pro nejrůznější reálné aplikace. Dobře interpretovatelnou variantou Coxových procesů jsou takzvané log- GaussovskéCoxovyprocesy(LGC)prokteré Z(s)=exp(Y(s)),kde Y(s) je Gaussovské pole se střední hodnotou µ(s) = EZ(s) a kovarianční funkcí c(s 1, s 2 )=Cov(Z(s 1 ), Z(s 2 )).AbybylodpovídajícíCoxůvprocessprávně definován, je třeba splnit jistá kritéria na hladkost kovarianční funkce viz[8]. V modelu nepožadujeme stacionaritu procesu Y, ale předpokládáme-li translační invariantnost a izotropii kovarianční funkce c dostáváme velmi jednoduchévztahymezi µac(charakteristikamiprocesu Y)afunkcíintenzity ρ apárovoukorelačnífunkcí g(s 1, s 2 )=g( s 1 s 2 )procesu X g( s 1 s 2 ) = exp(c(s 1, s 2 )), (6) ρ(s) = exp(µ(s)+c(s, s)/2). (7) Odhady v LGC modelech se provádí metodou minimálního kontrastu, kdyodhadyparametrůparametrizujících µacatedyicelýlgcmodeljsou hodnoty argumentu minima integrovaných rozdílů mezi teoretickou hodnotou a neparametrickým odhadem ĝ funkce g a2 a 1 {(log ĝ(r)) b (log g(r)) b } 2 dr. (8) Logaritmusepoužívákvůlistabilizacirozptylu, a 1, a 2 a bjsouvolenékonstanty. Při použití Coxových procesů pro časoprostorové modelování se neužívá přístup pomocí kótovaných bodových procesů z první části našeho článku. Přímočarávolba(viz[3])jeuvažovatvdefinici1prostor S=[0, ) R n, kdeprvnírozměrodpovídáčasuanjevreálnýchaplikacíchrovno2nebo3. Nejprvevšakpopíšemejinýmodelz[5](obaužívajíLGCproces),kdejde oprostorovýcoxůvprocesměnícísevčasejakoprocesrození.data,naněž je model aplikován, jsou pozice rostlinek dvou různých druhů plevele na ječmenném poli pozorované v diskrétních časových okamžicích během několika týdnů po jeho přeorání. Tedy začínáme s prázdnou konfigurací a postupně námbodypřibývají.zde X i (t), t 0značíprostorovýprocesvR 2 závisející načase t,dvěmadruhůmpleveleodpovídá i=1,2.podmíněněnagaussovskémprocesu Y na R 2 jsou X i (t)nezávislépoissonovyprocesyrození, na S=[0, ) R 2 majímíruintenzity γ i ν i.předpokládáme,že γ i jsou absolutně spojité deterministické míry na[0, ) a ν i (B) = exp(y i (s))ds, B B 2 B Y i = ωv+ σ i U i + m i, i=1,2,

32 22 Viktor Beneš, Michaela Prokešová kde V, U 1, U 2 jsounezávislécentrovanégaussovsképrocesysjednotkovým rozptylemakorelačnímifunkcemi r, r 1, r 2.Tybylyvolenyizotropnívexponenciálnímtvaru r i (a)=exp( a/β i ).Parametrymodelu β, β 1, β 2, ω, σ 1 a σ 2 >0( prostorové parametry)seodhadujímetodouminimálníhokontrastuam i jedeterministickástředníhodnotaprostorovéhogaussovského procesu. Ověření odhadnutého modelu se provádí simulačními testy různých charakteristik jako třeba funkce prázdného prostoru F (viz[13]) či párové korelační funkce g. Právě předvedený LGC model je sice časoprostorový, ale díky součinovémutvaruintenzity γ i ν i anezávislostináhodnýchpolí Y i načaseječasoprostorová interakce a závislost dosti omezená. Větší flexibilitou se v tomto ohledu vyznačuje model z článku[3], který používá pro definici podmiňovací míry intenzity opravdu časoprostorový Gaussovský proces Y(t, s). Článek se zabývá epidemiologickou aplikací. Situace, kterou má daný Coxův proces modelovat, jsou výskyty určité nemoci v různých místech sledovaného regionu oznamované v diskrétních, ale vzhledem k rychlosti změny intenzity výskytu této nemoci velmi častých časových intervalech. Cílem je odhadnout z pozorovaných případů intenzitu rizika vzniku nemoci v daném čase a zvláště její lokální zvýšení. Coxův proces je v tomto případě vhodným modelem, protože jak bylo ukázáno v[1] existuje dualita mezi časoprostorovou nehomogenitou rizika a časoprostorovým shlukováním pozorovaného procesu jednotlivých případů onemocnění. Každý takový shluk případů tedy odpovídá lokálně zvýšené řídícíintenzitě Z(t, s)atasevmodelumusíměnitsdruženěvprostoruačase. Řídícípole Zjedánorovnicí Z(t, s)=λ(s)exp{y(t, s)}, (9) kde Y(t, s) je stacionární Gaussovský proces a λ(s) je deterministická funkce. Zde λ(s) popisuje změny v prostorové intenzitě ohrožené populace a Y(t, s) odpovídá riziku nakažení chorobou v čase t a místě s. Protože pozorování jsou prováděna v diskrétních časových okamžicích t 1,..., t n,jeřídícíintenzitaprostorovéhocoxovaprocesupřípadůzaznamenanýchmezičasy t 1 a t 2 rovna λ(s) t 2 t 1 exp{y(t, s)}dt, s R 2.Tatoveličina ovšem nedefinuje prostorový LGC proces a není známo její přesné rozdělení. Protosepropočetpřípadů X ti (B)mezi t i 1 a t i v B B 2 připevném Y volí model Poissonova rozdělení X ti (B) Poisson [ (t i t i 1 ) B ] exp{y(t i, s)}λ(s)ds, spoléhajícísenadostatečněmalérozdílymezičasy t i a t i 1.Zvýpočetních důvodů se diskretizuje proces Y také prostorově, rozdělením celého sledovanéhoúzemínavelkémnožstvíbuněk.vtaktoupravenémmodeluužjsoukdispozicijednoducháanalytickávyjádřeníprostorovýchintenzit ρ ti apárové korelační funkce g a opět je možno použít metodu minimálního kontrastu porovnáním s jejich neparametrickými odhady z dat.

33 Časoprostorové bodové procesy 23 Poslední model, který v tomto přehledu ukážeme, je poněkud složitější a používá jinou třídu Coxových procesů než předešlé dva. Jsou to takzvané G shot noise Coxovy procesy(gsnc) zavedené v[2]. Buď {u j, w j } S [0, ), S mathcalb k realizacepoissonovabodovéhoprocesuπna S [0, )smírouintenzitysoučinovéhotvaru ν κ,α,τ (A B)=(κ(A)/Γ(1 α)) w α 1 exp( τw)dw, A S, B [0, ),kde α <1aτ 0jsouparametrys τ >0pro α 0aκje nezápornáanenulováradonovamírana S.Realizaci {u j, w j }jednoznačně odpovídá takzvaná G-míra B m(a)= j w j δ uj (A), A S kde δznačídiracovumíruvbodě u j.řídícípoleg-shotnoisecoxovaprocesu X je pak definováno vzorcem Z(s)= j k(s, u j )w j, kde k(, u) je jádro(pro jednoduchost můžeme předpokládat, že k(, u) je hustotaspojiténáhodnéveličiny).pro α <0je {u j }Poissonůvprocessmírou intenzity τ α κ( )a{u j}jsounezávislénahodnotáchveličin w j,kteréjsou vzájemně nezávislé a mají všechny stejné Gamma rozdělení Γ( α, τ). Situace jesložitějšípro α 0,protožepakmámenekonečněmnohobodů {u j }ipro omezenou množinu S. V práci[4] byly GSNC procesy rozšířeny na časoprostorové GSNC procesy. Zde analyzovaná data byla stejná jako v[5], tedy vývoj růstu plevele, ale nyní byl každý druh analyzován zvlášť. Základní myšlenka časoprostorového rozšíření spočívá v definování rodiny G-měr m t, t 0na S,odpovídajícíchintenzitám ν κt,α,τs κ t (ds)=b(t)ds, kde B(t), t 0jekumulativnídistribučnífunkce,tak,žeirozdíly(m t+ t m t )jsoug-míryajsounezávisléna m t.rodinaodpovídajícíchintenzit Z t ( ) (s použitím jádra k(, u) nezávislého na čase t) pak určuje časoprostorový GSNC proces X na S [0, ). Takto definovaný proces má nezávislé přírůstky v čase, takže je možné interpretovat výsledný bodový vzorek jako součet podle času nezávislých prostorových GSNC procesů(připomeňme si, že toto neplatí pro LGC model, protože ten má nezávislé přírůstky v čase pouze podmíněně na řídící Gaussově intenzitě a součet dvou LGC procesů také není LGC proces.) Stejně jako v případě LGC procesů se i zde parametry odhadují metodou minimálního kontrastu z ρ a g a ověření odhadnutého modelu se provádí

34 24 Viktor Beneš, Michaela Prokešová simulačními testy vybraných charakteristik. Co se týče simulování GSNC procesu na omezeném okně S, je třeba řešit problém okrajových efektů, a to způsobených jednak jádrovými funkcemi s neomezeným nosičem(k intenzitě GSNCprocesu Xpozorovanéhov Spřispívajíibody u j nacházejícísevelmi dalekood S),jednakpro α 0faktem,žecard({u j })=.Toseřešíjednak simulacípoissonovaprocesu {u j }navětšímokněnežje S,jednakoříznutím počtu {u j }dostatečněvelkoukonstantou.jsoukdispoziciiodhadytakto způsobené chyby v simulované řídící intenzitě, viz[2],[4]. Reference [1] Bartlett, M.(1964) Spectral analysis of two-dimensional point processes. Biometrika51, [2] Brix, A.(1999) Generalized gamma measures and shot-noise Cox processes. AdvancesinAppl.Probab.31, [3] Brix, A. and Diggle, P. J.(2001) Spatiotemporal prediction for log-gaussian Coxprocesses.J.R.Stat.Soc.Ser.B63, [4] Brix, A. and Chadoeuf, J.(2002) Spatio-temporal modeling of weeds by shotnoise G Cox processes. Biometrical Journal 44, [5] Brix,A.andMoller,J.(2001)Space-timemultitypelogGaussianCoxprocesseswithaviewtomodellingweeds.Scand.J.Statist.28, [6] Daley D.J., Vere-Jones D.(2003) An Introduction to the Theory of Point Processes, Vol. I: Elementary Theory and Methods. Second Ed. Springer. [7] Hawkes A.G.(1971) Spectra of some self-exciting and mutually exciting point processes. Biometrika 58, [8] Moller J.; Syversveen, A. R.; Waagepetersen, R. P.(1998) Log Gaussian Cox processes. Scand. J. Statist. 25, [9] Ogata Y.(1988) Statistical models for earthquake occurrences and residual analysisforpointprocesses.j.amer.statist.assoc.83,9 27. [10] Ogata Y.(1998) Space-time point process models for earthquake occurrences. Ann.Inst.Statist.Math.50, [11] Schoenberg F.P., Brillinger D.R., Guttorp P.(2002) Point processes, spatialtemporal. In: Encyclopedia of Environmetrics, Ed. by El-Shaarawi A.H., PiegorschW.W.,Wiley,3, [12] Snyder D.L., Miller M.I.(1991) Random Point Processes in Time and Space. Wiley, New York. [13] Stoyan, D., Kendall, W. S., Mecke, J. Stochastic geometry and its applications. Chichester: Wiley. [14] Watanabe S.(1964) On discontinuous additive functionals and Levy measures ofamarkovprocess.japanesej.math.34, Poděkování: Tato práce vznikla za podpory grantů GAČR 201/03/0946 a MSM Adresa: V.Beneš, M.Prokešová, KPMS MFF UK, Sokolovská 83, 18675Praha8 benesv@karlin.mff.cuni.cz, prokesov@karlin.mff.cuni.cz

35 ROBUST 2004 c JČMF 2004 POZNÁMKY KE SHLUKOVÉ ANALÝZE PRVOKŮ Martin Betinec Klíčová slova: Shluková analýza, hlavní komponenty, fylogenetické stromy, Trichomonadinæ. Abstrakt: Příspěvek se zabývá vlivem parametrů shlukové analýzy(tj. volbou kódování nukleotidů, metriky a metodou shlukování) na fylogenetickou klasifikaci prvoků čeledi Trichomonadinæ a konfrontuje její výsledky s metodou hlavních komponent. 1 Úvod Shluková analýza pronikla do nejrůznějších odvětví biologie např. formě fylogenetických stromů(v angl. phylogenetic trees, resp. evolutionary trees). Ty představují způsob popisu vývoje druhů organismů, tzn. jejich vzájemné příbuznosti jak ve smyslu identifikace daného vztahu tak i jeho kvantifikace. Prostředkem umožňujícím žádaný popis je dendrogram vzniklý často pomocí některé z metod(hierarchické) shlukové analýzy. V této souvislosti se nabízejí dvě otázky. Jak závisí výsledný dendrogram na parametrech shlukové analýzy? Jaká je spolehlivost výsledného popisu, který byl získán na základě zkoumaného vzorku, vzhledem k vlastnostem celé populace? Odpovědí na druhou otázku se zabýval můj příspěvek na Robustu 02, viz[2]. Nynísebudemevěnovatprvníznich. V části 2 se zaměříme na shlukovou analýzu a její výsledky porovnáme v části 3 se závěry analýzy hlavních komponent. Výsledky budou ilustrovány na datech získaných skupinou parazitologů vedenoudoc.rndr.jaroslavemflégrem,csc.zpřfuk. 1 Jednáseo22vzorků téhož genu prvoků čeledi Trichomonadinæ. 2 Shluková analýza Pod názvem shluková analýza se skrývá celá řada postupů(viz např.[5]), my se v dalším soustředíme na hierarchické slučovací metody, které se užívají ve fylogenetice. Výsledky této skupiny metod je možno zobrazit pomocí dendrogramu, který lze interpretovat jako hledaný popis evoluce. 2.1 Hierarchické shlukování Označmemnožinu mstudovanýchobjektů {O 1,, O m }symbolem O. 1 viz. flegr/

36 26 Martin Betinec Hierarchickéshlukování Hbudižsystém {A i } i,kde A i O, takže A i, A j Oplatí,žebuď A i A j =,nebo A i A j = A i,nebo A i A j = A j,přičemž (i, j),proníž A i A j = A j. Hlzevyjádřitjakoposloupnostrozkladů {K i } m 1 i=0 množiny O,kde K i = {A i,1,, A i,m i },tak,žepropevné ijsou shluky A i,j disjunktní (j = 1,, m 1), m i j=1 A i,j= OaK i jezjemněním K i+1,vizčást Stratifikované hierarchické shlukování nechť je takové hierarchickéshlukování H,kteréjejednakúplné (tzn.platí O Ha{O i } H pro i=1,, m),azároveňjena Hdefinovánfunkcionál h,kterýpřiřazuje každému shluku A H jeho shlukovací hladinu h(a) Koeficient nepodobnosti shluků D je funkcionál přiřazující každédvojicishluků(a i, A j )číslo D(A i, A j ),kterévyjadřujeohodnocenípodobnostníchvztahůmezishluky(a i, A j ).Požadujeme,abypro i, jplatilo D(A i, A j ) 0aD(A i, A j )=D(A j, A i ),přičemž D(A i, A i )= Hierarchická aglomerativní shlukovací procedura s koeficientem nepodobnosti D nalezne pro množinu objektů O posloupnost jejích rozkladů {K i } m 1 i=0.zároveňkaždémushlukukaždéhozrozkladůpřiřadíjeho slučovací hladinu, a to v následující rekurzi: 1.Počátečnírozklad K 0 množiny Otvoříshlukyidentickéspůvodními objekty,tj. A 0,i := O i,pro i=1,, m,tedy K 0 = {A 0,1,, A 0,m }.Zároveňpoložme h(a 0,i )=0pro i=1,, m. 2.Do k.kroku(1 k m 1)vstupujerozklad K k 1 = {A k 1,1,, A k 1,m k+1 }.Buď A k 1,u, A k 1,v K k 1,takovádvojiceshluků,proníž D(A k 1,u, A k 1,v ) = min A,B Kk 1 D(A, B) =: µ k. Do rozkladu K k beze změnyzařadímevšechnyshluky A k 1,j K k 1 (nezměněnyzůstávajíihladiny h(a k 1,j ))svýjimkou A k 1,u a A k 1,v,místonichždo K k přidáme shluk(a k 1,u A k 1,v ),přičemžklademe h(a k 1,u A k 1,v ):= µ k. 3.Nazávěrplatí K m 1 = {A m 1,1 }=O,navíc h(a m 1,1 )=µ m Podobnostní strom označuje stratifikované hierarchické shlukování H,pokudpro A, B Hplatí A B= h(a) h(b). Aby H byl podobnostním stromem, musí koeficient nepodobnosti shluků D splňovat následující podmínku(ta je nutná a postačující, viz[5]): Nechťproshluky P, Qnabývá Dminima.Označme D(P, Q)=µ,pak prolibovolnýjinýshluk Umusíplatit D(P Q, U) µ. Podobnostní strom lze graficky jednoznačně reprezentovat dendrogramem. Na jeho svislé ose se vynáší hladina slučování příslušných shluků, které jsou na vodorovné ose seřazeny tak, aby bylo možno zobrazit jejich postupné slučování, viz obr. 2. Podobnostní strom dané množiny objektů O nevyjde za všech okolností stejně. Závisí na volbě shlukovací metody(tj. D), na způsobu, jimž měříme

37 Poznámky ke shlukové analýze prvoků 27 vzdálenost objektů(tj. na metrice), a v případě nominálních znaků i na způsobu jejich kódování. Vlivu těchto charakteristik se budeme věnovat podrobněji, předtím ještě zmiňme jednu zvláštnost spojenou s použitím shlukové analýzy pro fylogenetické stromy. 2.2 Klasifikace Užitečnost shlukové analýzy spočívá zejména v generování hypotéz o klasifikaci zkoumaných objektů. Navrhovanáklasifikaceobjektů Kjetotožnásrozkladem K i = {A i,1,, A i,m i }pronějžplatí,že µ i h kr µ i+1,kde h kr jezvolenámezníhodnota a µ i,resp. µ i+1 jsoumaximálníslučovacíhladinyrozkladů K i,resp. K i+1, blíževiz2.1.4.mez h kr seobvykleklademezidvojicisousedníchslučovacích hladin s největším(interpretovatelným) rozdílem. Průběhslučováníobjektůuvnitřkaždéhozeshluků A i,j finálníhorozkladu K i výslednouklasifikacineovlivní.interpretujeme-livšakdendrogram jako evoluční strom, pak se oproti výše zmíněnému zajímáme o celý průběh slučování, tj. o celý dendrogram od kořene až po listy. 2.3 Vliv kódování Datový soubor se skládá z 22 vzorků téže části genomu prvoků čeledi Trichomonadinæ, každý o délce 1870 nukleotidů. Nukleotidy jsou čtyři: adenin, guanin, cytosin a thymin. První dva patří mezi puriny zatímco druhá dvojce mezi pyrimidiny. Ve dvojité šroubovici DNAseprotisoběvyskytujívždydvojice A Ta C G Způsoby kódování Pokud bychom s daty zacházeli jako s nominálními veličinami, byli bychom nuceni se omezit na sledování shod daných vzorků v jednotlivých nukleotidech. Vhodné kódování nukleotidů umožní zacházet se znaky jako s kardinálními veličinami, a tedy i odrážet výše zmíněné vlastnosti nukleotidů. Včlánku([4])autornavrhujepoužít(A,G,C,T)=(1,2,5,6),tentozpůsob nazývám originální. Vzhledem k výše zmíněným vlastnostem nukleotidů je toto kódování nesymetrické, proto stojí za úvahu jeho varianty, jež označuji jako opačné (A,G,C,T) =(2, 1, 6, 5), tj. opačná nesymetrie komplementárníchbází,aposunuté (A,G,C,T)=(1,2,6,5),srov.[2].Prozjištění,zdaje vhodně zvolena vzdálenost oddělující puriny od pyrimidinů, je možno ji zvětšit,např.(a,g,c,t)=(1,2,15,16) totokódováníoznačmejakovzdálené (vobr.2jakolong). Ve všech případech byly stromy pěstovány metodu nejbližšího souseda za použití eukleidovské metriky, blíže viz část Výsledky Dendrogramy vzniklé z originálního, posunutého i opačného kódování vyšly(až na měřítko na svislé ose) totožné.

38 28 Martin Betinec Výsledek vzniklý ze vzdáleného kódování se od ostatních liší jen v nejnižšíchpatrech tím,zdaseobjektgposloučínejprveseshlukem {CYG, TUMS} (jako v případě první trojice způsobů), anebo s dvojicí {AA9, OAM}(vzdálené kódování), viz horní řádek obrázků 2. Vzhledem k robustnosti výsledků vůči vlivu kódování budeme v dalším používat originální kódování. 2.4 Vliv metriky Nechťje i-týprvokreprezentovánvektorem x i =(x i,1,, x i,p ),kde i= 1,,22ap= Metrika jezobrazení d: R p R p R + 0,kterépro x i, x j, x k R p, splňuje vlastnosti reflexivity d(x i, x j ) = 0 x i = x j, symetrie d(x i, x j ) = d(x j, x i )atrojúhelníkovénerovnosti d(x i, x j ) d(x i, x k )+ d(x k, x j ). Většina používaných metrik je odvozena od Minkowského metriky d t (x i, x j )= ( p k=1 x i,k x j,k t )1 t t=1,2,3,, (1) např.manhattanská (téžcity-block) metrikavzniknezd t pro t = 1.Již zmiňovaná eukleidovská metrika volbou t = 2. Supremální metrika vznikne z d t jako: d (x i, x j ) =lim t d t (x i, x j ) =max k=1,,p x i,k x j,k.pro uvedenémetrikyplatí: d 1 (x i, x j ) d 2 (x i, x j ) d (x i, x j ). Pro srovnání sledujme ještě chování canberrské metriky, která vztahuje vzdálenost složek k dvojnásobku jejich aritmetického průměru(tj. relativně snižuje váhu téhož rozdílu se vzrůstající vzdáleností od nuly): d Cb (x i, x j )= p k=1 x i,k x j,k x i,k + x j,k (2) Výsledky Použití eukleidovské metriky vydá stejný strom jako užití metriky manhattanské a téměř stejný jako canberrská metrika. Ta se liší jen tím, že odděluje pentatrichomonas těsně před oddělením shluku {tenax, vaginalis}, zatímco u obou předešlých je tomu naopak, viz obr. 2. Vzhledem k blízkosti slučovacích hladin těchto shluků jde o změnu zanedbatelnou. Supremální metrika je z podstaty věci nevhodná. Vzhledem k použitému kódovánímůžerozdílsložek(x i,k x j,k )vektorů x i a x j nabýtpouzehodnot1,3,4a5.protéměřlibovolnoudvojici x i a x j setakmezi1870složkami najdealespoňjednadvojice1 6,tedy d (x i, x j )=5. Ze zjištěného plyne, že smysluplně použité metriky výsledek podstatně neovlivní. V dalším budeme používat metriku eukleidovskou.

39 Poznámky ke shlukové analýze prvoků Vliv shlukovací metody Jednotlivé shlukovací metody se od sebe liší volbou koeficientu nepodobnosti Dmezishluky(tyoznačme AaB) Zkoumané metody všechny splňují podmínku podobnostního stromu(viz část 2.1.5), na rozdíl od některých neuváděných, leč častých metod(např. mediánová, centroidní), jejichž dendrogramy nelze interpretovat jako evoluční stromy. 1. Metoda nejvzdálenějšího souseda(complete linkage, furthest neighbour) zkráceněznačenafn klade D FN (A, A)=0apro A = B D FN (A, B)=max Oi A,O j B d(o i, O j ). 2. Metoda nejbližšího souseda (single linkage, nearest neghbour, friend offriends) zkráceněnn: D NN (A, B)=min Oi A,O j B d(o i, O j ). 3. Metoda průměrné nepodobnosti shluků(group average): klade D GA (A, A)=0aoznačuje-li A početprvků A,pakpro A = B: D GA (A, B)= 1 A B d(o i, O j ). 4. WardovaaWishartovametodaProsloučenishluků A, Bdoshluku C minimalizujepřírůstekvnitro-shlukovévariability I AB = E C (E A + E B ),kde E A = i:o i A j (o ij o j ) Výsledky Všechny metody(viz obr. 2) tvoří shluky {cirka, 209, CYG2, M3, skupina1, CYG, TUMS, Q9, AA9, OAM} a {nonconforma, augusta, mobilensis, foetus}. Všechny až na Wardovu metodu k prvnímu jmenovanému shluku přiřadí i GPO. Navíc oddělují trichomitus samostatně od ostatních a vyčleňují samostatný shluk {KAJ, LMA, SL}. Metody průměrných nepodobností, nejbližšího a nejvzdálenějšího souseda produkují téměř totožné stromy. Liší se pořadím shlukování Q9 a pentatrichomonas.q9seslučujenavelminízkéhladině buďsespojínejprveseshlukem {CYG,TUMS}(jakovpřípaděmetodprům.nepodobnostíaNN),anebo s dvojicí {AA9, OAM}(metoda FN). Pentatrichomonas se buď nejprve sloučí s hlavním shlukem a až následně se připojí shluk {tenax, vaginalis}(metoda NN), anebo nejdříve splyne pentatrichomonas s {tenax, vaginalis}, acelátrojicepaksrosteshlavnímshlukem(zbylédvěmetody),všeseděje na velmi blízkých hladinách. 2.6 Závěr Zjistili jsme, že dendrogramy jsou takřka nedotčeny jak volbou kódování, tak i metriky. Největší dopad na výsledek vykazují shlukovací metody. Nabízejí (i,j)

40 30 Martin Betinec sedvěskupinyřešení:podlemetodprům.nepodobností,nnafn apodle Wardovy metody. Zatímco první možnost by navrhovala rozčlenit objekty do 3 shluků(pokudnavíce,pakvzhledemkblízkostihladinaždo8),seshlukem {nonconforma,...,foetus}, samostatným trichomitem a zbytkem. Druhé řešení bysicetéžklasifikovalodo3shluků,tybyvšakkroměprvníhoshlukuměly odlišné složení. Při rozhodování o tom, na které řešení lze více spoléhat, nám může pomoci projekce dat do hlavních komponent. 3 Analýza hlavních komponent Téměř 80% variability v datech lze vysvětlit projekcí do prvních čtyř faktorů (označmeje PC 1,... PC 4 ).Situacilzenaléztnaobr.1. Nazákladědiagnos- Explained 59% Explained 27% PC vaginalis tenax pentatrichomonas trichomitus LMA SL KAJ GPO skupina1 TUMS CYG2 OAM AA9 M3 Q9 cirka 209 nonconfo augusta mobilen foetus PC vaginalis tenax pentatrichomonas KAJ LMA SL GPO mobilensis nonconforma foetus skupina1 cirka augusta TUMS CYG2 OAM AA9 209 M3 Q9 trichom PC1 Explained 54% PC3 Explained 52% PC trichomitus skupina1 TUMS CYG2 OAM AA9 M3 Q9 cirka 209 GPO LMA SL pentatrichomonas KAJ vaginalis tenax nonconfo augusta mobilen foetus PC vaginalis tenax trichomitus skupina1 TUMS CYG2 OAM AA9 M3 Q9 cirka 209 pentatrichomonas GPO KAJ LMA SL nonconfo augusta mobilen foetus PC PC1 Obrázek 1: Projekce objektů.

41 Obrázek 2: Srovnání výsledků různých kódování, metrik a metod. trichomitus foetus mobilensis augusta nonconforma GPO cirka 209 CYG2 skupina1 M3 AA9 OAM Q9 CYG TUMS KAJ LMA SL pentatrichomonas tenax vaginalis foetus mobilensis augusta nonconforma cirka 209 CYG2 skupina1 M3 CYG TUMS Q9 AA9 OAM trichomitus tenax vaginalis KAJ LMA SL GPO pentatrichomonas Height Height orig, Euclid, average orig, Euclid, Ward trichomitus foetus mobilensis augusta nonconforma pentatrichomonas tenax vaginalis GPO cirka 209 CYG2 skupina1 M3 AA9 OAM Q9 CYG TUMS KAJ LMA SL trichomitus foetus mobilensis augusta nonconforma GPO cirka 209 CYG2 skupina1 M3 CYG TUMS Q9 AA9 OAM KAJ LMA SL pentatrichomonas tenax vaginalis Height Height orig, Canberra, NN orig, Euclid, FN trichomitus foetus mobilensis augusta nonconforma tenax vaginalis pentatrichomonas GPO cirka 209 CYG2 skupina1 M3 AA9 OAM Q9 CYG TUMS KAJ LMA SL trichomitus foetus mobilensis augusta nonconforma tenax vaginalis pentatrichomonas GPO cirka 209 CYG2 skupina1 M3 CYG TUMS Q9 AA9 OAM KAJ LMA SL Height Height orig, Euclid, NN long, Euclid, NN Poznámky ke shlukové analýze prvoků 31

42 32 Martin Betinec tických koeficientů(viz např.[1]) lze stanovit vlivnost jednotlivých objektů vůči danému faktoru i jejich zkreslení v projekci na daný faktor. Výsledné hodnoty není možné z prostorových důvodů uvádět zde, zájemce odkazuji na[3].zobr.1jepatrno,žedůležitourolihrajízejména: Prvnífaktor(PC 1 ),kterýzřetelněoddělujeshluk {augusta,foetus,mobilensis, nonconforma} od ostatních(odtržení tohoto shluku je v souladu s výsledky shlukové analýzy, viz obr. 2). Tento shluk, jehož zástupci jsou projekcína PC 1 zároveňnejménězkresleni,přispívátakřkaze70%kvariabilitě vysvětlenépodél PC 1 (43%celkové).Nízkoumíruzkresleníprojekcína PC 1 vykazujíiaa9,cyg, OAM, Q9, TUMSaM3, skupina1,cyg2. Třetífaktor(PC 3 ),kterývýrazněoddělujetrichomitusodzbylýchvzorků. To odpovídá první skupině dendrogramů. Trichomitus významně přispívá kvariabilitěvysvětlenépodél PC 3 (73.5%zecelkových11%),zároveňjetento objektprojekcído PC 3 zkreslenzdalekanejménězevšech. Podél zbylých faktorů jsou objekty rozmístěny relativně rovnoměrně. 3.1 Závěr Na základě pohledu do první faktorové roviny lze pochopit výsledek WardovyaWishartovy metody.dalšídimenze PC 3 všakukazuje,žeoddělení trichomitu je natolik výrazné, že pro fylogenetickou analýzu lze před metodou Wardovou upřednostnit metody prům. nepodobností a nejbližšího a nejvzdálenějšího souseda, z nichž ovšem na základě PCA nelze žádnou jednoznačně prohlásit za nejlepší. Reference [1]AlujaT.,MorineauA.(1999).Aprenderdelosdatos:elanálisisdelos componentes principales. EUB, Barcelona, [2] Betinec M.(2002). O spolehlivosti vývojových stromů. ROBUST 02, Sborník prací Dvanácté zimní školy JČMF (eds. J. Antoch, G. Dohnal, J.Klaschka),JČMF,Praha,1 15. [3] [4] Efron B., Halloran E., Holmes S.(1996). Bootstrap confidence levels for phylogenetic trees. Proc. Natl. Acad. Sci. USA 93, [5] Lukasová A. Šarmanová J. (1985). Metody shlukové analýzy. SNTL, Praha, Poděkování: Rád bych vyjádřil svůj dík Doc. RNDr. Jaroslavu Flégrovi, CSc. a jeho spolupracovníkům za poskytnutí dat a cenných konzultací. Tato práce je podporována výzkumným záměrem MSM Adresa: M. Betinec, Katedra sociologie, FF UK Praha, Celetná 20, 11642Praha1 betinec@matfyz.cz

43 ROBUST 2004 c JČMF 2004 REGRESSION WITH TRUNCATED DATA Marek Brabec Keywords: Regression, truncated data, spectral estimation. Abstract:Inthispaper,wewillpresentanexampleoftheanalysisofhistorical height data. First, we will discuss some conceptual problems related to the fact that no representable surveys are available for historical periods of interests(18th and 19th centuries). Then we will state a statistical model that can be used to correct available data(swedish soldiers measurements) for their selectivity with respect to the general population height distribution. The model is based on truncated normal regression. There, we will concentrate on periodicity in the height data, whose time series is spanning more than a century. In addition to presenting some explorative spectral estimates, we will discuss some problems and features related to maximum likelihood estimation in the model. 1 Introduction In this paper, we will present an interesting practical problem encountered by anthropologists and historians. The goal is to estimate dynamics of human population mean heights in the past, from historical data(18th and 19thcenturies).Asonecanexpect,thetaskiscomplicatedbythefactthat informative data of high quality are difficult to obtain. Namely, no reasonably representative height surveys were organized then. Small samples are available from historical records here and there(e.g. family records of aristocrats etc.), their relevance for population height distribution is dubious, to say the very least, however. On the other hand, large amounts of systematically and rather precisely measured data are available from military records. Since the soldiers came from various social strata, geographical areas etc., historians think that military drafts spatially covered the concurrent(healthyadultmale)populationtoareasonableextent,[8],[9].evenifwetake this for granted, one substantial problem remains, however. To illustrate it, we consider the fact that while the recent adult population heights are known to follow normal distribution rather closely and there is no substantial reason why their historical counterparts should not behave similarly, the military sample shows consistently substantial positive skewness. Boxplots in Figure 1 demonstrate the situation for one particular sub-group of soldiers(born in Swedish rural areas) from the dataset that was collected by Richard Steckel and Lars Sandberg,[7], and which we will analyze subsequently. Why is this happening? The answer is simple: military sample, as it stands, is not representative for the healthy male population as a whole. Itishighlyselectiveinthesensethatthearmydislikedshortmen.Itspreference for taller soldiers was embodied in a simple policy: men shorter than

44 34 Marek Brabec height in cm birth year Figure 1: Height of rural-born soldiers,distributional summaries by birthyear. a prescribed value(minimum height requirement, MHR) should not be drafted.therefore,onlythoseatorabovemhrshouldappearinthemilitary sample, theoretically. Comparing boxplots in Figure 1 with a presupposed MHRof165.76cm(horizontalline),wecanseethatwhilethepolicyreally ledtotheapparentrightskew,therearesomedatabelowmhraswell.we checked with prof. Komlos(economic historian from University of Munich, who introduced us to the substantive problem of historical height distribution estimation) and made sure that these are not coding errors. Although it was educationaltolearnthat(eveninkingdomodsweden...)afewindividuals maintained to get into the draft while being(even seriously) below the MHR, one quickly realizes that while data obtained from these individuals can tell something about how effectively the policy was implemented, they do not tell much about the general male population distribution. Therefore, it became customary among historians to discard them and analyze only those above MHR,[6]. While saturated (i.e. on year-by-year basis) analyses for this data type have been attempted,[6],(including analyses of this particular dataset[7]), current interest of economic and anthropometric historians focuses on analysis of some generalizable long-term properties of the yearly(indexed by birthyear) height time series(like trends, periodicity etc.). Here, we will focus on the periodicity properties(after some simple trend and inter-regional

45 Regression with truncated data 35 corrections).thiswasthetaskwhichwasbroughttousbyourcustomer (prof. Komlos), who was interested in getting picture of the periodicity properties in an explorative style. This interest is connected to the general attention that economic historians pay to height(and other anthropological variables that thay see as possible indicators of biological standard of living ), see e.g.[11]. The ultimate idea is that biological changes(like height fluctuations) might(to some extent) reflect changes in economic conditions(e.g. through food price and hence food availability) and hence can be potentially used as economic indicators more relevant to human well being than traditional econometric characteristics like GDP. Although one can be a bit skeptical about this upshot, many economic historians take this route, see e.g.[4]. Present investigation was motivated by somewhat more modest goal of comparison between periodic properties of height series and some economic(e.g. food price)seriesasaroughcheckofsensibilityofthepreviousattemptstouse heights as indicators(then, for instance the periodicity properties should be roughly similar ). Obviously, such comparisons straightforwardly lead to the need to estimate the spectra. Nevertheless, it is immediately clear, that the fact that all the heights below MHR are discarded precludes standard statistical/spectral analysis and calls for a model that corrects for this complication. We will formulate onesuchmodelinthesection2. 2 Model The available data consist of(about 17 thousand) measurements of adult Swedish army soldiers, 22 years or older at the time of measurement, born between 1711 and 1864). To assess periodicity properties of the Swedish healthy male population height time series(indexed by birthyear), we outlined the following simple(linear) model(1) with normally distributed errors. Its form has been proposed after certain amount of data explorations and discussions with anthropometric history experts. where: Y tij = µ+α i + βt+σ F k=1 (δ 1kcos(2πtf k )+δ 2k sin(2πtf k ))+ǫ tij (1) Y tij istheheightof j-thmanfromgeneralswedishpopulation,bornin yeartat i-thbirthlocation. Timeisindexedbybirthyear, t=1correspondsto1711. Birthlocationisindexedas i=0for unknown, i=1for rural, i=2for urban. ǫ tij N ( 0; σ 2),independentlyacross t, i, j s

46 36 Marek Brabec Due to its linear(additive) structure, interpretation of the model is rather simple. It tries to assess amount of variability associated with periodic movementsofvariousfrequencies f 1,... f F aftercorrectingforpossiblebirthlocation differences and for possible(common) linear trend(as a simple form of non-stationarity). It is precisely the correction, together with the fact that the data are not balanced(having different sample sizes for different birthyears) which calls for a formulation in regression style and which precludes straightforward periodogram estimation based on standard estimators,[2]. Note that in the non-trigonometric part, the model resembles analysis of covariance. It fits a common linear trend shifted up or down differently at different birth locations, allowing for different average heights at rural/urban locations, a phenomenon which has been well documented for both historicalandrecentheights[5].weuseaparticularparametrizationwith α 0 =0, whichmeansthatthemeanheightofamenbornatunknownlocation(either ruralorurban)isgivenby µpluslinearandtrigonometrictermsintime. α 1 correspondstothedifferencebetweenmeanheightofmenbornatthesame yearatruralandunknownlocations.similarly α 2 correspondstodifference between urban and unknown locations. In order to roughly mimic periodogram estimation of variability at Fourier frequencies,wechoosefrequencies f i = 1 75,1.5 75, 2 75, ,37 75,whichareclose towhatthefourierfrequencieswouldbe,ifwehadasingleseriesoflength150 (withfrequency added,basedonpreliminarydataexplorations). Model(1)isnicelyinterpretableandwouldbeeasilyfittedtodatafrom historical Swedish population-representative male height surveys. The only flaw is that unfortunately no such surveys were performed. Available military data are non-representative of the general male population due to the MHR enforcement(and discarding the below-mhr measurements, see 1). Nevertheless, the mis-representation can be corrected rather easily, if we think ofthemilitarysampleasofasamplefromgeneralpopulation,whichislefttruncatedatthemhr.then,fortheavailablemilitarydata Y tij,wegetthe truncated regression model(2) from the original OLS model(1). Y tij remainsunobservedif Y tij < τ t Y tij = Y tij if Y tij τ t Y tij = µ+α i + βt+σ F k=1(δ 1k cos(2πtf k )+δ 2k sin(2πtf k ))+ǫ tij ǫ tij N ( 0; σ 2) α 0 =0 (2) NotethattheMHR(τ t )cangenerallyvaryintime.ideally,itshouldbe known from military regulations. Practically, it is not completely known and have been expertly estimated by historians(prof. Komlos). We have used both constant and time-varying MHR estimates and found that in terms of the main goal of the analysis. i.e. of rough spectral shape assessment, there are no substantial differences. More careful version with time-varying MHR wasusedtogetresultsinsection3,however.

47 Regression with truncated data 37 We make use maximum likelihood approach to estimate unknown parameters(µ, α 1, α 2, β, σ 2, δ 11,... δ 1F, δ 21,... δ 2F )ofthemodel(2).because of truncation, the model becomes nonlinear and no explicit formulas for the MLE s are available. Therefore, we maximize the loglikelihood(which is still rather easy to wright down) numerically, using a Newton-Raphson-like routine. We use the S-plus, especially the censorreg environment,[10] for the necessary computations. 3 Results and discussion Before discussing the periodicity properties, we did some tests of the model(2). Namely, we used asymptotic likelihood ratio test(lrt) to check whether: i) birth-location specific intercepts are necessary(p < for H 0 : α 1 = α 2 =0),ii)lineartimetrendisnecessary(p <0.0001for H 0 : β = 0). No opening for a substantial simplification of the model structure was detected here. Toassessperiodicity,onecanlookatMLEestimatesˆδ 1k,ˆδ 2k, k=1,2,...,38.or,moreconvenientlyatˆγ k = δ1k 2 + δ2 2k, k=1,2,...38(respectivelytheirsimpletransformationtodecibels:10.log 10 (ˆγ)).Theyareanalogous to periodogram estimate of raw spectrum. Figure 2 compares raw ˆγ k s(dots)withtheirsmoothedversions(solidlineforthesmooth,dotted line for pointwise computed 95% confidence interval limits). Smoothing is smoothed spectrum in db frequency Figure 2: Spectrum estimate.

48 38 Marek Brabec based on loess(locally linear) regression, namely its robust version,[3], with unequalweightingofˆγ k s,accordingtotheirasymptoticvariancesobtained as a byproduct of the MLE fitting procedure. Fromthere,wecanseethattherawestimatesfallreasonablywithinthe confidence limits(although these are necessarily too narrow to be thought of as simultaneous confidence bands due to their construction which guarantees only pointwise and not simultaneous coverage), except for estimates at two large frequencies. The overall shape of the spectrum is of non-trivial shape. Especially low frequencies are prominent(most likely remnants of some longtermtrendthatisnotestimatedseparatelyinmodel2andhenceisconfounded with long-periodic trigonometric part). Frequencies around 0.25(periods ofaboutfouryears)seemtocontributelesstotheheightserieschanges.on the other hand, high frequency part of the spectrum is presented substantially (especially periods shorter than, say 3 years). This is interesting, since this picture resembles results of[11], who did spectral analysis on another height data(not truncated and collected in a completely different way, at different times and locations). To get additional checks of the results concerning overall spectral shape, we re-estimated it under several alternative model modifications in the sensitivity analysis style. We have tried: i) both time-varying and constantexpertestimatesofmhr,ii)freeand σ 2 -restrictedmodels(σ 2 = σ 2 0 withexternallyexpert-supplied σ 2 0 anapproachthathasbeenadvocated in the past,[1]) as a way to circumvent correlation between mean-related and scale parameter estimates introduced by truncation, iii) combination of left truncation and additional interval censoring that can be suspected in connection with rounding, iv) simultaneous left and right truncation(to assess the possibility of over-representation of extremely tall men in the military sample in addition to the MHR complication), v) addition of quadratic trend, vi) omission of any trend whatsoever. Variants i) through vi) influenced the non-trigonometric part of the model and absolute values of the spectrum to various extent. Nevertheless, the spectrum shape remained remarkably similar and insensitive to the model perturbations considered. Ingeneral,wenotethatwhileintercept-likecoefficients(µ, α 1, α 2 )are rather difficult to estimate precisely, the slope-type coefficients(β, δ s) are estimated much more precisely. This is because the likelihood surface has anear-ridgee.g.inthe µ-σ 2 plane(seefigure3forasituationwithone particular birhtyear-year of 1751). Consequently, periodicity properties can be appreciated much better than intercepts determining average height per se.verticalshiftismoreuncertainandhenceitismuchhardertoanswer questions about absolute height, compared to questions about shape of their changes in time. Apart from overall(smoothed) spectrum estimate(which was required by the customer for explorative purposes), one can think of testing individual harmonictermscontributions(e.g. H 0 : δ 1k = δ 2k =0).Forsimplicity,the screening tests can be performed as Wald tests(using asymptotic variance-

49 Regression with truncated data 39 sigma o mu Figure 3: Likelihood surface example. covariance matrix of parameter estimates). Only few components were significant, namely those corresponding to periods of 75, 50, 25 and years. Resulting reduced model(with full non-trigonometric part and four harmonic components only) can be tested against the original model via LRT, and it yields p=0.47. From this, one would get the impression, that the original model can be dramatically simplified. We do not recommend such simplification, however. Coefficient estimates for different sine and cosine terms are correlated here(unlike in the classical Fourier analysis,[2]). This lack of orthogonalityisduetothefactthatthedataareunbalanced,thatwedonot work exactly with Fourier frequencies and because of truncation. It is of practical interest that the smooth spectral density estimate ŝ(f) canbeintegratedas I 1 p i+1 (pi,p i+1)= 1 ŝ(f)dftogetsomeideaaboutamount p i ofperiodicvariabilityinvariousperiodintervals(p i, p i+1 ).Thesecanbe standardized to get proportions. We have estimated proportions of variability in four sub-intervals of(2, 15) years interval(which has been intensively investigated in connection with buisness cycle in the past,[11]). They are: I (2,3) I I (2,15) =0.58, [3,5) I I (2,15) =0.20, [5,7) I (2,15) =0.09, I [7,10) I (2,15) =0.07, I [10,15) I (2,15) =0.06,corresponding rather nicely to proportions estimated in[11] by different methods under different circumstances.

50 40 Marek Brabec References [1] A Hearn B.(2004). A restricted maximum likelihood estimator for truncatedheightsamples.economicsandhumanbiology2,1,5 19. [2] Brockwell P.J., Davis R.A.(1991). Time series: Theory and methods. Springer, New York. [3] Cleveland W.S., Devlin S.J.(1988). Locally-weighted regression: An approach to regression analysis by local fitting. J. Am. Statist. Assoc. 83, [4] Easterlin R.A.(2000). The worldwide standard of living since J. Econ.Perspect.14,7 26. [5] Floud R., Wachtel K., Gregory A.(1990). Height, health and history. Nutritional status in the United Kingdom, Cambridge University Press. Cambridge. [6] Heintel M.(1996). Historical height samples with shortfall, a computationalapproach.historyandcomputing8,1, [7] Heintel M., Sandberg L., Steckel R.(1998). Swedish historical heights revisited: New estimation techniques and results. Proceedings of the conference The biological standard of livinging in comparative perspective. Komlos J., Baten J.(eds.) Franz Steiner Verlag. Stuttgart. [8] Komlos J.(1989). Nutrition and economic development in the eighteen century Habsburg monarchy: An anthropometric history. Princeton University Press. Princeton, NJ. [9] Komlos J.(1993). The secular trend in the biological standard of living in the United Kingdom, Economic History review 46, [10] Meeker W.Q., Duke S.D.(1981). CENSOR- A user-oriented computer program for life data analysis. The American Statistician 35, 2, 112. [11] Woitek U.(2003). Height cycles in the 18th and 19th centuries. Economic andhumanbiology2, Address: M. Brabec, Department of Biostatistics and Computing Services, National Institute of Public Health, Šrobárova 48, Praha 10, Czech Republic mbrabec@szu.cz

51 ROBUST 2004 c JČMF 2004 ROZUMÍ SI STATISTIKA S MEDICÍNOU? Václav Čapek Klíčová slova: Aplikovaná statistika, výuka. Abstrakt: Příspěvek si klade za úkol seznámit čtenáře se zkušenostmi autora z běžné statistické praxe na půdě Lékařských fakult Univerzity Karlovy vpraze.mělbyvéstkzamyšleníotom,jakjestatistikachápána,přijímána a používána těmi, kdo jsou její spotřebitelé. 1 Úvodní zamyšlení Čtenář bude jistě souhlasit, že statistiku potřebuje spousta odborníků z různých oborů. Potřebují ji, aby mohli objektivním způsobem zpracovat a vyhodnotit měření, která v rámci své práce realizují. Před námi, statistiky, teď stojí několik otázek: Mají tito odborníci dostatečné znalosti statistiky? Mají k dispozici vhodnou statistickou literaturu? Majímožnostsevestatisticevzdělávatzpůsobem,kterýjeproněoptimální? Co jim můžeme nabídnout my, statistici? Chceme jim to nabídnout? Umíme to nabídnout? Poslední dvě otázky tak trochu útočí do vlastních řad. Máme-li však být objektivní, musíme si položit i takové otázky. Pokud jsme dostatečně upřímní, pak se zřejmě shodneme na tom, že bohužel na ani jednu z výše uvedených otázek nemůžeme jednoznačně odpovědět: ano,samozřejmě.atojechyba.tentopříspěveksikladezacílvzbuditve čtenářiprávětytopochybnostiamotivovathoktomu,abyseionpokusil současný stav zlepšit. Autor tohoto textu ve svých závěrech vychází ze své praxe, kdy konzultoval, z pohledu statistiky, diplomové a dizertační práce přátel a pomáhal se zpracováním dat pro 1. LF UK a některé farmaceutické společnosti.

52 42 Václav Čapek 2 Trocha praxe Podívejme se teď, s jakými prohlášeními je možné se ve statistické praxi setkat: SpočítaljsemsiněcovExcelu,alenevím,cotoznamená. Můžeme předpokládat, že data jsou normální? Já myslím, že ano. Co to znamená? Aha tojsoutysložitývzorečky.ztohoměmálemvyhodili.tomi sem nedávejte. Já nechci nic složitého, mně stačí t-test. Na statistiku jsem nechodil. Nikdy mě nenapadlo, že to budu potřebovat. Výše uvedené věty demonstrují neduhy současného stavu. Odborník nestatistik se snaží získat výsledek za každou cenu, nerozumí použité metodě, snaží se minimalizovat složitost, chce to mít co nejdříve za sebou. Navíc vdobě,kdynášodborníkstuduje,nemápředstavu,kčemumubudestatistika později dobrá. Proto si z absolvovaných přednášek skoro nic neodnáší. Co s tímto stavem udělat? Máme dvě možnosti. Buď naučíme nestatistiky úplně celou statistiku tak, aby byli soběstační. A nebo jim ukážeme taje statistiky, necháme je lehce nahlédnout do celé její šíře a ukážeme jim možné cesty.řeknemejim,nakohoseobrátit.věřím,žeičtenářcítí,žedruhácesta je lepší. 3 Současný stav výuky Vyberme opět pro ilustraci několik vět, se kterými se statistik běžně setkává: Statistika je šílenost. Tobylypořádjenommatice.Cotojetopé? Nikdyjsemnepochopil,pročtomusíbýtvždycky5%. Proč nám o těch neparametrických metodách neřekli? Teď,kdyžtovidím,takbychchodilinavícsemestrůstatistiky. Z těchto vět je patrné, že zřejmě podáváme statistiku příliš matematickou, s malým důrazem na pochopení vlastní filozofie a na aplikace. Nejspíš si plně při výkladu neuvědomujeme, jaký typ vzdělání mají naši posluchači. Asi statistiku vykládáme tak, jak bychom ji vykládali matematikům. Zamysleme se nyní pořádně nad výše uvedenými výroky a zkusme najít tu správnou formu výuky statistiky pro nestatistiky. Zkusme se vžít do jejich potřeb a zeptejme se sami sebe, co bychom se jako nestatistici chtěli dozvědět na přednášce s názvem Statistika? Bylo by to odvození maticového tvaru odhadu metodou nejmenších čtverců, nebo vyprávění o tom, kdy tento odhad, ať už se spočítá jakkoliv,másmyslpoužítakdyne?

53 Rozumí si statistika s medicínou? 43 4 Návrh osnovy výuky Jak by tedy měla vypadat ta správná osnova výuky statistiky pro nestatistiky? Podívejme se na následující body: základní představa o rozdělení a jeho charakteristikách výjimečnost normálního rozdělení, CLV srovnání klasických a robustních metod odhady parametrů a konfidenční intervaly testování hypotéz regrese analýza rozptylu návrhy experimentů nezávislost mnohonásobná porovnávání Tento návrh plyne ze zkušeností autora z jeho osobní praxe. Jednotlivá témata jsou seřazena dle důležitosti a návaznosti. Všimněme si relativně mohutného zapojení robustních a neparametrických metod. Důraz je kladen zejména na filozofii statistiky a na interpretaci výsledků. Nematematikům nepomůže k pochopení problému znalost přesných matematických základů přednášené látky. Potřebují téma přiblížit jinak. Nevadí, v jejich případě, pokud se při výkladu dopouštíme drobných nepřesností. Jde o pochopení smyslu statistiky a získání přehledu o dostupných metodách a zejména o komplexnosti celého problému. Pokud má být taková výuka úspěšná, musí zároveň probíhat i vhodná kampaň, jejímž cílem bude zvýšení motivace potenciálních posluchačů výuku úspěšně absolvovat. Kampaň musí nestatistikům vysvětlit, jaké jsou její přínosyprávěproněaprojejichobor.statistikanesmíbýtchápánajakopovinná matematika, ale jako užitečný a nenahraditelný nástroj. Statistik pak je v roli konzultanta, který má, v jakémkoliv projektu, svoje pevné místo. 5 Související znalosti Závěrem zmiňme fakt, že od statistika, který se věnuje statistické praxi, se neočekává pouze perfektní znalost statistiky samotné. V okamžiku, kdy statistik připravuje závěrečnou zprávu, píše článek, oponenturu, připravuje klinické hodnocení, zpracovává grant nebo výběrové šetření, musí se vypořádat suměnímjazyka.musíumětvěcvysvětlitadiskutovatoní,musíumětvýsledkypráceceléhotýmuvesvézprávěvhodněprodat.čatosesetkástím,že ke své práci potřebuje znalost zákona. I tohle všechno patří do náplně práce statistika.

54 44 Václav Čapek 6 Závěr Cílem tohoto článku bylo vzbudit o popisované problematice povědomí, nastínit klíčové problémy a navrhnout možná řešení. Autor si je vědom toho, že řešení neexistuje jediné, v nějakém směru optimální. Současný stav je však nevyhovující, pojďme proto hledat alespoň nějaké řešení! Poděkování: Tato práce je podporována výzkumným záměrem MSM Adresa: V. Čapek, Karlova Univerzita v Praze, Katedra pravděpodobnosti a matematické statistiky, Sokolovská 83, Praha 8 Karlín capek@karlin.mff.cuni.cz

55 ROBUST 2004 c JČMF 2004 ZAJIŠTĚNÍ V POJIŠŤOVNICTVÍ A JEHO MATEMATICKÉ ASPEKTY Tomáš Cipra Abstrakt: O existenci zajištění v pojišťovnictví a o jeho fungování veřejnost příliš neví, přestože je to jeden z pilířů současného pojišťovnictví. Málokterý pojištěný u nás tuší, že značná část pojistného, které zaplatil české pojišťovně, putuje po převodu na eura nebo švýcarské franky do zahraničních zajišťoven(např. do největších světových zajišťoven Munic Re v Mnichově aswissrevcurychu)aženaopaktytozajišťovnyhradípodstatnoučást škody, kterou pojištěný utrpěl při pojistné události. Žádná pojišťovna u nás si nedovolí(zvlášť po povodňových zkušenostech) pracovat bez zajištění, neboť sevlastnějednáo pojištěnípojišťovny.takévýšesazeb,kterépojišťovny předepisují svým klientům, se z velké míry odvíjí od situace na zajistných trzích, a to zvlášť v současném světě klimatických změn a narůstajících přírodních a společenských katastrof. Tento příspěvek nejprve prezentuje základní principy zajištění, které se poněkud liší od principů přímého pojištění(po právní, metodologické i výpočetní stránce). Z hlediska statistiky je zde nutné zdůraznit fakt, že velké zajišťovny disponují velmi rozsáhlými a kvalitními statistickými archivy diverzifikovanými přes rozsáhlá geografická území, které často dávají po příslušném statistickém zpracování(nebo i ve zdrojové podobě) k dispozici zajišťovaným pojišťovnám. Dále se příspěvek soustřeďuje na některé matematické postupy využívané v zajištění, které mají kořeny především v teorii pravděpodobnosti a matematické statistice. Protože součástí dnešního zajištění je alternativní přenos rizik ART(Alternative Risk Transfer), který se snaží převést pojistná rizika nezvládnutelná pojišťovnami na finanční trhy, referuje příspěvek i o těchto postupech využívajících především finanční matematiku. 1 Základní pojmy a principy zajištění Zajištění je vlastně pojištění pojišťovny. Zajišťovná pojišťovna se v tomto kontextu obvykle označuje jako prvopojistitel a zajišťující zajišťovna jako zajistitel. Následující tabulky 1-3 uvádí některé aktuální údaje, které mají souvislost se současným stavem zajištění ve světě: 1.1 Význam zajištění Význam zajištění spočívá mimo jiné v následujících pozitivních skutečnostech: zvýšení kapacity pojistitele homogenizace pojistného kmene rozprostření a diverzifikace pojistných rizik(viz obrázky 1-3)

56 46 Tomáš Cipra dosažení finančních výhod získání profesionálních služeb zajistitele Událost Datum Oblast Počet obětí Pojištěná škoda (mil. USD) Hurikán Andrew USA(Bahamy) Teroristický útok v USA USA(New York aj.) Zemětřesení v Northridge USA(Kalifornie) Tajfun Mireille Japonsko Větrná smršť Daria Francie, UK aj Větrná smršť Lothar Francie, Švýcarsko aj Hurikán Hugo Portoriko, USA aj Záplavy a bouře (záp. Evropa) Francie, UK aj Větrná smršť západní a střední Vivian Evropa Tajfun Bart Japonsko Pramen: Sigma 2002, No. 1 Tabulka 1: Deset celosvětově největších pojištěných škod katastrofického charakteru za období v mil. USD indexovaných k roku 2001(s vyloučením odpovědnostních škod). Typ katastrofy Počet katastrof Počet obětí Pojištěná škoda (mil. USD) Přírodní katastrofy Velké požáry a výbuchy Letecké katastrofy Lodní katastrofy Silniční a železniční katastrofy Důlní neštěstí Zřícení budov a mostů Terorismus, sociální nepokoje Jiné velké katastrofy Celkem Pramen: Sigma 2002, No. 1 Tabulka 2: Pojištěné škody katastrofického charakteru podle škodních kategorií globálně za rok 2001.

57 Zajištění v pojišťovnictví a jeho matematické aspekty 47 Zajistitel Předepsané zajistné (mil. USD) Retrocese (%) Škodní průběh (%) Náklad. koeficient (%) Munich Re NP ,3 17,0 104,5 30,6 ŽP 3 882,5 10,0 NA 23,3 Swiss Re NP ,7 10,2 95,0 29,0 ŽP 5 428,0 7,5 NA 4,7 General Cologne Re NP 5 830,0 8,9 133,9 26,4 ŽP 2 005,0 7,3 81,8 22,3 Lloyd s NP 5 743,6 9,0 NA NA ŽP GE Global NP 5 551,0 30,2 101,6 38,9 ŽP 1 841,0 23,8 84,2 32,9 Hannover Re NP 4 837,9 41,4 99,4 16,3 ŽP 1 579,6 26,3 NA NA Gerling Global Re NP 3 462,3 13,7 109,2 25,9 ŽP 1 037,4 18,8 64,2 22,3 AXA Corp.Solutions NP 3 294,8 35,9 97,5 29,6 ŽP Berkshire Hathaway NP 2 953,0 1,0 117,0 5,0 ŽP SCOR NP 2 809,2 18,0 100,0 29,0 ŽP 493,7 16,0 83,0 27,0 Pramen: Reinsurance 33, 2002, No. 3 Tabulka 3: Deset celosvětově největších zajistitelů za rok 2001 seřazených podle předepsaného zajistného v mil. USD pro neživotní pojištění po odečtení retrocese. pojistný výsledek USA Nìmecko roky Japonsko Obrázek 1: Teritoriální diverzifikace pojistných výsledků pomocí zajištění. 1.2 Právní aspekty zajištění Jako základní právní principy zajištění se uvádí: princip odškodnění (indemnity): odškodňuje se jednoznačná finanční ztráta, kterou utrpěl prvopojistitel(tj. zajišťovaná pojišťovna);

58 48 Tomáš Cipra pojistný výsledek odpovìdnostní pojištìní havarijní pojištìní 1 5 roky ivelní pojištìní Obrázek 2: Produktová diverzifikace pojistných výsledků pomocí zajištění. pojistný výsledek výsledek s èasovou kompenzací pomocí zajištìní výsledek pomocí zajištìní bez zajištìní 1 5 roky Obrázek 3: Časová diverzifikace pojistných výsledků pomocí zajištění. princip dobré víry(utmost good faith): zajistná smlouva má do jisté míry charakter džentlmenské dohody spoléhající na serióznost smluvních partnerů, tj. prvopojistitele(neboli zajišťované pojišťovny) a zajistitele(neboli zajišťující zajišťovny); princip smluvního společenství zájmů(privity of contract): prvopojistitel zůstává ve vztahu k původnímu pojištěnému za dané riziko plně odpovědný(zajistná smlouva je právně zcela oddělena od původní pojistné smlouvy mezi klientem pojišťovny a pojišťovnou). Velmi důležitou právní úlohu hrají také tzv. klauzule zajistných smluv, které jsou specialitou zajistných vztahů: (1) n-hodinová klauzule(hour clause; n-stundenklausel): používá se při potenciálních přírodních nebo společenských katastrofáchsdelšíškodníexpozicíaznamená,žeudanéškodníudálosti jsou kryty pouze ty škody, které se kumulují nejdéle během intervalu délky n hodin; obvykle je: -48hodin:provichřiceahurikány;

59 Zajištění v pojišťovnictví a jeho matematické aspekty hodin: pro zemětřesení(včetně mořských), rozsáhlé požáry (např. celých území), vulkanické erupce, politická rizika(např. občanské nepokoje); -168hodin:propovodněazáplavy; hodin: pro záplavy; důležitá jsou v této souvislosti také upřesnění, zda - pojištěná rizika různého typu budou spadat pod jednu katastrofu(např. záplavy způsobené hurikánem); - daná katastrofa je omezena také územně(např. povodím řeky při povodních, územím města při nepokojích apod.). (2) Klauzule: věcný rozsah zajistného krytí: All Risks zajištění kryje všechna rizika kromě těch, která jsou explicitně uvedena jako výluky(tj. co není vyloučeno, je automaticky zajištěno ); Named Perils zajištění kryje jen explicitně uvedená rizika(tj. co není uvedeno, je automaticky ze zajištění vyloučeno ). (3) Klauzule: indexace: v případech, kdy zajistný vztah trvá delší dobu(několik let), se může během takové doby v důsledku inflace značně zvýšit cenová úroveňškodapřineměnnévýšiprioritybysezvýšiloškodnízatížení zajistitele; proto se provádí indexovaní; výluky ze zajištění: jejich důvodem může být: - stejná výluka v pojistných podmínkách prvopojistitele; - problém pojistitelnosti (např. jaderná nebo válečná rizika včetně teroristických činů) - potenciální překročení kapacity zajistitele(např. ekologická rizika včetně kontaminace radonem či azbestem). (4) Klauzule: sdílení osudu a jednání: Zajistitel je podřízen: - stejným vnějším podmínkám ovlivňujícím průběh pojištění jako prvopojistitel(např. klimatickým podmínkám); - všem rozhodnutím a jednáním, které prvopojistitel v rámci daného pojištění provádí(např. uzavírání, odmítání, změny a výpovědi pojistných smluv, stanovení a změny pojistných podmínek, kalkulace pojistného, správa pojištění, likvidace škodaj.). (5) Klauzule: arbitráž: případné spory mezi smluvními stranami v zajištění řeší rozhodčí komise.

60 50 Tomáš Cipra 2 Klasifikace zajištění Nástroje klasické moderní ( ART) Úèel pojistnì-technický jiný ( finanèní zajištìní) ZAJIŠTÌNÍ Forma Typ fakultativní zajištìní obligatorní zajištìní proporcionální zajištìní neproporcionální zajištìní Cena pevná promìnná Cedent pøímý pojistitel retrocedent Obrázek 4: Klasifikace zajištění. 2.1 Formy zajištění: fakultativní a obligatorní Fakultativní zajištění: prvopojistitel a zajistitel zvažují situaci případ od případu, přičemž prvopojistitel není smluvně povinen příslušnou pojistnou smlouvu k zajištění nabídnout a zajistitel není smluvně povinen ji k zajištění přijmout. Obligatorní zajištění: při splnění podmínek z rámcové zajistné smlouvy (reinsurance treaty) má zajistitel právo a zároveň povinnost převzít příslušné části rizika z jednotlivých pojistných smluv daného portfolia; přitom ve smyslu principu dobré víry: zajistitel věří, že prvopojistitel bude postupovat při uzavírání zajišťovaného pojistného obchodu a jeho správě kvalifikovaně a vůči zajistiteli spravedlivě, zatímco prvopojistitel se spoléhá na promptní plnění zajistitele v případě potřeby.

61 Zajištění v pojišťovnictví a jeho matematické aspekty Typy zajištění Proporcionální zajištění: pojistná částka, pojistné plnění a pojistné se zde dělí mezi prvopojistitele a zajistitele ve sjednaném poměru. V praxi se nejčastěji využívají dva typy proporcionálního zajištění: kvótové zajištění: poměr pro dělení rizika mezi prvopojistitele a zajistitele je pro každou pojistnou smlouvu stejný; surplus(nebo excedentní zajištění): prvopojistitel ceduje v každé pojistné smlouvě jen tu část rizika, která přesahuje pevně sjednanou hodnotu stejnou pro všechny pojistné smlouvy(odtud ovšem plyne, že na rozdíl od kvótového zajištění poměr pro dělení rizika mezi prvopojistitele a zajistitele může být pro každou pojistnou smlouvu jiný). Ze statistického hlediska je u proporcionálního zajištění pravděpodobnostní rozdělení pojistného plnění ponechaného prvopojistitelem na jeho vlastní vrubstejnéjakopředcesíažnajinéměřítko: Jestliže X P označujepojistnéplněníponechanéprvopojistitelemzpůvodní hodnoty X před cesí na základě proporcionálního vztahu X P = α X pakproodpovídajícípravděpodobnostníhustoty f P a fnáhodnýchveličin X P a Xplatí f P (x)=f(x/α)/α Dojde přitom sice k proporcionálnímu zmenšení střední hodnoty a směrodatné odchylky původního pojistného plnění E(X P )=α E(X) σ(x P )=α σ(x) ale nezmění se příslušný variační koeficient σ(x P ) E(X P ) = σ(x) E(X) (tj. nezmění se relativní fluktuace pojistného plnění ponechaného na vlastní vrub). Z praktického hlediska se ovšem pro prvopojistitele vylepší jeho solventnostní pozice, neboť v absolutním vyjádření pojistné plnění na jeho vlastní vrub klesne, ale nezmění se jeho volný kapitál důležitý právě pro výkaz solventnosti. U proporcionálního zajištění není shora omezena výše plnění prvopojistitele, a proto nemusí být dostatečnou ochranou proti vysokým škodám. Z toho důvodu se v takových případech používá neproporcionální zajištění: Neproporcionální zajištění(nebo škodové zajištění): zajistitel za speciálně stanovené zajistné zde přebírá po vzniku škody tu část pojistného plnění prvopojistitele, která přesáhne sjednaný vlastní vrub prvopojistitele nazývaný priorita:

62 52 Tomáš Cipra 10 ruèení (mil. Kè) 18,4% 17,1% 8 3,2% 15,8% mil 21,6% 60,0 % 60,0% 13,6% 2 mil 22,9% 2 mil 24,2% 2 mil 26,4% 10,7% 2 mil 29,3% 40,0% 40,0% zajistitel prvopojistitel 60,0% 60,0% 60,0% 40,0% 60,0% 40,0% prvopojistitel 60,0% 40,0% 60,0% 60,0% 60,0% prvopojistitel (nad limitem zajistitele) A B C D E F G H I J K L (a) pojistné 10 škoda 50% pojistné plnìní 8 6 3,2% škoda 75% 4 2 prvopojistitel škoda 20% škoda 100% A B C D E F G H I J K L (b) pojistné smlouvy Obrázek 5: Příklad kvótového zajištění(kvóta zajistitele q = 40% a limit zajistitele L=2mil.Kč):(a)ručení;(b)pojistnéplnění. dochází zde tedy k omezení výše plnění prvopojistitele shora a nikoli ad hoc k proporcionálnímu dělení odpovědnosti mezi prvopojistitele a zajistitele; plnění zajistitele je z toho důvodu určováno výhradně výší skutečně vzniklých škod přesahujících prioritu. V praxi se opět nejčastěji využívají dva typy neproporcionálního zajištění;

63 Zajištění v pojišťovnictví a jeho matematické aspekty ruèení (mil. Kè) 13,7% 8,7% 3,2% prvopojistitel nad limitem zajistitele 6 64,7% 68,5% 72,6% 73,6% 70,7% zajistitel ,1% 38,8% 21,6% 22,8% 24,2% 26,4% 29,3% 52,9% 61,2% 100,0% prvopojistitel A B C D E F G H I J K L (a) pojistné smlouvy 10 8 škoda 50% škoda 75% pojistné plnìní prvopojistitel nad limitem zajistitele 6 zajistitel 4 2 škoda 20% škoda 100% prvopojistitel % A B C D E F G H I J K L (b) pojistné smlovy Obrázek 6: Příklad surplusu(vlastní vrub prvopojistitele s = 2 mil. Kč a limit zajistitelevevýšitřímaxim,tj. L=6mil.Kč):(a)ručení;(b)pojistnéplnění. XL zajištění(nebo zajištění škodního nadměrku): pevně sjednaná priorita se v souvislosti s dalším členěním XL zajištění uplatňuje buď zvlášť pro jednotlivé pojistné smlouvy, nebo souhrnně pro více pojistných smluv zasažených současně nějakou katastrofickou událostí s kumulací škod;

64 54 Tomáš Cipra SL zajištění(nebo zajištění ročního nadměrku): spoluúčast prvopojistitelesezdeuplatňujevrámciceloročníhoobjemuškodamáčastotvar mezní hranice pro škodní průběh, nad níž zajistitel plní. Ze statistického hlediska dochází u neproporcionálního zajištění k podstatné redukci fluktuací(měřených směrodatnou odchylkou) všech hodnot ponechaných prvopojistitelem na jeho vlastní vrub: jestliže označuje a prioritu prvopojistitele a L limit zajistitele, pak např. střední hodnota pojistného plnění prvopojistitelem má tvar a a+l E(X P )= x f(x)dx+a f(x)dx+ (x L) f(x)dx 0 a a+l V praxi se provádí podrobnější členění neproporcionálního zajištění: (1) WXL/R zajištění(nebo zajištění škodního nadměrku jednotlivých rizik) zajišťuje prvopojistitele proti jednotlivým(velkým) škodám: je-li nějaká(jednotlivá) pojistná smlouva ze zajišťovaného portfolia postižena pojistnou událostí s pojistnými nároky převyšujícími prioritu prvopojistitele, pak vzniklý nadměrek hradí zajistitel(ale jendovýšejehovrstvy) { 0 pro X a, X Z = X a pro X > a kde a(a >0)jeprioritaprvopojistiteleaX Z označujepojistné plnění zajistitele(tj. zajistné plnění) z původního pojistného plnění X; vpraxisepakněkdypoužívázápistypu 3mil.Kč xs0,5mil.kč kde3mil.kčjevrstvazajistitelea0,5mil.kčjeprioritaprvopojistitele. (2) WXL/E zajištění(nebo zajištění škodního nadměrku jednotlivých událostí) zajišťuje prvopojistitele proti kumulaci škod vzniklých vždy v důsledku jedné škodní události, která zde ale ještě nemá charakter přírodní katastrofy(např. úrazové nebo cestovní pojištění účastníků autobusového zájezdu, požární pojištění bytového družstva): je-li několik pojistných smluv ze zajišťovaného portfolia postiženo jednou škodní událostí s celkovými pojistnými nároky převyšujícími prioritu prvopojistitele, pak vzniklý nadměrek hradí zajistitel n 0 pro X i a, X Z = i=1 n n X i a pro X i > a i=1 i=1

65 Zajištění v pojišťovnictví a jeho matematické aspekty 55 škody (mil. Kè) prvopojistitel nad vrstvou zajistitele zajistitel prvopojistitel A B C D E F G H I J K L pojistné smlovy Obrázek 7: Příklad WXL/R zajištění(uvedeny jsou jen ty pojistné smlouvy ze zajišťovaného portfolia, ve kterých došlo k pojistným událostem). kdeopět a(a >0)jeprioritaprvopojistitele, X Z jezajistnéplnění, X 1,...,X n jesouborpojistnýchplněnízdanéškodníudálosti v n postižených pojistných smlouvách; pro aktivaci WXL/E je nutná expozice jedné škodní události ve více pojistných smlouvách(např. v úrazovém nebo životním pojištění se předepíše minimální počet osob, jejichž postižení danou škodní událostí je pro aktivaci zajištění nutné). (3) CatXL zajištění(nebo zajištění škodního nadměrku katastrofické události) se shoduje se zajištěním WXL/E až na katastrofický charakter škodní události, v jejímž důsledku obvykle dochází k podstatné kumulaci škod. (4) SL zajištění(nebo zajištění ročního nadměrku nebo časového nadměrku): priorita prvopojistitele se zde uplatňuje v rámci celoročního objemu škodamáčastotvarmezníhraniceproškodníprůběh(tj.propoměr pojistného plnění vůči pojistnému), nad níž zajistitel plní do sjednaného limitu 0 pro X/P p, X Z = X p P pro p < X/P l, (l p) P pro l < X/P, kde p(p > 0)jeprioritaprvopojistitele, l(l > 0)jelimitzajistitele a X Z označujezajistnéplnění.

66 56 Tomáš Cipra škody (mil. Kè) J I H G F zajistitel E D C prvopojistitel B A A B C D E F G H I J kumulace pojistné smlovy Obrázek 8: Příklad CatXL zajištění(uvedeny jsou jen ty pojistné smlouvy ze zajišťovaného portfolia, které byly postiženy příslušnou katastrofickou událostí). (5) Zajištění nejvyšších škod(largest Claims Reinsurance LCR(p)) znamená, že zajistitel hradí p největších škod(p je dané přirozené číslo, p < n), které nastaly během platnosti zajistné smlouvy: X Z = X (1) + X (2) + +X (p) kde X (1) X (2) X (p) X (n) jsouškody X 1, X 2,..., X n zdanéhorokuuspořádanépodlevelikostiax Z označujezajistnéplnění. (6) ECOMOR zajištění(excédent du cout moyen relatif) znamená, že zajistitel v daném roce hradí jen ty části škod, které přesáhly p-tou největší škodu(pjeopětdanépřirozenéčíslo, p < n): X Z = (X (1) X (p) )+ +(X (p 1) X (p) )= = X (1) + +X (p 1) ) (p 1) X (p) 3 Pojistná matematika v zajištění Budeme používat následující značení: N P, S P, X P, Z P početpojistnýchudálostívzajišťovanémportfoliu, jednotlivá pojistná částka, jednotlivé pojistné plnění, celkové pojistné plnění v zajišťovaném portfoliu, a to vždy na vrub prvopojistitele

67 Zajištění v pojišťovnictví a jeho matematické aspekty 57 N Z, S Z, X Z, Z Z majístejnývýznam,alenavrubzajistitele XF(x)=P(X x): distribučnífunkcepojistnéhoplnění X ZF(z)=P(Z z): distribučnífunkcecelkovéhopoj.plnění Z SF(s)=P(S s): distribučnífunkcepojistnéčástky S ŠSF(χ)=P(ŠS χ): distribučnífunkceškodníhostupněšs=x/s a podobně pro pravděpodobnostní hustoty: např. Xf Z (x) pravděpodobnostníhustotunáhodnéveličiny X Z apod. 3.1 Kvótové zajištění(s kvótou q) N= N P = N Z X P =(1 q) X, X Z = q X Z P =(1 q) Z, Z Z = q Z E(X P )=(1 q) E(X), var(x P )=(1 q) 2 var(x), 3.2 Surplus E(X Z )=q E(X) var(x Z )=q 2 var(x) XF P (x)= X F(x/(1 q)), XF Z (x)= X F(x/q) Xf P (x)= X f(x/(1 q)), Xf Z (x)= X f(x/q) 1 q q { 1 pro S s α= s S pro S > s X P = α X, E(X P )=α E(X), var(x P )=α 2 var(x), σ(x P ) E(X P ) X Z =(1 α) X E(X Z )=(1 α) E(X) var(x Z )=(1 α) 2 var(x) = σ(x z) E(X z ) = σ(x) E(X) XF P (x)= X F(x/α), XF Z (x)= X F(x/(1 α)) Xf P (x)= X f(x/α), Xf Z (x)= X f(x/(1 α)) α (1 α) (je-li α=1,pakzřejmě X Z =0aněkterépředchozívztahyjenutnémodifikovat).

68 58 Tomáš Cipra Za předpokladu nezávislosti náhodných veličin S a ŠS: s ( x ( x ) XF P (x) = P(X P x)= ŠSF d S F(u)+ 0 u) ŠS F (1 S F(s)), s { s } E(X j P ) = E(ŠSj ) u j d S F(u)+s j (1 S F(s)) = = E(ŠS j ) E(S j ) SF (j) (s) 0 kde SF (j) (s)= s 0 uj d S F(u)+s j (1 S F(s)) E(S j ) Pokudmánavícnáhodnáveličina ZsloženéPoissonovorozdělení CP(λ, X F) (tj.speciálně N P(λ)): E(Z P ) = λ E(X P )=λ E(ŠS) E(S) SF (1) (s)=e(z) SF (1) (s) var(z P ) = λ E(X 2 P)=λ E(ŠS 2 ) E(S 2 ) SF (2) (s)= = var(z) SF (2) (s) 3.3 XL zajištění Pro jednoduchost uvažujme pouze WXL/R zajištění s prioritou a: P(N Z = n) = i=n N P = N ( i P(N= i) n E(N Z )=p a E(N) ) p n a (1 p a) i n var(n Z ) = p a (1 p a ) E(N)+p 2 a var(n) kde p a = P(X > a)=1 X F(a) Speciálněpři N P(λ): P(N Z = n) = e (λ p a) n λ pa E(N Z ) = p a λ var(n Z ) = p a λ apři N NB(α, p): n!

69 Zajištění v pojišťovnictví a jeho matematické aspekty 59 P(N Z = n) = XF P (x) = E(X P ) = E(X Z ) = = ( α+n 1 n )( p p+p a (1 p) ) α ( 1 ) n p p+p a (1 p) X P =min(a, X), X Z =max(0, X a) { XF(x) pro x < a, 1 pro x a, XF Z (x)= X F(a+x) a 0 a a a xd X F(x)+a (1 X F(a))= xd X F(x) a (1 X F(a))= a (1 X F(x)) dx=e(x) E(X P ) var(x P ) = 2 x (1 X F(x)) dx [E(X P )] 2 0 { var(x Z ) = 2 x(1 X F(x)) dx a a [E(X Z )] 2 Obecněpro j-témomentynáhodnýchveličin X P a X Z platí: a E(X j P ) = x j d X F(x)+a j (1 X F(a)) j ( E(X j j Z ) = i 0 i=1 i=1 a 0 (1 X F(x)) dx } (1 X F(x)) dx ) ( a) j i [E(X i ) E(X i P)] N N Z P = X P, Z Z = i=1 X Z Při obvyklých předpokladech v kolektivním modelu rizika: E(Z P ) = E(N) E(X P ) var(z P ) = E(N) var(x P )+var(n) [E(X P )] 2 aanalogickypronáhodnouveličinu Z Z. Pro variační koeficient je obvykle(v nepatologických případech) σ(z P ) E(Z P ) < σ(z) E(Z) < σ(z Z) E(Z Z ) tj. u prvopojistitele dochází k redukci variačního koeficientu(vlastní vrub ponechaný prvopojistitelem je stabilnější než původní nezajištěné portfolio), u zajistitele je tomu naopak E(Z P ) = E(Z) XF (1) (a) var(z P ) = var(z) XF (2) (a)

70 60 Tomáš Cipra kde a XF (j) 0 (a)= xj d X F(x)+a j (1 X F(a)) E(X j ) 3.4 SL zajištění Z P =min(p P, X), Z Z =max(0, X p P) kde priorita p představuje omezení pro škodní průběh X/P. Dále E(Z P ) = E(Z) ZF (1) (p P) var(z P ) = var(z) ZF (2) (p P) kde ZF (j) (p P)= p P 0 z j d Z F(z)+(p P) j (1 Z F(p P)) E(Z j ) 4 Výpočet zajistného 4.1 Model založený na Paretově rozdělení Paretovo rozdělení je vhodné pro modelování výše škod. Přitom v zajišťovací praxi je častá následující situace: Úkol: stanovit nettozajistné pro neproporcionální zajištění s prioritou prvopojistitele a a vrstvou(limitem) zajistitele L. Data k dispozici: škody z minulých let překračující vhodně nastavenou hodnotu OP (observation point), kde OP je mnohem menší než budoucí priorita a (vzhledem k nízké hodnotě OP je statistický vzorek takových škod mnohem bohatší). Výšeškody X a nadhodnotou asemodelujeparetovýmrozdělenímspravděpodobnostními charakteristikami: f a (x) = b ab x b+1, x a ( a ) b F a (x) = 1, x a x E(X a ) = a b pro b >1 b 1 a 2 b var(x a ) = (b 1) 2 pro b >2 (b 2) (b >0jeparametr,kterýmusíbýtodhadnutzdat).Zajistitelbudevroce zajistné smlouvy plnit nad prioritou a jen do výše vrstvy L, takže střední

71 Zajištění v pojišťovnictví a jeho matematické aspekty 61 výše jeho plnění EXL(expected XL) bude EXL = = a+l a (x a) f a (x)dx+ a+l { a 1 b (RL1 b 1) pro b 1 a lnrl pro b=1 L f a (x)dx= kde RL je relativní délka vrstvy(relative layer) RL= a+l a Pro výpočet celkové výše plnění zajistitele nutný dále průměrný počet škod LF(a)(loss frequency), které v zajišťovaném portfoliu během roku překročí prioritu a(z minulých dat jsme totiž schopni spolehlivě odhadnout jen průměrnýpočet(aktualizovaných)škod LF(OP)nadhodnotou OP;promnohemvětšíprioritu ajeobvyklepozorovanáhodnota LF(a)vzhledemkmalému počtu škod překračujících a značně nespolehlivá): ( ) OP LF(a)=LF(OP) P(X OP > a)=lf(op) (1 F OP (a))=lf(op) a Hledanénettozajistné NP Z byměloodpovídatzajistnémuplnění: NP Z = LF(a) EXL= LF(OP) OP b a1 b 1 b (RL1 b 1)pro b 1 LF(OP) OP lnrl pro b=1 kde a, LaOP jsoudanéhodnoty, LF(OP)abjsouodhadnutéhodnoty z minulých(aktualizovaných) dat. Odhad parametru b se realizuje pomocí dvou přístupů: (1) Aplikuje se ad hoc hodnota ověřená praktickými zkušenostmi s podobnými zajišťovanými portfolii. Např. WXL/R zajištění požárních včetně živelníchrizikmívá bvrozmezíod1,0do2,5(speciálněpropojištění průmyslových rizik kolem 1,2 a pro pojištění majetku obyvatelstva od1,8do2,5),catxlzajištěnímívá bkolem1,0(speciálněproriziko zemětřesení kolem 0,8 a pro riziko vichřic v Evropě kolem 1,3). (2) Použije se hodnota parametru odhadnutá z minulých dat prvopojistitele.jestliženapř. X OP,1, X OP,2,...,X OP,n bylyvšechnypozorované (aktualizované) škody překračující v minulém roce hodnotu OP, pak maximálně věrohodný odhad parametru b lze najít jako b= n i=1 n ln XOP,i OP

72 62 Tomáš Cipra Příklad. Úkolem je najít pomocí Paretova modelu nettozajistné pro příští rokzajistnésmlouvywxl/rsparametry5mil.kč xs1mil.kčvpojištění staveb občanů, jestliže na základě minulých(aktualizovaných) dat byl průměrný počet škod, které v zajišťovaném portfoliu během příštího roku překročí částku Kč, odhadnut ve výši 9,36 škod. Řešení: Pro výpočet použijeme Paretovo rozdělení s ad hoc hodnotou parametru b=2: RL= = NP Z = LF(a) EXL=LF(OP) OP b a1 b 1 b (RL1 b 1)= = 9, ( )=0, = 1 2 =487500Kč 4.2 Metoda scénářů používá se pro stanovení nettozajistného při CatXL zajištění přírodních katastrof; je založena na odhadu jejich škodní periody(škodní frekvence): během této periody by hledané nettozajistné mělo právě zaplatit zajistné plnění; vytváří se přitom určité škodní scénáře, pomocí nichž se odhadují příslušné škodní periody; nevýhodou metody je značná nepřesnost, a proto se spíše používá jako podpůrný prostředek při obchodních jednáních mezi prvopojistitelem a zajistitelem. Příklad. Metoda scénářů pro výpočet nettozajistného v rámci zajištění CatXL (5mil.Kč xs1mil.kč)vpojištěníprotipovodnímazáplavámscelkovou pojistnou částkou 50 mil. Kč: pomocí odhadnutého škodního stupně(tj. podílu pojistného plnění vůči pojistné částce) v prvním sloupci tabulky 4 byla v druhém sloupci odhadnuta průměrná škoda při jednotlivých typech povodňové vody a v třetím sloupci odpovídající zajistné plnění; přepočtem na jeden rok bylo v posledním sloupci odhadnuto(roční) nettozajistné. Nettozajistná sazba vyjádřená ale tentokrát v procentech celkové pojistné částky je 0,16%.

73 Zajištění v pojišťovnictví a jeho matematické aspekty 63 Typ povodňové vody Škodní stupeň (%) Průměrná škoda (Kč) Zajistné plnění (Kč) Škodní perioda (roky) Nettozajistné (Kč) desetiletá padesátiletá stoletá Celkem Tabulka 4: Příklad metody scénářů. 5 Alternativní přenos rizik(art) Jako příklad ART uvedeme tzv. pojistné dluhopisy, které zatím patří mezi nejpoužívanější nástroje sekuritizace pojistných rizik(obecně se pro tyto nástroje začíná používat zkratka ILS insurance-linked securities). K rozvoji sekuritizace pojistných rizik přispívá mimo jiné: Objektivní ILS spouštěče (ILS triggers): Jedná se o objektivně vymezené události, které podmiňují výši finančních toků realizovaných v rámci ILS. Lze je rozlišit do tří kategorií podle jejich indexace: (1) Indexace na škodách způsobených přímo dané pojišťovně či zajišťovně. (2) Indexace pomocí všeobecně uznávaných škodních indexů měřených renomovanými agenturami. Škodním indexem se zde většinou rozumí vhodně standardizovaný průměrný škodní vývoj v daném regionu pro příslušně vymezené pojistné riziko. V současné době jsou rozšířeny PCS indexy(property Claim Services). (3) Indexace pomocí parametrických indexů: Parametrický index má většinou fyzikální charakter. Typickým příkladem je Richterova stupnice pro zemětřesení nebo počet teplých a chladných dní u derivátů na počasí. Burzy obchodující se sekuritizovaným pojistným rizikem: Jedná se přitom o vznik nových specializovaných burz(např. americká elektronická burza CATEX Catastrophe Risk Exchange). Rozvoj zprostředkovatelů SPV(Special Purpose Vehicles): Tyto subjekty hrají mimo jiné důležitou roli právě při emisích cenných papírů vázaných na pojistné riziko. Nejčastějším typem pojistných dluhopisů jsou katastrofické dluhopisy(catastrophe bonds, CatBonds). Jedná se o vysoce ziskové dluhopisy s rizikem neplnění závazků v případě živelní katastrofy. Tyto dluhopisy mají kuponovou sazbu mnohem vyšší než průměr trhu. V případě živelní katastrofy daného typu však u nich hrozí ztráta celého(resp. části) kuponu a ztráta celé(resp. části) nominální hodnoty, např.:

74 64 Tomáš Cipra Výše škody podle indexu PCS Nesplacená procentní část nominální hodnoty Tranše A1, A2 Tranše B Tranše C Odhadnutá pravděpodobnost 12,0 mld. USD 0% 0% 100% 0, ,5 mld. USD 20% 33% 100% 0, ,0 mld. USD 40% 66% 100% 0, ,0 mld. USD 60% 100% 100% 0,0052 Očekávaná ztráta (v % nom. hodnoty) 0,46% 0,76% 2,40% Tabulka 5: Nesplacená procentní část nominální hodnoty v případě Swiss Re California Earthquake Bonds v závislosti na výši pojištěné škody podle příslušného indexu PCS. (1) USAA Hurricane Bonds: jednoleté dluhopisy v celkové nominální hodnotě 0,5 mld. USD byly vázány na riziko hurikánů v pojištění majetku na východním pobřeží a kolem Golfského zálivu; (2) Winterthur Windstorm Bonds: tříleté dluhopisy v nominální hodnotě 4700CHFbylyvázánynarizikovichřicakrupobitívhavarijnímpojištění osobních automobilů; (3) Swiss Re California Earthquake Bonds: tříleté dluhopisy v celkové nominální hodnotě 137 mil. USD byly vázány na riziko zemětřesení v Kalifornii; (4) Japonské katastrofické dluhopisy: Japonské pojišťovny vzhledem k absenci škodních indexů typu PCS pro zemětřesení zvolily parametrický přístup ve formě Richterovy stupnice na základě hlášení japonské meteorologické služby. Princip katastrofických dluhopisů popišme na nejjednodušším příkladu jednoletých dluhopisů s jedním ročním kuponem. Uvažujme jednoletou zajistnou smlouvu, podle níž zajistitel zaplatí po uplynutí jednoho roku částku L, pokud nastala předem specifikovaná živelní katastrofa(např. povodeň určitého rozsahu), a v opačném případě zajistitel neplní(částka L je samozřejmě sjednána před podpisem zajistné smlouvy). Cena takové zajistné smlouvy pro prvojistitele(tj. výše zajistného) se zřejmě určí jako P Z = 1 1+i [q cat L+(1 q cat ) 0]= 1 1+i q cat L kde ijeročníúrokovámíraaq cat jepravděpodobnostživelníkatastrofy,tak jak ji oceňuje zajistný trh. Zajistitel musí před podpisem zajistné smlouvy (řekněmevčase t=0)věrohodnědoložit,žezarok(tj.včase t=1)bude disponovat kapitálovou částkou L, neboť by jinak nesehnal zákazníky. Potřebujeprotozískatvčase t=0vedlezajistného P Z ještěčástku F takovou,

75 Zajištění v pojišťovnictví a jeho matematické aspekty 65 Čas t=0 Čas t=1 došlo ke nedošlo ke katastrofě katastrofě (s prstí q cat) (s prstí 1 q cat) Prvopojistitel Z= 1 1+i qcat L L 0 Zajistitel = Emitent Z + F L L Investor F= 1 (1 qcat) L 1+i 0 L Tabulka 6: Finanční toky spojené s jednoletými katastrofickými dluhopisy (dluhopisy se prodávají za nominální hodnotu). abyinvestičnímzhodnocenímkapitálu P Z + Fopravduobdrželzajedenrok potřebnou částku L (P Z + F) (1+i)=L Emituje proto vysoce ziskové jednoleté dluhopisy v nominální hodnotě F, v jejichž rámci zaplatí držiteli dluhopisů(investorovi) po uplynutí jednoho rokučástku L(tj.nakonciročníhoobdobísplatínominálníhodnotu Favyplatíopravduznačnýobjemkuponůvevýši K= L F= P Z (1+i)+F i), pokud nenastala předem specifikovaná živelní katastrofa, a v opačném případě zajistitel nezaplatí držiteli dluhopisů nic a celou částku L použije na zajistné plnění. Nominální hodnota F splňuje vztah F= 1 1+i [q cat 0+(1 q cat ) L]= 1 1+ i (1 q cat) L Pokud se uvedené dluhopisy prodávají za nominální hodnotu F(tj. za pari), potom příslušné finanční toky jsou v souladu s potřebami všech zúčastněných stran(viz tab. 6): Uvedenédluhopisyseovšemprodávajízatržnícenu F (obecně F F), takžedluhopisovýtrhocenilpravděpodobnostkatastrofyjako q b (narozdíl ododhadu q cat provedenéhozajistnýmtrhem,přičemžindex bjezanglického bond pro dluhopis) splňující tj. F = 1 1+i (1 q cat) L q b = L F (1+i) L To pak následně implikuje zajistné ve výši Z b = 1 1+i q b L= L 1+i F Názorně lze zajištění pomocí katastrofických dluhopisů zachytit následujícím způsobem:

76 66 Tomáš Cipra začátek zajistné smlouvy: pojistitel roèní zajistné SPV emise CatBonds Investor do CatBonds jednorázová platba Bezriziková investice bezškodní rok zajistné smlouvy: roèní zajistné výplata kuponu pojistitel SPV Investor do CatBonds škodní rok zajistné smlouvy: roèní zajistné pojistitel SPV Investor do CatBonds zajistné plnìní konec zajistné smlouvy: pojistitel SPV Investor do CatBonds výplata nom.hodnoty Bezriziková investice Reference [1] Booth P., Chadburn R., Cooper D., Haberman S., James D.(1999). Modern actuarial theory and practice. Chapman and Hall/CRC, London. [2] Cipra T.(2004). Zajištění a přenos rizik v pojišťovnictví. Grada, Praha. [3] Gerathewohl K. et al.(1976). Rückversicherung Grundlagen und Praxis, Band I. Verlag Versicherungswirtschaft, Karlsruhe. [4] Gerathewohl K. et al.(1979). Rückversicherung Grundlagen und Praxis, Band II. Verlag Versicherungswirtschaft, Karlsruhe. [5] Kiln R., Kiln S.(2001). Reinsurance in practice. Witherby, London. [6] Liebwein P.(2000). Klassische und moderne Formen der Rückversicherung. Verlag Versicherungswirtschaft, Karlsruhe. [7] Pfeiffer C. (1994). Einführung in die Rückversicherung: Das Standardwerk für Theorie und Praxis. Gabler, Wiesbaden. [8] Straub E.(1988). Non-life insurance mathematics. Springer and Association of Swiss Actuaries, Heidelberg. [9] Tiller J.E., Fagerberg D.(1990). Life, health, and annuity reinsurance. ACTEX Publications, Winsted and Avon, Connecticut. Poděkování: Tato práce je podporována výzkumným záměrem MSM Adresa:T.Cipra,KPMS,MFFUK,Sokolovská83,18600Praha8-Karlín cipra@karlin.mff.cuni.cz

77 ROBUST 2004 c JČMF 2004 ASYMPTOTICKÁ ANALÝZA STRATEGIÍ OBCHODOVÁNÍ S AKCIÍ PŘI EXISTENCI TRANSAKČNÍCH NÁKLADŮ Petr Dostál Klíčová slova: Obchodní strategie, transakční náklady, asymptotický užitek. Abstrakt: Uvažujeme investora, který obchoduje s jednou akcií, ale na rozdíl od[1],[2] nic nespotřebovává. Jeho snaha je maximalizovat asymptotické chování očekávaného užitku měřeného užitkovou funkcí s hyperbolickou absolutníaverzívůčiriziku(hara) vetvaru U γ (x) = x γ /γ pro γ < 0 a U 0 (x)=lnx.předpokládáme,žetržnícenaakciejegeometrickýbrownův pohyb. Tato omezení nám umožňují odvodit optimální intervalové strategie v téměř explicitní podobě. Tyto strategie jsou optimální i mezi všemi rozumnými strategiemi. V případě logaritmické užitkové funkce jsou odvozené strategie optimální i v modelu, který dostaneme rozumnou časovou transformací původního modelu geometrického Brownova pohybu. V ostatních případech jsou odvozené strategie optimální pouze při deterministické změně času. 1 Úvod Předpokládejme,žetržnícenaakcie X t jegeometrickýbrownůvpohyb dx t = µx t dt+σx t dw t, X 0 = x 0 >0. (1) Nejprve budeme předpokládat, že depozitní část portfolia není úročena. Označme Y t tržnícenuportfoliaag t poziciinvestoranatrhuvčase t 0.Dále budemeoznačovat H t početakciívportfoliu.nynímůžemevyjádřittržní cenuakciovéčástiportfoliavnásledujícíchdvoutvarech G t Y t = H t X t.dále budeme předpokládat, že platíme(1 + b)-násobek tržní ceny akcie, abychom tuto akcii obdrželi. Na druhou stranu obdržíme(1 c)-násobek tržní ceny akcie, kterou prodáme. Rozdíly v cenách interpretujeme jako transakční náklady. Snadno zjistíme, že následující hodnota Y t (1+bG t )=Y t + bh t X t resp. Y t (1 cg t )=Y t ch t X t (2) zůstává stejná před a po provedení nákupu resp. prodeje. Tyto vztahy můžeme zapsat v difereneciální podobě dlny t = ϑ + (G t )d + G t ϑ (G t )d G t, (3) kde ϑ + (x)= b 1+bx a ϑ (x)= c 1 cx akde d+ G t a d G t jsoudiferenciálydvou neklesajících adaptovaných procesů reprezentující nárůst resp. pokles pozice způsobený nákupem či prodejem akcie. Pokud s akcií neobchodujeme, tak se

78 68 Petr Dostál poziceinvestora G t chovájakodifúzníprocessdriftem B(x)adifúzí S 2 (x), kde B(x)=x(1 x)[µ σ 2 x], S(x)=σx(1 x). (4) Pokudobchodujeme,je G t semimartingalsestochastickýmdiferenciálem dg t = B(G t )dt+s(g t )dw t + d + G t d G t. (5) Výkyvyvtržníceněportfolia Y t jsoujednakzpůsobenyzměnamitržníhodnotyakcie X t ajednaktržníhodnotaportfoliaklesáozaplacenétransakční náklady, tj. dy t = H t dx t Y t ϑ + (G t )d + G t Y t ϑ (G t )d G t (6) = Y t [G t (µ dt+σ dw t ) ϑ + (G t )d + G t ϑ (G t )d G t ]. (7) Tatorovnostmářešenívetvaru Y t = Y 0 exp{l t },kde L t = t 0 G s µ 1 t 2 σ2 G 2 s ds+σ G s dw s 0 t 0 ϑ + (G s )d + G s t 0 ϑ (G s )d G s. Mysedálevícezaměřímenastrategie,kteréneobchodují,pokudsepozice G t nacházívintervalu(α, β)akteréakciinakupujíneboprodávajítak,abytato poziceneopustilainterval[α, β].vtakovýchtopřípadechjediferenciál d + G t resp. d G t soustředěnnamnožině[g t = α]resp.[g t = β].můžemetedypsát ϑ + (G t )d + G t = ϑ α d + G t, resp. ϑ (G t )d G t = ϑ β d G t,kde ϑ α = ϑ + (α)= b 1+bα a ϑ β = ϑ (β)= c 1 cβ.jakokritériumoptimalitybudemeuvažovat maximalizaci asymptotického vývoje očekávaného užitku při volbě užitkových funkcí U 0 (x)=lnxau γ (x)= xγ γ,kde γ <0,tj. 1 max lim t t ElnY t 2 Logaritmická užitková funkce 1 resp. minlim t t lney γ t. (8) Nachvílibudemeuvažovatnulovétransakčnínáklady,tj. b=c=0.vtomto 1 případěbychommělimaximalizovatlim t t E t 0 G sµ 1 2 σ2 G 2 s ds.funkce x xµ 1 2 σ2 x 2 nabývámaximavbodě θ:= µ/σ 2.Neexistujetedylepší strategie než[θ, θ]. Takováto strategie je neobchodující v případě, že θ {0,1}.Vtěchtodvoupřípadechjestrategie[θ, θ]optimálníivpřípaděnenulovýchtransakčníchnákladů.těmitopřípady θ=0,1sedáleužtedyzabývat nebudeme. Nyní existují dvě cesty, kterými se dá pokračovat. Mohli bychom použít ergodickou teorii. Místo toho využijeme teorii martingalů. Tato cesta jezaloženanatom,žejsmeschopninalézthladkoufunkci fakonstantu ν takovou, že následující proces je martingal lny t f(g t ) νt. (9)

79 Asymptotická analýza strategií obchodování s akcií 69 Z martingalové konvergence pak dostaneme, že 1 lim t t ElnY 1 t= ν+lim t t Ef(G t)=ν (10) je tou hodnotou, kterou bychom měli maximalizovat. Hladká funkce f splňuje martingalovou podmínku(9), pokud splňuje následující ODE s okrajovými podmínkami f (x)b(x)+ 1 2 f (x)s 2 (x)=µx 1 2 σ2 x 2 ν (11) f (α)= ϑ α = b 1+bα a f (β)=ϑ β = c 1 cβ. (12) Označíme-li h:= f,dostanemeobyčejnoudiferenciálnírovniciprvníhořádu h(x)b(x)+ 1 2 h (x)s 2 (x)=µx 1 2 σ2 x 2 ν (13) sokrajovýmipodmínkami h(α)= b 1+bα a h(β)= c 1 cβ.protože(13)je ODE prvního řádu, jsme schopni vyjádřit obecné řešení této rovnice pomocí metody variace konstant a zodpovědět otázku, kdy tato rovnice má řešení vyhovyjícím okrajovým podmínkám(12). Možná volba funkce f (splňující (11)a(12))jejakákoliprimitivnífunkcekh.Jednatakovámožnávolba fje 2ρ 1 f(x)=2ρ a 0 x 1 + a 1 ln x 1 x +ln 1 1 x (14) vpřípadě,že ρ:= θ 1 2 0, ν= ρσ2 a 1,kde ξ α = α 1+b 1+bα, ξ β= β 1 c ξ β ξ α a 0 = 1 β 1 2ρ 1 α 1 2ρ, a 1= 2ρ ξ β 2ρ β 1 β β 1 β Vpřípadě,že ρ=0aν= σ2 2 a 1,můžemevolit f(x)=a 0 ln x 1 x + a 1 2 ln2 x 1 x +ln 1 a 0 = ln α 1 α ξ β ln β ln β 1 β ln α 1 α 1 β ξ α α 1 α α 1 α 1 cβ akde 2ρ ξ α 2ρ. (15), kde 1 x (16) ξ β ξ α, a 1 = ln β 1 β ln. α 1 α (17) 1 Protožebychommělimaximalizovathodnotu ν=lim t t ElnY t,jenaším úkolem najít maximum funkce u(α, β)= β 1 β 1 2ρ 2ρ ξ β [ β 2ρ 1 β α 1 α 2ρ ξ α α 1 α 2ρ] resp. u(α, β)= ξ β ξ α ln β 1 β ln α 1 α

80 70 Petr Dostál podletoho,zda ρ 0či ρ=0,atonajednézmnožin T= {(α, β),0 < α < β <1}resp. T= {(α, β),1 < α < β <1/c}resp. T= {(α, β), 1/d < α < β <0}podletoho,zda θ (0,1)resp. θ (1, )resp. θ (,0). Věta1.Funkce u(α, β)máprávějedenstacionárníbodnamnožině T,který lze charakterizovat následujícími rovnostmi ξ α = θ ω, ξ β = θ+ ω, (18) kde ωje(pokud θ 1 2 )jedinéřešenírovnice ln 1+b [ ] 1 c +1 θln θ+ω ρ θ ω +(θ 1)ln 1 θ+ω 1 θ ω =0 (19) na[0, θ 1 θ ).Pokud θ= 1 2,je ωjedinéřešenínásledujícírovnice ln 1+b 1 1 c +2ln 2 + ω 2ω ω= 4 (20) ω2 naintervalu[0, 1 2 ).Funkce unabývásvéhomaximana T vtomtostacionárnímbodě.navíc,rozdílmezilevouapravoustranou(19)resp.(20)jena odpovídajícím intervalu ryze monotónní funkce v ω. Poznamenejme, že hodnoty α, β lze následně obdržet ze vzorců α = ξ α /(1+b bξ α ), β= ξ β /(1 c+cξ β ).Nynípředpokládejme,žefunkce unabývá svéhomaximana Tvbodě(α, β).dáledefinujmef(x):= f(x)pro x [α, β], F(x):= C α ln(1+bx)pro x ( 1/b, α),f(x):= C β ln(1 cx)pro x (β,1/c),kde C α, C β jsoukonstantyzvolenétak,abyfunkcefbylaspojitá na intervalu( 1/b, 1/c). Věta2.Necht Y t označujetržnícenuportfoliaag t poziciinvestoranatrhu, pak lny t F(G t ) νt (21) je součet supermartingalu a neroustoucího procesu za přepokladu, že zvolenástrategieudržujepozici G t odraženouodextrémníchhodnot 1/ba1/c, a předpokladu, že zvolená strategie nedovolí, aby tržní cena portfolia klesla na nuluvkonečnémčase.navíc,pokudje(21)martingal,paklzeříci,žebyla aplikována strategie[α, β]. Je to zřejmě martingal, pokud je použita strategie[α, β]. Z předchozí věty plyne, že neexistuje rozumná strategie s lepší asymptotikou střední hodnoty logaritmu tržní hodnoty portfolia než má strategie[α, β]. Tatovětanámumožňujedefinovatužitekvčase t 0nazákladětržníhodnotyportfolia Y t apozice G t pomocí(21).taktodefinovanýsystémužitkůje v čase konzistentní a jako optimální strategii geneuje právě strategii[α, β].

81 Asymptotická analýza strategií obchodování s akcií 71 3 Mocninná užitková funkce Pokudbytransakčnínákladybylynulové,tj. b=c=0,pakby γ-nejlepší µ strategieudržovalapozici G t nahodnotě σ 2 (1 γ) = θ 1 γ,cožlzenahléhnout znásledujícíhovyjádření Y γ t = Y γ 0 E t exp {γn t },kde N t = t 0 µg s 1 t 2 σ2 (1 γ)g 2 s ds ϑ + (G s )d + G s ϑ (G s )d G s,(22) { 0 0 t E t =exp γσ G s dw s 1 t } 2 γ2 σ 2 G 2 s ds. (23) 0 Vpřípaděnulovýchtransakčníchnákladů ϑ + (G t )=ϑ (G t )=0strategie θ [ 1 γ, θ 1 γ ]totiždává { EY γ t = EY γ γ 0 exp µ 2 } { 2 σ 2 (1 γ) t = EY γ σ 2 0 exp γθ 2 } t, (24) 2 1 γ cožjemenšíneborovnonežstředníhodnota(24)vpřípadě,žebychomuvažovalijakoukolijinouintervalovoustrategii,nebot funkce x µx 1 2 σ2 (1 γ)x 2 µ 2 nabývámaxima 1 2 σ 2 (1 γ) = σ2 θ γ vbodě θ 1 γ.tatostrategiejeneobchodující, pokud θ 1 γ =0nebo θ 1 γ =1,tj.pokud θ =0nebo θ =1 γ. Tyto singulární případy budeme dále vynechávat a zaměříme se na strategie typu[α, β],kde0<α<β <1,pokud0<θ<1 γ,1 < α < β <1/c, pokud1 γ < θanastrategietypu 1/d < α < β <0,pokud θ <0. Nyní máme opět dvě možnosti, jak pokračovat. První cesta vede přes teorie semigrup lineárních operátorů na spojitých funkcích na[α, β] a spočítá ve výpočtu maximální vlastní hodnoty příslušného infinitezimálního generátoru. Jak uvidíme tak i v druhé možnosti se tomuto infinitezimálnímu generátoru nevyhneme a jeho maximální vlastní hodnotu budeme počítat, i když to tak třeba nebude vypadat. Tou druhou možností je nalézt konstantu ν a hladkou funkci f takovou, že Y γ t g(g t )e λt =exp {γ[lny t f(g t ) νt]} (25) jemartingal,kde g(x)=exp{ γf(x)}akde ν= λ/γ.podleitôovyformule stačínajít νa ftak,abyplatilo 1 2 g (x)s 2 (x)+g (x) B(x)+γg(x) [µx+ 12 ] (γ 1)σ2 x 2 = λg(x), (26) g +(α)=γ b 1+bα g(α), c g (β)= γ g(β), (27) 1 cβ kde B(x)=x(1 x)[µ (1 γ)σ 2 x].levástrana(26)uvažovanájakofunkce proměnné x je hodnotou výše uvedeného infinitezimálního generátoru v bodě g semigrupy jejíž maximální vlastní hodnotu hledáme. Podmínka maximality mezi vlastními hodnotami odpovídá požadavku g(x) = exp{ γf(x)}, který zajišt uje, že funkce g nemění znaménko na[α, β]. 0 t

82 72 Petr Dostál Tento problém je možné řešit více-méně explicitně, nebot máme k dispozici fundamentální systém v explicitním tvaru ρ g 1,2 (x)= 1 x 1 1 x γ,pokud λ= σ2 2 ( 2 ρ 2 ) σ2 2 ρ2, resp. g 2 (x)=g 1 (x)ln x 1 x, kde g 1(x)= 1 x 1 ρ 1 x γ,pokud λ= σ2 2 ρ2. 1 Vtomtopřípadětakjsmeschopniurčitasymptotiku λ=lim t t lney γ t jakoimplicitnífunkci.pokud ρ α = ρ β,kde ρ α := ρ+γξ α a ρ β := ρ+γξ β, platí λ= σ2 ( ρ 2 2 α ρ 2) = σ2 ( ρ 2 2 β ρ 2). (28) Vopačnémpřípadě λ= σ2 2 (D ρ2 ),kde Djejedinéřešenírovnice ln 1/α 1 1/β 1 = ρα ρ β dx x 2 D (29) nar \co {ρ 2 α, ρ2 β },kder =R { }označujejednobodovoukompaktifikacireálnépřímkyaco {ρ 2 α, ρ2 β }označujekonvexníobalmnožiny {ρ2 α, ρ2 β }. Je-li D=0,jepravástrana(29)tvaru1/ρ β 1/ρ α.je-li D >0,jepravá strana(29) rovna 1 2 ln +ρ β ρ β ρ α +ρ α, kde 2 = D. (30) Pokud D <0,lzepravoustranu(29)zapsatvetvaru 1 [ ( ρα ) ( ρβ )] arctg arctg, kde a 2 = D. (31) a a a Vevšechpřípadechlzepsát 2 = D,kde Rresp. i R.Pokud ρ α = ρ β =:,je g:= g 1 hledanéřešení(26)a(27)kladnéna[α, β].pokud ρ α ρ β a(29)platípro D=0,pakmámekladnéřešení(26)a(27)na[α, β] ve tvaru g(x)=g 1 (x) 1 1/α 1 +ln ρ α 1/x 1 = g 1(x) 1 1/β 1 +ln ρ β 1/x 1. (32) Pokud ρ α ρ β a(29)platípronějaké D= 2 >0,pakjednozkladných řešení(26)a(27)na[α, β]jetvaru g(x)=g 1 (x) ψ+ 1 x 1 2,kde ψ= 1 α 1 = 1 ρ α β 1 2 +ρ α 2 +ρ β ρ β. (33)

83 Asymptotická analýza strategií obchodování s akcií 73 Pokud ρ α ρ β a(29)platípronějaké D= a 2 <0,mámekdispozici kladnéřešení(26)a(27)na[α, β]vetvaru ρ ( ) g(x)= 1 x 1 1 x γ 2sin ϕ aln 1 x 1, kde (34) ϕ=aln 1 α 1 ( +arccotg ρα ) = aln 1 a β 1 ( +arccotg ρβ ). (35) a Věta3.Funkce λ(α, β)jespojitána T anatétomnožiněmáprávějeden stacionární bod, který lze charakterizovat následujícími rovnostmi ξ α = θ ω 1 γ, ξ β= θ+ ω 1 γ, (36) kde ωjejedinéřešenírovnice L(ω)=P(ω)na[0, θ 1 θ γ ),kde L(ω):=ln θ+ω 1 θ γ+ ω θ ω1 θ γ ω +ln1+d 1 c, P(ω):= 1 2 +ω dx 1 2 ω x 2 D(ω), kde D(ω):= ρ 2 + γ 1 γ (θ2 ω 2 ).Navíc,funkce λ=λ(α, β)nabýváminima v tomto stacionárním bodě. Dále rozdíl L(ω) P(ω) je ryze monotónní funkce na takových intervalech, na kterých je tato funkce spojitá. Pokud D(ω) >0,lzefunkci P(ω)počítatpodlevzorce 1 1 P(ω):= 2 D(ω) ln 2 ω+ D(ω) ω+ D(ω) P(ω):= 1 D(ω) [arccotg ω D(ω) 1 2 ω D(ω), resp. ( 1 2 ω D(ω) ) arccotg vpřípadě,že D(ω) <0,resp. P(ω)= 2ω 1 4 ω2,pokud D(ω)=0. ( ω )] D(ω) Nynípředpokládejme,žefunkce λnabývásvéhominimana T vbodě (α, β).definujmedálef(x):= f(x)= 1 γlng(x)pro x [α, β],f(x) := D α ln(1+bx)pro x ( 1/b, α),f(x):= D β ln(1 cx)pro x (β,1/c), kdekonstanty D α, D β jsouzvolenytak,abyfunkcefbylaspojitánaintervalu ( 1/b, 1/c). Konečně položme G(x):=exp{ γf(x)}. (37) Věta4.Necht Y t jetržnícenaportfoliaag t jepoziceinvestoranatrhu, pak Y γ t G(G t)e λt =exp {γ[lny t F(G t ) νt]}, (38) kde ν = λ/γ, je součet submartingalu a neklesajícího procesu za předpokladu, žestrategieobchodováníudržujepozici G t odraženouodkrajníchhodnot 1/b

84 74 Petr Dostál a1/capokudzaručuje,žetržnícenaportfolia Y t neklesnenanuluvkonečném čase. Pokud je proces(38) martingal, lze říci, že byla aplikována strategie[α, β]. Proces(38) je zřejmě martingal, pokud je použita strategie[α, β]. Podobně jako v případě logaritmické užitkové funkce z této věty plyne, že neexistuje rozumná strategie s lepším asymptotickým chováním středního užitku než je strategie[α, β], měříme-li asymptotický užitek z tržní hodnoty portfoliapomocífunkce U γ (x).opětmůžemedefinovatužitekvčase tna základě Y t a G t pomocí 1 γ (38)zapředpokladu,ženášcíljemaximalizovat asymptotikckéchování EU γ (Y t ).Mohlibychomtakéříci,žeužitekjeroven hodnotě lny t F(G t ) νt, (39) ale ne ve smyslu maximalizace očekávaného užitku, ale ve smyslu minimalizace střední hodnoty exponenciely z γ-násobku takovéhoto druhu užitku. 4 Nenulováúrokovámíraazměnačasu Necht Z t označujetržnícenuakcievčase t.označme X t diskontovanoutržní cenuakcie X t = e rt Z t,kde rjekonstantníúrokovámíra.předpokládejme dále,že dz t = κz t dt+z t σ dw t.pak dx t = µx t dt+σx t dw t, kde µ:= κ r.definujeme-li Y t jakodiskontovanoutržnícenuportfolia,můžemepoužít předchozí výsledky k tomu, abychom odvodili optimální strategie pro tento případ, nebot kritéria optimality jsou invariantní vzhledem k diskontování. Poznámka ke změně času Rozšířená optimalita odvozených strategií je založena na větách, které říkají, že nějaké procesy jsou martingaly, pokud použijeme odvozené strategie, zatímco jsou obecně jen super/sub-martingaly +/ nerostoucí proces, pokudseomezímenastrategieudržujícípoziciinvestora G t odraženouod extrémních hodnot 1/b a 1/c. Tento druh optimality je stabilní v případě logaritmické užitkové funkce vzhledem k jakékoli rozumné změně času, tj. vzhledem k takovým transformacím času, které neporuší(sub,super)-martingalovou vlastnost našich (sub,super)-martingalů. Zatímco v případě mocninných užitkových funkcí je tato optimalita stabilní vzhledem k deterministickým změnám času v modelu. Reference [1] Janeček K., Shreve S.E.(2004). Asymptotic analysis for optimal investment and consumption with transaction costs. Fin.&Stochas. 8, [2] Shreve S., Soner H.M.(1994). Optimal investment and consumption with transaction costs. Ann. Applied Probab. 4, Poděkování: Účast na této konferenci byla umožněna na základě podpory z grantu GA ČR 201/03/1027 a výzkumného záměru MSM Adresa:P.Dostál,KPMS,MFFUK,Sokolovská83,Praha8-Karlín dostal@karlin.mff.cuni.cz

85 ROBUST 2004 c JČMF 2004 SPEED OF CONVERGENCE TO EQUILIBRIUM OF ZERO RANGE PROCESSONABINARYTREE Lucie Fajfrová Keywords: Interacting particle system, zero range process, spectral gap, Poincare inequality. Abstract: Let us consider the zero range process with the symmetric random walkonabinarytreeasthesingleparticlelaw.thepaperbringoutan estimate of a rate of convergence of this process to equilibrium in the following sense.wefindalowerboundofaspectralgapoffinitevolumeprocesses. Thatisprocessesonafinitebinarytreeofheight nwithadensity ρof particles. We distinguish two classes of speed function. For the constant speed functionweshowthatthespectralgoestozerowhen n nofasterthan (n2 n (1+2 n ρ 2 )) 1.Abetterlowerbound,uniforminthedensity,isobtained foraspeedfunction near thelinearfunction:thespectralgapgoestozero nofasterthan(n2 n ) 1.Theseestimatesfollowuptheresultsof[3]and[5], wherethesymmetriczerorangeprocesson Z d isconsidered. 1 Introduction The zero range process(zr) is one of the interacting particle systems which describe the movement of infinitely many indistinguishable particles on some setofnodes(sites)x.inthispaperweareinterestedprimarilyinthecase whenxisabinarytree.theparticlescanmoveonlyoveredgesofthistree,it meansthataparticleatnode xcanjumpjusttoaneighbourof x,i.e.anode ysuchthat(x, y) E,where Eisthesetofalledges.Thismovementof particlesisconsideredtoberandomandinthispaperweshallconsideronly the symmetric and translation invariant case. One can imagine it simply: when considering only one particle then the movement is common symmetric randomwalkonbinarytree.soateachnode(excepttheroot)theparticle chooses one of the tree possibilities with the same probability. Nevertheless in general there are interactions among particles. The zero range interactions aredescribedbysocalledspeedfunction g:n [0, ), g(0)=0.ifthereare kparticlesatanode xtherateofjumpofoneparticlefrom xtoitsarbitrary neighbour is equal to g(k)/3. Note that exactly this function g determine the typeoftheinteractions.sothename zerorange comesfromthefactthat gdependsonlyonthenumberofparticlesatparticularsiteandhencethe interactions appears only among particles at the same site. One of the basic examplesistheconstantspeedfunction g(k)=i [k>0].inthiscasewecan interpret the zero range process as a(close) system of infinitely many queues withserversplacedatthenodesofabinarytreeandtheseareconnected overtheedgesofthistree.notethatthezerorangedynamicsdoesn tallow any particle to exit or enter and so the whole system is mass-conserving.

86 76 Lucie Fajfrová Finally the zero range process is a continuous time Markov process with thestatespace N X = {η:x N},whichisgivenbyinfinitesimalgenerator L acting on cylinder functions: Lf(η)= 1 3 g(η(x))( f(η xy ) f(η) ), (1) x X y:(x,y) E for η N X,where ηistheconfigurationofparticlesonxand η xy isthe configurationwhicharisesfrom ηafterthejumpofaparticlefrom xto y. Notethattherateofleavinginthe rootwasmodified(2/3insteadofuniform 1) in order to have the transition rates uniform 1/3. Nevertheless recall that the speed function g cannot be considered arbitrary. We need to avoid toofastincreasingratesofjumpsinordertobeabletousethetechniquesof Markov processes. For instance we want to obtain the Markov semigroup of operators corresponding to the generator L. Liggett[6] or Andjel[1] obtained this correspondence under the Lipschitz condition: thereexists a 1 < :sup g(k+1) g(k) a 1. (2) k InvariantmeasuresforsuchaMarkovprocessareproductmeasures ν ϕ on N X withthesamemarginals m ϕ ( )=ν ϕ (η:η(x)= )forevery x X.The measure m ϕ on Nisgivenby ϕ k m ϕ (k)=z ϕ g(k)g(k 1)...g(1) k >0 (3) and m ϕ (0)=Z ϕ,where Z ϕ isanormalizingconstant.speciallyforthespeed function g(k)=i [k>0] itmakessensetoconsiderany ϕ [0,1)andthen themeasure m ϕ isthegeometricaldistributionwithparameter ϕforevery ϕ positiveand m 0 = δ 0,theDiracmeasuresitinginzero.Moreaboutinvariant measuresofthezerorangeprocessescanbefoundin[1]. Theveryusualapproachistostudythe zerorangeprocessusingits finite volume approximations. It means that we approximate the set X by asequenceoffinitesetsx 1 X 2..., X n =Xandwerestrictthestate spacetoω n,k :={η N Xn : x X n η(x)=k},thefiniteconfigurationsofjust Kparticles.InourcaseweconsiderX n asthebinarytreeofheight nwith thesetofedges E n.notethattherootissettledatlevelzerothusthenumber ofnodesofx n is2 n+1 1.SoaMarkovprocesswiththestatespaceΩ n,k givenbygenerator L n f(η)= x X n y:(x,y) E n 1/3 g(η(x)) ( f(η xy ) f(η) ) weshallcallafinitevolumezerorangeprocess.recallthatforeachfixed nand KitisafinitestatespaceMarkovprocessanditsdescriptionusing thegenerator L n canbereplacedsimplybyusingthetransitionratematrix Q n,k := ( I ) [ζ=η xy forsome(x,y) E n]g(η(x))/3 η,ζ Ω n,k orequivalentlybyusing theappropriatetransitionmatrixsemigroup ( P n,k ) t t 0. OnecanobtaintheinvariantmeasureforafinitevolumeZRbyconditioningproductmeasures νn ϕ:= ( m ϕ) n onevent [ x X n η(x)=k ] (.Formally ν n,k ( )=νn ϕ ) η(x)=k (4) x X n

87 Speed of convergence to equilibrium of zero range process 77 isthemeasureonω n,k.itiseasytoobservethat ν n,k ismoreoverreversible. Speciallyforthespeedfunction g(k)=i [k>0] themeasure ν n,k istheuniform distributiononω n,k. ItisabasicresultfromthetheoryofMarkovprocessthatforevery f on N Xn thereholds P n,k t f t E νn,k f.when ν n,k isthereversiblemeasure thenwecanevenestimatethespeedofthisconvergenceusing L 2 (ν n,k )norm: P n,k t f E νn,k f L2(ν n,k) f L2(ν n,k) exp{ t λ } (5) where λisthesecondlargesteigenvalueofthetransitionratematrix Q n,k. Notethat λ isusuallycalledthespectralgap.thesebasicfactsaboutmarkov processes and spectral analysis of its generator matrix can be found in[2]. LetusremindherethatthespectralgapcanbecharacterizedusingtheDirichlet form of given Markov process D n,k f:= f, L n f νn,k = 1 ( 2 3 E ν n,k g(η(x))[f(η xy ) f(η)] 2), (6) x,y X n 1 andthevariationofmeasure ν n,k : D n,k f λ =inf f 0Var νn,k f. Oncewehaveforall n, Ksomeconstant γ n,k satisfyingtheinequality Var νn,k f γ n,k D n,k f (7) forevery f on N Xn,then1/γ n,k isalowerboundofthespectralgapfor (n, K) finite volume process. Note that the inequality(7) is called a Poincare inequality. Nowwearereadytosaywhatisouraim.Itistofind γ n,k forevery n, K inordertofindoutthelimitbehaviorofthespectralgapwhen n and K/ X n ρ. Letusmentionheretwopreviousresults.Atfirstwementionthepaper oflandimatal.[5]whereappearsthefirstsharplowerboundonthespectral gapforthezerorangeprocessonacube {1,...,n} d Z d.theyassumethat the speed function satisfies the Lipschitz condition(2) and in addition the linear growth condition: thereexists i Nand a 2 >0suchthat g(k) g(l) a 2 k l+i. (8) ForhomogeneoussymmetriczerorangeprocessonX n := {1,...,n} d they obtain the following Poincare inequality: Thereexistsaconstant Windependentof nand Ksuchthatforevery f onω n,k thefollowingholds: Var νn,k (f) W 0 n 2 Dn,K(f), (9) ( ) where Dn,K = 1 2 x,y X 1 n: x y =12d E ν n,k g(η(x))[f(η xy ) f(η)] 2 isthe correspondingdirichletformand ν n,k istheinvariantmeasure,thesameas in(4).thisinequalityimpliesaspectralgapofatleast1/(wn 2 )onacubeof

88 78 Lucie Fajfrová volume n d.seetheorem1.1.in[5]fordetails.notethatthedesiredconstant γ n,k inthepoincareinequalityishereuniforminthenumber Kofparticles. Atsecond,in theworkof Caputo[3] isageneralizationof (9)using quite different approach. They drops geometrical constraint on the dynamics andconsideraprocessonanarbitrarysetofthesamevolumeasx n where jumps are allowed between any two sites rather than only between nearest neighbours. Moreover every these jumps have the same probability and it is equalto( X n 1) 1.Therestofdynamicsgivenbythespeedfunction gis preserved.letuscall(asin[3])suchadynamicsthecompletegraphdynamics andacorrespondingprocesstheprocessonthecompletegraphx n.weput the result here for the readers convenience. Theorem C 1.1. [Theorem 4.1. in[3]] Let us consider the homogeneous zerorangeprocessonacompletegraphx n withaspeedfunction gsatisfying both(2) and(8) conditions. Thenthereexistsaconstant C independentof nand K suchthatfor every fonω n,k Var νn,kf C E n,kf where E n,k f= 1 ( 2 X n 1 E ν n,k g(η(x))[f(η xy ) f(η)] 2) (10) x,y X n 1 isthecorrespondingdirichletformand ν n,k istheinvariantmeasure;the sameasin(4). Note that the Poincare inequality is now uniform in both parameters K and naswell.weapplyourselvestotheresultofthistheorembecauseright an absence of geometrical bounds allows to employ this uniform Poincare inequalityforarbitrarygraph(x n, E n )ifwewouldbeabletoturnfromthe complete graph dynamics to the nearest neighbour dynamics. This turning consistsinmerecomparisonbetweenthedirichletsforms E n,k and D n,k and isusuallycalledthemovingparticlelemma.weshallsolvethistasklaterin detailsinsection3,whereweprovethemovingparticlelemmaforthezero rangeprocessonaconnectedgraph(x n, E n ). Nevertheless the conditions(2) and(8) admit only the speed functions whicharenotsodifferentfromthelinearone g(k) = k.butatthebeginning we mentioned interesting case of the speed function: the constant speedfunction g(k)=i [k>0],forwhichtheassumption(8)fails.sincetheassumption(8) seems to be essential to have a Poincare inequality uniform in parameter Kandthetechniqueusedinboththeoremarebasedonthisuniformity we are forced to use another approach to finding a Poincare inequalityforzronbinarytreewiththeconstantspeedfunction.thisisaimof section 4. 2 PoincareinequalityofZRonabinarytree We are going to state results concerning the Poincare inequality for the Dirichletformofthezerorangeprocessonbinarytreeasitwasdescribedin

89 Speed of convergence to equilibrium of zero range process 79 the previous section. The first proposition supposes the speed function from a class given by conditions(2) and(8). The second proposition concerns the constant speed function. Proposition 2.1. Let us consider the zero range process, where the single particlelawisthesymmetricrandomwalkonthebinarytreeofheight nand the speed function g satisfies the Lipschitz condition(2) and the linear growth condition(8). Thenthereexistsaconstant C < suchthatforevery n N, K >0 forevery fonω n,k Var νn,kf Cn2 n D n,k f where ν n,k and D n,k arethecorrespondinginvariantmeasureanddirichlet form, defined in(4) and(6), respectively. Proof.Wedividetheproofintotwosteps.Thefirstoneistoapplythegeneral resultforthezerorangeprocessonacompletegraph,seetheoremc1.1.we obtainfromitapoincareinequalityvar νn,k f C E n,k fwhichisuniform inthenumberofparticles Kandinthevolume n.recallthat E n,k fisthe Dirichletformofthezerorangeprocessonthecompletegraph(10).Ouraim istoobtainapoincareinequalitywiththedirichletform D n,k appropriate totheoriginalgraphstructure(6).itiseasytoobservethatthemeasure ν n,k isinvariantforeachhomogeneoussymmetricsingleparticlelaw.hence ν n,k isinvariantforthezerorangeprocessonthecompletegraphandfor the zero range with the original graph structure as well. ThesecondstepliesincomparisonbetweenthesetwoDirichletforms E n,k and D n,k,whereforbothweconsiderthesameinvariantmeasure ν n,k and thesamespeedfunction g.thiscomparisoniscarriedoutforthezerorange processonanarbitraryconnectedgraph(x n, E n )inthenextsection3.specially for the considered binary tree a result(13) gives the desired comparison which completes this proof. Proposition 2.2. Let us consider the zero range process, where the single particlelawisthesymmetricrandomwalkonthebinarytreeofheight nand thespeedfunctionis g(k)=i [k>0]. Thenthereexistsaconstant C < suchthatforevery n N, K >0 andforevery fonω n,k ( Var νn,k f C n2 n + nk 2) D n,k f, where ν n,k and D n,k arethecorrespondinginvariantmeasureanddirichlet form,respectively,thespecialcaseof(4)and(6)for g(k)=i [k>0]. Proof.AproofofthisPropositionrequiresalittlemorecarethentheproof of Proposition 2.1 because in this case of speed function the assumptions of Theorem C1.1 are not fulfilled. Moreover there is no constant uniform in number of particles such that a Poincare inequality holds with it. We shall

90 80 Lucie Fajfrová makeuseofaknownsimilaritybetweenthezerorangeandtheexclusion dynamics. Let us briefly describe here the exclusion process: The exclusion processisamassconservingparticlesystem,aswellasthezerorangeprocess.butthereisallowedatmostoneparticlepersite(itmeansthateach site is either occupied or vacant) and so interactions arise between particles at some neighbour sites. Anyway it is a Markov process with infinitesimal generator L EX f( η)= 1 I [ η(i)=1, η(j)=0] 2( f( η ij ) f( η) ) = 1 ( f( η i,i+1 ) f( η) ). 2 i I j I: j i =1 i I 1 for η {0,1} I and fon {0,1} I cylinderfunctionwhereweassumearbitrary interval I Zasasetofsiteswiththesymmetricrandomwalkon Iasasingleparticlelaw. I 1 standsforaninterval Iwithoutthemaximalelement, ifitexists,and η ij istheconfigurationwhicharisesfrom ηafterexchange valuesonsites iand j. If Iisfiniteweshallagain(likeforZR)considertheexclusionprocesson complete graph I with generator 1 I 1 i I 1 ( f( η i,i+1 ) f( η) ).TheCaputo result concerning the spectral gap for the exclusion dynamics on the complete graphisthesameasforzronthecompletegraphwiththespeedfunction satisfying(2) and(8), it means that the Poincare inequality is uniform in the volume I andthenumberofparticles Kaswell.See[3,Th.3.1]. ThenextstepoftheproofisagainacomparisonbetweenDirichletforms forthecompletegraphandfortheoriginalgraph.thistimeinadditionthe first mentioned Dirichlet form is considered for the exclusion dynamics. This comparisonandalsoacompletionofthisprovewepostponetosection4. Nowwearegoingtostatethemaintheoremwhichdescribesthespeedof L 2 convergencetotheinvariantmeasuresforthezerorangeprocessesfrom the previous. We pay attention to dependence on parameters n, K. Theorem 2.3. For the model described in Proposition 2.1 there exists a constants0 < C < suchthatforeach n N, K >0, f onω n,k and t >0 the following holds: P n,k t f E νn,k f L2(ν n,k) f L2(ν n,k)exp { t } Cn2 n. ForthemodeldescribedinProposition2.2thereexistsaconstants0 < C < suchthatforeach n N, K >0, fonω n,k and t >0: { P n,k t } t f E νn,k f L2(ν n,k) f L2(ν n,k)exp C(n2 n + nk 2, ) where P n,k t and ν n,k arethetransitionmatrixattime tandtheinvariant measure of the corresponding zero range process, respectively. Proof. This theorem is a right consequence of the proposition 2.1 and the proposition 2.2, respectively, when also the inequality(5) is applied. Note that we can generalize this theorem to arbitrary connected graph (X, E).Fortheproperstatementsee[4].

91 Speed of convergence to equilibrium of zero range process 81 3 Moving particle lemma Weconsideraconnectedgraph(X, E) asasetofsites.asanfiniteapproximationwemeanasequence {(X n, E n )} n offiniteconnectedsubgraphs suchthatx n X n+1 & E n = E Xn foreach n.ofcoursewewantthat n X n=x.thedirichletformoftheappropriatezerorangeprocessis D n,k f= 1 1 ( E νn,k g(η(x)) ( f(η xy ) f(η) ) ) 2 (11) 2 d m y X n:(x,y) E n x X n where d m :=max{d(x):x X n }isthemaximaldegreeofthegraph. OuraimistoestimatetheauxiliaryDirichletform E n,k,see(10),bythe Dirichletform D n,k oftheoriginalprocess(11)inordertogainapoincare inequalityfor D n,k and ν n,k asaconsequenceofcaputotheoremc1.1. Whatisneededtodoistoreplaceeverytransition η η xy where x, y arearbitrarydistinctnodesbyasequenceoftransitions ζ i ζ xi,xi+1 i just overedgesofgraph(x i, x i+1 ) E n wherethesequence(x 0 = x, x 1,..., x r 1, x r = y)isapathingraphbetweenthenodes xand y.letusestablishasetγ ofpathsbetweeneachcoupleofdistinctnodes x, ybutjustonepathforeach couple.ifthereexistmorethenonepathwemustchoosejustoneofthem andweallowjustpathswithoutrepeatededges.weshalldenote γ xy Γ, γ xy = {(x, x 1 ),(x 1, x 2 ),...,(x r 1, y)}. Letusfix fonω n,k.thenforarbitrary x y X n ( f(η xy ) f(η) ) 2= ( r 1 2. i=0 ) f(η )) f(ηx0,xi+1 x0,xi For expected values by using the Schwartz inequality we obtain: E νn,k (g(η(x)) ( f(η xy ) f(η) ) ) 2 r 1 ( r E νn,k g(η(x)) ( f(η x0,xi+1 ) f(η x0,xi ) ) ) 2 i=0 Usingreversibilityof ν n,k itisequalto r 1 ( 2= r ν n,k (η x0,xi )g(η x0,xi (x i )) f(η x0,xi+1 ) f(η )) x0,xi i=0 η:η(x)>0 r 1 = r i=0 ζ:ζ(x i)>0 Andsummingoverall x, yweget: E n,k f 1 2( X n 1 ) x X n y X n,y x u X n ( 2. ν n,k (ζ)g(ζ(x i )) f(ζ xi,xi+1 ) f(ζ)) r 1 ( 2= γ xy E νn,k g(ζ(x i )) f(ζ xi,xi+1 ) f(ζ)) 1 ( ) 21 = E νn,k g(ζ(u)) f(ζ u,v ) f(ζ) 2( X n 1) 2 v:(u,v) E n i=0 x X n y:γ xy (u,v) γ xy. Nowanestimateuniformin e:=(u, v) E n oftheterm xy I [γ xy e] γ xy isrequired.letusestablishcharacteristics γ:=max{ γ xy :x, y X n },the maximumlengthofpathfromγ,andthemeasureofbottleneck

92 82 Lucie Fajfrová b:=max e En {γ xy e:{x, y} X n }.Then γ b ( ) 2 E n,k f E νn,k g(ζ(u)) f(ζ uv ) f(ζ) 2( X n 1) u X n v:(u,v) E n d m γb X n 1 D n,k f (12) foreach n N, K >0, fonω n,k. As a consequence we obtained the moving-particle lemma for the discussedbinarytree(d m =3, γ=2n, b=2 n (2 n 1)and X n =2 n+1 1): holdsforeach n N, K >0and fonω n,k. E n,k f 3n2 n D n,k f (13) 4 Comparison between Dirichlet forms As it was mentioned behind the proposition 2.2 we shall take advantage of dualitybetweenanexclusionprocessonthelineandazerorangeprocesson the line. We only illustrate the easy principle of this duality on the following picture: η: η: η = (1,0,2,3) η = (1,0,0,1,1,0,1,1,1) a configuration of zero range processof6particleson4sites a configuration of exclusion processof6particleson9sites Suchconfigurations ηand ηweshallcalldual.noticethatthetotalnumber ofparticles Kisfordualconfigurationsthesameandthatthenumberofsites forthezerorangeprocess Nisequaltothenumberofemptysites(holes)in theexclusionprocessplusone.weshalldenote κ:ω N,K Ω K+N 1,K := { η {0,1} K+N 1 : η(i)=k}thebijectionrepresentingthisduality.it iseasytoseethatthereisalsodualitybetweentransitions η η x,x+1 and η η i,i+1 suchthat κ(η x,x+1 )= η i,i+1.finallywedefinealsoabijection betweenfunction spaces:if f isafunction f : Ω N,K Rthenweput f: Ω K+N 1,K R, η f(κ 1 η). Our aim is to employ the second mentioned Caputo theorem[3, Th.3.1] which gives a Poincare inequality for the exclusion process on the complete graphwith Kparticleson K+ N 1nodesinthisway: Var µn+k 1,K f CE EX N+K 1,K f N K fon Ω K+N 1,K, where µ N+K 1,K ( η) (( )) K+N 1 1istheinvariantmeasureand K E EX N+K 1,K f is the Dirichlet form, respectively, for the complete graph exclusion dynamics whenweconsider Kparticleson K+N 1nodes:

93 Speed of convergence to equilibrium of zero range process 83 E EX N+K 1,K f= N+K 2 i=1 N+K 1 j=i+1 1 N+K 2 E µ N+K 1,K I ( f( η ij ) f( η) ) 2. (14) [ η(i)=1, η(j)=0] Weknowthattheinvariantmeasure ν N,K forthesymmetriczerorange process with g(k) = I [k>0] is also uniform measure and sets Ω N,K and Ω K+N 1,K havethesamevolume.hencevar νn,k f=var µvn+k 1,K fforevery fand fdualfunctions.weobtain Var νn,k f CE EX N+K 1,K f N K fonω N,K. (15) TheremainingstepoftheproofofProposition2.2istoestimatethe Dirichletform EN+K 1,K fbythedirichletform EX D n,k f(11)ofthezerorange processwithoriginalgraphstructurealsowith Kparticleswhere N= X n. Weomitmanydetailshereandbringoutonlysketchoftheremaining partofproof(adetailedproofcanbefoundin[4]).letusconsideragainas insection3aconnectedgraph(x n, E n ). StartwiththeDirichletform EN+K 1,K fforsomefixed EX fon Ω K+N 1,K. Atfirst,letusalsofixthesites i < jand η Ω K+N 1,K suchthat η(i)=1, η(j)=0.ouraimisnowtoreplacetheexclusiontransition η η ij by somesequenceofzerorangetransitions η... κ 1 ( η ij ).Sincewetake advantage of duality only if we consider nodes for the zero range dynamics linearlyorderedwemustorderthenodesofgraphx n. Tomakethefollowinglinesabitmoreclearletussetupanoperator T i,j on Ω N,K, T i,j : η η ij.wecanreplacethedifference f( η) f( η ij )byasum ( f( η) f( ητ ) ) j 2 + ( f(tl 1,l (... T j 2,j 1 η τ )) f(t l,l+1 (... T j 2,j 1 η τ )) ) l=i+1 + ( f(tj 2,j 1 η) f( η τ ) ), where η τ = η τ(ij) := T j 1,j (T j 2,j 1 (... T i+1,i+2 (T i,i+1 η))).fillingthisterm in(14) and applying the Schwartz inequality we obtain: +2K 2 N+K 2 i=1 N+K 2 i=1 N+K 1 j=i+1 N+K 1 j=i+1 ( 1 ) ) 2 N+K 2 E µ N+K 1,K I [ η(i)=1, η(j)=0] ( f( η) f( ητ ) (16) 1 N+K 2 j 1 l=i+1 ) 2µN+K 1,K ( f(tl 1,l ζ) f( ζ) ( ζ).(17) ζ: ζ(l 1)=1, ζ(l)=0, ζ(j)=1 Theterm(16)issimpletoestimateusingjustdualityandthenweget: 2(N 1) (16) N+K 2 E N,Kf 2d mγb N+K 2 D N,Kf where the last inequality follows from(12).

94 84 Lucie Fajfrová Theestimateof(17)dependsonthelinearordering c:x n {1,...,N} ofthegraphx n (17) 2K ( 2 2 E νn,k I [ζ(x)>0] f(ζ x,c 1 (c(x)+1) ) f(ζ)) x X n 2K 2 γ x,c(x)+1 ( ) 2 E νn,k I [η(u)>0] f(η) f(η uv ) x X u X n v:(u,v) γ x,c 1 (c(x)+1) =2K ( ) 21 2 E νn,k I [η(u)>0] f(η) f(η uv ) γ x,c(x)+1 2 u X n v:(u,v) E n x:γ x,c 1 (c(x)+1) (u,v) 2K 2 a(c)b(c) ( 2. E νn,k I [η(u)>0] f(η) f(η )) uv v:(u,v) E n u X n wherewedenoted a(c)=max x X γ x,c 1 (c(x)+1) and b(c)=max e En {γ x,c 1 (c(x)+1) e:x X n }. Thesuminthelasttermis2d m multipleofthedirichletform(11)soweget the final estimate ( EN+K 1,K f EX 2dm γ b ) N+K 2 +4K2 d m a(c)b(c) D n,k f. (18) ForaspecialcaseofthebinarytreeX n ofheight n(n=2 n+1 1,the maximaldegree d m =3,themaximallengthofpath γ=2n,themeasure ofbottleneck b=2 n (2 n 1))thereexistsanorderingofthetreeforwhich a(c)=nand b(c)=1.thiscompletestheproofofproposition2.2. References [1] Andjel E.D. (1982). Invariant measures for the zero range process. Ann.Probab. 10, [2] Brémaud P.(1999). Markov chains, gibbs fields, Monte Carlo simulation and queues. Springer-Verlag, New York. [3] Caputo P.(2002). Spectral gap inequalities in product spaces with conservation laws. Paper submitted for the proceedings of the conference Stochastic analysis on large scale interacting systems, Japan. [4] Fajfrová L. Equilibrium behavior of Zero Range Process on binary tree. PhD. thesis, in preparation. [5] Landim C., Sethuraman S. and Varadhan S.(1996). Spectral gap for zero range dynamics. Ann.Probab. 24, No. 4, [6] Liggett T.M. (1972). Existence theorems for infinite particle systems. Trans.Amer.Math.Soc.165, Acknowledgement: Supported by the Grant Agency of the Czech Republic under Grant No. 201/03/0455. Address:L.Fajfrová,UTIAAVČR,PodVodárenskouvěží4,18208Praha8 fajfrova@utia.cas.cz

95 ROBUST 2004 c JČMF 2004 KLASIFIKAČNÍ PRAVIDLA PRO ELIPTICKY VRSTEVNICOVÁ ROZDĚLENÍ Marie Forbelská Klíčová slova: Diskriminační analýza, neparametrické a semiparametrické odhady hustot, součinová jádra, hraniční jádra, jádra s proměnlivou šířkou oken, elipticky vrstevnicové rozdělení, M-odhady. Abstrakt: Diskriminační analýza používá klasifikační postupy, s jejichž pomocí se objekt popsaný vícerozměrným znakem zařadí do jedné z konečného počtu existujících tříd. Postup klasifikace je založen na určitých předpokladech o vlastnostech objektů, např. na předpokladu o normálním rozdělení náhodného vektoru, charakterizujícího objekt. Pro tento případ byla odvozena klasická lineární a kvadratická diskriminační pravidla. V příspěvku bude ukázáno, že obdobná lineární a kvadratická(t.j. parametrická) klasifikační pravidla lze najít i pro mnohem širší třídu vícerozměrných rozdělení, a to pro tzv. elipticky vrstevnicová rozdělení. Pro tento typ rozdělení bude také popsán neparametrický i semiparametrický přístup vycházející z jádrových odhadů podmíněných hustot figurujících v klasifikačních pravidlech. Popsané klasifikační postupy budou demonstrovány na příkladu simulovaných dat z vícerozměrného Studentova rozdělení. 1 Úvod Předpokládejme, že množina G nějakých objektů(jedinců) sestává z k rozlišitelnýchtříd,skupinčipopulací G 1,..., G k,kteréjsoupodvoudisjunktní atvořírozkladmnožinyobjektů G= k j=1 G j(g i G j =, i j).nakaždém objektunásbudouzajímatdvastatistickéznaky X ay=(y 1,, Y m ). Znak Xmáoborhodnot {1,..., k}aurčujepříslušnostobjektukdanétřídě a m-rozměrný znak Y objekt charakterizuje. Nechť W=(X,Y ) je náhodný vektordefinovanýna nějakém pravděpodobnostním prostoru(ω, A, P), který má vzhledem k součinové míře µ=ν X µ Y hustotu f XY (j,y),kde ν X ječítacímíraaµ Y jelebesguova míra,přičemž f XY (j,y)=p j f j (y),kde p j jsoutzv.apriornípravděpodobnosti (p j >0, p 1 + +p k =1)af j (y)jsouhustotyvzhledemklebesguověmíře. Zřejmě f j (y)jepodmíněnáhustotay,když X=j(j=1,...,k,y R m ). Na základě pozorování y náhodného vektoru Y chceme objekt zařadit do jedné z k tříd. Použijeme následující bayesovské klasifikační pravidlo(viz např.[3]):pokudpřidanémy=yprovšechna j t(t, j=1,...,k)platí p t f t (y) p j f j (y), (1) pak objekt zařadíme do t-té třídy. Při praktickém provádění diskriminační analýzy máme k dispozici k souborů objektů, přičemž víme, který objekt do které třídy patří. Jde o tzv.

96 86 Marie Forbelská trénovací data, na základě kterých provádíme odhady neznámých apriorních pravděpodobnostíapodmíněnýchhustot.pro j =1,...,koznačmepočet objektůvj-témsouboru n j a N= n 1 + +n k,relativníčetnostiˆp j = nj N, realizacey j1,...,y jnj,vektoryvýběrovýchprůměrůȳ j = 1 nj n j i=1 y ji,matice součtůkvadrátůasoučinůq j = n j i=1 (y ji ȳ j )(y ji ȳ j ),výběrovékovarianční matices j = Qj n aspolečnouvýběrovoukovariančnímaticis= k n j 1 j 1 j=1 N k S j. 2 Parametrická klasifikační pravidla pro normální rozdělení Pokudpro j=1,..., kpodmíněnérozdělenínáhodnéhovektoruyzapodmínky,že X=j,je m-rozměrnénormální N m (µ j,σ j )svektoremstředních hodnot µ j akovariančnímaticíσ j,resp.σ=σ 1 = =Σ k,pakobjekt popsaný vícerozměrným znakem y zařadíme do t-té třídy, pokud pro všechna j t(t, j=1,...,k)platí D t (y) D j (y), D j (y)= 1 2 ln Σ j 1 2 (y µ j) Σ 1 j (y µ j )+lnp j, (2) resp. d t (y) d j (y), d j (y)= ( y 1 2 µ j) Σ 1 µ j +lnp j. (3) Diskriminační metoda založená na pravidle(2), resp.(3), v němž neznámé parametry µ j,σ j, p j pořaděnahradímeȳ j,s j aˆp j,resp.ȳ j,sa ˆp j,se nazývá klasická kvadratická, resp. lineární, diskriminační analýza. 3 Parametrická klasifikační pravidla pro elipticky vrstevnicová rozdělení Rozšíření lineárních a kvadratických diskriminačních pravidel ze třídy normálně rozdělených klasifikačních znaků na třídu elipticky vrstevnicových bylo inspirováno článkem[2] s kvadratickými diskriminačními pravidly pro vícerozměrná Pearsonova rozdělení typu II a VII a faktem, že typické vlastnosti vícerozměrného normálního rozdělení lze zobecnit na mnohem širší třídu elipticky vrstevnicových rozdělení, kam obě jmenovaná rozdělení patří. Při definici elipticky vrstevnicového rozdělení vyjdeme ze značení používaného v[6]. Definice 3.1. Řekneme, že m-rozměrný náhodný vektor Y má elipticky vrstevnicovérozdělení (ECD rozdělení) s parametry µ, Σ a φ, kde µ= (µ 1,...,µ m ) R m,σjepozitivněsemidefinitnímaticeřádu(m m), φje nějaká funkce φ:[0, ) R, jestliže charakteristická funkce ψ(t) náhodného vektoruy=(y 1,..., Y m ) mátvar ψ(t)=exp(it µ) φ(t Σt).Pakpíšeme Y EC m (µ,σ, φ).speciálně,jestliže µ=0aσ=i m, EC m (0,I m, φ)se nazývásférickérozděleníapíšemey S m (φ). PokudY EC m (µ,σ, φ),pakplatí(viznapř.[6]nebo[5]): (i) Pokudhodnostmatice rk(σ)=k,paky EC m (µ,σ, φ)tehdyajen tehdy,kdyžymástochastickoureprezentaciy= µ+rau k,kdeu k

97 Klasifikační pravidla pro elipticky vrstevnicová rozdělení 87 je náhodný vektor s rovnoměrným rozdělením na povrchu jednotkové koulevr k, Rjenezápornánáhodnáveličina, RaU k jsounezávislé aσ=aa jerozkladmaticeσ(tj.aje(m k)maticehodnosti k). (ii) EY < (resp. DY < )tehdyajentehdy,když ER < (resp. ER 2 < ),přičemž EY=µ(resp. DY= 2φ (0)Σ= ER2 rk(σ) Σ). (iii) Obecně náhodný vektor Y nemusí mít hustotu vzhledem k Lebesguově míře,avšakje-liabsolutněspojitý,musíbýtmaticeσ=aa pozitivně definitníaplatí:y=µ+rau m EC m (µ,σ, φ)jeabsolutněspojitéhotypushustotou f Y (y),právěkdyžproy R m jehustotavetvaru f Y (y)=c m Σ 1 2 g ( (y µ) Σ 1 (y µ) ), kde tzv. generátor hustoty g: [0, ) [0, )a 0 r m 2 1 Γ( m g(r)dr <, c m = 2 ) π m R. 2 0 r m 2 1 g(r)dr Přitom hustotu nezáporné náhodné veličiny lze také vyjádřit pomocí generátoru g, tj. ( f R 2(s)=π m 2 Γ m ) 1s m c m g(s). (4) Anaopak,označíme-li ρ 2 (y)=(y µ) Σ 1 (y µ),pak f Y (y)= Σ 1 2 Γ ( ) ( m 2 π m 2 fr 2 ρ 2 (y) ) ρ 2 m (y). (5) (iv) Mějmerealizacenáhodnéhovýběruy 1,...,y n zrozdělení EC m (µ,σ, φ) s generátorem hustoty g, který je navíc nerostoucí a spojitý. Označímeli výběrový vektor středních hodnot ȳ = 1 n n i=1 y i, matici součtů kvadrátůasoučinůq= n i=1 (y i ȳ)(y i ȳ),pakmaximálněvěrohodnéodhadyparametrů µaσjsourovnyˆµ MLE =ȳaˆσ MLE = m z g Q, kde z g >0jemaximumfunkce l(z)=z mn 2 g(z).je-linavíc gdiferencovatelná, z g jeřešením g (z)+ mn 2z g(z)=0(z 0),neboekvivalentně řešenímrovnice W g (z)+ mn 2z =0(z 0),kde W g(z)= dln(g(z)) dz = g (z) g(z). Předpokládejme,žepro j=1,..., kjsou f j (y) m-rozměrnýmihustotami (A) PearsonovarozdělenítypuII,značíme MPII m (q, µ j,σ j ), q R, q> 1, (B) PearsonovarozdělenítypuVII,značíme MPV II m (q, p, µ j,σ j ), p >0, q > m m+p 2 (pro q= 2, p Ndostanemevícerozměrnét-rozdělení,jestliže navíc p = 1, pak jde o vícerozměrné Cauchyovo rozdělení), (C) Kotzovarozdělení,značíme MK m (q, p, s, µ j,σ j ), p, s >0,2q+ m >2 (pro s=1, q=1, p= 1 2 dostanemevícerozměrnénormálnírozdělení), pro které (A) g(u)=(1 u) q pro u 1, c Γ( m +q+1) m= 2 Γ(q+1)π m 2 q, (B) g(u)= 1+ 1 p u Γ(q) cm= (C) g(u)=u q 1 e pus, Γ(q m 2 )(πp) m 2 2s MLE, Σ b j = 2q+mn Q n j, MLE, Σ b j = 2q mn Q np j, sp2q+m 2 2s Γ( c m) 1 MLE m= 2 Γ 2q+m 2 π m, Σ b j =m 2ps s Q 2 2q+mn 2 j.

98 88 Marie Forbelská Klasifikačnípravidlo(1)jepro j t(t, j=1,...,k)ekvivalentníspravidly (A) p q t f q t (y)=c qm q D t(y) pj f q j (y)=c qm D j (y), 1 h i q kde D j (y)=pj Σ j 2q 1 1 (y µ j ) Σ 1 j (y µ j ), (B) p 1 q t f 1 q t (y)=c 1 q m D t(y) p 1 q j f 1 q j (y)=c 1 q m D j (y), h i kde D j (y)= p 1 q j Σ j 2q p (y µ j ) Σ 1 j (y µ j ), (C) ln(p tf t(y))=d t(y)+ln c m ln(p j f j (y))=d j (y)+ln c m, kde D j (y)=ln p j 1 2 ln Σ j p(y µ j ) Σ 1 j (y µ j ) a q=s=1. Jestližezanedbámekonstanty c m aneznáméparametry p j, µ j aσ j pořadě nahradímeodhadyˆp j, µ j =ȳ j a Σ MLE j = Σ j,dostanemeprovšechna j t (t, j=1,...,k)kvadratickédiskriminačnípravidlo(ecd QDA) ˆD t (y) ˆD j (y), kde ˆD j (y)=a j +B j (y µ j ) Σ 1 j (y µ j ), (6) (A) A q j =ˆp1 j Σ b j 1 1 q 2q, B j =ˆp j Σ b j 2q, 1 přičemž (B) A j =ˆp 1 q j Σ b j 2q, 1 B j = ˆp 1 q 1 j p Σ b j 2q, 1 (C) A j =lnˆp j 1 2 ln Σ b j, B j = p a q=s=1. PokudnavícΣ 1 = =Σ k =Σaodhadneme ˆΣ= 1 k N j=1 n MLE j Σ j,dostanemepro j t(t, j=1,...,k)lineárnídiskriminačnípravidlo(ecd LDA) ˆd t (y) ˆd j (y), kde ˆd j (y)=a j +b j ( y 1 2 µ j) Σ 1 µj, (7) přičemž (A),(B) a j =0, b j =1 a p 1 = =p k, (C) a j =lnˆp j, b j =2p a q=s=1. 4 Neparametrická klasifikační pravidla Podmíněnéhustoty f j (y)(j =1,...,k)zklasifikačníhopravidla(1)nejprve odhadneme pomocí tzv. součinových jader, která jsou součinem m jader jedné proměnné: ˆfj (y)= m t=1ˆf jt (y t )= m t=1 1 ( nj n j i=1 1 yt y h jt K ji,t h jt ), y=(y 1,..., y m ) R m, y ji =(y ji,1,..., y ji,m ) R m. Jádrem K rozumímelibovolnousymetrickouaohraničenoufunkci,proniž K(y)dy=1 alim y ± y K(y)=0.Proposloupnostikladnýchvyhlazovacíchparametrů (téžšířekoken) {h jt = h jt (n j )} n požadujeme,abylim j=1 n j h jt (n j )=0 alim nj n j h jt (n j )=. VprácibudepoužitébuďGaussovojádro K(y)=(2π) 1/2 e y2 /2 nebo tzv.polynomickájádra K(y)=κ rs (1 y r ) s r I [ 1,1] (y),kde κ rs = 2B(s+1,1/r), r >0, s 0aI [a,b] (y)= j 1 y [a, b] (pro r=2as=1,2,3pořadě 0 jinak dostaneme tzv. Epanechnikovo, biweight a triweight jádro). Vhodnou metodou volby vyhlazovacího parametru se v diskriminační analýze ukázala např. jednoduchá a rychlá metoda založená na principu horní hranice, tzv. přehlazení(oversmoothing) či maximální vyhlazení(maximal smoothing), více viz[4] nebo[5].

99 Klasifikační pravidla pro elipticky vrstevnicová rozdělení 89 5 Semiparametrická klasifikační pravidla Budeme-lipředpokládat,že f j (y)(j=1,..., k)jsoupodmíněnéhustotyblíže neurčeného elipticky vrstevnicového rozdělení, pak lze s využitím vztahu(5) tyto vícerozměrné hustoty odhadovat např. pomocí jádrových odhadů jednorozměrnýchhustot f R 2 j (ρ 2 (y)).vesnazeeliminovatvlivodlehlýchpozorování, vodhadech rji=bρ 2 2 j(y ji)=(y ji bµ j ) 1 Σ b j (y ji bµ j )místoodhadůȳ j as j použijemehuberovym-odhadyzískanézrekurentníchvztahů: bµ (0) bσ (0) j = 1 Pn j n j i=1 w (ν) ji = ψ r (ν) «ji r (ν) ji y ji bµ (0) j, bµ (ν+1) Pn j j = y ji bµ (0) j i=1 w(ν) ji y ji Pn j i=1 w(ν) ji, r (ν) ji =, Σ b (ν+1) Pn j i=1 j = j = 1 Pn j yji, n j i=1 r y ji bµ (ν 1) bσ (ν 1) 1 j j y ji bµ (ν 1) j, w (ν) «2 y ji ji bµ (ν) «y j ji bµ (ν) «j Pn j w (ν) «2,při- i=1 ji ( s s c, čemž ψ(s)= (více[8],kdesedoporučuje c=2aν=1,...,5). sign(s)c s > c. Tím, že stačí uvažovat pouze jednorozměrné jádrové odhady nezáporných náhodnýchveličin Rj 2,najednéstraněprovelká mušetřímečasnutnýkhledání optimální šířky vyhlazovacích parametrů jednotlivých dimenzí, na druhé straněvšaknevystačímesklasickýmiodhadytypu f R 2(s)= P «n j 1 s rji j i=1 n j h j K 2 h j, neboť je třeba se vyrovnat s hraničními efekty. Použijemeprototzv.lineárníhraničníjádrotypu(l» x+m xu)k(u)(viznapř.[7]) adostanemeodhad f b P R 2 (s)= 1 2 nj 1 s rji s rji j n j i=1 h j l s hj +m s hj h j K 2 h j «,kde Kje jádro,jehož nosič je [ u K, u K ], l u= a 2 (u) a 0 (u)a 2 (u) a 2(u), mu= a 1 (u) 1 a 0 (u)a 2 (u) a 2 1 (u) a a l (u)= R min{u,u K } u l u K K(u)du. Chceme-li kvalitnější jádrové odhady, můžeme použít také jádrové odhadysproměnlivoušířkouoken f a P R 2 (s)= 1 nj j n j i=1 1 h j λ ji K «s rji 2 h j λ ji,kde λ ji= αj P fr 2 (r2 ji)/g j, 0 α j 1, ln g j j= 1 nj n j i=1 ln f R 2(r 2 j ji), nazvěmeje krátce adaptivní(viz[10],kdesedoporučujevolit α j = 1 2 ). 6 Příklad s vícerozměrným Studentovým rozdělením K ilustraci popsaných klasifikačních metod použijeme simulovaná data z vícerozměrného t-rozdělení,tj. z MPV II m (q, p, µ,σ)pro p N, q= m+2 2. Při generování pseudonáhodných čísel y=(y 1,...,y m ) využijeme vztah y=µ+[p(1 z)/z] 1/2 A v v,kdeσ=aa, zjepseudonáhodnéčíslozrozdělení β ( q m 2, ) m 2 av=(v1,..., v m ) jsounezávislápseudonáhodnáčíslazestandardizovaného normálního rozdělení(odvození viz[5]). Pomocí simulací tak vytvoříme trénovací soubor, který je směsí tří dvourozměrných t-rozdělení s5stupni volnostipro n 1 = n 2 = «n 3 =30, µ 1 =(0,3), µ 2 =(0.75,0) «, µ 3 =(1.5,2), Σ 1 = , Σ = a Σ = « Na základě trénovacích dat byla zkonstruována jednotlivá diskriminační pravidla. Na obrázku 1 jsou vykresleny výsledné hraniční

100 90 Marie Forbelská křivky, které dělí R2 na tři oblasti, dále vrstevnicové grafy příslušných hustot (teoretických či odhadnutých) spolu se simulovanými daty (symboly, a značí postupně body z první, druhé a třetí skupiny). Podle toho, ve které oblasti bod leží, je klasifikován. Pomocí této resubstituce lze posoudit účinnost klasifikačního pravidla např. díky % chybně klasifikovaných prvků. Obrázek 1: Hraniční křivky spolu s vrstevnicovými grafy podmíněných hustot. Poznámky k obrázku 1: (1) Porovnáme-li teoretické výsledky klasifikace s parametrickými klasifikačními postupy, jako jsou ECD LDA (je použita i když nejsou splněny předpoklady o rovnosti kovariančních matic), tak ECD QDA, pak se v tomto konkrétním případě výsledky příliš neliší, viz obrázky (a), (b) a (c). (2) I když obecně na kvalitu jádrového odhadu má větší vliv volba vyhlazovacího parametru než volba jádra, ze tvaru hraničních křivek na obrázcích (d) a (e) je zřejmé, že při použití součinových jader je vhodnější volit místo polynomického jádra s konečným nosičem (což je např. Epanechnikovo jádro) raději jádro mající neomezený nosič (např. Gaussovo jádro). (3) Při semiparametrickém přístupu odhadu hustoty nezáporných náhodných veličin R2j (j = 1, 2, 3) se ukázalo, že problémy spojené s hraničními efekty neovlivnily tvar hraničních křivek, viz obrázky (f ) a (g), kdežto použití odhadů s proměnlivou šířkou oken se projevilo na jejich hladkosti, viz obrázky (h) a (i). Při odhadech hustot R2j (j = 1, 2, 3) bylo vždy použito polynomické, a to Epanechnikovo jádro.

101 Klasifikační pravidla pro elipticky vrstevnicová rozdělení 91 Obrázek 2: Parametrické, neparametrické a semiparametrické odhady hustot. Pro názornou představu o rozdílu mezi teoretickými hustotami a jejími odhadyjepřipravenobrázek2atabulka1. Poznámkykobrázku2atabulce1: (1) Nejmenší odchylky vykazují neparametrické metody odhadu pomocí součinových jader a semiparametrický odhad s lineárním hraničním jádrem, viz metody(d),(e) a(g). (2) Největšívychýlení,kteréjevždyvokolíbodů µ 1, µ 2 a µ 3,způsobujípředevšímhraničníefektypřiodhadu hustotnezápornýchnáhodnýchveličin R 2 j (j=1,2,3), vizmetody(f)a(h).mezihoršímetodysepřekvapivě dostalaimetoda(i)sproměnlivoušířkouoknaslineárním hraničním jádrem. Tabulka 1: Maximální absolutní odchylky od teoretických hustot. 1.sk. 2.sk. 3.sk. (b) (c) (d) (e) (f) (g) (h) (i) Účinnost jednotlivých klasifikačních postupů lze vyhodnotit pomocí tzv. konfusních matic,% chybné klasifikace(získaného při resubstituci) a také času(v sekundách) potřebného k vytvoření klasifikačního pravidla a pro resubstituci.

102 92 Marie Forbelská (a) teoretické výsledky Classification Results Original Classified group Total group Misclass. in % (b) ECD LDA CPU time = 0.01 s Original Classified group Total group Misclass. in % (c) ECD QDA CPU time = 0.02 s Original Classified group Total group Misclass. in % (d) součinové(gauss. jádro) CPU time = s Original Classified group Total group Misclass. in % (e) součinové(epan. jádro) CPU time = s Original Classified group Total group Misclass. in % (f)klasicképro R 2 j CPU time = s Original Classified group Total group Misclass. in % (g)hraničnípro R 2 j (h)adaptivnípro R 2 j (i)adaptivníihraničnípro R 2 j CPU time = 0.32 s Original Classified group Total group Misclass. in % CPU time = s Original Classified group Total group Misclass. in % Tabulka 2: Konfusní matice,% chybné klasifikace a CPU čas. Poznámky k tabulkám 2(a)-(i): CPU time = s Original Classified group Total group Misclass. in % (1) Nejnižší% chybné klasifikace vykazuje neparametrická metoda se součinovým gaussovským jádrem, následuje semiparametrická metoda s klasickým i hraničním jádrem. (2) Podle očekávání nejrychlejšími byly parametrické metody, pak semiparametrické(s výjimkou metody(i)) a nejpomalejšími byly parametrické metody se součinovým jádrem. Absolutně nejhůře dopadla metoda(i) s proměnlivou šířkou okna a s lineárním hraničním jádrem. Stálo by za zvážení, zda pro odhady hustot nezáporných náhodných veličin nepoužít místo symetrických jader jádra asymetrická, jako jsou gamma jádra, popř. IG(Inverse Gaussian) nebo RIG(Reciprocal Inverse Gaussian) jádra, jak se doporučuje v pracích[1] a[9]. Reference [1] Chen S.X.(2000). Probability density functions using Gamma kernels. Ann. Inst.Stat.Math.52, [2] Cooper P.W.(1963). Statistical classification with quadratic forms. Biometrika 50, [3] Forbelská M.(2001). Neparametrická diskriminační analýza. Proceedings RO- BUST 2000, Nečtiny, [4] Forbelská M.(2002). A Comparison of some parametric and nonparametric discrimination procedures. In Summer School DATASTAT 01. FOLIA, Masaryk University, Faculty of Science, Mathematica 11, [5] Forbelská M. (2003). Parametric and nonparametric discrimination. PhD Thesis. University of Ostrava, Fac. of Science, Dpt. of Mathematics, Czech R. [6] Gupta A.K., Varga T.(1993). Elliptically contoured models in statistics. Kluwer Academic Publishers, Dordrecht. [7] Jones M.C, Foster P.J.(1996). A simple nonnegative boundary correction method for kernel density estimation. Statistika Sinica, [8] Randles R.H, Broffitt J.D., Ramberg J.S., Hogg R.V.(1978). Generalized linear and quadratic discriminant functions using robust estimates. Journal of the American Statistical Association 73, no. 563, [9] Scaillet O. (2004). Density estimation using inverse and reciprocal inverse Gaussian kernels. J. of Nonpar. Statist. 16, [10] Silverman B.W.(1993). Density estimation for statistics and data analysis. Chapman& Hall, New York. Poděkování: Příspěvek vznikl s podporou výzkumného záměru MSM: J07/98: Adresa: M. Forbelská, Katedra aplikované matematiky Přírodovědecké fakulty Masarykovy university v Brně, Janáčkovo nám. 2a, Brno forbel@math.muni.cz

103 ROBUST 2004 c JČMF 2004 NEPARAMETRICKÉ BAYESOVSKÉ ODHADY V KOZIOLOVĚ-GREENOVĚ MODELU NÁHODNÉHO CENZOROVÁNÍ Michal Friesl Klíčová slova: Funkce spolehlivosti, neparametrické bayesovské odhady, náhodné cenzorování, Koziolův-Greenův model, gama proces. Abstrakt: V příspěvku je odvozen neparametrický bayesovský odhad funkce spolehlivosti při Koziolově-Greenově modelu náhodného cenzorování, jako apriorní rozdělení kumulativní intenzity poruch se předpokládá gama proces. 1 Úvod Mezi bayesovskými metodami jsou jako neparametrické označovány ty, které počítají s apriorními rozděleními nikoli pro konečný počet parametrů určitého rozdělení, ale pro obvykle nekonečněrozměrné parametry, jako je např. distribuční funkce. Ferguson[2] představil jako apriorní model na prostoru pravděpodobnostních měr rozdělení Dirichletova procesu a od té doby byla zkoumána jako apriorní celá řada procesů(beta, gama, smíšené, zprava neutrální) s uplatněním v různých modelech analýzy dat o přežití či teorie spolehlivosti, včetně cenzorování. V následujícím textu se budeme věnovat odhadu funkce přežití v Koziolově-Greenově modelu náhodného cenzorování[7]. V tomto modelu je rozdělení cenzoru svázáno s rozdělením cenzorované veličiny a nelze proto použít tradiční odhady. Ještě předtím ale stručně přiblížíme princip neparametrických bayesovských metod, některá apriorní rozdělení a uplatnění těchto metod v analýze dat o přežití obecně. Z přehledných článků shrnujících tuto problematiku jmenujme[4] či[11]. 2 Neparametrická apriorní rozdělení Uvažujme pozorování X s hodnotami v měřitelném prostoru(x, A), jejichž rozdělení Q neznáme. Při parametrickém přístupu předpokládáme, že rozdělení Q je určitého typu, že pochází z určité úzké rodiny rozdělení parametrizovanékonečnýmpočtemparametrů,např.žejenormální, Q=Q µ,σ 2 = N(µ, σ 2 ).Vbayesovskéstatisticepovažujemeparametryzanáhodnéveličiny, apriorní informace o nich je vyjádřena apriorním rozdělením na množině možnýchhodnotparametrů(vuvedenémpříkladunar R + ). Při neparametrickém přístupu se v úvahách o Q neomezujeme, třídou možných rozdělení pozorování mohou být potenciálně všechna rozdělení na (X, A), neznámým parametrem je sama pravděpodobnostní míra Q. Pravděpodobnosti Q(A) jednotlivých množin z A považujeme za náhodné veličiny

104 94 Michal Friesl a celou náhodnou pravděpodobnost Q = (Q(A), A A) můžeme chápat jako náhodný proces indexovaný prvky z A. Apriorní informace o něm je popsána apriorním rozdělením na množině pravděpodobnostních měr, resp. jejich charakteristik, např. distribučních funkcí v případě pozorování s reálnými hodnotami. Asi nejznámějším neparametrickým apriorním rozdělením je rozdělení Dirichletova procesu[2]. Definice2.1.Řekneme,žeproces QjeDirichletůvsparametrem α=n 0 Q 0, kde n 0 R + a Q 0 jepravděpodobnostnímírana(x, A),pokudprolibovolný rozklad A 1,...,A k A, A i = X disjunktně,je (Q(A 1 ),..., Q(A k )) D(α(A 1 ),..., α(a k )), kde D značí Dirichletovo rozdělení. Značíme Q D(α). JeEQ(A i )=Q 0 (A i )avarq(a i )=Q 0 (A i )(1 Q 0 (A i ))/(n 0 +1),rozděleníprocesujetedysoustředěnokolempravděpodobnostnímíry Q 0,zatímco n 0 udávástupeňkoncentrace.dirichletůvprocespokrývávesmyslunosičeširokoutřídurozdělenína(x, A),nadruhoustranu Qjespravděpodobností1 diskrétnímrozdělením.dirichletovýmprocesemjenapř. Q(A)= p n δ Yn (A) (δ x značídiracovumírusoustředěnouvbodě x),kdebody Y 1, Y 2, X,na nichž je hodnota Q soustředěna, se generují jako náhodný výběr z rozdělení Q 0,atonezávislenapříslušnýchpravděpodobnostech p n = θ n j<n (1 θ j), n N,kde θ 1, θ 2,...jsounezávislésbetarozdělenímB(1, n 0 )[9].[2]ukazuje jinou volbu bodů a skoků. Mnohem širší třídou apriorních rozdělení pro rozdělení na X = R jsou procesy neutrální zprava [1]. O zprava neutrálním procesu hovoříme, když normalizované přírůstky distribuční funkce F(t) = Q(, t F(t 1 ), F(t 2 ) F(t 1 ),..., F(t n) F(t n 1 ) 1 F(t 1 ) 1 F(t n 1 ) jsounezávisléprolibovolná t 1 < t 2 < < t n.totéžmůžemevyjádřittaké pomocí příslušné kumulativní intenzity Λ(t) = ln(1 F(t)). Definice 2.2. Řekneme, že Q, resp. Λ je zprava neutrální proces, jestliže Λ je neklesající, zprava spojitý proces s nezávislými přírůstky a Λ( ) = 0, Λ( )=. Nemá-li proces Λ nenáhodnou složku, s pravděpodobností 1 intenzita Λ opět přísluší diskrétnímu rozdělení. Tak jak intenzita Λ generuje na(r, B(R)) míru,značímestručněnapř.λ(s, t)=λ(t ) Λ(s),Λ{t}=Λ(t) Λ(t ), apod. Speciálním případem zprava neutrálního procesu je gama proces. Definice 2.3. Mají-li přírůstky zprava neutrálního procesu Λ gama rozdělení, Λ(s, t) G(n 0, n 0 Λ 0 (s, t)),kde n 0 >0aΛ 0 jenějakákumulativníintenzita, nazvemehogamaprocesemaznačímeλ G(n 0,Λ 0 ).

105 Neparametrické bayesovské odhady 95 Parametry n 0 aλ 0 majípodobnývýznamjakoparametrydirichletova procesu,jeeλ(s, t)=λ 0 (s, t),varλ(s, t)=λ 0 (s, t)/n 0.RozdělenímG(n 0,0) rozumíme rozdělení degenerované v 0. Podobně jako Dirichletův proces, i gama proces může být definován na obecném prostoru, nejen na(r, B(R)). Podívejme se nyní, jak vypadají neparametrické bayesovské odhady odpovídající uvedeným apriorním procesům. Jako pozorovaná data uvažujme jednakúplnýnáhodnývýběr X 1,..., X n zrozdělení Qajednakvýběrscenzorováním.Připouštímetedy,že i-týčas X i můžebýtzpravacenzorován veličinou Y i naněmnezávislou.skutečněpozorovanéhodnotypaktvořínáhodný výběr dvojic data=(z 1, δ 1 ),...,(Z n, δ n ), kde Z i =min(x i, Y i )aδ i = I [Xi Y i] (1) jsoupozorovanýčas(skutečnépozorování X i nebočascenzorování)aindikátorcenzorování.značmejako N t =#{i, X i > t},resp. N t =#{i, Z i > t}, počet pozorování překračujících t. Je-liapriornímrozdělením QDirichletůvproces D(α), α=n 0 Q 0,pak aposteriornírozdělením(q X 1,...,X n )jeopětdirichletůvproces, D(α+ δxi ).Vpřípaděreálnýchpozorovánítaknapř.přikvadratickéztrátové funkci máme jako bayesovské odhady distribuční funkce F(x) = Q(, x, resp. střední hodnoty rozdělení Q, příslušné aposteriorní střední hodnoty F(x)= (α+ δ Xi )(, x n 0 + n = n 0F 0 (x)+nf n (x) n 0 + n, Ê Q= n 0EQ 0 + n X, n 0 + n kde F 0 jedistribučnífunkcepříslušná Q 0 a F n jeempirickádistribučnífunkce pozorování. V případě cenzorovaných pozorování(1) už konjugovanost systému Dirichletových měr neplatí, aposteriorní rozdělení spadá mezi beta- Stacyovyprocesy[12].Odhadfunkcespolehlivosti S=1 F jealedobře známamátvar[10] Ŝ(t)= n 0S 0 (t)+n t n 0 + n x M 0 t n 0 S 0 (x )+N(x ) u(x) n 0 S 0 (x )+N x kde S 0 (t) = 1 F 0 (t), u(t) je početnecenzorovanýchpozorovánívokamžiku tamt 0 jsouokamžikys(alespoňjedním)cenzorovanýmpozorováním, M j t = {x t, i Z i = x, δ i = j}, j =0,1.Dokoncerozdělení Y i se prorůzná imohoulišitamůžejíttakéodegenerovanénáhodnéveličiny, cenzorováníčasem.přizmenšujícísemířepočátečníinformace n 0 0je F F n aêq Xapodobněvpřípaděcenzorovánídostanemevlimitě neparametrickýkaplanův-meierůvodhad, Ŝ(t) x M (1 u(x)/n(x )). t 1 Podobná konjugovanost platí i pro zprava neutrální procesy, ve třídě zprava neutrálních procesů(při daných hodnotách cenzorů) zůstaneme i v případě cenzorování, viz[3]. Zajímavou vlastností je, že i když proces kumulativní intenzity Λ nemá za apriorního rozdělení skoky v pevných bodech, v aposteriorním rozdělení se takové skoky v okamžicích pozorování vždy objeví. Ve třídě zprava neutrálních procesů zůstaneme dokonce i při jiném cenzorování,např. X i Y i.zápisodhadůjevobecnéšířikomplikovaný,uveďme

106 96 Michal Friesl aspoňspeciálnípřípadgamaprocesu.je-liapriorněλ G(n 0,Λ 0 ),kdeλ 0 je spojitá, a jsou-li pozorování navzájem různá, pak ( n0 + N ) n0λ t 0(t) ( ni +1 ) n0λ0(t)ln((n i +2)/(n i +1)) F(t)=1, n 0 + N t +1 n i ln((n i +1)/n i ) i,x i t kde n i = n 0 + N Xi.AposteriornírozděleníΛalegamaprocesemnení.Vpřípaděcenzorování(1)má(při Z i navzájemrůznýchaspojitéλ 0 )odhadopět stejný tvar, součin nyní probíhá pouze přes necenzorovaná pozorování. Existuje a používá se řada dalších apriorních rozdělení, např. směsi Dirichletových či gama procesů nebo naopak Dirichletův proces, jehož parametr je směsí rozdělení. Jiné apriorní procesy mohou vést, na rozdíl od popsaných, ke spojitým rozdělením, nebo přímo modelovat náhodné hustoty či(nekumulativní) intenzity poruch. V určitých situacích může být vhodnější zabývat semístokumulativníintenzityλjejívariantouλ (x)= 0,x (df(t)/s(t )), x >0,viz[5]. 3 Odhady v Koziolově-Greenově modelu V Koziolově-Greenově modelu se u pozorování(1) předpokládá, že distribuční funkce Fdobživota X i jesdistribučnífunkcí F Y časůcenzorování Y i svázána podmínkou1 F Y =(1 F) γ snějakoukonstantou γ >0,tzn.žekumulativní intenzityjsousiúměrné,λ Y = γλ.rozdělení X i a Y i takmajíspolečný parametraivpozorovánísamotnécenzorujícíveličiny(y i = tnebo Y i t) je obsažena informace o kumulativní intenzitě Λ. S tím uvedené příklady odhadů nepočítají. Podobný problém řeší v modelu konkurujících si rizik[8] zavedením vícerozměrného Dirichletova procesu. Budeme předpokládat, že parametry Λ a γ jsou při apriorním rozdělenínezávislé,λjegamaproces G(n 0,Λ 0 )arozdělení γmáhustotu π(γ), γ >0.Projednoduchostzápisubudemedálepředpokládat,žeΛ 0 jekumulativníintenzitaspojitéhorozdělení,žepozorování Z i jsounavzájemrůzná ajižuspořádanávzestupně.označmeještědálejakog 0 (a, b), a >0, b >0 rozdělenínar + shustotouamomentovouvytvořujícífunkcí f(x)= 1 x e ax e bx, x >0, M(θ)= ln(a/b) ln((a θ)/(b θ)), θ <min(a, b), ln(a/b) které vyplyne jako aposteriorní rozdělení skoků u Λ, a nakonec ( n ) n0λ 0 0(Z j 1,Z j) C j (γ)=, (2) n 0 + N Zj 1 (1+γ) ln n0+nz j (1+γ) n 0+N Zj (1+γ)+1 D j (γ)=, δ j=1 ln n0+nz j (1+γ)+1 n 0+N Zj (1+γ)+1+γ, δ j=0,

107 Neparametrické bayesovské odhady 97 kde N t stáleznačípočetpozorování Z j překračujících t,zanašichspeciálních předpokladůtedy N Zj = n j. Nyní můžeme zformulovat tvrzení o aposteriorním rozdělení parametrů. Přestože při apriorním rozdělení proces Λ nemá skoky v pevně daných bodech, v aposteriorním rozdělení takové skoky jsou, a to v bodech pozorování. Skutečnost, že rozdělení těchto skoků nezávisí(v našem případě) na konkrétních časech pozorování je dána homogenitou gama procesu jakožto Lévyova procesu(viz[3]). Tvrzení3.1.Je-liΛapriorněrozdělenajakogamaproces G(n 0, n 0 Λ 0 ),kde Λ 0 jeabsolutněspojitáfunkce,aγmáapriorníhustotu π(γ), γ >0,aje nezávislésλ,pakpřidanýchpozorováních(1)suspořádáním Z 1 < < Z n pro aposteriorní rozdělení platí (Λ data, γ) je rozdělení procesu s nezávislými přírůstky, přičemž pro (s, t) (Z i, Z i+1 ), i=0,...,n(volíme Z 0 =0, Z n+1 = )je (Λ(s, t) data, γ) G(n 0 + N s (1+γ), n 0 Λ 0 (s, t)) apro t=z i máλvtskoksrozdělením { G 0 (N Zi (1+γ), N Zi (1+γ)+1), δ i =1, (Λ{Z i } data, γ) G 0 (N Zi (1+γ)+1, N Zi (1+γ)+1+γ), δ i =0, (γ data)mározděleníshustotou ( n π(γ data) j=1 ) C j (γ)d j (γ) π(γ), γ >0. Důkaz. Aposteriorní rozdělení získáme postupnými aktualizacemi po jednotlivých pozorováních(z, δ). Každé takové pozorování zachycuje buď dvojici X= t, Y t,když Z= t, δ=1,nebo X > t, Y = t,když Z= t, δ=0. Naznačímedůkazaktualizacepoprvnímpozorovánípropřípadsδ=0,tj. výpočet aposteriorního rozdělení po pozorování dvojice X > t, Y = t. Zvolmelibovolnědělení0=t 0 < t 1 < < t k < sdělícímibodyrůznýmiod tanechť ijetenindex,pronějž t (t i 1, t i ).Postupujemevedvou krocích.nejprveurčímeaposteriornírozděleníveličin γa λ=(λ 1,...,λ k ), kde λ j = Λ(t j 1, t j ), j = 1,...,k,přidaném Y = t.jejichmomentová vytvořujícífunkcemávbodě(θ 0, θ 1,...,θ k )hodnotu M(t)=E(U Y= t)= 0 e γθ0 M (λ γ,y=t) (θ 1,..., θ k )π(γ Y = t)dγ, (3) U=e γθ0 e P λ jθ j.spočteme I(x)= x M(t)f Y(t)dt, x (t i 1, t i ),kde f Y značínepodmíněnouhustotu Y,aodtudpak M(t)=( 1/f Y (t))(di(t)/dt).

108 98 Michal Friesl Z definice podmíněné střední hodnoty máme I(x)= E(U Y)dP= U dp=e(u P(Y > x Λ, γ)) Y >x Y >x =E(Ue γλ(x) )=E (e γθ0 e λj(γ θj) e λi1(γ θi) e λi2θi ) e λjθj = 0 ( e γθ0 j<i j<i n 0 n 0 + γ θ j ) n0λ 0 j ( n 0 n 0 + γ θ i ) n0λ ( n0 ) n0λ 0 i2 (x) n0 ) n0λ 0 j π(γ) dγ n 0 θ i j>i( n 0 θ j 0 i1 (x) přiznačení λ 0 j =E λ j=λ 0 (t j 1, t j )apodobně λ 0 i1 (x)=λ 0(t i 1, x), λ 0 i2 (x)= Λ 0 (x, t i ).Vevýslednémvýrazupro M(t)(pozmíněnémzderivování)sipři srovnánís(3)přečtemehustotu π(γ Y = t)avytvořujícífunkci M (λ γ,y=t). Taserozpadánasoučinvytvořujícíchfunkcíveličin λ j,veličiny λ 1,..., λ k jsoutedypřidaném γ(a Y = t)nezávislé.kromě λ i jdeovytvořujícífunkce gamarozdělení,veličina λ i =Λ(t i 1, t i )mávytvořujícífunkcijakosoučet nezávislých veličin s rozděleními G(n 0 + γ, n 0 Λ 0 (t i 1, t)), G 0 (n 0, n 0 + γ) a G(n 0, n 0 Λ 0 (t, t i )). Ve skutečnosti popisuje tato trojice rozdělení veličin Λ(t i 1, t),λ{t}aλ(t, t i ). Nakonec přidáme ještě pozorování X > t, aktualizovaná aposteriorní hustotanapř.pro λ=(λ j, j i, λ i1, λ {t} =Λ({t}), λ i2 )aγbude π(λ, γ X > t, Y = t) P(X > t λ, γ, Y = t)π(λ, γ Y = t) =P(X > t λ, γ)π(λ, γ Y = t)=e (P j<i λj) λi1 λ {t} π(λ, γ Y = t). Vpřípaděsδ = 1bychomstejnýmpostupemnejprveurčilirozdělení parametrůpři X= tanásledněpřidali Y t.podobněbychomaktualizovali aposteriorní rozdělení při dalších pozorováních, do dělení bychom zařadili také všechny časy předchozích pozorování. V důkazu jsme využili, jak radí[6], konkrétního tvaru apriorního rozdělení. Obecnější důkazovou techniku, založenou na Lévyově míře neklesajícího procesu Λ, nabízí[1]. Ke správné aposteriorní hustotě ale vede i jednoduchý intuitivní přístup zkombinovat apriorní hustotu parametrů s věrohodnostní funkcí danou pozorováními. Do apriorní hustoty ovšem musíme pro (apriorně)nulovéveličiny λ {j} =Λ{t}, t=z j,formálnězapsat hustotu λ 1 {j} e n0λ {j}, λ{j} >0,jakožtohustotu gama rozděleníg(n 0,0).Máme tedy π(λ) λ λ0 j 1 j e n0λj λ 1 {j} e n0λ {j} a do věrohodnostní funkce s každým pozorováním přidáváme člen typu e P j i λj(1+γ) e P j<i λ {j}(1+γ) p i j>i

109 Neparametrické bayesovské odhady 99 propozorovánívčase t i,kde p i =1 e λ {i} upozorovánínecenzorovaného a p i =e λ {i} (1 e λ {i} γ )ucenzorovaného.přidaném γ rozeznámepak hustotu λasnadnozjistímeinormovacíkonstanty C j (γ)ad j (γ). Uveďme konečně tvar bayesovského odhadu funkce spolehlivosti pro dobu života při kvadratické ztrátové funkci, tj. aposteriorní střední hodnotu veličinyexp( Λ(t)). Tvrzení 3.2. Za předpokladů předchozího tvrzení máme pro funkci spolehlivosti S bayesovský odhad ( ( ) C j + (γ)d+ j )C (γ) i1 + (γ)c i2(γ)d i (γ) C j (γ)d j (γ) π(γ) dγ Ŝ(t)= j<i ( j i j>i ) ( ) C j (γ) C i1 (γ)c i2 (γ) D j (γ) π(γ) dγ t (Z i 1, Z i ),kde C i1 (γ),resp. C i2 (γ)jsoujako C i (γ)v(2),alesexponenty n 0 Λ 0 (Z i 1, t),resp. n 0 Λ 0 (t, Z i )ac +,resp. D + jsoujako Ca D,alesN t (1+ γ)+1místo N t (1+γ). Důkaz. Použijeme značení jako v důkazu předchozího tvrzení, ale s dělením 0=Z 0 < Z 1 < < Z n ast (Z i 1, Z i ).Počítáme [( ) ] Ŝ(t)=Ee Λ(t) =E E(e λj γ)e(e λ {j} γ) E(e λi1 γ), j<i kde všechny střední hodnoty rozumíme navíc jako podmíněné pozorováními (1), tj. při aposteriorním rozdělení. Ve výrazu uvedené střední hodnoty E(. γ) jsoupostupně C + j (γ)/c j(γ), D + j (γ)/d j(γ)ac + i1 (γ)/c i1(γ). Omezující předpoklady jsme zavedli jen z důvodu přehlednosti, v jejich uvolnění nám nic nebrání. Pokud např. připustíme skoky v apriorním odhadu Λ 0, pak v případě shody některéhopozorovánísbodem skokuse jakoaposteriornírozdělenískokuvtakovémboděmístorozděleníg 0 objeví rozdělení s hustotou úměrnou rozdílu gama hustot a místo normovací konstanty D(γ) rozdíl konstant C(γ). Podobně, lze dospět k aposteriorním rozdělením i v případě shod časů některých pozorování. V případě dvou cenzorovanýchpozorovánívestejnémčase t=t i toznamenávpříslušném dělícímboděčlene 2λ {i} (1 e λ {i} γ ) 2,kdyžbylaoběcenzorovaná,nebo e λ {i} (1 e λ {i} γ )(1 e λ {i} ),kdyžjednobylocenzorovanéajednonikoliv.tomupakodpovídajíinormovacíkonstanty,místo D i (γ)dostaneme ln (n0+2)(n0+2+2γ) (n 0+2+γ), resp. ln (n0+1)(n0+2+γ) 2 (n 0+1+γ)(n 0+2). Podobně můžeme uvážit i jiné typycenzorovanýchpozorováníjakojsou X= Y = tnebo X Y, Y= t. Podobný postup jako pro gama proces je možné uplatnit také pro jiná apriornírozdělení.např.vpřípaděapriorníhodirichletovaprocesu1 e Λ D(α) v normovacích konstantách vyjdou rozdíly digama funkcí. j

110 100 Michal Friesl Reference [1] Doksum K.(1974). Tailfree and neutral random probabilities and their posterior distributions. Ann. Probability 2, No. 2, [2] Ferguson T.S.(1973). A Bayesian analysis of some nonparametric problems.ann.statist.1,no.2, [3] Ferguson T.S., Phadia E.G.(1979). Bayesian nonparametric estimation basedoncensoreddata.ann.statist.7,no.1, [4] Ferguson T.S., Phadia E.G., Tiwari R.C.(1992). Bayesian nonparametric inference. In Current issues in statistical inference: essays in honor of D. Basu(Ghosh M., Pathak P.K., eds.), IMS Lecture Notes Monogr. Ser. 17, Inst. Math. Statist., Hayward, [5] Hjort, N.L.(1990). Nonparametric Bayes estimators based on beta processesinmodelsforlifehistorydata,ann.statist.18,no.3, [6] Kalbfleisch, J.D.(1978). Non-parametric Bayesian analysis of survival timedata,j.roy.statist.soc.ser.b40,no.2, [7] Koziol J.A., Green S.B.(1976). A Cramér-von Mises statistic for randomlycensoreddata.biometrika63,no.3, [8] Salinas-Torres V.H., Pereira C.A.B., Tiwari R.C.(2002). Bayesian nonparametric estimation in a series system or a competing-risks model. J.Nonparametr.Stat.14,No.4, [9] Sethuraman J.(1994). A constructive definition of Dirichlet priors. Statist.Sinica4,No.2, [10] Susarla V., Van Ryzin J.(1976). Nonparametric Bayesian estimation of survival curves from incomplete observations, J. Amer. Statist. Assoc. 71,No.356, [11] Walker S.G., Damien P., Laud P.W., Smith A.F.M.(1999). Bayesian nonparametric inference for random distributions and related functions. Withdiscussionandareplybytheauthors,J.R.Stat.Soc.Ser.BStat. Methodol.61,No.3, [12] Walker S., Muliere P.(1997). Beta-Stacy processes and a generalization ofthepólya-urnscheme.ann.statist.25,no.4, Poděkování: Tato práce vznikla za podpory výzkumného záměru MSM Adresa: Katedra matematiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni, Univerzitní 22, Plzeň friesl@kma.zcu.cz

111 ROBUST 2004 c JČMF 2004 ODHAD RIZIKOVĚ NEUTRÁLNÍ HUSTOTY ZALOŽENÝ NA CENÁCH EVROPSKÝCH OPCÍ Zdeněk Hlávka Klíčová slova: Oceňování opcí, rizikově neutrální hustota, metoda nelineárních nejmenších čtverců. Abstrakt: Cílem tohoto článku je navrhnout jednoduchý odhad rizikově neutrální hustoty založený na pozorovaných cenách evropských opcí. Navržená metoda je použita na ceny kupních opcí na index německého akciového trhu v lednu Úvod Vlastníkkupníopceevropskéhotypuzískávčase T částku(s T K) + = max(s T K,0),kde S T označujecenupříslušnéakcie(včase T)aKrealizačnícenupředemdohodnutouvčase t < T.Včase tlzecenu C t (K, T)takové opce,tj.právakoupitdanouakciivčase T zacenu K,zapsatjakostřední hodnotu zisku násobenou diskontním faktorem zohledňujícím bezrizikovou úrokovou míru r: + C t (K, T)=exp{ r(t t)} (S T K) + f(s T )ds T, (1) kde f( )jehustotanáhodnéveličiny S T.Hustota f( )odpovídajícípozorovaným cenám opcí se nazývá rizikově neutrální hustota(rnh). Zajímavá je závislost ceny opcí na realizační ceně. Jednoduše se dá ukázat, že cena evropské kupní opce jako funkce realizační ceny musí být kladná, klesající a konvexní. Ceny kupních opcí na index německého akciového trhu DAXvlednu1995jsougrafickyznázorněnynaobrázku1. Cena C t (K, T)kupníopceevropskéhotypu,jakofunkcerealizačníceny Kvpevnémčase taspevnoudobousplatnosti T,dovolujevyjádřitRNH f( )vnásledujícímtvaru[5]: 0 f(k)=exp{r(t t)} 2 C t (K, T) K 2. (2) Vyjádření(2) se často s úspěchem používá k odhadům RNH pomocí neparametrických jádrových odhadů[1],[2],[3]. Jiný zajímavý přístup založený na metodě neparametrických nejmenších čtverců a umožňující splnění všech požadovaných podmínek je navržen v článku[8]. Další parametrické i neparametrické metody jsou shrnuty v článku[6].

112 102 Zdeněk Hlávka Obrázek1:Cenykupníchopcívzávislostinarealizačníceněanadoběsplatnostivlednu1995(levýobrázek)acenyopcívzávislostinarealizačníceně pro nejkratší dobu splatnosti 17. ledna 1995( ). Důležitou aplikací odhadu RNH je studium rozdílů mezi RNH a skutečnouhustotouveličiny S T,tj.studiumvztahuinvestorůkriziku,např.[2]. Předpokládáme-li totiž rizikově neutrální chování investorů, pak RNH přesně odpovídáhustotěnáhodnéveličiny S T.Vpraxiseukazuje,žetentopředpoklad bývá porušen zvláště pro opce, které umožňují získat malý zisk s velice malým rizikem nebo, na druhé straně, velký zisk s velkým rizikem. Cílem tohoto článku je konstrukce odhadu RNH, který bude možné jednoduše zobecnit i pro heteroskedastická a závislá data. Dalším cílem je jednoduchá konstrukce konfidenčních intervalů založená na asymptotické normalitě získaných odhadů. Navrženou metodu použijeme na ceny opcí na index německého akciového trhu v lednu Označení a jednoduchý lineární model Označme i-toupozorovanoucenu C i = C t,i (K i, T).Symbol K i budeoznačovat realizační cenu odpovídající i-tému pozorování. V našich datech se vyskytuje pouze malé množství rozdílných realizačních cen, zatímco počet pozorování je mnohonásobně větší. Proto je užitečné zavést následující označení. Nechť C=(C 1,...,C n ) označujevektorpozorovanýchcenopcí.předpokládejme, že vektor odpovídajících realizačních cen má následující strukturu: K= K 1 K 2.. K n = k 1 1 n1 k 2 1 n2.. k p 1 np,

113 Odhad rizikově neutrální hustoty založený na cenách evropských opcí 103 kde k 1 < k 2 < < k p, n j = n i=1 I(K i= k j )a1 n označujesloupcový vektor jedniček délky n. Propevnýčas tapevnoudobudosplatnosti τ= T t,nynívyjádříme i-toupozorovanoucenuopce,odpovídajícírealizačníceně K i,jako C t,i (K i, T)=µ(K i )+ε i, (3) kde ε i jsounezávisléstejněrozdělenénáhodnéveličinysrozdělením N(0, σ 2 ). 2.1 Existence a jednoznačnost V našich datech i ve skutečném životě pozorujeme místo spojitých funkcí pouze několik funkčních hodnot. Proto formulujeme podmínky kladené na cenuopcípouzeprodiskrétnípřípad,kdyjsoucenyopcí C(K i ), i=1,...,n pozorovanépouzeproněkolikrůznýchrealizačníchcen k 1 < < k p, p n. Ceny opcí C( ) splňují následující podmínky: 1. C(k i ) 0, i=1,...,p, 2. k i < k j implikuje C(k i ) C(k j ), 3. k i < k j < k l implikuje 1 C (1) k i,k j C (1) k j,k l 0, kde C (1) k i,k j = {C(k i ) C(k j )}/{k i k j }označujepřirozenýodhadprvníderivacefunkce C( ). Regresnífunkce Ĉ je jednoznačněurčenasvýmifunkčnímihodnotami vbodech k 1,..., k p ajejídruhédiferenceaproximujírnh.podobnějakov[7] budeme považovat soubor funkcí C, splňujících podmínky 1 3, za podmnožinu p-rozměrnéhoeuklidovskéhoprostoru.regrese Ĉsplňujícípodmínky1 3je nejbližší bod množiny C k pozorovanému C. Množina C funkcí splňujících podmínky 1 3 má následující vlastnosti: C je uzavřená v topologii indukované Euklidovskou metrikou se vzdálenostmi d(f, g)= n i=1 {f(k i) g(k i )} 2, Cjekonvexní,t.j.,pokud f, g Ca0 a 1,pak af+(1 a)g C. Lemma1Je-li Ĉregresefunkce C( )na K 1,..., K n zapodmínek1 3ajsouli aabkonstantytakové,že a C(k i ) b, i=1,...,p,pak a (k p k 1 ) Ĉ(k i ) b+(k p k 1 ). Důkaz:Nenímožné,aby Ĉ(k i)bylomenšínež anebovětšínež bprovšechna k i,protoževtakovémpřípaděbykezmenšenísoučtučtvercůstačiloposunout celou regresní funkci. Meze nyní implikuje podmínka 3. Věta1Existujeregresnífunkce Ĉ=argmin f C d(c, f),splňujícípodmínky 1 3.

114 104 Zdeněk Hlávka β 0 +3β 1 +2β 2 + β 3 = µ 1 β 0 + β 1 + β 1 + β 2 = µ 2 β 0 + β 1 = µ 3 2 β 0 = µ 4 Obrázek 2: Grafické znázornění dummy proměnných pro ceny kupních opcí. Důkaz:Lemma1říká,že Ĉpatřídomnožiny C M,ohraničenézespodu a (k p k 1 )azeshora b+(k p k 1 ).Díváme-lisenafunkcejakonabody v Euklidovském prostoru, je jasné, že spojitá funkce d(m, f) nabývá svého minima na uzavřené a omezené množině C. Poznámka1Předpokládejme,že CjekonvexnímnožinafunkcíaCjedaná funkce.je-li Ĉ=argmin f C d(f, C),pakprokaždou f Cplatí n {C(K i ) Ĉ(K i)} {Ĉ(K i) f(k i )} 0. (4) i=1 Existujenejvýšejednafunkce Ĉsplňující(4). Důkaz:VizVěta1.3.1v[7]. DůsledekRegresnífunkce Ĉsplňujícípodmínky1 3existujeajejednoznačně určená. Důkaz:Tvrzeníplynezvěty1azpoznámky Lineární model Označmestředníhodnotucenyopcepřidanérealizačníceně k j jako µ j = EC(k j ).Nynívyjádřímepodmíněnéstředníhodnoty µ j, j=1,...,p,pomocí koeficientů β i, i=1,...,(p 1)jako µ p = β 0, µ p 1 = β 0 + β 1, µ p 2 = β 0 +2β 1 + β 2,

115 Odhad rizikově neutrální hustoty založený na cenách evropských opcí 105 µ p 3 = β 0 +3β 1 +2β 2 + β 3,. µ 1 = β 0 +(p 1)β 1 +(p 2)β 2 + +β p 1. Na obrázku 2 je tento jednoduchý lineární model graficky znázorněn pro čtyři realizační ceny. Zobrázku2jetakédobřevidětinterpretaceregresníchkoeficientů β j. Parametr β 0 jeprůměrnácenaopcevbodě4.podlepodmínky1musíbýt tentokoeficientkladný. β 1 jerozdílmezicenamiopcívbodech4a3apodle podmínky2musíbýttentokoeficienttakékladný.dalšíkoeficient, β 2,můžemepopsatjakozměnuprvníderivacevbodě3atedyjakoodhaddruhé derivacevtomtobodě.podobně, β 3 interpretujemejakoodhaddruhéderivacefunkce C(K)vbodě2.Podlepodmínky3musíbýt β 2 i β 3 většínež nula.podmínka3znamenátaké,že β 1 + β 2 + β 3 1. Interpretace koeficientů nakreslených na obrázku 2 je zjednodušená díky předpokladu, že vzdálenost sousedních realizačních cen(bodů na horizontální ose) se rovná jedné. V praxi tento předpoklad nebývá splněn a pro zachování interpretaceparametrů β j musímepoužítmaticiexperimentu 1 1 p 1 p 1 1 p p 2 p 1 2 p =.., (5) 1 p 2 p p 2 p p 1 p kde i j =max(k j k i,0)označujekladnoučástrozdílumezi k i a k j,t.j., i-touaj-tou(1 i j p)nejmenšípozorovanouhodnotourealizačníceny. Vektor průměrných cen opcí µ lze zapsat pomocí parametrů β jako µ 1 µ 2. µ p = µ= β= β 0 β 1. β p 1. (6) Podmínky 1 3 můžou být vyjádřeny pomocí parametrů lineárního modelu(6).postačujepředpokládat,že β i >0, i=0,...,p 1a p 1 j=2 β j 1. 3 Nelineární metoda nejmenších čtverců Kvůli snadnějšímu výpočtu je výhodná následující reparametrizace. Parametry β i, i=0,...,p 1,nahradímeparametry ξ j, j=0,...,pnásledujícím způsobem β 0 (ξ) = exp(ξ 0 ),

116 106 Zdeněk Hlávka β 1 (ξ) =.. β p 1 (ξ) = exp(ξ 1 ) p j=1 exp(ξ j), exp(ξ p 1 ) p j=1 exp(ξ j). Rovnost p 1 exp(ξ p ) exp(ξ j ) j=1 1 p 1 =1 β j (ξ) ukazujevýznamparametru ξ p.pokudbybyltentoparametrroven, pakby p 1 j=2 β j(ξ) = 1.Většíhodnotytohotoparametrubyznamenaly, že pozorované realizační ceny nepokrývají celý nosič hustoty RNH. j=1 3.1 Inverzní transformace parametrů modelu Při výpočtu je užitečné vědět, jak lze spočítat hodnoty parametrů ξ ze zadaných parametrů β. Lemma2Splňuje-livektor β=(β 1,..., β p ) podmínku β p =1 p 1 i=1 β i, pakodpovídajícívektor ξ=(ξ 1,..., ξ p ) splňujesystémrovnic ( β1 p I p ) expξ = Aexp ξ =0, (7) kde1 p je p-rozměrnývektorjedničekai p je(p p)jednotkovámatice.dále platí,žerank A=p 1.Systém(7)mánekonečněmnohořešení,kterámohou býtvyjádřenajakoexp(ξ)=(a A I p )z,kde A značízobecněnouinverzi matice Aakde zjelibovolnývektorzr p takový,ževýraznapravéstraně je kladný. Důkaz:Vztah(7)ahodnostmatice Alzeodvoditzdefinice β(ξ)použitím jednoduché algebry(řádkové součty matice A se rovnají nule). Řešení systémurovnic(7)plynenapř.zvětyiv.18v[4]. Zbýváužjenomvolbavhodnépseudoinverze A,tj.,volbavhodného vektoru zvlemma2. Lemma3Hodnostmatice A A I p je1.ztohoplyne,žejakékoliřešení systémurovnic(7)jenásobkemsloupcovéhosoučtumatice A A I p.vektor zvlemma2můžebýtzvolenjako z= ±1 p,kdeznaménkojezvolenotak, aby získané řešení bylo kladné. Důkaz: Z definice pseudoinverzní matice víme, že AA A A=A(A A I p )=0. (8) Lemma2říká,žerank A=p 1.Vztah(8)implikujerank(A A I p ) 1. Jelikožzřejmě A A =I p,tedy0 rank(a A I p )=1. 1

117 Odhad rizikově neutrální hustoty založený na cenách evropských opcí Obrázek 3: Porovnání odhadu bez a s podmínkami 1 3. Odshora: odhad závislosti cen opcí na realizační ceně a odhady první a druhé derivace. Kupní opcenadax17.ledna Algoritmus Navržený algoritmus se skládá z těchto kroků: získánípočátečníhoodhaduˆβ S,např.pomocíizotonickéregrese[7]použité na odhady první derivace získané metodou v odstavci 2.2, transformacepočátečníhoodhadu ˆβ S napočátečníodhadparametru ˆξ S metodoupopsanouvodstavci3.1, minimalizacesoučtučtvercůazískáníodhaduparametrůˆξaˆβ= β(ˆξ) popsaných v odstavci 3 numerickými metodami. 4 Aplikace Z obrázku 1 je dobře vidět, že opce se obchodují pouze pro několik realizačních cen. Pokud se omezíme pouze na nejkratší dobu splatnosti, dostaneme graf napravéstraně,kdepozorujeme410obchodůpouzepro p=12různých realizačních cen pravidelně rozmístěných mezi 1925DM a 2300DM. Pouze osm obchodů přitom proběhlo s opcemi s realizační cenou nižší než 2000DM. Použitím navržené metody a aplikací algoritmu popsaného v odstavci 3.2 získáme odhady nakreslené na obrázku 3. Horní graf obsahuje pozorované ceny opcí, odhad ceny opcí pomocí lineárního modelu bez jakýchkoliv omezení a odhad ceny opcí splňující podmínky 1 3. Na tomto grafu oba odhady téměř splývají.

118 108 Zdeněk Hlávka Prostřední a spodní graf na obrázku 3 ukazují postupně odhady první a druhé derivace. Odhad nesplňující podmínky 1 3 je označen tmavší čarou ajezřejmé,žetadyseobaodhadyjižveliceliší.největšírozdílypozorujeme pro odhad druhé derivace(rnh) pro realizační ceny nižší než 2000DM. Tojezpůsobenotím,ževtétooblastimámekdispozicipouzemalýpočet pozorování. 5 Závěr Zobrázku3jezřejmé,žeignorovánípodmínek1 3můževéstkvelicešpatným odhadům derivací regresní funkce, zvláště pro malý počet pozorování. Proto je důležité zabývat se metodami, které tyto podmínky umožní splnit. Výhodou navržené metody je i její jednoduchost, která umožňuje snadnou konstrukci konfidenčních intervalů a další zobecnění pro korelovaná data nebo pro ceny prodejních opcí. Reference [1] Aït-Sahalia Y., Lo A.W.(1998). Nonparametric estimation of state-price densities implicit in financial asset prices. Journal of Finance 53, [2] Aït-Sahalia Y., Lo A.W.(2000). Nonparametric risk management and implied risk aversion. Journal of Econometrics 94, [3] Aït-Sahalia Y., Wang Y., Yared F.(2000). Do option markets correctly price the probabilities of movement of the underlying asset?. Journal of Econometrics 102, [4] Anděl J.(1985). Mathematical statistics(in Czech). SNTL/Alfa, Prague. [5] Breeden D., Litzenberger R.(1978). Prices of state-contingent claims implicitinoptionprices.journalofbusiness51, [6] Jackwerth J.C.(1999). Option-implied risk-neutral distributions and implied binomial trees: a literature review. Journal of Derivatives 7, [7] Robertson T., Wright F.T., Dykstra R.L.(1988). Order restricted statistical inference. Wiley, Chichester. [8] Yatchew A., Härdle W.(2004). Nonparametric state price density estimation using constrained least squares and the bootstrap. Journal of Econometrics, to appear. Poděkování: Děkuji MŠMT ČR za podporu projektu 1K04018 Dynamické semiparametrické a neparametrické modely s aplikacemi ve financích programu Podpora začínajících pracovníků výzkumu (1K) a výzkumnému záměru MSM Adresa: Z. Hlávka, Karlova Univerzita v Praze, Matematicko-fyzikální fakulta, Katedra pravděpodobnosti a matematické statistiky, Sokolovská 83, 18675Praha8 hlavka@karlin.mff.cuni.cz

119 ROBUST 2004 c JČMF 2004 DVOUROZMĚRNÁ ROZDĚLENÍ CHARAKTERISTIK SFÉROIDŮ; EXTRÉMY A STEREOLOGIE Daniel Hlubinka Klíčová slova: Stereologie sféroidů, výběrový extrém, dvourozměrná rozdělení, normalizační konstanty. Abstrakt: V článku popíšeme dvourozměrné modely pravděpodobnostních rozdělení vhodné pro parametrickou a semiparametrickou analýzu extrémů sféroidů pomocí stereologických nástrojů. Ke stabilitě oblasti přitažlivosti maxim při stereologické transformaci potřebujeme určitou ekvivalenci chování chvostů. Náš článek věnujeme popisu konstrukce vhodných pravděpodobnostních modelů splňujících požadovanou ekvivalenci. Úvod Stereologie je matematická discipína zabývající se rekonstrukcí vlastností prostorových objektů na základě jejich projekcí či řezů nižší dimenze. Aplikace statistiky ve stereologii jsou významné například v materiálových vědách. Typickou ukázkou je zkoumání mikroskopických trhlin v kovech, které lze pozorovat pouze pomocí řezu materiálu, takzvaných profilů. Specifickým problémem zde je výzkum extrémně velkých, či extrémně deformovaných částic. Dlouhou historii má takzvaný Wicksellův problém, viz[15] a[16]. V neprůhledném materiálu se uvažují malé kulové částice, jejichž poloměr je spojitou náhodnou veličinou. Na řezu materiálem lze pozorovat kružnice, jejichž poloměr má hustotu rozdělení danou takzvanou Wicksellovou transformací. Na základě odhadnuté hustoty poloměrů kružnic odhadujeme hustotu rozdělení poloměrů původních částic. Zobecnění koulí na jiné typy částic nemusí vést k řešitelnému problému. Běžným zobecněním je přechod od koulí ke zploštěným(ve tvaru čočky) či protáhlým(ve tvaru doutníku) sféroidům. Ty jsou charakterizované tím, že mají pouze dvě různé délky poloos, u zploštěných sféroidů jsou stejné dvě delší(hlavní) poloosy, u protáhlých jsou naopak stejně dlouhé dvě kratší(vedlejší) poloosy. Řešení tohoto problému lze najít například v článcích[2],[3]. Uvedené články obsahují také zdůvodnění, proč nelze uvažovat zcela obecné sféroidy. V posledních letech se začala v souvislosti se stereologií rozvíjet oblast stereologie extrémů. První na řadě byl pochopitelně Wicksellův problém, jehožzkoumánílzenaléztnapříkladv[4],čivsérii[10],[11],[12],[13].otázka zní, jak na základě pozorování extrémně velkých kružnic na řezu materiálem získáme představu o extrémech poloměrů původních koulí.

120 110 Daniel Hlubinka V následujícím příspěvku se budeme zabývat stereologickým problémem extrémůsféroidů.navazujemezdenapráce[6],[7]a[1],kdebyldanýproblém postupně studován. Vzhledem k rozsahu článku se omezíme na popis vhodných pravděpodobnostních modelů. Začneme připomenutím hlavních výsledků ze stereologie a teorie výběrových extrémů. Poté ukážeme, že za určitých podmínek stejnoměrnosti(ekvivalence chvostů) lze dokázat shodu oblasti přitažlivosti maxim pro sféroidy a jejich řezy až na jejich případný parametr, jehož změna je ovšem jednoznačně dána. Několik vhodných konstrukcí dvourozměrných pravděpodobnostních rozdělení splňujících podmínku stejnoměrnosti je předmětem druhé, hlavní, části příspěvku. 1 Stereologie a extrémy Připomeňme základní pojmy. Obecný sféroid je částice charakterizovaná třemi poloosami o různé délce. Ve stereologii se však uvažují dvě uzší třídy sféroidůatozploštěné aprotáhlé.vnašemčlánkuseomezímejenomna zploštěné sféroidy, analýza protáhlých je dosti podobná. Náhodný zploštěný sféroid je charakterizován dvěma stejně dlouhými hlavními poloosami, zde značenými X a jednou kratší poloosou V. Přednost se dává charakterizaci pomocívelikosti Xatvaru,kterýjedefinovánjako T= X 2 /V 2 1.Triviálně tvar T=0určujekouli,čímvětšímátvarhodnotu,tímploššísféroidje. Řezem náhodného sféroidu je náhodná elipsa s hlavní poloosou Y a tvarem Z= Y 2 /W 2 1,kde Wjedélkavedlejšípoloosy.Prořezsféroiduvždyplatí X Y a T Z. Věta 1.1. Předpokládejme, že existuje sdružená hustota g(x, t) vektoru(x, T). Za předpokladu isotropního rozložení sféroidů v daném materiálu lze odvodit sdruženouhustotu f(y, z)velikostiatvaruřezu.jedána f(y, z)= y 1+z 2M ω η y z g(x, t)dtdx t 1+t t z x2 y 2, (1) kde M je polovina průměrné projekční velikosti v populaci částic. Mějme na paměti, že částice jsou v materiálu prostorově náhodně orientované, v případě isotropního modelu jde o rovnoměrné rozdělení orientace. Teorie výběrových extrémů je velmi rozvinutá oblast asymptotické statistiky, viz například[5]. Rozhodli jsme se zkoumat extrémy velikosti, případně tvaru, sféroidu podmíněné vždy zbývající charakteristikou, tedy vlastně extrémy jednorozměrných rozdělení. Modely pro vícerozměrné extrémy jsou, kvůli problémům s uspořádáním, hůře aplikovatelné. Jejich popis lze najít napříkladv[8]. Připomeňme, že existují tři jednorozměrná rozdělení stabilní vůči maximům a to rozdělení Fréchetovo, Weibullovo a Gumbelovo s distribučními funkcemi(postupně)

121 Dvourozměrná rozdělení charakteristik sféroidů 111 exp( v α ), v 0, α >0 Λ i = exp( ( v) α ), v 0, α >0, (2) exp( e v ), v R, kde i = 1, 2, 3 pro Fréchetovo, Weibullovo a Gumbelovo rozdělení. Dále připomeňme, že náhodná veličina U patří do oblasti přitažlivosti maxim pro Λ i,existuje-liposloupnostnormalizačníchkonstant (a n, b n )taková,žepro výběrovýextrém U (n) platíp[(u (n) b n )/a n x] Λ i (x)pro nrostoucí nade všechny meze. Věta 1.2. Předpokládáme-li pro distribuční funkci K existenci hustoty k, pakpostačujícípodmínkouproto,aby K MDA(Λ i )je k(xs) lim s k(s) = x (α+1), lim sց0 lim sրω x >0, ω=+,fréchetovamda k(ω xs) k(ω s) = xα 1, x >0, ω <+ WeibullovaMDA (3) k(s+xβ(s)) =e x, x R GumbelovaMDA k(s) kde ω=sup{x:k(x) >0.Pomocnáfunkce βmůžebýtvolenazfunkcepřežití ω x β(x)= 1 K(t)dt. 1 K(x) 2 Stabilita oblasti přitažlivosti maxim Označme si pro potřeby následujícího textu g x (t)ag t (x)jsouprocharakteristikysféroidupořaděpodmíněnéhustotytvaru T přidanévelikosti X = xanaopakvelikostipřidaném tvaru. f y (z)and f z (y)jsoudefinoványpodobnějako g x a g t ovšemproprofily. g 1 (x), g 2 (t), f 1 (y), f 2 (y)jsoumarginálníhustotypořaděvelikostiatvaru sféroidu a profilu. Uveďme nyní výsledek umožňující zkoumání extrémů sféroidů na základě pozorování extrémů jejich řezů. K dispozici máme následující Věta 2.1. [Stabilita MDA] Mějme sdruženou hustotu g(x, t) rozdělení velikosti a tvaru sféroidu. Pak 1. Pokudpodmíněnáhustotatvarupřidanévelikosti g x (t)splňujeněkterouzpodmínek(3)stejnoměrněvxpakoběhustoty,podmíněnáhustotatvaruřezupřidanévelikostiřezu f y (z)amarginálníhustotatvaru řezu f 2 (z),splňujístejnoupodmínku.parametrsezměnína γ= αpro Fréchetovo rozdělení a γ = α + 1/2 pro Weibullovo.

122 112 Daniel Hlubinka 2. Pokudpodmíněnáhustotavelikostipřidanémtvaru g t (x)splňujeněkterouzpodmínek(3)stejnoměrněvx,aα >1proFréchetovorozdělení pak obě hustoty, podmíněná hustota velikosti řezu při daném tvaru řezu f z (y) a marginální hustota velikosti řezu f 1 (y), splňují stejnou podmínku.parametrsezměnína γ= α 1proFréchetovorozdělení a γ= α+1/2proweibullovo. Pozastavme se nad požadavkem stejnoměrnosti. Podstatné zde je, že všechna podmíněná rozdělení mají stejnou oblast přitažlivosti maxim, navíc limitní rozdělení mají stejný parametr a rychlost konvergence levých stran v(3) nezávisí na podmínce. Co nás k takovému požadavku vede? Nejprve si uvědomme, že pozorujeme-li profil sféroidu o dané velikosti a tvaru, pak velikost i tvar sféroidu mohou být libovolné větší hodnoty než napozorované. Jinými slovy, podmiňujeme-li pozorovaným tvarem(velikostí) profilu, pak do těchto pozorování mohou přispívat všechny sféroidy s nejméně tak velkým tvarem(velikostí). Chceme-li něco říci o extrémech profilů, musíme uvažovat u extrémů tvaru(velikosti) sféroidů v nějakém smyslu stejné chování vůči podmínce velikosti(tvaru). 3 Modely s ekvivalentními chvosty K sestrojení vhodného dvourozměrného rozdělení můžeme použijeme cestu kopulí, nebo cestu integrace. 3.1 Kopule Cesta kopulí v našem případě propojuje dvě marginální hustoty do hustoty dvourozměrného náhodného vektoru pomocí funkce zvané kopule. Konstruujeme G(x, t)=c ( G 1 (x), G 2 (t) ) g(x, t)=g 1 (x)g 2 (t) 2 x t C( G 1 (x), G 2 (t) ) kdekopule C:[0,1] 2 [0,1]jevhodnádiferencovatelnáfunkce.Vtakovém případě tedy začínáme dvěma marginálními rozděleními, pro velikost a pro tvar,azávislostmezi Xa T,tedyipožadovanáekvivalencechvostůjedána volbou kopule. Uvažujme kopule konstruované pomocí funkce C, jejíž řezy jsou dány kvadratickou či kubickou funkcí druhého argumentu. Kopuli ve tvaru C(u, v)=uv+ ψ(u)v(1 v), kde ψ:[0,1] Rjeabsolutněspojitá, ψ (u) 1a ψ(u) u (1 u), nazýváme kopulí s kvadratickými řezy. Kopule s kubickými řezy má tvar C(u, v)=uv+ ψ(v)u(1 u) 2 + ξ(v)u 2 (1 u),

123 Dvourozměrná rozdělení charakteristik sféroidů 113 kde ψa ξjsouopětabsolutněspojitéa1+ψ (v)(1 4u+3u 2 )+ξ (v)(2u 3u 2 ) 0. Již z tvaru kopulí je zřejmé, že zásadní roli pro ekvivalenci chvostů hrají funkce ψaξ.shrňmesitytopředpokladydotvrzení. Věta 3.1. Nechť je sdružená hustota g(x, t) dána marginálními hustotami g 1 (x)ag 2 (t)akopulí C.Pak 1. Je-li Ckopuleskvadratickýmiřezyanavíc ψ (u) λ <1,pakpro model g x (t)=g 2 (t) [ 1+ψ ( G 1 (x) ) [1 2G 2 (t)] ] platí ekvivalence chvostů. 2. Je-li Ckopuleskubickýmiřezyanavíc pak pro model 1+2ψ (v) ξ (v) λ >0, v [0,1] g x (t)=g 2 (t) [ 1+ψ ( G 1 (x) )( 1+G 2 (t) ) ξ ( G 1 (x) ) G 2 (t) +3 { ψ ( G 1 (x) ) + ξ ( G 1 (t) )} G 2 (t) ( 1 G 2 (t) )] platí ekvivalence chvostů. Uvedenávětaplatísamozřejměisezaměněnýmisymboly xat.důkaztéto věty se provádí ověřením podmínek(3) z věty 1.2, stejnoměrnost v podmínce jezaručenapožadavkyna ψa ξ. 3.2 Stochastická jádra Cesta integrace vede přes podmíněnou strukturu a jedno marginální rozdělení. Hustota dvourozměrného náhodného vektoru je pak určena g(x, t)= g x (t)g(x)dx, R kde g x (t)jehustotapros.v. xajdeozobrazeníměřitelnévx,tedystochastickéjádro.lzetéždefinovatopačně g(x, t)= g t (x)g(t)dt.vtomto případě tedy rovnou popisujeme závislost zkoumané proměnné na podmínce a přidáváme marginální rozdělení podmiňovací veličiny. Vezměme několik typů parametrických tvarů chvostů, kde parametr závisí na podmínce a zkoumejme, jak moc mohou dané parametry na podmínce záviset. Zejména se podíváme na rozdělení s polynomickými chvosty s nosičem shora omezeným i neomezeným a na rozdělení s exponenciálními chvosty se shora neomezeným nosičem. Označme symbolem h k pro dvě hustoty h, k a jejich distribuční funkce H, Kfakt,že lim x ω ω x h(y)dy 1 H(x) ω x k(y)dy=lim x ω1 K(x) =1.

124 114 Daniel Hlubinka Nyní můžeme shrnout do následující věty: Věta 3.2. Uvažujme sdružené rozdělení g(x, t) získané vyintegrováním jádra podmíněnýchhustot g t (x)přesmarginálníhustotu g 2 (t).platí 1. Nechť g t (x) a(t) ( log x ) b(t) x c(t) 1 provelká x. Je-li c(t) cab(t)omezenáfunkce,pakmodel g t (x)splňujepodmínku pro konvergenci k Fréchetovu rozdělení stejnoměrně. 2. Nechť ( x ) b(t) 1(ω g t (x) a(t) x) c(t) 1. ω Je-li c(t) cab(t)omezenáfunkce,pakmodel g t (x)splňujepodmínku pro konvergenci k Weibullovu rozdělení stejnoměrně. 3. Nechť g t (x) a(t)x b(t) exp{ c(t)x d(t) }. Je-li c(t) c, d(t) dab(t)omezenáfunkce,pakmodel g t (x)splňuje podmínku pro konvergenci ke Gumbelovu rozdělení stejnoměrně. Uvedenávětaplatísamozřejměisezaměněnýmisymboly xat.důkaztéto větyjevelmisnadný,jdejenopříméasnadnéověřenípodmínek(3)zvěty1.2. Jak si lze snadno povšimnout, některé parametry musí být na podmínce nezávislé. Na druhou stranu nám stačí jen asymptotický parametrický tvar chvostu k našim účelům. 3.3 Sdružené rozdělení poloos Prozatím jsme používali sdruženou hustotu velikosti a tvaru g(x, t). Lze však vyjítizesdruženéhustotyoboupoloos h(x, v)atutotransformovatna g(x, t). Uvažujme jednoduchý model s použitím integrační konstrukce i pro tuto alternativu. Hledáme sdružené rozdělení dvourozměrného vektoru(x, V). Všimněme si, že pro nosič takového vektoru platí supp(x, V) {(x, v);0 v x}. Smysluplné se zdá být modelování rozdělení delší poloosy X a podmíněnéhorozdělení V přidaném X= x.zapodmíněnérozdělenívolmebeta rozdělení zobecňující rovnoměrné rozdělení na intervalu[0, 1], ale poznamenejme, že by nám opět stačilo předpokládat asymptotické chování sdružené hustotyvpro vblízká x.vnašempřípaděsamozřejměupravímenosičrozdělenína[0, x]. Uvažujme sdružené rozdělení délek poloos(x, V) ve tvaru 1 ( v ) a(x) 1 ( h(x, v)=g 1 (x) xb ( a(x), b(x) ) 1 v b(x) 1 (4) x x)

125 Dvourozměrná rozdělení charakteristik sféroidů 115 odkudzesubstituceplyne g(x, t)=h ( x, x(1+t) 1/2) x/ ( 2(1+t) 3/2) atedy x b(x) ( ) g(x, t)=g 1 (x) 2B ( a(x), b(x) )(1+t) a(x)+b(x)+1 /2 ( (1+t) 1/2 1 ) b(x) 1 a tedy podmíněné chvosty tvarového faktoru při velikosti budou polynomické. Všimněme si, že tímto způsobem nelze modelovat podmíněné rozdělení velikostipřidanémtvarovémfaktoru.přisubstituci(x, v) (x, x 2 /v 2 1) lze snadno podmínit druhou složku pomocí první, ale naopak stojíme před neřešitelným problémem. Věta 3.3. Nechť je dáno sdružené rozdělení velikostí poloos sféroidů předpisem(4). Pak pro podmíněné rozdělení tvaru sféroidu při dané velikosti platí ekvivalence chvostů, je-li a(x) a a b(x) je omezená funkce. 4 Poznámky Poznamenejme, že i pro konstrukci pomocí kopulí vlastně stačí popsat parametrickypouzeasymptotickýtvar g 1 (t)(nebo g 2 (t)).otázkouje,zdamusíme předpokládatparametrickýtvar ψ, ξag 2 (nebo g 1 ),abychommohliodhadnouthodnoty ψ ( G 2 (x) ) a ξ ( G 2 (x) ).Bohuželnatěchtohodnotáchbudou normalizační konstanty podstatně záviset a proto vhodné neparametrické vyhlazovacímetodyproodhadfunkcí ψ ( G 2 ( ) ) a ξ ( G 2 ( ) ) jsouvítány. Jak hodláme využít předchozí výsledky k odhadu extrémních velikostí či tvarových faktorů? Teď již víme, že za jistých podmínek stejnosti nám extrémy profilů konvergují ke stejnému limitnímu rozdělení jako extrémy sféroidů až na parametr. Představme si, že z pozorování extrémně velkých profilů s daným tvarem z zjistíme, že limitní rozdělení je Fréchetovo. Odhadneme, například metodou maximální věrohodnosti,[14], normalizační konstanty â p n, b p n.propředpokládanýasymptotickýtvarchvostulzespočítat,jak majívypadatnormalizačníkonstanty(a p n, b?np )profilůa(a n, b n )původních částic, viz například[5],[1] a[9]. Dalšímkrokemjevýpočet â n, b n zhodnot â p n, b p napomocítěchtoodhadů pak odhadnout rozdělení maxima tvarového faktoru(pro danou velikost) či velikosti(pro daný tvar) sféroidu. Jednoduchý model spolu se simulacemi je možnénajítv[1]. Reference [1] Beneš V., Bodlák, K., Hlubinka D.(2003). Stereology of extremes; Bivariate models and computation. Methodology and Computing in Applied Probability 5, [2] Cruz-Orive, L.-M.(1976). Particle size-shape distributions; The general spheroid problem. I. Mathematical model. Journal of Microscopy 107,

126 116 Daniel Hlubinka [3] Cruz-Orive, L.-M.(1978). Particle size-shape distributions; The general spheroid problem. II. Stochastic model and practical guide. Journal of Microscopy 112, [4] Drees H., Reiss R.-D.(1992) Tail behavior in Wicksell s corpuscle problem. Probability Theory and Applications, Kluwer, Dordrecht, [5] Embrechts P., Klüppelberg C., Mikosh T.(1997). Modelling Extremal Events. Springer, Berlin. [6] Hlubinka D.(2003). Stereology of extremes; Shape factor of spheroids. Extremes6,5 24. [7] Hlubinka, D.(2003). Stereology of extremes; Size of spheroids. MathematicaBohemica128, [8] Kotz, S., Nadarajah, S.(2000). Extreme value distributions; theory and practise. Imperial College Press, London. [9] Takahashi R.(1987). Normalizing constants of a distribution which belongs to the domain of attraction of the Gumbel distribution. Stat. Probab. Lett.5, [10] Takahashi R., Sibuya M.(1996). The maximum size of the planar sections of random spheres and its application to metalurgy. Ann. Inst. Stat. Math.48, [11] Takahashi R., Sibuya M. (1998). Prediction of the maximum size in Wicksell s corpuscle problem. Ann. Inst. Stat. Math. 50, [12] Takahashi R., Sibuya M. (2001). Prediction of the maximum size in Wicksell s corpuscle problem. II. Ann. Inst. Stat. Math. 53, [13] Takahashi R., Sibuya M.(2002). Maximum size prediction in Wicksell s corpuscle problem for the exponential tail data. Extremes 5, [14] Weissman I.(1978). Estimation of parameters and large quantiles based onthe klargestobservations.jasa73, [15]WicksellS.D.(1925)ThecorpuscleproblemI.Biometrika17, [16]WicksellS.D.(1926)ThecorpuscleproblemII.Biometrika18, Poděkování: Tato práce vznikla za podpory výzkumného záměru MŠMT ČR MSM Matematické metody ve stochastice a grantu GAČR 201/03/0946 Modely stochastické geometrie a prostorová statistika. Adresa: D. Hlubinka, Matematicko-fyzikální fakulta UK, Katedra pravděpodobnosti a matematické statistiky, Sokolovská 83, , Praha 8 daniel.hlubinka@mff.cuni.cz

127 ROBUST 2004 c JČMF 2004 LINEARIZÁCIA NELINEÁRNEJ REGRESIE A OBLASTI SPOĽAHLIVOSTI Klára Hornišová Kľúčové slová: Nelineárna regresia, linearizácia podmodelu, funkcie parametrov. Abstrakt: V čiastočne lineárnych regresných modeloch sú pre niektoré funkcie parametrov známe presné inferencie založené na taylorovskej semilinearizácii modelu. Zostrojíme alternatívne presné inferencie využívajúce iné spôsoby linearizácie. 1 Linearizácia regresného modelu Uvažujme nelineárny regresný model M y= η(θ)+ε, ε N(0, σ 2 Σ), θ Θ R p, (1) kde η(.):θ R N jemerateľnézobrazenie, y R N jevektorpozorovaní, ε R N jevektornáhodnýchchýb, θsúneznámeparametre,σjeznáma kladnedefinitnámatica, σ >0jeneznáme.Nech g(θ)jeužitočnáfunkcia parametrov,kdepre r pje g(.):θ R r merateľnézobrazenie. Na zjednodušenie inferencií často model(1) linearizujeme. Najzvyčajnejšiajetaylorovskálinearizáciamodelu(1)vnejakombode θ 0 Θ: y= η(θ 0 )+ η(θ0 ) θ (θ θ0 )+ε=: Aθ+ a+ε, ε N(0, σ 2 Σ), (2) kde θ 0 bývabuďmaximálnevierohodnýmaleboapriórnedanýmodhadom θ. Pre prípad daného apriórneho rozdelenia π na Θ sa navrhli viaceré spôsoby linearizácie(1). Pri linearizácii vyhladzovaním z[8] sa linearizácia Y = Aθ+ a+ε, ε N(0, σ 2 Σ), vyberá podľa kritéria minimálnej strednej kvadratickej chyby(mse) MSE:= min A R N p a R N 2 E π [ η(θ) (Aθ+ a) Σ ], kde z 2 Σ := z Σ 1 zpre z R N.Riešenietejtominimalizačnejúlohyje A=Cov π (η, θ)(v ar π θ), a=e π η AE π θ. (3)

128 118 Klára Hornišová Podľa rovnakého kritéria možno hľadať aj najlepšiu aproximáciu modelu(1) vnútorne lineárnym modelom, t.j.(pozri[7]) modelom tvaru y= Aβ(θ)+a+ε, ε N(0, σ 2 Σ), kde A N k, k p, h(a)=k, a R N a β(.):θ R k jeparametrizácia(1). Optimálna vnútorná linearizácia modelu(1) má podľa[5] tvar k=max{i; i p, λ i >0},A=Σ 1/2 (u 1,...,u k ), (4) a=e π η,β(θ)=(a Σ 1 A) 1 A Σ 1 (η(θ) a), kde u 1,..., u N súortonormálnevlastnévektory,poradezodpovedajúcevlastnýmhodnotám λ 1 λ N 0matice V ar π (Σ 1/2 η). V[3]sapriznalostizdruženéhoapriórnehorozdelenia πpre(θ, σ 2 ),nelinearizujemodel(1),alepriamosaodhadujefunkciaparametrov g(θ, σ) R r explicitnoulinearizáciou,t.j.odhadom A y+a,ktorýminimalizujepriemernú strednú kvadratickú chybu(amse) min E π E f(. θ,σ) g(θ, σ) (A y+ a) 2, A R N r,a R r kde f(. θ, σ)jepodmienenáhustota y.riešenímje A=[V ar π η+ E π (σ 2 )Σ] 1 Cov π (η, g),a=e π g A E π η. (5) 2 Linearizácia podmodelu a oblasti spoľahlivosti pre funkciu parametrov V modeli (1) sa používajú rôzne druhy oblastí spoľahlivosti pre g(θ) so spoľahlivosťou približne(1 α),(napr.[4]). Ďalej sa budeme zaoberať len rozličnými variantmi oblasti spoľahlivosti založenej na projektoroch: {g g(θ); F(g, y):= (6) (N p) (P(g, y) P 2 (g, y))(y η( θ g )) 2 Σ r (I P(g, y))(y η( θ g )) 2 Σ < F r,n r q (1 α)}, ktorejzodpovedánasledujúcakritickáoblasťtestuhypotézy H 0 : g(θ)= g 0 g(θ) R r oproti H 1 : g(θ) g 0 shladinoupribližne(1 α): {y; F(g 0, y) < F r,n r q (1 α)}. Tu ˆθa θ g označujúporademaximálnevierohodnéodhady θvmodeli M avpodmodeli M g (implicitne)danomhypotézou H g : g(θ)=g,apre ysú P(g, y)ap 2 (g, y)takéσ ortogonálneprojektoryv R n,žeprepodpriestory

129 Linearizácia nelineárnej regresie a oblasti spoľahlivosti 119 generovanéichstĺpcamiplatí M(P 2 ) M(P),h(P)=r+q p,h(p P 2 )=r. Potompre yexistuje D N r = D(g, y)taká,že(pozri[4]) P= P 2 +(I P 2 )D(D Σ 1 (I P 2 )D) 1 D (I P 2 ) Σ 1. Za P 2 možnovybraťnapr.projektornataylorovskúlinearizáciu M g v θ g : A:= η(θ) θ P 2 := P A := A(A Σ A) 1 A Σ 1, kde (I p P B ),kde B:= g (θ) θ= θ g θ Pridanom P 2 (g, y)trebazvoliť D(y)tak,abyspĺňala θ= θ g. h((i N P 2 (g, y))d(g, y))=r. (7) Prevšeobecné g(.), DaP 2 má(6)asymptotickyhladinu1 α.podľa[2]je oblasť(6) presná, ak súčasne platí(7), ďalej ak pre nejaké maticové funkcie premennej g(θ), V(.) : g(θ) R N (p r) a v(.) : g(θ) R N spĺňajúce podmienkuh(v(g))=qprekaždé g g(θ),aprekaždé θplatí: η(θ)=v(g(θ))ν(θ)+v(g(θ)), (8) kde ν(.):θ R p r jetaké,že(g (θ), ν (θ)) jeregulárnareparametrizácia θ,aaknakoniec Dzávisíod yibaprostredníctvom V (g)(y v(g)): D(g, y)=d(g, V (g)(y v(g))). (9) Akplatí(8),tak P 2 (g)=p V(g) amaximálnevierohodnýodhadpre ν(θ)pri podmienke g(θ)=gje ν(g, y)=[v (g)σ 1 V(g)] 1 V (g)σ 1 (y v(g)), takže podmienky (7), (8), (9) spĺňajú napr. prvé dve taylorovské semilinearizácie(t.j. taylorovské linearizácie modelu(8) parametrizovaného parametrom gprikonštantnom ν,doktorýchsadosadí ν(g, y)za ν): p r i=0 V.i (g) g w i(g), D(g, y)=d(g, V (g)(y v(g)))= p r i=0 V.i (g) g w i (g), g=g 0 p r i=0 V.i (g) g (10.a,b,c) w i (g), g=ĝ kde V.i (g), i = 1,...,p r,sústĺpcematice V(g), V.0 := v(g), w(g) := ν(g, y), w 0 (g):=1, g 0 jeapriórnedanýbod(privoľbec)pravdaženedostaneme presnú oblasť). V[2] uvažovali voľbu a). Ak poznáme apriórne rozdelenie π(.) funkcie g(θ), či g(θ, σ), okrem taylorovských semilinearizácií možno v modeli(8) zostrojiť D(g, y) tak, aby

130 120 Klára Hornišová zodpovedali prirodzeným linearizáciám(3),(4) či(5), a pritom spĺňali podmienky(7) a(9) postačujúce podľa[2] na presnosť inferencií(6): 1.)(semilinearizácia vyhladzovaním): D=(Cov π(g) (η, g)v ar 1 π(g) (g)) ν= ν(g,y) = (11) p r =[ i=0 Cov π(g) (V.i (g), g)w i (g)]v ar 1 π(g) (g) 2.)(explicitná semilinearizácia): D=([V ar π(g,σ 2 )(η)+e π(g,σ 2 )(σ 2 )Σ] 1 Cov π(g,σ 2 )[η, g]) = (12) ν= ν(g,y) p r p r =[ Cov π(g,σ 2 )(V.i (g), V.j (g))w i (g)w j (g)+e π(g,σ 2 )(σ 2 )Σ] 1. i=0 j=0 Cov π(g,σ 2 )(V.i (g), g)w i (g)] p r.[ i=0 3.)(vnútorná semilinearizácia): D=Σ 1/2 (u 1,..., u r ), kde u 1,..., u N súσ ortonormálnevlastnévektoryporadezodpovedajúce vlastnýmhodnotám λ 1 λ N 0matice (V ar π(g) [Σ 1/2 η]) = V ar π(g) [Σ 1/2 [V(g).ν+ v(g)]] =(13) ν= ν(g,y) ν= ν(g,y) p r p r = Cov π(g) (Σ 1/2 V.i (g),σ 1/2 V.j (g))w i (g)w j (g). i=0 j=0 Teda model(8) pri konštantnom ν parametrizovaný parametrom g sa zlinearizuje spôsobom(3),(4) alebo(5) a do výslednej linearizácie sa potom dosadí ν(g, y)za ν. Namiesto marginálneho apriórneho rozdelenia π(g(θ)) pre g(θ) možno použiť podmienené rozdelenie π(g(θ) ν(θ)). Poznámka.Inýpostupjev[3]ajpre g(θ),ktorénespĺňajú(7),(8)a(9).pre θ sazostrojípresnáoblasťspoľahlivostiωtvaru(6)sp 2 =0aDzodpovedajúcou explicitnej linearizácii funkcie g(θ). Potom g(ω) je konzervatívna oblasť spoľahlivosti pre g(θ) na tej istej hladine. Ak g(ω) nie je uspokojivá, D sa dopĺňa stĺpcami zodpovedajúcimi explicitným linearizáciám ďalších skusmo vyberaných funkcií parametrov.

131 Linearizácia nelineárnej regresie a oblasti spoľahlivosti LR T ML 10 LR T ML I I S E T ~ 0 10 T ~ E S Obrázok1:Funkcie F(g, y)prerôzne D. 1 LR LR T x 1 T 0.8 x 0.8 I 0.6 I T x T ML S, E T ML 0.2 T ML I S, E S, E S, E S, E Príklady Obrázok2:Silofunkciepre c=10, θ 0 =0,916. Príklad1Pre g(θ)=θamodelsoznámym c y N((θ, cθ 2 ), σ 2 I 2 2 ), θ Θ=< 1,1 >, pre π 1 rovnomernénaθanezávislérozdelenie π 2 pre σ 2 s E π2 (σ 2 )=0,3 2, y=(0,87;8,4),kdeml-odhadˆθ. =0,916,súnaobr.1pre c=10priebehy funkcií ln(l(g, y)), kde L(g, y) je pomer vierohodností(označenie LR), aln(f(g, y))z(6)sdakov(10c),(10a),(11),(12),(13)(poradeoznačené T ML,T, S, E, I),spoluskritickýmihodnotamiln(F 1,1 (1 α))pre α=0,9 a0,95,pre θ <0;1 >(časťa))aθ <0;1 >(časťb)).va)jena x ovejosi θ,vb) θ.najužšieintervalyspoľahlivostisúlrat ML svhodnýmobmedzenímtvaru η(θ) η(ˆθ) Σ < ρ(pozri[7]).akbysmetakéto obmedzenie uvažovali aj pri ostatných druhoch, bol by rovnako vyhovujúci ajt apri1 α=0,9aj I. Naobr.2,3,4súsilofunkciepríslušných testovhypotézy H 0 : θ= θ 0 oproti H 1 : θ θ 0 pre c=10&θ 0 =0,916, c=20&θ 0 =0,916, c=10&θ 0 =0,6.NamiestoT uvažujemet x,čo zodpovedá(6)sdakov(10b)pre g 0 = θ 0.Grafysúdosťkostrbaté,lebopre každú použitú hodnotu θ sa počítalo len 100 simulácií, no na porovnanie rôznychpostupovtostačí.najlepšiesú LR,T x asčasti I,atotýmvýraznejšie, čímsú ca θ 0 väčšie.vmalomokolí θ 0 jedobráajt ML.

132 122 Klára Hornišová T x LR T ML I S, E T ML LR, I, T x S, E S, E S, E Obrázok3:Silofunkciepre c=20, θ 0 =0, T x 1 LR, T x, T ML 0.6 LR 0.4 I T ML S, E 0.2 I I T ML S, E LR T x I T ML S, E S, E I Obrázok4:Silofunkciepre c=10, θ 0 =0,6. Príklad2Preúdajez[4]amodelsmalouvnútornoukrivosťou([1]) y i = θ 1 x i /(θ 2 + x i )+ε i, ε N[ 0; σ 2 I n ], kdeˆθ=(160,28;0,047709), s 2 =95,51=E π (σ 2 )apre π(θ 2 )-rovnomerné na0, ±0,04,súintervalyspoľahlivostipre g(θ)=θ 2 nahladine0,95: T ML =<0,0331;0,0675 >,kde θ2=ˆθ 0 2 T =<0,0293;0,0735 >,rovnakov[4] S=<0,0309;0,0643 > I=<0,0304;0,0637 > E=<0,0418;0,1237 >,(bezobmedzeniadanéhonosičom π) LR =. Trub=<0,0314; >,podľa[6] T rub je konzervatívna oblasť spoľahlivosti nájdená trubicovou metódou([6]). Naobr.5súpriebehyfunkcií L(g, y)af(g, y)pre θ 2 akritickáhodnota F 1,9 (0.95).Naa)jena x ovejosiˆθ 2 θ 2 anab) θ 2 ˆθ 2.Najlepšiesú S, I at ML,ktorédávajúzhrubarovnakoširokéintervaly.Kýmvšaknevezmeme do úvahy ohraničenosť nosiča π(.), tieto intervaly typu(6) sú iba komponentomsúvislostipresnýchoblastíspoľahlivosti,ktorýobsahujeˆθ 2.

133 Linearizácia nelineárnej regresie a oblasti spoľahlivosti S I I S T ML LR T ML LR T ~ E T ~ 5 E E Obrázok5:Funkcie F(g, y)prerôzne D. 80 S 60 E I LR 40 T ML 20 T ~ 0 E S I E LR I T ~ T ML S Obrázok6:Funkcie F(g, y)prerôzne D. Príklad3PreúdajeBODIz[1]amodelsveľkouvnútornoukrivosťou y i = θ 1 (1 exp( x i θ 2 ))+ε i, ε N(0, σ 2 I n ), kdeˆθ 2 =0,5311, s 2 =6,498=E π (σ 2 ),súnaobr.6pre g(θ)=θ 2 a π(θ 2 )- rovnomernénaˆθ 2 ±1priebehyfunkcií L(g, y)af(g, y)akritickéhodnoty F 1,4 (1 α)pre1 α=0,9a0,95.va)jena x ovejosiˆθ 2 θ 2 avb) θ 2 ˆθ 2.Najlepšiaje LR,noitádávapre1 α=0,95interval,ktorýjezhora ohraničený len hranicou nosiča π, či hranicou parametrického priestoru. Bez tohtoobmedzenia(ak1 α=0,95): LR=<0,132;1,77 >=<ˆθ 2 0,3991;ˆθ 2 +1,2389 >,podľa[1] Trub=<0,130;0,41 >=<ˆθ 2 0,4011;ˆθ 2 +0,8789 >,podľa[6].

134 124 Klára Hornišová Reference [1] Bates D.M., Watts D.G.(1988). Nonlinear regression analysis and its applications. Wiley, New York. [2] El-Shaarawi A., Shah K.R.(1980). Interval estimation in non linear models.sankhyab42, [3] Gallant A.R.(1980). Explicit estimators of parametric functions in nonlinearregression.j.am.st.assoc.75, [4] Hamilton D.(1986). Confidence regions for parameter subsets in nonlinear regression. Biometrika 73, [5] Hornišová K.(2004). Intrinsic linearization of nonlinear regression by principal components method. AMUC LXXIII, [6] Knowles M., Siegmund D., Zhang H.(1991). Confidence regions in semilinear regression. Biometrika 78, [7] Pázman A.(1993). Nonlinear statistical models. Kluwer, Dordrecht. [8] Pázman A.(2001). Linearization of nonlinear regression models by smoothing.tatramt.math.publ.22, Poďakovanie: Na výskum prispela agentúra Vega grantom č. 2/4026/04. Adresa: K. Hornišová, Ústav merania SAV, Dúbravská 9, Bratislava

135 ROBUST 2004 c JČMF 2004 SHLUKOVÁNÍ A TEXTOVÉ DOKUMENTY Dušan Húsek, Hana Řezanková, Václav Snášel Klíčová slova: Výpočetní statistika, shlukování, rozsáhlé datové soubory, dokumentografické informační systémy. Abstrakt: V práci jsou zhodnoceny některé možnosti využití shlukovacích metod pro vyhledávání v textových dokumentech. Využití těchto metod je umožněno geometrizací vyhledávacího problému na základě vektorového modelu. Přestože tato problematika patří v oblasti vyhledávání mezi klasické, není v současné době uspokojivě vyřešena. Jedním z hlavních problémů při shlukování je vysoká dimenzionalita vstupních dat. V příspěvku jsou charakterizovány speciální postupy navržené pro shlukování takových vysoce dimenzionálních dat. 1 Úvod Třída programových nástrojů určených pro zpracovávání, úschovu a výběr dat, kterými jsou textové dokumenty, je reprezentována textovými(dokumentografickými) informačními systémy(dis). V takovém systému je vhodné s texty pracovat na více úrovních abstrakce, tj. vedle textů je vhodné popsat i jejich schéma pomocí odpovídajícího modelu. Toto schéma je ve svých funkcích podobné schématu klasických databází. Model DIS je definován jako soubor pojmů či nástrojů pro reprezentaci dokumentu(tvoří formální popis informace obsažené v dokumentu), reprezentaci dotazu(umožňuje specifikovat formálně požadavek na informace), reprezentaci pravidel a procedur umožňujících určit shodu mezi požadavkem uživatele na informace a dokumenty, které vyhovují tomuto požadavku. Mezi prominentní modely DIS patří v současnosti rozšířený Booleovský model, vektorový model a model založený na pravděpodobnostním výběru. V tomto příspěvku se budeme zabývat vektorovým modelem. V něm je textový dokument reprezentován vektorem, jehož prvky charakterizují výskyt slov(resp. termů) obsažených v dokumentech. Geometrizace vyhledávacích problémů, viz[20], dává vznik mnoha zajímavým problémům spojeným se shlukováním dat ve vysoce dimenzionálních prostorech. Vektor může být buď binární(slovo se v dokumentu vyskytuje nebo ne), nebo může obsahovat četnosti výskytu, případně váhy založené na důležitosti slov v celé kolekci dokumentů.proanalýzupakmámekdispozicimatici nxm,kde njepočet dokumentůamjepočetslov.prouvedenoumaticijetypické,žejevelkých rozměrů,atozejménapokudjdeopočetsloupců,ažejevelmiřídká(uvádíse, že nenulových prvků je obvykle pouze kolem dvou procent). Další podrobnosti viz[4]. Základní úlohou při analýze takových dat je shlukování dokumentů. Pomocí hierarchické shlukové analýzy lze nalézt různé úrovně skupin dokumentů. Cílem shlukové analýzy je nalézt shluky tak, aby dokumenty uvnitř

136 126 Dušan Húsek, Hana Řezanková, Václav Snášel shlukusibylyconejvícepodobnéaabyjejichpodobnostsdokumentyzjiných shluků byla menší. Pomocí shlukování dokumentů tak můžeme zjistit témata, která se vyskytují ve sledované kolekci textových dokumentů[7]. Dále mohou být na základě zjištěných skupin navrženy modely, pomocí nichž jednak může být nový dokument zařazen do některé ze skupin, jednak může být vyhledána skupina dokumentů, které nejvíce vyhovují zadanému dotazu. Protože rozsah datové matice je obvykle značný, jsou využívány jednak metody redukce dimenzionality, jednak speciální postupy pro shlukování. Tyto postupy jsou buď přímo zaměřeny na problematiku textových dokumentů nebo jde o obecné metody určené pro analýzu rozsáhlých datových souborů(data mining). Jako příklad prvního typu je shlukování náhodně vybraných dokumentů opakované pro různé výběry, které může vést ke stanovení množiny slov vhodné pro charakterizování sledované kolekce dokumentů(viz[25]). Shlukování dokumentů a případné vytváření modelů pro přiřazování dokumentů či dotazů ke zjištěným shlukům je pak prováděno s redukovaným počtem slov. Jiné využití shlukování při analýze textových dokumentů vychází z toho, že při aplikaci metod strojového učení pro řešení klasifikačních úloh je potřeba najít vhodnou tréninkovou množinu, tj. takovou, která by neobsahovala příliš mnoho podobných dokumentů. Toho lze docílit tím, že jsou dokumenty rozděleny do shluků a do tréninkové množiny jsou vybírání zástupci těchto shluků. V[12] je navrženo použít metodu k-průměrů a z každého vytvořeného shluku vybrat dokument, který je nejbližší centroidu. 2 Měření podobnosti mezi textovými dokumenty Nejčastějším ohodnocením výskytu slov v dokumentech je výpočet vah. Ty mohou být počítány různými způsoby(rozsáhlé experimenty s vážením termů jsoupopsányv[21]),dvaznichjsoupopsányvnásledujícíčásti. 2.1 Výpočet vah pro vstupní datovou matici Políčkavstupnídatovámaticeobsahujíváhy w ij,kde ioznačujedokument (i=1,...,n)aj označujeslovo,kterésevyskytujevezkoumanékolekci dokumentů(j=1,...,m).označmesitf ij četnostivýskytu j-téhoslova v i-témdokumentuaidf j inverzníčetnostslovvevšechdokumentech,která jepočítánajakoidf j =log(n/k j )+1,kde k j jepočetdokumentů,vnichž se vyskytuje j-té slovo. Potřebnou váhu pak získáme jako součin četnosti aodpovídajícíinverzníčetnostipříslušnéhoslova,tj. w ij =TF ij *IDF j. Ibrahimov v[11] navrhuje tzv. kombinovanou váhu počítanou jako(pozměněno značení) w ij = (K+1) CFW j TF ij K ((1 b)+b NDL i )+TF ij,

137 Shlukování a textové dokumenty 127 ( n přičemž CFW j =log andl i jedélka i-téhodokumentunormalizovaná průměrnou délkou dokumentu. Parametr b je uživatelem zadané číslo a jeho doporučovaná hodnota je 0,75(řídí vliv délky dokumentu), K je diskontní parametr, který souvisí s četností slov, Ibrahimov používá hodnotu 2. Dále můžeme přiřadit jednotlivým dokumentům váhu podle následujícího vzorce(vizibrahimov): DW i = w ik,kde D i jemnožinaslov,jejichžváha k D i je větší než stanovená prahová hodnota. Vztah dokumentu X k dokumentu Y lze vyjádřit jako k j ) 2.2 Míry podobnosti INTER(X, Y)= DW X Y k D Y DW Y. Pro měření podobnosti dvou textových dokumentů používá Ibrahimov chíkvadrát test. Nulová hypotéza vyjadřuje shodu rozdělení vah pro vybranou množinu slov. Je používána chí-kvadrát statistika počítaná jako neboli χ 2 (w Xk w Y k) = w Y k k D X D Y 2 2 χ 2 (x j y j ) =. y j j D X D Y K této statistice můžeme zjistit minimální hladinu významnosti, od které zamítáme nulovou hypotézu. Jestliže si tuto hodnotu označíme jako δ, můžeme si podobnost mezi dvěma dokumenty vyjádřit podle vzorce sim(x, Y)=δ INTER(X, Y). Tatomírapodobnostinabýváhodnotvintervaluod0do1.Častějinež tato asymetrická míra jsou v praxi používány spíše míry symetrické. Za základ je považována kosinová míra, kterou pro objekty(dokumenty) X a Y můžeme zapsat jako s(x, Y)= m x j y j j=1, m (x j ) 2 m (y j ) 2 j=1 j=1 kde m je počet proměnných(slov). V některých případech mohou být dokumenty charakterizovány pouze jako binární vektory(slovo se v dokumenty vyskytuje nebo ne), případně

138 128 Dušan Húsek, Hana Řezanková, Václav Snášel jako vektory četností výskytu. I pro tyto případy existují speciální míry. Pro binární data je možné podobnost vyjádřit například pomocí vzorce Θ m x j y j j=1 s(x, Y)= Θ m x j y j + m. x j y j j=1 PokudΘ=1,dostávámeJaccardůvkoeficient,vpřípadě,žeΘ=2,jde o Diceovu(Czekanowského) míru podobnosti. Pro četnosti lze využít chí-kvadrát míru nepodobnosti, která je vyjádřena jako m d(x, Y)= (x j E(x j )) 2 m (y j E(y j )) + 2, E(x j ) E(y j ) kde j=1 j=1 j=1 E(x j )= ( ) m x j (x j + y j ) j=1 m x j + m a E(y j )= y j j=1 j=1 ( ) m y j (x j + y j ) j=1 m x j + m. y j j=1 j=1 3 Vyhledávání dokumentů na základě shluků Aby mohl být při vyhledávání v textových dokumentech uspořen čas potřebný pro nalezení odpovědi na zadaný dotaz, lze v procesu předzpracování dat identifikovat shluky dokumentů, které pokrývají podobná témata. Tato problematika je označována jako vyhledávání shluků(cluster retrieval) a je rozpracována v knize[5]. V procesu vyhledávání shluků jsou uživateli prezentovány pouze dokumenty obsažené v jednom nebo několika vybraných shlucích. Jako zajímavé téma zkoumané při vývoji metod je rozpoznávání výskytu překrývajících se shluků. Jako speciální metody pro nalezení shluků dokumentů jsou v[5] uvedeny iterativní reškálování, dynamické reškálování založené na latentním sémantickém indexování(lsi) a dynamické reškálování založené na analýze kovarianční matice. První metodu navrhla Ando v roce Je určena k identifikování malých shluků v omezeném kontextu. Vstupními parametry jsou matice typu dokumenty x termy, konstantní škálovací faktor a dimenze k, do které má být vyhledávání informací mapováno. Tento algoritmus má však řadu nedostatků,proto autoři Kobayashi a Aono navrhli jednak jeho vylepšení, jednak algoritmus založený na jiném principu. Dynamické reškálování založené na latentním sémantickém indexování má být zmíněným vylepšením. Může však být použito pouze na malé datové soubory.

139 Shlukování a textové dokumenty 129 Bylonavrženovroce2001.Jevhodnépoznamenat,žeideouvšechtřízde uvedených algoritmů je uchovat hlavní témata při výběru základních vektorů pro podprostor, do kterého bude úloha vyhledávání informací mapována. To je v navržené metodě ošetřeno zavedením vah ke snížení důležitostí atributů (slov, termů), které již jsou reprezentovány podprostorem již vypočítaných základních vektorů. Přiřazování vah je řízeno dynamicky, aby se zabránilo ztrátě informace jak ve velkých tak malých shlucích. Dynamické reškálování založené na analýze kovarianční matice je určeno k identifikování malých shluků. Tento algoritmus je možné(dle jeho autorů) použít pro velké datové soubory. Vstupními parametry jsou kovarianční matice, reškálovací faktor(používaný pro přiřazování vah) a dimenze k, do níž má být úloha redukována. Při výpočtech jsou používány dvě matice reziduí, přičemž na počátku je jedna tato matice tvořena kovarianční maticí pro celou množinu dokumentů. Závěrem lze poznamenat, že metody navrhované v oblasti literatury zabývající se vyhledáváním informací zřejmě nejsou stále vhodné pro použití v případě velkých souborů dat. Analýza by neměla vycházet z matice vzdáleností,neboťtentopostupjevelmináročný,atojakvýpočetně,takzhlediska uložení matice. Kovarianční matice je sice matice podobností, ale podstata zůstává stejná. Problém spočívá v tom že při vyhledávání informací jsou obvykle řešeny současně dvě úlohy, a to redukce počtu proměnných(například pomocí jejich shlukování, čímž jsou místo jednotlivých slov používána témata) a shlukování dokumentů. 4 Přístupy k řešení problému vysoké dimenzionality Vývoj v oblasti shlukování se zaměřuje především na soubory s velkým počtem objektů. Méně pozornosti je věnováno problematice velkého počtu proměnných. Berkhin uvádí, že shlukovací algoritmy založené na vzdálenostech fungují efektivně do 16 proměnných. Je potřeba si uvědomit, že počet dimenzí, s nimiž pracujeme, se reálně pohybují ve stovkách tisíc viz[2]. Soubory obsahující více než 16 proměnných nazývá Berkhin data s vysokou dimenzionalitou. V takových případech se používá redukce dimenzionality, která se realizuje buď transformací proměnných nebo doménovou dekompozicí. K prvnímu uvedenému přístupu lze zařadit analýzu hlavních komponent, která ovšem může vést k vytvoření shluků s obtížnou interpretovatelností. V oblasti shlukování dokumentů je používána metoda SVD(singular value decomposition). V případě doménové dekompozice jsou data rozdělena do podsouborů (anglicky canopies). Dimenzinalita se tedy neredukuje, ale tento postup vede ke snížení nákladů. Pro shlukování objektů charakterizovaných velkým počtem proměnných lze použít metody založené na shlukování podprostorů(subspace clustering). Místo vytváření redukované matice založené na nových proměnných(získaných například lineární kombinací původních proměnných) je problém vel-

140 130 Dušan Húsek, Hana Řezanková, Václav Snášel kého počtu dimenzí řešen zkoumáním podprostorů původního prostoru. Tento přístup je výhodný tím, že jsou zachovány původní proměnné, které mají reálný význam, zatímco lineární kombinace původních proměnných může být někdy těžko interpretovatelná. Základem pro shlukování podprostorů je analýza hustoty objektů v prostoru. Cílem je nalezení podmnožin proměnných tak, aby projekce dat zahrnovaly regiony s vysokou hustotou. Podstatou je rozdělení všech dimenzí do stejného počtu stejně dlouhých intervalů. Jsou-li nalezeny vhodné podprostory, úloha spočívá v nalezení shluků v odpovídajících projekcích. Shluky jsou oblasti navazujících jednotek s vysokou hustotou(v rámci určitého podprostoru). Podrobný popis těchto metod je uveden například v[3]. Základní metodou uváděnou v literatuře je algoritmus CLIQUE(CLustering In QUEst), který pro numerické proměnné navrhli v roce 1998 Agrawal a kolektiv. Tento shlukovací algoritmus využívá jak principů metod založených na hustotě, tak principů metod založených na mřížce. Algoritmus ENCLUS(ENntropy-based CLUStering), navržený v r Chengem a kolektivem, je založen podobném principu jako CLIQUE, avšak používá rozdílné kritérium pro výběr podprostorů. Výpočetní náklady této metody jsou ale vysoké. Metoda MAFIA(Merging of Adaptive Finite Intervals(And more than a CLIQUE)) je modifikací algoritmu CLIQUE, která funguje rychleji a nalézá shlukylepšíkvality.prezentovalijivroce1999goilakolektivavroce2001 Nagesh a kolektiv. Metoda v každé dimenzi konstruuje tzv. adaptivní mřížky. Její paralelní verze se nazývá pmafia. Kromě výše uvedených uvádí Berkhin ještě tři algoritmy, a to OptiGrid (navrhli v roce 1999 Hinneburg a Keim), PROCLUS(PROjected CLUStering), navržený v roce 1999 Aggarwalem a kolektivem, a ORCLUS(ORiented projected CLUSter generation), který v roce 2000 navrhli Aggarwal a Yu. V poslední době se objevily práce, které využívají k redukci dimenziionality náhodné projekce viz[26]. Ukazuje se, že metoda náhodných projekcí umožňuje redukovat dimenzi podstatně efektivnějším způsobem než ostatní metody. Experimenty ukazují, že výsledky dosažené touto metodou jsou velmi slibné, viz[2]. Další možností je kombinace náhodných projekcí s metodou SVD[14]. 5 Závěr V příspěvku jsme zhodnotili některé možnosti využití shlukovacích metod pro vyhledávání v textových dokumentech. Využití shlukovacích metod je umožněno geometrizací vyhledávacího problému na základě vektorového modelu. Přestože tato problematika patří v oblasti vyhledávání mezi klasické, není v současné době uspokojivě vyřešena. Mezi základní problémy patří: návrh datové struktury pro indexování, viz[23], redukce dimenzionality a řešení prokletí dimenzionality[26],

141 Shlukování a textové dokumenty 131 vyhledávání témat a jejich automatická detekce[7], modifikace míry podobnosti[24]. V dalším výzkumu bychom se chtěli zaměřit na rozsáhlé experimenty, s jejichž pomocí bychom chtěli vybrat vhodné míry podobnosti pro tvorbu shluků tak, aby tyto shluky odpovídaly tématům obsaženým v dané kolekci. Reference [1] Anghelescu A., Muchnik I.(2002). Combinatorial clustering for textual data representation in machine learning models. Theoretical.v01.pdf. [2] Bingham E., Mannila H.(2001). Random projection in dimensionality reduction: applications to image and text data. KDD, San Francisko. [3] Berkhin P. Survey of clustering data mining techniques. Accrue Software, Inc., San Jose. barth/ee242/clustering survey.pdf [4] Berry M.W., Browne M.(1999). Understanding search engines: mathematical modeling and text retrieval. SIAM Book Series: Software, Environments, and Tools. [5] Berry M.W.(editor).(2004). Survey of text mining: clustering, classification and retrieval. Springer-Verlag, New York. [6] Dobrynin V., Patterson D., Rooney N. (2004). Contextual document clustering. ECIR 2004, LNCS 2997, Springer-Verlag, Berlin, [7] Dvorský J., Martinovič J., Pokorný J., Snášel V.(2004). Vyhledávání témat v kolekci dokumentů, Znalosti 2004, Brno, [8] Gordon A.D.(1999). Classification, 2nd Edition. Chapman& Hall/CRC, Boca Raton. [9] Hotho A., Staab S., Maedche A. Ontology-based text clustering. mccallum/textbeyond/papers/ hotho.pdf [10] Chakrabarti S.(2003). Mining the web: discovering knowledge from hypertext data. Morgan Kaufmann Publishers, San Fransisco. [11] Ibrahimov O., Pashayev R.(2003). Measuring similarities of textual documents: An overview of challenges and solutions. TAINN 2003(Turkish Symposium on Artificial Intelligence and Neural Networks). [12] Kang J., Ryu K.R., Kwon H. M.(2004). Using cluster-based sampling to select initial training set for active learning in text classification. PAKDD 2004, LNAI 3056, Springer-Verlag, Berlin, [13] Mercer D.P.(2003). Clustering large datasets. Linacre College, mercer/documents/transfer.pdf [14] Moravec P., Snášel V.(2004). Rychlý přibližný výpočet LSI předzpracováním náhodnou projekcí. Znalosti 2004, Brno,

142 132 Dušan Húsek, Hana Řezanková, Václav Snášel [15] Mylonas P., Wallace M., Kollias S.(2004). Using k-nearest neighbor and feature selection as an improvement to hierarchical clustering. SETN 2004, LNAI 3025, Springer-Verlag, Berlin, [16] Peltonen J., Sinkkonen J., Kaski S.(2002). Discriminative clustering of text documents. ICONIP IEEE 4, [17] Řezanková, H.(2004). Klasifikace pomocí shlukové analýzy. In: Kupka, K.(ed.) Analýza dat 2003/II. TriloByte Statistical Software, Pardubice, [18] Řezanková H., Húsek D., Smid J, Snášel V.(2003). Clustering of documents via similarity measures. In: D Auriol, B. J.(ed.). CIC 03. CSREA Press,LasVegas, [19] Řezanková H., Húsek D., Snášel V.(2003). Applications of clustering methods to textual documents. In: Bulletin of the International Statistical Institute Volume LX. International Statistical Institute, Berlin, [20] Rijsbergen C.J. (2004). The geometry of information retrieval. Cambridge University Press. [21] Salton G., Buckley C.(1988). Term weighting approaches in automatic text retrieval. Information Processing and Management 24, 5, [22] Sinkkonen J., Kaski S.(2000). Clustering by similarity in an auxiliary space. IDEAL 2000, Springer-Verlag, London, [23] Skopal T., Moravec P., Pokorný J., Snášel V.(2004). Metric indexing for the vector model in text retrieval. SPIRE 04, Padova, Springer Verlag, [24] Skopal T., Moravec P., Pokorný J., Krátký M., Snášel V.(2003). Efficient implementation of vector model in information retrieval. In Proceedings of the fifth National Russian Research Conference, RCDL 2003, Digital Libraries: Advanced Methods and Technologies, Digital Collections, St. Petersburg, [25] Volk D., Stepanov M.G.(2001). Resampling methods for document clustering. cache/cond-mat/pdf/0109/ pdf [26] Vempala S.S.(2004). The random projection method. DIMACS [27] Zhang Y., Zincir-Heywood N., Milios E.(2004). Term-based clustering and summarization of web page collections. Canadian AI 2004, LNAI 3060, Springer-Verlag, Berlin, Poděkování: Tento výzkum je součástí projektu COST 274(TARSKI). Adresa: D. Húsek, Ústav informatiky AV ČR, Pod Vodárenskou věží 2, Praha 8; H. Řezanková, Vysoká škola ekonomická v Praze, nám.w.churchilla4,13067praha3;v.snášel,všb-tuostrava, 17.listopadu 15, Ostrava-Poruba dusan@cs.cas.cz, rezanka@vse.cz, vaclav.snasel@vsb.cz

143 ROBUST 2004 c JČMF 2004 SLABÁ KONVERGENCE SUPREMA NÁHODNÝCH PROCESŮ Jana Husová Klíčová slova: Náhodné procesy, slabá konvergence. Abstrakt: Uvažujemeposloupnostnáhodnýchprocesů(X n (t), t T),okteré víme, že konverguje v distribuci k nějakému jinému procesu. A studujeme procesy(y n (A), A A),kde Y n (A 1 ):=sup t A1 X n (t).zkoumáme,prokteré kolekcemnožin A P(T)procesy(Y n (A), A A)konvergujívdistribuci. Prvkyprocesů(X n (t), t T)uvažujemejakofunkcevC(T), l + (T), D(T). 1 Úvoddoproblému Předpokládejme,ževíme,žeposloupnostnáhodnýchprocesů(X n (t), t T) n N0,kde(T, ρ)jeobecnýkompaktnímetrickýprostor,konvergujeslabě D knějakémunáhodnémuprocesu X, X n X. Položme Y n (A):=sup X n (t). t A Zajímánás,projaké A P(T)posloupnostnáhodnýchprocesů Y n (A)konverguje slabě. Postupně se podívejme, jak je to v různých případech, závislých na tom na jakém prostoru je původní konvergence. 2 Prostor C(T) Uvažujmenáhodnéprocesy(X n (t), t T, n N 0 )jakoprvky C(T),kde C(T) je prostor reálných spojitých funkcí na T se supremální metrikou generovanou supremální normou, tj. x =sup x(t). t T Nejprvesetedypodívejmenato,vjakémprostorujenášzkoumanýproces.Náhodnéprocesy X n, Xjsouspojiténakompaktu,tudížjsouomezené. Atedyináhodnéprocesy Y n, Y jsouomezené,neboť y A =sup y(a) =sup sup x(t) x x C(T). A A A A t A Obecnětedybudemeuvažovatoprostoru l + (A),prostorureálnýchomezených funkcí na A se supremální metrikou generovanou supremální normou. Zkoumámezobrazení fz C(T)do l + (A)takové,že f(x(t))(a):=sup x(t). (1) t A

144 134 Jana Husová Tvrzení2.1.Funkce fzprostoru(c(t), )doprostoru(l + (A), A ) definovaná vztahem(1) je spojitá. Důkaz: Potřebujeme ukázat, že vzor otevřené množiny je otevřený a to plyne z vlastnosti zobrazení vůči zvoleným metrikám. Platí totiž: d(x, y) d A (f(x), f(y)) x, y C(T). (2) Z tohoto vztahu plyne spojitost zobraní(1). Teď tedy již můžeme formulovat tvrzení. Q.E.D. Věta2.1.Nechťnáhodnéprocesy(X n (t), t T) n N0 majíspojitétrajektorie anavíc X n D XjakoprocesvC(T).Potomprokaždoukolekci A P(T) posloupnostprocesů(y n (A), A A),kde Y n (A):=sup X n (t), t A konvergujekprocesu(y(a), A A),kde Y(A)=sup t A X(t),jakoproces vprostoru l + (A). Důkaz: Protože slabá konvergence se zachovává spojitým zobrazením, viz např.[1], je věta důsledkem tvrzení 2.1. Q.E.D. 3 Prostor l + (T) Předpokládejme,obecněji,žeprocesy X n l + (T).Prostoruvažujemese supremální metrikou. Předpokládejme tedy, že v prostoru omezených funkcí se supremální metrikou posloupnost náhodných procesů (X n ) konverguje slaběknáhodnémuprocesu X.Projakékolekcemnožin A P(T)konvergujeposloupnostnáhodnýchprocesů(Y n (A), A A)slaběknějakému náhodnémuprocesu(y(a), A A)? Procesy Y n (A)budouopětprvky l + (A).Prvkyprostoru l + (T)obecně nemusí být měřitelné, připomeňme tedy definici slabé konvergence pro obecně ne nutně měřitelné nety, viz např.[2]. Definice3.1(Slabákonvergence). Net(X λ )konvergujeslaběkměřitelnémuatěsnémuzobrazení Xv(l + (T), ),zn. X λ D X,tehdyajen tehdy pokud lim inf λ Λ Pr (X λ G) Pr(X G) G G(l + (T)). Všimněme si, že stejně jako slabá konvergence pro měřitelná zobrazení i tato konvergence se zachovává spojitým zobrazením. Na tomto prostoru také platí vztah(2), zobrazení(1) je spojité a tedy slabá konvergence se zachovává. Atedyvěta2.1platíiproprocesystrajektoriemivprostoru l + (T).

145 Slabá konvergence suprema náhodných procesů Prostor D(T) Prostor D(T) se Skorochodovovou metrikou je jiný případ, nemůžeme použít dosavadní výsledky, protože prostor D(T) je vybaven Skorochodovou metrikou a ne supremální. Opětvíme,ženáhodnéprocesy(Y n (A), A A)budounáležetdo l + (A). Tady už se ale konvergence obecně nezachovává, protože zobrazení(1) není spojité. V následujícím příkladě ukážeme, že se obecně nezachovává ani konvergence jednorozměrných marginálů. Příklad: Mějme X 2n (t) = I (1/2 1/n;1] (t) ω X 2n+1 (t) = X(t)=I [1/2;1] (t) ω Potom X n D Xv(D([0,1]), d)(prostortzv.cadlagfunkcí)(dokoncevpravděpodobnosti),ale Y 2n ([0,1/2))=1s.j.aY 2n+1 ([0,1/2))=0s.j.,atedy Y n ([0,1/2))nekonverguje. Abychom mohli mluvit o konvergenci konečně rozměrných marginálů, potřebujemeproobrazyfunkcízd(t)najíttakévhodnýprostorsvhodnou metrikou. Tj. zobecněný Skorochodův prostor. Předpokládejme tedy, že prostor D(T) je zobecněný Skorochodův prostor (podle[3]).toznamená,žeexistuje(λ, )prostorbijekcína Tsnormou, která splňuje: (i) λ 0, λ =0 λ=e, (ii) λ µ λ + µ, (iii) λ 1 = λ. A také existuje kolekce D konečných dělení T usměrněná zjemněním a invariantní vůči Λ, tj. λ Λa ={A i } D λ( )={λ(a i )} D. Aprostor D(T)jeprostorvšechomezenýchreálnýchfunkcína T,kteréleží v uzávěru(vůči Skorochodově metrice) množiny všech jednoduchých funkcí na D. Skorochodova vzdálenost dvou funkcí je d(x, y)=inf{ε >0: λ Λ: λ < ε x λ y < ε}. (3) Potřebujeme tedy najít také prostor bijekcí s normou na A a vhodnou kolekcidělení D A tak,abybylisplněnypodmínkyskorochodovaprostoru.

146 136 Jana Husová Anavíc,abyobrazyfunkcízD(T)patřilydo D(A)aabynašezobrazení také zachovávalo slabou konvergenci. Uvažujmetedynásledujícíprostorbijekcí(Λ A, A ),kde λ A Λ A : λ A : A A (4) A λ(a). (5) Všimněmesi,žetímpředpokládáme,že A D(T)anavíc,že Ajeinvariantnívůči λ.akolekci D A obdobně D A := {P( ): D}. (6) Taktodefinovanákolekce D A jetakéusměrněnávůčizjemněníainvariantnívůčiλ A. Teď je otázka, jestli platí x D(T) f(x) D(A), kde fjedefinovánov(1). Tozáležínanormách,kteréjsounaΛaΛ A.Předpokládejme,ženaΛ máme následující normy(obvyklé): λ s λ t := sup ρ(λ(t), t) t T := sup ρ(λ(t), λ(s)) log ρ(t, s) t,s T:ρ(t,s) 0 λ m := λ s + λ t. AnormynaΛ A indukujmestejnýmzpůsobem,tj.místo ρbude ρ A,což bude označovat Hausdorfovu pseudometriku na A. Tyto normy budeme opět označovat stejně, jen s indexem A nahoře. Potomlzenahlédnout,díkytomu,že λ = λ 1,že Apodobně Atedytaké λ A A t = λ A A s =sup ρ A (λ(a), A) λ s. A A sup A,B A:ρ A (A,B) 0 log ρa (λ(a), λ(b)) ρ A (A, B) λ t. λ A A m λ m. Díkytěmtovztahůmtaképlatí: x D(T) f(x) D(A),proprostory, kteréjsouindukoványnormami s,resp. t, m a A s,resp. A t, A m.

147 Slabá konvergence suprema náhodných procesů 137 Tvrzení 4.1. Nechť D(T) je zobecněný Skorochodův prostor, který je indukovanýnormovanýmprostorem(λ, )akolekcí D.Anechť D(A)jetakézobecněnýSkorochodůvprostorindukovanýnormovanýmprostorem(Λ A, A ) z(4)akolekcí D A podle(6),kde A splňuje: x D(T): x f(x) A, kde fjedefinovánov(1). Potomprovšechny A D,kteréjsouinvariantnívůči λ,platí: {y: x D(T):y= f(x)} D(A), tj.zobrazení fz(1)jeměřitelnézobrazenízd(t)do D(A). Důkaz:Buď x D(T)libovolné.Položme y(a)=sup t A x(t).achceme ukázat,že y D(A).Víme,že y l + (A)apotřebujeme,že d A (y,i D A)=0. Víme,že d(x,i D )=0,tj.existujeposloupnost(λ n Λ)ajednoduchých funkcí(x n )taková,že λ n ց0a x x n λ n ց0.položme λ A n obraz λ n podle(4)ay n obraz x n podle(1).potomurčitě λ A n A ց0a sup y(a) y n (λ n (A)) =sup A A A A Tedy y D(A). sup t A x(t) sup x n (λ n (t)) ց0. t A Q.E.D. Za předpokladů z tvrzení 4.1 lze snadno ukázat, že funkce(1) je spojitá, a tedy slabá konvergence zůstane zachována. Tvrzení4.2.Zapředpokladůtvrzení4.1jefunkce fz(1)spojitá. Důkaz:Kdůkazuspojitostistačíukázat,žeprovšechnynety(x α )takové, x α xplatí,že f(x α ) f(x).mykonkrétněukážeme,žeplatí: d(x, y) d A (f(x), f(y)). Předpokládejmetedy,že d(x, y) ε,kde djeskorochodovametrika,viz(3). Toznamená,žeexistuje λ Λtakové,že λ d(x, y)azároveň x λ y d(x, y). Potomtaképodlepředchozího λ A A d(x, y),kde λ A jeindukována λ podle(4).aukažme,žetaké f(x) λ A f(y) A d(x, y). sup f(x) λ(a) f(y) A A = sup sup x(t) y(t) = A A t λ(a) = sup sup x(λ(t)) y(t) A A t A x λ y d(x, y). sup A A Atedy d A (f(x), f(y)) d(x, y)azobrazení fjespojité. Q.E.D.

148 138 Jana Husová Věta 4.1. Nechťposloupnostprocesů(X n )konvergujeslaběkprocesu X v D(T),potomposloupnostprocesů(Y n )indukovanýchzobrazením(1)konvergujeslaběkprocesu Y v D(A),kde D(A)jeztvrzení4.1aA D. Důkaz: Spojité zobrazení zachovává slabou konvergenci, a tak je věta důsledkem tvrzení 4.2. Q.E.D. Reference [1] Billingsley P.(1968): Convergence of probability measures. Wiley, New York. [2] van der Vaart A.W., Wellner J.A.(1996): Weak convergence and empirical processes. Springer-Verlag, New York. [3] Straf M.L.(1970): Weak convergence of stochastic processes with several parameters. Proc. 6th Berkley Symposium math. Statist. Probab., Univ. Calif (1972). Poděkování: Příspěvek vznikl za podpory výzkumného záměru MŠMT: MSM a GA ČR grantu 201/03/1027. Adresa:J.Husová,KPMSMFFUK,Sokolovská83,Praha8-Karlín husova@zf.jcu.cz

149 ROBUST 2004 c JČMF 2004 EXTRÉMY GAUSSOVSKÝCH POSLOUPNOSTÍ A PROCESŮ Daniela Jarušková Klíčová slova: Extrémy závislých a nezávislých gaussovských posloupností, asymptotická teorie, Gumbelovo rozdělení, procesy Ornsteinova-Uhlenbeckova typu, derivovatelné procesy, extrémy na pevném intervalu, střední počet překročení úrovně, Riceova věta, extrémy na rostoucích intervalech, maxima milánských teplotních odchylek, detekce bodu změny. Abstrakt: Článek se zabývá asymptotickou teorií extrémů gausovských posloupností a procesů. Pomocí simulací studuje rychlost konvergence k limitnímu rozdělení. Teorie je aplikovaná na rozdělení testových statistik maximálního typu pro testování změny v posloupnosti náhodných veličin. 1 Úvod Ačkoliv stochastická teorie extrémů není zdaleka nová, její popularita v posledních letech stoupá. Zájem o ni projevují odborníci v oboru meteorologie, hydrologie a klimatologie, kteří by ji rádi využili k odhadu výskytu extrémních událostí, jako jsou nezvykle vysoké či nízké teploty, povodně apod. Extrémní události zajímají i ekonomy a matematiky v pojišťovnách. Kromě toho se během posledních let objevilo i mnoho teoretických výsledků týkajících se chování extrémů v jednorozměrném i vícerozměrném případě. Mnoho nových výsledků bylo publikováno v časopise Extremes, který začal vycházet před šesti lety. Jednou za dva roky se také pořádá mezinárodní konference věnovaná právě teorii extrémů. Té poslední v portugalském Aveiru(2004) se zúčastnili čtyři statistici z České republiky. Já jsem se začala zajímat o teorii extrémů náhodných procesů při studiu limitního chování testových statistik maximálního typu, které se používají při detekci bodu změny. Ve svém příspěvku se chci zabývat asymptotickým chováním extrémů gaussovskýchposloupností {X i }agaussovskýchprocesů {X(t)},přesnějichováním P( max i=1,..., n X i > u), jestliže n a u, P(max X(t) > u), jestliže u 0 t T nebojestliže T a u. Přestože matematické myšlenky, postupy i získané výsledky teorie extrémů jsou velmi elegantní, sklízí teorie i řadu výtek. Nejzávažnější z nich spočívá v tom, že konvergence je velmi pomalá a rozumné aproximace lze

150 140 Daniela Jarušková získatažprovelmivysokérozsahyvýběrů nnebopropřílišvysoké,atudíž prakticky nezajímavé, hranice překročení u. I když v poslední době vyšlo několik zajímavých knih týkajících se extrémů,viznapř.[3],můjvýkladseopíráoklasickouknihu[6].snažilajsem se přitom získat představu o tom, jak limitní věty asymptotické teorie extrémů fungují, to znamená pro jaké rozsahy a jak vysoké úrovně překročení mají pro použití smysl. 2 Extrémy gaussovských posloupností 2.1 Extrémy nezávislých standardně normálně rozdělených veličin Nejprve uvažujme nejjednodušší možný případ, to znamená posloupnost nezávislýchstejně N(0,1)rozdělenýchnáhodnýchveličin {e i }.Zřejměprokaždé nplatí ( ) n P max e i < u = P(e i < u)=(φ(u)) n, i=1,...,n i=1 kde Φ( ) značí distribuční funkci standardního normálního rozdělení, zatímco φ( ) bude dále značit jeho hustotu. Pro libovolné n N tak známe nejen distribuční funkci maxima, ale i všechny momenty(alespoň numericky), a tedy i např. střední hodnotu, rozptyl, šikmost, špičatost apod. Studujmedálelimitníchovánímax i=1,...,n e i, když n.vzhledem ktomu,žeprovšechna u R 1 platí Φ(u) < 1,pakzřejměprovšechna u R 1 platí ( ) P max e i < u 0, když n. i=1,...,n Toznamená,žemax i=1,...,n e i jdespočtempozorovánínadevšechnymeze. Našísnahoujeprotonajítposloupnost {u n }(u n pro n )takovou,aby P(max i=1,...,n e i < u n )konvergovalakhodnotězintervalu(0,1). Příjemnébybylo,kdybysepodařilonajítposloupnost {u n }vetvaru u n = b n + a n xtak,aby ( ) maxi=1,...,n e i b n P < x a n mělalimituvintervalu(0,1)prokaždé x R 1.Následujícívětaříká,že jemožnétakovéposloupnosti {a n }a{b n }nalézt,audávátaké,jakmohou vypadat. Věta2.1.Nechť {e i }jeposloupnostnezávislých N(0,1)rozdělenýchnáhodnýchveličin.Nechťdále {a n }a{b n }jsouposloupnostireálnýchčíselsplňujících b n = 2logn 1 2 loglog n+1 2 log4π 1 a a n =. (1) 2logn 2log n

151 Extrémy gaussovských posloupností a procesů 141 Prokaždé x R 1 platí ( ) P max e i < b n + a n x e e x pro n. i=1,...,n Poznámka 2.1. Tabulka1udávákonkrétníhodnoty a n a b n proněkterá vybraná n.jepatrné,žesrostoucím nsehodnotyobouposloupnostímění jen velmi pomalu. n=100 n=500 n=1000 n=5000 b n a n Tabulka1:Hodnotykonstant a n a b n proněkolikvybranýchhodnot n. Poznámka 2.2. Věta 2.1 říká, že pro velká n je rozdělení maxima nezávislých standardníchveličinpřibližněgumbelovosparametremposunutí b n aparametremměřítka a n,toznamená,žeplatí ( ).= P max e i < y e e y bn i=1,...,n an. Obrázek 1 ukazuje tvar hustoty Gumbelova rozdělení pro parametr posunutírovný0aparametrměřítkarovný Obrázek 1: Hustota Gumbelova rozdělení.

152 142 Daniela Jarušková n=100 n=500 n=1000 n=5000 E Y n sd Y n Tabulka 2: Střední hodnota a směrodatná odchylka Gumbelova rozdělení, které aproximuje rozdělení maxima nezávislých N(0, 1) rozdělených veličin pro vybrané hodnoty n. Pronáhodnouveličinu Y n sgumbelovýmrozdělenímsparametremposunutí b n aparametremměřítka a n platí: E Y n. = bn a n, sd Y n. = an, šikmosty n. = Tabulka 2 udává střední hodnotu a směrodatnou odchylku pro různé hodnoty n N a opět ilustruje pomalý vývoj těchto charakteristik. Důkazvěty2.1. Označme u n = b n +a n xpro n N.Zřejměchcemedokázat cožjeekvivalentnístím,že (Φ(u n )) n e e x, nlog(1 (1 Φ(u n ))) e x. (2) Použijeme-li aproximaci logaritmu na okolí bodu 1 a známé aproximace pro pravděpodobnost překročení úrovně standardně normálně rozdělenou veličinou,tj.1 Φ(x) φ(x)/xpro x,je(2)ekvivalentnístím,že n(1 Φ(u n )) e x n φ(u n) u n e x 1. (3) Po zlogaritmování obou stran docházíme k závěru, že chceme najít posloupnost {u n }(u n pro n )tak,abysplňovala log n+x log u n 1 2 log2π u2 n 2 0. Odtud u n = 2logn+d n, kde d n = o( 2logn), ( ( 2logn d n log u n =log 1+ )) log 2log n= 1 2log n 2 log2+1 loglog n. 2 Posloupnost {d n }hledámetedytak,abyplatilo ( ) log n+x (1/2)log4π (1/2)loglog n log n+d n 2log n+d 2 n /2 0.

153 Extrémy gaussovských posloupností a procesů 143 Takovou posloupností je zřejmě d n = x (1/2)log4π (1/2)loglog n 2log n. Poznámka 2.3. Následující tvrzení ukazuje asymptotické chování rozdílu mezi skutečnoudistribučnífunkcímax i=1,...,n e i adistribučnífunkcígumbelova rozdělení: ( ( ) ) P max e i < b n + a n x e e x e e x e x (loglog n) 2. i=1,...n 16 log n Uvedená aproximace ilustruje pomalou konvergenci distribučních funkcí maxim. Pro odhad skutečného rozdílu mezi oběma distribučními funkcemi však nemážádnývelkývýznam.naobrázku2vidímerozdíl(φ(b n + a n x)) n e e x pro n=100.největšírozdíljepřibližněroven0.06,přičemžprorůzná x se rozdíly výrazně liší Obrázek 2: Rozdíl distribuční funkce maxima posloupnosti standardních normálníchveličinon=100členechpočítanévargumentu b n +a n xadistribuční funkce Gumbelova rozdělení. 2.2 Extrémy závislých normálně rozdělených náhodných posloupností Nyní se zabývejme otázkou, jaké bude limitní rozdělení maxima posloupnosti standardně normálně rozdělených veličin, jestliže mezi těmito veličinami exis-

154 144 Daniela Jarušková tuje závislost, která je charakterizována korelační maticí. Nejdůležitějším výsledkem, který zde uvedeme, je tvrzení, že za velmi obecných podmínek na autokorelační funkci má maximum z n členů stacionární gaussovské posloupnosti stejné limitní rozdělení jako maximum nezávislých normálních veličin. Tyto podmínky jsou splněny například pro stacionární gaussovské ARMA posloupnosti. Tvrzení o limitním chování maxima stacionární posloupnosti je jednoduchým důsledkem odhadu vzdálenosti mezi distribučními funkcemi maxim dvou stacionárních gaussovských vektorů s různými korelačními maticemi. Předpokládejme,ževektor X=(X 1,...,X n ) T mákorelačnímatici R 1 adistribučnífunkci F 1 (x 1,..., x n ),zatímcovektor Y =(Y 1,..., Y n ) T má korelačnímatici R 0 adistribučnífunkci F 0 (x 1,..., x n ).Budemehledathorní odhadrozdílu F 1 (x 1,..., x n ) F 0 (x 1,..., x n ),protožezřejměplatí P(max(X 1,..., X n ) < u) P(max(Y 1,..., Y n ) < u) (4) = F 1 (u, u,...,u) F 0 (u, u,..., u). Prokaždé h [0,1]definujmenáhodnývektor Z h = hx+ 1 hy. Vektor Z h mástandardněnormálněrozdělenésložky,přičemžjehokorelační matice R h splňuje R h = h R 1 +(1 h)r 0.Označme F h (x 1,..., x n )distribučnífunkcivektoru Z h a φ h (x 1,..., x n )jehohustotu,tj. Věta 2.2. Platí F h (x 1,..., x n )= xn... x1 φ h (y 1,..., y n )dy 1... dy n. F 1 (x 1,..., x n ) F 0 (x 1,...,x n ) = 1 (r 1ij r 0ij ) F h (x 1,...,x n Z hi = x i, Z hj = x j )φ hij (x i, x j )dh i < j (r 1ij r 0ij ) i < j φ hij (x i, x j )dh, kde φ hij (x i, x j )jemarginálníhustota(i, j) týchsložek Z hi a Z hj vektoru Z h. Důkaz. F 1 (x 1,..., x n ) F 0 (x 1,...,x n ) = 1 0 F h (x 1,...,x n ) dh= h = (r 1ij r 0ij ) i < j = (r 1ij r 0ij ) i < j 1 xn 0 1 xn i < j x1 F h (x 1,..., x n ) r ij φ h (y 1,...,y n ) r ij r ij h dh dy 1... dy n dh x1 2 φ h (y 1,...,y n )... dy 1... dy n dh y i y j

155 Extrémy gaussovských posloupností a procesů 145 = (r 1ij r 0ij ) i < j 1 xn 0 = (r 1ij r 0ij ) i < j 1 xn 0 = (r 1ij r 0ij ) i < j 1 0 x1... φ h (y 1,...,x i,..., x j,..., y n ) dy 1...dy n dh dy i dy j x1... (r 1ij r 0ij ) i < j φ h (..., x i,..., x j,...) φ hij (x i, x j ) dy 1...dy n dh φ hij (x i, x j ) dy i dy j F h (x 1,..., x n Z hi = x i, Z hj = x j )φ hij (x i, x j )dh 1 0 φ hij (x i, x j )dh. V předchozím byla využita známá rovnost pro hustoty vícerozměrného standardníhonormálníhorozdělení φ(x 1,..., x n )skorelačnímaticí R= r ij : φ(x 1,..., x n ) r ij = 2 φ(x 1,..., x n ) x i x j. Věta2.3.Nechťvektor X=(X 1,..., X n ) T mákorelačnímatici R 1 = r 1ij avektor Y =(Y 1,..., Y n ) T mákorelačnímatici R 0 = r 0ij anechťpro každoudvojici(i, j)platí r 1ij r 0ij.Potomprokaždé u R 1 platí P(max{X 1,..., X n } < u) P(max{Y 1,...,Y n } < u). Zjednodušeně by se předchozí tvrzení dalo říci slovy: Posloupnosti s vyšší korelací mezi svými členy dosahují menších maxim. Důkaz. P(max{X 1,..., X n } < u) P(max{Y 1,...,Y n } < u) = (r 1ij r 0ij )C ij (R 1, R 0, u), i < j kde C ij (R, R 0, u)jsounezápornékonstanty,neboťjsoutointegrályznezápornéfunkce(f h jedistribučnífunkceaφ h jehustota). Předchozí věta se dá zobecnit i na náhodné procesy.

156 146 Daniela Jarušková Věta2.4. Nechť {X(t), t [0, T] }a{y(t), t [0, T] }jsoustandardizované gaussovsképrocesyskorelačnífunkcí R 1 (s, t),resp. R 2 (s, t).nechťprokaždé s < tplatí R 1 (s, t) R 2 (s, t),pakprokaždé u R 1 ( ) ( ) P max X(t) < u t [0,T] P max Y(t) < u t [0,T] Věta2.5.Proshorauvažovanévektory Xa Y a u R 1 platí P(max{X 1,...,X n } < u) P(max{Y 1,..., Y n }) 1 r 1ij r 0ij φ hij (u, u)dh i < j r 1ij r 0ij i < j kde r ij =max( r 1ij, r 0ij ) π 1 1 r ij 2 } exp { u2, 1+ r ij Věta 2.5 dává horní odhad pro vzdálenost distribučních funkcí maxim dvou vektorů standardních normálních veličin, které se liší korelací mezi svými členy. Pro praktické účely(jakmile u není opravdu velké) je uvedený odhad hrubý. V následující větě se odhaduje rozdíl mezi distribuční funkcí maxima stacionární závislé posloupnosti a distribuční funkcí maxima nezávislých veličin. Věta 2.6. Nechť X 1, X 2,... jestacionárnístandardizovanágaussovskáposloupnostskorelačnífunkcí {ρ(k)},kde ρ(k) <1 δprovšechna k=1,..., a Y 1, Y 2,... jeposloupnostnezávislýchnormálníchnáhodnýchveličin.pak prokaždé u R 1 akaždé n Nplatí P(max{X 1,...,X n } < u) P(max{Y 1,... Y n } < u) n 1 1 n ρ(k) 2π exp u { 2 } i=1 1 ρ(k) 2 1+ ρ(k) n } C n ρ(k) exp { u2. 2 δ k=1 Zvěty2.6plyne,žeprovysokéúrovněpřekročení,například u n 2log n, je limitní chování pravděpodobnosti překročení pro stacionární posloupnosti s nepříliš pomalu klesající korelační funkcí stejné jako pro nezávislé veličiny. Věta 2.7. Nechťposloupnosti X 1, X 2,... a Y 1, Y 2,... jsoustejnéjakove větě2.6a{u n }jeposloupnostreálnýchčíseltaková,že u n 2log n(taková jenapř.posloupnost u n = b n + a n xzvěty2.1)a k=1 ρ(k) <,pak P(max{X 1,..., X n } < u n ) P(max{Y 1,...,Y n } < u n ) 0. pro n. (5)

157 Extrémy gaussovských posloupností a procesů 147 Poznámka 2.4. Platí-li ρ(n)log n 0pro n,pak(5)opětkonvergujek0. Věta2.8. Nechť {X i }jestacionárnígaussovskáarmaposloupnost.nechť dále {a n }a{b n }jsouposloupnostireálnýchčíselsplňujících b n = 2logn 1 2 loglog n+1 2 log4π 1 a a n =. 2logn 2log n Prokaždé x R 1 platí ( ) P max X i < b n + a n x e e x pro n. i=1,...,n Předchozí věta říká, že se pro velká n maxima stacionárních gaussovských ARMA posloupností a maxima nezávislých posloupností chovají stejně. Podívejmesenyníkonkrétnějinato,jakselišírozdělenímaximproARposloupnosti a nezávislé posloupnosti. Tabulka 3 udává, jak se liší distribuční funkce F( ) maxima AR(0.4) posloupnosti(autoregresní posloupnosti 1. řádu s autoregresním koeficientem 0.4) od distribuční funkce maxima nezávislých N(0,1)rozdělenýchveličinprodélkuposloupnosti n=100.tabulka4udává základní momentové charakteristiky maxim obou posloupností. Poznamenejme, že všechny hodnoty byly získány simulacemi o rozsahu Rozdíl mezi oběma distribučními funkcemi není příliš velký(největší je řádově roven 0.045) a také základní charakteristiky rozdělení se dobře shodují. Poměrně dobrou shodu potvrzuje i obrázek 3. Velice špatnou shodu však dostaneme, když uvažujeme rozdělení maxima posloupnosti AR(0.8) o délce n = 100, viz tabulka5a6aobrázek3. u F(u) (Φ(u)) 100 (Φ(u)) Tabulka 3: Rozdíl mezi distribučními funkcemi maxima posloupnosti AR(0.4) a nezávisle rozdělených veličin pro n = 100. střední hodnota směrodatná odch. šikmost AR(0.4) nezávislé Tabulka 4: Základní charakteristiky maxima posloupnosti AR(0.4) a nezávisle rozdělených veličin pro n = 100.

158 148 Daniela Jarušková nezav AR(04) AR(08) Obrázek 3: Hustota maxim nezávislých veličin(plná čára) a maxim autoregresní posloupnosti 1. řádu s autoregresním koeficientem 0.4(čárkovaná čára), respektive 0.8(čerchovaná čára) pro n = 100 získané simulací o rozsahu u F(u) (Φ(u)) 100 (Φ(u)) Tabulka 5: Rozdíl mezi distribučními funkcemi maxima posloupnosti AR(0.8) a nezávisle rozdělených veličin pro n = 100. střední hodnota směrodatná odch. šikmost AR(0.8) nezáv Tabulka 6: Základní charakteristiky maxima posloupnosti AR(0.8) a nezávisle rozdělených veličin pro n = 100. Situace se příliš nezlepší, ani když se délka posloupnosti prodlouží, např. na n=1000,viztabulka7a8.

159 Extrémy gaussovských posloupností a procesů 149 u F(u) (Φ(u)) 1000 (Φ(u)) Tabulka 7: Rozdíl mezi distribučními funkcemi maxima posloupnosti AR(0.8) a nezávisle rozdělených veličin pro n = střední hodnota směrodatná odch. šikmost AR(0.8) nezáv Tabulka 8: Základní charakteristiky maxima posloupnosti AR(0.8) a nezávisle rozdělených veličin pro n = Z předchozího je zřejmé, že pokud nás zajímá rozdělení maxima posloupnosti délky sto až tisíc pozorování, dává aproximace Gumbelovým rozdělením alespoň přijatelné výsledky pro nezávislé či velmi slabě závislé posloupnosti. Jakmile však jsou veličiny silně kladně zkorelované(např. maximum autoregresní posloupnosti 1. řádu s autoregresním koeficientem 0.8, viz[7]), pak je rozdělení maxima takové posloupnosti výrazně odlišné od Gumbelova. 3 Gaussovské procesy 3.1 Stacionární gaussovské procesy Náhodný proces {X(t) t 0} se nazývá gaussovský proces, jestliže pro každé n N akaždouposloupnost0 t 1 < < t n mánáhodnývektor(x(t 1 ),..., X(t n )) T normálnírozdělení.nadálebudemeuvažovatpouze standardizovanéprocesy,tj.procesy,prokteréplatíe(x(t))=0ae(x(t)) 2 = 1. Gaussovský proces je stacionární, jestliže jeho korelační funkce r(t, s) = E(X(t)X(s))závisípouzenarozdílučasovýchargumentů: r(t, s)=r(t s). Pro standardizovaný stacionární gaussovský proces platí, že veškeré jeho vlastnosti jsou určeny pouze jeho korelační funkcí {r(t), t 0}, přičemž zřejmě r(0)=1. Při studiu extrémů gaussovských procesů se budeme zabývat pouze procesysespojitoukorelačnífunkcí,kterámávbodě0jedenzedvounásledujících rozvojů: r 1 (t)=1 C 1 t+o(t) pro t 0, (6) r 2 (t)=1 1 2 C 2 t 2 + o(t 2 ) pro t 0. (7)

160 150 Daniela Jarušková Obrázek 4: Trajektorie procesu s korelační funkcí r(t) = exp( t/2). 3.2 Procesy Ornsteinova Uhlenbeckova typu Procesy, pro které korelační funkce splňuje(6), se někdy nazývají procesy Ornsteinova Uhlenbeckova typu. Nejjednodušším takovým procesem je pochopitelně sám Ornsteinův Uhlenbeckův proces, tj. proces s korelační funkcí r(t)=e C t.naobrázku4vidímetrajektorietakovéhotoprocesu. Ornsteinův Uhlenbeckův proces často slouží jako model rychlosti částice vykonávající Brownův pohyb. Ornsteinův Uhlenbeckův proces může vzniknout jako limita spojitých po částech lineárních procesů vytvořených ze stacionární autoregresní posloupnosti 1. řádu Y k+1 = a Y k + e k+1, kde 0 < a <1, sautokorelačnífunkcí r(k)=a k, k=0,1,....předpokládejme,žeautoregresní koeficient a je funkcí parametru a že platí: a( )=1 α +o( ) pro 0. Definujmespojitýpočástechlineárnígaussovskýproces {Y (t), t 0}tak, aby Y (t)=y k pro t=k, k=0,1,... Prokorelačnífunkce r (s, s+t)procesu {Y (t)}platí r (s, s+t) corr(y (t), Y (0)) a t/ (1 α ) t/ e α t, atedy {Y (t)}konverguje(vdistribuci)pro 0kOrnsteinově Uhlenbeckověprocesuskorelačnífunkcí r(t)=e α t.

161 Extrémy gaussovských posloupností a procesů Derivovatelné procesy Proces {X(t), t 0}jederivovatelnýv L 2,jestližeexistujeprocesskonečným rozptylem {Ẋ(t), t 0}takový,aby ( ) 2 X(t+h) X(t) E h Ẋ(t) 0 pro h 0. Proces {Ẋ(t)}senazýváderivacíprocesu {X(t)}.Dáseukázat,žepokud jeproces {X(t)}standardizovanýstacionárnígaussovský,paki{Ẋ(t)}je stacionární gaussovský proces s nulovou střední hodnotou. Vzhledem k tomu, že platí ( ) 2 X(t+h) X(t) ) E Var (Ẋ(t) pro h 0, h musí korelační funkce {r(t)} procesu {X(t)} splňovat 2 2 r(h) ) h 2 Var (Ẋ(0) atedymítrozvojvbodě0typu(7): ( σ 2 x) pro h 0, Navíc platí r(h)=1 σ2 x 2 h2 + o(h 2 ) pro h 0. (8) ( ) corr X(t), Ẋ(t) =0 amezikorelačnímifunkcemi {ṙ(t)}procesu {Ẋ(t)}a{r(t)}procesu {X(t)}je vztah ṙ(t)= r (t).platí-lishorauvedenépodmínky,dáseukázat,žeexistuje verze procesu s derivovatelnými trajektoriemi. Ornsteinův Uhlenbeckův proces není derivovatelný. Uveďme tedy několik příkladů procesů, které derivovatelné jsou: 1. Funkce kosinus s náhodnou amplitudou a posunutím: X(t)=Acos(ω 0 t)+bsin(ω 0 t)=ccos(ω 0 t+φ). Předpokládáme-li, že veličiny A a B jsou nezávislé standardně normálně rozdělenéafrekvence ω 0 jefixníanenáhodná,pak {X(t)}jestandardnígaussovský proces. Snadno lze ukázat, že za těchto předpokladů má posunutí φ rovnoměrné rozdělení R(0, 2π) a amplituda C rozdělení s hustotou Korelační funkce f(x)=xe x2 /2 mározvojvbodě0: pro x 0, f(x)=0 pro x <0. r(t)=cos(ω 0 t) r(t)=1 ω2 0 2 t2 + o(t 2 ) pro t 0.

162 152 Daniela Jarušková Obrázek 5: Trajektorie kosinového procesu sω 0 = π. Obrázek 6: Trajektorie kosinového procesu sω 0 =10π. Naobrázku5vidímetrajektorie kosinovéhoprocesu sω 0 = πanaobrázku6sω 0 =10π. 2.Gaussovskýprocessespektrálníhustotou h(ω)s ω2 h(ω)dω <.Připomeňme, že korelační funkce je Fourierovou transformací spektrální hustoty, atedyplatí r(t)= e iωt h(ω)dω a h(ω)= 1 cos(ωt)r(t) dt. 2π Inženýři si intuitivně představují takový proces jako nekonečnou směs kosinovýchprocesů snáhodnýmiamplitudamiaposunutími: X(t)= ω A ω cos(ωt)+b ω sin(ωt). My zde budeme uvažovat pouze případ, kde spektrální hustota h(ω) má jednoduchý tvar: h(ω)= 1 pro ω [ ω 0 a, ω 0 + a] [ω 0 a, ω 0 + a], 4a =0 jinde, kde ω 0, ajsounějakéznámékonstanty.korelačnífunkceprocesu {X(t)} mározvojvbodě0: r(t)=1 1 2 r(t)=(cos(ω 0 t)) sin(at) at (ω 20 + a2 3 ) t 2 + o(t 2 ) pro t 0. (9) Obrázek7ukazujepříkladkorelačnífunkce(9)pro ω 0 =10 πaa=π.

163 Extrémy gaussovských posloupností a procesů Obrázek 7: Autokorelační funkce(9) Obrázek 8: Trajektorie procesu s korel.fcí(9),kde ω 0 = πa a=π/3. Obrázek 9: Trajektorie procesu s korel.fcí(9),kde ω 0 =10 πaa=π. Obrázek8ukazujetrajektorieprocesuskorelačnífunkcí(9),kde ω 0 = π a a=π/3,aobrázek9trajektorieprocesu,kde ω 0 =10 πaa=π. 3. Gaussovský proces s korelační funkcí r(t)= 3 ) ( 2 ( 2 exp 3 t 12 ) 2 exp 3 3 t. (10) Korelačnífunkce(10)mározvojvbodě0: r(t)=1 t 2 + o(t 2 ) pro t 0. ) Rozptyl procesu derivace Var (Ẋ(t) = 2. Proces nemá druhou derivaci, protože r (0) 0.Obrázek10ukazujejehotrajektorie.Procesvznikápři studiu testové statistiky v problémech vzniku spojitého lineárního trendu v posloupnosti dat, viz sekce 4.2.

164 154 Daniela Jarušková Obrázek 10: Trajektorie procesu s korelační funkcí(10). 3.4 Maximum derivovatelného procesu na pevném intervalu Nechť {X(t)}jestandardizovanýgaussovskýprocessderivací ) {Ẋ(t)}.OznačmeVar (Ẋ(t) = σ x.proderivovatelnýprocesjevelmidůležitýpojempře- 2 kročeníúrovnětrajektorií.(funkce f překročívbodě t 0 úroveň usměrem vzhůru,jestližeexistuje ǫ >0takové,žeprovšechna t [t 0 ǫ, t 0 ]platí f(t) uaprovšechna t [t 0, t 0 + ǫ]platí f(t) u.)prostřednípočetpřekročeníúrovně usměremvzhůrue(n u [0, T])naintervalu[0, T]totižexistuje analytické vyjádření, viz věta 3.2. Ze stacionarity procesu plyne E(N u [0, T])= TE(N u [0,1]). Pro nás je však důležité, že pomocí středního počtu překročení lze omezit pravděpodobnost překročení úrovně. Věta 3.1. Pro standardizovaný derivovatelný gaussovský proces {X(t)} platí: ( ) P max X(t) > u (1 Φ(u))+E(N u [0, T]) 0 t T =(1 Φ(u))+TE(N u [0,1]). Jestliže r(t) <1provšechna t 0,pak ( ) P max X(t) > u (1 Φ(u))+TE(N u [0,1]) pro u. (11) 0 t T Vzhledem k tomu, že pravděpodobnost(1 Φ(u)) je asymptoticky zanedbatelná vzhledem ke střednímu počtu překročení úrovně, platí také ( ) P max X(t) > u TE(N u [0,1]) pro u. (12) 0 t T

165 Extrémy gaussovských posloupností a procesů 155 Důkaz. ( ) P max X(t) u = P(X(0) u)+p(x(0) < u N u [0, T] 1) 0 t T Poslední nerovnost plyne z toho, že P(X(0) u)+p(n u [0, T] 1) P(X(0) u)+e(n u [0, T]). P(N u [0, T] 1)= E(N u [0, T])= P(N u [0, T]=i), i=1 i P(N u [0, T]=i). i=1 Důkaz limitního chování(11) je poměrně složitý, zájemci ho mohou najít např.v[6]. Všimněmesitoho,žehorníodhadv(11)jetímpřesnější,čímmenšíje pravděpodobnost, že proces překročí úroveň směrem vzhůru více než jednou. Pro pomalusepohybujícíprocesy budehorníodhadtěsnějšínežpro rychlejšíprocesy.horníodhadjetakétímtěsnější,čímvyššíhladinupřekročení uvažujeme. Dříve než budeme zkoumat těsnost horní meze v(11), ukažme, čemu se rovná střední počet překročení úrovně. Věta 3.2.(Riceova věta) Pro standardizovaný stacionární derivovatelný gaussovský proces {X(t)} platí ) 1 E(N u [0,1])= σ x ( 2π exp u2, (13) 2 kde σ x jesměrodatnáodchylkaprocesuderivace Ẋ(t)}. Pokudproces {X(t)}mástředníhodnotu0asměrodatnouodchylku σ x, pak E(N u [0,1])= σ ) x 1 ( σ x 2π exp u2 2σx 2. (14) Důkaz provedeme ve dvou krocích. Věta 3.3. Pro stacionární derivovatelný proces platí P(X(0) < u X(q) > u) E(N u [0,1])=lim. q 0 q Důkaz.Pro n=1,... zaveďmeprocesy {X n (t), t [0,1]},kterémajípo částech lineární spojité trajektorií, přičemž X n (i/2 n )=X(i/2 n ), i=0,...,2 n.

166 156 Daniela Jarušková Označme N n (u)početpřekročeníúrovně usměremvzhůruprocesem {X n (t)}. Zřejmě N n (u)konvergujemonotónněkn u [0,1]pro n.zlevihověty plyne,žeen n (u) EN u [0,1].Vzhledemktomu,žeproces {X n (t)}může překročitúroveň uvkaždémzintervalů[(i 1)/2 n, i/2 n ]nejvýšejednou, plyne: EN n (u)= 2 n i=1 P(X((i 1)/2 n < u X(i/2 n ) > u) =2 n P(X(0) < u X(1/2 n ) > u). Existuje-lilimita P(X(0) < u X(q) > u)/q,pakkníposlednívýrazkonverguje. Věta 3.4. Pro stacionární derivovatelný proces platí P(X(0) < u X(q) > u) lim = q 0 q Důkaz. = 1 P(X(0) < u X(q) > u) q = 1 u ( X(q) X(0) P q q = 1 q = 1 q u (u v)/q u 0 u wq 0 0 > u v q w f (X(0), Ẋ(0)) (u, w)dw w fẋ(0) (w X(0)=u)f X(0) (u)dw. ) X(0)=v f X(0) (v)dv f (X(0),(X(q) X(0))/q) (v, w)dw dv f (X(0),(X(q) X(0))/q) (v, w)dv dw. Obrázek 11 ilustruje platnost poslední rovnosti. Dále pokud q 0, pak poslední dvojný integrál konverguje k integrálu w f (X(0), Ẋ(0)) (u, w)dw= w fẋ(0) (w X(0)=u)f X(0) (u)dw. 0 0 Důkazvěty3.2. Veličiny X(0) a Ẋ(0) jsou nezávislé normálně rozdělené, proto 0 w fẋ(0) (w X(0)=u)dw= 0 w fẋ(0) (w)dw= σ x 2π.

167 Extrémy gaussovských posloupností a procesů 157 w v u w = u v q Obrázek 11: Obor hodnot dvojného integrálu ve větě 3.4. Poznamenejme, že v předchozích tvrzeních jsou třeba jisté předpoklady na sdruženou hustotu vektoru(x(0),(x(q) X(0))/q), které zabezpečují existenci potřebných limit a záměnu limity a integrálu. Pro normálně rozdělené veličiny jsou tyto předpoklady splněné. Důsledekvěty3.1avěty3.2. Pro standardizovaný stacionární derivovatelný gaussovský proces {X(t)} platí: ( ) P max X(t) > u T σ x φ(u) pro u. (15) 0 t T 2π Položme si otázku, jak lze Riceovu větu použít ve statistické analýze pro odhad středního počtu přechodu úrovní směrem vzhůru, a odtud popřípadě pro odhad pravděpodobnosti přechodu vysokých úrovní. Rozptyl procesu derivace totiž obvykle neznáme a jeho odhad je často nespolehlivý. Můžeme však použít vztah(14). Po zlogaritmování získáme lineární vztah mezi kvadrátem úrovněpřekročení u 2 (nezávislouproměnnou)alogaritmemstředníhopočtu překročeníúrovně(závisleproměnnou)log(e(n u [0,1])): log(e(n u [0,1]))=c+du 2. Z údajů o počtu překročení nižších úrovní můžeme odhadnout regresní technikouparametry cadazískanývztahpoužítproodhadpočtupřekročení vysoké úrovně u, která nás zajímá. Nyní si ukažme na našich příkladech, jak těsně odhaduje horní hranice(11) pravděpodobnosti překročení meze u směrem vzhůru na intervalu [0,1].Nejprvesezabývejmepřípadem1,tj. kosinovýmprocesem : X(t)=Acos(ω 0 t)+bsin(ω 0 t)=ccos(ω 0 t+φ).

168 158 Daniela Jarušková Uvažujmepřípad,kdy ω 0 π.vtakovésituacijetrajektorieprocesuvbodě0 buďvětšínež u,cožjeekvivalentnístím,žetrajektorieužúroveň uběhem časovéhointervalu[0,1]nepřekročí,nebojevbodě0menšínež u,cožje ekvivalentní s tím, že překročí úroveň u právě jednou. Odtud plyne, že se nerovnost(11) změní v rovnost: ( ) P max X(t) > u =(1 Φ(u))+E(N u [0,1]). 0 t 1 Naopak,jestliže ω 0 2π,pak ( ) P max X(t) > u = P(C > u)=e u2 /2. 0 t 1 Proces {X(t)}vpřípadu2skorelačnífunkcí r(t)=(cos(ω 0 t)) sin(at) at je dojistémíry podobný procesuzpřípadu1,atotímvíce,čímmenšíje hodnota a.nenítedydivu,žepro ω 0 πamalé abudehorníhranicev(11) těsná,zatímcopro ω 0 >2πbudevelmivolná,svýjimkouprovysokéhranice překročení, viz tabulky 9 a 10. Nakonec se ještě podívejme na kvalitu horního odhadu(11) pro proces vpřípadu3skorelačnífunkcí(10).tabulka11ukazuje,žeizdejehornímez poměrně těsná. Poznamenejme, že odhady pravděpodobností překročení byly provedeny ze simulací. 1 Φ(u) EN u 1 Φ(u)+EN u P(maxX(t) > u) u = u = u = Tabulka 9: Porovnání pravděpodobnosti překročení s horní mezí(11) pro processkorelačnífunkcí(9),kde ω 0 = πa a=π/3. 1 Φ(u) EN u 1 Φ(u)+EN u P(maxX(t) > u) u = u = u = Tabulka 10: Porovnání pravděpodobnosti překročení s horní mezí(11) pro processkorelačnífunkcí(9),kde ω 0 =10πaa=π. 1 Φ(u) EN u 1 Φ(u)+EN u P(maxX(t) > u) u = u = u = Tabulka 11: Porovnání pravděpodobnosti překročení s horní mezí(11) pro proces s korelační funkcí(10).

169 Extrémy gaussovských posloupností a procesů Maximum procesu Ornsteinova Uhlenbeckova typu na pevném intervalu Věta 3.5. Pro standardizované stacionární gaussovské procesy Ornsteinova Uhlenbeckova typu, tj. pro procesy, jejichž korelační funkce má v bodě 0 rozvoj (6) platí ( ) P max X(t) > u T C u φ(u) pro u, (16) 0 t T kde konstanta C je konstanta vyskytující se v rozvoji(6). Důkaz. Důkaz je poměrně obtížný. Zájemci ho mohou opět najít v knize[6]. Zajímavé je srovnání(15) a(16). V obou případech lze pravděpodobnost překročení vysoké úrovně(chvost rozdělení maxima) aproximovat výrazem T λ(u), kde λ(u) je funkcí hranice překročení u. Pro derivovatelné procesy platí,že λ(u)=c d φ(u),zatímcoproprocesyornsteinova Uhlenbeckova typu λ(u)=c nd u φ(u)(konstanty C d = C 2 /(2π)aC nd = C 1 zrozvojů(6) a(7)). 3.6 Maximum stacionárních procesů na rozšiřujícím se intervalu V této kapitole se budeme studovat chování ( ) P max X(t) > u T 0 t T propřípad,kdy T aúroveňpřekročení u T,ovšemvzávislosti na T. Opět se budeme zabýváme pouze procesy, jejichž korelační funkce splňujebuď(6)nebo(7).navícbudemepředpokládat,že r(t)log(t) 0pro t.jezřejmé,želimitníchováníbudeodlišnéproprocesyornsteinova Uhlenbeckova typu a pro derivovatelné procesy. Věta 3.6. Pro standardizovaný stacionární derivovatelný proces {X(t)} platí ( ) P max X(t) > b T+ a T x 1 e e x pro T, (17) 0 t T kde b T = 2log T+ 1 2log T log σ x 2π a a T = 1 2logT. (18)

170 160 Daniela Jarušková Věta 3.7. Pro standardizovaný stacionární proces {X(t)} Ornsteinova-Uhlenbeckova typu platí ( ) P max X(t) > b T+ a T x 1 e e x pro T, (19) 0 t T kde b T = 2logT+ ( ( )) 1 1 C π 2logT 2 loglog T+log a a T = 1 2log T. (20) Náznak důkazu: Uvažujme λ(u)zevztahů(12)a(16)avolme uvzávislostina T tak,aby λ(u)t τ,jestliže T asoučasně u.provysokéúrovně uzřejmě platí ( ) P max X(t) < u (1 λ(u)). 0 t 1 Kdyby maxima na po sobě jdoucích intervalech o délce 1 byla nezávislá, pak by platilo ( ) P max X(t) < u (1 λ(u)) T e T λ(u) e τ. 0 t T Ve skutečnosti bohužel maxima na po sobě jdoucích intervalech nejsou nezávislá,aprotosemusípostupovatpřidůkazuopatrněji,atotak,žesemezi po sobě jdoucími intervaly vynechávají mezery, které na jedné straně zeslabují závislost mezi maximy a na druhé straně neovlivňují výslednou limitní pravděpodobnost. Našímpřánímjenynínajítúroveňpřekročenívetvaru u T = b T + a T x tak,aby T λ(u T ) e x.postuppřiodvozeníkonstant a T a b T alimitního rozdělení je stejný jako ve větě 2.1. Zvět3.6a3.7vyplývá,ževoboupřípadechmámaximumgaussovského procesu na velmi dlouhých intervalech opět přibližně Gumbelovo rozdělení. Rozdíl mezi oběma rozděleními je však v parametru měřítka a parametru posunutí. 4 Aplikace Poté, co jsem se seznámila s teorií extrémů gaussovských procesů jsem byla na pochybách, jak teorii použít ve statistice. Představme si, že měříme ve velmi krátkých časových okamžicích po velmi dlouhou dobu hodnoty gaussovského procesu. Na naměřenou řadu se můžeme dívat jako na realizaci gaussovské posloupnosti. Jsou-li však intervaly mezi po sobě jdoucími měřeními velmi krátké, bude korelace mezi odpovídajícími údaji blízká jedné. Jak bylo již řečeno dříve, aproximace rozdělení maxima pomocí Gumbelova rozdělení s parametry(1)nebudeasipřílišdobrá.nadruhéstraněsetakémůžemedívatna

171 Extrémy gaussovských posloupností a procesů 161 datajakonahodnotygaussovskéhoprocesuměřenéhovčasech t=1,...,t. Jakalevtompřípadězjistitchováníkorelačnífunkcenaokolíbodu0?Navíc můžeexistovatmnohotrajektorií,prokteré[x(1) < u] [X(T) < u], alemax 0 t T X(t) > u.odtudplynenapříkladineshodamezikonstantami a n a b n promaximum AR(1)posloupnostiakonstantami a T a b T (při T = n) pro maximum Ornsteinova Uhlenbeckova procesu. Pozorovaný proces také nemusí být dokonale normální. Zdá se, že nejrozumněji lze použít teorii extrémů tak, že se díky obecnému principu modeluje rozdělení maxim Gumbelovým rozdělením s parametry odhadnutými z naměřených dat. Aproximace Gumbelovým rozdělením je tím lepší, čím vyšší úrovně překročení nás zajímají. 4.1 Odchylky milánské teplotní řady Řada denních průměrných teplot měřených v Miláně je příkladem velmi dlouhé řady vzniklé přirozeným způsobem, nikoliv simulací. Bohužel díky změnám teploty během roku se nejedná o řadu stacionární. Řadu jsme stacionarizovali tak, že jsme odečetli průměr a vydělili směrodatnou odchylkou spočtených z hodnot v daném kalendářním dni. To znamená, že například od údajů pro 1. leden jsme odečetli průměr spočtený ze všech teplot v prvních lednech a rozdíly vydělili směrodatnou odchylkou prvních lednů, podobně odúdajůz2.lednajsmeodečetliprůměryzdruhýchlednůapodělilisměrodatnou odchylkou druhých lednů atd. Tímto způsobem jsme získali řadu standardizovaných odchylek řady od průměrné teploty pro příslušný kalendářní den. Velké hodnoty tedy znamenají neobvykle vysoké teploty pro daný kalendářní den v roce. Studovaná řada obsahuje údajů. Na obrázku 12 vidíme její histogram. Je zřejmé, že rozdělení je mírně záporně sešikmené(šikmost= ), takže není dokonale normální, jak bychom si přáli. Na obrázku 13 vidíme autokorelační funkci. Zdá se, že vhodným modelem by mohla být autoregresní posloupnost 1. řádu s autoregresním koeficientem Shoda empirické autokorelační funkce s teoretickou autokorelační funkcí je až zarážejícím způsobem dobrá pro posunutí(lag) menší než 10. Pro větší hodnoty posunutí klesá empirická autokorelační funkce pomaleji než by odpovídalo autoregresní posloupnosti 1. řádu. To může být způsobeno pomalým stochastickým kolísáním řady,tedyjejím slaběnestacionárnímchováním.jeznámo,žesedelší(někdy i několikaletá) období s vyšší teplotou střídají s obdobími s nižší teplotou. Také kladný trend v průměrné roční teplotě pozorovaný během posledních let se může v autokorelační funkci projevit podobným způsobem. Řaduodélce86000údajůjsmerozdělilina86úsekůpo1000datech a z každého úseku jsme spočítali maximum. Q-Q plot pro Gumbelovo rozděleníjenaobrázku14. Metodou maximální věrohodnosti jsme odhadli parametr měřítka a a parametrposunutí bgumbelovarozdělení â=0.2893aˆb=2.5377,kteréjsou výrazněodlišnéod a n a b n pro n=1000ztabulky1.tabulka12ukazuje

172 162 Daniela Jarušková Obrázek 12: Histogram milánských teplotních odchylek. Obrázek 13: Autokorelační fce milánských teplotních odchylek Y Quantiles X Quantiles Obrázek 14: Q-Q plot pro maxima milánských teplotních odchylek proti Gumbelovu rozdělení. empiricky Gumbel u= u = u = Tabulka 12: Pravděpodobnosti překročení úrovně u odhadované empiricky a pomocí Gumbelova rozdělení. pravděpodobnostipřekročeníúrovně P(maxX i > u)odhadovanéjednakneparametricky, z empirické distribuční funkce, a pak pomocí Gumbelova rozdělenísparametry âaˆb.

173 Extrémy gaussovských posloupností a procesů 163 Příklad ilustruje, že navzdory tomu, že konvergence rozdělení extrémů stacionární posloupnosti ke Gumbelovu rozdělení je pomalá(zvláště pro řady se silnou kladnou korelací mezi blízkými členy), je pro dostatečně dlouhé řady a vysoké úrovně překročení shoda mezi relativní četností překročení a odpovídající pravděpodobností spočtenou z Gumbelova rozdělení vcelku dobrá. 4.2 Aplikace teorie extrémů na problémy detekce bodu změny Nakonec uveďme ještě dvě aplikace teorie extrémů pro detekci bodu změny. Problémy bodu změny se zabývaly již dva příspěvky na minulých Robustech, viz[5]a[1],budemeprotostruční. Náhlá změna střední hodnoty Uvažujme situaci, která se objevuje ve statistické kontrole jakosti. Pokud je výrobníproces podkontrolou,kolísáměřenácharakteristikakvalitykolem určité známé hodnoty se známým rozptylem. Statistik by řekl, že v časovýchokamžicích t=1,2,...,npozorujenezávislénáhodnéveličinyseznámou střední hodnotou a známým rozptylem. Je zřejmé, že místo původních veličinmůžemeuvažovatjejichstandardizovanéverze {X i },kdeex i =0 avarx i =1pro i=1,...,n.navícbudemepředpokládat,ževšechna {X i } mají normální rozdělení. Díky poruše ve výrobním procesu se však může stochastické chování pozorovaných veličin změnit. Jedním z typů změn, které mohou nastat, je posun střední hodnoty při zachování stejného rozptylu. To znamená, že počínaje nějakým neznámým časovým okamžikem není již střední hodnota pozorovaných veličinnulová,alejerovnanějakému µ 0.Předpokádejme,ževímepředem,že µ >0.Vmatematickéstatisticeserozhodnutí,zdakezměnědošlo, obvykle provádí na základě výsledku testování hypotéz. Testujeme nulovou hypotézu Hprotialternativě A 1 : H:X i = e i, i=1,...,n, (21) A 1 : k {0,...,n 1} X i = e i, X i = µ+e i, takové,že i=1,...,k, i=k+1,...,n, kde {e i }jsounezávislé N(0,1)rozdělenénáhodnéveličinyaµ >0jeneznámá konstanta. Protože v čase n známe všechny hodnoty pozorovaných veličin můžeme(kvůli zjednodušení matematických formulí) změnit jejich pořadí na pořadíuvažovanéodkonce Xi nov = Xn i+1 star (dálebudemezjednodušeněpsát místo Xi nov pouze X i )amístoalternativy A 1 testovatalternativu A 1: A 1: k {1,..., n} X i = µ+e i, X i = e i, takové,že i=1,...,k, i=k+1,...,n.

174 164 Daniela Jarušková Kdybychom věděli, že pokud ke změně dojde, pak může nastat jedině v čase k, použili bychom k testování odhad µ metodou ( nejmenších čtverců k ) založenýpouzenaprvních kpozorování,tjˆµ k = i=1 X i /k, nebo ještě ( k ) lépe jeho standardizovanou verzi i=1 X i / k.nulovouhypotézubychom zamítli, jestliže by tato testová statistika překročila kritickou hodnotu. Pokud bod změny k neznáme, počítáme statistiku pro všechna( možná k a nulovou k ) hypotézu zamítneme, jestliže alespoň jedna ze statistik { / k, k= 1,...,n}nabudevelkéhodnoty,nebojinakřečeno,jestliže max 1 k n { } 1 k X i k i=1 i=1 X i (22) nabude velké hodnoty. Kromě statistiky(22) také používáme její useknutou verzi: { } 1 k X i, (23) k max [βn] k n kde βjenějakémalékladnéčíslo. Nulovou hypotézu zamítáme, jestliže statistika(22), resp. statistika(23), nabude tak velké hodnoty, že překročí kritickou hodnotu odpovídající požadované hladině významnosti. Je tedy zapotřebí znát rozdělení statistik(22), resp.(23), za platnosti nulové hypotézy. Obě dvě statistiky jsou maximem posloupnosti standardizovaných normálních veličin s korelací: i=1 corr ( k i=1 X m i i=1, X i )= k/m pro k m. (24) k m Použítpřesnérozdělenístatistik(22)a(23)zaplatnosti H 0 knalezeníkritickýchhodnotjevelmiobtížné.provelkýpočetdat nlzepoužítpřibližnékritické hodnoty založené na limitním chováním(22) a(23). Definujme náhodné procesy {U n (t), t [1/n,1]}sespojitýmipočástechlineárnímitrajektoriemi, pro které U n (k/n)= k i=1 X i k pro k=1,...,n, atedy,viz(24), corr(u n (t)u n (s))= [nt]/n + O(1/n) pro t s., (25) [ns]/n azajímejmeseorozdělenímaximaprocesu {U n (t)}naintervalu[1/n,1], resp. na intervalu[β, 1], neboť

175 Extrémy gaussovských posloupností a procesů Obrázek15:Proces {U n (t)}pro n= 250za platnosti H 0 a 5%kritické hodnotyspočtenépodle(27)sβ= 0.1a(28). Obrázek16:Proces {U n (t)}pro n= 250zaplatnosti A 1,kde k = 140 a µ =0.25a5%kritickéhodnoty spočtenépodle(27)sβ=0.1a(28). { } max U 1 k n(t)= max X i, 1/n t 1 1 k n k i=1 { } max U 1 k n(t)= max X i. β t 1 [β n] k n k Naobrázku15vidímetrajektoriiprocesu {U n (t)}zaplatnostinulové hypotézy H a na obrázku 16 trajektorii téhož procesu za platnosti alternativy A 1s k=140, µ=0.25. Maximumprocesu {U n (t)}je možnoaproximovatmaximemlimitního procesu {U(t)}, který bude mít vzhledem k(25) korelační funkci Použijeme-li transformaci času, pak i=1 corr(u(t), U(s))= t/s pro t s. max U(t)= max U(exp( s)), max U(t)= max U(exp( s)). 1/n t 1 0 τ log n β t 1 0 τ log1/β (26) Proces {U(exp( τ)), τ 0}jeOrnsteinův Uhlenbeckůvprocesskorelační funkcí r(τ)=exp( τ/2).maxima(26)jsoupakmaximatohotoprocesuna pevnémanarozšiřujícímseintervalu,protoz(16)a(19)plyne ( ) P max X i > x (1/2)xφ(x)log(1/β), (27) [β n] k n kde ( ) P max X i > x 1 k n ( 1 exp e x bn an ), (28)

176 166 Daniela Jarušková b n = 2loglog n+ a n = 1 2loglog n. ( ( )) loglog n 2 logloglog n+log 2, π Postupná lineární změna střední hodnoty Kromě náhlého skoku ve střední hodnotě se můžeme též snažit odhalit pomalu vznikající kladný lineární trend. Pomocí matematické statistiky můžeme naše rozhodnutí, zda k takovéto změně v neznámém čase došlo, založit opět na testování hypotéz. Jestliže stejně jako v minulém příkladu pracujeme sveličinami Xi nov = Xn i+1 star (opětprozjednodušeníbudemeznačit Xnov i pouze X i ),budemetestovatnulovouhypotézu Hprotialternativě A 2 : H:X i = e i, i=1,...,n, (29) A 2 : k {1,...,n} takové,že X i = b (k i+1)+e i, X i = e i, i=1,...,k, i=k+1,...,n, kde b >0jeneznámákonstantaa{e i }jsounezávislé N(0,1)rozdělenénáhodnéveličiny.Nechťˆb k označujeodhadregresníhokoeficientu bvčase k V k jeho standardizovaná verze ˆbk = k i=1 (k i+1)x i k i=1 (k i+1)2, V k= k i=1 (k i+1)x i k. i=1 (k i+1)2 Testovástatistikaprotestováníproblému(29)mátvarmax 1 k n V k nebo max [β n] k n V k,přičemžmezičlenyposloupnosti {V k, k=1,...,n}jekorelace: min(k,m) i=1 (k i+1)(m i+1) corr(v k, V m )= k i=1 (k i+1)2. m i=1 (m i+1)2 Definujeme-li podobným způsobem jako v předchozím případě spojitý po částechlineárníproces {V n (t), t (0,1]},pak max V k= max V n(t), max V k= max V n(t). 1 k n 1/n t 1 [β n] k n β t 1 Naobrázku17vidímetrajektoriiprocesu {V n (t)}zaplatnostinulovéhypotézy H a na obrázku 18 trajektorii téhož procesu za platnosti alternativy A 2 s k=140, b=0.25. Korelačnífunkceprocesu {V n (t)}pro t < s:

177 Extrémy gaussovských posloupností a procesů Obrázek17:Proces {V n (t)}pro n= 250za platnosti H 0 a 5%kritické hodnotyspočtenépodle(30)sβ= 0.1a(31). Obrázek18:Proces {V n (t)}pro n= 250zaplatnosti A 2,kde k = 140 a b = 0.25a5%kritickéhodnoty spočtenépodle(30)sβ=0.1a(31). corr(v n (t), V n (s))= 1 n 1 [nt] n [nt] i=1 ([nt] i+1 n i=1 ([nt] i+1 n konvergujepro n k t 0 (t x)(s x)dx t 0 (t s x)2 dx 0 (s x)2 dx ) 2 1 n = 3 2 )( [ns] i+1 n ) [ns] i=1 ([ns] i+1 n ) 2 + O ( ) 3 t t s 1. 2 s ( ) 1 n Provelká nlzetedymaximaprocesu {V n (t)}aproximovatodpovídajícími maximyprocesu {V(t)}skorelačnífunkcí r(t, s)=(3/2) t/s (1/2) (t/s) 3 pro t s.potransformacičasudostáváme max V(t)= max β t 1 0 τ log1/β V(e τ ), max V(t)= max 1/n t 1 0 τ log n V(e τ ). Proces {V(e τ )}jestacionárníderivovatelnýprocesskorelačnífunkcí r(τ)= 3 ( 2 exp 1 ) 2 τ 1 ( 2 exp 3 ) 2 τ. ajezřejměažnalineárnítransformacičasushodnýstřetímprocesemvkapitole3.3.jehokorelačnífunkcemávbodě0rozvoj: r(τ)=1 3 8 τ2 + o(τ 2 ) pro τ 0. Toznamená,že σ x = 3/4(srovnejs(8)),takžepodle(15)a(17) ( ) 3 P max X 1 i > x φ(x)log(1/β), (30) [β n] k n 2 2 π

178 168 Daniela Jarušková ( ) P max X i > x 1 k n ( 1 exp e x bn an ), (31) kde b n = 2loglog n+ a n = 1 2loglog n. 1 2loglog n (log ) 3, 4π Reference [1] Antoch J., Hušková M., Jarušková D.(1998). Change point problém po deseti letech. Robust 98, JČMF. [2] Camuffo D., Jones P.(2002). Improved understanding of past climatic variability from early daily european instrumental sources. Kluwer Ac. Pub., Dordrecht/Boston/London. [3] Embrechts P., Küppelberg C, Mikosch T.(1997). Modelling extremal events. Springer Verlag, Heidelberg. [4] Falk M., Hüsler J., Reiss R.-D.(2004). Laws of small numbers: Extremes and rare events. Birkhäuser, Basel. [5] Hušková M.(1988). Detekce změny regrese a detekce změny rozdělení. Robust 88, JČMF. [6] Leadbetter M. R., Lindgren G. and Rootzén H.(1983). Extremes and related properties of random sequences and processes. Springer Verlag, Heidelberg. [7] Rencová M.(2004). Extrémy v teplotních řadách. Robust 04, JČMF. Adresa: ČVUT, FSV, katedra matematiky, Thákurova 7, Praha 6 jarus@mat.fsv.cvut.cz

179 ROBUST 2004 c JČMF 2004 LOCATING EYES Jan Kalina, P. Laurie Davies Keywords: Image analysis, object detection, template matching, robust estimation, eye pattern, algorithm optimization. Abstract: The aim is to construct and implement an algorithm, which automatically finds eyes in pictures of human faces. This paper stresses the motivationforthisworkanditspossibleusebyagroupofgeneticsresearchers. Preliminary transformations of the data are then described; we compared the performance of several robust estimation methods. A combination of the template matching method and several characteristics or measures makesitpossibletodistinguishtheeyesfromotherpartsoftheface.thepaper summarizes the results obtained so far. 1 Motivation Theprimarygoalistofindbotheyesinablack-and-whitepictureofahuman face. This problem has been widely investigated for commercial purposes and fast algorithms implemented in commercial software are now available. Why we are working on our own software procedure should follow from this section. OurhopeistowriteaprogramusefulfortheresearchersoftheInstitute of Human Genetics at the university clinic in Essen. The difficulty consists in considering also dysmorphic faces of people, whose appearance is influenced by genetic deformations. Figure1isanexampleoftheinputmatrixofdata.Agrayvaluecorrespondingtoeachpixelliesintheinterval[0,1],wherelowvaluesareblack and high values white. There exist several approaches to locating the eyes(or landmarks, to be more general). Typical examples include wavelet transformations, neural networks, support vector machines or template matching. Our aim is to constructtheproceduretoanswertheneedsofthegeneticists,soletusshortly describe their research. A picture is taken always in a standard position, when the person is sitting straight against the camera looking in it. Inadmissible are pictures from a side or with eyes not well visible. These artificial conditions makethetaskeasier.stillitoftenhappensthattheeyesarenotinaperfectly horizontalposition.wecallsuchfacetoberotated.westressthatthewhole paperconsidersonlythisrotationinaplane,suchasinfigure2,wherethe wholefaceiswellvisiblefromthefront. Theoutputofourworkisprimarilytodetecttherotationoftheface.Then itcanberotatedtohavetheeyeshorizontally.otherfacialfeaturessuchas thenose,mouthorearscanbethenfoundbasedonthepositionanddistance of the eyes. An automatic description of the face by biometric measures is then possible. Now the medical research has the following ambitions: to diagnose

180 170 Jan Kalina, P. Laurie Davies Figure 1: Example of a picture. Figure 2: A picture with extreme rotation. genetic defects from a picture of a face; to examine the connection between thegeneticcodeandthesizeandshapeoffacialfeatures;andalsotovisualize a face based only on its biometric measures. The everyday experience of the geneticists with available software is unsatisfactoryforitshighsensitivityeventoasmallrotationoftheface.thatis whytheyplantousefirstourproceduretoestimatetherotationoftheface andonlythentousethecurrentsoftwaretolookforotherfacialfeatures.

181 Locating eyes Robustification Filtering or robustification is a transformation often used to remove noise from images. For example[6] is using the median transform, while[5] gives theoretical arguments in favour of the trimmed mean and other L-estimators thanthemedian.wehavenotfoundasimilarjustificationoftheveryrobust methods mentioned below. AsthepicturesaretakenattheclinicinEssen,thelightoftwobulbsis reflectedineachofthetwoeyes.theirpositionintheeyesishowevernot alwaysthesame,sotheyrepresentanuisanceelementwhichwewanttoget ridof.howeveritisdesirabletochangeonlysmalldetails,butnotthepicture asawhole.infactfigure1isapictureafterasuitablelms-robustification. For each pixel we take the gray values from its circular neighbourhood andcomputetheleastmedianofsquares(lms)orsomeotherveryrobust estimator. The information about the coordinates is lost. In this context is thelmsestimatorequivalenttothemeanoftheshortesthalfofthedata; see for example[1] for this and other connections among robust estimators. Thecomputationoftheleasttrimmedsquares(LTS)isslower,soistheleast weighted squares(lws) estimator proposed by[7]. Here the LTS estimatorcorrespondstothemeanofsuchhalfofthedata(oragroupofsome h < n observations), which has the smallest variance. A survey of algorithms for computing these robust estimators in(not only) location-model can befoundin[4]. The performance of all these very robust estimators is not very different. We did not attempt to compare the results systematically. The only poor results are given by the median, which removes contrast and the resulting picture is rather grayish. 3 The template approach Template matching is a tailor made method for object detection which uses the information about the ideal shape.[3] perceives template matching as a convolution of the template with the image and studies its theoretical aspects.atemplateforthewholefaceisusedforexamplein[2].[8]criticizes that template matching ignores the individual variability and prefers using priors and Bayesian approach. Weusethetemplateapproachonlyasoneofmanystepsofthealgorithm. Ourambitionisnottofindtheeyesimmediately,butonlytoselectseveral areas, which can be considered suspicious; see Figure 3, where suspicious areasareblackandtherestofthepicturewasreducedtoagrayishshade. To convict the non-suspicious areas, other measures and criteria have to be used. We compared the performance of several eye templates. The highest correlationwithrealeyesisattainedforaverageeyes,wherethegrayvaluesare taken as an average of eyes from several pictures. Other our templates inclu-

182 172 Jan Kalina, P. Laurie Davies Figure 3: Areas correlated with the template. dedrealorrobustifiedeyesfromoneofavailablepicturesorsimplyablack circle with a white neighbourhood. Each template is projected to various sizes, rotated by various angles andalsoconsideramirrorreflectiontodetectbothrightandlefteyes.after each of these possible transformations, we look for such size and rotation of the template, which lead to its highest correlation with any area. This size androtationisthenusedinthenextsection. In the image analysis literature we have found the correlation coefficient tobetheonlymeasureofsimilaritybetweenatemplateandanareaofthe picture. It seemed to us natural to examine also other measures, for example theleastsquareestimateoftheslopeintheregressionandalsotheresidual sumofsquaresintheregression,wherethepictureismodelledasaresponse of the template. We studied some nonparametric and robust analogies, including the rank correlation coefficient, robust estimates of the slope or robustifiedsumofsquares,forexamplethetrimmedsumofsquaresinthelts contextortheweightedsumofsquaresforthelws.asidefromaconsiderable reduction of the speed, the results were not satisfactory. The reason isthataneyeconsistsofbothblackandwhitepoints.replacingthegray values by ranks removes the constrast between both groups and very robust approaches completely discard one of the groups. A non-robust approach is therefore desired and the correlation coefficient can be recommended. 4 Other measures and criteria Animportanttaskistodescribetheeyepatternbymeansofsuchcharacteristics, which would help to distinguish between eyes and other areas. Each of the following paragraphs describes one of such measures.

183 Locating eyes 173 The total variation compares each pixel with its four neighbours. We add the absolute values of differences between the gray value in the pixel and the gray values of its neighbours. The highest values appear at boundaries between black and white areas, which typically include the eyes. Theeyesusuallyreportalargevariabilityofgrayvalues.Thuswecan take a circular neighbourhood of each pixel and compute the sample variance or interquartile range of the gray values. The distribution of gray values in the eyes has a typical structure, which can be compared with a template. Ignoring the coordinates, we take gray values from a circular area of the picture and arrange them in ascending order. Letusdenotethemby y 1, y 2,..., y n.lettheorderedvaluesfromatemplate be x 1, x 2,..., x n.welookforsuchpixels,forwhichistheminimalsum n (y i α x i ) 2 i=1 over all possible α very small. This corresponds to measuring the goodness of fit between two curves of ordered gray values, allowing for a vertical shift. Take a rectangular neighbourhood of a pixel and consider average gray values over each column. Again use a template, based on a typical behaviour of real eyes. If the optimal template has been found rotated, which suggests thatthefaceisrotated,thentherectangleneedstobetakenalsorotated. Thenextmeasureisbasedontheideathatthemiddlepartofaneye is more variable than its outer parts. We take a rectangular neighbourhood ofeachpixel,computethesamplevarianceineachcolumn(orrow)and compare these values with a triangular template with the highest values inthemiddle.therectangleshouldbetakenrotatedbythesameangleas the template. 5 Constructing the algorithm Wehavedescribedallourmeasures.Theambitionistousethemtodistinguish between eyes and other areas. Unfortunately the eyes do not always have the most extreme values of these measures. Very often there are areas which have a much larger variability than the eyes. This happens typically at boundaries between a black sweater and light background or a black shirt and white collar. Therefore to combine all the measures, we use indicators ifathresholdhasbeenachievedratherthanthevaluesofthemeasuresthemselves. Allthemeasuresareappliedtoareasratherthantoasinglepixel.However inthenextpartwetalkaboutapplyingthesemeasurestoaparticularpixel, which means we consider an area centered at the desired pixel. The measures have significant values somewhere in the eyes, but not necessarilyinthecenteroftheiris.forexamplethetotalvariationishigh attheboundaryoftheeyes,sothecenterswouldbedeclarednotsuspicious. We need to distinguish between the global and local concepts of locating

184 174 Jan Kalina, P. Laurie Davies and localizing, where locating stands for finding the eye-areas in the whole picture, in contrary to localizing, which means detecting the precise, exact positionofthecenterpartormostimportantpointofaneye. We use the following solution several times during the algorithm, which solves the question of localizing the eyes perfectly. The suspicious areas can be made larger by considering with each suspicious pixel also its small circular neighbourhood. An example is Figure 4, obtained from Figure 3 after several steps of the algorithm. This transformation should be supplemented by forgetting all previous results and creating new small suspicious areas centered in the darkest pixels of the previous enlarged areas. Figure 4: Suspicious areas after combining several measures. Now we describe how to combine all measures together. We start with areas well correlated with the template of the optimal size and rotation, fromtheprevioussection.forthethresholdwetakethevalue0.6andalso 75% of the maximal correlation attained. These bounds are not very high, whichensuresthattheeyesarenotlostwhenthesizeandrotationofthe template are reasonable. For each of the suspicious pixels we compute the values of other measures and compare these with thresholds. The number of suspicious pixels decreases.thethresholdsmustbechosensolowthattheeyesarekeptsuspicious forasmanypicturesaspossible.theresultsmadeuscertainthateventhis liberal approach is sufficient, it is always possible to reject all pixels which arenottheeyes.weuseallmeasuresdescribedaboveandrepeatedlyusethe transformation helpful for localizing. Because a good localization of eyes is attained only during the algorithm, some measures can be used repeatedly with stricter thresholds and the eyes are still kept suspicious. So we use 8 measures altogether, some of which are used twice. If the number of suspicious areas afterthese8measuresisnotexactlytwo,werepeatthestepsforadifferent rotation of the template.

185 Locating eyes 175 The order of measures was optimized in the following way. We started by the correlation with the template. Then we repeated the next steps. We found such thresholds for each of the remaining measures, so that the eyes werekeptsuspiciousforasetof20pictures.wethenaddedthatmeasure to the algorithm which reduced the number of suspicious areas the most. Afterexaminingmorepictureswehadtolowerthethresholdsnottolose the eyes. 6 Results, final remarks Weexaminedasetof135picturesof pixelstakenundersimilar conditions. The photographer tried on purpose to create them in some way standardized.thuswecouldtakeafixedsizeofthetemplatesandrotate themby-10,0and10degrees.theeyeswerefoundandwelllocatedineach case, except for three pictures with halfway closed eyes. These pictures are however not interesting for the medical analysis; the eyes were found in other pictures of the same people. TheprogramisimplementedinC.TheresultsaresenttoR,whichoffers nicemethodsforgraphicaloutput.theadvantageofcisahighspeedeven withsuchmassivedata.ontheotherhandithasneithertoolsforhandling matrices nor image processing functions. Concerningthespeed,themosttimeisspentonsearchingfortheoptimalsizeandrotationofthetemplate.Rightnowtheprocesstakesone minuteforapicturewith pixelswhenthetemplateisrotatedby 180,170,...,0,..., 170degrees.Theextremerotationisnotlikelytobe usedinpractice,allowingonlyforthreepossiblerotationsby10,0and10degrees shortens the time to 10 seconds. The last two paragraphs of this section discuss what happens with rotated faces.anextremerotationbysome90or180degreesisnotlikelytoappear in practice. Anyway, eye templates with eyebrows are often successful in estimatingtherotationoftheface.asanexampleweshowfigure2,where both eyes were found and replaced by templates; these are difficult to recognize at first glance. Unfortunately the algorithm is not always successful, because some of the measures work well only when a correct information about the rotation is available. Modifications are possible, but for practical use not interesting. AgoodexampleofasmallrotationisFigure1,wherethelinethroughthe eyesdiffersfromahorizontallinebyanalmostinvisibleangleof3degrees. Becauseoursetofpicturesincludedsuchwithasmallrotation,wecantake this as a document of robustness of the template approach. In the future, the performance of the algorithm should be examined for pictures with a different size of the head. A possible simplification can betoexamineonlythetophalfofapicture,wheretheeyestypicallyare. An interesting but complicated open problem is the varying pose, in other words a three-dimensional rotation of the face.

186 176 Jan Kalina, P. Laurie Davies References [1] Davies P.L., Gather U.(2004). Robust statistics. In Gentle J.E., Härdle W., Mori Y.(eds.): Handbook of computational statistics. Concepts and Methods. Springer-Verlag, Heidelberg, [2] Graf H.P., Cosatto E., Gibbon D., Kocheisen M., Petajan E.(1996). Multi-modal system for locating heads and faces. Technical Report, AT&T Labs. [3] James M.(1987). Pattern recognition. BSP Professional books, Oxford. [4] Mašíček L.(2004). Diagnostika a senzitivita robustních modelů. Dissertation thesis, MFF UK, Praha.(Diagnostics and sensitivity of robust models. In Czech.) [5] Pitas I., Venetsanopoulos A.N.(1990). Nonlinear digital filters. Kluwer, Dordrecht. [6] Starck J.-L., Murtagh F., Bijaoui A. (1998). Image processing and data analysis. The multiscale approach. Cambridge University Press, Cambridge. [7] Víšek J.Á.(2001). Regression with high breakdown point. ROBUST 2000, JČMF and Česká statistická společnost, [8] Winkler G.(1995). Image analysis, random fields and dynamic Monte Carlo methods. A mathematical introduction. Springer, Berlin. Acknowledgement: This work was supported by the grant SFB 475, University ofdortmund.participationofj.k.atrobustwassupportedbythegrant GAČR402/03/0084oftheGrantAgencyoftheCzechRepublic.Ing.Michal Dobeš,Ph.D.hadseveralsuggestionshowtoimprovethepaper.J.K.is thankful to his colleagues for help with hardware and software issues. Address: J. Kalina, P. Laurie Davies, Universität Duisburg Essen, Fachbereich Mathematik, Essen, Germany kalina@stat-math.uni-essen.de

187 ROBUST 2004 c JČMF 2004 KLASIFIKAČNÍ A REGRESNÍ LESY Jan Klaschka, Emil Kotrč Klíčová slova: Klasifikační stromy, klasifikační lesy, bagging, boosting, arcing, Random Forests. Abstrakt: Klasifikační les je klasifikační model vytvořený kombinací určitého počtu klasifikačních stromů. Každý strom přiřazuje hodnotě vektoru prediktorů nějakou třídu a výsledná klasifikační funkce je dána hlasováním. Obdobně regresní les sestává z několika regresních stromů a výsledná regresní funkce je obvykle definována jako vážený průměr regresních funkcí jednotlivých stromů. V práci jsou stručně vysvětleny některé metody vytváření lesů, jmenovitě tzv. bagging, boosting, arcing a Random Forests. 1 Úvod Klasifikační a regresní stromy se pěstují od 60. let. Silným metodologickým impulsem byla v 80. letech kniha[3], popisující tehdy novou metodu CART (Classification And Regression Trees). Věrozvěstem metody CART a stromů obecněnarobustusevr.1988staljaromírantochpříspěvkem[1]. Mezitím, co od druhé poloviny 90. let přibývaly na ROBUSTu další práce ostromech[8],[11],[12],odstartovalavesvětě nejvícealeasivpracovněleo Breimana,jednohoz otců CARTu nováetaparozvojemetodanalýzydat založenýchnastromech.zdáse,žejenačaseprobratjitakénarobustu. Tématem tohoto článku jsou klasifikační a regresní lesy. Klasifikační les je klasifikační model, jehož klasifikační funkce je dána kombinací(podle vhodně zvoleného pravidla) klasifikačních funkcí určitého počtu(typicky několika desítek) klasifikačních stromů. Obdobně lze charakterizovat regresní les stačí vpředcházejícívětěvšudenahraditslovo klasifikační slovem regresní. Dlužno poznamenat, že článek nebude v rámci české literatury takovým pionýrským počinem jako již citovaná práce[1]: Přinejmenším se o některých technikách konstrukce lesů zmiňuje(byť v obecnější poloze) Berka v knize[2]. 2 Klasifikační a regresní stromy Les, jak každé malé dítě ví, se skládá ze stromů. Zopakujme některá základní fakta o stromech(podrobněji viz[3],[1]): Klasifikační strom představuje model pro data, kde každé pozorování patřídoněkteréztříd C 1,..., C k, k 2.Současnějepozorovánícharakterizovánovektoremx = (x 1,..., x m )hodnotvysvětlujícíchproměnných(prediktorů) X 1,..., X m.vjednéatéžeúlozesemohouvyskytovat prediktory kvantitativní i kvalitativní. Model lze popsat stromovým grafem sestávajícím z uzlů a orientovaných hran(orientace se nevyznačuje, hrana vede shora dolů).

188 178 Jan Klaschka, Emil Kotrč Vkaždémneterminálnímuzlusestromvětví zuzluvedouhranydo dvou nebo(v některých metodách) více dceřinných uzlů. Větvení je založeno na hodnotě jediného prediktoru. Nejběžnější je binární větvení podleodpovědinaotázkutvaru x i < c? prokvantitativníprediktory X i a x i B? (kde Bjeneprázdnávlastnípodmnožinamnožiny všechhodnotveličiny X i )proprediktory X i kvalitativní.jednahrana je pak přiřazena kladné a druhá záporné odpovědi.(některé metody umožňují i větvení založená na lineární kombinaci kvantitativních prediktorů.) Pozorovánípodlehodnotprediktorů postupuje odkořenovéhouzlu přes větvení v neterminálních uzlech k některému terminálnímu uzlu (listu). Množina všech listů určuje disjunktní rozklad prostoru hodnot prediktorů X. Terminálnímu uzlu a zároveň pozorováním, která do něj patří,jepřiřazenaněkteráztříd C 1,..., C k.strom Ttakurčujeklasifikačnífunkci d T definovanouna Xshodnotamivmnožině {C 1,...,C k }. Regresní strom se od klasifikačního stromu liší tím, že každému terminálnímu uzlu je přiřazena reálná konstanta odhad kvantitativní závisle proměnné Y.Regresnístrom T definujereálnouregresnífunkci d T,která je uvnitř množin odpovídajících terminálním uzlům konstantní. K vytváření(pěstování) stromů prakticky všechny běžné metody využívají tzv. rekurzivní dělení(recursive partitioning). Konstrukce začíná stromem o jediném uzlu, do kterého patří všechna trénovací data(kořen je zároveň listem). Probere se množina všech možných větvení a pro každé z nich se vypočte kriteriální statistika(splitting criterion), která budiž řečeno bez podrobností hodnotí, nakolik jsou potenciální dceřinné uzly co do hodnot závisle proměnné vnitřně homogenní a navzájem odlišné. Větvení s maximální hodnotoukritériasevyberejakonejlepšíapoužijesevmodelu,kněmužtak přibude dvojice(popř. v některých metodách větší počet) uzlů, jež jsou prozatím terminální. Data, která patří do kořenového uzlu, se rozdělí podle hodnot prediktorů mezi nové dceřinné uzly. Pro každý z těchto provizorních listů se procedura opakuje, jako by se jednalo o kořen hledá se nejlepší větvení, atd. Při konstrukci klasifikačního stromu je žádoucí dosáhnout co nejmenší skutečné(generalizační)klasifikačníchyby R P (T)=P ( d T (X) Y ),kde P jesdruženérozdělenívektoruprediktorůxazávisleproměnné Y shodnotamiv{c 1,..., C k }.Vregresníchúloháchobdobnourolinejčastějihraje (skutečná)středníkvadratickáchyba R P (T)=E P ( Y dt (X) ) 2.Srostoucí velikostí stromu sice stále klesá(nebo alespoň neroste) chyba na trénovacích datech, ale skutečná chyba v mnoha typických situacích klesá jen do určité velikosti, pak s dalším zvětšováním stromu opět roste. Podlepřístupukproblémustanovení správnévelikosti semetodypěstování stromů dělí do dvou skupin. Metody z prvé skupiny přidávají nová větvení, jen dokud to přináší dostatečně velký okamžitý efekt. Když se takové větvení nenajde, proces končí a strom je hotov. Metody druhého typu(např. CART[3])nejdřívevypěstujítzv.velkýstrom T max,kterýsenásledněproře-

189 Klasifikační a regresní lesy 179 zává některéuzlyseopětodstraňují.přikostrukci T max seuzelstaneterminálním, až když obsahuje méně pozorování než zvolená mez nebo všechna pozorování v uzlu patří do téže třídy, popř. mají stejné hodnoty všech prediktorů.otom,jakvelkáčáststromu T max semáodstranit,rozhodujíempirické odhady skutečné chyby. Ty se získávají různými způsoby, například pomocí testovacích(validačních) dat, která byla k tomu účelu při konstrukci stromu ponechánastranou,nebosložitějším trikem,křížovouvalidací (cross-validation), při níž se v opakovaných analýzách všechna pozorování střídají v rolích prvků trénovací a testovací množiny.(detaily viz[3],[1]). Mezi metodami pěstování stromů požívají asi největší prestiže Breimanův, Friedmanův, Olshenův a Stoneův CART(Classification And Regression Trees)([3]) a Quinlanova metoda C4.5([9]). Jediná současná implementace CARTu posvěcená autorymetodyješířenakomerčněfirmousalfordsystems 1 (SanDiego,CA,USA).VolnéprogramytreearpartvrámciprojektuR 2 však představují také dosti věrné implementace metodologie CART. ProgramC4.5jekdispozicibezplatně 3.VylepšenouverzipodnázvyC5.0(Unix) asee5(windows)komerčněšíříquinlanovafirmarulequestresearch 4. Informace o řadě dalších programů konstruujících stromy lze nalézt např. nawebovýchstránkáchyu-shanshihaztchai-wanu 5 (spoluautorametod QUESTaCRUISE). Výhodou klasifikačních a regresních stromů je, že pružně postihují vztahy mezi různými typy veličin, nelineární závislosti, interakce proměnných a závislosti, které mají rozdílnou podobu v různých částech prostoru X. Ve srovnání s klasickými parametrickými metodami dosahují často srovnatelné přesnosti, ale poskytují přitom daleko přehlednější a názornější modely. Nevýhodou stromů je, že jsou obvykle značně nestabilní: Zhusta pro jedna a tatáž data existuje mnoho různých stromů s přibližně stejnou chybou a při malé změně dat nebo vstupních parametrů se může výsledný strom(a příslušná klasifikační nebo regresní funkce) výrazně změnit. 3 Lesy Myšlenka klasifikačních a regresních lesů je vcelku prostá: Co místo jednoho stromu Tvypěstovat Lstromů T 1,..., T L avytvořitznich komisi,kteráse bude o zařazení pozorování do tříd,(popř., půjde-li o regresní úlohu, o predikovanéhodnotězávisleproměnné) usnášet 6?Jinýmislovy, agregovaná Užšívýběrhttp:// přehled 6 Jižjednoujsmeseodvolávalinaznalostimalýchdětí,aitotosidneskdekterédítě dokáže představit, pokud vidělo ve filmu Dvě věže, druhém dílu trilogie Pán prstenů, jak sněm Entů(chodících stromů) rozhoduje o tom, zda jít do války, tj. jak řeší klasifikační úlohu,zdavstupníinformace,kteréjsoukdispozici,patřídotřídy válka,nebo mír.

190 180 Jan Klaschka, Emil Kotrč klasifikační(popř.regresní)funkce d A (x)vzniknevhodnýmzkombinováním klasifikačních(popř.regresních)funkcí d 1 (x),..., d L (x)jednotlivýchstromů. Přirozeným a jednoduchým způsobem kombinace je u regrese aritmetický průměr a u klasifikace většinové hlasování, tj. d A (x)=c i,pokud#{j; d j (x)=c i }= max i=1,...,k #{j; d j(x)=c i }, kde symbol# značí počet prvků.(nejednoznačnost vyplývající ze shody počtu hlasů se řeší např. znáhodněním.) Kombinování klasifikačních funkcí(v regresi to je analogické, rozdíly si lze domyslet) může být také o něco složitější. Při hlasování může váha hlasu každé z L klasifikačních funkcí záviset na chybě stromu na trénovacích datech (pochopitelně přesnější strom má vyšší váhu). Váha hlasu jednotlivého stromu případně nemusí být stejná pro všechny hodnoty vektoru prediktorů x může závisetnapř.takénatom,jakjelistpříslušnéhostromu,dokteréhoxpatří, velký(kolikpozorováníztrénovacíhosouborudonějpatří)a čistý (jak výrazná je převaha nejfrekventovanější třídy). Složitější vážení hlasů je dílem už standardní součástí některých metod konstrukce lesů, ale dílem také ještě předmětem výzkumu(viz např.[15],[13]). 3.1 Čtverozpůsobů,jaknato Dobrá, vypěstovat více stromů, ale kde je vzít? Použijeme-li na jedna a tatáž data opakovaně např. program CART se stejnými vstupními parametry, dostaneme pokaždé tentýž strom. Kombinováním totožných stromů pak nic nového nezískáme. Rozdělit data na L disjunktních částí a každou použít ke konstrukci jednoho stromu se také nezdá být dobrý nápad. Problém přesto má řešení, resp. více řešení. Podívejme se na některá z nich Bagging jeakronym,zkratka bootstrapaggregating.základní citace je Breimanův článek[4]. Ztrénovacíhodatovéhosouboru L={(x 1, y 1 ),...,(x n, y n )}sevytvoří náhodnýmvýběremsvracením Lsouborů L 1,..., L L velikosti n(bootstrapových výběrů), každý z nich se použije k sestrojení jednoho klasifikačního (popř. regresního) stromu a výsledný klasifikační(nebo regresní) les je pak dán většinovým hlasováním se stejnými vahami(resp. aritmetickým průměrem dílčích regresních funkcí). Do bootstrapového výběru jsou některá pozorování z L vybrána opakovaně a některá naopak vůbec. Počet opakování má pro jednotlivé pozorování z Lasymptoticky(pro n )Poissonovorozdělenísestředníhodnotou1. Pravděpodobnost, že pozorování nebude vůbec vybráno, je tedy přibližně e Bootstrapovývýběrjetudížtvořenasi63%pozorovánízL, 37% zůstává mimo. Breimanv[4]uvádíulesůvelikosti L=50(tvořenýchstromyvypěstovanými metodou CART) v několika reálných i umělých klasifikačních úlohách snížení generalizační chyby oproti jednomu stromu o 20-47% a velmi podobná čísla 22-46% udávátaképroúlohyregresní.

191 Klasifikační a regresní lesy Boosting a arcing. Boosting(to boost zesilovat) je původně pojemzteoriestrojovéhoučení([14],[5])avanalýzedatsetakobvykleoznačuje algoritmus AdaBoost(adaptive boosting), navržený v článku[7]. Mějme klasifikační metodu(nemusí se jednat jen o stromy), která vytváří klasifikačnímodel T nazákladětrénovacíchdat(x 1, y 1 ),...,(x n, y n )avektoruw=(w 1,...,w n )vahpřiřazenýchjednotlivýmpozorováním.algoritmus AdaBoostkonstruujeposloupnostrozdílnýchmodelů T 1,..., T L sklasifikačnímifunkcemi d 1 (x),..., d L (x)tak,žesepodlepředcházejícíchvýsledkůpostupněupravujíváhypřípadů.vprvnímkrokusepoužijeváhovývektorw 1 zadanýuživatelem(např.rovnoměrnéváhy)avytvořísemodel T 1.Vdalších krocíchsepakvždykekonstrukcimodelu T i (i=2,..., L)použijeváhový vektorw i získanýtakovouúpravouvektoruw i 1, žeseváhypozorování chybněklasifikovanýchmodelem T i 1 zvýšíasprávněklasifikovanýchsníží. Klasifikačnímetodatakstálevíce soustředípozornost na obtížná pozorování, která vzdorují zařazení do správné třídy. Váha modelu při hlasování závisí na chybě modelu na trénovacích datech.(konkrétněji viz[7],[5],[2].) Algoritmus nazvaný v článku[7] AdaBoost je vlastně určen jen pro klasifikační úlohu se dvěma třídami, ale v článku jsou popsány také modifikace AdaBoost.M1 a AdaBoost.M2 pro úlohy s více třídami a AdaBoost.R pro regresní úlohy s hodnotami závisle proměnné v intervalu[0, 1]. Arcing je další Breimanův akronym(adaptive resampling and combining). Základní prací je článek[5]. Arcing představuje spojení myšlenky baggingu a boostingu. Váhy případů se postupně upravují stejným způsobem jako v AdaBoostu, ale používají se jinak: Místo toho, aby s těmito vahami vstupovala všechna pozorování do analýzy, jsou jako v baggingu vytvářeny výběry s vracením, přičemž váhy(náležitě normované) slouží jako pravděpodobnosti vytažení. Ukazuje se(viz např.[10],[5]), že boosting i arcing u klasifikačních stromů většinou snižují generalizační chybu ještě více než bagging. V některých případech však mohou výsledky být naopak katastrofální zejména tehdy, kdyždatajsou zašuměná aučástitrénovacíchdatjehodnotazávisleproměnné y i jiná,než bysprávněmělabýt.boostingneboarcingpakvede ktomu,žeseučímeopakovatchybyvdatech Metoda RandomForests jeopět dítkem LeoBreimana,jehož článek[6]představujezákladnícitaci.jezaloženananěkolika tricích : Trénovací soubory pro jednotlivé stromy jsou(jako v baggingu) bootstrapové výběry z datového souboru L. Přivolběvětveníprodanýuzelsezmprediktorů X 1,...,X m,které jsoukdispozici,nejdřívenáhodněvybereněkterých m 0,načežsenejlepší větvení hledá již klasicky, ale jen mezi těmi větveními, která jsou založenanavybraných m 0 veličinách. Pěstují se velké stromy(viz sekci 2), které se neprořezávají.

192 182 Jan Klaschka, Emil Kotrč Nejen že náhodný výběr prediktorů výrazně urychluje výpočty, ale experimenty v[6] také dávají zejména v klasifikačních úlohách velmi dobré výsledky mj. srovnání s metodou AdaBoost vyznívá pro Random Forests příznivě.(vregresijeefektméněvýraznýazdáse,žejsouoněcovýhodnější některé modifikace uvedeného postupu.) Zvláště přínosná se metoda ukazuje u problémů, kde existuje velký počet prediktorů, z nichž každý sám o sobě obsahuje jen málo informace o závisle proměnné. Jakvolitparametr m 0?Nejvhodnějšíhodnotazávisínaúlozeauživatel můžeexperimentovat.jednoduchérozumnédoporučeníjepoužít m 0 blízké log 2 m. Uněkterýchproblémůsejakodobré,nebodokoncenejlepšíukazuje m 0 =1. Toznamená,žeseprediktor,kterýsemávuzlupoužítprovětvení,vybírá zcela náhodně! Jinými slovy, na tom, jaké větvení se vybere, v podstatě nezáleží, hlavně že se prostor hodnot prediktorů vůbec nějak rozparceluje hlasování(nebo v případě regrese průměrování) to dá do pořádku. To je mimochodem zcela protichůdné optimalizaci stromů, o níž byly v minulých letech na ROBUSTu dva příspěvky([11],[12]) připomeňme, že větvení se optimalizuje za cenu drastických výpočetních nákladů a s výsledky(co do generalizační chyby) mnohdy ne právě uspokojivými. Vidíme zde jeden podstatný rozdíl mezi baggingem, boostingem a arcingem na jedné straně a metodou Random Forests na straně druhé. Bagging, boosting a arcing jsou nadstavbou nad klasickými metodami(jako CART nebo C4.5) zaměřenými na pěstování co nejpřesnějších stromů. U metody Random Forests na kvalitě jednotlivých stromů tolik nezáleží; cílem není minimalizovat chybu stromů, ale jen celého lesa. 3.2 Proč to funguje Zatím jsme se omezili na popisný přístup říkáme, jak která metoda postupuje, ale ne proč. Stejně tak informujeme, jaké jsou empirické výsledky, ale nevysvětlujeme,jakjemožné,žetotakje.můžesetakzdát,ženovézpůsoby konstrukce lesů se navrhují podle vzoru Myslím, myslím, nevím dál, co bych ještěudělal. Ve skutečnosti se při studiu vlastností lesů neuplatňují jen numerické experimenty, ale také teoretické úvahy, byť částečně heuristického charakteru. Čtenáře v tomto ohledu odkazujeme na dříve citovanou literaturu, ale alespoň něco málo naznačíme. Z metod uvedených v paragrafu 3.1 se jen Random Forests týká specificky stromů a lesů. Bagging, boosting a arcing lze aplikovat nejen na stromy, ale na vcelku libovolnou klasifikační či regresní metodu.(všimněme si, že v názvech článků[4] a[5] se mluví obecně o prediktorech a klasifikátorech, nikoli o stromech.) Platí, vágně řečeno, že agregovaný klasifikační model, jehož klasifikační funkce d A jedánakombinacídílčíchklasifikačníchfunkcí d 1,...,d L pomocí hlasování, je tím přesnější(tj. má tím menší skutečnou chybu), čím přes-

193 Klasifikační a regresní lesy 183 nějšíjsoudílčíklasifikátoryačímjsousifunkce d 1,...,d L vzájemněméně podobné. U regrese s agregací průměrováním je to obdobné. Alchymie přidávánínáhodydokonstrukcemodelusledujecílnajítco nejlepšíkompromis:comožnázvýšitvzájemnounepodobnostfunkcí d i,ale tak, aby přesnost dílčích modelů neutrpěla přespříliš. Skrze lesy se ve výhodu obrací nevýhoda stromů jejich nestabilita, tj. fakt,žemalázměnadatzpravidlavedekvelkézměněstromu Tajehoklasifikační(neboregresní)funkce d T.Kdalšímnestabilnímmetodámpatřítřeba neuronové sítě nebo kroková lineární regrese. Příklady stabilních metod jsou lineární diskriminační analýza nebo metoda k nejbližších sousedů. Nestabilní metody lze pomocí baggingu a obdobných technik výrazně zpřesnit, zatímco u stabilních metod je efekt minimální, popřípadě dokonce záporný. 3.3 Software Repertoár softwaru pro pěstování lesů je zatím skromnější než nabídka programů pro konstrukci stromů. Uveďme několik současných možností. Komerční verze programu CART zahrnuje bagging a arcing. Quinlanovy programy C5.0 a See5(viz sekci 2) obsahují boosting. SoftwarovýsystémWeka 7 zaměřenýnastrojovéučení,vyvinutýnauniversity of Waikato na Novém Zélandu, obsahuje pod názvem j48 implementaci metody C4.5, a dále procedury Bagging a AdaBoostM1, které sedajívkombinacisj48použítkpěstovánílesů.wekajefreeware. BreimanůvvlastnísoftwareRandomForestsjevolněkdispozici 8 azároveň existuje komerční verze šířená firmou Salford Systems. Implementace randomforest v projektu R je freeware. Pokud nějaký program pro konstrukci stromů umožňuje snadné zadávání vstupníchúdajůadávávýstupyvevhodnémtvaru, dotvořit jejnasoftware pro pěstování lesů je programátorsky nenáročné. Do původního programu není třeba zasahovat, takže nevadí, není-li dostupný ve zdrojovém tvaru. 4 Závěr Klasifikační a regresní lesy představují významné zdokonalení metodologií založených na stromech. Za cenu únosného zvýšení výpočetní náročnosti se dosahuje výrazného zpřesnění modelů. Patrně jedinou nevýhodou lesů oproti stromům je to, že se ztrácí pro stromy tak charakteristická přehlednost. Na les tvořený desítkami nebo stovkami stromů nejsme schopni, stejně jako je tomu např. u neuronových sítí, se dívatjinaknežjakona černouskříňku.jinýmislovy,dolesanenívidět

194 184 Jan Klaschka, Emil Kotrč Reference [1] Antoch J. (1988). Klasifikace a regresní stromy. In: ROBUST Sborníkprací5.letníškolyJČSMF,J.Antoch,T.Havránek&J.Jurečková(eds.),Praha,JČSMF,0 6. [2] Berka P.(2003). Dobývání znalostí z databází. Praha: Academia. [3] Breiman L., Friedman J.H., Olshen R.A., Stone C.J.(1984). Classification and regression trees. Belmont CA: Wadsworth. [4] Breiman L.(1996). Bagging predictors. Machine Learning 24, [5] Breiman L.(1998). Arcing classifiers. Annals of Statistics 26, [6] Breiman L.(2001). Random forests. Machine Learning 45, [7] Freund Y., Schapire R.E.(1997). A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer andsystemsciences55, [8] Klaschka J., Antoch J. (1997). Jak rychle pěstovat stromy. In: RO- BUST 1996.Sborníkprací9.letníškolyJČMF,J.Antoch&G.Dohnal(eds.),Praha,JČMF, [9] Quinlan J.R.(1992). C4.5: Programs for machine learning. New York: Morgan Kaufmann. [10] Quinlan J.R.(1996). Bagging, boosting, and C4.5. In: Proceedings of the Thirteenth National Conference on Artificial Intelligence, [11] Savický P., Klaschka J., Antoch J.(2000). Optimální klasifikační stromy. In: ROBUST Sborník prací 11. letní školy JČMF, J. Antoch& G.Dohnal(eds.),Praha,JČMF, [12] Savický P., Klaschka J.(2002). Lesk a bída optimálních stromů. In: RO- BUST Sborník prací 12. zimní školy JČMF, J. Antoch, G. Dohnal &J.Klaschka(eds.),Praha,JČMF, [13] Savický P., Kotrč E.(2004). Experimental study of leaf confidences for random forest. In: COMPSTAT Proceedings in Computational Statistics, J. Antoch(ed.), Heidelberg, Physica Verlag, [14] Schapire R.E.(1990). The strength of weak learnability. Machine Learning5, [15] Schapire R.E., Singer Y. (1999). Improved boosting algorithms using confidence-rated predictions. Machine Learning 37, Poděkování:PrácebylapodporovánagrantyME701MŠMTČRaGAČR 201/02/1456. Adresa: J. Klaschka, E. Kotrč, Ústav informatiky AV ČR, Pod Vodárenskou věží2,18207praha8 {klaschka,kotrc}@cs.cas.cz

195 ROBUST 2004 c JČMF 2004 MOSUM-TYPE TESTS FOR A CHANGE-POINT PROBLEM WITH CENSORED DATA Lenka Komárková Keywords: Change-point problem, censored data, rank tests, permutation principle, limit behavior. Abstract: The contribution concerns about MOSUM-type test statistics for detection of a change in the distribution of variables that are independent but possibly censored. The MOSUM-type test statistic is suitable if we expectmorethanonechangeanditisusefulasadiagnostictool.thetest statistics are derived using the same principle as for uncensored data. The limit behavior for such a class of test statistics is investigated under the hypothesis of no-change in the distribution of censored variables and further, the consistency of the test procedure is shown. 1 Introduction We introduce a general model of random censorship, see e.g. Kalbfleisch and Prentice[12].Typically, X 0 1, X 0 2,...,X 0 nisasequenceofindependentnonnegative random variables(the lifetimes or the survival times), where the index i of X 0 i correspondstothechronologicalorderthesubjectofinterest(e.g.patient)hasenteredthestudy.thepatientcanbewithdrawnfromthestudydue to many reasons, e.g. an accidental death, a migration of human population or limited time of the study. More precisely, the lifetimes can be censored fromtherightbyindependentrandomvariables C 1, C 2,..., C n,theso-called censoring times. In other words, instead of the survival times we observe the pairs(x 1, 1 ),(X 2, 2 ),...,(X n, n )only,where X j =min(x 0 j, C j ), j = I(X 0 j C j )= { 1, if X j isuncensored, 0, if X j iscensored. for j=1,2,...,n.weassumethatthelifetimesandthecensoringtimesare independent variables. We consider the following modification called as the random censorship modelwithmultiplechanges.wesupposethatthereexist0=γ 0 < γ 1 γ q γ q+1 = 1withsomefinite q Nsuchthatthesurvivaltimes X 0 nγ i +1, X0 nγ i +2,..., X0 nγ i+1 haveanabsolutelycontinuousdistributionfunction F i+1 andthecensoringtimes C nγi +1, C nγi +2,...,C nγi+1 haveanabsolutelycontinuousdistributionfunction G i+1 for i=0,1,...,q. Furthersupposethat F i+1 F i and G i+1 G i, i=1,2,..., q.wewould

196 186 Lenka Komárková like to test the no-change null hypothesis against the alternative that at least one change has occurred: H 0 : γ 1 = γ 2 = =γ q = γ q+1 =1, H 1 : γ 1 γ 2 γ q γ q+1, whereatleastoneinequalityisstrict andwheretheinteger q 1canbeknownorunknown.Inourtestingproblem isthebasictasktodecideifthereisachange(orchanges)inthemodele.g. duetomedicalcareinourcase.thenullhypothesissaysthatthelifetimesare i.i.d.randomvariableswithcommondistributionfunction F 1 andmoreover, the censoring variables are also i.i.d. and they have the common distribution function G 1. Remark 1.1. The considered model introduced above includes the so-called Koziol Green model with multiple changes. In this model, the survival functionofthecensoringtimesissupposedtobeapowerofthesurvivalfunction ofthelifetimes.supposingatleastonechange,i.e. q 1,weget t 0 1 G i (t)=(1 F i (t)) βi with β i >0, i=1,2,..., q+1. Thereareonlyafewpapersdealingwithdetectionofachangeinthedistribution when only censored data are available. Stute[16] suggested estimators based on U-statistics for the change point and he studied their properties.hisresultswereextendedbyferger[4]andhorváth[8].aly[1]treated the uncensored and the censored observations separately and finally, he mixed both the proposed test statistics based on the quantile processes together. GombayandLiu[6]basedtheirtestonageneralizationoftheWilcoxonrank statistic which can be expressed as a U-statistic. Extensive studies for such procedures were conducted in the doctoral thesis of Liu[15]. In all the papers listedabovethecensoringtimes C 1, C 2,...,C n aresupposedtobei.i.d.variables. Hušková and Neuhaus[10] developed their test as a generalization of two-sample rank tests under the random censoring. In contrast to the other mentioned authors, they considered not only the change in the distribution of the survival variables but also the change in the distribution of the censoring variables. 2 Test statistic MotivatedbytheworkofHuškováandNeuhaus[10]andthetypeofstatistic used to test multiple changes in uncensored case(csörgő, Horváth[3] or Antoch,Hušková,Jarušková[2])weproposefortesting(H 0, H 1 )themosumtype rank statistic as follows Tn,D σ (τ k+d j=k+1 0)= max a n(j) k j=k D+1 a n(j) D<k<n D 2D σn (a) (1)

197 MOSUM-type tests for a change-point problem with censored data 187 with σn 2(a)= 1 n n j=1 a2 n (j)andthescoreswhichareweightedandhavethe following form τ0 τ0 Y j (t) ( n a n (j)= w n (t)dn j (t) w n (t) n 0 0 j=1 Y j(t) d ) N j (t), (2) where Y j (t)=i(x j t)and N j (t)= j I(X j t).thevalue τ 0 denoting theendofmedicalstudyissuchapositivenumberforwhich j=1 0 < τ 0 < τ:=sup{x; F i (x)g i (x) <1, i=1,..., q+1}. Theteststatisticalsodependson D.Weassumethat D= D(n)satisfies,as n, D n 0, n 2/(2+u) log n D 0, (3) where uisapositiveconstantsuchthat 1 n n j=1 a n(j) ā n u+2 = O P (1),as n.theassumption(3)meansthat Dtendstoinfinitytogetherwith n butnottoofast. Nextwedescribetheformoftheconsideredweightfunction w n (X j, j ; 1 j n) 0.Animportantclassofweightfunctionsis ( ) κ Y(t) w n (t)=(ŝn(t )) ρ I(Y(t) >0), (4) where ρ, κ 0and Ŝn(t ) = ( ) i:x i<t 1 i Y(X i) is the left-continuous Kaplan Meier estimate of the survival function. Such a class of weighted test statistics includes commonly used test statistics in practice like the log-rank statistic(ρ =0, κ=0),theprentice Wilcoxon statistic(ρ=1, κ=0) andthegehan Wilcoxonstatistic(ρ=0, κ=1)whicharegeneralizations of the Savage and the Wilcoxon statistic for uncensored data, for more information see e.g. Hájek et al[7]. 3 Test procedure Wedescribetheexact(permutation)testbasedon T σ n,d (τ 0)andweconstruct theasymptoticdecisionrulefor(h 0, H 1 )basedonthelimitdistributionof T σ n,d (τ 0)under H 0. Sinceunder H 0 theobservations(x, )=((X 1, 1 ),...,(X n, n ))are i.i.d., we can apply the permutation principle (see e.g. Lehmann [14] or Good [5]). It means that the permutation distribution F n,d (,(X, )) of theteststatistic T σ n,d (τ 0)canbedescribedastheconditionaldistribution given(x, )of Tn,D σ (τ k+d j=k+1 0, Q)= max a n(q j ) k j=k D+1 a n(q j ), D<k<n D 2D σn (a) n

198 188 Lenka Komárková where Q=(Q 1, Q 2,..., Q n )isarandompermutationof(1,2,..., n),preciselyitcanbeexpressedfor x Rasfollows F n,d (x,(x, ))=P ( Tn,D σ (τ 0) x (X, ) ) = #{q Q n ; Tn,D σ (τ 0, q) x}, n! where Q n isthesetofallpermutationsofintegers(1,2,...,n).denotingby c n,d (α,(x, ))thecorresponding100(1 α)%-quantilethecriticalregionof theexact(permutation)testbasedon T σ n,d (τ 0)withthelevel αhastheform T σ n,d(τ 0, Q) c n,d (α,(x, )). Under H 0 thedistributionsof T σ n,d (τ 0)and T σ n,d (τ 0, Q)arethesameand the permutation distribution provides the exact critical values for our testing problem. Practically,forlarge nitisnotpossibletocalculatethevalueofthestatistic T σ n,d (τ 0, q)forall n!permutations q.soinstead,wegeneratearandom sample from all possible permutations of size B large enough and determine theempiricalcriticalvalue x n,d (α,(x, ))fromthissample.suchcalculatedcriticalvalue x n,d (α,(x, ))providesagoodestimatefortheactual value c n,d (α,(x, )).Wedotheso-calledbootstrapwithoutreplacement,for concrete example see Section Simulations. The other way how to obtain appropriate approximation of critical values isthroughthelimitbehavioroftheteststatistic.herewestatethelimit distributionofthemosum-typeteststatistic T n,d (τ 0, Q). Theorem 3.1. Suppose the random censorship model with multiple changes. Let sup w n (t) w(t) =o P (1), (5) 0 t τ 0 where wisacontinuousnonrandomfunctionon[0, τ 0 ]and τ0 0 w 2 (t)(1 G i (t))df i (t) >0, i=1,2,...,q+1, (6) besatisfied.thenforall y Rwehave,as n, ( ( n ) ( n ) ) P d 1 Tn,D σ D (τ P 0, Q) y+ d 2 (X, ) exp { 2e y}, D where Q=(Q 1, Q 2,...,Q n )denotesarandompermutationof(1,2,...,n). Moreoverunder H 0 : γ i =1for i=1,2,...,q ( ( n ) ( n )) P d 1 Tn,D σ D (τ 0) y+ d 2 exp { 2e y} D with d 1 and d 2 definedasfollows d 1 (t)= 2log t, d 2 (t)=2log t+ 1 2 loglog t 1 2 log π+log ( 3 2 ). (7)

199 MOSUM-type tests for a change-point problem with censored data 189 Důkaz.Wementionthebasicideaoftheproof.Realizethattherandomvariables k j=1 a n(q j ), k=1,2,...,n,given(x, ),canbeviewedassimple linearrankstatistics,wheretheroleofranksisplayedbytherandompermutation Q=(Q 1, Q 2,..., Q n ).Consequently,thestatistic Tn,D σ (τ 0, Q)given (X, )canbeviewedasafunctionofasimplelinearrankstatisticandthe theorem(theorem 2 in Hušková[9]) on rank statistics for change point problem can be used. The assumptions(5) and(6) ensure that the assumptions of the applied theorem are fulfilled for our scores. The whole proof can be found in Komárková[13], Corollary 2.4. We get the same limit distribution as for completely observable data, comparewiththeresultsgivenbyhušková,slabý[11].itcanbeseenthattherejectioncriterionoftheasymptotictestbasedon T σ n,d (τ 0)hasthefollowing form 4 Consistency T σ n,d (τ 0) > log( log( 1 α))+d 2 ( n D ) d 1 ( n D ). (8) Herewepresenttheresultonlimitbehaviorof T σ n,d (τ 0)underalternatives. Particularly, we concentrate on the consistency of the test. Notice that for theconsideredclassofteststatisticsunder H 0 wehave,as n, T σ n,d (τ 0)(log n) 1/2 = O P (1). Therefore to show the consistency it suffices to show that under alternatives T σ n,d(τ 0 )(log n) 1/2 P, as n. Now, we formulate the assertion on the consistency of the test procedure basedon T σ n,d (τ 0). Theorem 4.1. Suppose the random censorship model with multiple changes. Let(5)and(6)besatisfied.If q+1 { τ0 (γ j γ j 1 )(1 F j (t))(1 G j (t)) max w(t) i=1,2,...,q q+1 0 j=1 (γ j γ j 1 )(1 F j (t))(1 G j (t)) j=1 ((1 F i+1 (t))(1 G i+1 (t))(λ i+1 (t) λ j (t)) (1 F i (t))(1 G i (t))(λ i (t) λ j (t)))dt} >0 (9) holds,where λ j (t)= d Fj(t) 1 F j(t) isthehazardfunctionscorrespondingto F j(t), j=1,2,..., q+1.thenwehaveforany u >0,as n, D u 1 2 T σ n,d (τ 0 ) P andhencethetestbasedon T σ n,d (τ 0)isconsistent.

200 190 Lenka Komárková Důkaz.Wedescribeonlythemainstepsoftheproof.Itcanbeassumedw.l.g. that nγ i 1 nγ i D < nγ i +D nγ i+1, i=1,2,...,q. Bythedefinitionoftheteststatistic Tn,D σ (τ 0)wehave Tn,D σ (τ nγ i +D j= nγ a i +1 n(j) nγ i j= nγ a i D+1 n(j) 0) max. i=1,2,...,q 2D σn (a) By the appropriate asymptotic approximation we receive, as n, q+1 σn 2 (a)= { (γ j γ j 1 ) j=1 τ0 0 } w 2 (t)(1 G j (t))df j (t) + o P (1). Bytheassumption(6)ofourtheoremwegetthat σn 2(a)isasymptotically bounded away from 0. The asymptotic representation(convergence in probability) for nγi +D j= nγ a i +1 n(j) nγ i j= nγ a i D+1 n(j) D hastheform q+1{ τ0 j=1 0 w(t) (γ j γ j 1 )(1 F j (t))(1 G j (t)) q+1 j=1 (γ j γ j 1 )(1 F j (t))(1 G j (t)) ((1 F i+1 (t))(1 G i+1 (t))(λ i+1 (t) λ j (t)) } (1 F i (t))(1 G i (t))(λ i (t) λ j (t)))dt. Thisandtheassumption(9)imply,as n, nγ i +D j= nγ a i +1 n(j) nγ i max i=1,2,...,q j= nγ a i D+1 n(j) D P const >0. The whole proof can be again found in Komárková[13], Theorem Discussion We finalize the paper with few remarks. Firstly, we note that the theorems can easily be modified for the situation when during the observation period the lifetimes change their distribution only and the censoring variables are i.i.d. Further, the approach of this paper could generally be extended to the situation when the distribution of the censoring variables can change

201 MOSUM-type tests for a change-point problem with censored data 191 at different times than the distribution of the survival variables. However, the test procedure becomes then rather complicated since some estimators forthetimeofchangesinthecensoringdistributionareneeded.wereferthe reader to Komárková[13] where some suggestions can be found. The same work by Komárková[13] contains additionally simulated critical values for the test presented in this paper. Finally, it is worth to emphasize that we have studied performance of the test under the null hypothesis and proved consistency. However, it would be worthwhile to study properties of the test under the local alternatives. References [1] Aly E.-E.A.A.(1998). Change point tests for randomly censored data. In: B. Szyskowicz,(Ed.), Asymptotic Methods in Probability and Statistics, North Holland, [2] Antoch J., Hušková M., Jarušková D. (1998). Change point problem po deseti letech(in Czech language). In: J. Antoch, Ed., ROBUST 98, JČMF,Prague,1 42. [3] Csörgő M., Horváth L.(1997). Limit theorems in change-point analysis. JohnWiley&Sons,Inc.,NewYork. [4] Ferger D. (1998). Change-point analysis of censored data. Economic QualityControl13, [5] Good P.(2000). Permutation tests(second edition). Springer Verlag, New York. [6] Gombay E., Liu S.(2000). A nonparametric test for change in randomly censored data. The Canadian Journal of Statistics 21, [7]HájekJ.,ŠidákZ.,SenP.K.(1999).Theoryofranktests(Secondedition). Academic Press, San Diego. [8] Horváth L.(1998). Tests for changes under random censorship. Journal of Statistical Planning and Inference 69, [9] Hušková M.(1997). Limit theorem for rank statistics. Statistics& ProbabilityLetters32, [10] Hušková M., Neuhaus G.(2004). Change point analysis for censored data. Journal of Statistical Planning and Inference, accepted for publication. [11] Hušková M., Slabý A.(2001). Permutation tests for multiple changes. Kybernetika 37, [12] Kalbfleisch J.D., Prentice R.L.(2002). The statistical analysis of failure time data(second edition). John Wiley& Sons, Inc., Hoboken, New Jersey. [13] Komárková L.(2004). Change point problem for censored data. Doctoral Thesis, Charles University in Prague, Department of Statistics. [14] Lehmann E.L.(1991). Theory of point estimation. Wadsworth& Brooks/Cole, California.

202 192 Lenka Komárková [15] Liu S.(1998). Nonparametric tests for change-point problems with random censorship. Doctoral thesis, University of Alberta, Edmonton. [16] Stute W.(1996). Changepoint problems under random censorship. Statistics27, Acknowledgement: The work was supported by the grant GAČR 201/03/0945 and by the Research plan MSM Address: L. Komárková, University of Economics, Department of Information Management, Jarošovská 1117/II, Jindřichův Hradec

203 ROBUST 2004 c JČMF 2004 INFORMACE A DEZINFORMACE STATISTICKÝ POHLED Michala Kotlíková, Hana Mašková, Arnoštka Netrvalová, Pavel Nový, Dagmar Spíralová, František Vávra, David Zmrhal Klíčová slova: Informace, entropie, divergence, dezinformace. Abstrakt: Při práci se statistickými odhady sdílené informace I(X: T)= t T p(x, t) p(x, t)lg p(x)p(t) x X nastávají některé zdánlivě neočekávatelné situace. Protože pravděpodobnosti (hustoty) p(x, t), p(x), p(t) pro nás nejsou dostupné, pracujeme s jejich odhady e(x, t) p(x, t), e(x) p(x), e(t) p(t)nebosjejichněkterouparametrickoureprezentací(aletajetakéodhadem).potomodhad În(X: T)= = 1 n n i=1 lg e(xi,ti) e(x i)e(t i) konvergujek t T x X p(x, t)lg e(x,t) e(x)e(t).tentovýrazbudemeznačit I(X: T; e)abudedálenazývánsdílenouinformacímezi náhodnými proměnnými X a T při využití modelů e(x, t), e(x), e(t). Obdobná situace nastává i pro další pojmy z teorie informace jako je entropie a divergence. V tomto sdělení jsou prezentovány některé vybrané možnosti využitíuvedenéhojevuavlastnostipředložených výběrovýchměr (např. I(X: T; e)můžebýtizáporná).rozdíl Di(X: T; e)=i(x: T; e) I(X: T) pakmůžebýtužitečnoucharakteristikou přijatelnosti (inapř.vychýlenosti) zvolených modelů e(x, t), e(x), e(t). Pro tento rozdíl jsme zvolili pracovní název dezinformace.názevjemotivovántím,že vhodnou volboumodelůlzedosáhnoutpoměrněširokéhospektrahodnot výběrové informace I(X: T; e)atímipřípadněmožnýchrozhodnutí(manipulacesdatyamodelem). 1 Úvod Výše uvedený koncept výběrové informace je využitelný jak pro spojitá, tak i diskrétní rozdělení pravděpodobnosti. Autoři se domnívají, že otevírá prostor zkoumání a popisování jevů v úlohách klasifikace, rozhodování a i testování hypotéz. V tomto příspěvku budou prezentovány některé výsledky pro diskrétní rozdělení, zaměřené na využití při odhadování. Prezentace je zaměřena do dvou oblastí. První oblastí budou náznaky toho, jak lze získat klasické formule odhadů s využitím navrhovaného aparátu. Druhou oblastí bude náznak některých neotřelejších postupů. Příspěvek však bude z důvodů přehlednosti členěn podle klasických prostředků teorie informace, obě oblasti se budou prolínat.

204 194 Michala Kotlíková a kol. 2 Výběrová entropie Mějmeabecedu X= {x a, x b,..., x m }-soustavuelementárníchjevůannezávislýchpozorování x 1, x 2,..., x n - produkce zdrojestoutoabecedou. Nechť je takový zdroj stacionární s pravděpodobnostmi výskytu jednotlivých písmen p(x). Toto pravděpodobnostní rozdělení je nám nedostupné a je modelováno námi předpokládaným rozdělením e(x). Potom budeme za výběrovou entropii H n (X; e)považovatvýraz: H n (X; e)= 1 n n i=1 ( ) lg e(x i ). Ten lze jinak psát: H n (X; e)= x X n(x) ( ) n lg e(x), kde n(x) je počet pozorování písmene(jevu) x. S rostoucím n výběrová entropie H n (X; e)konvergujekvýrazu x X p(x)lg(e(x)).konvergenceje ve smyslu pravděpodobnosti[4](zákon velkých čísel). Limitní výběrovou entropií budemepakrozumět: H(X; e)= ( ) p(x)lg e(x). x X Tentopojemneníoriginální.Jeznámpodnázvem CrossEntropy,např.[7]. Nejprve vlastnosti: 1. H(X; e) je konvexním funkcionálem e(). 2. H(X; e)jespojitýmfunkcionálem e(), e(),prokteréje e(x) >0, x X. 3. H(X; e)nabývásvéhominimapro e()=p(),pokud p(x) >0, x X. Vlastnost 1. je zřejmá, je důsledkem konvexity funkce lg(). Vlastnost 2. dokážeme pomocí konceptu sub-derivace ve směru. Rozdělení e λ,g (x)=(1 λ)e(x)+ λg(x)budemepro0 λ 1nazývat (λ)variacírozdělení e()ve směru g(). Sub-derivací H(X; e) ve směru g budeme rozumět výraz[2],[3]: Potom: H g H(X; e λ,g ) H(X; e) (X; e)= lim. λ 0 + λ H g(x; d e) = lim λ 0 + dλ H(X; e λ)= lim λ 0 + = x X p(x) g(x) e(x). e(x) { p(x) x X } g(x) e(x) = e λ,g (x)

205 Informace a dezinformace statistický pohled 195 Derivacejedefinovánaprovšechnymodely e(),prokteréje e(x) >0, x X.Tedyjeifunkcionál H(X; e)protakovémodelyspojitýve()[2],[3]. Vlastnost3.jedůsledkemoboupředchozíchafaktu,že: H g(x; p)=0protaková p(),prokteréje p(x) >0, x X.Požadaveknenulovostije,udiskrétní verze, přirozený. Mohou s ním však být problémy u odhadů při nulovém počtu pozorování jevu(písmene), u kterého je předpoklad nenulové pravděpodobnosti(zerofrequencyproblem).minimalita H(X; e)pro e()=p()vedena následující heuristiku při odhadování: Hledámetakovée (), prokteréjeh n (X;e )= 1 n ( ) lg e (x i ) minimální. n To však není nic jiného než metoda maximální věrohodnosti, protože, pokud takové e ()existuje,pak: 1 ( ) n n i=1 lg e (x i ) 1 ( ) n n i=1 lg e(x i ) ) n i=1 (e lg (x i ) ) n i=1 (e(x lg i ) n i=1 e (x i ) n i=1 e(x i). A to je velice užitečný prostředek, zvláště pro parametrické odhadování. Dokonce lze i pomocí klasického diferenciálního počtu nalézt(v případě konečnéhosouboruelementárníchjevů)odhad ê(x)minimalizující H n (X; e). Tedyhledámečísla ê(x a ), ê(x b ),..., ê(x m ),prokteráplatí: x X ê(x)=1 a H n (X; ê) min.potomspoužitímmetodylagrangeovýchmultiplikátorů se jedná o nalezení minima: Q{ê(x a ), ê(x b ),..., ê(x m ), ψ}= n(x) ( ) ( n lg ê(x) + ψ 1 ) ê(x), x X x X pak Q ê(x) = n(x) 1 n ê(x) ψ Řešením rovnic: Q ê(x) =0 a x X i=1 a 2 Q ê 2 (x) = n(x) 1 n ê 2 0, pokud ê(x) >0. (x) ê(x)=1 dostaneme ê(x)= n(x),pokud n(x) >0. n A to není nic jiného než klasický frekvenční odhad pravděpodobnosti za předpokladu, že pro všechny možné jevy(písmena) máme alespoň jedno pozorování. 3 Výběrová divergence a informace ve speciálních případech Divergence pravděpodobnostních modelů je definována[1],[2]: D(p s)= x X p(x) lg p(x) s(x).

206 196 Michala Kotlíková a kol. Z obdobných důvodů jako výše, můžeme zavést: D n (p s; e)= x X n(x) n e(x) lg s(x) výběrovou divergenci modelu e() proti modelu s() a její limitní formu: D(p s; e)= x X p(x) lg e(x) s(x). Za použití shodných prostředků jako u entropie lze dokázat obdobné vlastnosti: 1. D(p s; e) je konkávním funkcionálem e(). 2. D(p s; e)jespojitýmfunkcionálem e(), e(),prokteréje e(x) >0, x X. 3. D(p s; e)nabývásvéhomaximapro e()=p(),pokud p(x) >0, x X. 4. D(p s; s)=0. Vlastnosti1.a4.jsoutriviální.Vlastnosti2.a3.jsoudokazatelnéopětza použití sub-derivace ve směru: D g D(p s; e λ,g ) D(p s; e) (p s; e)= lim = g(x) e(x) p(x). λ 0 + λ e(x) x X Ta je až na znaménko shodná se sub-derivací u limitní výběrové entropie. To je přirozené, neboť: D(p s; e) = p(x)lg e(x) s(x) = ( ) p(x) lg e(x) ( ) p(x)lg s(x) = x X x X x X = H(X; e) ( ) p(x)lg s(x). x X Jak bylo uvedeno v práci[8], uvedené vlastnosti umožňují klasifikovat možné modely e() ve vztahu ke srovnávacímu s() podle následující stupnice: D(p s;p) = max Oblast "sub p" - kladná D(p s;s) = 0 Oblast "sub s" - záporná

207 Informace a dezinformace statistický pohled 197 Samozřejměsetéžnabízíproblémnalezení nejvícodlišného modeluod s(). Je však namístě poznamenat, že divergence není metrikou. To můžeme naznačit následující úlohou: Hledáme sdružené rozdělení pravděpodobnosti p(x, y) za předpokladu, že jsou dány a známy jeho marginály p(x)ap(y),atotakové,že maximalizuje divergenci od sdruženéhorozdělení za předpokladu nezávislosti p(x)p(y). Tedy: při vazbách: p(x)= y Y x X y Y n(x, y) n lg p(x, y) p(x,y) max p(x)p(y) p(x, y); x X a p(y)= x Xp(x,y); y Y. Řešení tohoto problému klasickou cestou vede opět na využití Lagrangeových multiplikátorů: + x X Q(p(,), α, ψ)= x X y Y n(x, y) n lg p(x, y) p(x)p(y) + ( α x p(x) ) p(x, y) + ( ψ y p(y) ) p(x, y). y Y y Y x X Ztohodostanemerovnici sedlovýchbodů : 0= Q n(x, y) = p(x, y) np(x, y) α x ψ y a pro matici druhých parciálních derivací(přesněji její diagonálu): 2 Q n(x, y) p 2 = (x, y) np 2 (x, y), tedy v případných sedlových bodech bude maximum. Řešením rovnice sedlových bodů dostaneme: p(x, y)= n(x, y) n(α x + ψ y ). Hodnoty α x, ψ y zjistímenumerickýmřešenímvazebníchrovnic: p(x)= 1 n y Y n(x, y) (α x + ψ y ), x X; p(y)=1 n(x, y), y Y, n (α x + ψ y ) x X pokud takové řešení existuje.

208 198 Michala Kotlíková a kol. Uvedenou úlohu lze modifikovat, např.: x X y Y n(x, y) n lg p(x, y) p(x)p(y) přivazbě:p(x)= y Y p(x,y) max, p(x,y), x X. Tj. příliš nám nezáleží na splnění podmínek: p(y)= x X p(x, y), y Y. Pakdostanemeřešeníproodhadp(x,y)vetvarup(x,y)= n(x,y) n(x) p(x) aodpovídajícímarginálnípravděpodobnost p(y)= x X n(x,y) n(x) p(x). Tato řešení jsou vlastně klasickým(frekvenčním) odhadem podmíněné pravděpodobnosti p(y/x). Ještě volnější modifikace je: x X y Y n(x, y) n lg p(x, y) p(x)p(y) p(x,y) max. Tj. vůbec nám nezáleží na dodržení marginálů. Pak dostaneme řešení pro odhad p(x, y)vetvaru: n(x, y) p(x, y)= n a tomu odpovídající marginální pravděpodobnosti: p(x)= n(x) n(y) ; p(y)= n n. Atojevlastně nejklasičtější frekvenčnítvarodhadu. 4 Závěr Předloženáprácemáambiciprokázat,ženastíněnépojetí výběrových entropií, divergencí a informací spolu s jejich limitními tvary je konzistentní s některými klasickými technikami odhadování. Nejen to, ukazuje se, že je v něm možná skryt další, vlastní, potenciál pro rozvoj. Nakolik je tento dojem přesvědčivý i mimo skupinu autorů, ponecháváme na čtenáři.

209 Informace a dezinformace statistický pohled 199 Reference [1] Vajda I.(1982). Teória informácie a štatistického rozohodovania. Alfa, Bratislava. [2] Cover T.M., Thomas J.A.(1991). Elements of information theory. Wiley. [3] Hiriart-Urruty J.B., Lemaréchal C.(2001). Fundamentals of convex analysis. Springer. [4] Rényi A.(1972). Teorie pravděpodobnosti. Academia, Praha. [5] Cziszár I.(1998). Information theoretic methods in probability and statistics. Conference Fifty Years of Shannon Theory, 1998 and Shannon Lecture ISIT 97. [6] Cziszár I., Körner J.(1986). Information theory, coding theorems for discrete memoryless systems. KIADÓ, BUDAPEST, [7] Zhai C.X. (2004). Essential probability and statistics. Department of Computer Science, University of Illinois, Urbana-Champaign, Lecture for CS397-CXZ Algorithms in Bioinformatics. [8] Vávra F., Nový P.(2004). Informace a dezinformace. Seminář z aplikované matematiky. Katedra aplikované matematiky, Přírodovědecká fakulta Masarykovy Univerzity, Brno, Poděkování:ThisworkwassupportedbythegrantoftheMinistryofEducation of the Czech Republic No: MSM Information Systems and Technologies. Adresa: M. Kotlíková, H. Mašková, A. Netrvalová, P. Nový, D. Spíralová, F. Vávra, D. Zmrhal, Západočeská univerzita v Plzni, Fakulta aplikovaných věd, Katedra informatiky a výpočetní techniky, Univerzitní 8, Plzeň vavra@kiv.zcu.cz

210 200

211 ROBUST 2004 c JČMF 2004 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA V INFORMATICKÝCH OBORECH Alena Koubková, Jaroslav Král Klíčová slova: Teorie pravděpodobnosti, matematická statistika, informatika. Abstrakt: Cílem tohoto příspěvku je podnítit diskusi o použití pravděpodobnostních a statistických metod v informatice, o spolupráci informatiků a statistiků při řešení teoretických i praktických úloh z nejrůznějších oblastí informatiky a hlavně o výuce pravděpodobnosti a statistiky pro studenty informatických oborů. 1 Kde mohou informatici uplatnit pravděpodobnost a statistiku? Pokud si někdo pod označením informatik představuje jen rutinního programátora známých algoritmů, správce serveru nebo tvůrce webových stránek, pak bude celkem oprávněně tvrdit, že informatika se bez pravděpodobnosti a statistiky obejde. Musíme bohužel konstatovat, že tuto představu má nejen většina laické veřejnosti, ale i nezanedbatelná část studentů, kteří se na naší fakultě na tento obor hlásí. Práce informatika ovšem zahrnuje i analýzy problémů, které se mají řešit, návrhy nových algoritmů a zkoumání jejich vlastností, testování programových systémů v různých podmínkách provozu atd. A zde už se prostor pro pravděpodobnostní a statistické metody najde. Následující přehled není v žádném případě vyčerpávající a ani dostatečně reprezentativní. Vycházíme pouze z našich osobních zkušeností a víme, že řadanašichkolegůbyhomohladoplnitozajímavépříkladyzesvépraxe. Příklad 1: Teoretická analýza algoritmů Analýza algoritmů se kromě důkazů správnosti zabývá také odhadováním rychlosti a paměťové náročnosti výpočtu(tzv. časové a prostorové složitosti) v závislosti na rozsahu vstupních dat. Jde tedy vlastně o nalezení nějaké funkce f takové, že doba výpočtu(resp. velikost použité paměti) pro data velikosti n je f(n). Protože hledaná funkce by měla mít obecnou platnost bezohledunato,vjakémjazycebudedanýalgoritmusnaprogramovánana jakém konkrétním počítači bude výpočet realizován, měří se časová složitost ne v jednotkách času, ale počtem provedených operací. Přitom aditivní i multiplikativní konstanty se ve výpočtech zanedbávají, protože asymptoticky pro velká n nehrají podstatnou roli. Je zřejmé, že jeden a tentýž algoritmus může pracovat různě rychle pro dvě stejně velké, ale jinak uspořádané množiny vstupních dat. Z toho důvodu se rozlišuje složitost v nejhorším případě a očekávaná složitost. Zatímco v prvním případě je hodnota f(n) dobou výpočtu pro nejhorší možná data, tj. dobou, která pro ostatní data dané velikosti

212 202 Alena Koubková, Jaroslav Král rozhodně nebude překročena, ve druhém případě je to střední(očekávaná) hodnota doby výpočtu, která závisí na pravděpodobnostním rozložení vstupníchdat.tabymělabýtdoplněnaještěalespoňorozptylneboodhadypravděpodobností velkých odchylek. Jenže tyto výpočty mohou být i pro velmi jednoduché algoritmy komplikované, a to i tehdy, když předpokládáme, že vstupní data mají rovnoměrné rozdělení. Často se ani samotnou střední hodnotu nepodaří spočítat přesně a musíme se spokojit s nějakým jejím horním či dolním odhadem. Rozptyl nebo další momenty se většinou z důvodu obtížnosti ani nepočítají. Řadu ukázkových analýz tohoto typu lze najít např. vmonografiích[2],[3],[17].jeznichvidět,žečlověk,kterýmápodobné výpočty provádět, musí být schopný matematik a rozhodně nevystačí s pouhou definicí střední hodnoty nebo vytvořující funkce. Musí to tedy být buď informatik s rozsáhlými matematickými znalostmi, nebo matematik se zájmem o informatické problémy. Teoretická informatika, jejíž částí je i analýza algoritmů, má vůbec k matematice velmi blízko a pro člověka zabývajícího se pravděpodobností by mohla být docela zajímavou aplikací. Příklad 2: Randomizované algoritmy Takzvané randomizované (nebo také pravděpodobnostní) algoritmy se od klasických deterministických liší v tom, že v některých krocích provádějí náhodnou volbu, která určuje další pokračování výpočtu. Typickým příkladem jsou třeba náhodné procházky na grafech. Tato náhodná volba může v některých případech výpočet urychlit, v jiných zpomalit. Podstatné je ovšem to, že spustíme-li takový algoritmus několikrát na naprosto stejných datech, dostaneme pokaždé jiný průběh a tím i jinou dobu výpočtu. U randomizovaných algoritmů má tedy smysl pouze očekávaná složitost, která závisí na pravděpodobnostním rozdělení náhodně generovaných hodnot. Některé pravděpodobnostní algoritmy mají navíc tu vlastnost, že v některých případech můžeme dostat naprosto chybný výsledek. Je jasné, že aby takový algoritmus byl vůbec použitelný, musíme umět odhadnout pravděpodobnost takové chyby a tato pravděpodobnost musí být zanedbatelná. Pravděpodobnostní algoritmy se často používají k řešení velmi obtížných úloh, kdy přesný výpočet deterministickým algoritmem by trval neúnosně dlouho. Z pravděpodobnostních metod se při analýze randomizovaných algoritmů uplatní kromě různých technik výpočtu střední hodnoty a dalších momentů také markovské procesy. Více se lze dočíst např. v monografii[14]. Příklad 3: Experimentální algoritmika Experimentální algoritmika je empirickým protějškem teoretické analýzy algoritmů. Má několik cílů. Předně chce navržené algoritmy uvést do praxe, to znamená vytvořit efektivní implementace a ve formě programových knihoven je nabídnout uživatelům. Dále prakticky prověřit chování algoritmů nebo pomocí experimentů odhadnout očekávanou složitost v případech, kdy ji teoreticky spočítat neumíme. Výsledky experimntů pak mohou zpětně pomáhat teoretické analýze. V neposlední řadě je úkolem experimentální algoritmiky vytvořit knihovny testovacích dat pro experimentování s algoritmy a posloužit tak tvůrcům algoritmů i jejich uživatelům.

213 Pravděpodobnost a matematická statistika v informatických oborech 203 Experimentální algoritmika nabízí možnost prověřit chování algoritmů pro nejrůznější typy rozdělení vstupních dat, pokud tato data umíme nasimulovat. Při vyhodnocování výsledků experimentů jsou použitelné např. statistické testy o střední hodnotě a dalších charakteristikách a zejména regrese při snaze experimentálně určit funkční závislost doby výpočtu algoritmu na velikosti vstupních dat. Aktuální jsou otázky o potřebném počtu provedených měření, aby získané výsledky byly statisticky průkazné, uplatnilo by se i plánování experimentů. Vše bývá náležitě komplikováno tím, že data získaná při experimentech většinou nesplňují ideální předpoklady běžně známých statistických metod, zejména všudypřítomnou nezávislost a normalitu rozdělení, a je zde tedy opět zapotřebí zkušenějšího statistika. Statistické povědomí je nutné i při závěrečné interpretaci výsledků. Experimentální algoritmika je poměrně velmi mladou disciplínou, její rozvoj byl umožněn zejména možností publikovat v elektronické formě a získávat programové produkty a datové soubory po internetu. Zájemce o tuto problematiku odkazujeme např. na časopis Journal of Experimental Algorithmics vydávaný Association for Computing Machinery(ACM) nebo na publikace [11]a[13]. Příklad 4: Datové struktury a databáze Teoreticky patří tento obor do analýzy algoritmů, zabývá se ale jen speciálními algoritmy, které umožňují vyhledávání v datech, vkládání nových záznamů, mazání starých, třídění apod. Při různém způsobu uložení dat v počítači dosahují tyto algoritmy různé efektivity. Úkolem tedy je najít takový způsob reprezentace dat, který je optimální pro nejčastěji prováděné operace. Mírou časové složitosti algoritmů pracujících nad datovými strukturami uloženými v interní paměti počítače je opět počet provedených operací(především porovnávání klíčů), u algoritmů pracujících nad databázemi uloženými na externích médiích je to počet přenosů datových bloků mezi externí pamětí(diskem) a interní pamětí, protože tato operace je časově nejnáročnější. Problémy spojené s výpočtem střední hodnoty této míry jsou tytéž jako v Příkladu 1. Datovými strukturami a jejich analýzou se zabývá např. monografie[10]. Příklad 5: Dokumentografické informační systémy V těchto systémech se pracuje s databázemi speciálního typu. Záznamy v nich nejsou přísně strukturované, ale jsou to texty. Proto se v nich nevyhledává podle hodnot nějakého klíče, ale podle jakéhosi dotazu uživatele. Příkladem jsou třeba rešeršní systémy, kde můžeme vyhledávat nejen podle jména autora nebo názvu publikace, ale i podle tématu nebo klíčových slov. Účelem ovšem není vyhledat všechny články, ve kterých se zadané heslo vyskytne alespoň jednou, protože většina z nich by se patrně ukázala jako irelevantní. Protosehledajímodely,vnichžsetermínůmvdokumentechivdotazech přiřazují váhy podle důležitosti, a stanovují se míry podobnosti mezi dokumentem a dotazem. Na základě této podobnosti by měl systém s velkou pravděpodobností vyhledat relevantní dokumenty. Pravděpodobnost se zde používá jednak v procesu stanovení vah, ale i jako charakteristika úspěšnosti

214 204 Alena Koubková, Jaroslav Král práce systému. Konkrétně se používají např. metody bayesovské analýzy, bayesovské sítě a shluková analýza. Nejjednodušší pravěpodobnostní modely dokumentografického informačního systému lze najít např. v[16]. Příklad 6: Data mining Je opravdu těžké si představit disciplínu, která by více vybízela informatiky a statistiky ke vzájemné spolupráci. Místo ní jsme ale leckdy svědky řevnivosti až nesnášenlivosti, pohrdání partnerem a snahy přivlastnit si tento oboraveškerézásluhyojehorozvoj.jakolidé,kteřísevesvémživotězabývali jak statistikou tak informatikou, máme možnost vidět společné i rozdílné znaky obou disciplín. Společná je především snaha najít vhodný model pro analyzovaná data, případně detekovat odchylky od tohoto modelu, hledat závislosti, trendy, předpovídat budoucí vývoj. Rozdílný je způsob získávání dat a hlavně jejich objem. Zatímco klasická statistika pracuje obvykle s výběrem nevelkého rozsahu, na jehož základě dělá závěry platné(s nějakou přípustnou statistickou chybou) pro celý základní soubor, data mining chce využít všechna dostupná data. Neuplatní se zde tedy příliš metody výběrových šetření nebo plánování experimentů. Před vlastní analýzou je nutno potřebné záznamy v databázích efektivně vyhledat, odfiltrovat z nich nadbytečné údaje, vyřadit záznamy neúplné nebo nějak poškozené a podobně, což je informatická záležitost. Kvůli obrovskému objemu vstupních dat se vhodnost statistické metody musí posuzovat i z hlediska časové náročnosti výpočtu, je třeba na ni pohlížet jako na kterýkoli jiný algoritmus, který má být analyzován a efektivně implementován, což je opět informatický problém. Naopak výsostně statistická je volba správné metody, ověření jejích předpokladů a závěrečná interpretace výsledků. Statistický a informatický přístup bysezdetedymělvhodnědoplňovat. Příklad 7: Operační systémy Z pohledu statistika není operační systém nic jiného než systém hromadné obsluhy, kde obslužným zařízením je procesor(nebo server, sdílená tiskárna apod.) a zákazníci jsou procesy(klientské terminály, požadavky na tisk). Úkolem je najít strategii režimu fronty a stanovování priorit, která by byla optimální jak z hlediska provozu systému, tak z hlediska čekajících uživatelů, což bývá často v přímém rozporu. O možném použití teorie front v operačních systémech pojednávají některé kapitoly[1] nebo[9]. Příklad 8: Počítačová grafika V počítačové grafice se pravděpodobnostní metody dají použít např. při analýze a rekonstrukci digitálního obrazu. Na obraz se pohlíží jako na pole bodů (pixelů) různých barev oddělených mikrohranami a případně doplněných dalšími charakteristikami(např. příslušností k určité textuře apod). K obrazu bývá často přimíchán šum, který se tam může dostat třeba nekvalitním nasnímáním nebo při přenosu dat. Úkolem je tento šum odstranit a co nejlépe zrekonstruovat originál. Jinou úlohou může být popis a následné syntetické generování textur a mnoho dalších. Dají se použít různé osvědčené heuristiky, ale také např. bayesovská analýza nebo rovinná markovská pole. Zájemce o tuto problematiku odkazujeme na publikace[7],[8],[18].

215 Pravděpodobnost a matematická statistika v informatických oborech 205 Příklad 9: Tvorba softwarových systémů Statistika se zde může uplatnit z několika důvodů. Předně i balíky statistických programů vytvářejí informatici, takže by měli mít alespoň nějakou povědomost o tom, co vlastně programují. V programech pro ekonomickou sféru se uplatní metody analýzy dat, v systémech pro podporu managementu třebateorierizikatd.kromětoho,aťužjesoftwarovýsystémurčenpro použití v jakékoli oblasti, bude vždy posuzován z hlediska spolehlivosti, jeho tvůrci tedy musí řešit takové otázky, jako kdy se ještě vyplatí programy dále upravovataladitaodkdyužjelepšíjekompletněpřepsat.vtomjimmohou pomoci znalosti z teorie spolehlivosti. Příklad 10: Kryptografie Kryptografie již dávno není pouze předmětem zájmu tajných služeb, ale stává se záležitostí doslova každého z nás. Problematika elektronických podpisů, internetové bankovnictví či ochrana dat všeho druhu si zasluhuje nejvyšší pozornost. Kryptografie sice stojí hlavně na teorii čísel, ale i statistické metody se zde uplatní, a to hlavně při náhodném generování klíčů. V kryptografii se nedají použít jednoduché kongruenční generátory, protože jsou málo náhodné a snadno dešifrovatelné. Navíc klíčem by obvykle mělo být hodně velké prvočíslo, řádově o stovkách cifer. Protože není možné tak velké prvočíslo efektivně spočítat, generuje se posloupnost cifer náhodně a výsledek se podrobuje testům, zda je to skutečně prvočíslo či ne. Řada těchto testů jsou randomizované algoritmy. Dalším problémem je důkladná pravděpodobnostní analýza algoritmů používaných v tzv. veřejných kryptografických systémech. Jde o to, aby algoritmy, pomocí nichž by mohla zpráva být i bez znalosti klíče dešifrována, měly exponenciální složitost nejen v nejhorším, ale i v průměrném případě.víceselzedočístnapř.v[15]. 2 Jaktovypadásvýukou? Před zhruba patnácti lety se studenti informatiky na MFF UK neučili pravděpodobnost a statistiku vůbec. Situace se od té doby výrazně změnila k lepšímu. V současné době mají studenti jednosemestrální přednášku z pravděpodobnosti a jednosemestrální přednášku ze statistiky, obojí se cvičeními, výuku zajišťuje KPMS. Tato výuka sice není striktně povinná, ale tyto předměty se až do letošního roku zkoušely u státnic jako součást všeobecného základu, takže je většina studentů navštěvovala. V začínajícím reformovaném studiu dokonce ještě jeden semestr přibude. V bakalářském studiu bude povinná jednosemestrová přednáška ze základů pravděpodobnosti a statistiky, na ni budou navazovat v magisterském studiu(alespoň pro některé obory) semestr pravděpodobnosti a semestr statistiky věnované pokročilejším partiím, které budou alespoň v některých specializacích povinné či povinně volitelné. Kromě toho existuje i několik výběrových přednášek zaměřených pouze na některé vybrané kapitoly potřebné pro daný obor a přednášek snažících se ukázat aplikace stochastických metod v různých oborech informatiky, které

216 206 Alena Koubková, Jaroslav Král si jednotlivé katedry informatické sekce zajišťují samy. Obecně ale požadavky z pravděpodobnosti a statistiky nebudou nadále součástí státních závěrečných zkoušek. S počtem hodin i s tématy přednášek můžememe být celkem spokojeni, přestopodlenásvýukazcelanesplňujesvůjúčel.proč?jedendůvodje,žeje zařazena až do vyšších ročníků. V současnosti si ji studenti sice mohou zapsat kdykoli, ale z nejrůznějších důvodů to odkládají, dokud je k tomu okolnosti nedonutí. Těmi okolnostmi bývá nejčastěji to, že na něco ze statistiky narazí připrácinadiplomce.ktomudojdeažnasamémkoncistudia,takžeto,cose naučí, už nemohou použít v jiných odborných předmětech a často se ani nedozvědí, kde všude by se jim to mohlo hodit. Učitelé řady odborných předmětů se dostávají do situace, že potřebné partie z pravděpodobnosti si buď musí sami odpřednášet(na úkor něčeho jiného a často i v různých předmětetch opakovaně), nebo se těm tématům, kde by je potřebovali, prostě vyhnout. Najde se i pár dobrodruhů, kteří předpokládají, že to studenti znají, a když ne,žemajímožnostsetonaučitvpředmětechktomuurčených,aletivětšinou spláčou nad výsledkem, protože pro studenty se pak jejich přednáška stane nesrozumitelnou(a neoblíbenou). V reformovaném studiu se situace poněkud zlepší u magistrů, ale bakaláři na tom budou prakticky stejně, protože pravděpodobnost je zařazena až do třetího, tj. posledního ročníku jejich studia. Druhým důvodem k nespokojenosti je, že studenti většinou považují statistiku za nezajímavou a hlavně pro ně nepotřebnou. Protože současné studium už tak jako tak dobíhá, bavme se dále pouze o reformovaném studiu. Přeřadit výuku pravděpodobnosti a statistiky do druhého ročníku se zdá být momentálně neprůchodné. Počet vyučovacích hodinvnižšíchročnícíchjepevnědanýajetřebadonichdoslovanacpat množství odborných předmětů, bez kterých studenti nemohou začít pracovat na závěrečném projektu. Taková je alespoň momentální představa a teprve dalšíchněkolikletukáže,zdajesprávnáajedinámožná.teorie(atonejen pravděpodobnost) se zkrátka z tohoto hlediska jeví jako postradatelný luxus. Přednáška z pravděpodobnosti pro bakaláře tak bude mít význam hlavně protyznich,kteříbudouvestudiupokračovat,pokudsníovšemněco neuděláme. Nelze-li posunout výuku pravděpodobnosti a statistiky do nižších ročníků, tak, aby bylo možno studentům v odborných předmětech ukázat její využití, nezbývá zřejmě nic jiného, než zařadit příklady aplikací v informatice přímo do této přednášky. Namísto příkladů ze života, kde se statisticky vyhodnocuje třeba vývoj kojenecké úmrtnosti, znečištění životního prostředí nebozávislostbarvyočíabarvyvlasů,jetřebavolitpříkladyzoborů,které naši studenti studují. To bude vyžadovat úzkou spolupráci učitelů z obou stran, vybrat vhodné příklady totiž vůbec nebude lehké. Bylo by vhodné, aby zvolené příklady pokrývaly co nejvíce informatických disciplín, bude tedy zapotřebí spolupráce většího počtu lidí. Navíc bude nutná synchronizace s odbornými předměty, aby nedocházelo k opačnému extrému, že by se v prav-

217 Pravděpodobnost a matematická statistika v informatických oborech 207 děpodobnosti počítal příklad z oboru, který studenti ještě neměli, a naopak statistik by jim musel vysvětlovat jeho základy. A kromě toho, opravdu jednoduchých učebnicových příkladů nebude nijak mnoho. Ideální by bylo mít časem skripta nebo učebnici pravděpodobnosti a statistiky přímo pro informatiky, podobnou, jako je ve svém oboru monografie[12]. V současné době bude ale zřejmě kamenem úrazu nedostatek času na obou stranách, protože rozbíhající se bakalářské studium s sebou přináší např. větší počet zkoušek, vedení a oponování většího počtu diplomových prací a v začátcích i podstatné změny ve vyučovaných předmětech. 3 Víme,cochceme? K tomu, co zde o významu pravděpodobnosti a statistiky pro informatiku již bylo řečeno, dodejme ještě, že v poslední době zaznamenáváme úvahy o tom, jaký by vlastně měl být profil absolventa oboru informatika na matematicko-fyzikální fakultě(viz např.[4],[5],[6]). Jestli by to měl být v první řadě zručný programátor nebo spíš všestranněji vybavený člověk, který by se uplatnil při analýze problémů a návrzích jejich řešení, dovedl by se orientovat v množství již existujících programů a programových komponent a posoudit jejich výkonnost, spolehlivost i cenu, který by dovedl jednat s uživatelem a měl i základní manažerské schopnosti. Je jasné, že statistika může k všestrannosti informatika podstatně přispět. Schopnost odhadnout a porovnat parametry systémů nebo programů, určit spolehlivost, odhadnout rizika volby apod. se může jedině hodit. Na druhé straně doufáme, že i statistici si uvědomují, že informatika pro něneznamenájento,žemohoumítnastolepočítačseditorempropsaní vědeckých publikací a s přístupem na internet, ale že ji chápou jako jednu zaplikacísvéhooboru.žeseonibudouzajímatstejnějakooekonomii, biologii nebo fyziku, že si někteří z nich osvojí terminologii a základy některého z informatických oborů a budou řešit problémy, které mohou být i ze statistického hlediska zajímavé. V některých situacích by zcela jistě bylo jednodušší vysvětlit statistikovi několikařádkový algoritmus, na jehož pravděpodobnostní analýzu by mohl vynaložit všechny své zkušenosti získané léty studií a vlastní odborné práce, než učit informatika pět let statistiku, aby si tu analýzu mohl udělat sám. Co říci na závěr? Snad jen to, že doufáme, že diskuse na toto téma bude pokračovat a spolupráce statistiků a informatiků se bude prohlubovat k užitku všech. Reference [1] Hansen P.B.(1979). Principy operačních systémů. STNL Praha. [2] Hofri M. (1987). Probabilistic analysis of algorithms. Springer-Verlag, New York, Berlin, Heidelberg. [3] Knuth D.(1973). The art of computer programming. Sorting and Searching 3, Addison-Wesley, Reading, Massachusetts.

218 208 Alena Koubková, Jaroslav Král [4] Král J., Töpfer P.(2000). Education of software experts for changing world.2 nd GlobalCongressonEngineeringEducation,Wismar,Germany, Z.Pudlowskied.UICEE [5] Král J., Žemlička M.(2004). What literacy for software developers.(manuscript). [6] Král J., Žemlička M.(2004). Mathematical statistics in SW engineering education. Information Technology and Organizations: Trends, Issues, Challenges and Solutions, M. Khosrow Pour ed. Idea Group Publishing, Hershey,PA,U.S.A [7] Statistics and Images: 1.(1993). Advances in Applied Statistics, Carfax Publ.Comp.K.V.MardiaandG.K.Kanjieds. [8] Statistics and Images: 2.(1994). Advances in Applied Statistics, Carfax Publ.Comp.K.V.Mardiaed. [9] McDermid J.A.(1991). Software engineer s reference book. Butterworth- Heinemann, Oxford, London. [10] Mehlhorn K.(1984). Data structures and algorithms 1: Sorting and searching. Springer-Verlag, Berlin, Heidelberg, New York. [11] Mehlhorn K., Näher S.(1999). The LEDA platform of combinatorial and geometric computing. Cambridge Univeristy Press. [12] Meloun M., Militký J.(1994). Statistické zpracování experimentálních dat. PLUS, Praha. [13] Moret B.M.E.(2002). Towards a discipline of experimental algorithmic. DIMACS Series in Discrete Mathematics and Theoretical Computer Science59, [14] Motwani R., Raghavan P. (1995). Ranomized algorithms. Cambridge University Press. [15] Neuenschwander D.(2004). Probabilistic and statistical methods in cryptology: An introduction by selected topics. Lecture Notes in Comp. Sci. 3028, Springer-Verlag, Berlin, Heidelberg, New York, Tokyo. [16] van Rijsbergen C.J.(1979). Information retrieval(second ed.). London, Butterworths. [17] Sedgewick R., Flajolet P.(1996). An introduction to the analysis of algorithms. Addison-Wesley, Reading, Massachusetts. [18] Winkler G.(1995). Image analysis, random fields and dynamic Monte Carlo methods. Springer-Verlag, Berlin, Heidelberg. Adresa: A. Koubková, J. Král, Katedra softwarového inženýrství, Matematicko-fyzikální fakulta UK, Malostranské nám. 25, Praha 1 koubkova@ksi.ms.mff.cuni.cz, kral@ksi.ms.mff.cuni.cz

219 ROBUST 2004 c JČMF 2004 A STATISTICAL PROPOSAL FOR SEQUENTIAL CLINICAL TRIALS IN DIFFERENT CANCER LOCATIONS A. Koubková, F.T. Barbosa, G. Molenberghs Keywords: Phase II clinical trials, decision function, response rate distribution, cancer location. Abstract: This work concerns on phase II cancer clinical trials design, which createanimportantstepindrugtesting,beforeitcanbeusedinpractice. We specialize on anticancer drugs. Sincedifferentcancersaresimilar,theideaofthiswirkistousetoestimate theactivityofthedruginsomespecificcancerbasedontheresultsoftesting thedruginanothercancer.themainaimisthentodetermineanoptimal sequenceofthecancerlocations,howtheyshouldbetested,inordertogain as much as possible. 1 Introduction Thiscontributionisaboutdrugtestinganditisasummaryoftheprepared paper[3]. Whenanewdrugisdeveloped,itneedstocomethroughanumberoftests beforeitisacceptedforuseinclinicalpractice.firstarethechemicaltestsin laboratories, then come tests on animals and the last stage consists of tests on humans, so called clinical trials. There are four stages(phases) of clinical trials.inphaseiclinicaltrialsthetoxicityofthenewagentisscreened,in phaseiiitsefficacyisestimated,inphaseiiithedrugiscomparedwiththe standard treatments and in phase IV rare side effects are monitored. ThisworkdealswithphaseIIcancerclinicaltrials.Themainaimisto estimatetheefficacyofthedrugdescribedbyitsresponserate.itisthe number of patients for which the drug shows desired activity divided by the total number of patients treated. There are strong criteria on patients, who canenterthetests.theresultofphaseiiclinicaltrialiseithertorecommend thedrugforphaseiiitrialsortorejectitfromanyfurtherstudy. For most of the cancers, there exist some active drugs. These drugs determine the minimal response rate, based on which the new agent is evaluated asactiveornot.thenewagentneedstobepreferablethanthestandardone anditshouldshowatleastthesameactivity. ThephaseIIclinicaltrialsareonearmstudies,inwhichonlymoderate number of patients(about 30) with one specific cancer type is treated. Since different cancers behave similarly, one anticancer drug can be active against moreofthem.herson[1]camewithanideaofamulti-stagedesignincluding patients with different tumor types. He wanted to estimate the predictive

220 210 A. Koubková, F.T. Barbosa, G. Molenberghs probabilities of response using some prior information on the response rate aswellasonthedegreeoftumornon-specificityinresponse,whichwouldbe adjustedasthetrialwouldgoon. Inthisworkweuseasimilaridea,i.e.toinvolvethesimilaritybetweenthe cancers in prediction of the drug efficacy. We propose a series of sequentially conducted clinical trials in different tumor locations. To this purpose we develop a decision function determining order of the tumors in the sequence, sothatonecangainasmuchaspossiblebyconductingatrialinthefirst tumor type. This function takes into account similarity between the cancer types, similarity between the drugs, aggressivity and incidence of the cancers, penalty for treating a patient successfully or unsuccessfully and the results from the clinical trials finished with the new agent. The functional values are updatedeachtimeatrialwiththenewagentisfinished. 2 Correlation matrices between the tumor types Since no easy measure of similarity between the cancers is known, we estimate it by ourselves. There exist more than 100 different cancers. Since many of themareveryrare,weusedonly25selectedcancertypesinsteadofthe particular diseases. These are adrenal, bladder, brain, breast, cervix, colon, endometrium, esophagus, kidneys, acute lymphocytic leukemia(all), acute myelogenous leukemia(aml), chronic lymphocytic leukemia(cll), chronic myelogenous leukemia(cml), liver, Hodgkin s lymphoma, non-hodgkin s lymphoma, small cells lung, non-small cells lung, ovaries, pancreas, prostate, skin, stomach, testes, and urethra cancers. Westudiedthesecancertypesfrom4differentpointsofviewbasedon which we calculated 5 correlation structures. Finally, we add one more matrix concerning the healthy body locations corresponding to the above cancers, instead of the diseases themselves. The matrix assuming the healthy body organs names Biological correlation matrix and it is calculated as a sample correlation matrix based on 51 features like similarity in structure, cellular base and functions of the organs. Since about 90% of the cancers develop in the epithelial tissue, special emphasisislaidonit. NextwecreateTwomatricesbasedondrugresponse.Thefirstonetakes into account 99 different drugs and 105 drug combinations, whereas the secondoneconcernsonlythe99drugs.forthefirstmatrix,theactivityofthe drugs was described by a weighted average of response rates coming from the recent clinical trials. For the second one we use an indicator describing, whetherthedrugisusedaloneinthelocation,oritisusedonlyincombinations, oritisnotusedatall. Allthecancersarecausedduetomutationsingenesinvolvedincell growthanddivision.therearetwokindsofsuchmutations,thefirstone activates the genes for rapid growth(oncogenes), the second one inactivates the genes controlling the growth. The Genetic correlation matrix takes into

221 A statistical proposal for sequential clinical trials account properties of the mutations, their locations and expression of some markers. The last two matrices, each concerns mutation only in one special gene. The P53 correlation matrix characterizes mutations in P53 gene, which controls the cell growth and division. The EGFR correlation matrix is calculated based on expression of Epidermal Growth Factor Receptor, which is involved in cellular growth. Each of the proposed matrices shows quite different pattern. Based on First correlation matrix based on drug response, the tumors seem almost independent(the coefficients take values around 0.05). On the other hand, in the EGFR correlation matrix, there are more than 68 coefficients between different tumor types equal to one. The coefficients of the other matrices take values from quite wide range, but mostly they are around Decision function Denote θ i thetrueresponserateofthenewagentinthe i-thtumorlocation, g i, h i thegainandlossfortreatingapatientwith i-thtumortypesuccessfully or unsuccessfully respectively and G(i) the value of the gain function for i-th location. The appropriate gain function consists of three parts, and its idea is partially based on[2]. PartI.Thefirstpartofthefunctiondescribesthegainobtainedinthe phaseiitrial.forphaseiitrials,itisreasonabletoassumethesamesample sizeinallthetumorlocationsandwechoose n 1 =30.Inthetrialperformed inthe i-thtumorlocation,therewillbe θ i n 1 patientstreatedsuccessfully and(1 θ i )n 1 unsuccessfully,sothegainwillbe G(phaseII, i)=g i θ i n 1 h i (1 θ i )n 1 =(g i + h i )θ i n 1 h i n 1. Part II. With probability n 1 x=k 1,i+1 ( ) n1 θ x x i(1 θ i ) n1 x thenewagentwillenterthephaseiiitrials.thecriticalvalues k 1,i are calculatedbasedontheequality P θ0,i {thedrugisevaluatedasineffective} β=0.1describingthetypeiierror. In phase III trials the sample sizes are different for the particular tumor types and reflect their incidence. We assume the sample sizes from the range [200,600]andcalculatethemas n 2,i = (incidenceperyear)/1000. InthephaseIIItrialconductedinthetumortype i,therewillbe θ i n 2,i successfullytreatedpatientsand(1 θ i )n 2,i unsuccessfullytreatedpatients. Sothegainwillbe G(phaseIII, i)=g i θ i n 2,i h i (1 θ i )n 2,i =(g i + h i )θ i n 2,i h i n 2,i.

222 212 A. Koubková, F.T. Barbosa, G. Molenberghs Part III. To the clinical practice the new agent will come with probability n 2,i x=k 2,i+1 ( n2,i x ) θ x i(1 θ i ) n2,i x. Forcalculationofthecriticalvalues k 2,i weusedthethresholdresponserates θ 0,i asbefore,butthistimewedeterminethemfromtheequalityforthetype Ierrorrate(with α=0.05). The numbers of patients treated with the new agent in clinical practice, n 3,i canhighlyvaryforthedifferenttumortypesandtheywilldependonthe incidenceofthediseases.weassume n 3,i =1/2 (incidenceperyear)yearly treatedpatientsperyear.itmeansthatinthe i-thtumorlocation, θ i n 3,i patientswillbetreatedsuccessfullyand(1 θ i )n 3,i unsuccessfullyperyear. Thisleadstothelastpartofthegainfunction G(practice, i)=g i θ i n 3,i h i (1 θ i )n 3,i =(g i + h i )θ i n 3,i h i n 3,i. The three parts together give the complete gain function. Since we don t knowthetrueresponserates θ i,weneedtoestimatethem.ifweknowthe distributionsof θ i,wecanusetheirexpectations,ortheirsamplemeans,or wecanintegratethegainfunctionovertheparameter θ i usingitsdensity. Finally, the pure gain is often not of interest. Preferentially, the more aggressivecancersaretreatedfirst.soweaddonemoretermtoourgain function.thistermis kt i,where kisanappropriateconstantusedtoinfluence thedecisionfunctioninthedesiredway,and t i isanaggressivitycoefficient, forexamplethedeathrate.thefinalgainfunctionis G(i)=(g i + h i )θ i n 1 h i n 1 + [ (g i + h i )θ i n 2,i h i n 2,i + n 1 x=k 1,i+1 n 2,i y=k 2,i+1 ] ((g i + h i )θ i n 3,i h i n 3,i ) + k t i. ( ) n1 θi x x (1 θ i) n1 x ( n2,i 4 Multimodal response rate distribution y ) θ y i (1 θ i) n2,i y To evaluate the above decision function, the distributions of the response rates θ i needtobeestimated.thecalculationisdividedintotwoparts.in thefirstoneweassumeonlytheabilityofthetumorstorespondandthe similarity between the drugs, based on which the basic prior distribution, q(θ i )isdetermined.inthesecondpartweadjustthebasicpriorforthe information of the finished phase II trials performed with the new agent and wegettheadvancedresponseratedistribution r(θ i X),whereXdenotesthe

223 A statistical proposal for sequential clinical trials resultsfromthefinishedtrials.thedistribution r(θ i X)canbeeitherprior orposteriordependingonwhetheratrialintumortype iwasdoneornot. Sincetheresponserates θ i areinfactproportionsofthebinomialdistribution, their appropriate prior distribution is a beta distribution. The first part ofthebasicpriordistributionof θ i, f 1 (.)iscalculatedbasedontheabilityof thetumortorespond.ifthetumordidn trespondtoanydruginthepast, thereisahighprobabilitythatitwillnotrespondtothenewagentneither. This suggests a beta distribution with the parameters a < 1 and b > 1 and sincewewanttohaveanuninformativeprior,wechoose a=0.8, b=1.2. Ifthetumorrespondedinthepasttoanydrug,denotetheprobability ofresponding(i.e.thenumberofactivedrugsdividedbythenumberofall drugs)by η i andtheaverageresponserateoftheactivedrugsas θ i.then wecanassumethatthenewagentwillhavethetrueresponserate θ i with theprobability η i andtheothervalueswillbelessprobable.thedistribution f 1 (θ i )iscalculatedasasolutionofthesystemoftwoequations: f 1( θ i )= f 1 ( θ i )= 1 B(a, b) θ a 2 i (1 θ i ) b 2 ((a 1)(1 θ i ) (b 1) θ i )=0, 1 B(a, b) θ a 1 i (1 θ i ) b 1 =1+η i, (1) whichcorrespondtotheconditionsthat f 1 (θ i )shouldhavemodeat θ i and itsfunctionalvaluehereshouldbe f 1 ( θ i )=1+η i. Thesecondpartofthebasicpriordistribution, f 2 (.),describesthesimilarityofthenewagenttodrugswithknownresponserates.denotethe correlationcoefficientbetweenthenewagentandtheknowndrugas D(if there are more similar known drugs, it is an average of the corresponding correlation coefficients) and the response rate of the similar known drug in tumortype ias θ D,i (again,formoresimilardrugs,itisanaveragedresponse rate).thedistribution f 2 (θ i )shouldhavemodeat θ D,i anditsfunctionalvaluehereshouldbe f 2 (θ D,i )=1+D,whichleadstothefollowingsystemof equationsdetermining f 2 (θ i ) f 2 (θ D,i)= f 2 (θ D,i )= 1 B(a, b) θa 2 D,i (1 θ D,i) b 2 ((a 1)(1 θ D,i ) (b 1)θ D,i )=0, 1 B(a, b) θa 1 D,i (1 θ D,i) b 1 =1+D. Thebasicpriordistributionisastandardizedsumof f 1 (.)and f 2 (.),i.e. (2) q(θ i )= f 1 (θ i )+f 2 (θ i ) 1 0 (f = f 1(θ i )+f 2 (θ i ). 1(θ i )+f 2 (θ i ))dθ i 2 Ifatrialisconductedinthetumorlocation i,thenthebasicprior q(θ i ) should be replaced by a basic posterior distribution

224 214 A. Koubková, F.T. Barbosa, G. Molenberghs q(θ i X i )= q(θ i )L(X i θ i ) 1 0 (q(θ i)l(x i θ i ))dθ i, where L(X i θ i )isthelikelihoodfromthetrial. These basic distributions should be adjusted by information of the trials conductedwiththenewagentinothertumorlocations.wewilladdapart of the corrected likelihoods to the basic distributions. The amount added depends on the similarity between the tumor types. Assume that the trials were conductedintumortypes l 1,..., l m anddenotethecorrelationmatrixbetweenthesetumorsasr.nextdenote S i thevectorofcorrelationcoefficients betweentheexaminedtumortype iandthetumors l 1,..., l m alreadytested andcalculatetheproductrs i.thelikelihoodsfromtheconductedtrials shouldbecorrectedwithrespectofthesignsofthetermsinrs i.denotethe vectorofcorrectedlikelihoodsasl c =(L c 1,...,L c m),where L c j = L(θ i X j ) if {RS i } j >0and L c j =1 L(θ i X j )if {RS i } j <0.Thentheadvanced distributionoftheresponserate r(θ i X)iscalculatedas r(θ i X)= q(θ i )+(L c ) T RS i 1 0 (q(θ i)+(l c ) T RS i )dθ i, where RS i denotestheabsolutevalueofrs i takenbytermsandwhere q(θ i )isreplacedby q(θ i X i ),whenatrialintumortype iwasconducted. 5 Unimodal response rate distribution The final estimated distribution proposed in the previous section is in general multimodal. Sometimes it is more convenient to have a unimodal one. In such acase,itshouldbeabetadistributionwithparameters a F,i and b F,i,which need to be estimated. The estimation procedure consists of three parts. Part I. Here is estimated the base of the distribution concerning the ability ofthetumortypestorespond.ifthetumor ididn trespondinthepasttoany drug,theparametersofthebetadistributionare a B,i =0.8and b B,i =1.2. Ifthetumorrespondedtosomechemicalagent,theparameters a B,i and b B,i are calculated by solving the system of equations(1). PartII.Theparametersofabetadistribution, a D,i and b D,i,calculated inthispartdescribethesimilarityofthenewdrugwiththeknowndrugs. These parameters are established by solving the system of equations(2). Part III. This part concerns on the phase II clinical trials possibly conducted with the new agent. Assume the trials were performed in tumor types l 1,..., l m andasbefore,denotebyrthecorrelationmatrixbetweenthem andby S i thevectorofcorrelationcoefficientsbetweenthemandtheexaminedtumortype i.nextdenotethesamplesizeinthetrialconductedin tumorlocation jas n j andthenumberofresponsesobservedthereas r j.now createtwovectors v i and u i ofsize m,suchthat v i,j = r j and u i,j = n j r j

225 A statistical proposal for sequential clinical trials ifthe j-thtermofrs i ispositive,and v i,j = n j r j and u i,j = r j,ifitis negative.theparameters a T,i and b T,i arethencalculatedas a T,i = RS i v i, b T,i = RS i u i, where RS i denotesthevectorofabsolutevalues. The parameters of the final response rate distribution are then simply the sumsofthethreeparts: a F,i = a B,i + a D,i + a T,i, b F,i = b B,i + b D,i + b T,i. Theonlyoneexceptionisthecase,where a B,i = a D,i =0.8.Thenthefinal parametersare a F,i =0.8+a T,i and b F,i =1.2+b T,i. 6 Simulations A small simulation study to show the properties of the above introduced procedure was conducted. A drug with the following response rates was assumed: 0.6inbreastcancerand2 s i (0.5+(signs i )( ))intheothercancers, where s i arethecorrelationcoefficientswithbreastcancerfromthebiological correlation matrix. This drug was assumed to be dissimilar with any known drug and the Biological correlation matrix was taken for the calculations. The gainsandlosses g i = h i =1, g i =1<h i =2and g i =2>h i =1fortreating a patient were compared. Also the multimodal and unimodal response rate distributions were compared. Thesimulationprocedurewasasfollows.Atfirstatumortypeforthefirst test was selected. Next a trial was simulated here and the decision function wasupdatedtochooseatumortypeforsecondtrial.thenagainatrialwas simulated and the decision function was updated once more. Theprocedureusingequalgainandlossfortreatingapatientandthe one preferring gain recommended the tumor types with high incidence. The third procedure gives some balance between the incidence and aggressivity of the disease. The main difference between the two types of the response rate distribution is that the unimodal distribution is much more informative than the multimodal one. 7 Conclusion A decision procedure was proposed to determine an optimal order of tumor types for sequential phase II clinical trials with a new anticancer drug. At first a prior response rate distribution for each tumor type was estimated. It can be either unimodal or multimodal distribution. Using this distribution a gain function is evaluated and so the order in the tumor sequence determined. The gain function takes into account properties of the diseases, such as its incidence, aggressivity, similarity with other tumors and evaluation for treating a patient. Also the characteristics of the new drug, such as its similarity withtheknowndrugsortarget,forwhichitisdesigned,areassumed.this functionisupdatedeachtimeaclinicaltrialwiththenewagentisfinished.

226 y 216 A. Koubková, F.T. Barbosa, G. Molenberghs y y y y y y y y y y y The properties of the procedure are shown by a small simulation study, which compares the two types of response rate distribution and also different penalties for treating a patient. Appendix Hereisagraphdepictinghowthedistributionoftheresponserateis evolved. The first two lines correspond to the multimodal response rate distributionandthesecondtwolinestotheunimodalone.inbothcases,the distributions of response rate in breast cancer and in prostate cancer is depicted. Tumor location 4 Tumor location 4 Tumor location x x x Tumor location Tumor location Tumor location x x x Tumor location Tumor location Tumor location x x x Tumor location Tumor location Tumor location x x x References [1] Herson, J(1979), Predictive probability early termination plans for phase II clinical trials. Biometrics 35, [2]Sylvester,R.J.(1988),AbayesianapproachtothedesignofphaseII clinical trials. Biometrics [3] Koubková, A., Barbosa, F.T. and Molenberghs, G.(2004) A statistical proposal for sequential clinical trials in different cancer locations, prepared for submission. Acknowledgement: The work was supported by the Research plan MSM Address: A. Koubková, Department of Statistics, Charles University, Prague, Czech Republic F.T. Barbosa, G. Molenberghs, Center for Statistics, Limburgs Universitair Centrum, Diepenbeek, Belgium koubkova@ksi.ms.mff.cuni.cz

227 ROBUST 2004 c JČMF 2004 PROJEVY GLOBÁLNÍCH ZMĚN V BIOSFÉRICKÉ REZERVACI TŘEBOŇSKO Milena Kovářová Klíčová slova: Mokré Louky, klimatologie, stanice meteorologická, ekosystém mokřadní, teplota vzduchu, vlhkost vzduchu, úhrny srážkové. Abstrakt: Teplota vzduchu, především maximální teplota vzduchu, na Mokrých Loukách v období stoupá. Relativní vlhkost vzduchu v tomto období klesá. Srážky, z hlediska dlouhodobých srážkových úhrnů značně stabilní, vykazují rostoucí tendenci v hodnotách velkých srážek a současně klesá srážková proměnlivost. 1 Úvod V souvislosti s globální změnou klimatu je třeba se zabývat jejími projevy a jejím vlivem na krajinu a naopak. Termínem globální změna se označují procesy změn planetární geobiosféry způsobené nebo umocněné lidskou činností. Patří sem zejména globální změna klimatu a s ní spojená chemie atmosféry, změny hydrologického cyklu včetně jeho interakcí s půdou a krajinou a výskytů extrémních situací(sucho,povodně), biogeochemické cykly(hlavně cyklus uhlíku, dusíku) a jejich interakcí, geomorfologické procesy, změny využití území a zemského krytu a redukce biodiverzity. Pro předpovídání budoucího vývoje klimatu existuje celá řada modelů. Tyto modely, které je třeba neustále verifikovat pomocí reálných skutečně existujících dat, vycházejí ze znalostí fyzikálních zákonistostí o chování atmosféry a jejich prostřednictvím je odhadován budoucí vývoj klimatu. Jiným přístupem odhadu budoucího vývoje klimatu je odhad na základě skutečně naměřených dat. Existují rozsáhlé databáze klimatologických údajů, jejichž analýzou lze získat informace a znalosti o vzájemném působení jednotlivých klimatologických prvků v závislosti na změnách těchto charakteristik. V tomto příspěvku jsou hodnoceny denní srážkové úhrny, průměrná, maximální a minimální denní teplota vzduchu, průměrná a minimální denní relativní vlhkost naměřené v období na jedné konkrétní stanici. 2 Meteorologická stanice Mokré Louky u Třeboně V roce 1970 byl na konferenci UNESCO vyhlášen mezinárodní program ekologické spolupráce MaB Člověk a biosféra, který měl za cíl rozvinout v rámci přírodních a socioekonomických věd základnu pro racionální využívání přirodních zdrojů biosféry a předpovídat důsledky dnešních aktivit na budoucnost. V rámci tohoto projektu byla v roce 1977 zřízena Biosférická rezervace

228 218 Milena Kovářová Třeboňsko, oblast velkých a rozmanitých mokřadů. V roce 1976 byla na levém břehu Prostřední stoky ve výtopě rybníka Rožmberk vybudována meteorologická stanice Mokré Louky, obrázek obr. 1. Od začátku roku 1977 jsou zde pravidelně denně měřeny základní meteorologické prvky v lučním porostu vysokých ostřic(např. Carex gracilis, Carex vesicaria, Glyceria aquatica a Calamagrostis canescens), od dubna 1978 do konce roku 1991 také v blízkém porostu vrby popelavé(salix cinerea). Od roku 1983 jsou teploty a vlhkosti vzduchu měřeny v hodinových intervalech. Projekt sběru dat včetně meteorologické stanice založené Botanickým ústavem AV ČR přešel v roce 2003 pod Ústav ekologie krajiny AV ČR. Tato téměř třicet let dlouhá řada meteorologických pozorování je ojedinělá zejména tím, že stanice je umístěna přímo v přirozeném rozsáhlém mokřadním porostu. Naměřené údaje tedy představují dlouhodobé mikroklimatické podmínky v reálném mokřadním ekosystému. Obrázek 1: Meteorologická stanice Mokré Louky. 3 Teplota vzduchu Průměrná roční teplota vzduchu na Mokrých Loukách ve 2m nad povrchem vobdobí byla7.4 C.Nejvyššínárůstprůměrnéteplotyvzduchu bylpozorovánvkvětnuo3.8 Cavsrpnuo3.5 C.Tytohodnoty,odhadnuté z okrajových období a jsou však nadhodnocené. Pro odhad růstu teploty je vhodnější porovnávat teploty v osmé a deváté dekádě,kdeskutečnýnárůstčinívčervnu1.2 Cavsrpnu1.3 C.Měsíční hodnoty průměrné teploty vzduchu počítané z denních a měsíčních dat jsou znázorněnynaobrázkuobr.2.aobr.3. Průměrnáročnímaximálníteplotavzduchubylavestejnémobdobí13.1 C Měsíční hodnoty průměrné maximální teploty vzduchu počítané z denních aměsíčníchdatjsouznázorněnynaobrázkuobr.4.aobr.5.

229 Projevy globálních změn v Biosférické rezervaci Třeboňsko 219 Obrázek 2: Průměrná denní teplotavzduchuve2mvlučnímporostuve C. Obrázek 3: Průměrná měsíční teplotavzduchuve2mvlučnímporostuve C. Obrázek 4: Průměrná denní maximálníteplotavzduchuve2mvlučnímporostuve C. Obrázek 5: Průměrná měsíční maximální teplota vzduchu ve 2m vlučnímporostuve C. Absolutní teplotní maximum ve sledovaném období zaznamenanénamokrýchloukách dosáhlohodnoty37.2 C.Nejčastější výskytteplotnad30 Cbylvšakpozorovánvroce2003,kdyteplotapřekročila30 C33krát.Celkovýpočettropickýchdnů,toznamenádnůsmaximálnímiteplotaminad30 Cvčetněsepohybujeod0vletech1977,1978,1979 a 1996 do třicetitří dnů v roce Maximální teploty mezi obdobími rostou proobdobí a vsrpnuo5.2 Cakvětnuo4.7 C,zarok o2 C. Průměrnáročníminimálníteplotavzduchubylavestejnémobdobí1.5 C. Měsíční hodnoty průměrné minimální teploty vzduchu počítané z denních aměsíčníchdatjsouznázorněnynaobrázkuobr.6.aobr.7. Absolutní teplotní minimum zaznamenané na Mokrých Loukách dosáhlohodnoty 30.9 C.Arktickédnysmaximálníteplotoupod 10 C

230 220 Milena Kovářová Obrázek 6: Průměrná denní minimálníteplotavzduchuve2mvlučnímporostuve C. Obrázek 7: Průměrná měsíční minimální teplota vzduchu ve 2m vlučnímporostuve C. Obrázek 8: Průměrná roční maximální, průměrná a minimální teplota vzduchuve2mvlučnímporostuve C. včetněsevyskytlyodprosincedoúnoraroce1985-8krát,1996-6krát, krátajednouvletech1979,1980,1982,1986a1993.Minimální teploty mezi obdobími stoupají méně než průměrné a maximální, v některých měsících klesají. Celkový vzestup minimálních teplot mezi obdobími a imeziosmouadevátoudekádoučinízhruba0.5 C. Hodnoty průměrné roční maximální, průměrné a minimální teploty vzduchu v jednotlivých letech jsou znázorněny na obrázku obr Relativní vlhkost vzduchu Mokré Louky se vyznačují poměrně vysokými hodnotami relativní vzdušné vlhkosti, současně však lze pozorovat pokles vlhkosti v jarních a letních měsících přes dekády. Měsíční průměrná relativní vlhkost vzduchu poklesla mezi osmou a devátou dekádou v srpnu z 82.2% na 78.1%, významnost 0.01,

231 Projevy globálních změn v Biosférické rezervaci Třeboňsko 221 v červnu z 80.3% na 78.1%, významnost 0.1. Z dlouhodobého hlediska lze nejnižší průměrnou relativní vlhkost vzduchu na Mokrých Loukách pozorovatvkvětnu,případněvdubnu,nejvyššívprosinci,případněvlednuči v listopadu. Mezi nejnižší hodnotou pro květen a nejvyšší pro prosinec je rozdíl 13.2%. Měsícem s nejvyšší proměnlivostí vlhkosti je duben, nejnižší proměnlivost vlhkosti bývá v prosinci. Z charakteru relativní vzdušné vlhkosti je zřejmé, že maximální průměrná denní relativní vlhkost 99% se může vyskytnout kdykoliv během roku při déletrvajících srážkách nebo mlze. Nízké hodnoty průměrné denní vlhkosti se mohou vyskytnout téměř v kterémkoliv měsíci, v zimních měsících jsou tyto výskyty spíše ojedinělé. Nejnižší průměrná denní vlhkost se na Mokrých Loukách pohybuje nad 45%. Měsíční hodnoty průměrné relativní vlhkosti vzduchu počítané z denních a měsíčních datjsouznázorněnynaobrázkuobr.9.aobr.10. Obrázek 9: Průměrná denní relativmí vlhkost vzduchu v lučním porostu v procentech. Obrázek 10: Průměrná měsíční relativmí vlhkost vzduchu v lučním porostu v procentech. 5 Srážky Hodnocení srážkových poměrů Mokrých Luk se vztahuje k období Na základě porovnání srážkových úhrnů meteorologické stanice Českého hydrometeorologického ústavu Třeboň a stanice Mokré Louky v období , které vykazují jen nepatrné statisticky nevýznamné odchylky v hodnotách denních srážkových úhrnů, byla pro období použita data z nedaleké stanice Třeboň. Průměrný roční srážkový úhrn za celé období činí 605,3 mm vodního sloupce. Pro oblast Třeboně jsou typické vyšší srážkové úhrny v letních měsících a poměrně nízké úhrny v zimním období. Měsíční hodnoty srážkových úhrnů jsou znázorněny na obrázku obr. 11. Měsíční srážkové úhrny se vobdobí pohybujíod4mmvúnoru1982do240mmvsrpnu2002. Maximální srážkové úhrny se nejčastěji vyskytnou od května do srpna, minimální v lednu, únoru a říjnu. Nejnižší průměrné denní srážkové úhrny byly

232 222 Milena Kovářová Obrázek 11: Průměrné měsíční srážkové úhrny v mm. Obrázek 12: Závislost indexu srážkové proměnlivost na počtu srážkových dní. zaznamenányvlednuačiní0.84mmsrážeknaden,nejvyššívčervnu2.85mm na den. Hodnota nejvyššího pozorovaného denního úhrnu ze dne dosahuje 129 mm vodního sloupce. Vzhledem k velkému meziročnímu rozptylu nelze prokázat změny v hodnotách dlouhodobých měsíčních srážkových úhrnů v průběhu let[4]. Dochází však ke změnám v proměnlivosti srážek, které se projevují poklesem četnosti srážkových dní, snižováním četnosti střídání srážkových a bezesrážkových období a růstem hodnot velkých srážek. Označme n počet dní v měsíci, spočetsrážkovýchdnívměsíciabpočetbezesrážkovýchdnívměsíci.pak ps=100 s/nudáváprocentosrážkovýchdnívměsíci.označme b1počet bezesrážkových dní v měsíci bezprostředně následujících po srážkovém dni. Definujme index proměnlivosti srážek v měsíci: indexdiv = 100 b1/b. Na obrázku obr. 12. je znázorněna závislost indexu proměnlivosti srážek na procentu srážkových dní. Body ležící nad křivkou označují roky srážkově proměnlivější a body ležící pod křivkou označují roky srážkově méně proměnlivé. Z grafu je patrný velký pokles počtu srážkových dní i indexu proměnlivosti srážek mezi šestou dekádou a následujícími dekádami. V deváté dekádě, i přes mírný nárůst počtu srážkových dní, lze pozorovat pokles proměnlivosti srážek, který dále pokračuje, včetně poklesu počtu srážkových dní i v počínající první dekádě třetího tisíciletí. Pokles procenta srážkových dní mezi šestou a devátou dekádou je významný na hladině Pokles indexu proměnlivosti mezi šestou a devátou dekádou je významný na hladině Průměrná četnost dnů se srážkami se dlouhodobě pohybuje kolem 50%, nejnižší je v říjnu s průměrem 13.1 srážkových dnů za měsíc. Nejčastěji pršelovroce1966s215srážkovýmidny.nejnižšípočet116srážkovýchdníbyl pozorován v roce Srážky nad 1mm jsou pravděpodobnější v letních měsících, srážky nad 10mm se mohou vyskytnout v kterémkoliv měsíci, častější jsouvlétě.srážky20mmavícesevyskytlynejménějedenkrátvletech1969, 1983,1989a1992anejvícedesetkrátvroce2002.Zaceléobdobí

233 Projevy globálních změn v Biosférické rezervaci Třeboňsko 223 se srážky větší nebo rovné 20mm vyskytly 165krát, což představuje zhruba 2% z celkového počtu srážkových dní v uvedeném období. Podíl těchto srážek na celkovém srážkovém úhrnu však dosahuje 20%. Kruskal-Wallisovým pořadovým testem lze ukázat, že mezi dekádami dochází k růstu hodnot velkých srážek. V šesté dekádě se vyskytlo 41 srážek nad 20mm včetně, hodnota pořadového testu je 70.3, v sedmé dekádě se 40 výskyty je hodnota pořadového testu 85.7, v osmé dekádě s 30 výskyty nabývá pořadový test hodnoty 70.2, vdevátédekáděs37výskyty97.2avobdobí se17výskytyhodnoty 99, významnost Z provedených analýz se zdá být pravděpodobné, že v posledních letech dochází k narušení malého vodního cyklu[9], a že srážkové úhrny, ačkoliv dlouhodobě velice stabilní, jsou dorovnávány na úroveň obvyklých normálů prostřednictvím zvyšujících se, jednorázových srážek. Pokles proměnlivosti srážek se na srážkových úhrnech ani na počtu srážkových dní neprojeví, může však vést k vysychání krajiny[8] s následným růstem především maximálních teplot, případně ke vzniku povodňových situací. Je zřejmé, že uvedená tvrzení by bylo třeba ověřit na větším počtu co nejdelších srážkových řad. Srážkové řady před rokem 1960 jsou však poměrně často zatíženy chybami, protože spíš než na přesné zaznamenání denních výskytů srážek, byl kladen důraz na zaznamenání celkových srážkových úhrnů, někdy i vícedenních. 6 Závěr Z hodnot sledovaných charakteristik v poslední dekádě minulého století a v počínajících letech první dekády třetího tisíciletí plynou možné důsledky změny klimatu, jež mohou vyústit v degradaci mokřadů a v omezení jejich regulačního a stabilizačního vlivu na krajinu a ekosystém. Reference [1] Houghton J.(1998). Globální oteplování. Academia, Praha. [2] Klimadata Bot. Inst. Ac. Sci.(2003). Klimatologická data Mokré Louky u Třeboně. Botanický ústav AVČR, hydrobotanické oddělení, [3] Kovářová M.(2004). Databáze klimatologických údajů - Mokré Louky. III. seminář z ekologie mokřadů a hydrobotaniky, pořádaný na paměť Slavomila Hejného, Třeboň. [4](1969) Podnebí Československé socialistické republiky. Souborná studie, Hydrometeorologický ústav, Praha. [5] Pokorný J., Kučerová A.(2000), Monitoring klimatu a atmosférických depozic v CHKO Třeboňsko,-In Pokorný J., Šulcová J., Hátle M., Hlásek J.(eds.) Třeboňsko Ekologie a ekonomika Třeboňska po dvaceti letech,: UNESCO/MaB, ENKI o.p.s., Třeboň, [6] Přibáň K. a kol.(1992) Analysis and modeling of wetland microclimate. The case study Třeboň Biosphere Reserve.- Stud. ČSAV 1992/2, ed. Academia, Praha,

234 224 Milena Kovářová [7] Přibáň K.(1978). Ekologické aspekty třeboňského klimatu. In: Jeník J. et Květ J.(eds.), Ekologie a ekonomika Třeboňska. [8] Ripl W., Pokorný J., Eiseltová M., Ridgill S.(1994). A holistic approach to the structure and function of wetlands, and their degradation. In Eiseltová M.(ed), Restoration of lake ecosystems- a holistic approach. IWRB Publ.32,182pp. [9] Ripl W.: Management of water cycle and energy flow for ecosystem control - the energy transport reaction(etr) model. Ecological Modelling 78, Adresa: Milena Kovářová, Botanický ústav AV ČR

235 ROBUST 2004 c JČMF 2004 TESTINGGOODNESSOFFITINTHECOX AALEN MODEL David Kraus Keywords: Counting process, Cox Aalen model, goodness-of-fit, martingale, residual, survival analysis. Abstract: The Cox Aalen regression model for the intensity of counting processes suggested by Scheike and Zhang[13] extends the Cox proportional hazards model as well as the Aalen additive model. We study goodness-of-fit tests based on the stratified martingale residual process. Asymptotic distribution of this process is complicated(a Gaussian process with a complex covariance structure). Therefore, a direct use of, e.g., the Kolmogorov Smirnov typetestisimpossible.weshowtwowaysoutofthisproblem.onepossibility is to simulate realisations from the limiting distribution of the residual process,assuggestedbylin,weiandying[7]forthecoxmodel.another approach consists of tranforming(compensating) the limiting process to a martingale(following ideas of Khmaladze[4]). Both methods are compared in a simulation study. 1 Introduction In survival analysis, regression models are used to explain occurence of events (failures) in time by the influence of explanatory variables(covariates). Let Z i = {(Z i1 (t),..., Z ip (t)) T, t [0, τ]}beavectorofcovariates(possibly time-dependent, i.e. predictable stochastic processes) for the i-th observed individual, Y i beanindicatorprocess(indicatingbyitsvalueattime twhetherthe i-thindividualisatriskoftheevent)and λ i betheintensityprocess ofthecorrespondingcountingprocess N i.thenthemostpopularmodelfor the intensity process is the Cox proportional hazards model of the form λ i (t)=y i (t)exp{β T 0 Z i(t)}λ 0 (t), where λ 0 isanunknownbaselinehazardfunctionand β 0 isap-vectorof unknown regression parameters. Another frequently used model is the Aalen additive model λ i (t)=y i (t)x i (t) T α(t) withavectorofunknownfunctions α={(α 1 (t),..., α q (t)) T, t [0, τ]}and avectorofcovariates X i. There are several ways of combining these two models(e.g.[8],[12]). Here westudythecox Aalenmodel,whichisduetoScheikeandZhang[13].Their model follows the form λ i (t)=y i (t)exp{β T 0 Z i (t)}x i (t) T α(t), 0 t τ, (1)

236 226 David Kraus where(x T i, ZT i )T isa(q+p)-vectorofpredictablecovariates(usually X i1 1). Somecomponentsof α(t)or X i (t)canevenbenegative,providedthewhole term X i (t) T α(t)isnonnegative(anintensityalwayshastobeso). In[13] an estimation procedure was suggested and asymptotic properties oftheestimatorswerederived.hereweproposeatestofgoodnessoffit.for the Cox model many goodness-of-fit tests were developed. One approach, whichishereadaptedforthesituationofthecox Aalenmodel,isbasedon the stratified martingale residual process. The idea was originated by Arjas [3] who suggested a graphical procedureforassessinggoodnessoffitofthecoxmodel.themethodisbased on comparison of observed and expected number of failures within a given stratum.foreachobservedindividual i {1,...,n}thisdifferenceisexpressedbytheprocess ˆM i = N i ˆΛ i.hence,ifastratum I {1,...,n} is chosen, the process Ξ I = ˆM i I i should fluctuate around zero. Let 0 T (I,1) T (I,2) T (I,K) τ beorderedtimesoftheactual failuresin I.ThenArjas splotsareplotsofthevalues i IˆΛ i (T (I,k) )against k= i I N i(t (I,k) ).Thegraphshouldbeclosetothelinewithslope1 whenthefitisgood,andshoulddifferotherwise. Asymptotic behaviour of the residual process for the Cox model was studied by Marzec and Marzec[9]. Under certain conditions they showed that the limitingdistributionof n 1/2 Ξ I isthatofacontinuouszero-meangaussian process. Later, in[10] they presented some generalisations and used a transformation of the limiting process to a martingale which enables construction of the Kolmogorov Smirnov type test. The idea of Arjas s plots and stratified residual processes was successfully used by Volf[14] also for the Aalen additive model. In the situation of the Cox Aalen model of(1), the stratified martingale residual process has the form Ξ I (t)= i I(N i (t) ˆΛ i (t)) t [ dni (s) Y i (s)exp{ˆβ T Z i (s)}x i (s) T dâ(s)] (2) = i I 0 (whereˆβand Â(t)areestimatesof β 0and A(t)= t 0 α(s)ds,respectively). The paper is organised as follows. Section 2 establishes asymptotic propertiesoftheresidualprocess.section3isdevotedtothestudyofseveraltesting procedures.insection4asimulationstudyispresentedandinsection5we mention some generalisations. Due to the lack of space, some results are only sketched in a symbolic way and many details are omitted; the author refers an interested reader to his paper[5].

237 Testing goodness of fit in the Cox Aalen model Asymptotic distribution of the residual process Theestimationprocedurefortheparameters β 0 and A(t) = t 0 α(s)dsis describedindetailin[13].hereweonlymentionthatitconsistsoftwosteps: firsttheparameter β 0 isestimatedbysolvingascoreequationandthen the increments of A(t) are estimated by a weighted least squares principle. Denotetheestimatesbyˆβand Â.Thesetwostepscanberepeatedtoobtain better estimates. ByTaylor sexpansionaround β 0 andaftersomerearrangement,ξ I can be expressed as where Γ 1 (t)= t 0 Ξ I (t)=γ 1 (t) Q( β, β, t) T Γ 2 (τ), (3) K 1 (β 0, s) T dm(s) and Γ 2 (t)= t 0 K 2 (β 0, s) T dm(s) aremartingales.here M(t)=(M 1 (t),..., M n (t)) T, βand βlieontheline segmentbetween β 0 and ˆβ,and K 1, K 2 and Qaresomeprocessesofdimensions n 1, n pand p 1,respectively.Theprocess Q( β, β, )converges uniformlyinprobabilitytoafunction,say q(β 0, ).Theweakconvergence in(d[0, τ]) 1+p ofthemartingale n 1/2 (Γ 1,Γ T 2 )T toazero-meancontinuous Gaussianmartingale γ=(γ 1, γ2 T)T followsbyrebolledo smartingalecentral limit theorem[2, Theorem I.2]. Therefore we have the weak convergence n 1/2 Ξ I ( ) D n ξ I( )=γ 1 ( ) q(β 0, ) T γ 2 (τ) in(d[0, τ]). (4) Thelimitingprocess ξ I isagaussianprocess,which,however,isneither a martingale nor a process with a well-known distribution. The(co)variance function of γ is the limit of the predictable(co)variation of n 1/2 Γandcanbeestimateduniformlyconsistentlybythequadratic(optional)(co)variationof n 1/2 Γ.Detailsconcerningthecovariancestructureas well as explicit forms of all of the processes, a further notation, assumptions, exactformulationoftheresultsandproofscanbefoundin[5]. 3 Testing procedures A graphical technique, an analogue of the residual plots of Arjas[3], has already been explained in Section 1. In this section we describe visual and mainly numerical methods of investigation of the martingale residual process. Exceptforaspecialcaseofthemodelwithonedichotomouscovariatein thecoxpart[5,section4.1],adirectuseoftheasymptoticdistributionisnot possible because of its complexity. For instance, the limiting distribution of the Kolmogorov Smirnov type statistic is untractable. We describe how some approximations and transformations enables us to cope with this difficulcy.

238 228 David Kraus 3.1 The simulation approximation We shall describe how to approximate the asymptotic distribution of the martingale residual process through simulations. The simulations can be performed to obtain a sample from the limiting distribution, and hence to assess both graphically and numerically how unusual the observed residual process is.ourapproachisbasedontheideaof[7]. In(3) we have found the martingale representation of the residual process oftheform Ξ I (t)=γ 1 (t)= t 0 K 1 (β 0, s) T dm(s) Q( β, β, t) T t 0 K 2 (s) T dm(s), The limiting distribution can be approximated by plugging in the consistent estimate ˆβinplaceof β 0, β, β,andbyreplacingthemartingaleincrements dm i (t)bytheirsimulatedvalues.forthemartingales M i, i=1,...,nitholds thate M i (t)=0andvarm i (t)=e[m i (t) 2 ]=EΛ i (t)=e N i (t).therefore Lin,WeiandYing[7]suggestedtoapproximate M i by M i = G i N i (i.e. M=diag[G]N),where G=(G 1,..., G n )isarandomsampleofstandard normal variables independent of the data. We obtain the approximation Ξ I (t)= t 0 K 1 (ˆβ, s) T diag[g]dn(s) τ Q(ˆβ,ˆβ, t) T K 2 (s) T diag[g]dn(s). Itcanbeshown(bymeanssimilartothatof[7])thattheasymptotic distributionof n 1/2 Ξ I isequaltothatof n 1/2 Ξ I,i.e.thedistributionof ξ I.Thus,generatingrepeatedlyastandardnormalsample Gandcomputing Ξ I,weobtainasamplefromthedesiredlimitingdistribution.Wecanvisually assessgoodnessoffitbyplottingξ I togetherwithanappropriatenumberof simulated Ξ I.Totestthehypothesisnumericallywegenerateanadequately largenumberofrealisationsof Ξ I andestimatecriticalvaluesorthe p-value. Note that the simulation of the asymptotic distribution is conditional onthedataandthereforewedonotobtainuniversalcriticalvaluesofthis distribution. In other words, the test is not distribution-free and we have to carry out the simulations for each particular data set separately. This can be computationally demanding. 3.2 The transformation method Another way of overcoming the problem with complexity of the asymptotic distributionoftheresidualprocessisbasedontheideaofkhmaladze[4].in the framework of testing whether the distribution of a random variable follows a parametric form, he suggested a transformation of empirical processes with plugged-in estimated parameters in order to obtain a well-known asymptotic distribution which does not depend on the distribution of the data. The idea 0

239 Testing goodness of fit in the Cox Aalen model 229 wasthenusedin[1,vi.3.3.4]fortestinggoodnessoffitofparametricmodels forintensitiesandin[10]forassessmentofthecoxmodel. Herewewillfindthecompensatorof ξ I,say ξ I,andusetheempirical counterpartψ I ofthegaussianmartingale ψ I = ξ I ξ I asabasisfortesting. Theprocess ψ I shouldbeamartingalewithrespecttothefiltrationgenerated by ξ I,i.e.withrespectto G t = σ{γ(s), s t; γ 2 (τ)}, t [0, τ].astheterm q(β 0, ) T γ 2 (τ)in(4)ismeasurablew.r.t. G 0,weonlyneedtocompensate γ 1. Thecompensatorof γ 1,say γ 1,canbederivedratherheuristicallyasfollows (cf.[1, VI.3.3.4, pp ]). Since the process γ is a Gaussian martingale, ithasindependentincrementsand(dγ 1 (t), γ 2 (τ) γ 2 (t)) T isjointlynormally distributed. Therefore E[dγ 1 (t) γ(s), s t; γ 2 (τ)]=e[dγ 1 (t) γ 2 (τ) γ 2 (t)] =cov {dγ 1 (t), γ 2 (τ) γ 2 (t)}[var {γ 2 (τ) γ 2 (t)}] 1 [γ 2 (τ) γ 2 (t)] = c(β 0, dt) T θ(β 0, t) 1 [γ 2 (τ) γ 2 (t)], wherethedefinitionof cand θisobvious.henceanaturalcandidateforthe compensatorof γ 1 is γ 1 (t)= t 0 E[dγ 1 (s) γ(u), u s; γ 2 (τ)] = t The compensated residual process is then ψ I (t)=γ 1 (t) 0 [γ 2 (τ) γ 2 (s)] T θ(β 0, s) 1 c(β 0, ds), t [0, τ]. t 0 [γ 2 (τ) γ 2 (s)] T θ(β 0, s) 1 c(β 0, ds). Formalverificationofthefactthat ψ I isactuallyagaussianmartingale(with thesamevariancefunctionas γ 1 )isanalogoustotheproofoflemma3.2 in[10].finally,theempiricalcounterpartof ψ I canbe Ψ I (t)=ξ I (t) t 0 [ τ T K 2 (s) dˆm(s)] T Θ(ˆβ, s) 1 C(ˆβ, ds) (5) s with CandΘbeingsomeestimatesof cand θ.theissuewhether n 1/2 Ψ I trulyconvergesto ψ I isdiscussedin[5].ourcomputationalexperienceshows that the convergence can be considered valid generally. HencetheKolmogorov Smirnovtypestatisticsup Ψ I (t) /{ varγ 1 (τ)} 1/2 is asymptotically distributed as the variable sup W(t) (where W denotes the Brownian motion).

240 230 David Kraus 4 Simulations We performed a small simulation study in order to investigate performance of the tests. We generated survival data following various models with various censoring patterns and estimated the Cox Aalen model of the form λ i (t)={α 1 (t)+α 2 (t)x i }exp{β 1 Z i }. Underthenullhypothesis H 0 thesamplescamefromthedistributionwith the intensity λ i (t)={ tx i }exp{0.5z i }, where X i wasuniformlydistributedon[0,1]and Z i hadthestandardnormal distribution. Then two alternatives with additional covariates were considered: H 1 with λ i (t)={ tx i +0.7tX i }exp{0.5z i }, where Xi hadthealternativedistributionon {0,1}withprobability0.5,and H 2 having λ i (t)={ tx i }exp{0.5z i +0.7Zi } with Z i havingthesamedistributionas X i intheprevioussituation.the covariates were generated independently. Three censoring schemes were considered: no censoring, moderate censoring(with censoring times having the uniform distribution on[0, 5]) and heavy censoring(with uniform censoring times on[0, 2.5]). The censoring times were mutually independent and independent of the survival times and covariates. The corresponding censoring ratesareindicatedinthetables.thesamplesizeswere n=100and200.for the null hypothesis, stratification with respect to both covariates was studied,i.e.thestratumwasfirst I= {i:x i >0.5}andthen I= {i:z i >0}. Under the alternatives, the data were stratified with respect to the missing covariate: I= {i:x i =1}under H 1,and I= {i:z i =1}under H 2. Under the null hypothesis as well as under the alternatives, we generated the sample, estimated the model and tested goodness of fit. Two tests were performed: the test of Subsection 3.1 based on the simulation approximation (with 2000 realisations of the residual process) and the test of Subsection 3.2 based on the transformation. This was repeated 1000 times and empirical levelsandpowersofthetestsonthenominallevelof0.05werecomputed. Since the estimation of the model is highly time-consuming, we were able to carry out only 1000 repetitions in each situation, hence our results give only abroadimageofthebehaviourofthetests. Table1reportsthesizesofthetestsintheabovementionedsituations under H 0.Itisseenthatthetestsmaintainapproximatelytheirnominalsignificance levels which is not seriously affected by censoring. Table 2 confirms thatthetestshavegoodpoweragainstthealternatives H 1 and H 2 ofmissing

241 Testing goodness of fit in the Cox Aalen model 231 covariates. When censoring is present, the power decreases. There is no important difference between the two versions(simulation and transformation) ofthetest. I= {i:x i >0.5} I= {i:z i >0} n=100 n=200 n=100 n=200 Without Simulation censoring Transform Censoring Simulation U[0, 5](31%) Transform Censoring Simulation U[0, 2.5](51%) Transform Table1:Empiricalsizesofthetwotestsonthenominallevelof0.05. H 1 H 2 n=100 n=200 n=100 n=200 Without Simul censoring Transf Censoring U[0, 5] Simul (H 1 25%, H 2 24%) Transf Censoring U[0, 2.5] Simul (H 1 45%, H 2 42%) Transf Table2:Empiricalpowersofthetwotestsonthenominallevelof Generalisations Inthispaperweusedtheideaofstratification.Thetestsbasedonthemartingaleresidualprocesses ˆM i canbegeneralisedinthefollowingdirection. Insteadofthesumofthemartingaleresiduals ˆM i (t)=n i (t) ˆΛ i (t)over astratumwecanusesumsoftheirtransformsoftheform Ξ(t)= n i=1 t 0 H i (s)dˆm i (s), where H i arevectorsofsomepredictableprocesses.thistypeoftestswas studiedin[6].aparticularlyimportantchoiceis H i (t)=z i (t)leadingtothe score process which is used for detection of departures from the proportional hazardsassumption.thechoice H i =1 {i I} correspondstothestratified martingale residual process presented in this paper.

242 232 David Kraus References [1] Andersen P.K., Borgan Ø., Gill R.D., Keiding N.(1993). Statistical models based on counting processes. Springer, New York. [2] Andersen P.K., Gill R.D.(1982). Cox s regression model for counting processes: a large sample study. Ann. Statist. 10, [3]ArjasE.(1988).AgraphicalmethodforassessinggoodnessoffitinCox s proportional hazards model. J. Amer. Statist. Assoc. 83, [4] Khmaladze E.V.(1981). Martingale approach in the theory of goodnessof-fit tests. Teor. Veroyatnost. i Primenen. 26, In Russian. English translation in Theory Probab. Appl. 26, [5] Kraus D.(2004). Goodness-of-fit inference for the Cox Aalen additivemultiplicative regression model. Statist. Probab. Lett. To appear. [6] Kraus D.(2004). Testing goodness of fit of hazard regression models. In WDS 2004 Proceedings of Contributed Papers, Part I: Mathematics and Computer Sciences, Matfyzpress, Prague, [7]LinD.Y.,WeiL.J.,YingZ.(1993).CheckingtheCoxmodelwithcumulative sums of martingale-based residuals. Biometrika 80, [8] Lin D.Y., Ying Z.(1995). Semiparametric analysis of general additivemultiplicative hazard models for counting processes. Ann. Statist. 23, [9] Marzec L., Marzec P.(1993). Goodness of fit inference based on stratification in Cox s regression model. Scand. J. Statist. 20, [10] Marzec L., Marzec P.(1997). Generalized martingale-residual processes for goodness-of-fit inference in Cox s type regression models. Ann. Statist.25, [11] McKeague I.W., Utikal K.J.(1991). Goodness-of-fit tests for additive hazards and proportional hazards models. Scand. J. Statist. 18, [12] Scheike T.H., Martinussen T.(2002). A flexible additive multiplicative hazard model. Biometrika 89, [13] Scheike T.H., Zhang M.-J.(2002). An additive-multiplicative Cox Aalen regression model. Scand. J. Statist. 29, [14] Volf P.(1996). Analysis of generalized residuals in hazard regression models. Kybernetika 32, Acknowledgement: The author acknowledges that this paper is an abbreviated version of his paper[5] published elsewhere. The research was partly supported by the GAČR Grants 201/02/0049 and 402/04/1294. Address: D. Kraus, Department of Statistics, Charles University, Sokolovská 83, CZ Prague, Czech Republic david.kraus@karlin.mff.cuni.cz

243 ROBUST 2004 c JČMF 2004 LINEÁRNÍ REGRESNÍ MODELY S RUŠIVÝMI PARAMETRY Pavla Kunderová Klíčová slova: Lineární regresní model, užitečné a rušivé parametry, BLUE, eliminační transformace. Abstrakt: Cílem článku je uvést přehled nejdůležitějších výsledků, které byly získány při studiu lineárních regresních modelů, ve kterých je vektor parametrů prvního řádu rozdělen na podvektor užitečných parametrů a na podvektor rušivých parametrů. 1 Označení, úvod Budeme užívat následující symboly: nechť M(A) označuje prostor vytvořený sloupci matice A. Je-li M(A) M(B), V p.s.d., potom symbol P V A označujeprojekčnímaticiprojektujícínapodprostor M(A)vzhledem k V-seminormědanématicí V, x = x Vx;M V A =Y PV A.Obecněplatí P V A=A(A VA) A V+F(Y V V),kdeF jelibovolnámaticevhodného typu,(viz[10],(2.14)). NechťN n,n jep.d.(p.s.d.)maticeaa m,n libovolnámatice,potomsymbola m(n) označujematicisplňujícívztahaa m(n) A=A ana m(n) A= [NA m(n) A].Nechť ( β Y=(X,S) κ ) + ε, β R k1, κ R k2, (1) kdey je n-rozměrnýobservačnívektor, βje k 1 -rozměrnývektoružitečných parametrů, κje k 2 -rozměrnývektorrušivýchparametrů,x jedaná n k 1 maticeplánupříslušnáužitečnýmparametrům,s jedaná n k 2 maticeplánu příslušná rušivým parametrům, ε je náhodný vektor chyb. Předpokládejme, že E(Y)=Xβ+Sκ, β R k1, κ R k2 ; var(y)=σ ϑ = p i=1 ϑ iv i, ϑ= (ϑ 1,...,ϑ p ) ϑ R p ; V 1,..., V p danésymetrickématice; ϑ R p obsahuje otevřenoukoulivr p ;je-li ϑ ϑ,jematiceσ ϑ pozitivněsemidefinitní;matice Σ ϑ nenífunkcívektoru(β, κ ). Je-limaticeΣ ϑ pozitivnědefinitníprokaždé ϑ ϑar(x,s)=k 1 +k 2 < n, nazveme model(1) regulární,(viz[2], str.13). S modelem typu(1) se setkáváme v mnohých oblastech. Někdy počet rušivých parametrů řádově převyšuje počet užitečných parametrů a to může vést k numerickým potížím.

244 234 Pavla Kunderová 2 Jednorozměrný lineární model s rušivými parametry 2.1 Regulární model Tvrzení Vregulárnímmodelu(1)platípro ϑ-lblueparametru(β, κ ) ( ˆβ ˆκ ) = (X Σ 1 ϑ MΣ 1 ϑ S X) 1 X Σ 1 (S Σ 1 ϑ S) 1 S Σ 1 ϑ MΣ 1 ϑ S 1 ϑ MΣ 1 ϑ MΣ ϑ S X Y. (2) var(ˆβ) = C 1, var(ˆκ) = (S Σ 1 ϑ S) 1 +(S Σ 1 ϑ S) 1 S Σ 1 ϑ XC 1 X Σ 1 ϑ S(S Σ 1 ϑ S) 1, kdec=x (M S Σ ϑ M S ) + X, (M S Σ ϑ M S ) + =Σ 1 ϑ Σ 1 ϑ S(S Σ 1 ϑ S) 1 S Σ 1 ϑ. Důkazviz[6],Theorem1 Následující tvrzení se týkají stejnoměrně nejlepších nevychýlených lineárních odhadů(ublue) parametrických funkcí v regresním modelu s rušivými parametry. Jsou dokázány v práci[6]. Tvrzení V regulárním lineárním modelu (1) je statistikag Y UBLUEodhad své středníhodnotyg (Xβ+Sκ)právěkdyž [ p [ p ] [ p ] g Ker i=1 V i M (X,S) V i ]=Ker i=1 V i M S M MS X V i =Ker Tvrzení V regulárním modelu(1) existuje UBLUE lineární funkce ( ) ( ) f β =(f κ β 1,f 2 ) =f κ 1 β+f 2 κ právě tehdy, když [( ) ] X f M S B, kde M(B)=Ker [ p i=1 i=1 V i M X M MX S V i V i M X M MX S V i Tvrzení V regulárním lineárním modelu (1) existuje UBLUE lineární funktce f 1 β užitečných parametrů právě tehdy, když [ p ] f 1 M(X M S C), kde M(C)=Ker V i M S M MS X V im S. i=1 ].. (3)

245 Lineární regresní modely s rušivými parametry Lineární model s rušivými parametry s podmínkou typui V praxi se vyskytují situace, kdy v regresním lineárním modelu s užitečnými a rušivými parametry jsou dána jistá omezení na užitečné parametry, na rušivé parametry se žádné podmínky nekladou. Definice 2.2.1(viz[2], str.57]) Je-li parametrickým prostorem parametru β místo R k1 vlineárnímmodelu(1)pouzelineárnívarieta B={β: β R k1,b+bβ=o}, (4) kdebjedaná q k 1 maticeab M(B)jedaný q-rozměrnývektor, r(b)= q < k 1,potomsemodelnazývámodelspodmínkamitypuInaužitečné parametry. Tvrzení V regulárním modelu (1) s podmínkami (4) platí pro ϑ- LBLUEodhadyparametrů βa κ ˆβ=[Y C 1 B (BC 1 B ) 1 B]ˆβ C 1 B (BC 1 B) 1 b, ˆκ=ˆκ+(S Σ 1 ϑ S) 1 S Σ 1 ϑ XC 1 B (BC 1 B ) 1 (b+bˆβ),c=x (M S Σ ϑ M S ) + X, kdeˆβ,ˆκjsouodhadyvregulárnímmodelubezpodmínek(viztvrzení2.1.1). Variančnímaticeodhadu ˆβjedánavztahem var(ˆβ)=[mb CM B ] +. Důkazviz[7],Theorem2 Tvrzení V regulárním modelu(1) s podmínkami(4) na užitečné parametryjestatistikag YUBLUEodhadsvéstředníhodnotyprávětehdy,když ( p ) p g K=Ker V i M (X,S) V i + V i M S P MS X(X M SX) 1 B V i. (5) i=1 Důkazviz[7],Theorem3 Označení Označme N takovou matici, že [ p ] p M(N)=K=Ker V i M (X,S) V i + V i (M S P MS X(X M SX 1 B )V i. i=1 Tvrzení V regulárním lineárním modelu(1) s podmínkami(4) má funkce ( ) ( ) f β =(f κ 1,f β 2) κ i=1 i=1 svůj UBLUE odhad právě tehdy, když ( ) ( f1 X N, B f= M f 2 S N, O ). (6) Důkazviz[7],Theorem4

246 236 Pavla Kunderová 2.3 Lineární model s rušivými parametry s podmínkami typu II Uvažujme stejný lineární model(1) jako v předchozích odstavcích, pouze s tou změnou,ževektoružitečnýchparametrůoznačímesymbolem β 1. ( ) β1 Y=(X,S) + ε, (7) κ Předpokládejme opět, že jsou splněny podmínky regularity. Existují situace, kdy do podmínek kladených na užitečné parametry vstupují ještě neobservovatelné parametry. Potom se vektor neznámých parametrů(β 1, κ, β 2) skládázetřípodvektorů.středníhodnotaobservačníhovektorujerovna E(Y)=Xβ 1 +Sκ,podmínkykladenénamodelobsahujíužitečné parametryavektorneobservovatelnýchparametrů β 2 dimenze k. Studuje se lineární model(7) s podmínkami ve tvaru(viz[4],str.129]) b+b 1 β 1 +B 2 β 2 =o, (8) kdeb 1 resp.b 2 jsoudané q k 1 resp. q kmaticeakdeb M(B 1,B 2 )je daný q-rozměrný vektor. Tento model se nazývá model nepřímého měření s podmínkami typu II. Předpokládejme,že r(b 1,B 2 )=q < k 1 + k, r(b 2 )=k<q.vpráci[8] jsou dokázána následující tvrzení. Tvrzení V regulárním modelu(7) s podmínkami(8) platí pro ϑ-lblueodhadyparametrů β 1, κaβ 2 tytovztahy ˆβ 1 =[Y C 1 B 1QB 1 ]ˆβ 1 C 1 B 1Qb, ˆβ 2 = DB 1ˆβ1 Db, ˆκ=ˆκ+(S Σ 1 ϑ S) 1 S Σ 1 ϑ XC 1 B 1 Q(b+B 1ˆβ 1 ), kde ˆβ 1,ˆκjsouodhadyvregulárnímmodelubezpodmínek(vizTvrzení2.1.1), C=X (M S Σ ϑ M S ) + X, Q=(M B2 B 1 C 1 B 1M B2 ) +. D=[B 2 (B 1C 1 B 1 +B 2B 2 ) 1 B 2 ] 1 B 2 (B 1C 1 B 1 +B 2B 2 ) 1. Tvrzení V regulárním modelu(7) s podmínkami(8) na užitečné parametryananeobservovatelnéparametryjestatistikag YUBLUEodhadem své střední hodnoty právě když ( p ) p g K=Ker V i M (X,S) V i + V i M S P MS X(X M SX) 1 B V 1 i. (9) MB 2 i=1 i=1 Označení Nechť N je taková matice, že [ p ] p M(N)=K=Ker V i M (X,S) V i + V i (M S P MS X(X M SX) 1 B )V 1 i. MB 2 i=1 i=1

247 Lineární regresní modely s rušivými parametry 237 Tvrzení V regulárním lineárním modelu(7) s podmínkami(8) má funkce f 1 β 1+f 2 β 2+f 3 κ svůj UBLUE odhad právě tehdy, když f 1 f 2 M X N, B 1 O, B 2 f 3 S N, O. (10) Všechna tvrzení v této kapitole uvedená byla vyslovena pro regulární lineární model s rušivými parametry. Obdobná tvrzení lze vyslovit i pro případ, kdy se regularita modelu nepředpokládá. V praxi bývá počet rušivých parametrů někdy i řádově větší, než počet parametrů užitečných a výpočty pomocí uvedených vzorců mohou působit nemalé potíže. Existují dva základní přístupy k problematice rušivých parametrů. a) přístup strukturální: respektuje se struktura modelu a hledá se třída takových lineárních funkcí užitečných parametrů, jejichž odhad určený při zanedbání rušivých parametrů zůstává nestranný i v úplném modelu. Obdobně se požaduje,abyrozptylodhadufunkceztétotřídybylstejnýjakvmodelusrušivými parametry tak v modelu, kde rušivé parametry neuvažujeme. Určení takových tříd má velký význam pro praxi, při výpočtech odhadů lineárních funkcí užitečných parametrů z této třídy můžeme v modelu(1) vynechat maticis azabývatsemodelem Y [Xβ,Σ ϑ ], β R k1. (11) b) přístup eliminační: vhodnou transformací původního modelu dosáhneme toho, že se v novém modelu již rušivé parametry nevyskytují. Nesmíme ovšem tímto postupem ztratit informaci o užitečných parametrech, transformovaný model musí umožňovat stejně kvalitní odhady užitečných parametrů jako model původní. Poznámka2.3.5 Projednoduchostbudememodelu(1)říkat velký,modelu(11)budemeříkat malý. 2.4 Strukturální přístup k rušivým parametrům Předpokládejme,ževariančnímaticeΣ ϑ vektorupozorováníjeznámápozitivně semidefinitní matice, odhadujeme pouze parametry β, κ, tzv. parametry1.řádu. Tvrzení Lineárnífunkcionálg β, β R k1,jevelkémmodelu(1) nestranněodhadnutelný(tj.existujelineárnífunkcel Ytaková,že E(l Y)= g β, β R k1, κ R k2 )právěkdyžg M(X M S ). Důkazviz[9],Remark2

248 238 Pavla Kunderová Funkcionálg βjevmalémmodelu(11)nestranněodhadnutelnýprávěkdyž g M(X ). Označení2.4.2Označmesymbolem E a resp. Etříduvšechlineárníchfunkcí g β,kteréjsounestranněodhadnutelnévmodelu(1)resp.vmodelu(11). Tvrzení2.4.3Protřídy E a, Eplatí mathcale a E, Důkaz[2], str.174 pe a = E Leftrightarrow M(X) M(S)={o}. Označení Označme symboly ĝ β a resp.ĝ β Σ ϑ -LBLUEodhady funkceg βvevelkémmodelu(1)resp.vmalémmodelu(11).index abude signalizovat,žeuvažovanýmodelje velký,tj.srušivýmiparametry.předpokládejme, že M(X,S) M(Σ ϑ ). (12) Tvrzení Za předpokladu(12) platí ĝ β=g (X Σ ϑ X) X Σ ϑ Y, var[ĝ β]=g (X Σ ϑ X) g, g M(X ), [ ] ĝ β a =g (X Σ ϑ X) X Σ ϑ (X Σ ϑ X) X Σ ϑ S[S Σ ϑ MΣ ϑ X S] S Σ ϑ MΣ ϑ X Y, (13) g M(X M S ). var[ĝ β a ]=g [(X Σ ϑ X) +(X Σ ϑ X) X Σ ϑ S[S Σ ϑ MΣ ϑ X S] S Σ ϑ X(X Σ ϑ X) ]g. Důkaz[2], str.177 Označení2.4.6 Označmesymbolem E 0 takovoupodtřídutřídy E a,která obsahujevšechnyfunkceg β,jejichžbluevmodelu(1)mástejnýrozptyl jako v modelu(11). Tvrzení g β E 0 g (X Σ ϑ X) X Σ ϑ S=o. Důkaz[4], Věta V Tvrzení Třída E 0 jepodprostorem E a, 2. E 0 = {g β, β R k1 :g M(X Σ ϑ XM X Σ ϑ S)}. Důkaz viz[2], Theorem Tvrzení4.2.9Jinévyjádřeníprotřídu E 0 je E 0 = {g β:ĝ β=ĝ β a }. Důkaz[2], Theorem Tvrzení dime 0 = r(x) r(x Σ ϑ S)=dimE a {r(x Σ ϑs) dim[m(x) M(S)]}.

249 Lineární regresní modely s rušivými parametry 239 Důkaz viz[2], Theorem Z posledního tvrzení plyne, že E 0 = E a r(x Σ ϑs)=dim[m(x) M(S)]. Poznámka To, zda daná lineární funkce užitečných parametrů patří dotřídy E 0,ověřímepomocíidentityAA g=g g M(A).Vnašem případěověřímezdaplatíx Σ ϑ XM X Σ S[X Σ ϑ XM X Σ S] g=g. Jestližeg M(X Σ ϑ XM X Σ ϑ S),jenutnopřiodhadufunkceg β, β R k1, uvážit i rušivé parametry, tj. užít odhad(13). Místo podmínky(12) je možno předpokládat splnění M(S) M(Σ ϑ +XX ), potomvevzorcíchproodhadyavevyjádřenítřídy E 0 vystupujemístomatice Σ ϑ maticet=σ ϑ +XX. Nerozřešenou úlohou strukturálního přístupu k rušivým parametrům je probléminvariancepodprostoru E 0 naparametry2.řádu ϑ,σ ϑ = p i=1 ϑ iv i. Zajímavé problémy se objevují v souvislosti s tzv. podparametrizováním modelu(kdy je ve skutečnosti správný velký model, ale odhady užitečných parametrů počítáme v malém modelu) nebo přeparametrizováním modelu (ve skutečnosti platí malý model, ale užíváme vzorce pro odhady užitečných parametrůzvelkéhomodelu)vpřípadě,kdylineárnífunkceg βnepatřído třídy E 0.ŘešeníjsouuvedenavpřipravovanémonografiiFišerová,E.,Kubáček,L., Kunderová,P.:Linear statistical models: regularity and singularities. 2.5 Eliminační přístup Uvažujmemodel(1)srušivýmiparametrykdeΣ ϑ jeznámá. a) Třída T 1 eliminačníchmatic Nejprve budeme studovat třídu eliminačních matic T 1 = {T:TX=X,TS=O}, kde T jevhodnámaticepříslušnéhorozměru.volboumaticet T 1 dostanemetransformovanýmodel(ty,xβ,tσ ϑ T ),vekterémsenezměnilamatice plánu příslušná užitečným parametrům. Úlohou je najít takovou matici T T 1,jejížužitínezpůsobíztrátuinformaceoužitečnýchparametrech. Tvrzení2.5.1EliminačnítransformaceT T 1 vmodelu(1)existujeprávě tehdy,když M(X) M(S)={o}. Důkaz viz[2], Theorem V následujících úvahách budeme předpokládat splnění podmínky M(X) M(S)={o}.Potomjsoufunkceg β,g M(X ),nestranněodhadnutelnévevelkémimalémmodelu,protože M(X )=M(X M S ). Tvrzení2.5.2Třídu T 1 eliminačníchmaticlzevyjádřitvetvaru T 1 = {T=(X,O)(X,S) +Z Z(X,S)(X,S) :Zlibovolná}.

250 240 Pavla Kunderová Zvolíme-lizamatici(X,S) dostaneme třídu matici[(x,s) W 1 (X,S)] (X,S) W 1,Wp.d., T 1 = {(Y Z)P (MSWMS)+ X +ZM (MXWMX)+ S Položíme-li Z = Y, dostaneme transformační matici :Z libovolná}. T=M (MXWMX)+ S =Y S[S (M X WM X ) + S] S (M X WM X ) +. Důkaz viz[2], Theorem nebo[4], Věta V Definice2.5.3Eliminačnímaticezetřídy T 1,prokteréspravděpodobností 1platí X [ (X ] { TY=(X,O) Y, ) m(tσϑ T ) [(X,S) ] m(σ ϑ )} (14) se nazývají optimální vzhledem k užitečným parametrům. Užití optimální transformace T z předchozí definice zaručuje, že odhad BLUEnevychýleněodhadnutelnéfunkceg βvmodelu(1)jespravděpodobností1identickýsodhademvtransformovanémmodelu(ty,xβ,tσ ϑ T ). O optimální transformační matici lze vyslovit následující dvě věty(viz[2], Theorem 4.2.8, Theorem 4.2.9) Tvrzení Nechť W je libovolná, pevně zvolená n n pozitivně definitní matice. Eliminační matice T je v modelu(1) optimální vzhledem k užitečným parametrům právě když M W 1 (X,S) Σ ϑt (X ) m(tσ ϑ T ) X =O. (15) Tvrzení2.5.5 EliminačnímaticeT,splňujícívztahT=Y SC, kdec jelibovolná k 2 n maticeprokterouplatícx=o&cs=y, jeve velkém modelu(1) optimální vzhledem k užitečným parametrům. Poznámka (viz[2], Remark , Corollary ) a) Prolibovolnoupozitivně definitní maticiw jematice M (MXWMX)+ S optimální eliminační maticí vzhledem k užitečným parametrům. b) Platí-liTΣ ϑ (Y T) =O,jeToptimálnívzhledemkužitečnýmparametrům. Velkýmodel(1)lzeprolibovolnoumaticiT T 1 vyjádřitvekvivalentním tvaru(viz[2], Lemma ) [( T Y T ) ( X, O Y, O, S ) ( β κ ) ( )] Σ11, Σ, 12, Σ 21, Σ 22 Σ 11 = var(ty), Σ 12 = cov[ty,(y T)Y]=Σ 21, Σ 22= var[(y T)Y]. (16) Pomocí tohoto modelu lze potom určit BLUE vektorové funkce užitečných parametrů, jak uvádí následující věta(viz[2], Theorem )

251 Lineární regresní modely s rušivými parametry 241 Tvrzení Pro BLUE vektorové funkce Xβ v modelu(1), kde M(X) M(S)={o},platí Xβ=X[(X ( ) ) m(a) ] TY Σ 12 Σ 22 {Y S[(S ) m(σ 22) ] }(Y T)Y, kdeσ ij, i, j=1,2jsoudányvztahy(16)akde A=Σ 11 Σ 12 Σ 22 [Σ 22 Σ 22 (S ) m(σ 22) S ]Σ 22 Σ 21, Pro odhad vektorové funkce Xβ byla dokázána následující věta(viz[2], Theorem ) Tvrzení2.5.8 MaticeT=XX [ (XX +SS ) m(σ ϑ )],jejedinouoptimální eliminační maticí takovou, že TY je v modelu(1) BLUE odhadem vektorové funkce Xβ skoro všude. Eliminační transformace, které jsou optimální vzhledem k parametrům prvního i druhého řádu Uvažujme model(1) ve kterém má varianční matice speciální strukturu Σ ϑ = p i=1 ϑ iv i, ϑ ϑ.označme T 0 = {T:T=Y SC,CX=O, CS=Y}. PodleTvrzení2.5.5jetřída T 0 eliminačníchmaticoptimálnívzhledemkužitečným parametrům. Tato třída má dvě další výhodné vlastnosti. Matice Y SC nezávisínavariančnímaticiσ ϑ,tedyt jesdruženě(vzhledemkparametrům druhého řádu) optimální vzhledem k užitečným parametrům prvníhořádu.protožecx=o,cs=y,jenáhodnývektorcy nevychýleným odhademvektorurušivýchparametrů κ.transformace(y SC)Y=Y Sˆκ je proto nejpřirozenější eliminační procedurou. Tvrzení2.5.9Třídu T 0 lzezapsatvekvivalentnímtvaru T 0 = {M (MXWMX)+ S SVM W 1 X M(MXWMX)+ S }, kdevjelibovolná k 2 nmatice,wlibovolná n np.d.matice. Důkaz viz[2], Theorem Tvrzení OznačmeΣ 0 = p i=1 ϑ 0,iV i. a)vregulárnímmodelu(1)jefunkcef ϑ= p i=1 f iϑ i, ϑ ϑ,nevychýleně, kvadratickyainvariantněodhadnutelná(t.j.odhadjetvaruy AY,kdeA n,n je symetrická matice, odhad je invariantní na změnu vektoru β) právě tehdy, když f M(S (M(X,S) Σ 0M (X,S) ) +), kde {S (M(X,S) Σ 0M (X,S) ) +} i,j= Tr[(M (X,S) Σ 0 M (X,S) ) + V i (M (X,S) Σ 0 M (X,S) ) + V j ], i, j=1,...,p. b)splňuje-lifunkcef ϑpodmínkuza),potomproodhad ϑ 0 -MINQUEfunkce f ϑplatí

252 242 Pavla Kunderová f ϑ= p λ i Y (M (X,S) Σ 0 M (X,S) ) + V i (M (X,S) Σ 0 M (X,S) ) + Y, i=1 kdevektor λjeřešenímsoustavyrovnics (M(X,S) Σ 0M (X,S) ) +λ=f. Důkaz viz[4], Důsledek V Poznámka Matice S (M(X,S) Σ 0M (X,S) ) +senazývákriteriálnímatice proodhadnutelnostfunkcef ϑ. Poznámka2.5.12V[4],str.153jedokázáno,žetransformačnímaticeT= M (MXΣMX)+ S je jedna z možných eliminačních matic, které eliminují rušivé parametry a současně můžeme v eliminovaném modelu určit stejně přesně(tj. se stejnou disperzí) jak odhady funkce parametru β tak odhady funkce parametru ϑ, přičemž třída nestranně odhadnutelných funkcí se eliminační transformacínezmění.podstatnourolizdehrajepředpoklad M(X) M(S)={o} a skutečnost, že odhad funkcí parametru ϑ realizujeme pomocí ϑ-minque metody. V knize[2](theorem 4.3.7, Theorem 4.3.8) jsou dokázána následující zajímavá tvrzení Tvrzení Lineárnífunkcef ϑvektorovéhoparametru ϑ ϑ R p, která je nevychýleně a invariantně odhadnutelná v modelu(1) před provedením eliminační transformace, je nevychýleně a invariantně odhadnutelná v transformovaném modelu ( ) p TY, Xβ, ϑ i TV i T, (17) jestliže T T = {M (MXWMX)+ S i=1 :Wlibovolná n np.d.matice}. Tvrzení2.5.14NechťT T anechť f ϑ, ϑ ϑ jenevychýleněainvariantněodhadnutelnáfunkce.potomje ϑ 0 -MINQUEodhadfunkcef ϑvmodelu(1)identickýsodhadem ϑ 0 -MINQUEstejnéfunkcevmodelu(17)po eliminaci. b) Třída T 2 eliminačníchmatic Uvažujme lineární model(1) s rušivými parametry Jestliže budeme brát transformačnímaticezobecnějšítřídy T 2 = {T:TS=O},tj.bude-lipo transformaci změněna matice plánu příslušná užitečným parametrům, lze získat některé zajímavé výsledky,(zatím byly dokázány pro regulární model). Potransformacimodelu(1)transformačnímaticíT T 2 dostanemelineární model TY [TXβ,TΣ ϑ T }. (18)

253 Lineární regresní modely s rušivými parametry 243 ObecnéřešenímaticovérovniceTS=OmátvarT=A(Y SS ),kde A jelibovolnámaticeodpovídajícíhotypu,s jenějakág-inverzematice S. Zvolíme-liS =(S WS) S W,kde W jelibovolnáp.s.d.maticetaková,že M(S )=M(S WS), (19) potomt=am W S,kdeM W S jedanájednoznačně. NejprveuvažujmetransformačnímaticiT=M W S,t.j.lineárnímodel M W SY [M W SXβ,M W SΣ ϑ (M W S) ], kde Σ ϑ jeregulární. (20) Lzedokázat,že M(M S )=M([M W S ] ),t.j. M(X M S )=M(X (M W S ) ),tedy třídyodhadnutelnýchfunkcíg βvmodelu(1)avmodelu(20)jsouidentické. Tvrzení Odhad ϑ-lblueodhadnutelnéfunkce g β,g M(X M S ) vmodelu(20)jestejnýjakovregulárnímmodelu(1). Důkazviz[9],Theorem3 Tvrzení Lineárnífunkcef ϑvektorovéhoparametru ϑ ϑ R p, která je nevychýleně odhadnutelná v regulárním modelu(1) před eliminací je nevychýleně odhadnutelná i v modelu(20). Důkazviz[9],Theorem4 Tvrzení Nechťf ϑ, ϑ ϑje nevychýleně odhadnutelná funkce. Potomjsouodhad ϑ 0 -MINQUEvmodelu(1)aodhad ϑ 0 -MINQUEvmodelu (20) po eliminaci shodné. Důkazviz[9],Theorem5 Uvažujme následující transformovaný lineární model AM (MXΣ ϑm X) + S Y [AXβ,AM (MXΣ ϑm X) + kde A jetakovámatice,že Platí S Σ ϑ (M (MXΣ ϑm X) + S ) A ],Σ ϑ p.d., (21) M(X A )=M(X M S ). (22) E[AP (MSΣ ϑm S) + X Y] =AX(X [M S Σ ϑ M S ] + X) X [M S Σ ϑ M S ] + (Xβ+Sκ)=AXβ. Tvrzení AP (MSΣ ϑm S) + X Y je nejlepším odhadem své střední hodnoty. Důkazviz[9],Lemma2 Tvrzení Vmodelu (21) tvoří odhady AP (MSΣ ϑm S) + X Y,kde A je libovolnámaticetaková,že M(X A )=M(X M S ),tříduvšechoptimálních odhadů vektorové funkce AXβ. Důkazviz[9],Theorem6 Vpřípadětransformacívolenýchzetřídy T 2 bylatvrzenívyslovenapro regulární varianční matici. Také zde zbývá dokázat tvrzení pro obecný případ. Pro omezený rozsah článku nejsou uvedena tvrzení o rušivých parametrech v multivariátním lineárním modelu.

254 244 Pavla Kunderová Reference [1] Kubáček L.(1960) Foundation of estimation theory. Elsevier, Amsterdam, Oxford, New York, Tokyo. [2] Kubáček L., Kubáčková L., Volaufová J.(1995). Statistical models with linear structures. Veda, Publishing House of the Slovak Academy of Sciences, Bratislava. [3] Kubáčková L., Kubáček L.(1990). Elimination transformation of an observation vector preserving information on the first and second order parameters. Technical Report, No 11. Institute of Geodesy, University ofstuttgart,1 71. [4] Kubáček L., Kubáčková L.(2000). Statistika a metrologie. Univerzita Palackého v Olomouci- vydavatelství. [5] Kunderová P.(2000). Linear models with nuisance parameters and deformation measurement. Acta Univ. Palacki. Olomuc., Mathematica 39, [6] Kunderová P.(2001). Locally best and uniformly best estimators in linearmodelwithnuisanceparameters.tatramt.math.publ.22, [7] Kunderová P.(2001) Regular linear model with the nuisance parameters with constraints of the type I. Acta Univ. Palacki. Olomuc. Mathematica 40, [8] Kunderová P.(2002) Regular linear model with nuisance parameters with constraints of the type II. Folia Fac. Sci. Nat. Univ. Masarykianae Brunensis, Mathematica 11, [9] Kunderová P.(2003) Eliminating transformations for nuisance parameters in linear model. Acta Univ. Palacki. Olomuc., Mathematica 42, [10] Nordström K., Fellman J. (1990) Characterizations and dispersion matrix robustness of efficiently estimable parametric functionals in linear models with nuisance parameters. Linear Algebra and its Applications 127, Adresa: P. Kunderová, Katedra matematické analýzy a aplikací matematiky, PřFUPOlomouc,Tomkova40,77900Olomouc kunderov@inf.upol.cz

255 ROBUST 2004 c JČMF 2004 ASYMPTOTIKA ODHADŮ POMOCÍ EMPIRICKÉHO ROZDĚLENÍ Petr Lachout Klíčová slova: Data, odhad, empirické rozdělení pravděpodobnosti, statistika, asymptotika odhadu. Abstrakt: Příspěvek se zabývá asymptotikou odhadů, a to jak bodových, tak intervalových. Jsou uvažovány odhady, které lze reprezentovat jako funkcionály na pravděpodobnostních měrách. Pokud je tento funkcionál slabě spojitý, pak je příslušný bodový odhad konzistentní. Intervalový odhad můžeme získat využití centrální limitní věty, delta věty nebo konvergence procesů. 1 Úvodaznačení Příspěvek se zabývá podmínkami, které zaručují vhodné asymptotické chování odhadů. Obecný postup je takový, že z naměřených údajů napočteme nějakou statistiku, u které vyšetřujeme její asymptotické chování. Potřebuje, aby statistika buď konvergovala k teoretické hodnotě parametru, nebo k nějakému rozdělení pravděpodobnosti. V prvém případě mluvíme o bodovém odhadu a v druhém případě o odhadu intervalovém, potažmo o testování hypotéz. Podívejme se na tuto situaci obecně. Abychom mohli lépe popsat proces odhadování a testování a abychom do našich úvah zahrnuli, co nejvíce požívaných statistik, volíme poněkud nezvyklou strukturu dat. Naměřená data uvažujeme jako pole indexované dvěmaindexy x k,n, k=1,2,...,k n, n N.Jednotlivápozorováníbudou hodnotyzprostoru X R q,kde q N.Prozjednodušenízápisubudeme symbolem x,n označovatřádekdat x 1,n, x 2,n,..., x Kn,n. Podstatistikourozumímeposloupnostfunkcí S=(S n, n N),kdepro každé n Nje S n : X Kn R.Většinapoužívanýchstatistikvšakmá speciální strukturu. Aby jsme ji mohli lépe popsat a využít, označme M + 1 (W) všechnyborelovsképravděpodobnostinaprostoru W; D(W) všechny diskrétní pravděpodobnosti na prostoru W, tj. jsou neseny konečně body. Uvažují se převážně statistiky typu S n (x,n )= S(P n ), (1) kde S: D(X) RaP n D(X)jeempirickérozdělenípravděpodobnosti x,n definované P n (A)= 1 K n # {k: x k,n A, k {1,2,..., K n }}prokaždé A X. (2)

256 246 Petr Lachout 2 Příklady Uveďme si několik motivačních příkladů. Příklad1: Pozorujemeposloupnostreálnýchčísel x 1, x 2, x 3,....ajakostatistiku používáme průměr 1 n n x k. (3) k=1 V naší terminologii přepíšeme takto K n = n, (4) x k,n = x k, (5) S n (x,n ) = tdp n (t). (6) Příklad2: Pozorujemeposloupnostreálnýchčísel x 1, x 2, x 3,....ajakostatistiku používáme průměr pozorování transformovaných funkcí ϕ: R R 1 n R n ϕ(x k ). (7) k=1 V naší terminologii přepíšeme takto K n = n, (8) x k,n = x k, (9) S n (x,n ) = ϕ(t)dp n (t). (10) Příklad3: Pozorujemeposloupnostreálnýchčísel x 1, x 2, x 3,....aprokaždé n Nuspořádejmeprvních npodlevelikosti x [1:n] x [2:n] x [n:n]. Propevné α (0,1)používámeempirickýkvantil V naší terminologii přepíšeme takto R x [ αn :n]. (11) K n = n, (12) x k,n = x k, (13) S n (x,n ) = inf{t R:P n ((, t)) α}. (14)

257 Asymptotika odhadů pomocí empirického rozdělení 247 Příklad4: Pozorujemeposloupnostreálnýchčísel x 1, x 2, x 3,....aprokaždé n Nuspořádejmeprvních npodlevelikosti x [1:n] x [2:n] x [n:n]. Propevné α (0,1)používámeuseknutýprůměr (1 α)n 1 x [k:n]. (15) (1 2α)n k= αn V naší terminologii přepíšeme takto K n = n, (16) x k,n = x k, (17) 1 S n (x,n ) = ti [Pn((,t]) α,p 1 2α n((,t)) (1 α)]dp n (t). (18) R Příklad5: Pozorujemeposloupnostreálnýchčísel x 1, x 2, x 3,....aprokaždé n Nuspořádejmeprvních npodlevelikosti x [1:n] x [2:n] x [n:n].pro lebesgueovskyintegrovatelnouváhovoufunkci c:[0,1] Rs 1 0 c(t)dt 0 používáme vážený průměr ( n c k=1 ( ) ) 1 k n c n k=1 V naší terminologii přepíšeme takto ( ) k x [k:n]. (19) n K n = n, (20) x k,n = x k, (21) ( ) S n (x,n ) = γ(c,p n ) 1 c P n ((, t]) tdp n (t), (22) kde γ(c,p n )= ) (P R c n ((, t]) dp n (t). Příklad6: Pozorujemeposloupnostreálnýchčísel x 1, x 2, x 3,....ajakostatistiku používáme empirický moment R n h 1 x k x k+h,kde h N. (23) n h k=1 V naší terminologii přepíšeme takto K n = n h, (24) x k,n = (x k, x k+h ), (25) S n (x,n ) = t 1 t 2 dp n (t 1, t 2 ). R 2 (26)

258 248 Petr Lachout Příklad7: Pozorujemeposloupnostreálnýchčísel x 1, x 2, x 3,....apoužíváme U-statistiku 1 n q n k 1,k 2,...,k q=1 V naší terminologii přepíšeme takto u(x k1, x k2,...,x kq ). (27) K n = n, (28) x k,n = x k, (29) S n (x,n ) = u(t 1, t 2,..., t q )dp n (t 1 )dp n (t 2 )...dp n (t q ) (30) R q = u(t 1, t 2,..., t q )dp q n (t 1, t 2,..., t q ). (31) R q Příklad8: Pozorujemeposloupnostdvojicreálnýchčísel(x 1, y 1 ),(x 2, y 2 ), (x 3, y 3 ),....PočítámeM-odhadkoeficientůlineárníregrese { n } (ˆα n,ˆβ n ) argmin ρ(y k a bx k ):: a, b R. (32) k=1 V naší terminologii přepíšeme takto K n = n, (33) x k,n = (x k, y k ), (34) { } S n (x,n ) argmin ρ(s a bt)dp n (t, s):: a, b R. (35) R Příklad9: Pozorujemeposloupnostdvojicreálnýchčísel(x 1, y 1 ),(x 2, y 2 ), (x 3, y 3 ),....PočítámeM-odhadkoeficientůlineárníregrese { n } (ˆα n,ˆβ n ) argmin ρ(y k a bx k ):: a, b R. (36) k=1 Dále se zabýváme testování, zda jsou splněny předpoklady modelu. Konkrétně, zda rozdělení chyb odpovídá předpokladům. Používáme statistiku n k=1 ) ρ (y k ˆα n ˆβ n x k. (37)

259 Asymptotika odhadů pomocí empirického rozdělení 249 V naší terminologii přepíšeme takto 3 Konvergence V této kapitole uvažujeme data ve tvaru K n = n, (38) x k,n = y k ˆα n ˆβ n x k, (39) S n (x,n ) = ρ(t)dp n (t). (40) X=(x k,n, k=1,2,...,k n, n N); P n označujeempirickérozdělenířádku x,n. Budemesezabývatstatistikoutvaru S: D(X) Rakonvergentnostíposloupnosti S(P n ).Jednásevlastněovyšetřováníhromadnýchbodůdané statistiky pro daná data, což je R Ls(S,X) = {všechnyhromadnébodyposloupnosti S(P n ), n N} { } = lim sup S(P nk ),liminf S(P n k ):n k + k + k + { } = lim sup S(P nk ):n k + (41) = = k + { } lim inf S(P n k ):n k + k + { lim S(P n k ):n k +, k + } lim S(P n k )existuje. k + Konvergenci v pravděpodobnosti dokážeme vyšetřit, pokud lze naši statistiku rozšířittak,aby S : M + 1 (Rq ) Raabybylaspojitávzhledemkeslabé konvergenci měr, a když data splňují podmínku těsnosti, tj. ε >0 >0tak,že n N (42) P n ({x X: x })= = 1 K n # {k: x k,n, k {1,2,..., K n }} 1 ε. Věta3.1. Nechť S: M + 1 (Rq ) Rjespojitávzhledemkeslabékonvergenci měr. Když data splňují podmínku těsnosti(42), pak { } w Ls(S,X) = S(P):existuje n k + tak,žep nk P. k +

260 250 Petr Lachout Důkaz: w 1. PokudP nk P,pakzeslabéspojitostistatistiky Svyplývá,že k + lim k + S(P nk )=S(P).Tudíž S(P) Ls(S,X). 2. Pokud s Ls(S,X),pakexistujepodposloupnosttaková,že s=lim k + S(P nk ). PosloupnostP nk, k Njetěsná,neboťtěsnostpředpokládáme. Pakpodle Prochorovovyvětyexistuje podposloupnostp nkj, j N w apravděpodobnostnímíraptak,žep nkj P. j + Zeslabéspojitostistatistiky Svyplývá,že s=s(p). Q.E.D. Nyní si uvědomme, co věta říká pro data, která jsou realizací náhodného schematu X k,n, k=1,2,..., K n, n N;tj. x k,n = X k,n (ω), k=1,2,..., K n, n N. (43) Věta3.2. Když S: M + 1 (Rq ) Rjespojitávzhledemkeslabékonvergenci měraproskorovšechna ω Ωdata(43)splňujípodmínkutěsnosti(42) w ap n (ω) P,kdePjenenáhodná, pak S(P n(ω)) S(P)pro n + n + skoro všechna ω Ω. Tatosituacenastávánapříkladpro X k,n = X k,kde X k, k Njsoui.i.d. nebo ergodické(silně) stacionární posloupnost, viz[4],[2]. Použití věty je však omezeno předpokladem slabé spojitosti funkcionálu S. Uvědomme si, že průměr(3), medián(11), useknutý průměr(15), atd. nejsou reprezentovány slabě spojitým funkcionálem. Naproti tomu průměr transformovaných dat(7), při ϕ spojité omezené funkci, a vážený průměr(19), při c spojité omezené funkci, jsou reprezentovány slabě spojitým funkcionálem. 4 Rychlost konvergence V této kapitole pokračujeme v diskusi modelu představeném v předchozích kapitolách.opětuvažujemestatistiku S : M + 1 (Rq ) R,kteráje slabě w spojitá,adata,kterájsoutěsná.navícpředpokládáme,žep n n + P. Zpředchozíkapitolyvíme,žepotomLs(S,X) = {S(P)}.Zajímánásjak rychle konverguje k nule rozdíl T(P n,p)=s(p n ) S(P), n N. (44) Toznamená,žehledáme τ n >0, τ n + tak,aby τ n T(P n,p)=o(1). Nelze očekávat nenulovou limitu této normalizace. Typicky je třeba očekávat oscilace, plyne to ze zákona iterovaného logaritmu, viz[1],[4].

261 Asymptotika odhadů pomocí empirického rozdělení 251 Tudíž se budeme zabývat pouze daty, které jsou realizací nějakého náhodnéhoschematu(43).potom τ n T(P n,p)jenáhodnáveličina.jejírozdělení pravděpodobnostibudemeoznačovat L(τ n T(P n,p)) Prodané τ=(τ n, n N)násprotozajímajíhromadnébody Ls 2 (S,X, τ) = {hromadnébodyposloupnosti L(τ n T(P n,p)),n N} { } w = µ:: n k +, L(τ nk T(P nk,p)). (45) K vyšetření konvergence můžeme využít následující. 4.1 Centrální limitní věta k + µ Pokuduvažovanástatistikajetvaru S(Q)= R q f(t)dq(t),pak K n τ n T(P n,p)=τ n (f(x k,n ) S(P)). (46) k=1 Tentotvarjevýhodnýpokuddatasplňují silnýzákonvelkýchčísel a centrálnílimitnívětu profunkci f.napříkladpokud X k,n = X k, k N,kde X k, k Njsoui.i.d.,toznamenápožadovatE [ f(x 1 ) 2] < Delta věta PokuduvažovanástatistikamáHadamardovuderivaci DSvbodě P,tj.pro každé Q n M + 1 (Rq w ), n N, Q n Qexistujelimita n + ( ( n S P+ 1 ) ) n (Q n P) S(P) DS(P; Q), (47) n + pakmůžemevyužít deltavětu. Deltavětazaručuje,žekdyž SmáHadamardovuderivacivbodě P, pak τ n +, τ n(p n P) η, (48) n + n + τ n T(P n,p) D n + D DS(P; η). (49) 4.3 Konvergence procesů Pokudlzepsát τ n T(P n,p)=z ( τ n (P n (f) P(f)), f F ),kde Fjedaný systémreálnýchfunkcídefinovanýchna X,přičemžP(f)= X fdp.

262 252 Petr Lachout Věta4.1.Když Y(F) R F jetopologickýprostorfunkcí, ( ) τ n (P n (f) P(f)), f F Y(F), (50) ( ) ( ) D τ n (P n (f) P(f)), f F H(f), f F v Y(F), (51) n + a Z: R F Rjespojitáfunkce,pak ( ) ( ) D Z τ n (P n (f) P(f)), f F Z H(f), f F v R. (52) n + Jakoprostor Y(F)můžesloužitl + [F]prostorvšechomezenýchfunkcí na F, prostor spojitých funkcí případně Skorochodův prostor D. Obecnou slabou konvergenci pravděpodobnostních měr a s ní spojenou konvergenci procesů v distribuci je možno nalézt v[2],[5] a některé speciální případy v[3],[4]. Jakomnožiny Fjemožnopoužít(I [ <x], x R q ),cožvedenadistribuční funkce. Dále je možno použít množinu všech spojitých funkcí, či nějakou jejich podmnožinu. Například polynomy nejvýše stupně 5, atd. Reference [1] Doukhan P.(1994). Mixing: properties and examples. Lecture Notes in Statistics 85, Springer-Verlag, Berlin. [2] Hoffmann-Jørgensen J.(1994). Probability with a view towards to statistics I,II. Chapman and Hall, New York. [3] Jurečková J., Sen P.K.(1996). Robust statistical procedures. John Wiley &Sons,Inc.,NewYork. [4] Štěpán J.(1987). Teorie pravděpodobnosti. Academia, Praha. [5] van der Vaart A.W., Wellner J.A.(1996). Weak convergence and empirical processes. Springer, New York. Poděkování: Příspěvek vznikl za podpory výzkumného záměru MŠMT: MSM a grantové agentury České republiky grantu č. 201/03/1027. Adresa:P.Lachout,KPMSMFFUK,Sokolovská83,18675Praha8, aútiaavčr,podvodárenskouvěží4,18208praha8 lachout@karlin.mff.cuni.cz

263 ROBUST 2004 c JČMF 2004 STATISTICAL ANALYSIS OF GEODETICAL MEASUREMENTS Jaroslav Marek, Eva Fišerová Keywords: Two stage regression models, uncertainty of the type A and B, unbiased estimator, confidence domain. Abstract: Geodetical measurements when geodetical network coordinates are supposed to be stochastic can be modelled by twostage regression model. Two types of estimators of model parameters and their confidence domains are presented in the paper. Introduction Staking out points or determining coordinates of given points are typical geodetical problems. In such cases some other points, which coordinates are known, from the government geodetical network are chosen. Then unknown coordinates are calculated on the basis of measured distances and angles between these geodetical points and our determining ones. The mentioned process of the experiment can be modelled if geodetical network coordinates are supposed to be stochastic i.e., they are inaccurate bythetwostagelinearmodel.thefirststageconcernstheinaccuracyindetermining of government geodetical network coordinates and these inaccuracy willbecalledtheuncertaintyofthetypeb.thesecondstageisconnected with measurements of distances and angles. The inaccuaracy in the second stagewillbecalleduncertaintyofthetypea. The aim of the paper is to compare standard estimators, H optimum estimators in the twostage model and to find their confidence domains. 1 Model of connecting measurements LetAbean m nmatrix.let M(A)={Au:u R n } R m denotethe columnspaceofthematrixa.letthesymbola meansag inverseofthe matrix A. Definition 1.1. The model of connecting measurements will be called random vectory=(y 1,Y 2),withthemeanvaluesandthecovariancematrix: ( Y1 ) Y 2 [( X1, 0 D, X 2 ) ( Θ β ) ( )] Σ1,1, 0,, 0, Σ 2,2 wherex 1,D,X 2 areknown n 1 k 1, n 2 k 1, n 2 k 2 matrices,suchthat M(D ) M(X 1 );Θ, βareunknown k 1and k 2 -dimensionalvectors;σ 1,1 andσ 2,2 areknowncovariancematricesofvectorsy 1 andy 2.

264 254 Jaroslav Marek, Eva Fišerová InthismodeltheparameterΘisestimatedonthebasisofthevector Y 1 ofthefirststageandparameter βonthebasisofvectorsy 2 DˆΘand ˆΘ.Theresultsofmeasurementsfromthesecondstage(thismeansY 2 )we cannotuseforthechangeoftheestimatorˆθ. The parametric space of this model is Θ={(Θ, β ) :Bβ+CΘ+a=0}, whereb,care q k 2, q k 1 matrices,aisaq-dimensionalvectorand therankofthematrixbis r(b)=q < k 2. ThevectorΘistheparameterofthefirststage(connecting),thevector βistheparameterofthesecondstage(connected).inthesecondstagewe havetheunbiasedestimator Θ = (X 1 Σ 1 1,1 X 1) 1 X 1 Σ 1 1,1 Y 1 fromthefirst stageanditscovariancematrixvar( Θ)=(X 1 Σ 1 1,1 X 1) 1 atourdisposal. The vector Y will be supposed to be normally distributed. Definition 1.2. ThemodelinDefinition1.1inthisparametricspaceΘis regularprovided r(x 1 )=k 1, r(x 2 )=k 2,Σ 1,1,Σ 2,2 arepositivelydefinite matricesand r(b)=q. Lemma1.1.Theclass Ũβofalllinearunbiasedestimators βoftheparameter βinthemodelfromdefinition1.1basedonvectorsy 2 DˆΘand ˆΘ,and satisfayingthe(random)conditionb β+c Θ+a=0is Ũ β = {[ I B B ][ X 2 +W 1(I X 2 X 2 )+W 2BX ] 2 (Y2 D Θ) + [ ] B +(I B B)W 2 C Θ+(I B B)W 2 a B a, W 1 anarbitrary k 2 n 2 matrix,w 2 anarbitrary k 2 qmatrix, X 2 andb arearbitrarybutfixedg inverses }. Proof [1], p Corollary1.1.Thecovariancematrixoftheestimator βis Var( β) = (I B B) [ X 2 +W 1(I X 2 X 2 )+W 2BX ] 2 Σ2,2 [ X 2 +W 1(I X 2 X 2 )+W 2BX ] (I 2 B B) + {(I B B)[ X 2 D W 1(I X 2 X 2 )D W 2BX 2 D +W 2 C] B C}(X 1 Σ 1 1,1 X 1) 1 {(I B B) [ X 2 D W 1(I X 2 X 2 )D W 2BX 2 D+W 2C] B C}. Definition 1.3. The least squares estimator of the parameter β obtained under theconditionσ 1,1 =0( Var( Θ)=0)iscalledthestandardestimatorif inthisestimatorthevectorθissubstitutedby Θ. Theorem1.1.Thestandardestimator ˆβoftheparameter βisgivenas ˆβ = (X 2Σ 1 2,2 X 2) 1 X 2Σ 1 2,2 (Y 2 D Θ) (X 2 Σ 1 2,2 X 2) 1 B [B(X 2 Σ 1 2,2 X 2) 1 B ] 1 {a+c Θ+B(X 2 Σ 1 2,2 X 2) 1 X 2 Σ 1 2,2 (Y 2 D Θ)}, whereasthisestimatorisunbiased,itmeanse(ˆβ)=β.

265 Statistical analysis of geodetical measurements 255 Proof [3],p.72. Theorem 1.2. IfVar( Θ) 0then thecovariance matrixof the standard estimator ˆβisformedby uncertaintya and uncertaintyb : Var(ˆβ)=Var 0 (ˆβ) +AVar( Θ)A, }{{}}{{} uncertainty uncertainty typea typeb wherevar 0 (ˆβ) = (X 2 Σ 1 2,2 X 2) 1 (X 2 Σ 1 2,2 X 2) 1 B [B(X 2 Σ 1 2,2 X 2) 1 B ] 1 B(X 2 Σ 1 2,2 X 2) 1, A = {I (X 2Σ 1 2,2 X 2) 1 B [B(X 2Σ 1 2,2 X 2) 1 B ] 1 B} (X 2 Σ 1 2,2 X 2) 1 X 2 Σ 1 2,2 D (X 2 Σ 1 2,2 X 2) 1 B [B(X 2Σ 1 2,2 X 2) 1 B ] 1 C. Proof [3],p.74. Definition1.4. LetHbeagiven k 2 k 2 positivesemidefinitematrix.the estimator βfromtheclass Ũ β ish-optimalifitminimizesthefunction φ( β)=tr[hvar( β)], β Ũ β. HerethesymbolTr[HVar( β)]meansthetraceof[hvar( β)]. Theorem1.3.Iftheestimator βfromtheclass Ũ β ish-optimal,thenmatrices W 1,W 2 inlemma1.1aresolutionsofthefollowingequation ( ) ( ) V U 1 W1, W 1, T 1 2 = ( ) P V 2, T 1, P 2, 2 where U 1 = [I B (B ) ]H[I B B], V 1 = (I X 2 X 2 )[Σ 2,2+D(X 1 Σ 1 1,1 X 1) 1 D ](I (X 2 ) X 2 ), V 2 = BX 2 [Σ 2,2+D(X 1Σ 1 1,1 X 1) 1 D ][I (X 2 ) X 2] C(X 1 Σ 1 1,1 X 1) 1 D [I (X 2 ) X 2 ],

266 256 Jaroslav Marek, Eva Fišerová P 1 = [I B (B ) ]H[I B B]X 2 [Σ 2,2+D(X 1 Σ 1 1,1 X 1) 1 D [I (X 2 ) X 2] [I B (B ) ]HB C(X 1Σ 1 1,1 X 1) 1 D ] [I (X 2 ) X 2], T 1 = [I (X 2 ) X 2 ]{[Σ 2,2+D(X 1 Σ 1 1,1 X 1) 1 D ] (X 2 ) B D(X 1Σ 1 1,1 X 1) 1 C }, T 2 = BX 2 [Σ 2,2+D(X 1 Σ 1 1,1 X 1) 1 D ](X 2 ) B +C(X 1 Σ 1 1,1 X 1) 1 C C(X 1 Σ 1 1,1 X 1) 1 D (X 2 ) B BX 2 D(X 1 Σ 1 1,1 X 1) 1 C, P 2 = [I B (B ) ]H[I B B]X 2 [Σ 2,2+D(X 1Σ 1 1,1 X 1) 1 D ](X 2 ) B Proof [1], p [I B (B ) ]HB C(X 1 Σ 1 1,1 X 1) 1 [C D (X 2 ) B ] +[I B (B ) ]H[I B B]X 2 D(X 1Σ 1 1,1 X 1) 1 C. 2 Confidence domain Lemma 2.1. The cross covariance matrix for standard estimator is ( ) ( ) Θ Var( Θ), cov( Θ,ˆβ) Var = ˆβ cov(ˆβ, Θ), Var(ˆβ) where cov( Θ,ˆβ) = Var( Θ) { D Σ 1 2,2 X 2(X 2Σ 1 2,2 X 2) 1 C [B(X 2Σ 1 2,2 X 2) 1 B ] 1 cov(ˆβ, Θ) = cov( Θ,ˆβ). B(X 2Σ 1 2,2 X 2) 1 +D Σ 1 2,2 X 2(X 2Σ 1 2,2 X 2) 1 B [B(X 2 Σ 1 2,2 X 2) 1 B ] 1 B(X 2 Σ 1 2,2 X 2) 1}, Proof ItfollowsfromTheorems1.1andfromthefactthataccordingto Definition1.1vectorsY 1 andy 2 areuncorrelated. Lemma2.2.Thecrosscovariancematrixforestimator βis ( ) ( ) Θ Var( Θ), cov( Θ, β) Var = β cov( β, Θ), Var( β) where cov( Θ, β) { = Var( Θ) C [ B +(I B B)W 2 ] cov( β, Θ) = cov( Θ, β). D [X 2 +W 1(I X 2 X 2 )+W 2BX 2 ] (I B B) },

267 Statistical analysis of geodetical measurements 257 Proof It follows Definition 1.1 and Lemma 1.1. Theorem 2.1. Let h(θ, β) be s dimensional differentiable function. Then the (1 α) confidence ellipsoid for the vector function h(θ, β), based on the standardestimatorh( Θ,ˆβ),istheset { E 1 α (h(θ, β))= u:u R s, where W S = (u h( Θ,ˆβ)) W 1 S (u h( Θ,ˆβ)) χ 2 s(1 α) [ ( h(θ, β) Θ, ) ( h(θ, β) Θ β Var ˆβ ) ( h(θ, β) Θ, }, ) ] h(θ, β) β. Herethesymbol χ 2 s(1 α)denotes(1 α)-quantileof χ 2 -distributionwith s degrees of freedom. Proof Using the Taylor expansion, the linear approximation of the estimator h( Θ,ˆβ)isnormallydistributedanditholdsh( Θ,ˆβ) N s [h(θ, β);w S ],the restoftheproofisanobviousconsequenceofpearsonlemma(cf.[2],p.87). Remark 2.1. Analogously we can determine the(1 α) confidence ellipsoid forthefunctionh( Θ, β),basedontheh optimumestimatorh( Θ, β)).itis the set { Ẽ 1 α (h(θ, β))= u:u R s, } (u h( Θ, β)) W 1 H (u h( Θ, β)) χ 2 s (1 α), where W H = [ ( h(θ, β) Θ, ) ( h(θ, β) Θ β Var β ) ( h(θ, β) Θ, ) ] h(θ, β) β. Remark2.2.Whenconfidencedomainsarecalculated,functions h(θ,β) Θ h(θ,β) β aresubstitutedbytheirestimators,i.e., h( bθ,ˆβ) Θ, h( bθ, β) e Θ,etc. and 3 Numerical example Example 3.1. Theproblemistoestimateplanecoordinatesofpoints P 1, P 2 and P 3 inacartesiancoordinatesfromthefigure1.wehaveestimated values Θ 2i 1, Θ 2i ofcoordinatesofthepoint A i =(Θ 2i 1,Θ 2i ), i=1,2, andmeasuredvaluesy j andy k oflengths β 1, j=1,2,3,4,andangles β k, k=5,6,7,respectively,atourdisposal.

268 258 Jaroslav Marek, Eva Fišerová Theaimofthisexampleistoestimatecoordiantesofthepoint P 3. Letresultsfromthefirstandthesecondstageofmeasurementbe( Θ 1, Θ 2, Θ 3, Θ 4 )=(500.00,500.00,879.60,664.65)and(Y 1, Y 2, Y 3, Y 4, Y 5, Y 6, Y 7 )=(134.04,118.40,116.17,71.49,164.50,156.50, ). Thevalues Θ i, Y i, i=1,2,3,4,areinmeters,values Y j, j=5,6,7,in degrees. The accuracy of measurements are given by the covariance matrices. P 1=(Θ 1+ β 1,Θ 2) P 2=(Θ 1+ β 1 β 2cos β 5,Θ 2+ β 2sin β 5) P 3=(Θ 1+ β 1 β 2cos β 5+ β 3cos(β 5+ β 6), Θ 2+ β 2sin β 5 β 3sin(β 5+ β 6))=(h 1(Θ, β), h 2(Θ, β)) P 4=(Θ 1+ β 1 β 2cos β 5+ β 3cos(β 5+ β 6) β 4cos(β 5+ β 6+ β 7), Θ 2+ β 2sin β 5 β 3sin(β 5+ β 6)+β 4sin(β 5+ β 6+ β 7)) β 7 P 3 β 4 P 4 = A 2 =(Θ 3,Θ 4 ) β 4 sin(β 5 + β 6 + β 7 ) β 6 β 3 β 3 sin(β 5 + β 6 ) A 1 =(Θ 1,Θ 2 ) β 5 β 2 sin(β 5 ) β 2 P 2 β 1 P 1 β2 cos(β 5 ) β 3 cos(β 5 + β 6 ) β 4 cos(β 5 + β 6 + β 7 ) Figure 1: Polygonometric measurement. Inourcasewewillconsider Σ 1,1 = , , , , , , , , , , , , Wesupposethatinthesecondstageofmeasurementtheangleswere measuredwithdispersionof σ 2 ω =(2 ) 2,andthedistancesweremeasured withdispersionof σ 2 d =22 cm 2. OnecanobserveinFigure1,thecondition g(β,θ)=0isimpliedfor parameters Θ and β, where g(β,θ) = (Θ 3 Θ 1 ) 2 +(Θ 4 Θ 2 ) 2 (β 2 1 2β 1β 2 cos(β 4 )+β β 1 β 3 cos(β 4 + β 5 ) 2β 2 β 3 cos(β 4 )cos(β 4 + β 5 )+ + β 2 3 2β 2β 3 sin(β 4 )sin(β 4 + β 5 )), x = β 1 β 2 cos(β 5 )+β 3 cos(β 5 + β 6 ) β 4 cos(β 5 + β 6 + β 7 ), y = β 2 sin(β 5 ) β 3 sin(β 5 + β 6 )+β 4 sin(β 5 + β 6 + β 7 ).

269 Statistical analysis of geodetical measurements 259 Thelinearversionofthecondition g(β,θ)=0,obtainedbytheusingthe Taylorexpansionattheapproximatepoint(β 0,Θ 0 )=(Y 1,Y 2,Y 3,Y 4,Y 5,Y 6,Y 7, Θ 1, Θ 2, Θ 3, Θ 4 )isintheform Bδβ+CδΘ+a=0,where δβ= β β 0, δθ=θ Θ 0,B= g(β0,θ 0 ) β, C= g(β0,θ 0 ) Θ, a=g(β 0,Θ 0 ). Inourlinearizedmodel,whereX 1 =I 4 4,D=0 7 4 andx 2 =I 7 7,the standardestimatorˆβ(cf.theorem1.1,1.2)andh-optimumestimator β(cf. Lemmas1.1,Theorem1.3),whereHisintheform H=( h1 β + h2 β )( h1 β + h2 β ),where h 1 =Θ 1 +β 1 β 2 cosβ 5 +β 3 cos(β 5 + β 6 )and h 2 =Θ 2 + β 2 sinβ 5 β 3 sin(β 5 + β 6 )(seefigure1),are ˆβ=( m, m, m, m, , , ), β=( m, m, m, m, , , ). By chosen matrix H minimizing data errors in the process estimation of thevector βwegotbetterestimatoroftheparameter βincomparisonwith thestandardestimatorˆβ.itfollowsfromthefactthatforthechosenmatrix HisTr(HVar( β))= <0.0129=Tr(HVar(ˆβ)). Hence,estimatedcoordinatesofthepoint P 3 andtheircovariancematrices are ( ˆP 3 = ( P 3 = ) ( ) , Var(ˆP 3 )=, ) ( ) , Var( P3 )= y Figure2:The0.95 confidencedomainsforpoints A 1 and A 2 ;(solidline point A 1,dotline point A 2 ). x Nowwewilldrawthe0.95 confidencedomainsforpoints A 1, A 2, P 1, P 2 and P 3.Forbettergraphicalcomparison,thecenterofeachdomainismoved tothepoint(0,0).

270 260 Jaroslav Marek, Eva Fišerová y x Figure3:The0.95 confidencedomainsforthepoint P 3 ;(solidline standard estimator,dotline H-optimumestimatorforthepoint P 3 ). y y x x Figure4:The0.95 confidencedomainsforpoints P 1 and P 2 ;(solidline standardestimator,dotline H-optimum(forthepoint P 3 )estimator). References [1] Kubáček L.(1993). Two stage regression models with constraints. Math. Slovaca43, [2] Kubáček L., Kubáčková L.(2000). Statistics and metrology(in Czech). Olomouc. Publishing House of Palacký University. [3] Marek J.(2003). Estimation in connecting measurements. Acta Universitas Palackianae, Fac. rer. nat., Mathematica 42, [4] Rao C.R., Mitra S.K.(1971). Generalized inverse of matrices and its applications. John Wiley& sons, New York London Sydney Toronto. Address: J. Marek, E. Fišerová, Department of Mathematical Analysis and Applied Mathematics, Faculty of Science, Palacký University, Tomkova 40, Olomouc, Czech Republic marek@inf.upol.cz, fiserova@inf.upol.cz

271 ROBUST 2004 c JČMF 2004 OPTIMÁLNÍ SEGMENTACE DAT Petr Novotný Klíčová slova: Výpočetní statistika, po částech spojitá regrese. Abstrakt: Snížení paměťové náročnosti při výpočtu po částech spojitého regresního modelu. Motivace Úkolem je rozdělit sekvenci DNA na úseky podle obsažené informace(stavba těla, trávení apod.). Biologické řešení DNAseskládáze4druhůbazí(adenosin(A),cytosin(C),guanin(G)athymin(T)).JedenzmožnýchpřístupůjerozdělitDNAnaúsekypodlepoměru dvojic bazí. Matematické řešení Použijeme po částech konstantní regresní model a budeme minimalizovat reziduálnísoučetčtverců.napříkladpřihledánípoměruaackugat budemekódovataacjako1azbyléjako0.početbodůnespojitostibudeme navíc penalizovat vhodnou funkcí

272 262 Petr Novotný Americké výsledky Po spolupráci s NSA(National Security Agency) a jejich superpočítači se americkým vědcům podařilo rozdělit DNA bakteriofágu λ. DNA tohoto bakteriofágu se skládá z bazí. Já jsem schopen dosáhnout stejného výsledku s použitím současného PC během několika málo hodin. Formalizace zadání Máme dáno: Vektor pozorování Ztrátovou funkci Hledáme: X 1,...,X N R(i, j) RSS(X i,..., X j ) 1 i j N Optimální dělení vektoru pozorování na právě K úseků. Matice Tj.hledáme J 2,..., J K : 1 = J 1 < J 2 <... < J K N,která minimalizují: K 1 i=1 R(J i, J i+1 1)+R(J K, N) J i jsoupočátečníbodyúsekůoptimálníhodělení. HornítrojúhelníkovámaticeRtypu N N: R(1,1)... R(1, N) R= R(N, N) Tato obrovská matice obsahuje reziduální součty čtverců pro všechny možné úseky. MaticeQtypu K N: q(1,1)... q(1, K)... q(1, N) Q= q(k, K)... q(k, N) Prvek q(i, j) vyjadřuje ztrátu odpovídající optimálnímu rozdělení podvektoru X 1,..., X j na iúseků.

273 Optimální segmentace dat 263 MaticePtypu K N: p(1,1)... p(1, K)... p(1, N) P= p(k, K)... p(k, N) Prvek p(i, j) obsahuje odkaz na předchozí dělení: p(i, j)=k q(i, j)=q(i 1, k)+r(k+1, j). Klasické řešení Klasický algoritmus založený na dynamickém programování řeší naši úlohu ve dvou krocích. 1. Vypočteme si celou matici R. 2. Vedruhémkrokusepostupněvytvářímatice QaP. Proprvnířádek: q(1, i)=r(1, i) p(1, i)=0 Pro ostatní řádky: q(i, j)=min k<j (q(i 1, k)+r(k+1, j)) p(i, j)=argmin k<j (q(i 1, k)+r(k+1, j)) Problémy klasického řešení Největším nedostatkem klasického postupu je jeho paměťová náročnost. MaticeRsenámbrzynevejdedooperačnípamětiajejíčástsemusíuložit napevnýdiskaprávědíkypomalémupřístupunapevnýdiskjevýpočet neproveditelný. Operační paměť o velikosti 512 MB je spotřebována již pro vektor délky N = Abychom zvýšili možné N na dvojnásobek potřebujeme čtyřikrát větší operační paměť. Mým cílem bylo tento nedostatek odstranit. Alternativní model situace Situacisimůžemepředstavitjakoorientovanýgrafnamnožině {0,...,N}, kdezvrcholu ivedehranadovrcholu jprávětehdy,když i < j.našedata jsoumezerymezivrcholygrafu.cílemjenajítnejkratšícestuz0do N, kterámáprávě Khran.Vtomtoalgoritmusiukaždéhovrcholugrafupamatujicenunejkratšícestyz0dotohotovrcholu,kterámáprávě1až Khran.

274 264 Petr Novotný X[1] X[2] X[6] Popis navrženého algoritmu Výstavbamatic QaP V prvním kroku spočítám první řádek matice R. q(1, i)=r(1, i) p(1, i)=0 V i-tém kroku napočtu i-tý řádek matice R. Pokudje i K,přičtukevšemhodnotám i 1 h=1r(h, h)avýsledek uložímdoi-téhořádkumatice Qodi-tésouřadniceai-týřádekmatice P inicializujina i 1. Tytohodnotymireprezentujídělení1,2,...i. Začnu přepočítávat hodnoty v dosud obsazených řádcích kromě prvního abudesejednatosložkysvyššímindexemnež i.pokusímsezlepšit optimální dělení za předpokladu, že počáteční bod posledního intervalu je i.

275 Optimální segmentace dat 265 Schematický zápis algoritmu: Pro lod2domin(i, K)apro j idělej: q(l, j)=min(q(l, j), q(l 1, i 1)+R(i, j)) Pokud došlo ke změně optimální hodnoty pak: p(l, j)=i 1 Tento způsob umožňuje použití paralelního přepočítávání jednotlivýchřádkůmatic P a Q. Výsledky simulací Všechny simulace proběhly na počítači Pentium IV 2.8 GHz, 512 MB RAM. Vlastní algoritmus byl naprogramován v Matlabu, Release 13. Výsledky v tabulce jsou uvedeny v sekundách. K\ N :00:18 0:01:09 0:07:19 0:30:57 2:03: :00:37 0:02:36 0:16:08 1:06:19 4:27:15 Simulacevýpočtunašehomotivačníhopříkladu(N=48502aK=40)trvala3hodiny,27minuta41sekund.Optimálnísegmentacevektoruodélce na5segmentůbytrvalaasi2dny. Zrychlení výpočtu reziduí Při výpočtu reziduí používám zrychlený postup, který umožňuje vypočítat R(i, j)zhodnot j k=i X ka j k=i X2 k. j 1 (X k j i+1 k=i j X l ) 2 = l=i j Xk 2 1 j j i+1 ( X k ) 2 Tímto způsobem snížím časovou náročnost o jeden řád. Postupně načítám první a druhé mocniny pozorování a z nich snadno spočítám odpovídající reziduální součet čtverců. Vnašichdatechjsousinavícprvníadruhémocninyrovny,protožestále sčítám buď 1 nebo 0, což velmi zrychlí výpočet reziduí. Paměťová a časová náročnost ZlepšenýalgoritmussnížícelkovoupaměťovounáročnostvýpočtuzO(N 2 ) na((2 K+1) N).ČasovánáročnostutohotoalgoritmujeO(N 2 K) oprotio(n 3 K)uklasickéhopostupu. k=i k=i

276 266 Petr Novotný Závěr Navržený algoritmus umožňuje nejen podstatné zrychlení našeho výpočtu, ale zejména významné zvýšení maximální délky dělených dat. Obrovskou výhodou je možnost použití vektorového paralelního programování, která odsouvá počet dělení do pozadí našeho zájmu. Další zlepšení při hledání optimálního dělení již zřejmě není možné, zbývá jen problematická heuristika. Reference [1] Braun J.V., Braun R.K., Müller H.-G.(2000). Multiple changepoint fitting via quasilikelihood, with application to DNA seqvence segmentation. Biometrica87,2, Poděkování: Děkuji prof. Jaromíru Antochovi CSc. za všestrannou podporu a neocenitelné rady k obsahu i formě. Adresa: P. Novotný, KPMS, Sokolovská 83, Praha 8 reter@centrum.cz

277 ROBUST 2004 c JČMF 2004 THE TEST OF FULL SPECIFICATION OF THE NORMAL DISTRIBUTION Marek Omelka Keywords: Testing statistical hypothesis, Bahadur efficiency. Abstract:Forarandomsample X 1,...,X n fromthenormaldistribution N(µ, σ 2 )wetestthehypothesis H:(µ, σ 2 ) T =(0,1) T against K:(µ, σ 2 ) T (0,1) T.Nexttothreeclassicaltests Likelihoodratiotest,WaldtestandRao score test, we consider also special tests which were suggested for this problem in the literature. Within these tests we will be especially interested in the test which locally maximizes the average power, Isaacson s approximation of the type D test and test based on Fisher s combination of independent statistics. We investigate both local and global properties of these tests. The Monte Carlo study confirms the importance of the condition of local unbiasedness ofthetest.wealsoshowthebahadurefficiencytobeagoodconceptofthe global performance of the test in this problem. 1 Introduction Let X 1,...,X n beasamplefromthenormaldistribution N(µ, σ 2 ),where bothparametersareunknownandwewanttotestthenullhypothesisthat theparameters(µ, σ 2 )equaltosomeprescribedvalues(µ 0, σ 2 0 ).Withoutloss ofgeneralitywecansuppose µ 0 =0and σ 2 0 =1.Ourproblemisalittle atypical, because in applications we are usually interested only in the location parameter and the scale parameter is nuisance. But we hope that this problem can be also of some practical interest. Although several tests have been proposed in the literature, no comparison of these tests leading to some practical recommendations is known to the author. And this is just the aim of this paper, which does not present any new theoretical results but may beofinterestforpeoplewhowouldliketotestthehypothesisofthefull specification of the normal distribution in practice. InSection2weexplainsomedefinitionsusefulforourproblemandthe Section3containstheresultsofourMonteCarlostudy.Andintheappendix we sketch the computation of the Bahadur slopes of the proposed tests. 2 Basic concepts and definitions ConsiderarandomsampleX=(X 1,...,X n )fromadistributionwithdensity f(x, θ)whichdependsontheunknownvectorparameter θ.let Hbeanull hypothesisaboutthisparameterandφbeatestfunctiondefinedonthe sample space which gives the probability of rejecting H when the sample X=xisobserved.Denote β Φ (θ)=e θ Φ(X)thepowerfunctionofthistest. Anaturalconditionimposedontestsofthesimplehypothesis H: θ=θ 0 againsttwo-sidedalternatives K: θ θ 0 isthatofthelocalunbiasedness:

278 268 Marek Omelka Definition2.1. Alevel αtestφissaidtobelocallyunbiased,ifthereexists >0suchthat β Φ (θ) αforall θwith0 < d(θ) <. Suppose that the power function is twice continuously differentiable,which isalwaystruewhentheunderlyingdensity f(x, θ)belongstotheexponential family of distributions) and denote the first and second derivative of the powerfunctionby β Φ (θ)and β Φ (θ)respectively.thenwecandefinetwo testswhichareinsomesenselocallyoptimal.thefirstonewasproposedby Isaacson[2] and is called type D test. This test maximizes the determinant ofthematrix { β Φ (θ 0 )}subjecttotheconditionsofsizeandunbiasedness. Thedisadvantageofthis test isthatit isverydifficult toconstruct.to overcome this inconvenience, Gupta and Vermaire[1] came up with the test which is also locally unbiased but which maximizes the trace of the matrix { β Φ (θ 0 )}.WeshallrefertothistestastheLMMPU(LocallyMostMean Powerful Unbiased) test. Remark.Wecaneasilyseethat β Φ (θ 0 )=0isthenecessaryconditionforthe testφofthehypothesis H: θ=θ 0 againsttwo-sidedalternativetobelocally unbiased. 3 Monte Carlo study Let X 1,..., X n beasamplefromthenormaldistributionwiththedensity f(x)= 1 1 e 2σ 2(x µ)2 2πσ,wherebothparameters µand σareunknown.set 2 θ=(µ, σ 2 ) T andconsidertesting H: θ=(0,1) T against K: θ (0,1) T.Let ˆθ=( X, S 2 ) T bethemaximumlikelihoodestimateoftheparameter θ,where X= 1 n n i=1 X iand S 2 = 1 n n i=1 (X i X) 2.TheFisherscorefunctionis l(x, θ)=( / θ)log L(X, θ)= and the Fisher information matrix is J n (θ)=e θ l(x, θ)l(x, θ) T = We shall consider the following tests: ( Xi µ σ 2, n (X i µ) 2 ) T 2σ 2+ 2σ 4 [ n σ n 2σ 4 ]. (1) 1. Likelihood ratio(lr) test with the test statistic LR=2{log L(X,ˆθ) log L(X, θ 0 )}=n X 2 + n(s 2 1 log(s 2 )). 2. Wald(W)testwiththeteststatistic WT=(ˆθ θ 0 ) T J n (ˆθ)(ˆθ θ 0 )= n X 2 S 2 + n(s2 1) 2 2 S 4. ThematrixJ n (ˆθ)issometimesreplacedwithJ n (θ 0 ).Butthiswould leadtoatestwhichwouldbealmostidenticalwiththeapproximated type test introduced later.

279 The test of full specification of the normal distribution Raoscore(RS)testwiththeteststatistic RST=l(X, θ 0 ) T J n (θ 0 ) 1 l(x, θ 0 )=n X 2 + n ( X2 2 + S 2 1 ) ApproximatetypeD(AD)test withtheteststatistic AD= n X 2 + n 1 2 ( ) ns 2 2 n 1 1. ThistestwasproposedIsaacson[2],ashewasnotabletoconstructthe typedtest. 5. LMMPUtest([1])withthecriticalregion ( X2 + S 2 C ) 2 +4 X2 K 2, where constants C, K are determined subject to the conditions of size and unbiasedness. 6. Fishertest:LetΦstandforadistributionfunctionofastandardnormal variableand G p foradistributionfunctionofavariablewithaχ 2 - distributionwith pdegreesoffreedom.thefishertestisbasedonthe statistic Fisher= 2log { 2[1 Φ( n X n )] } 2log {1 G 2 [ 2log(H n )]}, where H n =2 G n 1 (ns 2 )if ns 2 G n 1 or H n =2 [ 1 G n 1 (ns 2 ) ] otherwise,and G n 1 standsforthemedianofthedistribution G n 1. This construction is known as Fisher s method of combining independent test statistics.underthenullhypothesisthestatistic Fisherhas χ 2 -distribution with4degreesoffreedom.thetestisaonesampleanalogueofthetestof Littel and Folks[3] who were dealing with the two sample problem. Analogouslyasin[3],itcanbeshownthatourtestisoptimalinthesenseofthe Bahadur efficiency. Itisworthnotingthatalltheseteststrytocombinetheinformation from Xand S 2.Itisnotsosurprisingasthepair( X, S 2 )formstheminimal sufficient statistics for the normal distribution when both parameters are unknown. Weprescribethesize α=0.05andfixthesamplesize n=20.itiswell knownthatunderthenullhypothesisthestatistics LR, WT, RSandalso AD haveasymptoticallythe χ 2 -distributionwith2degreesoffreedom.inpractice we mostly approximate the critical values of these tests by the asymptotic ones. In[4] is shown that this approximation works fine with the exception ofthewtest.buttomakethecomparisonofthetestsfair,inthesequelthe estimatesofthetruecriticalvaluesareusedensuringthatallthetesthave approximately the size Atfirst,letusnowlookatlocalpropertiesoftheproposedtests.For convenience we will denote the first and second derivatives of power functions

280 270 Marek Omelka Test β2 β11 β22 det{ β Φ } tr{ β Φ } LR W RS AD LMMPU Fisher Table1:Thederivativesofthepowerfunctionsofthetestsat θ 0 samplesize n=20. oftestsat θ 0 as β i = β Φ(θ) θ i θ=θ0 and βij = 2 β Φ (θ) θ i θ j. θ=θ0 These derivatives can be easily estimated by the means of Monte Carlo simulation([4])andaregivenintable1.thetabledoesnotincludethevaluesof derivatives β 1, β 12 (= β 21 ),sincetheirvaluesarezeroforeachofconsidered tests. Firstly,weshouldnotethat thew, RS,andADtest arenotlocally unbiased.inagreementwiththeasymptoticresultsofpeers[5],thewtestis morepowerfulwhen σ 2 <1,andtheRStestismorepowerfulwhen σ 2 >1. ThisfactisalsoinagoodagreementwiththerelativeBahadurefficienyof thesetwotests.wecanalsoseethatthelmmpureallymaximizesthetrace ofthematrix { β Φ }andtheadtestmaximizesthedeterminantofthismatrix althoughitisonlyanapproximationofthetypedtest.whenestimatingthe derivatives of the power functions for larger sample sizes another apparent factisthattheratioofthesecondderivativestendstooneforanypair ofthelrtest,wtest,rstestandadtest.butthisisnottrueforthe LMMPUtestsandfortheFishertest,whoselocalperformanceseemstobe completely different. The LMMPU test seems being extremely sensitive to small departures of µ from the null hypothesis and much less sensitive to smalldeparturesof σ 2 thanthesefourtests.thisisnotsosurprisingbecause the LMMPU test gives more power in the direction where more information isavailable.andfromthefisherinformationmatrixin(1)wecanseethatin the direction of the location parameter µ we have twice as much information asinthedirectionofthescaleparameter σ 2.ThesensitivityoftheFisher testtosmalldeparturesof µisevenonlyaveragesize,andthistestseemsto bequiteinsensitivetosmalldeparturesof σ 2. Global properties After the local considerations, let us shortly consider also the global behavioroftheconsideredtests.someoftheresultsforthesamplesize n=20 canbefoundinfigures1and2.inthefirstfigurewecanseethepower functionsofthetests.the xand yaxesshowsthetruevalueofparameters.

281 The test of full specification of the normal distribution 271 Figure1:Theplotofthepowerfunctionsofthetests.Theplaneattheheight 0.05 represents the prescribed size α of the test; τ = log(σ). For the scale parameter the logarithmic transformation is used. In all of thepicturesofthisfigurethereisaplaneattheheightof z=0.05which representstheprescribedsize αofthetest.sotheareawherethisplaneis abovethesurfaceofthepowerfunctionmarksthepartoftheparameter spacewherethepowerofatestislowerthan α,whichindicatesthatthe testisdoingverybadlyforthetruevaluesoftheparametersintheseregion.

282 272 Marek Omelka LR LR W µ µ log(σ) log(σ) LR RS LR AD µ µ log(σ) log(σ) LR LMMPU LR Fisher µ µ log(σ) log(σ) Figure2:ThecontourplotofthedifferenceofthepowerfunctionoftheLR testwithrespecttothepowerfunctionsoftheothertests. NoticethatespeciallytheWTtestisdoingverybadlyfor σ 2 >0butalso theregionswheretherstestandadtestaredoingbadlyarenotnegligible. Tobeabletocomparethepowerofthetestsbuttoavoidlargetableswe drawfigure2.herewecanseethecontourplotofthedifferenceofthepower functionofthelrtestwithrespecttothepowerfunctionsoftheothertests. Becauseofthesymmetryofthepowerfunctionsintheparameter µ,only µ 0areconsidered.WeseeimmediatelythattheLRtesthasaverygood performance. Although this test is not uniformly most powerful, the lack of powerinthepartoftheparameterspaceissmallincomparisonwiththe excessofthepowerintherest.thisisespeciallytrueforthew,rs,and AD, which are not locally unbiased. The only tests which are comparable with the LR test are the locally unbiased tests. Moreover, it is interesting that the

283 The test of full specification of the normal distribution 273 Fisher test behaves very well, despite the small values of the derivative of the power function. As a conclusion, we recommend to choose the LMMPU testifthesensitivitytothechangesinthelocationparameterisourmain interest.however,itisdifficulttocomputetheconstants C, Kofitscritical region. On the other hand, the preference between the LR and Fisher tests mightbeamatteroftaste.whilethelrtestdoesbetterfor σ 2 <1,the Fishertestispreferableintheoppositecase.Table1alsoconfirmsabetter local sensitivity of the LR test. However, the exact knowledge of the null distribution of the Fisher statistic strongly speaks in favour of this test, while the asymptotic critical value of the LR test, being used for small sample sizes, leads to the size exceeding 0.05(see[4]). Therefore, the Fisher test may be a slightly more convenient. Nevertheless, our conclusions are in a good accordance with the theory of testing statistical hypotheses, because both these two most advisable tests are optimal in the Bahadur sense. Appendix In the following we will compute the Bahadur slopes of the considered tests. Supposethatthenullhypothesis H: θ=θ 0 isrejectedforlargevaluesof ateststatistic T n,andthat 2 n log P θ 0 (T n t) f(t), foreveryt, (2) T n φ(θ), inprobabilityp θ, (3) for n,where f(t)isafunctionof t.thenthequantity e(θ)=f(φ(θ))is called the Bahadur slope of the test. Loosely speaking, the Bahadur slope measures how quickly the P-value of the test converges to zero under alternative for n. Inourproblemthe θ=(µ, σ 2 )so P θ istheprobabilitymeasureofthe normaldistribution N(µ, σ 2 )andthe T n canbeanyoftheteststatistics suitably normalized. At first we compute the Bahadur slopes for the LR, W, RSandADtest.Let p θ isthedensityofthedistribution P θ.thenitiswell known(seee.g.,[6])thattheupperboundforthebahadurslopeis2 K(θ, θ 0 ), where K(θ, θ 0 )isthekullback-leiblerinformationnumberdefinedby K(θ, θ 0 )=E θ log p θ p θ0 = 1 2 ( log(σ2 ) 1+σ 2 + µ 2 ). LR Nowdenote φ LR (P θ )=plim n n = µ2 + σ 2 1 log(σ 2 ).Similarly φ W (P θ )= µ2 σ + (σ2 1) 2 2 2σ, φ 4 RS (P θ )=µ (µ2 + σ 2 1) 2 and φ AD (P θ )= µ (σ2 1) 2.Tocalculatethelimit(2)weuseSanov stheorem(see[6] pp )andfortheLRtestweget f LR (t)=2 inf φ LR(P θ ) t E θlog p θ p θ0 = inf φ LR(P θ ) t ( log(σ2 ) 1+σ 2 + µ 2 )=t.

284 274 Marek Omelka Analogously we get f W (t)=inf φw(p θ ) t( log(σ 2 ) 1+σ 2 + µ 2 )= 1 2t f RS (t)=f AD (t)= 2t log( 2t+1). NowtheBahadurslopesofthetestsare 1 2t log e LR (θ)=f LR (φ LR (P θ ))=φ LR (P θ )=µ 2 + ( σ 2 1 log(σ 2 ) e WT (θ)=f WT (φ WT (P θ ))= 1 2t 1 1 2t log ) 2t 1 2t 1 ( 1 ) 2t 1 2t 1 t= µ 2 1) 2 σ 2+(σ2 2σ 4 e RS (θ)=f RS (φ RS (P θ ))= 2t log( 2t+1) t=µ (µ2 +σ 2 1) 2 e AD (θ)=f AD (φ AD (P θ ))= 2t log( 2t+1) t=µ (σ2 1) 2. TheBahadurslopeoftheFishertestcanbecomputedforexampleinthis way.atfirstweobtaintheindividualbahadurslopesoftheteststatistics X and S 2,whichare µ 2 and σ 2 1 log(σ 2 ),respectively.then,asnotedin[3], wecangetthebahadurslopeofthefishertestsimplybyaddingthesetwo slopes together. The author unfortunately does not know how to calculate the Bahadur slope ofthelmmputest. References [1] Gupta A.S., Vermeire L.(1986). Locally optimal tests for multiparameter hypotheses. J. Amer. Statist. Assoc. 81, [2] Isaacson S.L.(1951). On the theory of unbiased tests of simple statistical hypothesis specifying the values of two or more parameters. Ann. Math. Statist.22, [3] Littel R.C., Folks J.L.(1976). A test of equality of two normal population meansandvariances.j.amer.statist.assoc.71, [4] Omelka M.(2004). The behavior of locally most powerful tests. To appear in Kybernetika. [5] Peers H.W.(1971). Likelihood ratio and associated test criteria. Biometrika58, [6] van der Vaart A.W.(1998). Asymptotic statistics. Cambridge University Press. Acknowledgement: The author would like to thank Prof. J. Jurečková for all thesupporthegetsfromher.theworkwassupportedbythegrantgačr 201/03/0945 and by the Research plan MSM Address: M. Omelka, Department of Probability and Mathematical Statistics, Charles University in Prague, Sokolovská 83, CZ Prague 8, Czech Republic omelka@karlin.mff.cuni.cz

285 ROBUST 2004 c JČMF 2004 TESTY A ODHADY PARETOVA INDEXU Jan Picek Klíčová slova: Paretův index, rozdělení extrémních hodnot, sféra přitažlivosti, Hillův odhad. Abstrakt:Nechť X 1, X 2,...jsounezávisléstejněrozdělenénáhodnéveličiny sdistribučnífunkcí Fanechť M n =max(x 1,..., X n ).Provětšinuobvyklých distribučníchfunkcívhodněstandardizovanámaxima M n konvergujívdistribucikrozděleníextrémníchhodnot G γ.podlehodnotshapeparametru γ rozlišujeme tři základní třídy distribučních funkcí: γ > 0 Fréchetova třída, γ =0Gumbelovaaγ <0Weibullova.Zhlediskaextrémníchudálostí je především zajímává třída Fréchetova, γ se v tomto kontextu často nazývá Paretovým indexem. V příspěvku se proto budeme zabývat semiparametrickýmiodhady γpředevšímprotutotříduatestyoγ,zvláštěsebude jednatotestyhypotézy γ=0protialternativě γ >0,tj.náhodnývýběrje z rozdělení, který patří do Gumbelovy třídy proti alternativě, že rozdělení je z Fréchetovy třídy. 1 Úvod Nechť X 1, X 2,...jsounezávisléstejněrozdělenénáhodnéveličinysdistribučnífunkcí F.Našepozornostvtomtočlánkubudesoustředěnanaextremálníudálosti.Nechťtedy M n =max(x 1,..., X n ).Zřejmědistribuční funkce M n je P(M n x)=p(x 1 x,..., X n x)=f n (x)s.j.. Jednodušejepotommožnéukázat,že M n x F s.j.pro n,kde x F :=sup{x IR:F(x) <1}. Tato skutečnost nám neposkytne příliš mnoho informace. Pokud se inspirujeme centrální limitní větou, jistě je přirozené se zabývat standardizovanými maximy. Předpokládejme,žemůžemenajítposloupnostreálnýchčísel a n >0ab n tak,žeposloupnost(m n b n )/a n konvergujevdistribuci,t.j. P((M n b n )/a n x)=f n (a n x+b n ) G(x), n, (1) pro nějakou nedegenerovanou d.f. G(x) Jestliže podmínka platí, říkáme, že F je ve sféře přitažlivosti G(domain of attraction) F MDA(G). Přirozeně nás patrně napadnou otázky: jak vypadá G,jaképodmínkymusí Fsplňovat,aby F MDA(G)ajakvolit a n a b n.odpověďnatytozákladníotázkymůžemenajítnapř.v[2].

286 276 Jan Picek Odpověď na první otázku známe už od roku 1928 Fisherova-Tippettova věta: Jestliže F MDA(G) potom G je typu jedné z následujících tří distribučních funkcí: { 0, x 0 Fréchet Φ 1/γ (x)= exp ( x 1/γ), x >0 γ >0 { { } exp ( x) 1/γ, x 0 Weibull Ψ 1/γ (x)= 1 x >0 γ <0 Gumbel Λ(x)=exp( e x ), x IR. Po vhodné reparametrizaci můžeme tyto tři třídy charakterizovat jediným rozdělením zobecněnéným rozdělením extrémních hodnot(generalized Extreme Value Distribution) { ( ) exp (1+γx) 1/γ γ 0 G(x)=G γ (x)= exp( e x ) γ=0, kde1+γx >0. Hodnota shape parametru γ > 0odpovídáFréchetovětřídě, γ =0 Gumbelově a γ < 0 Weibullově. Fisherova-Tippettova věta nám pak říká: jestliže vhodně standardizované maxima konvergují v distribuci k nedegenerované limitě, potom limitní rozdělení musí být rozdělení extrémních hodnot. Poznamenejme, že G je určena jednoznačně až na parametr polohy a měřítka. Je možné ukázat, že v podstatě všechny běžně uvažované spojité rozdělení splňují podmínku(1). Nežsezaměřímenavolbu a n a b n připomeňmeněkolikpojmůzklasické teorie extrémních událostí. Funkce h(t)na(0, )jepravidelněseměnícífunkce(regularlyvarying)v sindexem α IR(h R α ),jestliže h(xt) lim x h(x) = tα, t >0. Funkce L(t)na(0, )jepomalu seměnící funkce(slowlyvarying)v (L R 0 ),jestliže L(xt) lim =1, t >0. x L(x) V oblasti extrémních hodnot se často pracuje s kvantilovou funkcí chvostu ( U(t)=F ) =inf{y:f(y) 1 1/t}, t >0. t Věta1.1.a) F MDA(G γ )právěkdyž U(tx) U(t) lim = xγ 1 t a(t) γ prokaždé x >0, ajenějakákladnáfunkceaγ IR, a n = a(n), b n = U(n).

287 Testy a odhady Paretova indexu 277 b) F MDA(G γ ), γ >0právěkdyž prokaždé x >0sγ>0,tj. U R γ (a n = U(n)). Důkazadetailynapř.vdeHaanL.(1970). U(tx) lim t U(t) = xγ (2) Další a často používá charakterizace Fréchetovy třídy: F MDA(G γ ), γ > 0právěkdyž1 F(x) R 1/γ,tj. chvost rozdělení Fjepravidelněseměnícífunkcev sindexem 1/γ 1 F(x)=x 1/γ L(x). (3) Statistickou inferenci v extremální statistice můžeme založit na základě limitního rozdělení, tj. na zobecněném rozdělením extrémních hodnot např. pomocí metody maximální věrohodnosti. Ukazuje se, že konvergence je však velmi pomalá, proto je nutné hledat alternativní přístupy. V následujícím textu ukážeme některé možné semiparametrické přístupy. 2 Testy Případ F MDA(G 0 )jezajímavýpromnohoaplikací,kterésezabývajíextrémy. Důvodem je nejen jednodušší inference založená na Gumbelově sféře přitažlivosti, ale také široká paleta rozdělení s exponenciální chvosty. Jako zástupce jmenujme normální, lognormální a gamma rozdělení. Na druhé straně opravdu extrémní události jsou modelovány pomocí rozdělení z Fréchetovy třídy. Je tedy určitě v praxi užitečné rozhodnout do jaké třídy rozdělení našich dat patří. To znamená uvažovat následující test oboustranné hypotézy (respektive anologický jednostranný test) F MDA(G 0 ) protialternativě F MDA(G γ ) γ 0. (4) Asi nejpoužívanější test pro tuto situaci navrhli Hasofer A.M. and Wang Z. v roce Najdeme ho implementovaného v řadě softwarů pro statistiku extrémních událostí. Test jako většina semiparametrických postupů je založen na k největších pořádkových statistikách: k ( ) 2 X k X n k+1:n W k = (k 1) k ( ) 2, X k := 1 i=1 Xn i+1:n X k k k X n i+1:n. (5) HasoferaWangukázali,žetestovástatistika W k máasymptotickynormální rozdělenísestředníhodnotou µ k arozptylem σ 2 k µ k = 1 (k 1), σ2 k= i=1 4(k 2) (k 1) 2 1 (k+1)(k+2)

288 278 Jan Picek Kritický obor pro oboustrannou alternativu je potom dán následovně W k > u 1 α/2, kde W k :=(W k µ k )/σ k a u ε je ε-kvantilnormálníhorozdělení. Při praktickém provádění testu jistě narazíme na problém, jak zvolit vhodné k. Pokud budeme k zvyšovat, zvýšíme sílu testu, ale na druhé straně zvyšujícísepodíl k/nmáneblahývlivnachybui.druhu.volbasepakstává dojistémíry alchymií,nicméněvliteratuřeexistujídoporučení,např.boos navrhuje k/n=0.2pro50 n 500ak/n=0.1pro500 < n 5000,Galambosradívolit k=2 n. PodobnýtyptestunavrhliC.Neves,J.PicekaM.I.FragaAlves(2005). Jako testovou statistiku uvažují T k,n= 1 k X n:n X n k:n log k. (6) k (X n i+1:n X n k:n ) i=1 Ukázali,žetestovástatistika T k,n zanulovéhypotézykonvergujekgumbelovurozdělení G(x)=exp( e x )ažetestjekonzistentní.nulováhypotéza jetedyzamítnutanaasymptotickéhladině α (0,1)jestliže T k,n < g α/2 nebo T k,n > g 1 α/2, kde g ε označuje ε-kvantil Gumbelova rozdělení, tj. g ε = log( log ε). Jako poslední přístup pro test(4) uveďme poměrně nedávný přístup J. Segerse a J.Teugelse(2001). Vychází z poměru uvažovaném Galtonem(1902): G n = X n:n X n 2:n X n 1:n X n 2:n Náhodnývýběrorozsahu njerozdělendo mskupin m i=1 n i= n.vkaždé je spočítán poměr ξ i = X(i) n i:n i X (i) n i 2:n i X (i) n i 1:n i X (i) n i 2:n i, 1,, m Podle Serflinga(1980), Segers a Teugels navrhují užít testovou statistiku ( S m = 5 m 2 6x T(ξ i )), T(x):=1 m (1+x) 2, (7) i=1 aukazují,žezanulovéhypotézykonvergujekχ 2 1rozdělenípro m. Nulová hypotéza je tedy zamítnuta na asymptotické hladině α, je-li S m > χ 2 1 (1 α),kde χ2 1 (ε)označuje ε-kvantil χ2 rozdělenís1st.vol.

289 Testy a odhady Paretova indexu Numerická ilustrace Zkusme ilustrovat chování výše uvedených testů na simulovaných datech a na jednom reálném příkladu. Nejprve jsme uvažovali platnost nulové hypotézy(4), tj. jako zástupce z Gumbelovy sféry přitažlivosti jsme zvolili Gumbelovorozdělení F(x)=exp( e x ).Ztohotorozděleníjsmevygenerovali 1000 výběrorozsahu1000aprovedlivýšeuvedenétesty.naobr.1jsou zobrazeny výsledky ve formě relativního počtu zamítnutí nulové hypotézy na hladině α=0.05.testy(5)a(6)bylyprovedenypro k=2,...,999(počet použitých nejvyšších pořádkových statistik). Test(7) byl konstruován tak, ževýběrbylrozdělendo50(=m)blokůorozsahu20.obr.1vlastněilustrujeodhadchybyprvníhodruhu.jevidět,žeodhadtétochybyprotest (7) je prakticky 0.05, pokud přijmeme výše zmiňovaná doporučení pro volbu k,potomtesty(5)a(6)majíodhadtakéblízký0.05.nicméněsezdá,že test(6)dovolívolitvětšírozsah kanižbytomělovýraznývlivnachybui. druhu. Testovali jsme i jiná rozdělení z Gumbelovy sféry přitažlivosti i pro jiné rozsahy, charakter křivek byl podobný s jedinou výjimkou a to exponenciálním rozdělením, pro které odhad chyby prvního druhu byl stabilní(blízko hodnoty 0.05) prakticky pro všechna možná k Obrázek1:Relativnípočetzamítnutí H 0 nahladině α=0.05progumbelovo rozdělení, T k,n (plnáčára), W k(tečkovaně), S 50 (čerchovaně). Jako další zástupce pro ilustraci bylo zvoleno zobecněné Paretovo rozdělení F γ (x):=1+log G γ (x)=1 (1+γx) 1 γ { x 0 jestliže γ 0 pro 0 x 1 γ jestliže γ <0 k

290 280 Jan Picek Toto rozdělení závisí na parametru γ. Podle jeho hodnoty patří rozdělení do jedné z uvažovaných tříd. Opět byl 1000 krát generován výběr o rozsahu 1000 pro hodnoty γ = 2.0,-1.5,-1.0,-0.5,-0.25,-0.1,-0.01, 0.01, 0.1, 0.25, 0.5, 1.0, 1.5, 2.0. Pokud se opět zajímáme o relativní počet zamítnutí nulové hypotézy, pak v tomto kontextu dostáváme představu o síle testů. Naobr. 2vidímesrovnáníprovšechnytřitestyvzávislostina γdata. Testy(5)a(6)bylyprovedenypro k=150,test(7)sm=50.vevšechtřech případech tak bylo použito 150 hodnot(i když ne nutně stejných) power gamma Obrázek2:Sílatestu: T 150,n (plná), W 150(čerchovaná), S 50 (tečkovaná)na hladině α=0.05prozobecněnépareto(γ= 2.0,-1.5,-1.0,-0.5,-0.25,-0.1, -0.01,0.01,0.1,0.25,0.5,1.0,1.5,2.0),rozsah n=1000. Vidíme,žezhlediskasílytestusenejlépechovátest(5),trochuhůře(6) a nejslabší je test(7). Ten byl nejslabší ve všech případech, které jsme zkoumali.testy(5)a(6)sepřílišnelišilyazáviselonakonkrétnívolbě k,rozdělení a rozsahu. Dokladem toho může být např. obr. 3, který zobrazuje závislost sílytestu navolbě kprozobecněnéparetorozdělenísγ=1.0 Co se týče asymptotických vlastností a předpokladů všechny tři testy jsou rovnocenné, na druhou stranu vidíme, že pokud máme i poměrně velký rozsahdat,rozdílynajítmůžeme.nejslabšímtestemsezdábýtdojistémíry(7). Test(5)jevpraxipatrněnejpoužívanější,alezdáse,že(6)jeplněsrovnatelný. Podívejmesetéžnatestynareálnýchdatech.Vposlednídoběsevede diskuse, že počasí nabývá extrémního chování. Jedním z mnoha charakteristik tohoto chování počasí mohou být např. extrémní srážky. V České Republice jsou k dispozici data na řadě stanic od roku Extrémní srážky můžeme

291 Testy a odhady Paretova indexu power k Obrázek3:Sílatestu: T k,n (plnáčára), W k(čerchovaná), S 20 (tečkovaná)na hladině α=0.05provzávislostina k,rozsah n=200prozobecněnépareto rozdělenísγ=1.0(vpravo) Obrázek 4: Maximální třídenní úhrny srážek v letech ve Valašském Meziříčí. třeba charakterizovat maximálními třídenními úhrny srážek v daném roce (takovétodatamělautorkdispozici).naobr.4vidímetytodataprostanici ve Valašském Meziříčí. Velmi dobře je vidět výjimečný rok 1997, který přinesl velké záplavy na Moravě. Je otázkou pro další statistické úvahy, jaký základní model je pro tuto veličinu

292 282 Jan Picek (maximálními třídenními úhrny srážek v daném roce) vhodný, tj. Gumbelova nebo Fréchetova třída. Výsledky testů jsou graficky zobrazeny na obr. 5, kde vodorovné čáry odpovídají příslušným 97.5%-ním kvantilům pro oboustranný test. Vidíme, že zamítnutí nulové hypotézy je velmi problematické, zamítáme pouzeprovětšíhodnoty katohlavnětestem(6),vidělijsmezesimulací,že větší k nedávají dobré výsledky co se týče platnosti nulové hypotézy. Hlavnímproblémemtujevšakvelmimalýpočetpozorování(n=40),kterýje v aplikacích týkajících se extrému nedostatečný, ale bohužel v praxi častý Obrázek5:SrážkyveValašskémMeziříčí:Hodnoty T k,40 (plná), W k(tečkovaná), S 8 (čerchovaná).vodorovnélinkyoznačujípříslušnékvantilyodpovídající α=0.05. Další testy, které byly v poslední době konstruovány, uvažují hypotézy ohodnotáchparametru γ(jak těžké jsoutěžkéchvosty)pro F MDA(G γ ), γ >0,viz[11],[16].OtěchtotestechbyloreferovánonaRobustu2000.Pokud se budeme zabývat úvahami o hodnotách γ, pak mnohem bohatší je literatura věnovaná odhadům. Proto následující část tohoto příspěvku věnujeme právě jim. 3 Odhady Připomeňme,ževycházímeznáhodnéhovýběru X 1, X 2,...zrozdělenísneznámoudistribučnífunkcí F.Pokud F MDA(G γ ), γ >0,pakpatrně nejznámějšíodhadem γjehillůvodhadzroku1975[8]: H n (k)= 1 k 1 log X (n i:n) log X (n k:n). (8) k i=0

293 Testy a odhady Paretova indexu 283 Ukažme návrh jedné z možných cest jeho odvození. Vyjděme z charakterizace Fréchetovy třídy(2): U(tx) lim t U(t) = xγ,kde U(t)=F 1 (1 1/t). Pozlogaritmovánídostanemelim t log U(t/x) log U(t)= γlog x. Výběrováverzekvantilovéfunkcechvostu U je U n (1/x)=Fn 1 (1 x)= X n(1 x),n,tj. U n ( n k )=X n k,na U n ( n kx )=X n kx,n.tedypro0<x<1je log X n kx,n log X n k,n = γlog x.potéintegrujme γ= γ 1 0 log xdx= lim Dostaneme tak možný odhad γ H n (k) = 1 0 k 1 t 1 0 {logu(t/x) log U(t)} dx. (log X n kx,n log X n k,n ) dx = 1 log X (n i:n) log X (n k:n) k i=0 Hillův odhad je konzistentní, tvrzení najdeme např. v[13]. Věta 3.1. Je-li F MDA(G γ ), γ >0,potom H n (k) γvpravděpodobnosti, k=k(n), k(n)/n 0(n ). Pokud nás zajímá asymptotické rozdělení odhadu, musíme klást další podmínky na distribuční funkci, abychom byli schopní ho odvodit. Nejčastěji se uvažuje následující podmínka(regular variation of second order): Nechť existuje A(t) funkce konstantního znaménka a parametr ρ lim t U(tx) U(t) xγ A(t) = x γ xρ 1 ρ (9) provšechna x >0. Věta 3.2. Nechť podmínka(9) platí a nechť posloupnost k = k(n) je taková, že k(n) a ka(n/k) 0,potom k(hn (k) γ) jeasymptotickynormálnísnulovoustředníhodnotouarozptylem γ 2.

294 284 Jan Picek (( M(k) (1) ) 2 ) 1, (10) M(k)=1+M(k) (1) M(k) (2) 1 kde M(k) (j) = 1 k ( ) j log X(Nn i+1:nn) log X (Nn k:nn). k i=1 Alternativou momentového odhadu je Pickandsův odhad[17] P(k)= 1 ( ) log2 log XNn k+1:nn X Nn 2k+1:Nn. (11) X Nn 2k+1:Nn X Nn 4k+1:Nn Výše uvedené odhady jsou patrně nejznámější, v literatuře existuje obrovské množství dalších odhadů: různá zobecnění Hillova odhadu, odhady založené naparametrudruhéhořádu ρ,viz(9)amnohoamnohodalšíchalternativ. Uveďmealespoňjedenpříklad,kterývycházíz(9)auvažuje,že ρ= 1. NavrhlihoGomesaMartinvroce2002,viz[9]. GM(k)= 1 k k U i i=1 ( 1 k k i=1 ) k i=1 iu (2i k 1)U i i k i=1 i(2i k 1)U, i [ U i = i log X ] Nn i+1:nn, (12) X Nn i:nn Stejně jako u testů je problém volby k, lze řešit podobnými doporučeními nebo se uvažují postupy založené na bootstrapu- viz např.[10]. Pokuduvažujeme F MDA(G γ ), γlibovolné,paklze analogickyodvodit Momentovýodhad[1] Pokudsepodívámedodomácíchluhůahájů,takitadynajdemepříspěvekkekonstrukciodhadůparametru γzapodmínky F MDA(G γ ), γ >0. Tyto odhady nejsou založeny přímo na pořádkových statistikách na rozdíl od předcházejících. Vychází se opět z určité charakterizace Fréchetovy třídy: log(1 F(a)) lim =1. (13) a mloga Aplikací l Hospitalova pravidla z von Mises podmínek(viz Embrechts a kol., Kap.3),dostaneme,že1 F(x) = x m L(x),cožjecharakterizaceuvedená v(3). Platí i opačná implikace. Principem spočívá v rozdělení výběru do skupin, v každé je spočtena nějaká jednoduchá statistika. Výsledný odhad je konstruován na základě empirické distribuční funkce sledované statistiky.

295 Testy a odhady Paretova indexu 285 O prvním typu odhadu referovala na Robustu 2000 A. Fialová: Rozdělíme pozorování do N nepřekrývajících se výběrů rozsahu n a určíme zde průměry ( X n (1),..., X n (N) ). Dostaneme pak náhodný výběr z rozdělení s distribuční (N) funkcí F Xn (x)=ip( X n x).označíme F X n (x) = 1 N (j) N j=1 I[ X n x] empirickoudistribučnífunkcízaloženouna( X n (1),..., X n (N) ). Vyberme posloupnost {a N } N=1, a N pro N vetvaru a N = N 1 δ m 0,spevným δ (0,1). Odhadparametru m=1/γjepotom kde m N = m N (a N )I[0 < F (N) X n (a N ) <1]+m 0 I[ F (N) X n (a N )=0 nebo1], (14) m N (a)= ( ) (N) log 1 F X n (a), a >0. log a Odhad(14) je konzistentní a jeho asymptotické rozdělení je normální, viz následující věty. Věta3.3. Nechť {X 1, X 2,...}jeposloupnostnezávislýchstejněrozdělených náhodnýchveličinsdistribučnífunkcí F MDA(G γ ), γ >0ahustotou f(x)=0pro x <0a0 < f(x) < for x K f 0.Nechť m N jeodhad m. Potom m N m spravděpodobností 1, pro N. Věta 3.4. Za podmínek předcházející věty posloupnost ( )1 1 N 1 2 log F Xn (a N ) ( m 2 an N m+ log ) L (a N ) F Xn (a N ) log a N je asymptoticky normální N. Důkazyobouvětlzenaléztv[4].NarozdílodHillova(aidalšíchvýše zmíněných) odhadů je asymptotické rozdělení odvozeno za mnohem slabších předpokladů.bohuželvýsledekvěty3.4obsahujepomaluměnícísefunkci L, kterou zpravidla neznáme, není proto možné jednoduše výsledku využít např. pro konstrukci intervalových odhadů. Pro tento odhad musíme zvolit δ, což je vlastně podobná úloha jako je určení vhodného k pro předcházející odhady, navícje všaknutné zvolit m 0,cožvyžadujenějakoupočáteční informaci otom,jakchvostrozdělenímůžebýt těžký.toponěkudomezujeužití odhadu pro praktické problémy. Ilustrujme na simulovaných datech na chování odhadu právě v závislosti navolbě δ a m 0.JakomodeldatpoužijemeParetovorozdělení,kteréje jedním z typicky používaných rozdělení pro popis extrémních událostí: ( ) 1/γ 1 F(x)=1, x 0 (15) 1+x

296 286 Jan Picek KonkrétněbylasimulaceprovedenaproParetovorozdělenísγ=1,cožje i hodnota, kterou chceme odhadnout. Výsledek můžeme vidět na obr. 6, zkteréhovyplývá,žepokudjezhruba δ <0.4jeodhadpoměrněstabilnía rozumný. Pro velké hodnoty δ odhad naprosto selhává. Zároveň je vidět, že čímhoršímámeapriorníinformaciosprávnéhodnotě γ=1/m,tímdostaneme horší výsledek. estimate % 75% 50% 25% 1% estimate % 75% 50% 25% 1% delta m_0 Obrázek 6: Závislost odhadu v 1000 simulovaných výběrech Paretova rozdělenísγ =1naparametru δprodané m 0 =1.5(vlevo)závislosthodnot odhadunaparametru m 0 pro δ=0.1(vpravo).uvedenyjsoumedián1,25, 75 a 99 percentily. Jurečková, Picek(2004) navrhli odhad vycházející z postupů pro testování hypotézyohodnotáchparametru γ pro F MDA(G γ ), γ > 0.Krátká poznámka o nich byla v předcházející kapitole. Invertováním těchto testů (v duchu způsobu, který užil Hodges a Lehmann v roce 1963) dostaneme odhad M N = 1 2 (M+ N + M N ), kde M N =sup{s: 1 ˆF N (a N,s)) < N (1 δ) }, M + N =inf{s: 1 ˆF N (a N,s)) > N (1 δ) }. X (1) (n),...,x(n) (n) jsou odpovídající výběrová maxima N skupin o rozsahu n, kterévzniklyrozdělenímpůvodníhonáhodnéhovýběru.jakoˆf N označujeme empirickoudistribučnífunkciodpovídajícívýběrovýmmaximům, a N,m = (nn 1 δ ) 1/m,kde0 < δ < 1 2 jekonstanta. Ilustrujme podobně jako u předcházejícího odhadu chování v závislosti na volbě δ. Jako model dat tentokráte použijeme Burrovo rozdělení, které je dalším typicky používaným rozdělením pro popis extrémních událostí: ( F(x)=1 1 1+x 1/γ ) α, x 0 (16) KonkrétněbylasimulaceprovedenaproBurrovorozdělenísγ=1, α=1, jednička je opět hodnota, kterou chceme odhadnout. Výsledek můžeme vidět

297 Testy a odhady Paretova indexu 287 naobr.7,zkteréhovyplývá,želepšívýsledekdostaneme,pokudje δblízké 0.5. Neplatí to obecně, pro jiná rozdělení to může dopadne úplně opačně. Na druhou stranu volba δ není tak problematická jako volba k u Hillova odhadu, vizobr.8,kdenastejnýchdatechjespočítánhillůvodhad. odhad % 25% 50% 75% 95% delta Obrázek 7: Závislost odhadu v 1000 simulovaných výběrech Burrova rozdělení s γ=1, α=1naparametru δ.uvedenyjsoumedián5,25,75a95percentily. odhad % 25% 50% 75% 95% k Obrázek 8: Hillův odhad v 1000 simulovaných výběrech o rozsahu 1000 v závislostina kproburrovorozdělenísγ=1, α=1.uvedenyjsoumedián5, 25,75a95percentily.

298 288 Jan Picek Jurečková a Picek ukázali v[12], že odhad je silně konzistentní. Asymptotickou normalitu odvodil Omelka[15]. Odhad(16) potřebuje pouze volbu δ, což ho činí použitelnějším než odhad(14). I simulace dávájí poměrně dobré výsledky- viz dále, přesto však musíme být v praktických aplikacích velmi opatrní. Oba odhady nejsou invariatní vzhledem ke změně měřítka na rozdíl od odhadu Hillova(8), Pickandsonova(11), momentového(10) i(12). Všechny zmíněné odhady nejsou invaritní vzhledem ke změně polohy. Při mechanickémpoužitíodhadůtopotommůževéstk zajímavým výsledkům. Byly proto uvažovány některé modifikace Hillova odhadu, viz např.[3]. Nějaké poznámky, jak se s naznačeným problémem vypořádat pro odhad(16) učinil Omelka[15]. 3.1 Numerická ilustrace V této části zkusíme porovnat zmiňované odhady na simulovaných datech. Jako výchozí model použijeme dříve zmiňovaná rozdělení: Paretovo, Burrovo a zobecněné Paretovo. U všech tří rozdělení zvolíme shape parametr(γ = 1/m=1)tak,abychvostybyly stejnětěžké amohlitaksledovatvliv rozdělení. U zobecněného Paretova zvolíme ještě další dvě hodnoty γ: 1/3 lehčía2 těžšíchvost. Zdanéhorozděleníjsmevygenerovali1000 výběrorozsahu1000aprovedli výše zmíněné odhady. Odhady(8),(11),(10) a(12) jsme spočítali pro k=2,...,998.proodhady(14)a(16)jsmeprovedlirozdělenído200skupin (= N)po5hodnotách(= n)aspočítaliodhadpro δ=0.01,...,0.50skrokem0.01,navícpro(14)za m 0 jsmezvolili skutečné 1/γ+1.Zaúčelem porovnání jsme pro každé k, respektive δ spočetli střední kvadratickou chybu (MSE)avybralitakovouhodnotu k(δ),kdyjemseminimálníaspočítali nějaké výběrové charakteristiky z tisíce získaných hodnot odhadů. Výsledky najdemevtabulce1.odhad(14)jevníoznačenjakofjpa(16)jakojp. Tučně je zvýrazněna pro dané rozdělení minimální MSE mezi odhady. Můžeme si všimnout, že pro opravdu těžké chvosty, tj. pro všechny případy kromě zobecněného Paretova rozdělení s γ = 1/3, dávají všechny odhady v průměru rozumné výsledky. Nejslabší se přesto zdá být odhad(14) a protože byly už některé výhrady diskutovány dříve, nelze ho doporučit pro praktické úlohy. Naopak odhad(16) je srovnatelný s klasickými, navíc pro lehčí chvosty dává často rozumnější výsledky než klasické odhady. Zdá se tedy, že s ním lze pracovat minimálně jako vhodnou alternativou. Ztabulkyjedálevidětadalšísimulaceprojinépřípadyarozdělenítojen potvrzují, že index lehčích chvostů se odhaduje mnohem hůře. Překvapující je výsledek Pickandsova odhadu(alespoň pro autora tohoto příspěvku), protože tentoodhadbymělfungovatproodhadnejenvefréchetovětřídě,aleipro GumbelovuaWeibullovusférupřitažlivosti,tedyipro lehké chvosty.

299 Testy a odhady Paretova indexu 289 rozdělení metoda k, δ MSE průměr medián rozptyl Pareto Hill k = γ=1 Moment k= Pickands k = Gomes k = FJP δ = JP δ = Burr Hill k = α=1 Moment k= γ=1 Pickands k= Gomes k = FJP δ = JP δ = zobec. Hill k = Pareto Moment k = γ=2 Pickands k= β=1 Gomes k = FJP δ = JP δ = zobec. Hill k = Pareto Moment k = γ=1 Pickands k= β = 1 Gomes k = FJP δ = JP δ = zobec. Hill k = Pareto Moment k = γ=1/3 Pickands k= β = 1 Gomes k = FJP δ = JP δ = Tabulka 1: Výběrové charakteristiky odhadů Paretova indexu pro minimální MSE při 1000 opakování generování dat rozsahu 1000 pro různá rozdělení. Reference [1] Dekkers A.L.M, Einmahl J.H.J., de Haan L.(1989). A moment estimator for the index of an extreme value distribution. Ann. Statist. 17, [2] Embrechts P., Klüppelberg C., Mikosch T.(1997). Modelling extremal events for insurance and finance. Springer-Verlag, Berlin.

300 290 Jan Picek [3] Fraga Alves M.I.(2001). A location invariant Hill-type estimator. Extremes,4(2), [4] Fialová A., Jurečková J., Picek J.(2004). Estimation of tail index based onsamplemean.revstat,2, [5]deHaanL.(1970).Onregularvariationanditsapplicationtotheweak convergence of sample extremes. Mathematical Centre Tract 32, Amsterdam. [6] de Hann L., Stadtmüller U.(1996). Generalized regular variation of second order. J.Austral.Math.Soc.(A) 61, [7]HasoferA.M.,WangZ.(1992).Atestforextremevaluedomainofattraction.JASA,87, [8]HillB.M.(1975).Asimplegeneralapproachtoinferenceaboutthetailof a distribution. Ann. Statist. 3, [9] Gomes M.I., Martins M.J.(2002). Asymptotically unbiased estimators of the tail indexbased onthe externalestimation of thesecond order parameter.extremes5(1),5 31. [10] Gomez I., Oliviera O.(2001). The bootstrap methodology in statistics of extremes-choice of the optimal sample fraction. Extremes 4(4), [11]JurečkováJ.,PicekJ.(2001).Aclassoftestsonthetailindex.Extremes, 4,(2), [12]JurečkováJ.,PicekJ.(2004).Estimatesofthetailindexbasedonnonparametric tests. Theory and Applications of Recent Robust Methods, Birkhauser, Basel, [13] Mason D.M.(1982). Laws of large numbers for sums of extreme values. Ann.Probab.10, [14]NevesC.,PicekJ.,FragaAlvesM.I.(2005).Thecontributionofthe maximum to the sum of excesses for testing max-domains of attractions. J. Statist. Planning Infer., v tisku. [15] Omelka M.(2005). Asymptotic normality of the estimates of the tail index based on nonparametric tests. Zasláno. [16]PicekJ.,JurečkováJ.(2001).Aclassoftestsonthetailindexusingthe modified extreme regression quantiles. Sborník konference ROBUST 00 (J.Antoch, G.Dohnal, eds.), JČMF Praha, [17] Pickands J.(1975). Statistical inference using extreme order statistics. Ann.Statist. 3, [18] Segers J., Teugels J.(2001). Testing the Gumbel hypothesis by Galton s ratio. Extremes, 3:3, Poděkování: Příspěvek vznikl za podpory Grantové agentury AV ČR projekt B a výzkumného záměru MSM Adresa: J. Picek, Katedra aplikované matematiky, Technická univerzita v Liberci, Hálkova 6, Liberec jan.picek@vslib.cz

301 ROBUST 2004 c JČMF 2004 MODIFIKACE WHITEOVA TESTU PRO NEJMENŠÍ VÁŽENÉ ČTVERCE Pavel Plát Klíčová slova: Robustní regrese, nejmenší vážené čtverce, Whiteův test, heteroskedasticita. Abstrakt: Odhad regresních koeficientů v lineární regresním modelu metodounejmenšíchváženýchčtvercůjeodhadem n-konzistentnímasasymptoticky normálním rozdělením. Znalost těchto vlastností nám umožňuje modifikovat myšlenku H. Whita a získat tak pro nejmenší vážené čtverce modifikaci Whiteova testu homoskedasticity disturbancí. 1 Lineární regresní model Provšechny n Njelineárníregresnímodeldánvztahem Y i = x T i β 0 +e i, i=1,2,..., n, (1) kde Y i jevysvětlovanáproměnná, x i =(x i1,..., x ip ) T R p jsouvysvětlující proměnné nebo též nosiče(uvažujeme model s pevnými, to jest deterministickydanýminosiči). β 0 =(β1 0,...,β0 p )T R p je správný vektor regresníchkoeficientůae i, i=1,2,...,njsoudisturbance,toznamenánáhodnéfluktuace Y i odstředníhodnotye(y i ).Poznamenejme,žeformalismus, který jsme zavedli, je schopen zahrnout jak modely, kdy neuvažujeme intercept, tak modely s interceptem. Pokud totiž uvažujeme model s interceptem,stačípředpokládat,žeprvnísložkavšechvektorů x i, i=1,2,..., n jerovna1.provšechny β R p, i=1,2,..., noznačme r i (β)=y i x T i β i té reziduum za předpokladu, že β je vektor regresních koeficientů. Konečně pro pořádkové statistiky druhých mocnin reziduí budeme používat označení r(i) 2 (β), i=1,2,..., n.toznamená,žeprovšechny β Rp platí 0 r 2 (1) (β) r2 (2) (β) r2 (n) (β). 2 Definice ˆβ (LWS,n,w) Nejprve definujme váhovou funkci. Definice2.1.Nechťfunkce w:[0,1] [0,1]jenerostoucíaspojitána[0,1], w(0)=1aw(1) = 0.Dálenechťvevšechbodechintervalu(0,1)existují obějednostrannéderivacefunkce w,jsoustejněomezenéanechťvbodě0 resp. 1 existuje konečná derivace zleva resp. zprava. Potom funkci w nazveme váhovou funkcí. Nyní již přistupme k definici odhadu metodou nejmenších vážených čtverců.

302 292 Pavel Plát Definice 2.2. Nechť K R p jekompaktnímnožinaaplatí β 0 K o.dále nechť w je váhová funkce. Potom odhad regresních koeficientů daný vztahem ˆβ (LWS,n,w) = argmin β K n ( ) i 1 w r(i) 2 (β) (2) n i=1 nazveme odhad metodou nejmenších vážených čtverců. Označíme-li w (n,1) l ( l 1 = w n ) w ( l 1 n ), l=1,2,...,n, můžeme definiční vztah(2) jednoduchou úpravou převést na tvar ˆβ (LWS,n,w) = argmin β K n l=1 w (n) l n i=1 } ri(β)i {r 2 i(β) 2 r(l) 2 (β). Podobně označíme-li pro libovolné s N ( ) ( ) w (n,s) l 1 l l = w s w s, n n l=1,2,...,n, (3) platí následující vztah ( ) l 1 n w s = n l=1 3 Základní předpoklady } w (n,s) l I {r i(β) 2 r(l) 2 (β). (4) Dřívenežsebudemevěnovatasymptotickýmvlastnostemˆβ (LWS,n,w),shrňme předpoklady o náhodných disturbancích a nosičích, za kterých můžeme tyto vlastnosti dokázat. Nejprve označme F(z) distribuční funkci náhodné veličiny e 1 a f(z)jejíhustotu.dáleoznačme Q n = 1 n n i=1 x ix T i. Předpoklady A {e i } i=1 jeposloupnostnezávislých,stejněrozdělenýchnáhodnýchveličin. Prorozdělenípravděpodobnostináhodnéveličiny e 1 platí: Její distribuční funkce F(z) je absolutně spojitá. Hustota pravděpodobnosti f(z) je symetrická, omezená a ostře klesající na R +. Nacelém Rexistuje f (z)ajevabsolutníhodnotěomezená. E ( e 4 1) = κ4 R +. {x i } i=1 jeposloupnostpevných(nenáhodných)vektorůzrp aplatí:

303 Modifikace Whiteova testu pro nejmenší vážené čtverce 293 n x i 4 = O(n). i=1 lim n Q n= Q,kde QjeregulárnímaticezR p,p. Na první pohled se může zdát, že požadavky na rozdělení pravděpodobnosti náhodných disturbancí jsou příliš omezující. Musíme si nicméně uvědomit, že u klasických nejmenších čtverců požadujeme normalitu disturbancí, tedy dokonce ještě silnější podmínku. A není-li tato podmínka splněna(a stačí pouze malá odchylka od normality- viz[1]), jsou nejmenší čtverce optimální pouze ve třídě lineárních odhadů. To jinými slovy znamená, že můžeme (a často to není obtížné) nalézt nelineární odhad, který je lepší než nejmenší čtverce. 4 Asymptotickévlastnosti ˆβ (LWS,n,w) Označme Gdistribučnífunkcináhodnéveličiny e 2 1aprovšechny α [0,1] označme u 2 αhorní α kvantilrozdělení G(z),tzn. P(e 2 1 > u 2 α)=1 G(u 2 α)=α. Dáledefinujme ςz= 2 u z z 2 df(z). u z Věta 4.1. Nechť platí Předpoklady A. Dále nechť w je nějaká váhová funkce. Potom n (ˆβ(LWS,n,w) β 0) = O p (1) a ˆβ (LWS,n,w) máasymptotickynormálnírozdělenísvektoremstředníchhodnotrovným β 0 akovariančnímaticí 1 (ˆβ(LWS,n,w) ς1 z 0 V, F) 2 dw2 (z) = ( 1 ) 2 Q 1, (z 2u 1 z f(u 1 z ))dw(z) 0 tzn. n L( (ˆβ(LWS,n,w) β 0)) ( (ˆβ(LWS,n,w) ) N 0, V, F) pro n. Důkaz. [4]. Poznamenejme, že pro lineární regresní model s náhodnými nosiči můžeme obdobné výsledky nalézt v[3]. 5 Modifikace Whiteova testu Důkazy v této kapitole vyžadují o trochu přísnější požadavky na vysvětlující proměnné. Doplňme tedy předpoklady z oddílu 3.

304 294 Pavel Plát Předpoklady B Jsou splněny Předpoklady A sup x ij =O(1). i,j {1,2,...,n} Se zajímavou myšlenkou, jak testovat homoskedasticitu disturbancí v lineárním regresním modulu při použití klasických nejmenších čtverců přišel H.White(viz.[7]).Jehonápadspočívávtom,žeporovnámedvaodhadymatice σ 2 Q,konkrétněodhady 1 n n i=1 r2 i (ˆβ (LS,n) )Q n a 1 n n i=1 r2 i (ˆβ (LS,n) )x T i x i. Podobný trik můžeme použít i v případě nejmenších vážených čtverců. Vtomtopřípaděpůjdeodvarůznéodhadymatice σ 2 w Q,kdejsmeoznačili Dále označme a ˆV 1 =ˆσ 2 w,n Q n, ˆσ 2 w,n =1 n 1 σw 2 = n i=1 ˆV2 = 1 n 0 ς 2 1 z dw2 (z). ( ) i 1 w 2 r 2 (ˆβ(LWS,n,w) ) (i) n n i=1 Proodhadyˆσ 2 w,n,ˆv 1 aˆv 2 platínásledujícítvrzení. ( ) w 2 ki 1 r 2 (ˆβ(LWS,n,w) ) x i i x T i. n Lemma 5.1. Nechť platí Předpoklady B. Dále nechť w je nějaká váhová funkce. Potom Dále pak ˆσ 2 w,n P σ 2 w pro n. ˆV 1 P σ 2 w Q a ˆV2 P σ 2 w Q, pro n. Důkaz. Použijeme-li vztah(4) snadno dostáváme ˆσ 2 w,n = 1 n n i=1 r 2 i (ˆβ(LWS,n,w) ) n l=1 { w (n,2) l I ri 2 (ˆβ(LWS,n,w) ) )} r(l) 2 (ˆβ(LWS,n,w) Z n-konvergenciˆβ (LWS,n,w) alemmat3a10z[4]dostáváme(podrobnější postup při úpravě obdobných výrazů viz.[4]) ˆσ 2 w,n =1 n n n e 2 i i=1 l=1 { } w (n,2) l I e 2 i u2 + o 1 l p (1). (5) n

305 Modifikace Whiteova testu pro nejmenší vážené čtverce 295 Náhodnéveličiny e 2 { } n i l=1 w(n,2) l I e 2 i u2, i=1,2,....njsounezávislé 1 l n (viz. Lemma D.1), stejně rozdělené a platí ( n { } ) n ( { }) E e 2 i w (n,2) l I e 2 i u 2 = w (n,2) 1 l l E e 2 ii e 2 i u 2 = n 1 l n a Var ( l=1 n e 2 i l=1 = n l=1 l=1 1 w (n,2) l ς 2 (1 l)= n { w (n,2) l I e 2 i u 2 1 n} ) ( E e 4 l i 0 ς 2 1 z dw2 (z)+o(1) (6) n l=1 { w (n,4) l I e 2 i u 2 1 n} ) l E ( e 4 i) = κ4. (7) Zevztahů(5) (5)pakjižvyplývá,žeˆσ 2 w,n konvergujevpravděpodobnosti k σ 2 w. KonvergenceˆV 1 vpravděpodobnostikσ 2 w Qjenynípřímýmdůsledkem dokázanékonvergenceˆσ 2 w,napředpokladu lim n Q n=q. KonvergenceˆV 1 vpravděpodobnostikσ 2 w Qsepakdokážeanalogickým postupemjakokonvergenceˆσ 2 w,n. Označme nyní ψ is = x ik x il s=1,..., p(p+1)/2; k=1,...,p; l=1,..., p a i=1 ψ i R p(p+1)/2 vektorsesložkami ψ is.dálepakoznačme ˆB n = 1 n [ ( w 2 ki 1 n n a ˆD n = 1 n n i=1 ) ri 2 (ˆβ(LWS,n,w) ) ˆσ w,n 2 ] 2 ψ T i ψ i [ ( ) w 2 ki 1 r 2 (ˆβ(LWS,n,w) ) i ˆσ 2 n w,n] ψ i. kdečísla k i jsouprovšechna i=1,2,....ndefinovánavztahem r 2 i (ˆβ(LWS,n,w) ) = r 2 (ki) (ˆβ(LWS,n,w) ). Věta 5.1. Nechť platí Předpoklady B. Dále nechť w je nějaká váhová funkce ae ( e1) 8 <+.Potom ( ) L nˆd n T ˆB n 1 ˆD n χ 2 p(p+1)/2,

306 296 Pavel Plát Důkaz. Označme [ ˆD n= 0 1 n n e 2 i n a ˆB 0 n= 1 n i=1 [ n i=1 l=1 n e 2 i l=1 { } w (n,2) l I e 2 i u 2 1 l n 1 n { } w (n,2) l I e 2 i u 2 1 l n 1 n n n n e 2 j j=1 l=1 n e 2 j j=1 l=1 { } w (n,2) l I e 2 j u2 ψ 1 l i n { } 2 w (n,2) l I e 2 j u 2 ψ 1 l i T ψ i. n Z n-konvergenciˆβ (LWS,n,w) alemmat3a10z[4]dostáváme(podrobnější postup při úpravě obdobných výrazů viz.[4]) nˆdn = nˆd 0 n + o p(1). (8) Ukážeme,že nˆd n 0 p(p+1) máasymptoticky 2 rozměrné ) normální rozdělení s nulovou střední hodnotou a kovarianční maticí E (ˆB0 n.stačíkdyžukážeme(viz.lemmatud.2),žeprolibovolné η R p(p+1) 2 má náhodná veličina nη TˆD0 n asymptotickynormálnírozdělenísnulovoustředníhodnotou n l=1 w(n,2) l arozptylem { η } TˆB0 n η T.Využijeme-liopět,ženáhodnéveličiny e 2 i I e 2 i u2, i=1,2,..., njsounezávislé(lemmad.1)astejněrozdělené 1 l n dostáváme ( nη ) E TˆD0 n =0 a ( nη ) ( nη ) 2=E ( Var TˆD0 n =E TˆD0 n η TˆB0 n η T). Uvědomíme-lisi,žejednakprovšechny ω Ωje { } n l=1 w(n,4) l I e 2 i u2 1 l n 1, na druhou stranu ale díky vlastnostem váhové funkce w a skutečnosti, že f(z) ( >0provšechny z Rtakéexistuje γ >0tak,žeprovšechny n N jee e 4 { }) n 1 l=1 w(n,4) l I e 2 i u2 > γ, můžeme pro náhodné veličiny 1 l n n e 2 i l=1 { } w (n,2) l I e 2 i u l n n n n e 2 j j=1 l=1 { } w (n,2) l I e 2 j u 2 ψ 1 l i n

307 Modifikace Whiteova testu pro nejmenší vážené čtverce 297 ověřit platnost Feller-Linderbergovy podmínky a podle Centrální limitní věty (viz. např.[6]) tedy platí L nη TˆD0 n E (η TˆB ) N(0,1) (9) nη 0 T Konečněopětz n-konvergenciˆβ (LWS,n,w) alemmat3a10z[4]dostáváme (podrobnější postup při úpravě obdobných výrazů viz.[4]) ˆB n = ˆB 0 n+ o p (1) (10) a použijeme-li obdobný postup jako v důkazu Lemmatu 1 dostváme ˆB 0 n P ) E (ˆB0 n Zevztahů(8) (11)jižplynetvrzenívěty. pro n. (11) 6 Shrnutí V oddíle 4 jsme viděli, že za určitých předpokladů(předpoklady A) je odhad metodounejmenšíchváženýchčtverců(lws) n-konzistentní,asymptoticky normální a můžeme odvodit jeho asymptotickou reprezentaci. Jestliže dále připomeneme, že jde o odhad s potenciálně vysokým bodem selháním(více viz.např.[3]nebo[4]),jepatrné,želwsjsoumetodou,jejížvyužitímůže být při regresní analýze dat přínosné. Chceme-li ji však korektně používat, nemůžeme se vyhnout ověřování základních předpokladů. V oddíle 5 jsme pro LWS odvodili modifikaci jednoho z testů heteroskedasticity disturbancí používaného pro klasické nejmenší čtverce(ls), totiž Whiteova testu. Podobně jako v případě klasického Whiteova testu můžeme očekávat, že námi odvozená modifikace nebude citlivá pouze na porušení homoskedasticity, ale i dalších předpokladů. Dále je třeba také poznamenat, že u LWS, jakožto robustního odhadu očekáváme určitou odolnost vůči porušení základních předpokladů. Právě v případě požadavku na homoskedasticitu distubancí se ukazuje, že LWS se s určitou mírou heteroskedasticity dokáží poměrně dobře vyrovnat. To je důsledek faktu, že v případě LWS minimalizujeme součet vážených reziduí a právě toto vážení nám může pomoci vliv heteroskedasticity disturbancí potlačit. Námi navržená modifikace Whiteova testu pak vlastně více než heteroskedasticitu původních disturbancí testuje heteroskedasticitu zvážených disturbancí. Na jednu stranu musíme být tedy opatrní při interpretaci výsledku tohoto testu vzhledem k původním disturbancím, na druhou stranu takto postavený test nám může podat relevantní informaci, pokud jde o vhodnost použití LWS.

308 298 Pavel Plát Dodatek LemmaD.1.Nechť ζ 1 and ζ 2 jsounezávislénáhodnéveličinyau >0.Potom ζ 1 I{ ζ 1 < u}aζ 2 I{ ζ 2 < u}jsouopětnezávislénáhodnéveličiny. Důkaz Provedemepřímývýpočet.Nechť a 1 and a 2 jsoureálnáčísla.potom P(ζ 1 I{ ζ 1 < u} a 1, ζ 2 I{ ζ 2 < u} a 2 )= = P( u ζ 1 min{a 1, u}, u ζ 2 min{a 2, u}) = P( u ζ 1 min{a 1, u}) P( u ζ 2 min{a 2, u})= = P(ζ 1 I{ ζ 1 < u} a 1 ) P(ζ 2 I{ ζ 2 < u} a 2 ). LemmaD.2.(Štěpán(1987),page166,II.7.26)Náhodnývektor(Y 1,...,Y n ) má n rozměrné normální rozdělení s kovarianční maticí Γ právě tehdy, když náhodnáveličina Y T tmáprovšechny t R n normálnírozdělenísrozptylem t T Γt. Reference [1] Fisher R.A.(1922): On the mathematical foundations of theoretical statistics.philos.trans.roy.soc.londonser.a222, [2] Chatterjee S., Price B.(1977). Regression analysis by example. J. Wiley &Sons,NewYork. [3] Mašíček L.(2003). Diagnostika a senzitivita robustních modelů. PhD disertace, MFF UK. [4] Plát P.(2003). Odhad metodou nejmenších vážených čtverců. Diplomová práce, FJFI, ČVUT. [5] Rousseeuw P.J., Leroy A.M.(1987). Robust regression and outlier detection. J.Wiley& Sons, New York. [6] Štěpán J.(1987). Teorie pravděpodobnosti(probability Theory). Prague: Academia. [7] White H.(1980). A heteroskesticity-consistent covariance matrix estimator and a direct test for heteroskedasticity. Econometrica 48, Poděkování: Výzkum podporován grantem GA ČR č. 402/03/0084. Adresa: P. Plát, Katedra matematiky, FJFI, ČVUT plat@kmlinux.fjfi.cvut.cz

309 ROBUST 2004 c JČMF 2004 METODA BOOTSTRAP Zuzana Prášková Klíčová slova: Bootstrap, wild bootstrap, blokový bootstrap. Abstrakt: V tomto článku jsou shrnuty základní vlastnosti metody bootstrap. Je popsán klasický přístup založený na nezávislých stejně rozdělených náhodných veličinách a také modifikace této metody pro časové řady. 1 Základní myšlenka metody bootstrap Metoda bootstrap patří mezi tzv. intenzivní počítačové metody pro statistickou analýzu dat. První článek o bootstrapu[4] vyvolal velký ohlas a brzy po jeho zveřejnění byla publikována řada dalších teoretických i simulačních studií, které měly za cíl zkoumat použití, účinnost a spolehlivost této metody v nejrůznějších aplikacích. V tomto článku uvedeme základní vlastnosti metody bootstrap a zmíníme se i o současných trendech. Uvažujmenezávisléstejněrozdělené(iid)náhodnéveličiny X 1,..., X n, jejichž distribuční funkce F není blíže specifikována. Nechť θ = θ(f) je nějaká charakteristika rozdělení; je to pro nás neznámý parametr, který má být odhadnut na základě realizace náhodného výběru. Nechť T n = T n (X 1,..., X n )jestatistikaproodhadparametru θ,nechť R n = R n (X 1,...,X n )jejejí vhodněstandardizovanáverze,např. R n = n(tn θ),nebonějakájejífunkce.nechť H n (x)=p[r n (X 1,...,X n, F) x] značídistribučnífunkcistatistiky R n. Explicitníodvozenírozdělení H n ivýpočetčíselnýchcharakteristikmohou být v jednotlivých případech značně obtížné, či dokonce analyticky neproveditelnéatoitehdy,kdyžjedistribučnífunkce Fznámá.Vtakovémpřípadě(při známé distribuční funkci) lze postupovat metodou Monte Carlo, generovat dlouhou sérii nezávislých náhodných výběrů z rozdělení s danou distribuční funkcí(tj. mnohokrát uměle opakovat experiment), pro každé opakování spočítat hodnotu příslušné charakteristiky a její skutečné rozdělení aproximovat empirickým rozdělením získaným z řady takto uměle získaných hodnot. Je-li skutečná distribuční funkce F neznámá, což je mnohem častější případ,jemožnéaproximovat H n asymptotickýmrozdělením,kterélzeodvodit na základě limitních vět teorie pravděpodobnosti. Přesnost takové aproximace však je ovlivněna a omezena počtem pozorování, která jsou skutečně k dispozici. Metoda bootstrap nabízí řešení, které kombinuje tzv. substituční princip a metodu Monte Carlo.

310 300 Zuzana Prášková Vysvětlemenejdřívesubstitučníprincip.Nechť F n (x)jenějakýodhad distribuční funkce. Nejčastěji se uvažuje empirická distribuční funkce založená nanáhodnémvýběru X 1,..., X n,tj. F n (x)= 1 n n I[X i x], i=1 kde I[A]značíindikátormnožiny A.Přidanýchhodnotách X 1,..., X n je F n známá funkce. Nechť X1,..., X njenezávislýnáhodnývýběrzf n,tj.přidanýchpozorováních X 1,..., X n jsou X1,..., Xn(podmíněně)nezávislé,stejněrozdělené náhodnéveličiny,znichžkaždánabýváhodnot X 1,..., X n spravděpodobností 1 n.soubor X 1,...,Xnsenazývábootstrapovývýběr.Vdalšíchúvahách původní výběr nahradíme bootstrapovým výběrem a neznámou distribuční funkci F známoudistribučnífunkcí F n.dostanemeparametr θ = θ(f n ) astatistiky Tn= T n (X1,...,Xn)aR n= R n (X1,..., Xn, F n ). Nyní můžeme definovat charakteristiky jako E Tn= T n (x 1,..., x n )d(f n (x 1 )...F n (x n )), var T n = [T n (x 1,..., x n ) E T n ]2 d(f n (x 1 ),... F n (x n )) a distribuční funkci H n(x)=p (R n (X 1,..., X n, F n ) x) = P(R n (X 1,..., X n, F n) x X 1,...,X n ); jsou to tzv. teoretické charakteristiky a teoretická distribuční funkce získané metodou bootstrap. Řekneme,že H njekonsistentníodhad H n,jestliže ρ(h n, H n ) 0při n v pravděpodobnosti(slabá konzistence) nebo skoro jistě(silná konzistence), kde ρ je nějaká metrika na prostoru distribučních funkcí. Nejčastěji používané metriky v tomto případě jsou supremální metrika ρ (G, H)=sup G(x) H(x) x R nebo tzv.mallowsova vzdálenost, která je pro distribuční funkce G a H z rodiny distribučních funkcí s konečnými r tými momenty definovaná předpisem ρ r (G, H)= inf T X,Y (E X Y r ) 1/r,

311 Metoda bootstrap 301 kde T X,Y jemnožinavšechmožnýchsdruženýchrozdělenívektorů(x, Y),jejichž marginální rozdělení jsou G a H. O vlastnostech Mallowsovy vzdálenosti a souvislosti s konvergencí v distribuci náhodných veličin viz např.[2]. Konzistence bootstrapových charakteristik se definuje přirozeným způsobem.řeknemenapř.,ževar T n jekonzistentníodhadrozptyluvart n, jestliže var T n/vart n 1při n buď v pravděpodobnosti nebo skoro jistě. Pro praktické použití jsou teoretické bootstrapové charakteristiky vhodné jenvpřípadě,žejsouexplicitnímifunkcemipozorování X 1,..., X n.přesné stanoveníbootstrapovéhorozděleníbyvyžadovaloprovedenívšech n n možnýchvýběrůsvracenímzpopulacepozorovanýchhodnot X 1,..., X n.toje však uskutečnitelné jen pro výběry o malém rozsahu. I kdybychom se omezili jennavzájemněrůznévýběry,mámetakovýchvýběrůstáleještě ( ) 2n 1 n,což jižpro n=10jehodnota Nejčastějiseprotonabootstrapovývýběr X1,...X n aznámoudistribučnífunkci F n aplikujemetodamontecarlo,kdysemnohokrát(b-krát) generujenezávislýnáhodnývýběrzrozdělení F n,přikaždémopakováníse spočtouhodnoty Tn, R n aznichsestanovíaritmetickýprůměr.dostaneme tak bootstrapové odhady původního rozdělení a původních charakteristik. Např.bootstrapovýodhadrozptylu T n dostanemetak,žeopakujemenezávislýnáhodnývýběrzrozdělení F n celkem B krátaspočtemevždyhodnotustatistiky Tn.Dostávámetakhodnoty Tn,1,...,Tn,B,zekterýchspočteme ( 2 var Tn = 1 B B Tn,b B 1 T B n,k). b=1 k=1 Podobněodhadnemedistribučnífunkcistatistiky R n jako Ĥ n(x)= 1 B B I{R n (X1,b,...,Xn,b, F n ) x}, b=1 kde {X 1,b,..., X n,b }, b=1,...,b,jsounezávislévýběryzf n.proněkteré účelyselépehodíhistogrampořízenýzhodnot R n Příklad. Nechť X 1,..., X n jenáhodnývýběrzrozdělenísestřední hodnotou µarozptylem σ 2.Přirozenýmodhademparametru θ=e µ jestatistika T n = e Xn,kde X n jevýběrovýprůměr.zabývejmeseodhademsměrodatnéodchylky s n = vart n. Vpřípadě,že X i N(µ, σ 2 ),mástatistika T n logaritmicko-normální rozdělenísparametry µa σ2 n,tedy s n = [e 2µ+ σ2 n (e σ2 n 1 )]1 2. (1)

312 302 Zuzana Prášková n s n s n s boot 50 9,760 9,798 10, ,407 4,384 4, ,731 2,736 2,748 Tabulka1:Porovnáníodhadůsměrodatnéodchylky T n = e X n ; s n, s n,resp. s boot značískutečnou,simulovanou,resp.bootstrapovousměrodatnouodchylku. Vtabulce1jsouporovnányodhadyskutečnéhodnoty s n zevzorce(1)pro různé rozsahy náhodného výběru z normálního rozdělení N(3, 9) jednak metodoumontecarlo,tj.opakovánímnáhodnéhovýběru X 1,...,X n,jednak metodoubootstrap.hodnota s n jehodnotaspočtenámetodoumontecarlo z10000opakovánínáhodnéhovýběru N(3,9)orozsahu n.hodnota s boot značí průměrnou hodnotu bootstrapového odhadu založeného na B = 500 realizacích bootstrapového výběru o rozsahu n spočtenou pro simulačních experimentů. Dále se zabývejme odhadem distribuční funkce statistiky R n = n(t n θ)= n(e Xn e µ ). (2) Předpokládáme-listále,že X i N(µ, σ 2 ),zjistímesnadno,že R n má distribuční funkci ( (ln ( x H n (x)=φ n + e µ) µ ) n ) (3) σ ahustotu h n (x)= n σ(x+e µ n) ϕ ( (ln ( x n + e µ) µ ) n σ ), (4) kdeφaϕznačídistribučnífunkciahustotu N(0,1). Pokudbychom rozdělenínáhodných veličin X 1,..., X n neznali, mohli bychom se pokusit nalézt asymptotické rozdělení. Z Taylorova rozvoje dostaneme, že R n = n(e Xn e µ )= n(x n µ)e µ + o p (1), tedy R n máasymptotickynormálnírozdělenísnulovoustředníhodnotou arozptylem e 2µ σ 2. Dalšízmožnostíjepoužítbootstrap.Nechť X 1,...,X n jebootstrapový výběrpořízenýzpozorování X 1,..., X n.potom X 1....,X n jsouiid,pro které platí E X 1= µ = 1 n n X j = X n, j=1 a bootstrapová statistika je var X 1= σ 2 = 1 n n (X i X n ) 2, R n= n(t n θ )= n(e X n e µ )= n(e X n e X n ). (5) i=1

313 Metoda bootstrap x Obrázek1:Hustotastatistiky n(e X n e µ ):skutečná(tučnáčára),asymptotická(slabá čára) a bootstrapová(histogram). Na obrázku 1 je znázorněna hustota skutečného rozdělení statistiky(2) spočtenápodle(4)pronáhodnývýběrorozsahu n = 100znormálního rozdělení N(3, 9)(silnou čarou), hustota asymptotického normálního rozdělení(slabou čarou) a histogram odpovídající bootstrapové statistiky(5) pro B = bootstrapových výběrů. Úvahy, které jsme dosud provedli, se dají zobecnit na vícerozměrný případ.jsou-lix 1,...,X n nezávisléstejněrozdělenénáhodnévektorysdistribuční funkcí F, lze spočítat empirickou distribuční funkci a definovat bootstrapovývýběrx 1,...,X njakonezávislýnáhodnývýběrzrozdělenístouto empirickou distribuční funkcí. Bootstrapové odhady lze potom definovat zcela analogicky jako v jednorozměrném případě. 2 Vlastnosti bootstrapových aproximací 2.1 Přesnost aproximace rozdělení Teoretické výsledky zkoumající přesnost bootstrapové aproximace rozdělení jsou založeny na centrálních limitních větách a jejich zpřesněních pomocí Berryovy- Esséenovy nerovnosti a Edgeworthova rozvoje pro normované, případně studentizované statistiky. Základní výsledky lze nalézt v pracech[16], [2],[1],[7],jejichshrnutínapř.v[15]. Uveďme nejprve základní výsledky týkající se výběrového průměru. Uvažujme distribuční funkce výběrových statistik a jejich bootstrapové verze

314 304 Zuzana Prášková H n (x)=p( n(x n µ) x), H n(x)=p ( n(x n µ ) x), ( n X n µ H n (x)=p x ), H σ n (x)=p ( X n n µ ) σ x, kde µ, σ 2 jsoustředníhodnotaarozptylaµ = X n a σ 2 = 1 n n i=1 (X i X n ) 2 jsoupříslušnébootstrapovéprotějšky.potomlzezformulovatnásledující velmi důležité tvrzení Věta Nechť X 1,..., X n jsounezávisléstejněrozdělenénáhodnéveličiny s distribuční funkcí F. (i) Jestliže EX 2 1 <,potom (ii) Jestliže EX 4 1 <,potom ρ (H n, H n ) s.j. n 0. nρ (Hn lim, H n) var(x1 µ) = 2 n loglog n 2σ 2 2πe s.j. (iii) Jestliže E X 1 3 < afjeřešetovitá,tj.existujíkonstanty c, htakové, že k= P(X 1= c+kh)=1,potom lim nρ ( H n, H n )= h n 2πσ s.j. (iv) Jestliže E X 1 3 < afnenířešetovitá,potom nρ ( H n, H n ) s.j. n 0. Důkaz. Viz[16]. Tvrzení(i) je důkaz konzistence pro nestandardizované statistiky, tvrzení(ii) udává rychlost této konvergence. Tvrzení(iii) a(iv) udávají rychlost konvergence bootstrapové aproximace rozdělení standardizovaného výběrového průměru. Porovnejme ji s rychlostí aproximace normálním rozdělením. Ta je pro řešetovitá i neřešetovitá rozdělení podle Berryovy-Esséenovy nerovnostiřádu O(n 1 2)anedásezlepšit.Proneřešetovitározděleníjetudíž podle(iv) bootstrapová aproximace lepší. Dále uveďme podobné výsledky pro hladké funkce výběrového průměru. Lze totiž ukázat, že mnoho výběrových statistik je možno přepsat jako funkci výběrového průměru nějakých náhodných vektorů.

315 Metoda bootstrap 305 Mějmenezávisléstejněrozdělené p-rozměrnénáhodnévektoryx 1,...,X n sdistribučnífunkcí F,sestředníhodnotou µavariančnímaticíσ.dále uvažujmefunkci gzr p do R, g(x):= l(x)nechťjegradient gspočtený v bodě x. Označme kde s 2 = l T (µ)σ l(µ), s 2 = l T (µ )Σ l(µ ), S 2 n = lt (X n )Σ n l(x n ), S 2 n = lt (X n )Σ n l(x n ), µ = X n, Σ = 1 n n (X i X n )(X i X n ) T =Σ n. i=1 Nyní uvažujme distribuční funkce statistik H n (x)=p( n(g(x n ) g(µ)) x), H n (x)=p ( n(g(x n ) g(µ )) x), ( n g(x n ) g(µ) H n (x)=p s ( n g(x n ) g(µ) Ĥ n (x)=p S n ) ( n ) x, H n (x)=p g(x n ) g(µ ) s x, ) ( n x, Ĥn (x)=p g(x n ) g(µ ) S x n Věta NechťX 1,...,X n jsouiid p-rozměrnévektorysestředníhodnotou µavariančnímaticíσ.nechť gjefunkcezr p do R. (i) NechťE X 1 2 <,nechť gjespojitědiferencovatelnávµal(µ) 0. Potom ρ (Hn, s.j. H n ) 0. n (ii) NechťE X 1 3 <,nechťprocharakteristickoufunkci φ(t)náhodnéhovektoru X 1 platí φ(t) <1pro t 0.Nechť gjetřikrátspojitě diferencovatelná na okolí µ a l(µ) 0. Potom pro distribuční funkce standardizovaných statistik platí nρ ( H n, H n ) s.j. n 0. Pro distribuční funkce studentizovaných statistik platí Důkaz. Viz[1]. nρ (Ĥ n, Ĥn) s.j. n 0. ).

316 306 Zuzana Prášková 2.2 Redukce vychýlení odhadu bootstrapem Nechť X 1,...,X n jenáhodnývýběrzrozdělenískonečnoustředníhodnotou µarozptylem σ 2.Nechť g jespojitáfunkce,taková,že E g(x n ) < ; uvažujmeparametr θ=g(µ).víme,ževýběrovýprůměr X n jenestranný akonzistentníodhadparametru µ,tj. E X n = µax n µskorojistě.potom g(x n ) g(µ)skorojistě,tj. g(x n )jekonzistentníodhad g(µ),aleobecně jevychýlený,neboť Eg(X n ) g(µ),pokud gnenílineární. Studujmevelikostvychýlení b n = Eg(X n ) g(µ).nadálepředpokládejme, že gjedostatečněhladkáfunkceax i majíkonečnémomentytakovéhořádu, že platí Taylorův rozvoj g(x n ) g(µ)=(x n µ)g (µ)+ 1 2 (X n µ) 2 g (µ)+r n, (6) kde ER n = O(n 2 )(viznapř.[5,kap.5.4]).označíme-li potom B n = 1 σ 2 2 n g (µ), b n = E(g(X n ) g(µ))= 1 σ 2 2 n g (µ)+o(n 2 )=B n + O(n 2 )=O(n 1 ). Nyníuvažujmebootstrap.Je-li X 1,..., X nbootstrapovývýběr,potombootstrapová verze(6) je g(x n ) g(x n)=(x n X n)g (X n )+ 1 2 (X n X n) 2 g (X n )+R n, kdedíkysilnémuzákonuvelkýchčíselplatí E R n= O(n 2 )skorojistě.pro bootstrapovévychýlení b n=e g(x n) g(x n )takmáme E (g(x n ) g(x n))= 1 σ 2 2 n g (X n )+O(n 2 ) s.j. ZdalšíhoTaylorovarozvojedostaneme g (X n )=g (µ)+ 1 2 (X n µ)g (µ)+ R n aodtudspočteme Eb n = E ( 1 2n 2 n ) (X i X n ) 2 g (µ) + O(n 2 )=B n + O(n 2 ). j=1 Uvažujmenynímístoodhadu g(x n )jehoopravu g(x n ) b n.vychýlení tohoto opraveného odhadu je E[g(X n ) b n ] g(µ)=b n Eb n = B n + O(n 2 ) B n + O(n 2 )=O(n 2 ), cožjevesrovnánísb n řádovělepšívýsledek.

317 Metoda bootstrap 307 odhad B n redukce(%) rmse θ 20 5,186 25,821 19,675 θ 20 c -1,011 5,034 14,712 θ 50 1,863 9,275 9,941 θ 50 c -0,145 0,721 8,893 θ 100 0,940 4,682 6,514 θ 100 c -0,041 0,207 6,195 Tabulka2:Redukcevychýleníodhadu T n = e X n metodoubootstrap. V tabulce 2 jsou uvedeny výsledky simulační studie, která srovnává vychýlení b n = E θ n θ,kde θ=e µ, θ n = e Xn,avychýleníopravenéhoodhadu θ n= θ c n b n,kde b n= E θ n θ n,vzávislostinarozsahunáhodného výběru. Náhodné výběry byly generovány z normálního rozdělení N(3, 9), skutečnáhodnota θ=20,086.prokaždývýběrorozsahu nbylogenerováno 500bootstrapovýchvýběrů.Vesloupci B n jeuvedenvždyrozdílodhadnuté askutečnéhodnoty,vesloupciredukcejepodíl Bn θ,vesloupcirmse odmocnina ze střední kvadratické chyby pro simulačních experimentů (převzatoz[18]). 2.3 Intervaly spolehlivosti Studentizované intervaly spolehlivosti. Označmejako θ n odhad parametru θ a uvažujme studentizovanou statistiku a její bootstrapový protějšek R n = θ n θ S n Rn = θ n θ n Sn. Je-li H n distribučnífunkce R n a γ p jepříslušný p kvantil,potominterval spolehlivostipro θskoeficientem1 αje ( θn γ 1 α 2 S n, θ n γ α 2 S n). Bootstrapový interval spolehlivosti je ( θn γ1 α S n, θ 2 n γ α S ) n 2, kde γ p je p kvantildistribučnífunkce H n statistiky R n spočtenýjako γ p = R ([B p]),tj.výběrovýkvantilspočtenýzuspořádanéhovýběru R (1),..., R (B).

318 308 Zuzana Prášková skutečný (5,4634; 30,4683) asymptotický (9,7289; 33,3495) hybridní (5,3061; 30,6092) percentilový (12,4691; 37,7722) Tabulka3:95% níintervalyspolehlivostiparametru e µ provýběrorozsahu 100zN(3,9),použito10000bootstrapovýchvýběrů. Lzeukázat[7,kap.3a5],žetaktosestrojenéintervalypokrývajíneznámý parametr s přesností, která je lepší než klasické intervaly využívající asymptotickounormalitustatistiky R n.nevýhodoutohotopostupujevelký početvýpočetníchoperací.bootstrapovýodhad S ntotižvětšinouhledáme metodoumontecarlo;ktomupotřebujeme B 1 bootstrapovýchvýběrů.dalších B 2 výběrůpotřebujemeproodhadkvantilů,tedycelkem B 1 B 2 výběrů. Je-li B 1 =200aB 2 =1000,budemepotřebovat100000bootstrapových výběrů Percentilové intervaly. Tato metoda počítá intervalový odhad parametru θ pomocí kvantilů distribuční funkce nestandardizované statistiky θ n,tj.zdistribučnífunkce G n(x) = P ( θ n x).dostanemeintervalový odhad ( G 1 (α) ( n, G 1 α) ) n Tato metoda se hodí v případě, že neznámý parametr je kvantil distribuční funkce uvažovaného náhodného výběru Hybridníintervaly. Je-li H n (x)=p( n( θ n θ) x),jeinterval spolehlivostipro θskoeficientem1 α ( θn c 1 α 2 1 n, θ n c α 2 1 n ), kde c p je p kvantildistribučnífunkce H n. Je-li H n (x) H n (x)=p ( n( θ n θ n ) x),můžememístoneznámých kvantilů c p uvažovatodpovídajícíkvantily c pdistribučnífunkce H napotom dostaneme interval spolehlivosti ( θn c 1 α 2 1 n, θ n c α 2 1 n ). V tabulce 3 jsou pro ilustraci uvedeny intervaly spolehlivosti pro parametr θ=e µ zpříkladu1.0.1.skutečnéintervalyjsouzaloženynakvantilech distribučnífunkcestatistiky R n = n(e X n e µ ). Více podrobností o konstrukci intervalových odhadů lze nalézt např. v knize[15].

319 Metoda bootstrap Některé výpočetní aspekty Volba počtu bootstrapových výběrů. Současné počítače jsou dostatečně rychlé, abychom ve většině případů mohli zvolit počet opakování bootstrapových výběrů B mnohem větší než rozsah n. Větší počet opakování však často nepřináší další podstatné zlepšení našich výsledků. Chyba aproximace metodou Monte Carlo, kterou používáme pro pořízení bootstrapových statistik, by však měla být zanedbatelná vzhledem k chybě teoretického bootstrapového odhadu. Zabývejme se dvěma základními okruhy problémů, totiž odhady rozptylu a odhady distribuční funkce(podrobněji viz[15, kap. 5.4]). Označme var T n = 1 B ( B Tn,b 1 B b=1 B k=1 T n,k ) 2 := v B boot. (7) Lzeukázat,žeprobootstrapovýkoeficientvariacepro s B boot v = boot B přibližně platí c=cv (s B boot )= V ar s B boot E s B 1, boot 2B když se zanedbá bootstrapový koeficient šikmosti. Potom pro požadovanou míruvariability cje B= 1 2 c 2,např.pro c=5%je B=200.Ukazujese, že pro varianční odhady typu(7) se přesnost příliš nezlepší velkým počtem opakování, tj. zvětšováním B. Obecně se pro odhady momentů doporučuje volit B mezi , podle jiných doporučení však stačí jen Distribučnífunkci H n statistiky R n odhadujemejako Ĥ n(x)= 1 B B I{R n (X1,b,..., Xn,b, F n ) x}:= Hboot(x). B (8) b=1 Podle[15] je asymptotická chyba metody Monte Carlo ρ (H B boot, H n )=ǫ n+ B 1 loglog B, kde ǫ n = ρ (H n, H n )jechybabootstrapovéaproximace.má-libýtchyba MonteCarlozanedbatelnávzhledemkǫ n,mělibychomvolit B tak,aby B 1 loglog B= o(ǫ 2 n ).Pokud ǫ n= O P (n 1 ),jemožnovolit B= n 2 loglog n. Pro n=30takdostanemepřibližně B 1100opakování.Obecněproodhady kvantilů a distribuční funkce se doporučuje B = 1000 jako minimální hodnota Redukce počtu operací. Existuje celá řada postupů jak zefektivnit a urychlit bootstrapové výpočty. Zmiňme např. rovnovážný bootstrap, podle kterého lze B bootstrapových výběrů pořídit následujícím postupem.

320 310 Zuzana Prášková Nejprve se každé pozorování zkopíruje právě B krát; dostaneme posloupnost délky nb. Nyní se provede náhodná permutace na prvky této posloupnosti. Prvkyspořadím1,...,ntétozpermutovanéposloupnostitvoříbootstrapovývýběr X1,1,..., X n,1,prvkyspořadím n+1,...,2nbootstrapovývýběr X1,2,..., Xn,2,atd,prvkyspořadím(n 1)B+1,...,nBbootstrapový výběr X1,B,...,X n,b. Další užívané techniky Monte Carlo pro bootstrap, např. importance resampling,jsoupopsányv[7]a[15] Odlehlá pozorování Odlehlá pozorování mohou ovlivnit bootstrapovévýpočty.je-limezihodnotami X 1,...,X n jednoodlehlépozorování, potom pravděpodobnost, že nebude obsaženo v bootstrapovém výběru, je (1 1 n )n,cožprovelká nbudepřibližněe 1,tj.asi37%.Ukazujeseale,že histogramhodnotbootstrapovýchprůměrů X nnenípřílišcitlivýnapřítomnostodlehlýchpozorování.naopakhistogramstatistiky X n X n (k),kde X n (k)= 1 n 2k n k i=k+1 X (i) je bootstrapová verze k-useknutého výběrového průměru, je velmi citlivý na odlehlá pozorování a přítomnost takových pozorování se projeví v tom, že histogramstatistiky X n (k)nebudeunimodální.statistiku X n X n (k)lze užít k detekci odlehlých pozorování. Teoretická zdůvodnění lze nalézt např. včlánku[17]. 2.5 Meze použitelnosti metody bootstrap V předchozích odstavcích jsme se pokusili vysvětlit některé přednosti metody bootstrap, zejména schopnost redukovat vychýlení odhadů a zpřesňovat rozdělení statistik a tedy i přesnost pokrytí neznámých parametrů konfidenčními intervaly pro pivotální, resp. studentizované statistiky. Od r. 1979, kdy vyšel základní článek o bootstrapu[4], byla teoreticky zkoumána použitelnost a konzistence metody bootstrap v mnoha nejrůznějších statistických úlohách. Obecné teoretické výsledky, za kterých je bootstrap konzistentní, jsou uvedenynapř.vknize[11]. Zmiňme se aspoň o několika příkladech, které ukazují, že bootstrap nelze používat automaticky. Pro rozdělení s nekonečným rozptylem neodhaduje bootstrap konzistentně rozdělení hladkých funkcí výběrového průměru. Bootstrap neodhaduje konzistentně rozdělení odhadů parametrů, které leží na hranici parametrické množiny. Bootstrap neodhaduje konzistentně rozdělení extremálních odhadů. Řadu dalších příkladů lze nalézt např. v[15]. Pro většinu nich lze dokázat, že metodajekonzistentníprobootstrapovévýběryrozsahu m,prokteré m n 0 při m, n.

321 Metoda bootstrap 311 Jestliže X n nejsounezávislé,bootstrapovéstatistikynedávajíkonzistentní odhady parametrů a rozdělení. V tomto případě je třeba metodu bootstrap modifikovat tak, aby bootstrapový výběr odrážel závislostní strukturu. 3 Bootstrap pro závislá pozorování Existuje celá řada modifikací metody bootstrap pro závislá pozorování, které se liší tím, jakým způsobem využívají informaci o procesu, kterým jsou generována data. 3.1 Bootstrap závislý na modelu(parametrický) Předpokládejme, že proces, kterým jsou generována data, je specifikován až na nějaké parametry. Nejčastěji používanou bootstrapovou technikou je tzv. reziduální bootstrap. Tato varianta se hodí v případě, že data jsou identifikována jako parametrický model typu AR nebo ARMA, případně jako dynamickýregresnímodel.předpokládejmenapř.,ženáhodnéveličiny X 1,..., X n se řídí autoregresním modelem AR(p) X t = β 1 X t 1 + +β p X t p + Y t, t=1,...,n, (9) kde Y t jsouiidsnulovoustředníhodnotouakonečnýmkladnýmrozptylem σ 2, X 0,...,X 1 p jsoupočátečnípozorováníajsousplněnypředpokladypro stacionarituposloupnosti {X t }.Bootstrapvklasicképodobězdepoužítnelze, neboť X 1,..., X n nejsounezávislé.nezávisléchyby Y t většinouneznáme,ale můžeme je odhadnout. Použijeme-li konzistentní odhady pro neznámé parametry β 1,..., β p,potomodhadnutáreziduasechovajípřibližnějakonezávislé náhodné veličiny. Generování bootstrapového výběru potom probíhá podle následujícího algoritmu, který lze zobecnit i na ARMA modely. Nejprveseodhadnourezidua Ŷt= X t β 1 X t 1 β p X t p,kde β 1,..., β p jsoukonzistentníodhadyparametrů β 1,..., β p. Spočteseempirickádistribučnífunkce F n centrovanýchreziduí Ŷt Y n,kde Y n jearitmetickýprůměrzhodnot Ŷ1,...,Ŷn.Centrováníje nezbytné, pokud nemáme model s interceptem. Generujísenáhodnéveličiny Y1,... Y n,kteréjsou(podmíněněpřida- ných X 1,...,X n )iidamajídistribučnífunkci F n. Bootstrapový výběr, který kopíruje strukturu původních dat je generován předpisem X t = β 1 X t 1+ + β px t p+ Y t, t=1,...,n, kdesepoloží X 1 p =0,...,X 0 =0nebo X 1 p = X 1 p,..., X 0 = X 0. Bose[3] dokázal konzistenci této metody a její zpřesnění proti normální aproximaciprorozděleníbootstrapovýchodhadůproparametry β 1,...,β p metodou nejmenších čtverců, Prášková[12] rozšířila tento výsledek na hladké

322 312 Zuzana Prášková funkce průměrů jistých vektorů a z nich plynoucí studentizované odhady. Kreiss a Franke[9] dokázali konzistenci metody bootstrap pro třídu M-odhadů v modelech ARMA. Přehled dalších výsledků, zabývajících se použitím variantyreziduálníbootstrapvmodelecharaarmalzenaléztnapř.v[10]. Další používanou metodou je tzv. wild bootstrap. Tato modifikace metody bootstrap byla původně odvozena pro regresní modely s heterogenními chybami,např.[19],[11].lzejivšakaplikovatinačasovéřadyvsituacích, kdy je identifikován parametrický model(např. ARMA), ve kterém ale nelze šum modelovat jako posloupnost nezávislých stejně rozdělených náhodných veličin. Sem patří i v současné době velmi populární modely s podmíněnou heteroskedasticitou(modely typu ARCH, GARCH), nebo autoregresní modely s náhodnými parametry, které mají podobnou strukturu jako modely ARCH,viznapř.[13],[14],[6]. Uvažujme opět autoregresní model AR(p) definovaný v(9), ve kterém Y t nejsounezávisléastejněrozdělenénáhodnéveličiny.mějmepozorování X 1,..., X n auvažujmeodhadyautoregresníchparametrůmetodounejmenších čtverců, které jsou výpočetně velmi jednoduché. Vzhledem k obecné nestacionaritě však lze obtížně určit jejich asymptotické rozdělení. Odhad rozdělení metodou reziduální bootstrap není v tomto případě konzistentní (např.[13]). Vpřípadě,že Y t jsounezávisléneboslabězávislé,aleheterogenní,lze použít techniku wild bootstrap, který zachovává heteroskedasticitu. Možné jsou dvě varianty této metody. První z nich generuje bootstrapový výběr na základě regrese. Spočtou se rezidua r t = X t β 1 X t 1 β p X t p,kde β 1,..., β p jsouodhadymetodou nejmenších čtverců. Dále se generuje nový proces chyb Y w t = r t K t, t=1,..., n, kde K t jsouiidsnulovoustředníhodnotouajednotkovýmrozptylem,nezávisléna X 0,...,X n.potomsegenerujebootstrapovývýběrpodleschématu X w t = β 1 X t β p X t p + Y w t, t=1,...,n. Bootstrapové hodnoty se tedy řídí regresním modelem s konstantními regresory X t 1,..., X t p, t=1,...,n. Vedruhévariantěsegenerujeproceschyb Yt w = r t K t, t = 1,...,n, stejně jako v regresní variantě, ale bootstrapový výběr se generuje podle autoregresního schématu X1 p w =0,...,X w 0 =0, X w t = β 1 Xt 1 w + + β p Xt p w + Y w t, t=1,...,n, takže přesně kopíruje strukturu závislosti v původním modelu. Zde opět β 1,..., β p jsouodhadyparametrů β 1,...,β p vpůvodnímmodeluar(p). Lze ukázat, že obě tyto varianty konzistentně odhadují rozdělení odhadů β 1,..., β p získanýchmetodounejmenšíchčtvercůzarůznýchpodmínekna hetroskedasticituchyb Y t,viz[13],[14],[6].

323 Metoda bootstrap Bootstrap nezávislý na modelu(blokový) Nechťjekdispozici npozorováníčasovéřady X 1,..., X n ;předpokládáme, že jde o stacionární posloupnost, ale o závislostní struktuře nemáme žádné informace. Bootstrapový výběr se v takovém případě dá sestrojit následovně. Vektor (X 1,..., X n )senejdříverozdělínablokydélky l.pro n=k ltakdostaneme N = k nepřekrývajících se bloků Y 1 =(X 1,...,X l ),Y 2 =(X l+1,..., X 2l ),...,Y k =(X (k 1)l+1,...,X n ). Jinoumožnostíjevytvořit N= n l+1klouzavýchbloků Y 1 =(X 1,...,X l ),Y 2 =(X 2,..., X l+1 ),...,Y n l+1 =(X n l+1,...,x n ). Dále se provádí nezávislý náhodný výběr s vracením z populace vektorů Y 1,...,Y N.DostávámetakpostupněvektoryY 1,Y 2....Zabootstrapový výběr potom považujeme vektor náhodných veličin (X 1,..., X n)=(y 1,Y 2,...,Y k). Existují i další varianty, jak vytvářet bloky. Důležité je, že v bootstrapovém výběru je vždy l po sobě jdoucích pozorování, která mají stejnou strukturu jako původní data. Z teoretického hlediska, pro dosažení konzistentních výsledků, musí být délkablokudostatečnědlouhá, l pro n.existujíteoretickáodvození pro stanovení optimální délky bloku(např.[10]). V praxi však nelze podle těchto teoretických výsledků vždy postupovat, neboť teoretické stanovení délky bloku závisí na hodnotách autokovarianční funkce, kterou neznáme. Většinou se tedy délka bloku stanoví tak, že se řada pozorování nejdříve odhadne nějakým parametrickým modelem, ve kterém je teoretická autokovarianční funkce známá, a její odhad se potom dosadí do vzorců pro výpočet délky bloku. Existují i jiné algoritmy, založené na konkrétních pozorováních. VíceoblokovémbootstrapuselzedočístvLahiri[10]nebonapř.vpráci[8].Tamjemožnonalézttakédalšíprameny,kterézdepronedostatek místa neuvádíme. Reference [1] Babu G.J., Singh K. (1984). On one term Edgeworth correction by Efron s bootstrap. Sankhyā A 46, [2] Bickel P.J., Freedman D.A.(1981). Some asymptotic theory for the bootstrap. Ann. Statist. 9, [3] Bose A.(1988). Edgeworth correction by bootstrap in autoregression. Ann.Statist.16, [4] Efron B.(1979). Bootstrap methods: another look at the jackknife. Ann. Statist.7,1 26.

324 314 Zuzana Prášková [5] Fuller W.A.(1976). Introduction to statistical time series. Wiley, New York. [6] Gonçalves S., Kilian L.(2004). Bootstrapping autoregression with conditional heteroskedasticity of unknown form. J. Econometrics 123, [7] Hall P.(1992). The bootstrap and the Edgeworth expansion. Springer- Verlag, New York. [8] Härdle W., Horowitz J., Kreiss J.-P.,(2003). Bootstrap methods for time series. International Statistical Review 71, [9] Kreiss J.P., Franke J.(1992). Bootstrapping stationary autoregressive movingaveragemodels.j.timeser.anal.13, [10] Lahiri(2003). Resampling methods for dependent data. Springer-Verlag, New York. [11] Mammen E.(1992). When does bootstrap work? Asymptotic results and simulations. Springer-Verlag, Heidelberg. [12] Prášková Z.(1995). A contribution to bootstrapping autoregressive processes. Kybernetika 31, [13] Prášková Z.(2002). Bootstrap in nonstationary autoregression. Kybernetika38, [14] Prášková Z.(2003). Wild bootstrap in RCA(1) model. Kybernetika 39, [15] Shao J., Tu D.(1995). The jackknife and bootstrap. Springer-Verlag, New York. [16] Singh K.(1981). On the asymptotic accuracy of Efron s bootstrap. Ann. Statist.9, [17] Singh K., Xie M.(2003). Bootlier-plot- bootstrap based outlier detection plot. Sankhyā 65, [18] Šindlář J.(2003). Počítačové postupy a výběry z konečné populace. Diplomová práce MFF UK, Praha. [19] Wu C.F.J.(1986). Jackknife, bootstrap and other resampling methods in regression analysis(with discussions). Ann. Statist. 14, Poděkování: Práce vznikla za podpory výzkumného záměru MŠMT číslo MSM a grantu GAČR č. 201/03/0945. Adresa: Z. Prášková, Univerzita Karlova, Fakulta matematicko-fyzikální, Katedra pravděpodobnosti a matematické statistiky, Sokolovská 83, 18675Praha8 praskova@karlin.mff.cuni.cz

325 ROBUST 2004 c JČMF 2004 DETEKCE LINEÁRNÍHO TRENDU V ROZPTYLU NORMÁLNÍHO ROZDĚLENÍ Luboš Prchal Klíčováslova:Detekcezměnyvrozptylu,regresev L 1 a L 2 normě,radioaktivní záření. Abstrakt: Tento příspěvek je věnován detekci a odhadu dvou neznámých bodů změny, mezi nimiž se rozptyl nezávislých normálně rozdělených náhodných veličin lineárně mění z jedné konstantní úrovně na druhou. V první části je navržena vhodná testová statistika, v druhé části se pak věnujeme porovnání L 1 a L 2 odhadůbodůzměnyaparametrůrozptylu.postupjeilustrován na reálné analýze variability vertikálních profilů radioaktivního záření. 1 Úvod Studium problematiky detekce a odhadu měnícího se rozptylu normálně rozdělených náhodných veličin bylo motivováno praktickou potřebou analyzovat variabilitu měření vertikálních profilů radioaktivního záření. Tato data statistické veřejnosti představil na konferenci Robust 98 Hlubinka[2]. Připomeňme, že data se měří pomocí meteorologických balónů vypouštěných ze stanici v Praze-Libuši a stoupajících do výšky kolem 35-ti km, přičemž výsledkemměřeníjsoudvojice(x i, y i ), i=1,...,n,představujícíprůměrnouintenzituzáření y i vnadmořskévýšce x i.typickývertikálníprofilgama radiace je znázorněn na obrázku 1. Obrázek 1: Typický průběh průměrného počtu gama částic v závislosti na nadmořské výšce. Hlubinka[2] podrobně diskutuje jak parametrický tak neparametrický přístupkmodelování trendu pomocíregresníhomodelu Y = m(x)+η,kde X a Y jsou náhodné veličiny odpovídající nadmořské výšce, resp. intenzitě radiace, m( ) představuje průměrnou radiaci a η náhodnou složku měření.

326 316 Luboš Prchal Nedostatky navrhovaného parametrického modelu založeného na derivaci tzv. Richardsovy růstové křivky jsou pak odstraněny jeho rozšířením podrobně popsaným v práci[3]. V tomto příspěvku se zaměříme na evidentně se měnící variabilitu měření radioaktivního záření. Odhad rozptylu radiace v závislosti na výšce σi 2=var[Y i X= x i ]založímenačtvercíchreziduí 2i = ( Y i m(x i ) ) 2.Jejich průběh proložený jádrovým odhadem n i=1 g K (x)= y ik ( x x i ) h n i=1 K( x x i ) (1) h s normálním jádrem a vyhlazovacím parametrem h zvoleným pomocí křížového ověřování(cross validation) je znázorněn na obrázku 2. Poznamenejme, že budeme-li dále mluvit o jádrové regresi, pak budeme mít na mysli neparametrický jádrový odhad(1). Obrázek2:Typickýprůběhčtvercůreziduí 2i proloženýjádrovouregresí s normálním jádrem a vyhlazovacím parametrem h = 2, 74. Proparametrickýpopischováníreziduí 2i sejakovhodnýjevílineární model ve tvaru =Dβ+ ε, kde =( 21,..., 2n ), β=(σ 2, δ 2 ) jevektorneznámýchreálnýchparametrů, σ, δ >0,aregresnímatice D= ( 1 d ) n 2 jedánavektoremsamých jedniček1 n 1 avektorem d=(d 1,..., d n ) definovanýmpředpisem d i =0, i=1,...,s, = x i x s, x t x s i=s+1,...,t, =1, i=t+1,...,n. Uvědommesi,že βobecnězávisínaneznámýchbodechzměny x s, x t,adodejme, že s pomocí uvedeného regresního modelu odhadneme podmíněný rozptyl σi 2 jako σ i 2 = d i β,kde d ipředstavuje i týřádekmatice Da βje vhodný odhadneznámýchparametrů.

327 Detekce lineárního trendu v rozptylu normálního rozdělení Testování modelu Podívejme se nyní, jak otestovat hypotézu o konstantním rozptylu proti alternativě, že existují dva body změny, v nichž se charakter rozptylu mění v duchu výše popsaného regresního modelu. Než se dostaneme k samotnému testování, dodejme, že v této části budemepředpokládatnormálnírozděleníanezávislostjednotlivýchměření Y i. Dálepředpokládejme,že sousedníměřenímajístejnýrozptyl,přesněji,že σ2j 1 2 = σ2 2j, j=1,...,ñ,kde ñ= n/2 jespodníceláčást n/2.uvědomme si,žeztohotopředpokladupřirozeněvyplývá,žebodyzměny satjsousudá čísla. Pracujeme tedy s náhodnými veličinami Y 2j 1 N ( m(x 2j 1 ), σ 2 2j 1), j=1,...,ñ, Y 2j N ( m(x 2j ), σ 2 2j 1), j=1,...,ñ, a chceme testovat hypotézu o konstantnosti jejich rozptylu, tj. proti alternativě H 1 : σ 2 i = σ2, x i {x 1, x 2,...,x n }, A 1 : x s, x t {x 1, x 2,..., x n }, x s < x t, σ 2 i = σ2, x i {x 1,...,x s }, = σ 2 + x i x s δ 2, x t x s x i {x s+1,...,x t }, = σ 2 + δ 2, x i {x t+1,...,x n }. Uvažme,žedíkynormálnímurozděleníveličin Y i majínáhodnéveličiny ( Y2j 1 m(x 2j 1 ) ) 2 ( + Y2j m(x 2j ) ) 2 V j =, j=1,...,ñ, 2 exponenciálnírozdělenísparametry ϑ j = σ 2 2j 1.Nahraďmeprotonelineární regresní model m(x) jeho odhadem m(x) a neznámý podmíněný rozptyl σ 2 2j 1 jehoparametrickýmodhademzaloženýmnalineárnímmodelu σ 2 2j 1 = β d 2j 1, j=1,...,ñ.definujmedálenáhodnéveličiny W j = ( Y2j 1 m(x 2j 1 ) ) 2 + ( Y2j m(x 2j ) ) 2 2 = 22j j 2, j=1,...,ñ, apředpokládejme,žeiveličiny W j majídíkynormálnímurozdělení Y i aodhadu m(x) metodou nejmenších čtverců exponenciální rozdělení, tentokrát sparametry θ j = σ 2 2j 1 = β d 2j 1. Pomocí právě popsané transformace jsme nejen přešli od normálně rozdělených Y i kvýběru W j Exp(θ j ), j=1,...,ñ,alesoučasněnašihypotézu H 1,resp.alternativuA 1,můžemeekvivalentněpřepsatjakohypotézuokonstantní hodnotě parametru exponenciálního rozdělení

328 318 Luboš Prchal proti alternativě H 2 : θ j = σ 2, j=1,...,ñ, A 2 : s, t {1,2,..., ñ}, 1 s < t ñ, θ j = σ 2, = σ 2 + x 2j 1 x 2es x 2 et x δ 2, 2es j=1,..., s, j= s+1,..., t, = σ 2 + δ 2, j= t+1,...,ñ, kde s= s/2 a t= t/2. Odvozenítestovéstatistiky T proúlohutestováníhypotézyh 2 protialternativěa 2 vycházíz[4]a[1]ajepodrobněpopsánov[3].natomtomístě jen uveďme, že ji můžeme vyjádřit vztahem en j=2 T= γ jw j Γ en j=1 W, j přičemžnormovacíkonstantaγakonstanty γ j majívtomtokonkrétním případě tvar Γ= 1 ñ en j=1 γ j a γ j = (j 1)(j 2) 2 + en j 1 et=j es=1 x 2j 1 x 2es x 2 et x. 2es Lzeukázat,žetestovástatistika T mázaplatnostihypotézyh 2 apři ñ asymptoticky normální rozdělení, a tudíž U= T E T var T má asymptoticky normované normální rozdělení N(0, 1), přičemž E T = 1 arozptylvar Tlzevyjádřitvztahem var T= ñ ñ+1 1+ en j=2 γ2 j ) 2 ( en j=2 γ j 1= ñ ñ+1 en j=2 γ2 j ( en ) 2 1 j=2 γ ñ+1. j Ze simulací ilustrujících rychlost konvergence rozdělení statistiky U k normálnímu rozdělení vyplývá, že asymptotických vlastností lze využít již při n=50,podrobnějiviz[3].vtompřípaděhypotézuh 2,resp.H 1,zamítáme nahladině αveprospěchalternativya 2,resp.A 1,jestliže U > u(1 α),kde u(α) je 100α%-ní kvantil normovaného normálního rozdělení. Připomeňme, žetestujemeprotijednostrannéalternativě zvětšení variabilityoδ 2 >0, aprotouvažujemepouze horní kvantil u(1 α). Při analýze variability radiace máme k dispozici výběry s rozsahy n 550, můžeme tedy bez obav užít asymptotického rozhodovacího pravidla, přičemž dleočekáváníhypotézuh 1 nahladině α=0,05jednoznačnězamítámepro všechna pozorování beta i gama částic.

329 Detekce lineárního trendu v rozptylu normálního rozdělení Odhad modelu Vpředcházejícíchodstavcíchjsmeukázalijakotestovat adekvátnost uvažovanéhoregresníhomodelu =Dβ+ εazbývánámtedyodhadnoutjeho neznáméparametry;bodyzměny satasložkyrozptylu σ 2 a δ 2.Odhad parametrů provedeme ve dvou krocích. Nejprve pro pevné hodnoty s a t, 1 s < t n,odhadnemeparametry β(s, t)jako β(s, t)=argmin β R 2 n i=1 Ψ ( 2i d i β) =argmin β R 2 RS ( β(s, t) ), kdeψjevhodnězvolenáfunkce.vedruhémkrokuodhadnemebodyzměny s a ttak,abychomminimalizovaliztrátovoufunkcirs ( β(s, t) ),tedy {ŝ, t } = argmin RS ( β(s, ) t). s=1,...,n 1 t=s+1,...,n Tímtakédostanemevýslednýodhad βpomocí β ( ŝ, t ). Parametry lineárního modelu většinou odhadujeme metodou nejmenších čtverců(dálejen L 2 regrese).vnašempřípaděvšaknemámesplněnjedenze základních předpokladů klasického lineárního modelu, a sice homoskedasticitunáhodnésložky ε. Neblahývliv heteroskedasticitynáhodnésložkyna odhad parametrů β lze omezit užitím metody vážených nejmenších čtverců (WLS)sdiagonálnímaticívah W n n tvořenouprvky w ii =1/ τ 2 i,kde τ2 i jeodhadrozptyluvar ε i = τ 2 i.jakovhodný, nezávislý nametoděnejmenších čtverců se nabízí odhad pomocí již zmíněné jádrové regrese(1) ve tvaru τ 2 i = ( 2i ĝ K(x i ) ) 2.Svyužitíminformaceovariabilitěnáhodnésložky εdostáváme odhad neznámých parametrů β v podobě β WLS =(D WD) 1 D W. (2) Jako robustní alternativu k metodám nejmenších čtverců uveďme regresi v L 1 normě(dálejen L 1 regrese)odpovídajícíminimalizačníúloze n 2i d iβ. (3) min β R 2 i=1 Jednímzpřístupůkřešení L 1 regresejenumerickámetodaiteračněvážených nejmenších čtverců(iwls). Minimalizace úlohy(3) pomocí metody IWLS odpovídá řešení soustavy D W(β) =D W(β)Dβ, vzhledemkneznámýmparametrům β R 2,přičemžmaticevah W(β) n n jediagonálnísprvky w ii (β)definovanýmipředpisem sgn( 2i w ii (β)= d i β) 2i, 2i d iβ 0, (4) d iβ =0, 2i d iβ=0.

330 320 Luboš Prchal Jelikož váhy na rozdíl od metody WLS tentokrát závisejí na neznámých parametrech β, není možné pro odhad β užít přímo vztah(2), nýbrž je třeba přikročit k numerickému řešení. Metoda IWLS vychází z počátečního odhadu β (0) L 1,kterývjednotlivýchiteracíchpostupně vylepšuje předpisem ( ) 1 β (l+1) L 1 = D W(β (l) L 1 )D D W(β (l) L 1 ) (5) aždosplněnívhodnéhozastavovacíhopravidla.dodejme,že β (l) L 1 značí L 1 odhadparametrů βpo literacíchdlevztahu(5)aw ( β (l) ) L 1 jsouznáméváhy dánypředpisem(4)projižspočtenouhodnotu β (l) L 1.Vjednotlivýchiteracích tedyznámematicivah W(β (l) L 1 ),aprotonásledujícíodhadparametrů β (l+1) L 1 získáme stejně jako u metody WLS vztahem(2). Druhýmpřístupemvedoucímknalezeníoptimálníhořešeníproblému L 1 regrese, pokud takové řešení existuje, je přeformulovat regresní úlohu(3) jako standardní minimalizační úlohu lineárního programování ve tvaru za podmínek min ǫ +, ǫ n ( ǫ + i + ǫ ) i i=1 d iβ+ ǫ + i ǫ i = 2i, ǫ + i, ǫ i 0, i=1,...,n, σ 2, δ 2 0. K jejímu vyřešení pak lze užít standardních nástrojů obsažených v matematických a statistických programech, např. funkci linprog implementovanou v Optimization Toolbox programového vybavení Matlab, Release13. Dodejme, že zde prezentované výsledky jsou získány metodu IWLS s tím, že výrazně rychlejší numerické řešení se jen nepatrně liší od přesného řešení úlohy lineárního programování. Podrobněji je volba metody diskutována v práci[3]. 4 Porovnání metod Podívejme se nyní na získané odhady prezentovanými metodami jednak z pohleduodhadusložekvariability σ 2 a δ 2,jednakzpohledubodů,vekterých dochází k jejich změnám. Oodhadechbodůzměnyseobecnědáříci,žepoužití L 2 regresevede k odhadům pouze jednoho bodu změny, tedy na model se skokovou změnou vchovánírozptylu.tentotypickýrys L 2 regresejezpůsobenznačnoucitlivostí L 2 odhadůnavelké, odlehlé hodnotyreziduí.naprotitomu,užitím L 1 ztrátovéfunkcezískáme očekáváný odhadspostupnýmlineárnímrůstem variability σ 2 (x). Rozdílvchování L 2 a L 1 odhadůilustrujmenapozorovánígamačástic z10.října1995.průběhčtvercůreziduí 2i proložený L 2i L 1 odhademvariability je znázorněn na obrázku 3(levý graf). Na tomtéž obrázku 3 jsou kolečkem vyznačena dvě rezidua ve výšce asi 15 km, která způsobují skok

331 Detekce lineárního trendu v rozptylu normálního rozdělení 321 Obrázek 3: Čtverce reziduí proložené odhadnutým rozptylem metodou WLS (čárkovaně)a L 1 regresí(plnáčára).levýgrafznázorňujeodhadyzískanéze všech reziduí, pravý graf odhady po vynechání dvou zakroužkovaných odlehlých reziduí. v L 2 odhadu.napravémgrafuobrázku3,kterýodpovídástejnémupozorování, vynecháme-li dvě vyznačená rezidua, vidíme, že nově odhadnuté body změnymetodouwlsse přiblížily nezměněnému L 1 odhadu. Ačkoli nemáme a priori žádnou informaci o chování variability měření, zdáserozumnépřiklonitsekrobustnějším L 1 odhadům,vesměspodporujícím myšlenku lineární změny mezi dvěma konstantními hladinami rozptylu. Odhadybodůzměny x s a x t pomocí L 1 regresevíceodpovídajítakénaší původní představě o průběhu rozptylu založené na neparametrické jádrové regresi(1). Připomeňme,žeparametry σ 2 a δ 2 simůžemepředstavitjakorozptyl měřenívevýškáchdo x s,resp.nad x t.uvážíme-lidále,žejsmepřitestování předpokládalinormálnírozdělenídat,pakodhadneznámýchparametrů σ 2 a δ 2 regresív L 1 norměsezdábýtnevhodný.proodhadsamotnýchsložek rozptylu σ 2 a δ 2 bychomspíšemělivolitmetodunejmenšíchčtverců,resp. její váženou variantu WLS. Ve světle předcházejících úvah se jako optimální metoda pro odhad chovánívariabilityměřeníradiacejevíkombinace L 1 a L 2 přístupu.počítejme protonejprve L 1 odhadbodůzměnyobvyklýmdvoukrokovýmpostupem,tj. vprvnímkrokuodhadněmepropevnébodyzměny sat,1 s<t n, složky rozptylu vztahem ( ) β L1 (s, t)=argminrs L1 β(s, t) =argmin β R 2 β R 2 n 2i d iβ, anazákladěztrátovéfunkcers L1 ( β(s, t) ) pakvdruhémkrokuodhadněme body změny jako i=1 {s, t }= argmin RS L1 ( βl1 (s, t) ). s=1,...,n 1 t=s+1,...,n

332 322 Luboš Prchal Složky rozptylu následně odhadněme metodou vážených nejmenších čtverců β = β WLS (s, t )=(D s t WD s t ) 1 D s t W, kde D s t jeregresnímaticeodpovídajícípevnýmbodůzměny s=s a t=t. Maticevah W jediagonálnísprvky w ii =1/ τ 2 i, i=1,...,n,přičemž τ2 i je odhadrozptylu 2i získanýpomocíjádrovéregrese τ2 i = ( 2i ĝ K(x i ) ) 2. Představenákombinace L 1 a L 2 metodsizachovávávýhodyrobustního odhadubodůzměny,přičemžoprotisamotné L 1 metodě věrněji odhaduje složky rozptylu. Odhad průběhu rozptylu měření získaný touto kombinovanou metodou je znázorněn na obrázku 4. Obrázek 4: Optimální odhad variability měření kombinovanou metodou. Reference [1] Gupta A.K., Ramanayake A.(2001). Change points with linear trend for the exponential distribution. J. Statist. Plann. Inference 93, [2] Hlubinka D.(1998). Metody pro prokládání křivek s použitím na reálných datech. In ROBUST 98(Antoch J. a Dohnal G., eds.), JČMF, Praha, [3] Prchal L.(2004). Neparametrické odhady pro analýzu funkcionálních dat. Diplomová práce, MFF UK, Praha. [4] Worsley K.J.(1986). Confidence regions and test for a change point in a sequence of exponential family random variables. Biometrika 73, Poděkování: Autor děkuje prof. RNDr. Jaromíru Antochovi, CSc., za jeho nezištnou pomoc a neocenitelné rady v průběhu vzniku tohoto článku. Práce vznikla s podporou grantů GAČR 201/03/0945 a MSM Adresa:L.Prchal,KPMSMFFUK,Sokolovská83,18675Praha8 prchal@karlin.mff.cuni.cz

333 ROBUST 2004 c JČMF 2004 USPOŘÁDÁNÍ VÝSLEDKŮ ŠETŘENÍ REPREZENTOVANÝCH FUZZY ČÍSLY Zdeněk Půlpán Klíčová slova: Fuzzy relace, fuzzy čísla a jejich uspořádání. Abstrakt: V příspěvku je diskutována otázka uspořádání fuzzy čísel; je navržena jedna z možností jak problém částečně řešit. 1 Úvod Nemáme dosud univerzální definici uspořádání fuzzy čísel, která by uspokojivě řešila řadu různorodých aplikačních úloh(např. porovnávání variant zobrazených fuzzy čísly, varianty mohou být výsledkem expertního řízení). To vyplývá ze složitosti struktury fuzzy čísel, která je výsledkem naší snahy vložit do fuzzy čísel co nejvíce např. empirických informací. Definované uspořádání fuzzy čísel je pak většinou antisymetrické, ostře tranzitivní(tj. z použité definice vyplývá pro fuzzy čísla, zobrazující ostrá reálná čísla, klasická tranzitivita jejich uspořádání), které ale není úplné(nelze porovnat každá dvěfuzzyčísla)[1],[2],[3],[4]. Uvedeme prostřednictvím určité fuzzy relace porovnání dvou fuzzy čísel založenénaprůběhu levé a pravé částijejichfunkcevěrohodnosti.protoževšakifuzzyčíslajemožnézavéstvrůznéšířiobecnosti,musímese nejdříve domluvit na tom, s jakou třídou fuzzy množin budeme pracovat. To vysvětlíme v následující definici. Definice1.Fuzzymnožinu Ana R,kde Rjemnožinareálnýchčísel,nazvemefuzzyčíslem,kdyžjejífunkcivěrohodnosti µ A : R 0;1 můžeme zapsat ve tvaru µ A (x)= L A (x) pro x (, x A 1 ) 1 pro x x A 1, xa 2, xa 1 xa 2 P A (x) pro x (x A 2, ), kdefunkce L A :(, x A 1 ) 0;1)jeneklesajícíaspojitá, lim L A(x)=0, x lim L A (x)=1,afunkce P A :(x A x x A 1 2,+ ) 0;1)jenerostoucíaspojitá, lim P A (x)=1, lim P A(x)=0.Budemepředpokládat,že µ A (x)dx < x x A 2 + x +. Poznámka 1.Funkci L A (resp. P A )zdefinice1.nazývámelevou(resp. pravou)částífuzzyčísla A. Poznámka 2.Definiční oborfunkce L A (resp. P A )jemožnérozšířitna celé Rdodefinováním L A (x) 0pro x (, x A 1 )(resp. P A(x) 0pro x (x A 2,+ )).Staktorozšířenoufunkcí L A(resp. P A )budemevdalšíčásti pracovat. (1)

334 324 Zdeněk Půlpán Příklad1.Fuzzymnožina A na R,definovanánásledujícímpředpisem 8 < e x+ε pro x < ε µ A(x)= 1 pro x ε, ε : e x+ε pro x > ε,ε >0 je fuzzy číslem. Příklad2.Fuzzymnožina B na R,jejížfunkcevěrohodnostijetvaru kde L B(x) = P B(x) = 8 < L B(x) pro x (, b) µ B(x)= 1 pro x=b : P B(x) pro x (b,+ ), b R, 8 < 0 pro x (, a x b +1 pro x (a, b) b a : 0 pro x b, ), a R; 8 < 0 pro x (, b) : x b b c +1 pro x b, c 0 pro x (c,+ ); a < b < c; c R, se nazývá trojúhelníkové fuzzy číslo. Je jednoznačně určeno reálnými čísly a, b, c, < a < b < c <+. Poznámka3.Fuzzymnožinu C na R,jejížfunkcevěrohodnosti µ c jetvaru kde 8 < L c(x) pro x (,b 1) µ c(x)= 1 pro x b 1, b 2 : P c(x) pro x (b 2,+ ), b 1 < b 2, L c(x) = P c(x) = 8 < 0 pro x (,a, a < b 1 x b 1 b : 1 +1 pro x (a, b1 a 0 pro x (b 1,+ ) 8 < 0 pro x (,b 2) : x b 2 b 2 c +1 pro x b2, c) 0 pro x c,+ ) nazýváme lichoběžníkové fuzzy číslo. Je jednoznačně určeno reálnými čísly a, b 1, b 2, c, < a < b 1 < b 2 < c <+.(Vzhledemk(1)je x c 1 =b 1, x c 2 =b 2.) ZáklademproporovnávánídvoufuzzyčíselA,B bývájejichprůseka B, resp.spojení A B.Funkcevěrohodnostiprůseku µ A B jedefinována µ A B (z)=sup{min{µ A (x), µ B (y)}; z=min{x, y}, x, y R}, resp.funkcevěrohodnostiprospojení µ A B jedefinována µ A B (z)=sup{min{µ A (x), µ B (y)}; z=max{x, y}, x, y R}. Řeknemepak,žefuzzyčíslo A jevětšíneborovnofuzzyčíslu B (označujeme A B ),jestližeplatí A = A B, resp. B = A B.

335 Uspořádání výsledků šetření reprezentovaných fuzzy čísly 325 Takto zavedená relace uspořádání mezi fuzzy čísly je reflexivní, antisymetrická a tranzitivní: A A jevyjádřenímpravdivéhotvrzení A = A A; A Ba B Aznamená A= A Ba B= B A= A B,pakale A = B; A Ba B Cznamená A = A Ba B = B C,pakale A = A (B C)=(A B) C= A C,cožjetotéžjako A C. Dokonce množina fuzzy čísel spolu s operacemi a tvoří distributivní svaz, který ale není úplný([2]). Výraz A Boznačujetotéžjako B A; A > Boznačuje A B asoučasně A B. Porovnávání fuzzy čísel pomocí průseku(resp. ekvivalentně pomocí spojení) nedává možnost posoudit významnost vztahu (nejde o fuzzy relaci). (Nenabízí také uspokojivou interpretaci v případě tzv. fuzzy symetrických fuzzy čísel, jak uvidíme dále.) Třída neporovnatelných fuzzy čísel(uvedenou metodou) je rozsáhlá, a to omezuje praktickou použitelnost. 2 První model uspořádání Pokusímesezdezavéstfuzzyrelaciv R,kterábybylatakéjistýmrozšířením klasické relace uspořádání reálných čísel a umožnila porovnávat kterákoliv dvě fuzzy čísla. Označmeznakem F množinuvšechfuzzyčíselna Rsriemannovskyintegrovatelnými funkcemi věrohodnosti. Na množině F F zaveďme nejprve fuzzyrelaci 1 funkcívěrohodnosti µ 1 vztahem µ 1 (A,B )= x B 1 max(µ A(x) L B (x),0)dx µ A(x)dx (2) apodobněfuzzyrelaci 2 funkcívěrohodnosti µ 2 vztahem µ 2 (B, A )= x B 2 max(µ A (x) P B (x),0)dx µ A(x)dx, (3) kde A, B F(profuzzymnožinu B užívámeznačeníz(1)). Pomocírelací 1, 2 můžemestanovitfuzzyrelaci mezilibovolnými dvěmafuzzyčíslyzf.ktomuzformulujemenásledujícídefinici2. Definice2.Fuzzyrelaci mezilibovolnýmidvěmafuzzyčísly A,B F definujemefunkcívěrohodnosti µ vetvaru µ (A, B )=max(µ 1 (A, B ) µ 2 (B,A ),0). (4) Poznámka 4. Podmínka integrovatelnosti funkcí věrohodnosti porovnávanýchfuzzyčísel A, B zpředchozídefinice2.podstatněneomezujetřídu

336 326 Zdeněk Půlpán uvažovaných fuzzy čísel. Většinou užíváme trojúhelníková nebo lichoběžníková fuzzy čísla, u nichž tato podmínka je vždy splněna. Příklad 3.Prodvojicetrojúhelníkovýchfuzzyčísel A i, B i, i=1,2,3, definovaných takto(viz příklad 2.): A 1 : a=1, b=2, c=3; B 1 : a=4, b=5, c=6; A 2 : a=0, b=1,5, c=3; B 2 : a=1, b=1,5, c=2; A 3 : a=4, b=5, c=6; B 3 : a=1, b=2, c=3 postupně pro příslušné hodnoty věrohodnosti µ 1, µ 2 a µ dostáváme z(2),(3)a(4)vjednotlivýchpřípadech(vsouladusnašíintuicí) i=1: 1;0;1 i=2: 1 3 ; 1 3 ; 0 i=3: 0;1;0. Pro vztah < uspořádání se obvykle požaduje, aby stejný význam měl vztah a < bjako b > a.definice2.všaktomutopožadavkunevyhovuje. Užijeme-lianalogiespředchozímpostupemprodefinovánífuzzyrelace, dostanemenovoufuzzyrelaci(odlišnouodfuzzyrelace ).Kdefinování fuzzyrelace spožadovanouvlastnostíbudemevšakanalogickyzavedenou fuzzyrelaci potřebovat.zaveďmeprotonejprverelace 1 a 2 funkcemi věrohodnosti µ 1 a µ 2 vztahy(5)a(6): µ 1 (B, A ) = x A 2 max(µb (x) P A (x),0)dx µ B(x)dx (5) µ 2 (A,B ) = x A 1 max(µ B(x) L A (x),0)dx µ. (6) B(x)dx Analogickysdefinicí2.zavedemenynífuzzyrelaci namnožině F Ffunkcí věrohodností µ. Definice3.Fuzzyrelaci mezilibovolnýmidvěmafuzzyčísla A, B F definujemefunkcívěrohodnosti µ vetvaru µ (B, A )=max(µ 1 (B,A ) µ 2 (A, B ),0). (7) Fuzzy relaci, kterou budeme považovat za jistý typ zobecnění klasické relace <(a relace >) mezi reálnými čísly na fuzzy čísla, pak zavedeme následující definicí 4. Definice4.Namnožině F Fdvojicfuzzyčíseldefinujemefuzzyrelace a funkcemivěrohodnostitvaru µ < (A, B ) = 0,5 (µ (B,A )+µ (A,B )) (8) µ > (A, B ) = 0,5 (µ (B,A )+µ (A,B )). (9) Poznámka5.Zdefinice4.vyplývá,žeprokaždé A, B Fplatí µ <(A, B ) 0;1 ; µ >(A, B ) 0;1 (10) µ <(A, B )=µ >(B, A ). (11)

337 Uspořádání výsledků šetření reprezentovaných fuzzy čísly 327 Příklad 4. Z dat příkladu 3. dostaneme pomocí vztahů(5),(6),(7) postupně projednotlivépřípady i=1,2,3následujícíhodnoty i=1: 1, 0, 1; i=2: 0, 0, 0; i=3: 0, 1, 0. Užitím definice 4. pak získáme z výsledku příkladu 3. a tohoto následující hodnotypro µ < (A i, B i ), i=1,2,3: i=1:µ <(A 1, B 1 )=0,5 (1+1)=1 i=2:µ <(A 2, B 2 )=0,5 (0+0)=0 i=3:µ <(A 3, B 3 )=0,5 (0+0)=0. Sohledemnapoznámku5.mámetaké µ > (B 1, A 1 )=1, µ > (B 2, A 2 )=0, µ > (B 3, A 3 )=0. Všeopětvsouhlasesnašíintuicí. Následujícípříklad5.ozřejmujeinterpretacihodnotpříslušnostirelací a. Příklad5.Uvažujmedvětrojúhelníkováfuzzyčísla A,B F,definovaná funkcemi věrohodnosti s následujícími parametry A : a=1, b=2, c=4 B : a=0, b=3, c=3,5. Pak pro jednotlivé funkce věrohodnosti máme µ 1 (A, B )=0,10 µ 1 (B, A ). =0,13 µ 2 (B, A ). =0,06 µ 2 (A, B ). =0,14 µ (A, B ). =0,04 µ (B, A )=0 µ <(A, B ). =0,5 (0,04+0)=0,02. = µ >(B, A ). Podobně ale také dostáváme µ 1 (B, A ). =0,14 µ 1 (A, B )=0,05 µ 2 (A, B )=0,13 µ 2 (B, A )=0,10 µ (B, A )=0,01 µ (A, B )=0 µ <(B, A ). =0,5 (0,01+0). =0,005. = µ >(A, B ). Uvedenáproceduraodhaduvztahufuzzyčísel A a B navrhujechápatfuzzy číslo A jakomenšínež B svěrohodností0,02avětšísvěrohodnostíjen0,005. Připomeňmesi,žeprofuzzyčísla A 2,B 2 zpříkladu3.platí µ < (A 2, B 2 )=0=µ > (A 2, B 2 ). Ukazuje se užitečným pojmenovat třídy všech fuzzy čísel, jejichž míry věrohodnostifuzzyrelací a jsoustejné,arovny0(tytotřídyjsouzřejmě třídami ekvivalence). To uskutečníme v definici 5. Definice5.Každádvěfuzzyčísla A,B Fbudemenazývatfuzzysymetrická, když pro ně bude platit: µ < (A,B )=µ > (A, B )=0, A,B F (12) a fuzzy nesymetrická, když pro ně rovnost(12) nebude platit.

338 328 Zdeněk Půlpán Následující věty popisují vztah dříve zavedených fuzzy relací. Některé dokážeme jen pro trojúhelníková fuzzy čísla. Věta1.Nechť A, B Fjsoulibovolnáfuzzyčísla.Pakje-li µ 1 (B,A )=1, je µ 2 (A, B ) = 0.Podobně,je-li µ 1 (A, B ) = 1,je µ 2 (B, A ) = 0. Obrácená tvrzení neplatí. Důkaz: Přímo z definic(2) a(3) plyne platnost následujících nerovností pro libovolnáfuzzyčísla A, B F 0 µ 1 (A, B )+µ 2 (B, A ) 1 0 µ 1 (A, B )+µ 2 (B, A ) 1. Je-litedy µ 1 (A,B )=1,je µ 2 (B, A )=0apodle(4)také µ (A, B )=1. Podobněmůžemeuvažovatužitímdruhénerovnostiiofuzzyrelaci 1 a 2. Neplatnost obráceného tvrzení vyplývá z předchozích nerovností nebo z příkladu4pro i=2. Věta2.Nechť A, B Fjsoulibovolnáfuzzyčísla.Pakje-li µ 1 (B,A )=1, jeiµ 1 (A,B )=1. Důkaz: Nechť c je krajní bod intervalu, pro který platí 0 < P A(x) <1 v (x A 2, c), A F P A(x)=0 pro x / (x A 2, c). Prokaždoufuzzymnožinu A označujemeznakemsupp(a )množinu Supp(A )={x R; µ A(x) >0}.Zpodmínkyvětyplyne,žeSupp(B )jeinterval, aprotomusíbýt c <+ aplatísupp(b ) (c,+ ).ProtoSupp(B) Supp(A )= (nebo nejvýše jednobodová) a platí Z x B 1 max(µ A(x) L B(x),0)dx = = Z c Z c max(µ A(x) L B(x),0)dx= µ A(x)dx= Z µ A(x)dx. Takžeopravdu µ 1 (A,B )=1. Jejasné,žepakipodobnězµ 1 (B, A )=1plyneiµ 1 (B,A )=1. Platnostostrétranzitivitymezifuzzyčíslyvzhledemkfuzzyrelaci 1 vysvětluje následující věta. Věta3.Nechť A,B,C jsoufuzzyčíslazmnožiny F.Je-li µ 1 (A, B )=1 a µ 1 (B, C )=1,pakiµ 1 (A, C )=1. Supp(A ) Supp(B )= (nebonejvýšejednobodová) x Supp(A ) y Supp(B ); x y Supp(B ) Supp(C )= (nebonejvýšejednobodová) y Supp(B ) z Supp(C ); y z. x Supp(A ) z Supp(C ); x z Supp(A ) Supp(C )= (nebonejvýšejednobodová) atedy µ 1 (A, C )=1.

339 Uspořádání výsledků šetření reprezentovaných fuzzy čísly 329 Poznámka7.Zřejmětaképlatípodobnétvrzeníiprofuzzyrelaci 2 : Je-li µ 2 (A, B )=1aµ 2 (B, C )=1,jeiµ 2 (A, C )=1. Následujícívětakonstatujeostroutranzitiviturelace na F. Věta4.Nechť A,B, C jsoufuzzyčíslazmnožiny F. Pakzµ (A,B )=1aµ (B, C )=1plyne µ (A,C )=1. Důkaz:Nechť A, B, C F,pakplatípřímozdefinice(4) µ (A, B ) = 1 µ 1 (A, B )=1 µ (B, C ) = 1 µ 1 (B, C )=1. Zvěty3.paktaképlyne µ 1 (A,C )=1.Přímozdefinicefuzzyrelace avěty1pakzposlednírovnostiprorelaci 1 dostáváme µ (A, C )=1. Poznámka8.Podobnétvrzeníjakovevětě4.platíiprofuzzyrelaci : Jsou-li A,B, C F,pakzµ (A,B )=1aµ (B,C )=1platí,že i µ (A,C )=1. Nyníukážeme,žeiprofuzzyrelaci mezifuzzyčíslyzfplatíklasická tranzitivita. Věta 5. Nechť A, B, C jsou libovolnáfuzzy čísla z množiny F. Je-li µ < (A,B )=1, µ < (B, C )=1,jeiµ < (A, C )=1. Důkaz:Nechť A, B, C F.Pak µ <(A, B )=1 µ (B, A )=1 µ (A, B )=1 µ <(B, C )=1 µ (C, B )=1 µ (B, C )=1 aužitímvěty4.máme µ (C, A )=1aµ (A,C )=1. Ztohoihnedpodledefinicefuzzyrelace máme µ < (A, C )=1. Vpříkladu5.jsmeviděli,žemíryvěrohodnosti µ < (A, B )aµ > (A,B ) dávají rozdílné výsledky. To v některých aplikacích způsobuje problém s interpretací(kdy se například očekává jednoznačné doporučení). Interpretaci si pak usnadníme zavedením totálního fuzzy uspořádání(jak je ukázáno v následující definici). Definice5.Nechť A, B jsoulibovolnádvěfuzzyčíslazmnožiny F.Totální fuzzyuspořádánídanéfunkcívěrohodnosti µ T < určímezevztahu µ T < (A,B )=max(µ <(A, B ) µ > (A,B ),0). (13) Poznámka9.Je-li µ T <(A,B ) >0,je µ T <(B,A )=0.Profuzzysymetrická fuzzyčísla A, B Fje µ T < (A,B )=0=µT > (A,B ). Poznámka 10. Podobně jako v definici 5. jsme určili totální fuzzy relaci uspořádání T,můžemeurčititotálnífuzzyrelaciuspořádání T : Prolibovolnáfuzzyčísla A,B Fvolíme µ T > (A,B )=max(µ >(A, B ) µ < (A,B ),0). (14)

340 330 Zdeněk Půlpán Věta6.Nechť A,B Fjsoulibovolnáfuzzyčísla.Pak Důkaz: Postupně platí µ T <(B, A )=µ T >(A,B ). (15) µ T <(B,A ) = max(µ < (B, A ) µ > (B, A ),0)= = max(µ > (A, B ) µ < (A,B ),0)=µ T > (A, B ). Věta7.Fuzzyrelace (resp. )na Fjeantireflexivní,tj. µ < (A, A )=0 (resp. µ > (A, A )=0) (16) prokaždé A F Důkaz:Prokaždé A Fpodle(8),(4)a(7)platí µ < (A, A ) = 0,5 (µ (A, A )+µ (A, A ))= = 0,5 (max(µ 1 (A, A ) µ 2 (A,A ),0)+ max(µ 1 (A, A ) µ 2 (A,A ),0)= = 0,5 (0+0)=0. Zvěty7.přímotakévyplýváantireflexivitafuzzyrelací T, T : µ T >(A,A ) = max(µ > (A,A ) µ < (A,A ),0)= = max(0 0,0)=0=µ T < (A,A ). Poznámka 11.Fuzzyrelacirovnosti = mezifuzzyčíslyna F jemožné definovat pomocí její funkce věrohodnosti ve tvaru µ = (A, B )=max(1 µ < (A,B ) µ > (A, B ),0) (17) prolibovolná A, B F. Následujícípříklad6.ukazuje,žetranzitivitafuzzyrelace 1 mezifuzzy čísly A,B,C F,definovanápodmínkou min(µ 1 (A, B ), µ 1 (B,C )) µ 1 (A, C ) (18) obecně neplatí. Příklad6.Mějmetřitrojúhelníkováfuzzyčísla A,B,C,definovanásvými parametry a, b, c takto: A : a 1 =1, b 1 =2, c 1 =3 B : a 2 = z, b 2 =4, c 5 =5, z R C : a 3 =0, b 3 =3, c 3 =4.

341 Uspořádání výsledků šetření reprezentovaných fuzzy čísly 331 Pakpro z ( 1,63; 1,33)vztah(15)neplatí.Napříkladpro z = 1,5 dostáváme výpočtem µ 1 (A,B ). =0,137 µ 1 (B,C ). =0,128 µ 1 (A,C ). =0,125 a je tedy min(µ 1 (A, B ), µ 1 (B, C )) = min(0,137;0,128) > 0,125. = µ 1 (A, C ). Poznámka12.Obdobavztahu(16)profuzzyrelace 2, 1 a 2 paktaké obecně neplatí. Míry věrohodnosti pro všechny zde uvažované fuzzy relace jsou založeny na jistých integrálech věrohodností fuzzy čísel. S ohledem na co nejlepší souhlas naší intuice a zkušenosti s formulovanými relacemi je třeba dříve zavedené definice vztahů někdy ještě poněkud opravit(nebo alespoň vyslovit možnost takové opravy). Jaký vliv pak na míru věrohodnosti fuzzy relací může taková oprava mít, ukážeme na příkladě. Definice6.Řekneme,žefuzzyčíslo A Fnormujemenafuzzymnožinu A n sfunkcívěrohodnosti µ A n,když µ A(x)dx 0avolíme µ A n(x)= µ A (x) µ, x R. (19) A(x)dx Poznámka13.Normovánímtrojúhelníkovéhofuzzyčísla A normujemejeho pravouilevoustranu;množinasupp(a )senormovánímnezměníprojakékolivfuzzyčíslo A F Supp(A n )=Supp(A ). (20) Převedeme-li výrazy(2),(3),(5),(6) v našich definicích tak, aby všude, kde se vyskytuje míra věrohodnosti některého trojúhelníkového fuzzy čísla (nebo její restrikce) byla nahrazena podílem, ve kterém v čitateli zůstává původnímíraavejmenovatelijehodnotaintegráluztétomírypřes R,dostaneme normalizované míry ve tvaru, např. b2 ( µ n µa (x) 1 (A,B) = max A L ) B(x) B,0 dx (21) A= c 1 a 1 2 ; B= c 2 a 2. (22) 2 Poznámka 14. V množině F jsou pro trojúhelníková fuzzy čísla ekvivalentní následující dvojice tvrzení: B A : µ 1 (A,B 0 µ 2 (B, A)=0 µ 1 (B, A) 0 µ 2 (A, B)=0; B A : µ 1 (A,B =0 µ 2 (B,A ) 0 µ 1 (B, A )=0 µ 2 (A,B ) 0.

342 332 Zdeněk Půlpán Nesplněnípodmínkytranzitivity(18)profuzzyrelaci 1 (resp. 1, 2, 2 ) natříděvšechfuzzyčíselzf omezujesilněmožnostiaplikací.protože 1 není fuzzy relací uspořádání splňujícího(18), zůstává mnohdy nerozřešen i problém určení optimální varianty ze tří možných. Otázkou je, jak asi často se to může stát v případě, že budeme používat trojúhelníková fuzzy čísla. Příklad7.Normujeme-litrojúhelníkováfuzzyčísla A,B,C zpříkladu6., dostaneme tak normalizované míry µ n 1 (A,B )=0,649 µ n (A, C )=0,457 µ n 1 (B, C )=0,095. Uvedená změna hodnot funkcí věrohodnosti způsobila, že pro uvažovaná fuzzy čísla a normalizovanou normu platí(16). Nechťlibovolnátřitrojúhelníkováfuzzyčísla A 1, A 2, A 3 jsouurčena postupnětrojicemičísel a i, b i, c i, a i b i c i, i=1,2,3.pakkdyžproně platí(vzhledem k jejich průsekům resp. spojením) A 1 A 2 A 3, (23) je a 1 a 2 a 3 ; b 1 b 2 b 3 ; c 1 c 2 c 3. (24) Platíaletakéobráceně,jsou-litřitrojúhelníkováfuzzyčísla A 1,A 2, A 3 vázánapodmínkou(24),platíproněpak(23).(jetodůsledekvěty1.10v[2].) Platí-livšakprolibovolnátřitrojúhelníkováfuzzyčísla A 1,A 2, A 3 podmínka(23),resp.(24),jesplněnataképodmínkafuzzytranzitivitypro 1 ( 2 i ).Tovyplýváztoho,žezauvedenýchpodmínekplatívždy b2 max(µ A1 (x) L A2 (x),0)dx b3 max(µ A1 (x) L A3 (x),0)dx. S ohledem na příklad 6. vidíme, že pojem fuzzy tranzitivity uvedených fuzzy relací je širší(splňuje ji rozsáhlejší třída fuzzy čísel). To je příznivá informace pro případné aplikace této metody porovnávání fuzzy čísel. Poznámka15.Jsou-lidvělibovolnátrojúhelníkováfuzzyčísla A 1, A 2 určenatrojicemičísel a i, b i, c i, a i b i c i,kdenavícje b i a i = c i b i, i=1,2,platívždybuď A 1 A 2 nebo A 2 A 1. Příklad 8. Byl sledován vliv pěti různých preparátů na léčbu určitého stadia jisté choroby. Úspěšnost léčby daným preparátem byla hodnocena na 11-bodovéstupnici0,1,2,...,10.Přitomhodnota10mělaoznačovatoptimální úspěšnost, hodnota 0 nejnižší úroveň úspěšnosti. Pro každý preparát se výsledky šetření vyhodnocovaly tak, že se ze všech expertních odhadů, tvořících množinu S, vyhledala jak minimální, tak i maximální bodová hodnota a medián(případně modus). Každému preparátu tak byla přiřazena úspěšnost léčby jako trojúhelníkové fuzzy číslo, určené trojicí a = min{s},

343 Uspořádání výsledků šetření reprezentovaných fuzzy čísly 333 b=medián{s}, c=max{s}.bylodohodnuto,žezedvoumožnýchpreparátů P i, P j, i j,súspěšnostmi P i, P j budepovažovánzalepšípreparát P j když µ T <(P i, P j ) >0. Výsledkyšetřenípropreparáty P 1, P 2,, P 5 bylyzaznamenánydotabulky1.vypočtenémíryvěrohodnostifuzzyrelace T jsouobsahemtabulky 2. preparát a b c min{s} medián{s} max{s} P P P P P T P P P P P P 0 0,14 0,94 0 0,66 1 P 0 0 1,00 0 0,71 2 P P 0,64 0,80 1,00 0 0,96 4 P 0 0 0, Tabulka 1: Tabulka 2: Z tabulky Tab. 2. byly sestaveny následující řetězce úrovně úspěšnosti zkoumanýchpreparátů: P 4, P 1, P 2, P 3 adále P 4, P 1, P 2, P 5 a P 5, P 3.Nejúspěšnějšísejevípakpreparát P 3. Průsek reprezentujících fuzzy množin nám nabízí informaci o vztahu úspěšnostíléčby,uvedenouvtabulcetab.3.zdeznakem? registrujeme neporovnatelnostúrovníúspěšnostipropreparáty P 1 a P 2. P P P P P P +? P? P P P Tabulka 3: Vynechánímvýsledkupropreparát P 2 (resp. P 1 )dostanemejižúplné uspořádánívezbývajícímnožiněfuzzymnožinúspěšností: P 4, P 1,(P 2 ), P 5, P 3. Někdy je vhodné uspořádat trojúhelníková fuzzy čísla pomocí x-ových souřadnic těžišť trojúhelníků, tvořených grafem nenulových hodnot funkce věrohodnostipříslušnéhofuzzyčísla A ajehosupp(a ).Vnašempřípadě bychom tak získali následující úplné uspořádání fuzzy množin pěti výsledných úspěšností preparátů(v závorkách je uvedena x-ová souřadnice těžiště, zaokrouhlená na jedno desetinné místo): P (3,3), P (5,3), P (5,7), P (7,3), P (8,3) Tento typ uspořádání vždy splňuje podmínku tranzitivnosti(a je úplné).

344 334 Zdeněk Půlpán 3 Druhý model uspořádání Pro porovnání dvou fuzzy čísel se nabízí ještě jedna cesta, analogická k definováníuspořádáníreálnýchčísel.fuzzyčíslo A Fnazvemekladné(resp. záporné),kdyžsup(a ) (0,+ )(resp.supp(a ) (,0)).Není-lifuzzy číslo A kladnéanizáporné,nazvemehonulové([4]).mějmenynídvělibovolnáfuzzyčísla A,B Faurčemefuzzyčíslo C = B +( A ).Promíru věrohodnostitohotofuzzyčísla C pakplatípodleprincipurozšíření µ C (z)=supmin(µ A (x), µ B (x+z)) (25) x ajepaki C F.Indikátorvztahu B > A (označmehopref(b,a ))pak definujemeprovšechna A,B Fpomocímíryvěrohodnosti µ C takto Pref(B, A )= 0 µ C (z)dz µ C(z)dz, když µ c (z)dz 0. (26) ZřejmějePref 0;1.DáleplatíPref(B,A )=1 Pref(A, B )aztoho Pref(A,A)=0,5.Je-linapř.Pref(B,A) >0,5,můžemetooznačitB > P A (obrácené tvrzení nemusí platit). Znakem B > K Aprolibovolnádvěfuzzyčísla A, Bmůžemeoznačit situaci,kdyfuzzyčíslo B A budekladné.(zřejmětedyplatí B > K B >P A prolibovolnádvěfuzzyčísla A,B F.) A Propraxijedůležitáotázka,zdavztahy > P, > K splňujípodmínkutranzitivity: ((A > B ) (B > C )) (A > C ). Uvažujme nyní jen gaussovská fuzzy čísla; míra věrohodnosti gaussovského fuzzyčísla A jeurčenadvojicíparametrů a, σ a vetvaru(27) ) (x a)2 µ A (x)=exp ( 2σa 2, (27) kde ajelibovolnéreálnéčíslo, σ a >0.Vzhledemkuvedenédefiniciplatípro každégaussovskéfuzzyčíslo A F. Máme-lidvěgaussovskáfuzzyčísla A,B,určenápostupněparametry a, σ a > 0, b, σ b > 0,pakfuzzyčíslo C = B +( A )jepodleprincipu rozšířeníopětgaussovské,určenéparametry b a, σ 2 a+ σ 2 b.1 1 Uvedenétvrzenívyplývásnadnoznásledujícíchvztahůajejichúpravy: «! (x a)2 (y b)2 exp 2σa 2 = exp 2σb 2 = α; 0 < α 1; x a = σ a 2ln α, y b =σ b 2ln α;

345 Uspořádání výsledků šetření reprezentovaných fuzzy čísly 335 ProhodnotuvýrazuPref(B,A)pakpodle(26)dostaneme(28)! b a Pref(B, A)=Φ p. (28) σ 2 a + σb 2 Předpokládejmeprotřigaussovskáfuzzyčíslaplatnostvztahů B > P A, C > P Bazjišťujme,zdapaktaképlatí C > P A.Zdefinicevztahu > P máme následující vzájemně si odpovídající podmínky: B >P A Φ! b a p >0,5 a C > P B Φ σ 2 a + σb 2! c b p >0,5. σ 2 c + σb 2 atedy b a >0, c b >0ac a >0.Tojevšakekvivalentnítvrzení C > P A.Relace > P jetedynamnožiněvšechgaussovskýchfuzzyčísel tranzitivní. Příklad9.Mějmetřigaussovskáfuzzyčísla A,B, C,určenánásledujícími hodnotami svých parametrů A : a=0; σa=1 B: b=1; σ b=2 C: c=0; σ c=3 Výpočtem a pomocí tabulek hodnot funkce φ dostaneme «1.=0,67 Pref(B, A) = φ «0,5.=0,55 Pref(C, B) = φ «1,5.=0,68. Pref(C, A) = φ Tedy B > P A, C > P B i C > P A. Uvažujmedálenesymetrickágaussovskáfuzzyčísla A sfunkcívěrohodnosti(29) sparametry a, σ a1, σ a2(kde ajelibovolnéreálné, σ a1, σ a2jsoukladnáreálnáčísla) 8 < exp (x a)2 pro x < a 2σ µ A(x)= a1 2 (29) : exp (x a)2 pro x > a. 2σ 2 a2 Jetedytaké A F.Pro σ a1=σ a2jepříslušnénesymetrickégaussovskéfuzzy číslosymetrickýmgaussovskýmfuzzyčíslem.kfuzzyčíslu Az(29)příslušífuzzy číslo Asparametry a,σ a2, σ a1. profuzzyčíslo B + A takdostávámepodmínku [x+ y (a+b)]2 2 (σa+ 2 σb 2) =lnα, tedy je gaussovské s parametry(a + b), q σ 2 a+ σ 2 b.fuzzy číslo A jetaké gaussovské (sparametry a, σ a),když A jegaussovské.

346 336 Zdeněk Půlpán Profuzzyčíslo C= B+( A)pakdostanemefunkcivěrohodnosti(30)ve tvaru 8 < exp (x (b a))2 pro x < b a 2(σ µ c(x)= b1 2 +σ2 a2 ) (30) : exp (x (b a))2 pro x > b a. 2(σ b2 2 +σ2 a1 ) Výslednéfuzzyčíslo C jeopětobecněnesymetrickégaussovské.prohodnotuvýrazupref(b, A )pakmáme p σ 2 Pref(B, A) = 2 b2 + σa1 2 p σ 2 b1 + σa2 2 + p b a σb2 2 + φ( p b < a, σ2 a1 σ 2 b2 + σa1),když 2 ««p σ 2 b1 + σa2 2 φ b a 0,5 +0,5 pσ σ 2 b1 +σ 2 b2 2 + σ2 a1 a2 Pref(B, A) = 2 p σ 2 b1 + σa2 2 + p σb2 2 +, σ2 a1 když b > a. (31) Příklad10.Mějmetřinesymetrickágaussovskáfuzzyčísla A, B, C,určenánásledujícími trojicemi svých parametrů Pak máme A : a=0; σ2 a1=1; σa2=1,5 2 B : b=1; σ2 b1=1; σb2=2,5 2 C : C=1,5; σ2 c1=1; σc2=2,5. 2 Pref(B, A ). =0,75; Pref(C, B ). =0,61; Pref(C, A ). =0,84. Tedy B > P A, C > P B i C > P A. Předchozípříklad10.navozujeotázkuotranzitivnostirelace > P.Náhodněproto byla generována pro každé gaussovské fuzzy číslo trojice určujících reálných čísel z intervalu (0; 100). Z asi trojic zkoumaných gaussovských fuzzy čísel nesplňovalo podmínku tranzitivnosti jen 927 trojic, např. A : 0,50;0,90;0,70 Pref(A, B )=0, B : 0,25;0,01;0,65 Pref(B, C )=0, C : 0,40;0,97;0,97 Pref(A, C )=0, Relace > P mezigaussovskýmifuzzyčíslytedynenísicetranzitivní,alepravděpodobnost této netranzitivity je velmi malá, asi 0, Vraťme se zpět k trojúhelníkovým fuzzy číslům. Snadno nahlédneme, že relace > P jetakétranzitivníinamnožiněvšechsymetrickýchtrojúhelníkovýchfuzzy čísel(kteránedegenerujínasingletony).(relace > P musíbýtdokoncetranzitivní pro jakákoliv symetrická fuzzy čísla.) Protože součet(resp. rozdíl) dvou trojúhelníkových fuzzy čísel A: a sa1, a, a+sa2; sa1, sa2 >0 B : b s b1, b, b+s b2 ; s b1, s b2 >0

347 Uspořádání výsledků šetření reprezentovaných fuzzy čísly 337 jeopěttrojúhelníkovéfuzzyčíslo,dostávámeprovýpočetpref(b, A )následující vyjádření(32) Pref(B, A ) = 0,když(b a)+(s a1+ s b2 ) <0, Pref(B, A ) = [(b a)+(s a1+ s b2 )] 2 (s a1+ s a2+ s b1 + s b2 ) (s a1+ s b2 ), (32) když b a <0<(b a)+(s a1+ s b2 ), [(a b)+(s a2+ s b1 )] 2 Pref(B, A) = 1 (s a1+ s a2+ s b1 + s b2 ) (s a2+ s b1 ), když(b a) (s a2+ s b1 ) <0<b a, Pref(B, A ) = 1když0<(b a)+(s a2+ s b1 ). (33) (Prosymetrickátrojúhelníkováfuzzyčísla A, B je s a1= s a2= s a, s b1 = s b2 = s b.) Ve třídě obecně nesymetrických trojúhelníkových fuzzy čísel neplatí také pro relaci > P podmínkatranzitivity.náhodnýmgenerovánímuvedenýchtypůfuzzyčísel jsmevšakzjistili,žepodmínkutranzitivitynesplňovalojen1, %zgenerovaných(přesněji: generováno bylo trojic trojúhelníkových fuzzy čísel s parametry z intervalu 0; 100 a podmínku tranzitivity nesplnilo 923 trojic trojúhelníkových fuzzy čísel). Podmínku tranzitivity například nesplňuje trojice trojúhelníkových fuzzy čísel určenýchprofuzzyčíslo X trojicí x,s x1, s x2, s x1 >0, s x2 >0: A: 39,4707; 26,5723; 1,82885, B: 26,5561; 19,1287; 41,4242, C: 735,7175; 88,5758; 76,7576, Pref(B, A )=0,501609; Pref(C, B )=0,502746; Pref(C, A )=0, ) Vraťmeseopětkpříkladu8.Dotabulky4zanesemehodnotyPref(P i, P j ) meziúspěšnostmikaždýchdvoupreparátů P i, P j, i, j=1,2,,5.dotabulky5 pakzanesemevýsledkyposuzovánívztahu P i > K P j mezidvěmaúspěšnostmi preparátů P i, P jtak,žeznakem0vtabulceoznačímesituaci,kdyfuzzyčíslo P i P bude nulové a znakem +(resp. ) situaci, kdy bude kladné(resp. záporné). j Z tabulky 4 dostaneme následující řetězce vztahů mezi úspěšnostmi preparátů: P > P P > P P > P P > P P Ztabulky5.alezískámeméněinformace,pouze,že P 3 > K P 2 a P 3 > K P 4. Relace > P,generovanápomocí(26)vmnožině(trojúhelníkových)fuzzyčíselzF je ostrá, antisymetrická i ostře tranzitivní. V množině fuzzy čísel z F, která nejsou singletony,jerelace > P iúplná.

348 338 Zdeněk Půlpán Pref P P P P P P 0,50 0,40 0,03 0,76 0,17 1 P 0,60 0,50 0,00 0,90 0,14 2 P 0,97 1,00 0,50 1,00 0,71 3 P 0,24 0,10 0,00 0,50 0,02 4 P 0,83 0,86 0,29 0,98 0,50 5 Tabulka 4: > K P P P P P P r P P 3 P 4 P Tabulka 5: 4 Závěr Ukázali jsme, jak lze zavést antisymetrickou, ostře tranzitivní a úplně uspořádanou fuzzy relaci na (trojúhelníkových) fuzzy číslech s riemannovsky integrovatelnou mírou věrohodnosti. Přitom pod úplností fuzzy relace jsme rozuměli jen to,žedefiničníoborjejífunkcevěrohodnostije F F.Tato(tyto)fuzzyrelace T ( 1, 2,,, 1, 2, )umožňuje(umožňují)porovnatkterákolivdvěfuzzy číslazmnožiny Fnazákladěvěrohodnostnífunkceanarozdílodvelmičastoužívaného kategorického porovnávání fuzzy čísel metodou průseku a spojení je(jsou) úplná(úplné). Podmínku fuzzy tranzitivity ale obecně nesplňuje(nesplňují ji však ani jiné fuzzy relace na jistých množinách fuzzy čísel, např. fuzzy relace preference([1],[2])). Relace > P,zavedenáprostřednictvím(26),seukazujejakovelmivýhodná,řešící dobře problémy, reprezentované příkladem 8. Reference [1] Mareš M.(1994). Computation over fuzzy quantities. CRC Press, Boca Raton. [2] Talašová J.(2003). Fuzzy metody vícekriteriálního hodnocení a rozhodování. Univerzita Palackého v Olomouci, Olomouc. [3] JangJ.,-S.R,SunC.-T,MizutaniE.(1997).Neuro fuzzyandsoftcomputing. Prentice Hall, NJ 07458, USA. [4] Půlpán Z.(2000). K problematice měření v humanitních vědách. Academia, Praha. [5] MarešM.(2001).PočítánísvágnostíII.Automatizace2, [6] Xuzhu Wang, Etienne E. Kerre(2001). Reasonable properties for the ordering offuzzyquantities.(i)fuzzysetsandsystems118, ;(II)FuzzySets andsystems118, Adresa: Z. Půlpán, Katedra matematiky, Pedagogická fakulta Univerzity Hradec Králové, Rokitanského 62, Hradec Králové 3 zdenek.pulpan@uhk.cz

349 ROBUST 2004 c JČMF 2004 ANALÝZA PŘEŽITÍ A COXŮV MODEL PRO DISKRÉTNÍ ČAS Soňa Reisnerová Klíčová slova: Coxův regresní model, proporcionální rizika, analýza nezaměstnanosti. Abstrakt: Tento článek se zabývá Coxovým regresním modelem a jeho aplikací pro diskrétní povahu dat. Ukazuje, jakými metodami se získávají odhady parametrů modelu a jaké jsou jejich asymptotické vlastnosti. Zmiňuje testy významnosti parametrů modelu, test dobré shody a test proporcionality rizik. Vše je v závěru článku demonstrováno na datech týkajících se vývoje nezaměstnanosti v České republice. 1 Úvod V tomto článku budeme pomocí stochastických procesů modelovat data, která měří čas do nějaké události. Jsou to data související s analýzou přežití, u nichž nás bude zajímat zejména intenzita, s jakou události nastávají. V regresním modelu proporcionálních rizik tato data závisejí na vysvětlujících proměnných(kovariátách). Jelikož je základní riziková funkce, která představuje obecnou na čase závislou intenzitu výskytu událostí, libovolná, dostáváme semiparametrický model. Nejdříve uděláme stručný úvod do analýzy přežití, pak přejdeme k mnohorozměrnému čítacímu procesu a od něj se již dostaneme ke Coxově regresnímu modelu proporcionálních rizik. 2 Analýza přežití Nejznámější je použití analýzy přežití v lékařských studiích zkoumajících časy úmrtí pro skupinu pacientů trpících stejnou chorobou. Zabývejme se nyní odhadem a testováním hypotéz týkajících se rizikové funkce λ, v tomto případě intenzitou smrti, která je obecně definována takto: Předpokládejme, že máme data týkající se homogenní populace. Nechť X je absolutně spojitá nezápornánáhodnáveličinasdistribučnífunkcí F(t)=P(X t)ahustotou f(t)=f (t)= S (t),kde Sjefunkcepřežitídefinovanávztahem S(t)= P(X > t)=1 F(t). Xpředstavuječasúmrtí(časvýskytuudálosti)pro každého jedince, pak P(X t+ t X t) λ(t)= lim = f(t) t 0+ t 1 F(t) = d log S(t). (1) dt Kumulativní riziková funkce je definovaná Λ(t)= t 0 λ(s)ds, potom S(t)=1 F(t)=exp{ Λ(t)}. (2)

350 340 Soňa Reisnerová 3 Mnohorozměrný čítací proces Pozorujme časy událostí skupiny n jedinců, kteří pocházejí z homogenní populace.uvažmenáhodnécenzorovánízpravaakonečnýčasstudie. X i X iid iid časudálosti, C i Cčascenzorováníprojedince i=1,...,najsouproněj nezávislé.veskutečnostipozorujemepouze(t i, δ i),kde Ti =min(x i, C i )je cenzorovanýčasudálostiaδ i je1pronecenzorované,0procenzorovanépozorování. N(t)= n i=1 N i(t)jepočetpozorovanýchudálostídočasu tvcelé populaci,kde N i (t) = I(Ti s, δ i =1). Njemnohorozměrnýčítacíproces. Y(t)= n i=1 Y i(t)jepočetpozorovanýchjedinců,ukterýchmůženastat událostvčase t,kde Y i (t) = I(Ti t). Y je indikátorový stochastický proces. Pro odhad parametrů budeme potřebovat věrohodnostní funkci, část obsahujícícharakteristikynáhodnéveličiny X i (f,f, λ)mátvar: L= n i=1 f(t i )δi P(X i > T i )1 δi = n i=1 f(t i )δi (1 F(T i ))1 δi. S využitím vztahů(1) a(2) dostáváme L= n i=1 λ(t i )δi (1 F(T i ))= n i=1 λ(t i )δi exp { T i 0 λ(s)ds }. Tato situace je popsána v rozsáhlé literatuře, uveďme např.[1],[5],[6]. My budeme nadále předpokládat, že máme časově diskrétní pozorování vperiodáchjednotkovédélky,délkaceléstudieje TperiodaTi {1,..., T }. Riziková funkce je skokovitá, ale konstantní pro každou periodu. Za těchto předpokladůapokudoznačímedn i (t)přírůstky N i včase(t 1, t můžeme věrohodnost přepsat n T { } i n L= λ(ti )δi exp λ(s) = T T λ(t) dni(t) exp λ(s)y i (s). i=1 s=1 i=1 t=1 4 Coxův regresní model proporcionálních rizik V jistých případech potřebujeme do modelu zahrnout vliv vysvětlujících proměnných,čehožlzedosáhnoutpřidánímindividuálníchkovariát Z i (vnašem případě nezávislých na čase) do rizikové funkce. Mějme populaci n jedinců aukaždéhopozorujeme(ti, δ i, Z i ).Předpokládejme,žejsou X i a C i nezávislépřidaném Z i.vztahkovariátarizikovéfunkcevysvětlímemultiplikativním regresním modelem λ i (t)=λ 0 (t)exp{β T Z i }, t {1,..., T }, i=1,...,n, (4) s=1 (3)

351 Analýza přežití a Coxův model pro diskrétní čas 341 nazývanýmcoxůvregresnímodelproporcionálníchrizik,kde λ 0 jeneznámá nezáporná základní riziková funkce a β je p-rozměrný vektor regresních parametrů. Nechť je základní riziková funkce po částech konstantní, pak věrohodnostní funkce pro Coxův regresní model odvozená z(3) má tvar: n T L= (λ 0 (t)exp { { } β T } T Z i ) dn i(t) exp λ 0 (s)exp{β T Z i }Y i (s). i=1 t=1 (5) V našem případě je tento model plně parametrizovaný, a proto mohou být jeho parametry odhadnuté maximalizací logaritmu věrohodnostní funkce. Pokudparciálníderivacilog-věrohodnostnífunkcevzhledemkλ 0 (t)položíme rovnou nule a vyřešíme, dostaneme Breslow- Crowleyho odhad základní rizikové funkce: λ 0 (t)= s=1 n j=1 dn j(t) n i=1 Y i(t)exp{β T Z i }, (6) kde parameter β může být nahrazen odhadem. Ve[4] bylo navrženo odvození βzparciálnívěrohodnostnífunkce L p (β),kterájevěrohodnostníprofilovoufunkcívesmyslu L p (β)=max λ L.Vnašempřípaděmátvar: L p (β)= n i=1 t=1 ( T exp{β T Z i } n j=1 Y j(t)exp{β T Z j } ) dni(t). (7) Jejíodvozenílzenajítnapř.v[5].Označme C(β, T)=log L p (β).odhad ˆβ parametru β pro obecný případ(spojitý čas) je definován ve[2] řešením rovnice, která má v našem případě tvar 0= C(β, T) β = n i=1 t=1 [ T n j=1 dn i (t) Z i Y ] j(t)z j exp{β T Z j } n j=1 Y. (8) j(t)exp{β T Z j } Tato rovnice se řeší iterativním algoritmem. Stejnou rovnici bychom dostali, kdybychomdosadili λ 0 (t)z(6)do λ 0 (t)v log L/ β. Pokudnászajímajístatistickévlastnosti ˆβa λ 0 (t)můžemevyjítzplně parametrizovaného modelu a přímo použít vlastností maximálně věrohodných odhadů. Také lze využít obecných výsledků ve[2] a modifikovat je pro náš případ: Abychom mohli vyjádřit matici druhých parciálních derivací z log-parciální věrohodnostní funkce, potřebujeme zavést následující pomocné funkce: n n S (0) n (β, t) = j=1 Y j (t)exp{β T Z j } S (1) n (β, t)= S (2) n (β, t)= j=1 Y j (t)z j exp{β T Z j } n Y j (t)z j Zj T exp{β T Z j }. (9) j=1

352 342 Soňa Reisnerová MaticedruhýchderivacíΣ n (β, T)= 2 C(β, T)/ ββ T mátvar [ ] n T S n (2) (β, t)s n (0) (β, t) (S n (1) (β, t))(s n (1) (β, t)) T dn i (t). (10) (S n (0) (β, t)) 2 i=1 t=1 Asymptotická stabilita, předpoklad na pomocné sumy v(9), Lindebergova podmínka a předpoklad regularity(podrobně pro obecný případ viz. [2], 1982,str.1105)jsoupostačujícímipředpokladyprokonzistenci β, ˆβ β aasymptotickounormalitu, n(ˆβ β)máasymptotickymnohorozměrné rozdělení N p (0,Σ 1 ),kdeσjepozitivnědefinitníalzestejnoměrněkonzistentněodhadnout 1 n Σ n(ˆβ, T). Nyní když dosadíme odhad β do Breslow- Crowleyho odhadu(6), dostaneme odhad základní rizikové funkce. Kumulativní funkce, která je definovaná v(2),seodhadnejako t n j=1 Λ 0 (t)= dn j(s) n i=1 Y i(s)exp{ˆβ T Z i }. (11) s=1 Dle[2]lzezazmíněnýchpodmínekodvoditslaboukonvergenci n( Λ 0 Λ 0 ) ke Gaussovskému procesu s nulovou střední hodnotou a kovarianční funkcí, která může být stejnoměrně konzistentně odhadnuta + t n s=1 i=1 ( t s=1 i=1 dn i (s) (S (0) n (ˆβ, s)) n S (1) n (ˆβ, s)dn i (s) (S (0) n (ˆβ, s)) 2 (12) 2+ ) ( t ) n Σ n (ˆβ, T) 1 S n (1) T (ˆβ, s)dn i (s). s=1 (S n (0) (ˆβ, s)) 2 Na základě předchozích tvrzení je již snadné zkonstruovat konfidenční intervalproregresníparametry βazákladnírizikovoufunkci λ 0 (t), t=1,...,t. Statistické testy Vlastnosti klasických maximálně věrohodných odhadů nám umožní snadno odvoditstatistickétestyproparametr β.waldovastatistikaproh: β= β 0 jerovna(ˆβ β 0 ) T Σ n (ˆβ, T)(ˆβ β 0 ),amápřibližně χ 2 rozděleníspstupni volnosti za platnosti hypotézy H. Statistika založená na věrohodnostním poměruproh: β= β 0 mátvar2(c(ˆβ, T) C(β 0, T)).Přestožejeasymptoticky ekvivalentní k Waldově statistice, mohou se jejich vlastnosti na konečném souboru mírně lišit. Grafickýtestdobréshodynavrženýv[3]jezaloženýnasoučtureziduíve stratu I {1,..., n} R I (ˆβ, t)= t n i=1 N i (t) dn i(s) j I Y j(s)exp{ˆβ T Z j } n i I i=1 Y, (13) i(s)exp{ˆβ T Z i } s=1 i=1

353 Analýza přežití a Coxův model pro diskrétní čas 343 pro t {1,...,T }.Znázorňujerozdílmezipozorovanýmiapředpokládanými počty událostí ve stratu I. Jedním z klíčových předpokladů Coxova modelu je proporcionalita rizik. Poměrrizikovýchfunkcídvouobjektů ka lbymělsplňovatvztah λ 0 (t)exp{β T Z k } Z k } λ 0 (t)exp{β T Z l } =exp{βt exp{β T Z l }, (14) který je nezávislý na čase. Jednoduchý grafický test tohoto předpokladu je navržen v[6]. Nejprve odhadneme kumulativní rizikovou funkci bez znalosti speciálního tvaru základní rizikové funkce. Toto umožňuje Nelson-Aalenův odhad(viz.[1]) Λ(t) = t s=1 n i=1 dn i(s) n i=1 Y i(s). (15) Nechť I, J {1,...,n}jsoudvědisjunktnístrata,paksoučtempřes iv(15) procházejícímnožinami I resp. J dostaneme Λ I (t)resp. Λ J (t).vhodným grafickýmtestemjezobrazení log( Λ m (t)),kde m {I, J}.Pokudjepředpoklad proporcionality rizik splňen, křivky jsou přibližně paralelní. 5 Analýza nezaměstnanosti v České republice Představme si ideální data týkající se nezaměstnanosti. Pro každou skupinu a periodu by obsahovala počet lidí ohrožených nezaměstnaností, počet nově nezaměstnaných a počet lidí, kteří si znovu našli práci. Pro taková data by logickými modely byly Poissonovy, jako speciální případ standardní analýzy přežití. Bohužel taková data nebyla k dispozici, proto jsme použili Poissonův model s regresí na souhrnná data o nezaměstnanosti v České republice z Českého statistického úřadu, která nemají tak bohatou strukturu. Data obsahují pozorování z 11 kvartálů(1/2001-3/2003) rozdělených do 14 krajů, podle pohlaví a do 6 věkových kategorií(15-24, 25-29, 30-34, 35-44, 45-54,55avíce).Dohromadymáme14 2 6=168tříd.Datajsouseřazena domatice {N ti } ,kde N ti jepočetnezaměstnanýchvtřídě ivčase t. Řádky matice jsou seřazené podle kraje, pohlaví a nakonec dle věku, sloupce ukazujívývojvčase.máme14+2+6=22kovariát,kteréjsoualejenindikátory příslušnosti do určité skupiny. Postačující velikost parametru β je 19 (prvních13odpovídákrajům, β 14 ženám, β 15 až β 19 věkovýmkategoriím), protože parametr odpovídající prvnímu kraji, pohlaví a věkové kategorii je nulový. Data byla analyzována v softwaru Matlab verze 6.0. Předpokládejme,žepro t=1,...,11, i=1,...,168sedatařídímodelem (podobně viz.[7]) N ti Poiss{N 0,i λ(t, i)} a λ(t, i)=λ 0 (t)exp{β T Z i }, (16)

354 344 Soňa Reisnerová kde N 0,i jepočetobyvatelvjednotlivýchkrajíchčr(ke3.kvartálu2003), λ 0 (t)jepočástechkonstantnífunkce.věrohodnostnífunkcemápronášmodel tvar L= i=1 t=1 ( (N 0,i λ 0 (t)exp{β T exp{ N0,i λ Z i }) Nti 0 (t)exp{β T Z i }} N ti! odpovídající parciální věrohodnostní funkce je ( L p (β)= i=1 t=1 exp{β T Z i } 168 j=1 N 0,iexp{β T Z j } ), (17) ) Nti. (18) Použití tohoto modelu má jisté problémy, neboť předpokládá Poissonovo rozdělení, aniž bychom měli nezávislá pozorování. Na druhou stranu výsledky testů jsou uspokojivé a ukazuje se, že model poměrně dobře popisuje realitu. Numerické výsledky Odhad parametru β jsme získali z parciální věrohodnostní funkce pomocí Newton-Raphsonovaiteračníhoalgoritmu, λ 0 (t)jsmedostaliz(6)adále jsme využili poznatky o Coxově regresním modelu. Všechny složky parametru β máme statisticky významné. Waldova statistika týkající se významnosti parametru βje1471astatistikavěrohodnostníhopoměruje1477.odpovídajícíhodnota χ 2 statistikyo19stupníchvolnostije30.14,takžemůžeme zamítnout hypotézu o nulovosti parametru β. Následující tabulka obsahuje odhady parametrů β s 95% konfidenčním intervalem. β odhad konfidenční interval Středočeský kraj Budějovický kraj Plzeňský kraj Karlovarský kraj Ústecký kraj Liberecký kraj Královéhradecký kraj Pardubický kraj Jihlavský kraj Brněnský kraj Olomoucký kraj Zlínský kraj Ostravský kraj ženy věková kategorie věková kategorie věková kategorie věková kategorie věková kategorie 55 a více

355 Analýza přežití a Coxův model pro diskrétní čas 345 Nejhorší situace je v Ústeckém a Ostravském kraji. Lépe než ostatní kraje sivedeprahahl.m.naopakhoršísituacejeproženyavěkovouskupinu let. Na následujících obrázcích je znázorněn odhad základní rizikové funkce s 95% intervalovými odhady a grafický test dobré shody pro tři strata. 3.5 x 10 6 Odhad základní rizikové funkce cas Test dobré shody kumulativní pocty nezamestnaných predpokládaný pocet pro Moravu predpokládaný pocet pro strední, jizní, západní Cechy predpokládaný pocet pro severní a východní Cechy pozorované pocty cas Následuje grafický test proporcionality rizik.

356 346 Soňa Reisnerová log(odhad kumulativní rizikové funkce) Grafický test proporcionality Morava strední, jizní, západní Cechy severní a východní Cechy Křivky log( Λ(t)) jsou pro daná tři strata přibližně paralelní. Model nabízí několik modifikací. Mohli bychom do něj zahrnout vliv interakcí kovariát, či zohlednit vliv sousedních krajů. Reference [1] Andersen P.K., Borgan O.(1985). Counting process models for life history data: a review. Scand.J.Statist. 12, [2] Andersen P.K., Gill R.D.(1982). Cox s regression model for counting processes: a large sample study. Ann. Statist. 10, [3]ArjasE.(1988).AgraphicalmethodforassessinggoodnessoffitinCox s proportional hazards model. J. Amer. Statist. Assoc. 83, [4] Cox D.R.(1972). Regression models and life tables(with discussion). J. Roy.Statist.Soc.B34, [5] Fleming T.R., Harrington D.P.(1991). Counting processes and survival analysis. Wiley, New York. [6] Therneau T.M., Grambsch P.M.(2000). Modeling survival data: Extending the Cox model. Springer, New York. [7] Volf P. (2003). Cox s regression models for dynamics of grouped unemployment data. Bulletin of the Czech Econometric Society 10, 19, Poděkování: Tato práce vznikla s podporou grantu GAČR č. 402/04/1294. Adresa:S.Reisnerová,KPMSMFFUK,Sokolovská83,18675Praha8 sona.reisnerova@centrum.cz cas

357 ROBUST 2004 c JČMF 2004 EXTRÉMY V TEPLOTNÍCH ŘADÁCH Monika Rencová Klíčová slova: Teorie extrémů, teplotní řady, tříparametrické Weibullovo rozdělení. Abstrakt: Ze statistického hlediska je užitečné studovat chování maximálních nebo minimálních ročních teplot. Z teorie extrémů vyplývá, že rozdělení ročních minimálních/maximálních teplot by mělo odpovídat jednomu z extremálních rozdělení. Existuje však několik důvodů, proč dostupná data neodpovídají Gumbelovu rozdělení. Pro modelování těchto dat může být vhodnější tříparametrické Weibullovo rozdělení. 1 Úvod Široce rozšířená hypotéza o globálním oteplování vyvolala zájem o studium teplotních řad. Ke změně však nedochází pouze u průměrných teplot, ale mnoho klimatologů tvrdí, že změna klimatu se může projevovat především vznikem extremálních událostí. V příspěvku jsou sledovány dlouhé řady průměrných denních teplot naměřených v sedmi meteorologických stanicích- v Padově( ), Milánu ( ), Uppsale( ), Stockholmu( ), Cadizu( ),St.Petersburgu( )aBelgii( ).Tatodatapocházejí z knihy D. Camuffa a P. Jonese Improved understanding of past climatic variability from early daily European instrumental sources. Podle známé extremální teorie bychom mohli usuzovat, že maximální/ minimální roční teploty budou rozděleny podle jednoho z extremálních rozdělení. Avšak naše data tento závěr nepotvrzují. 2 Základní vlastnosti dat Ukážeme si několik důvodů, proč Gumbelovo rozdělení v našem případě není vhodné pro modelování těchto dat. 1. Gumbelovo rozdělení vzniká jako asymptotické rozdělení maxima/ minima posloupnosti nezávislých veličin, případně maxima/minima stacionárních posloupností s krátkou pamětí(např. ARMA posloupností), viz článek Daniely Jaruškové. Konvergence je však velmi pomalá, pokud mezi po sobě jdoucími členy posloupnosti je silná závislost. Tak tomu je např. u našich dat. Korelační koeficient průměrných denních teplot mezi dvěma po sobě jdoucímidnysepohybujeuvšechstanickolemhodnoty0,8.naobrázku1 jsou znázorněny korelační koeficienty průměrných denních teplot mezi jednotlivými po sobě jdoucími dny v roce. Horní křivka odpovídá dvěma po sobě jdoucím dnům, další křivky směrem shora dolů odpovídají korelačním koeficientům průměrných denních teplot mezi dny, jejichž rozdíl jsou 2 dny

358 348 Monika Rencová 1 Milan korelace Obrázek 1: Korelace mezi jednotlivými dny. 25 Milan Obrázek 2: Závislost průměrné denní teploty na dni v roce. a3dny,t.j.udruhékřivkybylyspočtenykorelačníkoeficientymezi1.lednem a3.lednem,2.lednema4.lednematd. 2. Dalším důvodem proč asymptotická teorie selhává, je nestejné rozdělení veličin, z nichž počítáme maximum/minimum. Nestejné rozdělení je způso-

359 Extrémy v teplotních řadách Milan Obrázek 3: Histogram všech dostupných dat Obrázek 4: Histogram z dat, kdy bylo dosaženo maximum. beno ročním chodem. Zjistili jsme např., že v našich datech nastal nejteplejší denvrozmezípřibližně100dnů.toznamená,žepronalezenímaximanení nutno sledovat období mimo tento časový úsek(přibližně den vroce),vizobrázek2.

360 350 Monika Rencová 3. Vzhledem k tomu, že uvažujeme maxima z relativně malého počtu dat, hraje výraznou roli původní rozdělení veličin. Na obrázku 3 je histogram všech denních teplot, na obrázku 4 je příklad histogramu z dat, ve kterých alespoň v některém roce byla dosažena maximální teplota. 4. Rozdělení maxim/minim mohou být také ovlivněna celkovým růstem teploty, což ilustruje graf vývoje průměrné teploty, viz obrázek Milan prùm. teplota Obrázek 5: Řada průměrných ročních teplot. Základní informace o průměrných, minimálních a maximálních hodnotách jsouuvedenyvtabulkách1až3. Průměr x σ n 1 šikmost Miláno Padova Belgie Cadiz Uppsala Stockholm St.Petersburg Tabulka 1: Průměr vlastnosti.

361 Extrémy v teplotních řadách 351 Maximum x σ n 1 šikmost Miláno Padova Belgie Cadiz Uppsala Stockholm St.Petersburg Tabulka 2: Maximum vlastnosti. Minimum x σ n 1 šikmost Miláno Padova Belgium Cadiz Uppsala Stockholm St.Petersburg Tabulka 3: Minimum vlastnosti. 34 QQ Plot of Sample Data versus Standard Normal 7 qqplot Gumbel maximum Milan Quantiles of Input Sample Y Quantiles Standard Normal Quantiles X Quantiles Obrázek 6: QQ plot- maximum Miláno, vlevo-normální rozdělení, vpravo- Gumbelovo rozdělení.

362 352 Monika Rencová 3 Maxima and minima Když porovnáme tabulky 2 a 3, zjistíme, že pro minimální teploty vychází šikmost záporná a nabývá vyšších hodnot, zatímco pro maximální hodnoty vychází šikmost kladná s hodnotami nižšími, blízkými nule. Mohli bychom tedy usuzovat, že rozdělení maximální teploty je spíše normální než Gumbelovo. Zatímco minimální teploty se neřídí ani normálním ani Gumbelovým rozdělením. O tom se můžeme přesvědčit také srovnáním příslušných grafů naobrázcích6a7. 4 QQ Plot of Sample Data versus Standard Normal Milan 10 qqplot Gumbel minimum Milan Quantiles of Input Sample Y Quantiles Standard Normal Quantiles X Quantiles Obrázek 7: QQ plot- minimum Miláno, vlevo-normální rozdělení, vpravo- Gumbelovo rozdělení Weibull minimum Milan Weibull minimum Obrázek 8: Srovnání odhadnutého tříparametrického Weibullova rozdělení s původními daty.

363 Extrémy v teplotních řadách Weibullovo rozdělení Pro modelování nesymetrických dat, k nimž patří také maximální/minimální teploty, se často používá tříparametrické Weibullovo rozdělení, pro jehož hustotu platí f(x; θ, α, β)=αβ(x θ) α 1 e β(x θ)α (θ < x <, α >0, β >0). Pro každou teplotní řadu byly nalezeny odhady tříparametrického Weibullova rozdělení. Např. pro Miláno jsme dostali odhady ˆα= ,ˆβ= ,ˆθ= Z obrázku 8 vyplývá, že tento model popisuje naše data poměrně dobře. Reference [1] Camuffo D., Jones P.(2002). Improved understanding of past climatic variability from early daily European instrumental sources. Climatic Change 53,1 3. Adresa: M. Rencová, Katedra matematiky, FSV ČVUT, Thákurova 7, Praha 6 rencova@mat.fsv.cvut.cz

364 354

365 ROBUST 2004 c JČMF 2004 TESTY A KONFIDENČNÉ INTERVALY PRE STREDNÚ HODNOTU V MODELOCH JEDNODUCHÉHO TRIEDENIA Alexander Savin Kľúčové slová: Medzilaboratórne štúdie, modely jednoduchého triedenia, heteroskedasticita. Abstrakt: Kenward a Roger [8] navrhli metódu, pre testovanie hypotéz o strednej hodnote pomocou úpravy odhadu variancie neznámych parametrov strednej hodnoty a následnou aproximáciou Waldovej štatistiky v zovšeobecnenom lineárnom modeli. V texte je pojednávaná táto metóda pre model jednoduchého triedenia s pevnými efektmi v prípade heteroskedasticity, a porovnaná už so známymi metódami pre inferenciu o strednej hodnote spomenutých v[4]. 1 Úvod V medzilaboratórnych štúdiách uvažujeme, že merania na tom istom objekte záujmu sú vykonávané v k laboratóriach. V i-tom laboratóriu sa meranie opakuje n i krát, n i 2.Laboratóriásamôžumedziseboulíšiťvariabilitou, ako aj rozličnými medzi-laboratórnymi varianciami(heteroskedasticita). Dané laboratóriá môžeme mať buď pevne špecifikované(pevné efekty) alebo môžu byť vybrané náhodne z nejakeho počtu možných laboratórií(náhodné efekty, pozri[14]). V modeloch budeme uvažovať normálnu distribúciu meraní. Ak máme pevne zadané laboratóriá, teda v modeli uvažujeme pevné efekty,predpokladámee(y ij )=µ+α i = µ i pre i, j. Uvažujeme nasledujúci model s jedným faktorom: Y ij = µ i + ε ij (1) = µ+α i + ε ij, (2) i=1,...,kaj=1,..., n i,pre n i 1,akdepredpokladáme:E(e ij )=0, Var(ε ij )=σ 2 i j, pre i=1,...,kacov(ε ij, ε uv )=0, i u, j v. Pre túto situáciu by sme potrebovali zistiť, či objekt záujmu je meraný rovnako v jednotlivých laboratóriách, teda testujeme hypotézu o homogenite strednej hodnoty: H 0 : µ 1 = µ 2 = =µ k = µoproti H 1 : také i, jže µ i µ j. (3) Tejto historicky známej problematike sa niekedy hovoríaj zovšeobecnený Behrens Fisherov problém: testovanie homogenity strednej hodnoty pri rozličných varianciách pre jednotlivé triedy(laboratóriá). V članku v[4] sú spomenuté niektoré testy. Náš príspevok do tejto problematiky je využitie meódy

366 356 Alexander Savin Kenwarda a Rogera[8], navrhnutej pre zovšeobecnený lineárny model, pre tento model. Testovacia štatistika je: kde F KR = 1 k 1 j=1 k n i S 2 i=1 i k Ȳ i. Ȳ i. = 1 n i Y ij, Si 2 = 1 n i n i 1 j=1 n i j=1 n j Ȳ j. S 2 j / k n j S 2 j=1 j 2, (4) ( ) 2 Yij Ȳi., pre i=1,...,k. λf KR mápribližné Frozdeleniesk 1amstupňamivoľnosti,kde λam sa odhadujú nasledovne: λ= m E[F](m 2), (5) k+1 m=4+ ( [Var[F](k 1)] / 2E[F] 2), (6) 1 kde ( E[F]= 1 A k 1 k 2 A= 1 n i 1 c 1 = i=1 ) 1, Var[F]= ( k n i ˆσ 2 i=1 i ) 1 ni 3 3k 2 +2k+5, c k = 3k 2 +2k+5, ˆσ 2 i 2 2(1+c 1 B) (1 c 2 B) 2 (1 c 3 B),, B= 7A 2(k 1), c 3= k2 +2k+4 3k 2 +2k+5. Na porovnanie uvedieme už známe používané metódy: ANOVA F-test:Testjedaný F= N k k i=1 n i (Ȳi. Ȳ..) 2 k 1 k i=1 (n, (7) i 1)Si 2 kde k i=1 Ȳ.. = n iy i. k i=1 n. i Tento test testuje rovnosť stredov z jednotlivých tried má za platnosti hypotézy(3) H 0 Frozdeleniesk 1aN kstupňamivoľnosti.tentotestje pre danú problematiku nevhodný, aj keď sa v praxi môže vyskytnúť, nakoľko test predpokladá variančnú homogenitu, ktorá v heteroskedastickom modeli nie je splnená.

367 Testy a konfidenčné intervaly pre strednú hodnotu Brownov Forsytheov test: Tento test je tiež známy ako modifikovaný F-test, je daný k i=1 B= n i (Ȳi. Ȳ..) 2 k i=1 (1 n. (8) i/n)si 2 Brown a Forsythe[2] použili pre odvodenie svojho testu maximalizáciu cez kontrasty podobne, ako je odvodený ANOVA F-test. Pre odvodenie distribúcie štatistiky B, použili Satterthwaiteovu aproximáciu stupňov voľnosti. Akjehypotéza(3) H 0 pravdivá Bjedistribuovanápribližneako Fnáhodná premennásk 1aνstupňamivoľnosti,kde [ k ] 2 i=1 (1 n i/n)si 2 ν= k i=1 (1 n i/n) 2 Si 4/(n i 1). Modifikovaný Brownov Forsytheov test: Mehrotra[9] v pokuse opraviť chybu v pôvodnom Brownovom Forsytheovom teste vypracoval nasledujúci test k B i=1 = n i (Ȳi. Ȳ..) 2 k i=1 (1 n, (9) i/n)si 2 Chyba v Brownovej Forsytheovej testovacej procedúre, identifikovaná Mehrotrom[9], je v špecifikácii čitateľa stupňov voľnosti. Brown a Forsythe používajú v čitateli k 1 stupňov voľnosti, naproti tomu Mehrotra[9] používa Boxovu(1954)aproximáciu.Teda B má F-distribúciusν 1 a νstupňami voľnosti, kde [ k i=1 (1 n i/n)si 2 ν 1 = [ k i=1 S4 i + k ] 2 i=1 n isi 2/N k 2 i=1 n isi 4/N ] a νjedanévyššie. Cochranov test: K odvodeniu testovacej štatistiky môžeme pristupovať aj iným spôsobom ako pomocou kontrastov v predchádzajúcich prípadoch. Ak uvažujemeneznámeparametre µ 1,...,µ k,ichodhadysú Ȳ1.,..., Ȳk.svarianciami σ1 2/n 1,..., σk 2/n k.aksúvariancie σ1 2/n 1,...,σk 2/n kznáme,potom štatistika ) 2 k k Q= ω i (Ȳ i. h i Ȳ i., (10) i=1 kde ω i = n i /σ 2 i a h i = ω i / k j=1 ω j,mázaplatnostihypotézy(3) H 0 χ 2 distribúciu s k 1 stupňami voľnosti. i=1

368 358 Alexander Savin Ponahradeníneznámychvarianciíσ 2 1 /n 1,..., σ 2 k /n kichodhadmi S 2 1 /n 1,...,S 2 k /n k,dostávameštatistiku C= ˆQ= k ˆω i (Ȳ i. i=1 ) 2 k ĥ i Ȳ i., (11) kde ˆω i = n i /S 2 i a ĥi = ˆω i / k j=1ˆω j,ktorámázaplatnostihypotézy(3) H 0 približnérozdelenieako χ 2 náhodnápremennásk 1stupňamivoľnosti. Štatistika C bola uverejnená Cochranom[3] a neskôr modifikovaná Welchom[13]. Welchov test: Test je daný k i=1ˆω i (Ȳi. k i=1 W= k 1+(k 2)(k+1) 1 k i=1 i=1 ĥiȳi. ) 2 ( 1 ĥi) 2 /(ni 1). (12) Welch[13] aproximoval rozdelenie W pomocou F náhodnej premennej. Za platnostihypotézy(3) H 0,máštatistika W približne Fdistribúciusk 1 a ν W stupňamivoľnosti,kde 2 Simulačné štúdie k 2 1 ν W = 3 ( ĥi) 2. k i=1 1 /(ni 1) V tejto simulačnej štúdii chceme porovnať sily už známych testov pre testovanie hypotézy o homogenite strednej hodnoty s testom odvodeným metódou Kenwarda a Rogera[8]. Realizovalisme N =10000krátpostačujúceštatistiky Y i a S 2 i prevýpočet testu pre našu hypotézu o homogenite, kde parametre do simuláciísme vyberali týmito spôsobmi: µ=(µ 1,..., µ k ) smeuvažovalinasledovne prenasimulovaniehladinyvýznamnostizaplatnostihypotézy(3) H 0 µ i =0 i=1,...,k; pre nasimulovanie sily jednotlivých testov za platnosti alternatívnej hypotézy(3) H 1 { 2, pre i=3j+1 1, pre i=3j+1 µ i = a µ i = 0, pre i=3j+2 0, pre i 3j+1 1, prei=3j+3, kde j=0,...,k/3 1.

369 Testy a konfidenčné intervaly pre strednú hodnotu Vďalšomsmeuvažovali k {3,6,9,15,21}.Vzory σ 2 i a n ibolibranépodľa nasledujúcej tabuľky: j j A n j C n j σ 2 j σ 2 j n j n j σ 2 j σ 2 j n j n j σ 2 j σ 2 j B n j D n j σ 2 j σ 2 j n j n j σ 2 j σ 2 j n j n j σ 2 j σ 2 j Tabulka 1: Tabuľka použitých dizajnov. Výsledky simuláciísú uvedené v nasledujúcich tabuľkách. Pre rozsiahlosť výsledkov a počet tabuliek, uvedieme výsledky simulaciípre k {3, 9}: ˆα% F B B C W F KR A B C D Tabulka 2: Aktuálne nasimulované hladiny významnosti(5%) pre k = 3. 3 Diskusia Simulácie ukázali, že klasický ANOVA F-test a Cochranov test nám dávajú zlé vysledky. Ostatné testy nám dávajú dobré a porovnateľné výsledky. Welchov test sa pri malom počte opakovanív triedach a narastajúcom počte tried chová liberárne. TestzaloženýnametódeKenwardaaRogera[8]jeporovnateľnýsuž známymi testmi,(brownov Forsytheov test, Welchov test). Oproti nim má síce nižšiu silofunkciu, pri malom počte opakovanív triedach a narastajúcom počte tried sa chová konzervatívne, ale vykazuje stabilitu pri odhadovaníchýb prvého druhu.

370 360 Alexander Savin ˆα% F B B C W F KR A B C D Tabulka 3: Aktuálne nasimulované hladiny významnosti(5%) pre k = 9. ˆα% F B B C W F KR A B C D Tabulka4:Nasimulovanásilatestovpre k=3, µ j =2, µ j+1 =0, µ j+2 =0. ˆα% F B B C W F KR A B C D Tabulka5:Nasimulovanásilatestovpre k=3, µ j = 1, µ j+1 =0, µ j+2 =1.

371 Testy a konfidenčné intervaly pre strednú hodnotu ˆα% F B B C W F KR A B C D Tabulka6:Nasimulovanásilatestovpre k=9, µ j =2, µ j+1 =0, µ j+2 =0. ˆα% F B B C W F KR A B C D Tabulka7:Nasimulovanásilatestovpre k=9, µ j = 1, µ j+1 =0, µ j+2 =1. Ďalšia možnosť pri riešenítohoto problému je rozvinúť už známe odvodené metódy ako Merhotra[9] Brownov Forsytheov test. Alternatívne možnosti, ktoré sa otvárajú je použitie metód založených na zovšeobecnených p-hodnotách. Reference [1] Böckenhoff A., Hartung J.(1998). Some corrections of the significance level in meta-analysis. Biometrical Journal 40, [2] Brown M.B., Forsythe A.B.(1974). The small sample behavior of some statistics which test the equality of several means. Technometrics 16, [3]CochranW.G.(1937). Problemsarisingintheanalysisofaseriesofsimilarexperiments.J.Roy.Stat.Soc.Supp.4,

372 362 Alexander Savin [4] Hartung J., Argaç D., Makambi K.H.(2002). Small sample properites of test on homogenity in one-way ANOVA and meta-analysis. Preprint. Department of Statistics, University of Dortmund. [5] Hartung J., Makambi K.H.(2002). Alternative test procedures and confidenceintervalsonthecommonmeaninthefixedeffectsmodelformetaanalysis. Preprint. Department of Statistics, University of Dortmund. [6] Iyer H.K., Wang C.M., Mathew T.(2002). Models and confidence intervals for true values in interlaboratory trials. Submitted to the Journal of the American Statistical Association. [7] Kackar A.N., Harville D.A.(1984). Approximations for standard errors of estimators of fixed and random effects in mixed linear models. Journal of the American Statistical Association 79, [8] Kenward M.G., Roger J.H.(1997). Small sample inference for fixed effects from restricted maximum likelihood. Biometrics 53, [9] Mehrotra D.V.(1997). Improving the Brown Forsythe solution to the generalized Behrens Fisher problem. Commun. Statist. Simula. 26, [10] Rukhin A.L., Biggerstaff B.J., Vangel M.G.(2000). Restricted maximum likelihood estimation of a common mean and the Mandel Paule algorithm. Journal of Statistical Planning and Inference 83, [11] Rukhin A.L., Vangel M.G.(1998). Estimation of a common mean and weighted means statistics. Journal of the American Statistical Association 93, [12] Savin A., Wimmer G., Witkovský V.(2003). On Kenward Roger confidence intervals for common mean in interlaboratory trials. Measurement Science Review, Theoretical Problems Of Measurement Vol. 3, 53 56, [13] Welch B.L.(1951). On the comparison of several mean values: An alternative approach. Biometrika 38, [14] Witkovský V., Savin A., Wimmer G.(2003). On small sample inference for common mean in heteroscedastic one-way model. Discussiones Mathematicae, Probability and Statistic 23, Poďakovanie: Výskum bol podporený grantmi z Vedeckej grantovej agentúry Slovenskej Republiky 1/0264/03 a 2/4026/04. Adresa: A. Savin, Ústav merania, Slovenská akadémia vied, Dúbravská cesta 9, Bratislava, Slovenská Republika savin@savba.sk

373 ROBUST 2004 c JČMF 2004 HISTORIE GRAFICKÉHO ZOBRAZOVÁNÍ STATISTICKÝCH DAT Ivan Saxl, Lucia Ilucová Klíčová slova: tématická kartografie, statistická grafika. Abstrakt: Tématická kartografie(mapy doplněné daty) je stará pouze několik málo staletí. Statistická grafika začíná v XVII. století, k jejímu systematickému rozvoji dochází však až koncem století XVIII. Zpočátku mají grafy vesměs politicko-ekonomickou tématiku. Velký rozmach grafického zobrazování dat probíhá v XIX. století a je dílem francouzských stavebních inženýrů, většinou žáků Gasparda Monge. Souběžně se grafika uplatňuje i ve společenských studiích, v epidemiologii, v biologii a grafy se objevují již i ve školních učebnicích. 1 Úvod Grafická reprezentace dat se v současné době těší mimořádné pozornosti. Vedle jejího praktického rozvíjení sofistikovanými počítačovými programy probíhá také podrobné studium její minulosti. Na Internetu lze nalézt skoro každý významnější graf z minulosti a existuje řada adres obsahujících detailní chronologické přehledy umožňující prohlédnutí a obvykle i stažení stovek komentovaných grafů včetně popisu okolností jejich vzniku a životopisných medailonů jejich autorů(viz[1]-[7]). Z nejvýznamějších časopisecky či knižně publikovaných prací lze uvést především[6],[8],[11]-[13]. Na požadavek graphicalstatistics poskytnevyhledávačgoogle988000odkazů,další tisíceprodukujíhesla statisticalgraphics, statisticalgraphs atd.moderní přístupyjsouzachycenynapř.v[5],[7],[9],[14],[15]. Proč graficky zobrazovat statistická data? W.S. Jevons komentuje své časové diagramy, v nichž sleduje změny cen základních i méně běžných produktůvzávislostina komerčníchbouřích typuobjeveníaustralskéhozlata v roce 1849 takto: Jejich smyslem není ani odkaz ke konkrétním číslům, která lze lépe zjistit z odpovídajících tabulek, jako předvést očím obecné výsledky vyplývající z velkého množství číslic, jež nemohou být zachyceny jinak než graficky. Mé diagramy ukazují i ty nejmenší detaily tabulek, ale předčí i výpočty středních hodnot, protože oko či mysl samy zaznamenají obecný trend číselných souborů. Pouze tato reprezentace může být základem politicko-ekonomických debat a přesto většina statistických zdůvodnění závisí napárčíslechvícečiméněnáhodněvybraných. 1 Samotné slovo graf je poměrně nové(objevilo se až koncem XIX. století), předtím se pro grafickou prezentaci dat převážně používalo slov mapa adiagram. 1 R.D.Block(edit.)PapersandcorrespondenceofWilliamStanleyJevons,vols.1 7, Macmillan, London , vol. 2, 450. Dopis R. Huttonovi z

374 364 Ivan Saxl, Lucia Ilucová Obrázek 1: Rekonstrukce fresky nalezené v Catal Hüyüku a Anaximandrovy mapy světa. Obrázek 2: Ptolemaiova mapa světa a diagram poloh planet(pořadí:venuše, Merkur, Saturn, Slunce!, Mars, Jupiter, Měsíc). Prácejakocelekjevycházípředevšímzcitací[1]-[4],[6],[8],[10],[11],[13], které nejsou v textu explicitně uváděny. Citace úzce související s konkrétním textem jsou uváděny v poznámkách. 2 Kartografie a tématická kartografie Nejstarší formou grafického znázornění dat jsou mapy po tisíciletí zobrazující jednak pozemské oblasti, jednak výřezy hvězdné oblohy. Nejstarší známou mapou je část plánu města(patrně Catal Hüyük) objeveného jako freska při vykopávkáchvletech1961až1965naplánikonyavanatoliiadatovaného uhlíkovou metodou do let 6250 až 6400 př. Kr., podle letokruhů dokonce 7100 až7200př.kr. Obr.1.Autoremúdajněprvní(podleHérodotovapopisu rekonstruované)mapysvětajeanaximandroszmilétu 2 Obr.1. Klaudios Ptolemaios je tvůrcem prvních map se zakreslenými poledníky i rovnoběžkami Obr. 2. Nejstarší zobrazení planetárních pohybů pochází 2 StručnéživotopisnéúdajeoautorechjsouuvedenyvDodatku.

375 Historie grafického zobrazování statistických dat 365 Obrázek 3: Halleyova mapa isogonál v Atlantickém oceánu(1701). odneznáméhoautorazdobykolemroku950azachycujezměnypolohslunce ahvězdvprůběhuroku Obr.2. Dalším vývojovým momentem je zakreslování doplňujících charakteristik; E. Halley roku 1701 publikuje mapu se zakreslenými isogonálami spojujícími místa se stejnou magnetickou deklinací Obr. 3. Tím začíná obor tématické kartografie, v níž jsou do map vedle územního členění zanášena data vztahující se k obyvatelstvu, obchodu, dopravě i k historickým událostem. Na jejím počátku jsou mapy analfabetismu ve Francii(P. Ch. F. Dupin: Carte delafranceeclairéeetdelafranceobscure,1819)avanglii(j.fletcher: Distribution of ignorance in England, 1834) založené na průzkumu matrik (záznamy sňatků analfabetů mají značky místo podpisů) Obr. 4. Zřejmě sem patří také slavný plán Londýna vytvořený Johnem Snowem v roce 1854 za účelem objasnění příčiny cholerové epidemie Obr. 4. Zakreslením poloh studní a bydlišť nemocných se podařilo lokalizovat nakaženou studnu a zjistit způsob šíření nákazy, který do té doby nebyl bezpečně znám. Prvenství v mapování šíření epidemie však patří Valentinu Seamanovi, který publikoval podobnou mapu jako J. Snow v souvislosti s epidemií žluté horečkyvnewyorkuvroce1795(obr.5)aněkolikmapvýskytucholerybylo publikováno v Anglii již v první polovině XIX. století.

376 366 Ivan Saxl, Lucia Ilucová Obrázek 4: Fletcherova mapa analfabetismu v Anglii(1834) a Snowův plán Londýna v době cholerové epidemie(1854). Obrázek 5: Seamanova mapa výskytu žluté horečky v New Yorku(1795).

377 Historie grafického zobrazování statistických dat 367 Obrázek 6: Napoleonovo tažení na Moskvu od Ch. J. Minarda(1869). Šířka stopy znázorňuje početní sílu armády, graf ve spodní části mapy udává průběh teploty při jejím ústupu. Nepřekonaným vrcholem co do emocionální působnosti je nejslavnější mapavšechdob,napoleonovotaženínamoskvucharlesejosephaminarda zroku1869 Obr.6.Vsoučasnédobějsounejběžnějšímproduktemtématické kartografie mapy zachycující okamžitý stav počasí, publikované v dennímtiskuavtelevizi. 3 Statistická grafika Statistická grafika prezentuje nejrůznější data v závislosti na zvoleném parametru, jímž bývá velmi často čas. Samotné slovo graf do angličtiny zavedl J. J. Sylvester v roce 1878 v souvislosti s konstatováním podobnosti mezi schématy molekulárních vazeb a grafickou reprezentací algebraických invariantů. Zhruba v téže době definuje graf Charles S. Peirce jako plošný diagram sestávající z bodů či jejich ekvivalentů a jejich spojnice na omezené ploše.potřebatakovédefiniceukazuje,dojakémírybylygrafyještěkoncem XIX. století málo běžným informačním prostředkem. Jejich počáteční rozvoj byl do značné míry ovlivněn, ne-li podmíněn, několika vynálezy umožňujícími grafické zaznamenávání kontinuálně probíhajících fyzikálních procesů. Prvním z nich je Christopherem Wrenem vynalezený zapisovač počasí(weather-clock) zaznamenávající teplotu a směr větru v polárních souřadnicích, dalším Wattův indikátor tlaku v parním stroji. 3.1 Vývoj grafického zobrazování v XVIII. století Za zakladatele statistické grafiky je obecně považován William Playfaire. Ve svýchgrafikách,kterénazýval čárovouaritmetikou (lineal arithmetics),

378 368 Ivan Saxl, Lucia Ilucová Obrázek 7: Van Langrenův diagram rozdílů zeměpisných délek Toleda a Říma podlerůznýchautorů(1644);šipkaukazujekesprávnéhodnotě16 30,nápis ROMA je v místě vychýlené střední hodnoty historických kartografických údajů. Obrázek 8: Druhá čtvrtina diagramu J. Priestleye(1765). využíval převážně kartézské souřadné soustavy, v níž znázorňoval závislosti jedné i více zvolených veličin na vybraném parametru, jímž byl nezřídka čas. Měl však řadu předchůdců. Prvním z nich je Michael F. van Langren publikujícívroce1644srovnánírozdílůzeměpisnýchdélekřímaatoleda Obr.7. Údaj známý v jeho současnosti je srovnán s vesměs pozitivně vychýlenými odhady získanými z různých historických map. Druhým ranným grafem je Životopisná mapa(chart of Biography, 1765) Obr. 8, jejíž autorem je neobyčejně plodný vynálezce, vědec, teolog a politik Joseph Priestley. Opět se jedná v podstatě o jednorozměrný diagram prezentující životní rozpětí 2000 významných osobností žijících v letech 1200 př. Kr. až Priestley na čtyřech stránkách komentáře přesvědčuje čtenáře, že toto znázornění času je možné a účelné. Zatímco dnes je tento přístup považován za zcela přirozený, v polovině XVIII. století tomu bylo jinak. Kartézské souřadnice byly obecně přijaty jako systém vhodný pro znázornění prostoru, v němž existuje pozorovatelný materiální svět(nezavedl je však Descartes, ale

379 Historie grafického zobrazování statistických dat 369 Obrázek 9: Obchodní bilance mezi Anglií a Norskem s Dánskem(1786) a kruhový diagram amerických států(1805) od W. Playfaira. Leonardo da Vinci kolem roku 1500 pro analýzu rychlosti padání objektů). Historický čas však byl považován za jev subjektivní, vázaný na schopnost myšlení a sám Descartes zdůrazňoval nezbytnost úplného abstrahování od analogiíshmotoupřistudiuzákonitostímysli. Skotský filosof Dugald Stewart ve stati A general View of the Progress of Metaphysical, Ethical, and Political Philosophy since the Revival of Letters(1811) napsané pro Dodatky k Britské encyklopedii konstatuje, že historie, jako znalost určitých faktů a dějů, je především záležitostí naší paměti, která je subjektivní. Historické děje(a s nimi také ekonomické, populační aj.) sice mohou být a nejspíš jsou podřízeny nějakým zákonům, ty však nelze zjistit pozorováním jako zákony přírodní, ale pouze reflexí, uvažováním. Speciálně ekonomický stav státu je důsledkem subjektivního jednání lidí v jejich soukromých životech; to může probíhat např. na základě zdravéhorozumu.protožeprvníkrokygrafickéstatistikyseodbývalyprávěna půdě historie a politické ekonomie, byl pro ni význam chápaní historického času zcela podstatný a jeho subjektivní chápaní bylo velkou překážkou jejího obecného rozšíření. William Playfair byl schopný vynálezce, ale jeho hlavní zájmy byly finance a obchod, v nichž však byl spíše neúspěšný, a dále publicistika, která jej dovedla ke statistické grafice, jíž se proslavil. V této oblasti mohla být jeho inspirací jednak spolupráce s J. Wattem, u nějž pracoval jako kreslič a návrhář, jednak rady jeho bratra, matematika a geologa. Od něj se podle vlastního sdělení naučil, že všechno, co lze vyjádřit čísly, může být vyjádřeno také rovnými čarami. Mezi jeho významné práce patří graf růstu britského národního dluhu v letech 1699 až 1800, grafy vzájemného obchodu mezi Anglií arůznýmistáty(např.sněmeckem,sdánskemanorskem Obr.9),histogram zahraničního obchodu Skotska aj. Populární jsou také jeho grafy, v nichž upozorňoval na vysoké daňové zatížení Angličanů(Obr. 11) a první

380 370 Ivan Saxl, Lucia Ilucová Obrázek 10: Srovnání cen pšenice(histogram uprostřed) a mzdy mechanika (grafvdolníčásti)zavládyrůznýchpanovníků(grafvhorníčásti)odw.playfaira(1821). kruhový diagram rozlohy amerických států Obr. 9. K nejznámějším patří mimořádně sugestivní graf porovnávající ceny pšenice a mzdy řemeslníků na pozadí vlád jednotlivých britských panovníků v letech 1665 až 1821 Obr. 10. Pozoruhodné je, že právě tento graf na první pohled nesděluje autorův záměr a hrozivě rostoucí černý histogram(termín histogram však zavedl až K. Pearson 3 )muspíšeprotiřečí Obr.11.Playfairovousnahoubylototižpodle jehovlastníhovyjádření 4 ukázat,ženikdynebylapšenicetaklevnájakona počátku XIX. století. To je však patrné teprve tehdy, když je vynesen graf poměru cen a mezd, který skutečně klesá od devíti ke dvěma. Playfairův graf tak ukazuje jednu z charakteristických vlastností grafického zobrazení, totiž na možnost vytvoření dojmu na první pohled opačného, než odpovídá skutečnému obsahu dat. Playfairovy práce jsou shrnuty v knize The Commerical and Political Atlas vydané v Londýně roku 1786 a obsahující 44 diagramů; s výjimkou jediného se jedná o časové závislosti. Tím je sloupcový diagram zachycující obchod mezi Skotskem a 13 jinými státy a Playfairovi se podařilo získat data pouze pro jediný rok(1780), takže nemohl vynést časovou závislost. V úvodu tokomentujejakonedostatek(...itdoesnotcomprehendanyportionof time,andismuchinferiorinutilitytothosethatdo. ).Vetřetímvydání Atlasu v roce 1801 však sloupcový graf již vyzdvihuje jako typický produkt 3 Vizpoznámkunastr.399vjehočlánkuvePhil.Trans.Roy.Soc.A186(1895). 4 Z Playfairova komentáře ke grafu (citováno podle H. Wainer: Visual revelations, Chance 17(2004), 51 54, který je také autorem ukázaného poměrového grafu Obr. 11):...themainfactdeservingconsiderationis,thatneveratanyformerperiodwaswheatso cheap,inproportiontomechanicallabour,asitisinthepresenttime....

381 Historie grafického zobrazování statistických dat 371 Obrázek 11: Poměr ceny pšenice a mzdy řemeslníka podle předcházejícího Playfairovagrafu (viz pozn. 4 ) a jeho srovnání daňového zatížení občanů čtyřech evropských států(překreslená část původního grafu z roku 1801). Obrázek12:Lambertův číselnýgraf (1779)udávajícípočetdnůvměsíci, kdybylodosaženourčitéteploty(horizontálníosave C)agrafzávislosti ohřevu půdy v průběhu roku na zeměpisné šířce(1779). své čárovéaritmetiky.jakopříkladuvádímuže,kterýdenněvydělájistý sloupec guinejí a jehož výsledná výška je potom rovna součtu výdělků za určitý čas, který je tak v zobrazení implicitně zahrnut. Jedním z prvních uživatelů grafického zobrazení dat byl také alsaský přírodovědec Johann Heinrich Lambert, jehož hlavním zájmem byla fotometrie a fyzikální či astronomická měření. Byl patrně první, kdo vytvořil číselný graf vhodnýmrozmístěnímčíselnýchhodnotvrovině Obr.12. S dalším propagátorem grafických metod se vrací problematika sociálních a politických věd. August Friedrich Wilhelm Crome byl profesorem politickýchvědvgießenuajeznámýjednaksvýmiknihami(např.überdie Große und Bevölkerung der europäischen Staaten z roku 1785), jednak řadou pamfletů, v nichž vedl vášnivé politické diskuse a své názory často dokazoval graficky zpracovanými statistickými údaji. Pomocí diagramů různých typů porovnával situaci v jednotlivých státech, např. velikost států znázorňuje pomocí pravidelných obrazců(čtverců, obdélníků či kruhů) o plochách

382 372 Ivan Saxl, Lucia Ilucová Obrázek 13: Srovnání společenských a hospodářských charakteristik německýchstátůoda.f.w.crome(1821);plochyobdélníkůjsouúměrnéjejich rozlohám. úměrných rozlohám států, takže optický dojem není zkreslen komplikovaným průběhem hranic Obr. 13(autorem prvního takového grafu byl však Charles de Fourcroy; v práci l Essay d une table poléographique z roku 1782 srovnává rozlohy evropských měst čtvercovým diagramem podobným obr. 13- viz[12]). Slavná je také jeho mapa Produkten-Karte von Europa z roku 1782, znázorňující vedle měst a přístavů také přírodní a průmyslovou produkci v jednotlivých zemích. 3.2 Nové směry statistické grafiky v XIX. století Poté, co se grafické zobrazování začalo v širší míře používat, vyskytla se potřeba technických prostředků, které by usnadňovaly jeho realizaci a šíření. V Anglii v roce 1794 začíná Dr. Buxton vyrábět rastrovaný papír, v Německu v roce 1798 pražský rodák Aloys Senefelder vynalézá litografickou techniku pro tisk map a diagramů(své výsledky shrnuje v knize Vollstandiges Lehrbuch der Steindruckerei, 1818). Ve Francii v roce 1843 Léon Lalanne(viz níže) začíná používat sférické souřadnice a v roce 1846 zavádí logaritmickou stupnici na obě pravoúhlé osy. Semilogaritmickou stupnici používá jako první prosvédiagramyw.s.jevonsvroce1863.

383 Historie grafického zobrazování statistických dat 373 Playfairovy grafy byly patrně inspirací pro anglickou statističku Florence Nightingaleovou. Přihlásila se jako dobrovolná zdravotní sestra v době krymské války, sestavovala časové tabulky úmrtí pacientů podle příčin a jimi dokazovala nedostatečnost nemocniční hygieny v polních podmínkách. V prvním provedení byly počty úmrtí úměrné úsekům poloměrů výsečí a tedy zkreslené, potésiuvědomilasvouchybuajakoprvnízavedlaradiálnígraf Obr.14. Vedle podrobné zprávy pro vojenské kruhy vydala stručný souhrn svých výsledků také jako malou brožurku(mortality of the British Army, 1858) s cílem ovlivnit veřejné mínění. Ať již její grafické zpracování přesvědčilo velení armády či veřejnost, která uplatnila svůj vliv, hygieně v nemocnicích začala být věnována podstatně větší pozornost, a to nejen v armádě. Po návratu do Anglie měla F. Nightingaleová značný(údajně dodnes přetrvávající) podíl na celkovém zlepšení nemocniční péče, jíž věnovala veškerou svou pozornost po zbytek života. Její radiální grafy bývají v literatuře nazývány kohoutími hřebínky(coxcombs), jedná se však o jeden z historických omylů; kohoutím hřebínkem nazvala F. Nightingalová v průvodním dopise z k výše zmíněnébrožurcepresidentovikrálovskéarmádníkomisesidneyherbertovi 5 právě tuto brožurku, nikoliv svůj radiální graf. Od začátku XIX. století se střediskem vývoje grafického znázorňování dat stává Francie. Jejich technické využití a rozvoj jsou svázány s odvozem městských odpadků, který byl aktuální již v XVIII. století a vynucoval si stále rozsáhlejší stavbu silnic. Maximální efektivností této problematiky se zabývaly dva přední francouzské vzdělávací ústavy: vojenská École de Génie v Meziéres(s těžištěm v likvidaci pevnostního odpadu) a École des Ponts et Chausées v Paříži zaměřená civilně. Profesorem na první škole byl Gaspard Monge, zakladatel deskriptivní geometrie, a právě z jeho žáků a následovníků se rekrutovali významní propagátoři grafického zobrazování. Na druhé z uvedených škol zase vyučoval již zmíněný Ch. J. Minard. Záměr pokrýt celou Francii vyhovující sítí silnic hvězdicovitě vycházejících z Paříže se stává aktuální kolem roku Při jeho realizaci opět přichází ke slovu grafická kartografie, zvláště díky Ch. J. Minardovi, který se snažil prosadit decentralizovanější dopravní síť, jejíž výhodnost demonstroval čarami s tloušťkou úměrnou přepravním nárokům; tato forma grafického znázornění vyvrcholila posléze jeho Napoleonovým tažením. Výstavba dopravní sítě však byla svěřena centrální státní organizaci Corps des Ponts et Chausées řízené Victorem Legrandem;jejícharaktervyjadřovalhovorovýnázev Legrandovahvězda a byla spojena s obrovskými přesuny půdy díky přísným požadavkům na povolené maximální stoupání a minimální poloměry křivosti. Již v letech 1835 a 1837 byly vypracovány tabulky pro výpočet nezbytných přesunů zeminy, platily však pouze pro jeden pevný profil silničního uložení. Grafické konverze výpočetních tabulek se ujal Léon Lalanne. Vyšel při- 5 DearMr.Herbert,Isendyouoneofthe coxcombs...,citovánopodlepříspěvku H. Small: Florence Nightingale s statistical diagrams, předneseného na konferenci, kterou pořádalo Museum Florence Nightingaleové v Londýně.

384 374 Ivan Saxl, Lucia Ilucová Obrázek 14: Radiální graf F. Nightingaleové(1858) znázorňuje příčiny úmrtí vojáků(počet úmrtí je úměrný ploše) v krymské válce( ). Vnitřní malé světlé výseče zachycují po jednotlivých měsících úmrtí na zranění, velké světlé výseče úmrtí na nakažlivé choroby vyvolané nedostatečnou hygienou a vnitřní malé tmavé výseče libovolné jiné příčiny. Sloupcové diagramy porovnávají procentuální úmrtnost v různých věkových kategoriích(horní diagram) a podle příčin(spodní diagram) u běžných anglických mužů a u vojáků(vždy spodní sloupec v páru). Obrázek 15: Pouchetova Pytagorejská tabulka a isočáry xy = 5k, k = 0,1,...,19(1795).

385 Historie grafického zobrazování statistických dat 375 Obrázek 16: Lalanneův prostorový graf {měsíc hodina teplota}(1845). Obrázek 17: Srovnání grafu v kartézských a logaritmicko-logaritmických souřadnicích s nomogramem od M. d Ocagne(1891). T je tažná síla francouzské lokomotivy,vjeváhapáryspotřebovanézahodinuanjerelativnídoba,po niž je parní ventil otevřený.

386 376 Ivan Saxl, Lucia Ilucová tomztzv.pytagorejskétabulkytypu ,kterouLouis-ÉzechielPouchet (v souvislosti se snahami francouzské vlády přejít na decimální soustavu jednotek)vroce1795doplnilisočarami(hyperbolami) xy=5k, k=1,2,...,19 Obr. 15. Tabulka se sice obecně neprosadila, byla však používána pro inženýrské výpočty k převodu různých měr, např. při kalibraci děl. Lalanne nejdříve upozornil, že čáry xy = konst. můžeme chápat jako ortogonální projekcečarkonstantnívýškyna3dploše z= xyaprodemonstracitéto myšlenky vytvořil projekci isoterm v 3D grafu typu {měsíc hodina teplota} s projekcí do roviny {měsíc teplota} a řezem rovinou {hodina teplota} (Mongeova škola se nedala nezapřít) Obr. 16. Druhou inovací bylo zavedení logaritmických souřadnic(pouchetovy hyperboly se pak staly přímkami) a v roce 1846 již Lalanne publikuje grafickou tabulku s lineárními závislostmi půdních přenosů pro dvoukolejnou železnici. Vývoj dovršuje v roce 1884 Maurice d Ocagne vytvořením nomogramu. Pravoúhlé osy nahrazuje osami rovnoběžnými a využívá principu duality z projektivní geometrie, podle nějž lze body zobrazit jako přímky a přímky jako body. Soubor přímek z Lalanneova grafu pak přechází v přímku jedinou Obr. 17. Zásluhy L. A. J. Queteleta o rozvoj statistiky v sociální oblasti jsou dostatečně známé: jeho názory jsou různě vykládány, interpretovány i kritizovány, jeho podíl na vzniku statistických společností v evropských státech i v Americe je však nesporný, stejně jako inspirativní vliv na celou řadu statistických aktivit. Z Queteletových grafických prací si všimneme aspoň jednoho okruhu studií včetně okolností, za nichž vznikly. Sčítání lidu je velmi nákladná akce, akdyžsevporevolučnífranciionízačalouvažovat,přišelp.s.laplace s návrhem určité formy výběrového šetření. Doporučil využít přesně vedenýchmatriknarozenýchdětívcelézemiacelkovýpočetobyvatel N O určit zevztahu N O = r D N D,kde N D jepočetvšechnarozenýchdětízanějakéobdobíar D = n O /n D jepečlivěstanovenýpoměrpočtuobyvatelanarozených dětívevybraných reprezentativních oblastech,rovnoměrněrozloženýchpo celéplošestátuaspozornostíkjednotlivýmskupinámobyvatel 7.Quetelet bylnejprve(vroce1824)nakloněnpoužitítétometodyivbelgiianizozemí, avšak v roce 1829 podává návrh na kompletní sčítání. Byl totiž zřejmě ovlivněnpamětnímspisem,kterýmuposlalbarondekeverbergvroce a v němž zpochybňuje možnost dostatečně vhodného výběru podoblastí pro odhadpoměru r D,protožerelacemezi n O a n D závisínesnadnodefinovatelným způsobem na množství lokálních proměnných. Patrně inspirován de Keverbergovým spisem, provedl Quetelet v 19 oblastech Belgie, Holandska a Lucemburku vlastní výběrové odhady následují- 6 Celočíselnátabulkashodnotami {x ij = ij}, i, j=1,2,...,10. 7 VizP.S.Laplace:Essaiphilosophiquesurlesprobabilités,Paris,Courcie1840(6.vydáníknihyzroku1814), Laplacesvoumetodunavrhljižvroce1780,bylapoužita vr.1802adiskutujejik.pearsonvbiometrika20a(l928), CitacezdeKeverbergovaspisujsouvS.M.Stiegler:TheHistoryofStatistics,Harvard University Press, Cambridge 1986.

387 Historie grafického zobrazování statistických dat 377 Obrázek18:Queteletůvsoubornýdiagram(1827)poměrů r M (hornílomená čára), r D (středníplnáčára), r S (střednítečkovanáčára)ar F (spodníplná čára). Odpovídající střední hodnoty jsou vyznačeny horizontálními čarami.

388 378 Ivan Saxl, Lucia Ilucová Obrázek 19: Vrcholová eroze hory Tábor podle A. Tylora(1875). cíchveličin:počtuobyvatel n O,počtunarozenýchdětí n D,počtuuzavřených manželství n S apočtuúmrtí n M,znichžprokaždouoblastodhadlpoměry r M = n O /n M, r S = n O /n S, r F = n D /n S a r D = n O /n D aoblastisrovnal zaseboutak,aby r M bylomonotónnírostoucí.výsledkyjsoushrnutyve známém Queteletově diagramu, který ukazuje poměrně velké rozdíly mezi hodnotami poměrů v jednotlivých oblastech a dále naznačuje, že mezi nimi je jen stěží nějaká korelace Obr. 18. Odtud tedy vyplynula Queteletova ztráta důvěry v Laplaceův návrh výběrového sčítání. Další Queteletova grafická práce se vztahuje k jeho koncepci průměrného člověka,jehožpsychickéifyzickévlastnostimajínormálnírozdělení(quetelet však používal termíny křivka možností, rozdělení možností, binomická křivka). Přesvědčení, že každý homogenní soubor údajů musí mít normální rozdělení, považoval Quetelet za řešení de Kevenbergovy námitky o nemožnosti posoudit, zda data vytvářejí homogenní soubor či nikoliv. V řadě prací srovnával zjištěná data s normálním rozdělením, jež však nepoužíval v Gaussově integrálním tvaru, ale vycházel z binomického rozdělení Bi(999, 1/2), kterépodrobněpropočítalsvyužitímvztahup(x= k)=(n k+1)p(x= k 1)/k,platnéhoproBi(n,1/2).

389 Historie grafického zobrazování statistických dat 379 ObecnoupopularitunormálníhorozdělenídokumentuječlánekA.Tylora 9 z roku 1875, v němž autor povýšil křivku normálního rozdělení na universální geologický standard(binomická křivka nebo-li denudační křivka) tvaru hor. Odchylky od ní jsou něj důkazem lokální eroze demonstrované na příkladu biblickéhorytábor Obr.19. Luigi Perozzo vstoupil do historie grafického zobrazování prvním 3D grafem Obr. 20, který nazval stereogramem a jenž využívá axonometrického promítání navrženého Gustavem Zeunerem v knize Abhandlungen aus der mathematischenstatistik,leipzig(1969) 10.3Dgrafybylyčastovyužívány pro znázornění vícerozměrných distribučních funkcí a hustot pravděpodobnosti. W. S. Jevons se v roce 1863 začal zabývat problémem kvantitativního popisu cenových změn vyvolaných událostmi obecného dosahu, konkrétně např. objevením australského a kalifornského zlata v roce 1849, jež mělo za následek dlouhodobý pokles ceny zlata. Ze sledovaných 118 produktů jich 84 zdražilo, ostatní zlevnily. Všechny změny Jevons zanesl do souborného semilogaritmického grafu a stanovil jejich geometrické průměry Obr. 21. Tento typ výpočtu cenových změn je od té doby široce používán. Nebyl zdaleka první, avšak prosadil se ze dvou důvodů. Předně pro výrazně asymetrické rozdělení relativních cenových změn je geometrický průměr vhodnější, než do té doby používaný průměr aritmetický, jednak se ukázalo, že je vhodné sledovat velmi široký výběr produktů, což Jevonsovi předchůdci nedělali. Jevons pro svůj postup měl ovšem jen intuitivní důvody; zmiňoval např. alternativní možnost sledovat množství zboží, které lze po skokové změně zakoupit za stejnou cenu, cožby vedlo k průměru harmonickému, a svůj geometrický průměr vydával za střední cestu mezi oběma alternativami. 4 Závěr Koncem XIX. století se začíná rozvíjet intenzivní zkoumání v oblasti lékařství a biologie v Anglii, do značné míry spojené s osobou Francise Galtona. Jeho zájem o aplikaci statistických přístupů včetně jejich grafické prezentace byl zcela mimořádný a vedl ke vzniku tzv. biometrické školy, jejímiž představiteli vedle Galtona byli Karl Pearson, Francis Weldon, Udna Yule a samozřejmě Ronald Aylmer Fisher. Grafická prezentace se v jejich pracích stala běžným prostředkemdotémíry,žesidnesbeznístatistikudovedemejenstěžípředstavit. Zhruba do konce XIX. století je možné vývoj grafického zobrazování alespoň v hrubých rysech sledovat v příspěvcích rozsahu srovnatelného s tímto textem. XX. století, zejména jeho druhá polovina ovlivněná rozvojem počítačové techniky a vstupem grafiky do všech medií, představuje pravý grafický 9 A.Tylor:Actionofdenudingagencies.GeologicalMagazine(decadeII)2(1875), viz S. M. Stigler: The History of Statistics. The Measurement of Uncertainty before Harvard University Press, Cambridge(Mass.) London L.Perozzo:Dellarappresentazionegraphicadiunacollettivitàdiindividuinellasuccessione del tempo. Annali di Statistica, 12: 1 16.

390 380 Ivan Saxl, Lucia Ilucová Obrázek 20: Trojrozměrný graf švédské populace v letech od L. Perozzo(1880). výbuch. Jeho rozsah lze snad alespoň přibližně ocenit z odhadu E. Tufta, prezentovaného v osmdesátých letech minulého století: počet grafů vytvořených zaroksepohybujemezi až ;připočtulidívřádu10 10 připadá tedy 100 grafů na osobu za rok. Toto množství zdaleka neznamená, že grafy jsou kvalitní a že data jsou prezentována optimálním způsobem. Právě naopak; převážná většina grafů má za úkol zaujmout, obrátit pozornost k určité obchodnínebopoliticképroblematice, nakazit konzumentanázoremčizáměrem svých autorů. Současná teorie grafického zobrazování dává přednost těm nejjednodušším formám snadno dešifrovatelné bodové a čárové reprezentace.

391 Historie grafického zobrazování statistických dat 381 Obrázek 21: Jevonsův semilogaritmický diagram(1863) cenových změn po objevu australského a kalifornského zlata. Vyneseny jsou poměry průměrnýchcenvobjevemzlataovlivněnýchletech1860až1862kprůměrnýmcenám ve srovnávacím období 1845 až Na levých dvou svislých přímkách jsou vyneseny všechny hlavní(39 položek) a vedlejší(89 položek) produkty a vyznačeny jim odpovídající průměrné změny, dále průměrné relativní zvýšení(cca 11%) a jemu odpovídající relativní pokles ceny zlata(cca 9%). V jednotlivých sloupcích jsou většinou příbuzné produkty, jako železo, oceli a stříbro, různé druhy olejů, textilní látky, obilí atd.

392 382 Ivan Saxl, Lucia Ilucová Reference Internetové stránky s početnými příklady grafik(většinou interaktivní): [1]M. Friendly, D. J. Denis: Milestones in the History of Thematic Cartography, Statistical Graphics, and Data Visualization [2] Cartographic images: 11 [3] The History of Cartography: 11 [4] The History of Cartography: Cartography.html 11 [5] EIA Guidelines for Statistical Graphs: 11 Ostatní odkazy: [6] J. R. Beniger, D. L. Robyn: Quantitative Graphics in Statistics. The American Statistician 32(1978), [7] M. Friendly: Graphical Methods for Categorical Data. SAS SUGI Conference, April [8] H. G. Funkhauser: Historical development of the graphical representation of statistical data. Osiris 1(1937), [9] R. W. Glenn: Data Graphics. Speech 250(Adv. Public Speaking) Schedule, Spring [10] B. J. Glick: Mortality Mapping [11] T. L. Hankins: Blood, Dirt, and Nomograms. Isis 90(1999), [12] G. Palsky: Des Chiffres et des Cartes(La Carographie Quantitative au XIX e )Siécle.CTHS(Comitédetravauxhistoriquesetscientifiques), Paris [13]E.Royston:ANoteon thehistoryof thegraphical Presentationof Data. Biometrika 43(1956), [14] W. S. Cleveland: A Model for Studying Display Methods of Statistical Graphics. J. Comput. Graph. Stat. 2(1993), [15] E. R. Tufte: The Visual Display of Quantitative Information. Graphic Press, Cheshire Kdatu

393 Historie grafického zobrazování statistických dat Dodatek AnaximandroszMilétu(610př.Kr.-po546př.Kr.),řeckýfilosof,podle Eratosthéna tvůrce řecké geografie, autor údajně první mapy světa vytvořené pod vlivem babylónské astronomie. Ta se sice nezachovala, bývá však rekonstruována podle Hérodotova popisu. Abraham Cresques(1326?- 1387), významný představitel mallorské kartografické školy, která se proslavila kreslením námořních map. Nejznámější je Katalánský atlas vytvořený pro Karla V. August Friedrich Wilhelm Crome ( ), teolog, lektor zeměpisu a historie v Dessau, poté profesor politických věd v Gießenu od roku 1786 do smrti a diplomat. Autor řady knih, např. Europens Produkte (1782), Über die Größe und Bevölkerung der europäischen Staaten(1785), čtyřdílné Geographischstatistische Darstellung der Staatskräfte von den sämtlichen, zum deutschen Staatenbunde gehörigen Ländern( ) a vynikající Selbstbiographie(1833). Jeho knihy i politické pamflety obsahují řadu tabelárně i graficky zpracovaných statistických údajů. Pierre Charles François Dupin( ), francouzský matematik a ekonom, žák Mongeův, autor různých pamfletů s vědeckou tématikou. V práci Carte delafranceéclairéeetdelafranceobscure(1819)prvnípoužilrůznébarvykzakreslení vývoje vzdělání v různých regionech. Eratosthenés z Kýrény(275 př. Kr př. Kr.), všestranný řecký vědec, etik a básník, především geograf. Jeho odhad obvodu Země( km) využívá měření délek stínů tyče ve dvou městech ležících na stejném poledníku(samara a Aswan). Výpočet je pak založen na předpokladu kulatosti Země a výsledek je velmi blízký skutečnosti. JosephFletcher(?-?),autorčlánkůsřadoukolorovanýchmapsúdajiozemědělství,průmysluaj.( MoralandEducationalStatisticsofEnglandandWales, Journ. London Stat. Soc. X(1847), a XII(1849), ). Francis Galton( ), anglický genetik a eugenik, původně meteorolog (jako první popsal anticyklonu a zavedl mapy počasí založené na barometrických datech). Do genetiky zavedl biometrický přístup, do statistiky pojmy regrese a korelační koeficient. Do kriminologie přispěl zavedením otisků prstů jako identifikačního znaku. Edmond Halley( ), přední anglický fyzik a astronom(objevitel komety po něm nazvané) ve vědeckých kruzích vzácného charakteru, autor významné práce z demografie a pojišťovnictví An Estimate of the Degrees of the Mortality ofmankind (1693).Výrazněsezasloužil opublikovánínewtonovýchprincipia Mathematica. Posledních 22 let svého života byl královským astronomem se sídlem na hvězdárně v Greenwichi, kde také zemřel. Wiliam Stanley Jevons( ), anglický ekonom a logik, autor knihy Principles of Science(1874), v níž hájí názor, že deduktivní poznatky a zákony jsou jen pravděpodobné, protože není možné rozebrat všechny možné příčiny a alternativy. V ekonomických pracích(theory of Political Economy, 1871) vycházel ze statistické analýzy reálných dat, pro hodnocení cenových hladin zavedl dosud používaný index založený na geometrických průměrech cen širokého spektra komodit.

394 384 Ivan Saxl, Lucia Ilucová Léon Lalanne( ), francouzský stavební inženýr, vynálezce řady grafických postupů vypracovaných v souvislosti s výstavbou francouzské dopravní sítě, generální inspektor mostů a silnic, ředitel l Ecole des Ponts et des Chausées atd. Johann Heinrich Lambert( ), samouk, alsaský přírodovědec a filosof, známý pracemi z optiky(zvláště fotometrie), matematiky(teorie kuželoseček, hyperbolických a trigonometrických funkcí komplexní proměnné, důkaz iracionality πae x proracionální x 0,neukleidovskágeometrie)aastronomie(teorie Vesmíru tvořeného galaxiemi a hvězdami, výpočet dráhy komet). Zabýval se též teorií pravděpodobnosti a navrhl grafickou formu metody maximální věrohodnosti. Člen Pruské akademie věd. Michael Florent van Langren( ), holandský matematik, astronom a kartograf, pracoval ve službách španělského krále Filipa IV. Vyvinul metodu pro přesné určování zeměpisné délky pro potřeby lodní navigace, která se opírala o pozorování Měsíce a přivedla jej k autorství první mapy Měsíce. Gerardus Mercator( ), nizozemský geograf, matematik a kartograf, vlastním jménem Gerhard Kremer. Autor Mercatorovy projekce zemského povrchu vhodné pro námořní plavbu. Mercatorovy mapy vydává i po jeho smrti početná rodina. Charles Joseph Minard( ), význačný francouzský inženýr, specialista voborustavbymostů,silnicakanálů,ředitelaprofesornal EcoledesPontsetdes Chausées, po odchodu do důchodu(1839) se věnoval tématické kartografii. Florence Nightingale( ), anglická statistička, dobrovolná zdravotní sestra v krymské válce, sestavovala časové tabulky úmrtí pacientů podle příčin a jimi prokázala nedostatečnost nemocniční hygieny. Grafickým znázorněním(radiální diagram) přesvědčila vojenské kruhy o nezbytnosti nápravy. Po návratu do Anglie měla značný podíl na celkovém zlepšení nemocniční péče. Philbert Maurice d Ocagne(1862-?), francouzský matematik, vynálezce nomogramu, profesor na l Ecole des ponts et chaussées, systematicky se podílel na bibliografii matematických prací, též autor literárních esejí. Hlavní dílo je Nomographie; les calcul usuel effectué aux moyen des abaques(1891). Charles Saunders Peirce( ), americký logik, matematik a filosof, původním povoláním a vzděláním chemik a geodet, mimořádně plodný v mnoha oborech. Obecně považován za nejpozoruhodnější intelektuální osobnost Spojených států v 19. století. William Playfair( ), jako osoba téměř zapomenutý skotský vynálezce, pamfletista, novinář a vydavatel(z jeho pera pochází také popis pádu Bastilly, jehož se osobně zúčastnil), který kromě řady různých vynálezů první používal histogramy, kruhové a lineární grafy pro znázornění statistických dat(kniha Atlas se 44 různými grafy byla publikována poprve v r. 1786). Louis-Ezechiel Pouchet(?-?), výrobce bavlněných tkanin v Rouenu, autor několika publikací s problematikou jednoduchého grafického převodu jednotek, např. Echelles graphiques des nouveaux poids, mesures et monnaies de France, comparées avec celles des pays les plus commerçantes de l Europe(1795).

395 Historie grafického zobrazování statistických dat 385 Joseph Priestley( ), anglický fyzik(první objevil Coulombův zákon), chemik(vynálezce sodovky, objevitel fotosyntézy a dýchání rostlin), sociální filosof, teolog, podporovatel francouzské a americké revoluce, přítel Thomase Paina, pro svou podporu francouzské a americké revoluce donucen emigrovat do Ameriky(1794), zakládá tam unitářskou církev, přítel a spolupracovník T. Jeffersona. Klaudios Ptolemaios( ?), autor souborného díla o matematice známého z arabského překladu z IX. stol. pod jménem Almagest. Základní kartografické dílo (do roku 1730 vyšlo na padesát různých vydání) je osmisvazkový Γǫoγραφικǫ Συντ αξις [Zeměpisný úvod] se souřadnicemi obydlených míst a množstvím map, které se však nedochovaly a v následujících stoletích byly mnohokrát rekonstruovány. Další jeho díla jsou věnována hudbě a optice. Lambert Adolphe Jacques Quetelet( ), belgický geometr, astronom(queteletův kráter na Měsíci), meteorolog a geofyzik- především významný popularizátor ovlivněný pracemi Laplace, Poissona, Bernoulli, předseda belgické Comission centrale de statistique, organizátor statistických kongresů. Autor práce Sur l homme et le developpement de ses facultés, essai d une physique sociale(1835). Valentine Seaman( ), americký lékař, roku 1795 při epidemii žluté horečky ve východním Manhattanu vypracoval mapu lokálního výskytu onemocnění a nákazu připsal hnijícímu odpadu v ulicích města(sice nesprávně, neboť ji šířili komáři druhu Aedes Aegypti, kteří se ve vlhkých nečistotách vyskytovali, nicméně úklidem nečistých zaplavovaných míst choroba pominula). Měl podíl na zavedení hromadném očkování proti černým neštovicím. Aloys Senefelder( ), pražský rodák, herec a dramatik, kvůli tištění svých her experimentoval s tiskem a objevil litografii. Díky jejímu velkému úspěchu dosáhl všeobecného uznání. John Snow( ), významný anglický lékař a vědec, autor souboru map Londýna(ještě stále překreslovaných a publikovaných) do nichž zakresloval lokální výskyt chorob. President Medical Society of London od roku 1855, spolupracovník osobních lékařů královny Viktorie(aplikace chloroformu při královských porodech), podle časopisu Hospital Doctor z roku 2003 nejvýznamnější lékař všech dob(hypokratos až druhý). Dugald Stewart( ), skotský filosof, profesor matematiky a filosofie na Universitě v Edinburgu, dlouhá léta vedoucí katedry etiky. Autor rozsáhlého literárního díla zahrnujícího i politickou filosofii a tehdy ještě málo rozšířenou politickou ekonomii. Ve své době velmi vážená osobnost, přitahující do Edinburgu studentyizevropyaameriky. James Joseph Sylvester( ), anglický matematik a právník, autor řady prací z algebry, teorie čísel, řešení diofantických rovnic, teorie matic a geometrie. Autor knihy Treatise on Elliptic Function(1876), jako profesor na baltimorské universitě( ) měl velký podíl na rozvoji americké matematiky, psal též básněabylautoremknihylawsofverse(1870). Walter Frank Rafael Weldon( ), anglický zoolog, profesor na londýnské University College, jako první prováděl u živočichů, zvláště vodních, analogická statistická měření jako Quetelet a Galton u lidí. Spolu s Galtonem a Pearsonem založil v roce 1901 časopis Biometrika.

396 386 Ivan Saxl, Lucia Ilucová Christopher Wren ( ), vynikající anglický architekt, stavitel londýnské katedrály sv. Pavla a řady dalších veřejných budov, autor nerealizovaných plánůnaobnovulondýnapovelkémpožáruvroce1666. Gustav Zeuner( ), německý fyzik a pedagog, profesor technické mechaniky a strojírenství v Zürichu a Freibergu, poté dlouholetý ředitel drážďanské polytechniky, věnoval se zejména technické termodynamice a dopravnímu inženýrství. Poděkování: Poděkování grantu GACR 201/03/0946 a výzkumnému záměru MSM Adresa:I.Saxl,L.Ilucová,MatematickýústavAVČR,Žitná25,11567Praha1 saxl@math.cas.cz

397 ROBUST 2004 c JČMF 2004 A NOTE ON RANK-BASED TESTING FOR CONDITIONAL HETEROSKEDASTICITY Miroslav Šiman Keywords: Conditional heteroskedasticity, GARCH, test of independence, rank test, portmanteau test, autocorrelation, transformation. Abstract: In this note, we will introduce a rank transformation that can lead to powerful rank-based tests for conditional heteroskedasticity. Its usefulness will be illustrated in a small simulation study dealing only with GARCH(1,1) alternatives. 1 Theoretical introduction Throughoutthisarticle,wewillassumethat {z t } IID(0,1)isasequence of independent, identically and continuously distributed(i.i.d.) random variables with zero mean and unit variance. Now let us consider a weakly stationary zero mean sequence of random variables Y 1,..., Y T thatwewanttocheckforthepresenceofconditional heteroskedasticity. In other words, we want to test the null hypothesis that assumes {Y t }tobeani.i.d.sequencewithfinitevariance, H 0 : Y t = z t σ, σ >0 isanunknownpositiveconstant, (t=1,2,..., T), against a weakly stationary alternative H 1 : Y t = z t σ t, (t=1,2,..., T), where σ t saredrivenbyamoreorlessspecifiedfunctionaldependenceon lagged random variables forming the time series of our interest. For example, GARCH, GARCH(p,q) or GARCH(1,1) alternatives widely used in practice arealsoofthistype. GARCH processes play a key role in modelling volatile time series and good results can be often achieved even with a simple GARCH(1,1) model (see[10]).almosteverygarchprocess,say {ε t },isdefinedasfollows: where ε t = z t σ t σ t = f(ε t 1, ε t 2,...,σ t 1, σ t 2,...) and {z t } IID(0,1).EachindividualGARCHmodelonlydiffersfromthe othersbyitsspecificationoftheconditionalstandarddeviation σ t andbythe distributionofitsinnovations z t s.forexample,garch(p,q)modelshave their conditional variance given by the formula σ 2 t = c+a 1ε 2 t 1 + a 2ε 2 t 2 + +a pε 2 t p + b 1σ 2 t 1 + b 2σ 2 t 2 + +b qσ 2 t q, c >0, a 1, a 2,...,a p 1 0, a p >0, b 1, b 2,...,b q 1 0, b q >0.

398 388 Miroslav Šiman These models were proposed by[6] and their statistical properties were recently summarized in[5]. Innovations of these processes are usually expected to have the standard normal distribution or more frequently, the standard Student distribution with three or slightly more degrees of freedom because often examined economic random variables are known usually to have finite variances but yet infinite fourth moments(see for instance[7] and references therein). Testing for conditional heteroskedasticity is often performed by applying a test of independence to(possibly squared) absolute values of given observations Y 1,..., Y T becausesuchdataoftenexhibitsserialautocorrelation if the null hypothesis does not hold. In case of any distributional uncertainty or any data distortion(caused e.g. by outliers), any test of independence basedontheranks R 1,...,R T oftheabsolutevalues Y 1,..., Y T canbe used as a convenient alternative(see[9] for an example). These rank tests are very robust to outliers and heavy tails but ordinarily suffer from relatively low power in comparison with their analogues based on original observations. This drawback of theirs will disappear if we use suitably transformed ranks instead, as we are going to demonstrate now. For such purpose, let us define the transformed ranks P i = log ( 1 R i T+1 ) = F 1 exp ( Ri T+1 ), i=1,...,t, where Fexp 1 stands for the quantile function of the exponential distribution with unit mean and variance. Under the alternatives of our interest, these transformedranks P i susuallyexhibitmuchstrongerautocorrelationpatternthanmereranks R i sandthatiswhytheymayleadtothetestswith substantially higher power. All this will be documented in our simulation study. AbadirandTalmain[1,Example1]showedanimportantcasewhenasimple logarithmic transformation results in much more autocorrelated data. So it is quite natural to consider this transformation(or its modifications) even in our case. Unfortunately, the exact distribution of data ranks remains unknown under many volatile alternatives and so we cannot make any theoretical justification for just our choice of the transformation. We can only recommenditasaruleofthumb. Thevalidityofournullhypothesis(H 0 )guaranteesthat {Y i } T i=1, {R i} T i=1 and {P i } T i=1 areformedbyexchangeablevariables;thusarelevanttheory (such as that developed in[8],[9] and related to sample autocorrelations) may be directly applied. Letusdoso.Let Ȳ, Rand Pbethesamplemeansandlet r 1 (k), r 2 (k)and r 3 (k)(k=1,2,...)bethesampleautocorrelationsofthesequences {Y i } T i=1, {R i } T i=1 and {P i} T i=1,respectively.weemploythestandarddefinitions,i.e. Ȳ = 1 T T k i=1 Y i and r 1 (k)= (Y i Ȳ)(Y i+k Ȳ) T T i=1 (Y, k=1,2,..., i Ȳ)2 i=1

399 A note on rank-based testing for conditional heteroskedasticity 389 andsoon.accordingto[8],[9],meansandvariancesofthesesampleautocorrelationscanbeapproximatedinthefollowingway(k=1,2,..., k < T 2, T >3): E r 1 (k) 0, E r i (k) = T k T(T 1), i=2,3, var r i (k) = E( r i (k)) 2 (E r i (k)) 2, i=1,2,3, E( r 1 (k)) 2 T k T(T+2), E( r i (k)) 2 = A AC i + B T(T 1)(T 2)(T 3), i=2,3, = T 3 +(k+3)t 2 k(t+6k), B = T 2 (T k 4)+3(T k)+3k(t+ k), T i=1 C 2 = (R i R) 4 ( (3T 2 7) T i=1 (R i R) 2 ) 2=3 5 T(T 2 1), T i=1 C 3 = (P i P) 4 ( T i=1 (P i P) 2 ). 2 Theseformulasholdexactlyifandonlyiftheequalitysign = isused. These approximations also figure in the three portmanteau statistics S i = m k=1 ( r i (k) E r i (k)) 2, i=1,2,3, var( r i (k)) thatwewillfocusoninourmontecarloexperiments.(infact,anyothertest of independence based on sample autocorrelations could be taken into account alternativelyinasimilarway).thetestcorrespondingto S 1 wasmentionedas earlyasin1970by[4]andnowadaysitbelongstothemostwidelyemployed testsofindependenceatall.theteststatistic S 2 wasproposedandexamined in[9]forthefirsttime.thethirdstatistic S 3 exploitsthenewlyintroduced transformedranks P i sandwillbeinvestigatedandcomparedwiththeother twointhenextsection. Itclearlyresultsfrom[8],[9]thatunderthenullof H 0 everystatistic S 1, S 2 and S 3 hastheasymptotic χ 2 distributionwith mdegreesoffreedom. Now we know enough to proceed with the simulation study. 2 Simulation study Wealwaysgenerated N=10000datasamplesandconsideredarepresentativesignificancelevelof α=0.10.theteststatistics S 1, S 2 and S 3 werethen

400 390 Miroslav Šiman Empirical test size (N = 10000) 0.14 N(0,1): T = N(0,1): T = N(0,1): T = 500 Empirical size Empirical size Empirical size t(3): T = t(5): T = m t(3): T = t(5): T = m t(3): T = t(5): T = m empiricalsizeofthetestbasedonthestatistic S 1 empiricalsizeofthetestbasedonthestatistic S 2 empiricalsizeofthetestbasedonthestatistic S 3 bounds of 95% confidence intervals for the empirical size Figure 1: Empirical test size comparison taking into consideration both time serieslengthanddistributionofinnovations z t s(n=10000, α=0.10). applied to them with the threshold parameter m successively changing from 1to30.Thisparametershouldnotbesetunnecessarilytoohigh(seee.g.[2] or[3])andgoodresultscanbeoftenachievedevenwith m 10. Whentestingthesize,weused Nrandomsampleswith T=100,200and 500 observations from the standard normal distribution and the standard Student distribution with three and five degrees of freedom. Our results are illustrated in Figure 1 and summarized in Table 1. This table contains observed empirical sizes(i.e. observed rejection frequencies of the null). Underlined figures differ from their expected values of α on the 5% significance level. When testing the power, we concentrated on various GARCH(1,1) alternatives with innovations drawn from the same distributions that were considered in the test size study. All these alternatives have finite variances although the finiteness of their higher order moments depends on the choice oftheirparameters a 1, b 1 (see[5]).theremainingparameter cwasfixedto

401 A note on rank-based testing for conditional heteroskedasticity 391 actually observed significance level(empirical test size) T=100 T=200 T=500 m= N(0,1) S 1 t(3) t(5) N(0,1) S 2 t(3) t(5) N(0,1) S 3 t(3) t(5) N... number of replications α... intended(asymptotic) significance level T... timeserieslength m... thresholdparameter Table 1: Empirical test size comparison taking into consideration both time serieslengthanddistributionofinnovations z t s(n=10000, α=0.10). empirical test power a 1, b 1= 0.1, , , , , ,0.2 m= S N(0,1) S S S t(3) S S S t(5) S S N... numberofreplications α... intended(asymptotic)significancelevel T... timeserieslength a 1, b 1... GARCH(1,1)parameters m... thresholdparameter Table 2: Empirical test power comparison under GARCH(1,1) alternatives withvariouslydistributedinnovations(n=10000, T=200, α=0.10). 1 throughout the whole study. Weakly stationary GARCH(1,1) models with persistentvolatility,i.e.withparameterssatisfyingtheconditions a 1 +b 1 <1, a 1 0.1, b 1 0.9,standinthecentreofourattentionbecausesuchalternatives are favoured in practice. Selected results of our power test investigation are shown in Figure 2 and outlined in Table 2.

402 392 Miroslav Šiman Empirical power under GARCH(1,1) models with N(0,1) innovations (T = 200, N = 10000) Empirical power Empirical power Empirical power A = 0.1, B = A = 0.3, B = A = 0.2, B = m A = 0.15, B = A = 0.4, B = A = 0.4, B = m A = 0.2, B = A = 0.2, B = A = 0.6, B = m A, B GARCH(1,1)parameters a 1, b 1 empiricalpowerofthetestbasedonthestatistic S 1 empiricalpowerofthetestbasedonthestatistic S 2 empiricalpowerofthetestbasedonthestatistic S 3 Figure 2: Empirical power test comparison under GARCH(1,1) alternatives withn(0,1)innovations(n=10000, T=200, α=0.10). Sampleautocorrelations r 1 (k), r 2 (k)and r 3 (k)(k =1,...,30),coming from some considered alternatives are presented in Figure 3. Whenonlytestsizeistakenintoaccount,wecanconcludethatthetest basedon S 3 iscomparabletothatbasedon S 2 andbetterthanthetestcorrespondingto S 1.However,roughlyspeaking,thetestbasedon S 3 outperforms theothertwoasfortheirpower,uniformlyin m.thedifferencebetween the powers of both rank-based tests may be even higher than 25 percentage points.thestatistic S 3 leadstoatestthatisinallwaysbetterthanits non-rankanaloguebasedon S 1.Thisisthemainreasonwhyitshouldnot be ignored by practitioners any more. Duetothelimitationofthelengthofthisarticle,itisnotpossibleto includealloutcomesofoursimulations.butallofthemseemtosupportthe primacyof S 3 over S 1 and S 2.

403 A note on rank-based testing for conditional heteroskedasticity 393 Autocorrelations under GARCH(1,1) alternatives (N(0,1), T = 200, N = 10000) Autocorrelations Autocorrelations Autocorrelations A = 0.1, B = A = 0.3, B = A = 0.2, B = m A = 0.15, B = A = 0.4, B = A = 0.4, B = m A = 0.2, B = A = 0.2, B = A = 0.6, B = m N number of replications T time series length α intended(asymptotic) significance level m threshold parameter A, B GARCH(1,1)parameters a 1, b 1 sampleautocorrelations br 1(k), k=1,...,30,of Y 1,..., Y T sampleautocorrelations br 2(k), k=1,...,30,of R 1,..., R T sampleautocorrelations br 3(k), k=1,...,30,of P 1,..., P T (lines and visually coincide) Figure 3: Sample autocorrelations computed under GARCH(1,1) alternatives withn(0,1)innovations(n=10000, T=200, α=0.10). 3 Concluding remarks We have dealt with testing for conditional heteroskedasticity by using both the absolute values of given observations and their ranks. Under some commonvolatilealternativeswehaveshownthatsuitablytransformedranks P i s aremoreautocorrelatedthanmereranks R i sandthereforetheycanleadto robust and powerful tests. Wehopethatsomeonewillfindthetransformedranks P i sorthetest statistic S 3 usefulandthatourcontributionwillhelptheotherstoimprove their testing(not only) for conditional heteroskedasticity.

404 394 Miroslav Šiman References [1] Abadir K.M., Talmain G.(2004). Autocovariance functions of series and of their transforms. Journal of Econometrics. Forthcoming. [2] Battaglia F.(1990). Approximate power of portmanteau tests for time series. Statistics& Probability Letters 9, [3] Burns P.(2002). Robustness of the Ljung-box test and its rank equivalent. Working Paper. [4] Box G.E.P., Pierce D.A.(1970). Distribution of residual autocorrelations in autoregressive-integrated moving average time series models. Journal of the American Statistical Association 65, [5] Berkes I., Horváth L., Kokoszka P.(2004). Probabilistic and statistical properties of GARCH processes. Fields Institute Communications. Forthcoming. [6] Bollerslev T.(1986). Generalized autoregressive conditional heteroskedasticity. Journal of Econometrics 31, [7] de Lima P.J.F.(1997). On the robustness of nonlinearity tests to moment condition failure. Journal of Econometrics 76, [8] Dufour J.-M., Roy R.(1985). Some robust exact results on sample autocorrelations and tests of randomness. Journal of Econometrics 29, Corrigendum. Journal of Econometrics 41, [9] Dufour J.-M., Roy R.(1986). Generalized portmanteau statistics and tests of randomness. Communications in Statistics, Theory and Methods 15, [10] Hansen P.R., Lunde A.(2004). A forecast comparison of volatility models: does anything beat a GARCH(1,1)? Journal of Applied Econometrics. Forthcoming. Acknowledgement: This contribution was supported by the MŠMT ČR grant MSM andbytheGAAVČRgrant201/03/1027. Address:M.Šiman,KPMSMFFUK,Sokolovská83,18675Praha8 siman@karlin.mff.cuni.cz

405 ROBUST 2004 c JČMF 2004 VYUŽITÍ POJMU HILBERTOVY BÁZE PRO OVĚŘOVÁNÍ HYPOTÉZY O SHODNOSTI STRUKTURÁLNÍCH A KOMBINATORICKÝCH IMSETŮ Petr Šimeček, Milan Studený Klíčová slova: Struktury podmíněné nezávislosti, celočíselná Hilbertova báze. Abstrakt: Klíčovým problémem v metodě popisu struktur podmíněné nezávislosti(mezi N náhodnými veličinami) pomocí tzv. imsetů je otevřená otázka shodnosti dvou množin celočíselných vektorů, tzv. strukturálních a kombinatorických imsetů. Tato otázka svoji povahou spadá do oblasti celočíselného programování a souvisí úzce s úlohou nalezení tzv. minimální celočíselné Hilbertovy báze pro jistý racionální konvexní kužel. Tématem tohoto příspěvku jsou počítačové experimenty, jejichž cílem je potvrdit či vyvrátit hypotézu o shodnosti těchto dvou množin vektorů. S pomocí počítače se podařilo hypotézuověřitpro N 4,navícbylydosaženyčástečnévýsledkypro N=5 a nastíněny další možné směry postupu. Tento příspěvek se věnuje klíčovému problému z oblasti popisu struktur podmíněné nezávislosti(mezi N náhodnými veličinami) pomocí tzv. imsetů a to hypotéze o shodnosti množin strukturálních a kombinatorických imsetů. Základní definice a většinu značení nalezne čtenář toužící po hlubším vhledu doproblematikyv[1]a[2].zdesetakénacházejídůkazytvrzení,ježsenám zdály příliš zřejmé či naopak příliš obtížné na to, abychom je prezentovali v tomto příspěvku. 1 Základní pojmy Zde si připomeňme alespoň základní pojmy. Nechť N je přirozené číslo(odpovídající počtu náhodných veličin). Definice.Imsetemrozumímezobrazenípotenčnímnožiny P({1,2,..., N}) domnožinycelýchčísel Z.Hodnotuimsetu vpro A {1,2,..., N}značíme v(a). ImsetlzechápattakéjakoceločíselnývektorvR 2N,jehožsložkyjsouindexoványpodmnožinami {1,2,..., N}. Definice. Elementárním imsetem odpovídajícím nezávislosti(nezávislostnímuvztahu)mezináhodnýmiveličinami X i a X j dáno {X k ; k C},kde {i}, {j}acjsoupodvoudisjunktnípodmnožiny {1,2,..., N},budemerozumět imset u i,j C takový,že u i,j C ({i, j} C)=u i,j C (C)=1, u i,j C ({i} C) = u i,j C ({j} C) = 1azbylým prvkůmpotenčnímnožinypřiřadí u i,j C nulu. Množinuvšechelementárníchimsetůbudemeznačit E N.

406 396 Petr Šimeček, Milan Studený Povšimněmesi,že E N = ( N 2) 2 N 2. Napříkladpro N=3množinuvšechelementárníchimsetů E 3 znázorňuje následující tabulka: {1} {2} {3} {1,2} {1,3} {2,3} {1,2,3} u 1, u 1, u 2, u 2,3 {1} u 1,3 {2} u 1,2 {3} Definice.Množinoukombinatorickýchimsetů C N budemerozumětvšechny možné součty konečně mnoha elementárních imsetů, neboli { k } C N = α i u i ; α i N, u i E N, k N 0. i=1 Rozklad kombinatorického imsetu na součet elementárních imsetů není jednoznačný, například platí u 1,2 {3} + u 1,3 = u 1,3 {2} + u 1,2. Jednoznačnýjevšakstupeňkombinatorickéhoimsetu v= k i=1 α iu i,který jedefinovánjako deg(v)= k i=1 α i,neboťtotočíslo jakpozornýčtenář snadnonahlédne 1 jerovnovýrazu deg(v)= 1 2 A {1,...,N} A ( A 1) v(a). (1) Povšimněme si, že stupeň kombinatorického imsetu je lineární forma. Navíc pomocí formule(1) můžeme rozšířit definici stupně deg(v) na libovolný(nejen kombinatorický) imset v. Dále můžeme nahlédnout, že jediný kombinatorický imset stupně nula je nulový imset a kombinatorické imsety stupně jedna jsou právě elementární imsety. Definice.Množinoustrukturálníchimsetů S N budemerozumětvšechnyimsety, jež lze vyjádřit jako nezápornou reálnou 2 kombinaci konečně mnoha elementárních imsetů, neboli 1 Stačídokázat,rovnost(1)platíprovšechnyelementárníimsety,aukázat,žetakto definovaný stupeň je lineární forma. 2 Lzeukázat,žepokudslovo reálnou nahradímeslovem racionální,dostanemeekvivalentní definici.

407 Využití pojmu Hilbertovy báze pro ověřování hypotézy o shodnosti { k } S N = α i u i Z P({1,2,...,N}) ; α i R +, u i E N, k N 0. i=1 Stupeň strukturálního imsetu je celé číslo, jak je možno snadno nahlédnout z formule(1). Povšimněme si, že u imsetu nízkého stupně je poměrně snadné rozhodnout, zda je kombinatorický. Na druhé straně otázka, zda-li je či není strukturální,jemnohemobtížnější.iztohoto,avšaknejenztohotodůvodu 3 je zajímavá otázka, zda náhodou neplatí, že pro všechna N nastává rovnost C N = S N. Tento příspěvek si neklade za cíl tuto otázku teoreticky rozřešit. Pouze ji zodpovíme pro dostatečně nízká N a formulujeme tvrzení, jež mohou být základem dalšího bádání. Úhelným kamenem dalšího postupu bude pojem minimální celočíselné Hilbertovy báze. 2 Pojem minimální celočíselné Hilbertovy báze Definice.Každýkonvexníkužel Kv R n kónickygenerovanýkonečnoumnožinou celočíselných vektorů obsahuje tzv. minimální celočíselnou Hilbertovu bázi,cožjemnožinaceločíselnýchvektorů w 1,..., w m z Ktaková,že x K Z n (α 1,..., α m ) N m 0 : x= m α i w i. i=1 Tentopojemjsmepřejalizknihy[4],kdejedokázáno,žetatodefiniceje konzistentní,atamtéžjenastraně233vdůkazuvěty16.4ukázáno,žepokud e 1,...,e l jsougenerátoremvýšezmíněnéhokužele,pakminimálníceločíselnou Hilbertovu bázi stačí hledat v mnohostěnu M tvořeném body { l } M= λ i e i ; λ i [0,1]. i=1 Pakliže výše zmíněnou metodu aplikujeme na náš případ, zjistíme, že otázka,zda C N = S N,jeekvivalentnísotázkou,zdaminimálníceločíselná Hilbertovabázekuželegenerovaného E N (jehoceločíselnébodyjsou S N )je rovna E N (přičemžzjevně E N obsahuje). Protože rozhodnout, zda daný bod patří či nepatří do mnohostěnu M atedyinaléztvšechbodymnohostěnu Mjevpraxiobtížné,volímepostup pro nalezení Hilbertovy báze pro dané N následovně: 3 Ověřenítétohypotézybymělozásadnívlivnapočítačovouimplementaciinferenčního mechanismu.

408 398 Petr Šimeček, Milan Studený 1. Zavedeme vhodný obal Omnohostěnu M.Vhodnývtomtokontextu znamená, že počítač dokáže rychle rozhodnout, zda daný imset do O patříčinikoli,ažedokáževreálnémčaseprohledatvšechnyimsetyvo obsažené. 2. Postupněvolíme nodjednédo E N = ( N 2) 2 N 2.Procházímevšechny imsetyzomajícístupeň n,ukaždéhoznichrozhodneme,zdajejlze zapsat jako součet nějakého imsetu stupně n 1(ty už máme vyhledané v minulém kroku a uložené v paměti) a nějakého elementárního imsetu. Pokud ano, pokračujeme, pokud ne, nalezli jsme prvek O, jehož zápis ve tvarunezápornéceločíselnékombinaceprvků E N je problematický. 3. Pokudalgoritmusskončíažádný problematický imsetnenalezne,můžemeučinitzávěr,že C N = S N.Pokudjejnalezne,nemusíbýtzávěr jednoznačný,záležína obalení mnohostěnu Mpomocí O. Obtíže nastanou již u prvního bodu výše uvedeného scénáře. Pokud jako obalpoužijemekuželgenerovanýprvky E N,můžemetentopopsatjakoprůnik jistýchpoloprostorů 4.PostupjejichhledánísvyužitímFourier-Motzkinovy transformace za pomoci programu PORTA je popsán v[3]. Tento postup však díky jeho obrovské výpočetní složitosti můžeme použít jen pro N 5, kdypro Nrovnotřem,čtyřemapětipotřebujemepořadě5,37a nadrovin udávajících výše zmíněné poloprostory. Proto se nadále budeme soustředitpouzenapřípad N 5. Tento kužel zcela jistě obsahuje mnohostěn M, přičemž můžeme jistě jakoobal Obrátpouzetakovéjehoimsety v,že A {1,...,N}: v(a) deg(v). 3 Výsledky počítačových experimentů Dále rozebereme výsledky našeho výzkumu pro různá N: N=3: Použili jsme výše zmíněný postup a v několika málo sekundách sekundách se podařiloověřit,že C 3 = S 3. N=4: Zde již bylo nutné postupovat mnohem opatrněji. Za prvé si lze všimnout, že pro libovolný strukturální imset v platí v(a)=0, A {1,...,N} atakéžeprokaždé i {1,...,N}platí 4 odvozenýchodjehostěnnebochcete-liodextremálníchpaprskůduálníhokuželeneboli tzv. skeletonu.

409 Využití pojmu Hilbertovy báze pro ověřování hypotézy o shodnosti A {1,...,N}, i A v(a)=0. Díky těmto dvěma vlastnostem stačí strukturální imset reprezentovat pomocíjehohodnotpro A {1,...,N}: A 2,neboťhodnotypro A {1,...,N}: A 1jsoujižtěmitojednoznačněurčeny.Tímsenámdimenze problému snižuje o N + 1, přičemž se nijak nekomplikuje výpočet stupně. Užitečnéjetéžuvědomitsi,žeimsetyzmnohostěnu Mnabývajípro A {1,...,N}: A =2hodnotod 4do2,pro A =3hodnotod 3 do3apro A =4hodnotod0do6.Stačísetedyomezitsenatakovéto imsety.tatozměnajeotovýznamnější,ženámumožnízměnitmezedosebe vnořených11=2 4 (4+1)for cyklů. Dále je důležité vhodně zvolit datové typy, aby výpočet nebyl příliš náročný na paměť, a v bodě 2 výše zmíněného scénáře šikovně implementovat vyhledávání v imsetech stupně n 1 za pomoci jejich setřízení a hašovací tabulky, jinak úloha neskončí v reálném čase. Zdrojový kód pro GNU Pascal je možné nalézt na adrese: VýpočetnastrojiArtaxsprocesoremIntelPentium4HT2800MHza1GB paměti trval 12 minut, přičemž bylo využito 530 MB operační paměti. N=5: Zde jsme sice využili další zmenšení obalu O založené na tom, že každý strukturální imset v musí zjevně splňovat A {1,...,N} (v(a)) + 2deg(v), A {1,...,N} (v(a)) 2deg(v). Ataké,žeprolibovolnou B {1,...,N}musíplatit A: B A {1,...,N} v(a) 0, nicméně i při této redukci jsme byli schopni vyšetřit jen imsety stupně nejvýše čtyři, přičemž výpočet trval necelé tři dny. Program je k nahlédnutí na adrese

410 400 Petr Šimeček, Milan Studený 4 Myšlenka fixovaného stupně Nadějnýmsměremdalšíhomožnéhopostupujenamísto obalování celého mnohostěnu M aproximovat průniky M s množinou imsetů daného stupně n. Lze totiž ukázat: Věta.Nechť vjestrukturálníimsetstupně deg(v)=nzmnohostěnu M= { e i E N λ i e i ; λ i [0,1] potom tento imset náleží i do mnohostěnu, jenž je konvexním obalem množiny všech součtů n různých elementárních imsetů neboli množiny B n = { v= } } n e i ; D E N, D =n. e i D, Důkaz. Dokážeme nejprve pomocné tvrzení, že každý bod r rozměrné jednotkovékrychle,jehožsoučetsouřadnicje n N 0,jekonvexníkombinací bodů z krychle o souřadnicích (s 1,..., s r ) takových, že i : s i {0,1} a s 1 + s 2 + +s r = n.pokudtototvrzeníplatí,pakpodosazení r= E N, koeficienty λ i použitévmdefinujípříslušnýbodkrychleaprohozenímpříslušných sum snadno nahlédneme požadovaný závěr. Pomocné tvrzení dokážeme indukcí podle r zároveň pro všechna přípustná n: pro r 2 tvrzení evidentně platí. Předpokládáme-li platnost tvrzení pro všechna r < r,pakjehoplatnostpro r(alibovolné n)dokážemenejprve pro body na stěnách krychle. Vezměme si tedy libovolnou stěnu krychle, bez újmynaobecnostitedytřebatuspevnouprvnísouřadnicí s 1 =0,respektive s 1 =1.Tedymá-limítbodnatétostěněsoučetsouřadnic n,musíbýtsoučet druhé až r té souřadnice roven n, respektive n 1, a indukční předpoklad nám zaručuje, že takovýto bod již bude požadovanou konvexní kombinací. Zbývá totéž dokázat o bodech uvnitř krychle. Ale každý takový bod je konvexní kombinací dvou bodů, pro něž platnost tvrzení již byla nahlédnuta. Vskutku ke každému ( bodu uvnitř ) krychle můžeme přičíst i odečíst vhodný 1 násobek vektoru 1, r 1,..., 1 r 1 tak, že dostaneme body ležící na stěnách krychle, z kterých lze tento bod nakombinovat. Problémem, na který opět narážíme, je obrovská výpočetní složitost. Ukazujese,žeasinebudemožnénajítpřesnýpopiskonvexníhouzávěru B n ve tvaru průniku poloprostorů, ale spíše nějakou jeho vnější aproximaci.

411 Využití pojmu Hilbertovy báze pro ověřování hypotézy o shodnosti Závěr Podařilosenámhypotézu,že C N = S N ověřitpro N 4. Problémpro N=5nadálezůstáváotevřenýauvítámenámětyčirady, jak postupovat při jeho řešení. Zatím je známo pouze to, že pakliže existuje prvekminimálníceločíselnéhilbertovybáze S 5 neobsaženýve 5,pakmá tento prvek stupeň ostře vyšší než 4. Nadějné se zdá být hledání imsetů v mnohostěnech pro jednotlivé stupně, které však zatím naráží na příliš vysokou časovou náročnost. Reference [1] Studený M.(2001). On mathematical description of probabilistic conditional independence structures. Doktorská práce, ÚTIA AV ČR. [2] Studený M.(2005). Probabilistic conditional independence structures. Springer-Verlag London. [3] Studený M., Bouckaert R.R., Kočka T.(2000). Extreme supermodular set functions over five variables. Výzkumná zpráva číslo 1977, ÚTIA AVČR. [4] Schrijver A.,(1998). Theory of linear and integer programming. John Wiley. Poděkování: Práci na tomto příspěvku byla poskytnuta podpora z grantu GA ČR 201/04/0393. Adresa: P. Šimeček, M. Studený, ÚTIA AV ČR, Pod Vodárenskou věží 4, Praha 8 simecek@karlin.mff.cuni.cz, studeny@utia.cas.cz

412 402

413 ROBUST 2004 c JČMF 2004 NEJMENŠÍ USEKNUTÉ ČTVERCE(LTS) JAKO DIAGNOSTICKÝ NÁSTROJ Marie Šimečková Klíčová slova: Nejmenší useknuté čtverce(lts), diagnostika. Abstrakt: Metoda nejmenších useknutých čtverců(lts) je robustní variantou metody nejmenších čtverců. Příspěvek se zabývá odhadem LTS v lineárnímmodeluajezaměřenpředevšímnajehoužitívpřípadě,kdyzávislá veličina je kromě sledovaných veličin ovlivněna ještě dalším faktorem. Metoda je předvedena na příkladě modelování docházky australských dětí do školy v závislosti na jejich věku, pohlaví, úspěšnosti ve škole a jejich etnickémpůvodu.jeukázáno,žeikdyždomodeluzávislostnaetnickémpůvodu nezahrneme, s užitím LTS zjistíme, že soubor dětí se rozpadá na dvě skupiny s různým poměrem dětí domorodého původu. 1 ÚvodadefiniceLTS V textu se budeme zabývat lineárním regresním modelem. Předpokládáme model Y i = X i β+ e i, i=1,..., n, n N. (1) Y =(Y 1,...,Y n ) T jevektorzávisleproměnných, X i je i-týřádekmatice vysvětlujících proměnných X o rozměrech n p, p N(první sloupec této matice může tvořit vektor jedniček), hodnost matice X je kladná a menší než n.dálevektorchyb e=(e 1,...,e n ) T jevektornezávislýchstejněrozdělených náhodných veličin s nulovou střední hodnotou a konečným rozptylem a β=(β 1,..., β p ) T R p jevektorparametrů. Označme r i (β)=y i X i β, i=1,...,nreziduaar(1) 2 r2 (2) r2 (n) vektor pořádkové statistiky jejich druhých mocnin. Odhadmetodounejmenšíchčtverců(leastsquares)jetakovývektorˆβ, který minimalizuje výraz min β R p n ri(β). 2 i=1 Odhad metodou nejmenších useknutých čtverců(least trimmed squares, LTS)jetakovývektorˆβ,kterýminimalizujevýraz min β R p h r(i) 2 (β), i=1 kde hjedanákonstanta,0<h n.nejvyššíbodselhání(breakdownpoint) mátentoodhadpro hrovno n p n (jeroven n p 2 +1 n ).Vdalšímtextu

414 404 Marie Šimečková budeme předpokládat tuto hodnotu konstanty h, nebude-li řečeno jinak. Více o vlastnostech tohoto odhadu v Rousseeuw, Leroy[1]. Dále se budeme zabývat případem, kdy model 1 není splněn a pozorování (Y 1, X 1 ),...,(Y n, X n )lzerozdělitdodvouskupinsrůznýmizávislostmi. Tzn. Y i = X i β+ e i, i {i 1,...,i k } {1,...,n}, k < n Y i = X i γ+ e i, i {1,...,n} \ {i 1,...,i k }. Jednoduchýpříkladmůžemevidětnaobr1.Naprvnípohledjevidět,žese jednáosměsdvoumodelůsestejnouzávislostínaveličině X,alesrůzným absolutním členem. Jako velmi často v podobných situacích, většina pozorování, které odhad LTS nevyužije(jejich čtverce reziduí jsou velká), pochází zjednohomodelu,aprotoodhadltsjevýrazněodlišnýododhadumetodou nejmenších čtverců. Y x x x x x x x x xx x x x x x x x x Obrázek 1: Odhad metodou nejmenších čtverců(šedá linka) a metodou LTS (černá linka) v lineární modelu závislosti náhodné veličiny Y na veličině X. Vtomtopřípaděkaždýzobrázkuvidí,žekvysvětleníveličiny Y nestačí veličina X a i grafy reziduí to jasně potvrzují. V případě více vysvětlujících proměnných nám ale obrázek nepomůže a i ve dvourozměrném případě může nastat situace na první pohled nejasná. Podívejme se na obrázek 2. Zde žádné dvě odlišné skupiny vidět nejsou. Přesto se ale odhady metodou nejmenších čtverců a metodou LTS výrazně liší,jakjevidětnaobrázku3.veskutečnostisejednáosměsdvoupopulací. Probodyoznačenékřížkemplatímodel Y=1+0,5 X+e,probodyoznačené kroužkemplatímodel Y = 3 0,3 X+ e.(chybovéčlenymajívobou případech normální rozdělení s nulovou střední hodnotou a rozptylem 0,5). Tentokrát nás ani analýza reziduí odhadu metodou nejmenších čtverců neupozorní na možnost nesplnění předpokladů, viz obrázek 4, p-hodnota Shapirova- Wilkova testu normality je rovna 0,914. X

415 Nejmenší useknuté čtverce(lts) jako diagnostický nástroj 405 x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x xx x x x x x X Y Obrázek2:Grafbodů(X 1, Y 1 ),...,(X 100, Y 100 ). x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x X Y Obrázek 3: Odhad metodou nejmenších čtverců(šedá linka) a metodou LTS (černá linka) v lineární modelu závislosti náhodné veličiny Y na veličině X. OdhadLTSrozdělilbody(Y i, X i )nadvěčásti,prvníčástkodhadupoužil a druhou nepoužil. Tmavá linka na obrázku 3 tedy ukazuje odhad metodou nejmenšíchčtvercůnazákladě51bodů vybraných metodoults. Po opakovaném použití odhadu LTS na tyto dvě skupiny a vyzkoušením odhadů LTS s různými hodnotami konstanty h bychom se dopracovali k ještě přesnějšímu rozdělení obou populací. Celou analýzu si předvedeme na následujícím příkladě. 2 Docházka dětí do školy na australském venkově Data pochází ze sociologické studie o australských dětech aborginského a bělošského původu S. Quinové a jsou volně přístupná v prostředí R v knihovně MASS pod jménem quine.

416 406 Marie Šimečková Frequency Sample Quantiles rezidua Theoretical Quantiles Obrázek 4: Histogram a normální QQ-plot reziduí odhadu metodou nejmenších čtverců. Do studie bylo zahrnuto 146 dětí ze čtyřech věkových skupin(poslední ročník základní školy a první tři ročníky střední školy)- tomu odpovídá veličinaagenabývajícíhodnot1,2,3,4.dálejeudětísledovánopohlaví (veličina Sex nabývající hodnot 0 pro dívku a 1 pro chlapce), etnický původ (veličinaethnabývajícíhodnota-aborginecan-jinýpůvod),úspěšnostve škole(veličina Lrn nabývající hodnot 0 pro průměrného žáka a 1 pro slabého žáka,večtvrtévěkovéskupiněnenížádnýpomalýžák)akolikdnídítěběhem školního roku chybělo ve škole(veličina Days). Studiesezúčastnilo66chlapcůa80dívek,69Aborgincůa77bílýchdětí, 63slabýcha83průměrnýchžáků,vevěkovýchskupinách1až4bylo17, 46,40a30dětí.Početzameškanýchdnísepohybovalvrozmezí0až81, průměrná hodnota je 16,5 a medián 11. Budeme se zabývat hledáním závislosti počtu zameškaných dnů na pohlaví, věku a úspěšnosti ve škole, tedy předpokládáme model Days=β 0 + β 1 Sex+β 2 Age+β 3 Lrn. (2) Ukážeme, že odhad LTS rozdělí děti do dvou skupin s výrazně odlišným počtem dětí domorodého původu. Odhady koeficientů v modelu 2 metodou nejmenších čtverců a metodou LTS(skonstantou htakovou,abybodselháníbylmaximální,tedy h=75) jsouvtabulce1. β 1 β 2 β 3 LS 3,63 3,30 3,70 LTS -0,65-1,34-0,95 Tabulka1:Odhadykoeficientůvmodelu2, h=75.

417 Nejmenší useknuté čtverce(lts) jako diagnostický nástroj 407 chlapci dívky poměr dohromady ,83 1. skupina ,63 2. skupina ,09 slabí průměrní poměr dohromady ,76 1. skupina ,86 2. skupina ,65 min maximum průměr medián dohromady 1 4 2,54 2,5 1. skupina 1 4 2, skupina 1 4 2,76 3 min maximum průměr medián dohromady , skupina , skupina ,1 23 Tabulka 2: Charakteristiky pohlaví, úspěšnosti ve škole, věku a počtu zameškanýchdníprocelýsoubor,skupinupoužitoukodhadults(h=75) a skupinu zbývajících dětí. koeficienty Obrázek 5: Změny odhadu koeficientů metodou LTS v závislosti na konstantě h(černěkoef. β 1,světlejikoef. β 2,nejsvětlejikoef. β 3. h Závislost zjištěná pomocí obou metod je velmi různá, v prvním případě je kladná, v druhém záporná. Metoda LTS rozdělila soubor do dvou skupin, jejich charakteristiky viz tabulka 2. Nyní zkusíme, co se stane, když použijeme různé hodnoty konstanty h. Naobrázcích5a6jsoupro hmezi50a143grafyzměnkoeficientůapočtů iterací nutných k nalezení odhadu LTS dle algoritmu popsaném ve Víšek[2]. Na obrázku 7 jsou součty čtverců reziduí lineárního modelu spočteného z dat

418 408 Marie Šimečková iterací Obrázek 6: Závislost počtu iterací při určování LTS odhadu na konstantě h. h soucet ctvercu Obrázek 7: Závislost součtů čtverců reziduí lineárního modelu spočteného zdatpoužitýchvodhadultsazezbývajícíchdat(šedélinky)ajejich součtu(černá linka) na konstantě h. h použitých v odhadu LTS, ze zbývajících dat a jejich součet, v závislosti na konstantě h. Odhady koeficientů se ustálí pro h přibližně mezi 105 a 125, počet iterací jenízkýpro hmezi95a115(2000jemaximálnípočetiteracívalgoritmu), součetsoučtučtvercůvobouskupináchjenejnižšípro hmezi100a120.dále budeme používat h rovné 110. Pakodhadykoeficientůjsou β 1 =0,97, β 2 =0,73aβ 3 = 1,09.Podíváme se na vlastnosti dvou souborů, na které děti rozdělila metoda LTS tentokrát, viz tabulka 3. MetodaLTSrozděliladětitéměřpřesněnadětisnižšímavyššímpočtem zameškaných dní(hranice je dní). U žádné z vysvětlujících veličin není statisticky významný rozdíl(na hladině 0,05) mezi první a druhou skupinou (testováno χ-kvadrát testem, resp. Wilcoxonovým dvouvýběrovým testem).

419 Nejmenší useknuté čtverce(lts) jako diagnostický nástroj 409 chlapci dívky poměr dohromady ,83 1. skupina ,75 2. skupina ,12 slabí průměrní poměr dohromady ,76 1. skupina ,75 2. skupina ,80 min maximum průměr medián dohromady 1 4 2,54 2,5 1. skupina 1 4 2, skupina 1 4 2,81 3 min maximum průměr medián dohromady , skupina , skupina ,2 36,5 Tabulka 3: Charakteristiky pohlaví, úspěšnosti ve škole, věku a počtu zameškanýchdníprocelýsoubor,skupinupoužitoukodhadults(h=75) a skupinu zbývajících dětí. domorodý bělošký poměr dohromady ,90 1. skupina ,69 2. skupina ,00 Tabulka 4: Poměry počtu dětí aborginského a bělošského původu v celém souboru,veskupiněpoužitékodhadults(h=110)aveskupinězbývajících dětí. Podíváme se nyní na etnickou příslušnost dětí, viz tabulka 4. Rozdíl v podílu aborginských dětí v 1. a 2. skupině je statisticky významný (p-hodnota χ-kvadrát testu je rovna 0,013). Protože obě etnika nebyla rozdělena přesně, je možné, že docházka do školy nezávisí na etnickém původu, ale spíše na něčem, co s ním souvisí, například na sociálním postavení rodiny nebo na vzdělání rodičů.

420 410 Marie Šimečková Reference [1] Rousseeuw P. J., Leroy A. M.(1987). Robust regression and outlier detection. Wiley, New York. [2] Víšek J. Á.(2000). On the diversity of estimates. Computational Statistics &DataAnalysis34, Poděkování: Příspěvek vznikl s podporou grantu GA ČR 402/03/0084. Adresa: Katedra pravděpodobnosti a matematické statistiky MFF UK, Sokolovská 83, Praha 8 simecko@karlin.mff.cuni.cz

421 ROBUST 2004 c JČMF 2004 WEIGHTED GMM ESTIMATION Jan Ámos Víšek Keywords: Robustified GMM-estimation, robust regression, equivariance of the estimation, influential points, contamination, heteroscedasticity, instrumental variables, the least weighted squares.. Abstract: The paper presents an implementation of ideas of robust statistics in the Generalized Method of Moments. Robustification of GMM is proposed inthesenseoftheleastweightedsquares.heuristicsofboth,gmmaswell asoflwsarebrieflyrecalled.theexamplesareonlysketched(duetolimit ofspace). 1 Introduction and notations In1982LarsPeterHanseninthepioneeringpaper[8]proposedanddiscussed Generalized Method of Moments(GMM). One year later Peter Rousseeuw[12],[13],seealso[6]definedtheLeastMedianofSquares(LMS)and the Least Trimmed Squares(LTS), the first two feasible estimates with(possibly) 50% breakdown point. Both of them fulfill the Hampel s program of modern estimation[6] or even its enlargement, adding to the Hampel s the requirement of the equivariance, the existence of a reliable algorithm(possiblywithaneasyavailableimplementation),thesubsamplestability 1 and, last but not least, a working heuristics, see[17],[19]; for algotritms see[1] and[14] or[18]. Nevertheless, in the case of dynamic framework, there is a serious reason why we should use another robust estimator of regression coefficients 2,namelyLWS[17].Inthenextsectionweshallrecallphilosophy ofgmm.thethirdoneisdevotedtolws,toremindtheheuristicsofthem. Finallythelastsectionoffersaproposalhowtoprofitfromthe aliance of both approaches. Let N denotethesetofallpositiveintegers, Rtherealline,and R p the p-dimensional Euclidean space and assume throughout the paper a fixed probability space(ω, A, P) probability space. 2 Generalized method of moments Letusassumethatwewouldliketoestimatethe true value θ 0 ofaparameter of a parameterized family of models and there are two estimators, givenassolutionof g (1) (θ, x 1, x 2,..., x n )=0and g (2) (θ, x 1, x 2,..., x n )=0, say.noofthemisuniformlybetterthentheother.averyfirstideamaybe 1 ThispointisfulfilledneitherbyLMSnorLTS.Itisaconsequenceofthefactthatboth estimators too much rely on the selected observations while suppressing nearly completely theinfluenceoftherestofdata. 2 ThedeletionofsomeobservationsbyLMSorLTSrepresentsevidentlyanunwelcome problem, since it may considerably modify the character of(possible) serial correlation of disturbances and/or explanatory variables.

422 412 Jan Ámos Víšek tofindacombinationofthemwhichcanbeuniformlybetterthanboth.formally it may be done as follows. Select a symmetric positive definite matrix Wandput ( ) g(θ,x)= g (1) (θ, x 1, x 2,...,x n ), g (2) (θ, x 1, x 2,..., x n ) and ˆθ= argmin g (θ) W g(θ) (1) θ Θ A nice example of estimating the mean of normal distribution, provided an additionalinformationthat µ=3σ 2 holds,canbefoundin[25]. The optimal choiceof W is the inversecovariancematrix of g(µ,d), see[24].ofcourse,wetrytofindasolutionoftheextremalproblem(1) by finding a solution of equation [ ] g(θ) W g(θ)=0 (2) where g(θ) θ θ denotes the matrix of partial derivatives { } g (j) (θ,x) θ k, k=1,2,...,p, j=1,2(wehaveassumedthatθ R p ).(2)canbeconsideredasasystem of the normal equations. Now,letusturnforawhiletothelinearregressionmodel(say,inthe dynamic framework and p with random explanatory variables) Y t = X tj βj 0 + ε t= X t β0 + ε t, t=1,2,...,t j=1 the Ordinary Least Squares estimate is given as solution of the normal equations X (Y Xβ)=0.orequivalently 1 T X (Y Xβ)=0 (3) which is an empirical counterpart of an orthogonality condition IE {X 1 (Y 1 X 1β)}=0. (4) As we shall see later, for robust estimation of regression model(see(10) below), we have a similar system of normal equations. So,inmanycasesweappearatasituation(whenlookingforanunderlying model of data in question): We assume existence of a vector of explanatory variables, say X t R p,andofmatrix 3 ofunobservabledisturbances,say e t = H(X t, β 0 ).Thentobeabletoestablishaconsistentestimatorof β 0,we need the orthogonality condition IE {e 1 X 1 }=0. However, there are many models exhibiting correlation of disturbances with explanatoryvariables 4.Thenweemploy(acollectionof)instruments,say z t = G(X t, β 0 ),suchthat 3 Generally,thedisturbanceforeachobservationcanbemultidimensional,ifthe response variable is not scalar. 4 The most frequently recalled isprobably model assuming the measurement of explanatory variables with a random error, see[15] or[16]. For many other examples see either[9]or[2].

423 Weighted GMM estimation 413 IE {e 1 z 1 }=IE { H(X 1, β 0 ) G(X 1, β 0 ) } =0 (5) (andofcourseweassumethatcorrelationoftheexplanatoryvariables X t withtheinstruments z t is(are)ashighaspossible). The empirical counterpart of(5) is then g T (X, β)= 1 T [H(X t, β) G(X t, β)]=0. (6) T t=1 Unfortunately, especially due to substitution of the explanatory variables by theinstruments,weneednotbeabletofindany β R p fulfilling(6).then weprefertogivethedefinitionoftheestimatorinthefollowingform. Definice 2.1. Let W be a symmetric positive definite matrix. Then the solution of the extremal problem ˆβ (GMM,W) = argmin β R p g (X, β) W 1 g(x, β) (7) will be called the Estimator obtained by the Generalized Method of Moments, or GMM-estimator for short. We have already mentioned that the optimal selection of W is the covariance matrix C= IE[g T (x, β) g T (x, β)]whichisgenerallyunknown.hence,provideditisregularandconsistentlyestimable,itissubstitutedby Ĉ,say.Of course, sometimes either no consistent estimate of W is available. Then we have to employ some heuristics for selecting some positive definite matrix as a substitute for the covariance one. 3 The least weighted squares AswehavealreadysaidLMSaswellasLTSaredisqualifiedforestimating the coefficients of dynamic regression model since we can t afford to delete some rows(without distorting the structure of(possible) serial correlation). Ontheotherhand,wewouldliketodepressabittheinfluenceofsome observation either due to the suspicious values of explanatory variables or due to strange values of response. The Least Weighted Squares(LWS) is candidate which fulfills all points of enlarged Hampel s program, including the existence of the reliable algorithm and available implementation, see e.g.[10] or[11].bytheway,itmeansthat,indistinctiontothe M-estimators,itis scale-andregression-equivariant 5,withoutestimatingscaleofdisturbances 5 Letusrecallthathavingdenoted M(n, p)thesetofallmatricesoftype(n p)and recallingthattheestimator ˆβcanbeconsideredasamapping ˆβ(Y, X): M(n, p+1) R p, theestimatorˆβof β 0 iscalledscale-equivariant,ifforany c R +, Y R n and X M(n, p) we have ˆβ(cY, X)=cˆβ(Y, X) andregression-equivariantifforany b R p, Y R n and X M(n, p) ˆβ(Y+ Xb, X)=ˆβ(Y, X)+b.

424 414 Jan Ámos Víšek and performing studentization of residuals. Of course, the tax we pay for this advantage are rather complicated proofs of consistency of LWS, see again[10] or[11].letusrecallthedefinitionoflws. Tothisend,letforany β R p r t (β)=y t X tβdenotethe t-thresidualand r(t) 2 (β)the t-thorderstatisticamongthesquaredresiduals.itmeansthat r(1) 2 (β) r2 (2) (β)... r2 (T) (β). Definice3.1.Víšek[17]Foraweightfunction w:[0,1] [0,1]thesolution of the extremal problem ˆβ (LWS,T,w) = argmin β R p T ( ) t 1 w r(t) 2 (β) (8) T willbecalledtheleastweightedsquaresestimator 6 (LWS). t=1 The weight function is usually assumed to fulfill: C1Weightfunction w:[0,1] [0,1]isabsolutelycontinuousandnonincreasing,withthederivative w (α)boundedfrombelowby L, w(0)=1. Now,forany t {1,2,...,T }letusput π(β, t)=j {1,2,..., T }sothat rt(β)=r 2 (j) 2 (β)(noticethat π(β, t)isr.v.;inanalogywiththetheoryofrank test,wecancallittherankof t-thobservation,see[7]).then ˆβ (LWS,T,w) = argmin β R p T ( ) π(β, t) 1 w r 2 T t(β). (9) t=1 Further,forany T N by P T letusdenotethesetofallpermutationsof theindices {1,2,..., T }andby π t the t-thcoordinateofthevector π P T. Denoting π(β)=(π(β,1), π(β,2),..., π(β, T)),wehave π(β) P T.Now, keepinginmindc1,(8)and(9),weeasyverifythatforany π P T T ( ) π(β, t) 1 w rt 2 T (ˆβ (LWS,T,w) ) t=1 T ( πt 1 w T t=1 ) r 2 t (ˆβ (LWS,T,w) ) sothatforany ω Ωthereissome π P T suchthatforthevectorof weights w =(w(t 1 (π 1 1)), w(t 1 (π 2 1)),..., w(t 1 (π T 1)))wehave ˆβ (LWS,T,w) = ˆβ (WLS,T,w ),i.e.(inwords)theleastweightedsquaresestimator is equal to the(classical) Weighted Least Squares estimator(with the weights w t s)atgiven,fixed ω Ω.Asˆβ (WLS,T,w ) isthesolutionofnormal equations(at given, fixed ω Ω) T wt X t (Y t X tβ)=0 t=1 6 Seealso[4]wheretheestimatoriscalledtheSmoothedLeastTrimmedSquares.

425 Weighted GMM estimation 415 takingintoaccountsuccessivelyall ω Ω,weconcludethat ˆβ (LWS,T,w) is one of solutions of normal equations INE X,T (β)= T ( ) π(β, t) 1 w X t (Y t X t β)=0. (10) T t=1 For proposing a robustification of GMM another form of normal equations however will be more instructive. Definice 3.2. Denoteby I{X t < x, e t < v}theindicatorofthesetofall ω s for which the explanatory variable X t R p issmaller than x R p (coordinatewise) and the t-th disturbance is smaller than v R. Then define for any T N the joint empirical distribution function of the explanatory variables and of disturbances as F (T) X,e (x, v)=f(t) X,e (x, v, ω)= 1 T T I{X t < x, e t < v} t=1 Noticethat1/T T t=1 I{X t < x, e t < v}=1/t T t=1 I{X t(ω) < x, e t (ω)<v}. Remark 3.1. Itseemsatthefirstglanceabitstrangetoconstructempirical distribution function when the random variables are not indentically distributed.nevertheless,noticethat IEI{X t < x, e t < v}=f X,e,t (x, v)and hence according to the(strong) law of large numbers for independently but non-identically distributed r.v. s(see e.g.[3] or[5]) we have 1 T T [I{X t < x, e t < v} F X,e,t (x, v)] 0 a.s. t=1 or in an alternative notation F (T) X,e (x, v) 1 T T F X,e,t (x, v) 0 a.s. Further,letusdenoteforany β R p thedistributionoftheabsolutevalue ofresidualby F β (u).inotherwords, F β (u)=p( Y 1 X 1β < u)=p( e 1 X 1 ( β β 0 ) < u) = I{ x ( β β 0) v < u}df X,e (x, v). (11) Moreover,forany β R p theempiricaldistributionoftheabsolutevalueof residualwillbedenoted F (T) β (u).itmeansthatwehave F (T) β (u)= 1 T I { r t (β) < u}= 1 T I { e t X ( t β β 0 ) < v }. (12) T T t=1 t=1 t=1

426 416 Jan Ámos Víšek It immediately gives F (T) π(β, t) 1 β ( r t (β) )= T andso(3.1)canbewrittenas T t=1 ( w F (T) β ) ( r t (β) ) X t (Y t X t β)=0. (13) Remark3.2.LetusalsorecallthattheLeastWeightedSquaresfulfilsmostof points of the enlarged Hampel s program of point estimation as given in previous.ofcourse,therearestillonlyafewattemptsforfulfillingthepointabout diagnostics, sensitivity and accompanying procedures, see e.g.[21],[22],[23]. 4 The weighted GMM estimation Inthissectionwearegoingtogiveaproposalhowto merge theideaof robust estimation with the idea of generalized method of moments. Recalling thatwehavedenotedby e t = H(X t, β 0 )unobservablevectorofdisturbances 7 andby z t = G(X t, β 0 )thevectorofinstrumentalvariables,letusenlargethe notation as follows. The empirical distribution function of the absolute values ofresidualswillbedenotedby F (T) ( H(X t, β) ).Inwhatfollows,weshall assume that IE β { ( ) } w F (T) β ( H(X 0 t, β 0 ) ) [u t z t ] =0for t=1,2,..., T. Similarlyasinprevious,letusputforany β R p g w T(x, β)= 1 T T t=1 [ ( w F (T) β ) ( H(X t, β) ) ] H(X t, β) G(X t, β). Definice 4.1. Let W be a symmetric positive definite matrix. Then the solution of the extremal problem ˆβ (GMM,c W) = argmin β R p [g w T(x, β)] Ŵ 1 g w T(x, β) (14) will be called the estimator obtained by Weighted Generalized Method of Moments, or WGMM-estimator for short. [ Of course, analogously as in previous, if IE gt w(x, β0 ) ( gt w(x, β0 ) ) ] is regularmatrixwhichisconsistentlyestimablebyaregularmatrix Ŵ,we employitintheroleof W.Asthisisaveryfirstattempttoemploythe ideas of robust statistics in the estimation based on the Generalized Method of Moments. we have not yet at hand any optimality result about selection of W. 7 Similarlyasinprevious,weshalldenoteforany β R p by H(X t, β)theresiduals.

427 Weighted GMM estimation Conclusion It is straightforward that the Least Weighted Squares are special case of the WGMM-estimator.Havingput G(X t, β)=x t, H(X t, β)=y t X tβand W= IIandtakingintoaccount(13),weverifyit(ofcourse,thequadratic formin(14)turnstozero).ontheotherhand,(14)cangiveareasonable (robust) estimate even for(much) more general cases, e. g. when we would not like to restrict ourselves to the one(robust) estimator of regression coefficients. The reason may be that we hesitate which of robust estimators can bethebest tailored forourdata(e.g.duetoouronlyvagueknowledgeof level or of structure of contamination). References [1] Boček P., Lachout P.(1993). Linear programming approach to LM S- estimation. Memorial volume of Comput. Statist.& Data Analysis 19, [2]Bowden R.J., Turkington D.A. (1984). Instrumental variables. Cambridge: Cambridge University Press. [3] Breiman L.(1968). Probability. Addison-Wesley Publishing Company, London, [4] Čížek P.(2002). Robust estimation with discrete explanatory variables. COMPSTAT 2002, Berlin, [5] Chung K.L.(1968). A course in probability theory. Harcourt, Brace and World, New York. [6] Hampel F.R., Ronchetti E.M., Rousseeuw P.J., Stahel W.A.(1986). Robust statistics the approach based on influence functions. J. Wiley& Sons, New York. [7]HájekJ.,ŠidákZ.(1967).Theoryofranktest.AcademicPress,New York. [8] Hansen L.P.(1982). Large sample properties of generalized method of moments estimators. Econometrica 50, no 4, [9] Judge G.G., Griffiths W.E., Hill R.C., Lutkepohl H., Lee T.C.(1985). The theory and practice of econometrics. J. Wiley& Sons, New York. [10] Mašíček L.(2004). Diagnostics and sensitivity of robust estimators. Dissertation, Charles University, Prague. [11] Plát P.(2003). The least weighted squares. Diploma theses, the Czech Technical University, Prague, [12] Rousseeuw P.J. (1983). Multivariate estimation with high breakdown point. Proceedings of the Fourth Pannonian Symposium on Mathematical Statistics, Bad Tatzmannsdorf, Austria, [13] Rousseeuw P.J.(1984). Least median of square regression. Journal of Amer. Statist. Association 79, [14] Víšek J.Á.(1996). On high breakdown point estimation. Computational Statistics, Berlin 11,

428 418 Jan Ámos Víšek [15] Víšek J.Á.(1997). Statistická analýza dat, Statistical data analysis,(in Czech). Vydavatelství Českého vysokého učení technického v Praze(the Czech Technical University Publishing House), [16] Víšek J.Á.(1998). Robust instruments. Robust 98(ed. Jaromír Antoch & Gejza Dohnal), published by Union of Czechoslovak Mathematicians and Physicists, [17] Víšek J.Á.(2000). Regression with high breakdown point. ROBUST 2000, , ISBN [18] Víšek J.Á.(2000). On the diversity of estimates. Comput. Statist. and DataAnalysis34, [19] Víšek J.Á.(2000). A new paradigm of point estimation. Proceedings of the Seminar: Data Analysis 2000/II, Modern Statistical Methods- Modelling, Regression, Classification and Data Mining, ISBN , [20] Víšek J.Á.(2002). Sensitivity analysis of M-estimates of nonlinear regression model: Influence of data subsets. Annals of the Institute of Statistical Mathematics 54, No.2, [21] Víšek J.Á.(2004). Robustifying instrumental variables. Proceedings of COMPSTAT Physica-Verlag/Springer, ISBN , [22] Víšek J.Á.(2004). The least weighted squares for dynamic specification. Celebrating Statistics: an International Conference in Honour of Sir DavidCoxinOccasionofhis80thBirthday. [23] Víšek J.Á.(2004). The least weighted squares for panel data. 6th World Congress of the Bernoulli Society for Mathematical Statistics and Probability, [24] Wooldridge J.M.(2001). Econometric analysis of cross section and panel data. MIT Press, Cambridge, Massachusetts. [25] Wooldridge J.M.(2001). Applications of generalized method of moments estimation.j.ofeconomicperspective15,no4, Acknowledgement: Research was supported by grant of GA ČR number 402/03/0084. Address: J.Á. Víšek, Department of Macroeconomics and Econometrics, Faculty of Social Sciences, Charles University Prague, Smetanovo nábřeží 6, Praha 1& Department of Stochastic Informatics, Institute of Information Theory and Automation, Academy of Sciences of the Czech Republic visek@mbox.fsv.cuni.cz

429 ROBUST 2004 c JČMF 2004 ODHADY POČTU KOMPONENT MODELU Petr Volf Klíčová slova: Řád modelu, BIC, Bayes factor, MCMC. Abstrakt: Příspěvek se zabývá kriterii BIC a Bayesův faktor, dále pak použitím Reversiblejump algoritmumetropolisehastingse,anakonecuplatněním zjednodušeného prohledávání a hledání(s pomocí simulovaného žíhání) maxima aposteriorního rozložení, zároveň pro parametry modelu a počet jeho komponent. 1 Úvod V mnoha případech analýzy dat je jedním z úkolů také výběr optimální složitosti modelu, nejčastěji související se stanovením počtu komponent, řádu modelu, např. v úlohách autoregrese, regresních modelů, i modelování pomocí směsí distribucí. Existuje řada kriterií odvozených exaktně pro určité případy(např. Akaikeho IC), varianty se pak používají i v případech jiných, na základě určité zkušenosti. Samozřejmě vznikla idea použít bayesovský pohled na počet komponent jako na neznámý parametr, na tomto základě lze odvodit BIC G. Schwarze. Mimochodem, tento pohled, kdy řád modelu vyplynul z aposteriorní pravděpodobnosti, je od 70. let uplatňován pro řízení procesů(ar typu) v ÚTIA, původně skupinou kolem Ing. V. Peterky, na kterou plynule navázalo oddělení adaptivních systémů(m. Kárný a další). Začínali s rodinou konjugovaných rozděleni exponenciálního typu. V 90. letech rozvoj MCMC metod umožnil neomezovat se při Bayesově analýze na takovéto typy distribucí a vedl k značnému rozšíření použitelnosti bayesovských metod. Na druhé straně, začlenění řádu modelu do MCMC generování v sobě nese přeskoky mezi parametry(a odpovídajícími prostory) různé dimenze. V praxi sice při použití např. algoritmu Metropolise-Hastingse na tobylzpravidlabránzřetel(vizip.volfvrobustu1998,optimálnípočet splinů pro neparametrickou regresi), ale bylo třeba i teoreticky zformulovat metody dávající záruky pro reversibilnost skoků v takovém algoritmu. To učinil P. Green[3]. Po počátečním boomu používání MCMC metod nyní snad již nastal stav, kdy se rozlišuje, zda je jejich početně náročné použití účelné. Protože nám jde často pouze o nalezení optimální konfigurace(modelu), je zcela dostatečné a jednodušší používat jen prvky MCMC k prohledávání prostoru a kombinovat je s přímou optimalizací tam, kde to umíme. Důsledné MCMC generování má pak za cíl především dospět k reprezentaci cílových (v našem případě aposteriorních) distribucí.

430 420 Petr Volf 2 Některé metody určení počtu komponent Nejčastější situací, kdy se s tímto problémem setkáváme, jsou lineární modely (tj. modely složené lineárně z určitých jednotek, komponent, např. polynomiální regrese, ARMA posloupnosti). Bylo navrženo poměrně dost kritérií, velká část z nich více méně penalizuje vlastní kriterium fitu modelu(nejčastěji maximum věrohodnosti) penaltou závislou na počtu v modelu použitých komponent. Přehled některých kritérií je třeba v T. Cipra, Robust 84(pro určení řádu ARMA modelů), a poměrně nesystematicky i v různých monpografiích zabývajících se aspekty statistického modelování(např.[4]). My se zde zastavíme u kritérií vycházejících sice z Bayesova přístupu, ale vlastně navrženýchpropoužitív nebayesovské statistice. 2.1 Bayesovské informační kriterium Představmesisituaci,vnížmámedata x,asadumožnýchmodelůsrůznýmpočtemkomponent k, f(x α, k), α=α k.uvažujmeipříslušnébayesovo schéma,tj.priorypro αak: g 0 (α k), P 0 (k)na1,2,...,k= K max. Paktedyaposteriornírozdělenípro α,přidaném kje g(α k x, k)=f(x α k, k) g 0 (α k k)/c 1 (x k), (1) kde c 1 (x k)= α k f(x α k, k) g 0 (α k k)dα k. Bayesův odhad parametru je nejčastěji definován jako maximizer aposteriorníhorozdělení(map),zdetedyˆα=argmax α g(α x, k),člen c 1 (x k) k jeho určení znát nepotřebujeme. Společný posterior pro α a k je f(x α k, k) g 0 (α k k) P 0 (k)/c 2 (x), (2) zatímco marginální posteriorpro α k dostaneme z (2) součtem přes k = 1,...,K max.výraz(2)bybyltenvýraz,kterýbychommělimaximizovatpři důsledném bayesovském hledání řešení(k tomu se dostaneme v další části). Zde c 2 (x)jesoučetpřesvšechna kz c 1 (x k) P 0 (k). Konečně aposteriorní rozdělění pro počet komponent k je P(k x)=c 1 (x k) P 0 (k)/c 2 (x), (3) Představme si nyní úlohu najít k maximalizující(3). Přímo to jde opět například v případě normálního rozdělení, s konjugovanými priory(normální pro µagammapro1/σ).gschwarz[6]totořešiltrochuobecněji(aležetonení problém, ukazuje jeho článek, který má pouhé 3 strany), s tím, že zároveň uvažovalpočetdat n,adošelkekriteriubic,kterétakénesejeho jméno. Přesněji, uvažoval náhodný výběr rozsahu n z rozdělení(s neznámým k)exponenciálníhotypu,tj. f(x i α k, k)=exp(α k y(x i ) b(α k ),tedy f(x α k, k)=exp(n(y α k b(α k )),

431 Odhady počtu komponent modelu 421 kde Y = n i=1 y(x i)/njepostačujícístatistikapro α k.dálepředpokládal regularitu,včetnětoho,žedruhéderivace b(α k )jsoupozitivnědefinitní,pak tedyexistuje(jeden)mvo α k maximizující Y α k b(α k ).Nechťdálepočet možnýchmodelůjekonečný(tj.k max < )aapriorníhustoty g 0 (α k k)jsou ohraničenéiodraženéod0.úlohajepaknajítvsouladus(3) kmaximizující { } S(Y, n, k)=log P 0 (k) exp(n(y α k b(α k )) g 0 (α k k)dα k. (4) α k ZákladdůkazujevTaylorověrozvoji Y α k b(α k )vokolí α k,kde Y α k b(α k ) Y α k b(α k) a α k α k 2 + r(y, k, n), s a >0asrvhodněmalýmpodlevolbyokolí.Dálev(4)dostaneme S(Y, n, k) log P 0 (k)+n(y α k b(α k ))+ +log exp( na α k α k 2 )) g 0 (α k k)dα k + R(Y, k, n), α k kde R(Y, k, n)jsoujižohraničené(v n).pakužjetřebajenexp( na α k α k 2 ))doplnitnanormálníhustotuvynásobenímavydělenímčlenem( na π )k/2 a dostaneme, že S(Y, n, k) n(y α k b(α k )) k 2 log n+r 1(Y, k, n), kde R 1 jeopětohraničené.takževidímevýslednýtvarbickriteria(takjak se většinou uvádí), které říká, že je třeba minimalizovat přes k 2.2 Bayesův faktor 2 maxloglik(x, k, α)+log n k. (5) α Bayesův faktor je kriterium k porovnání dvou možných modelů a k rozhodnutí, který model preferovat. Z toho hlediska jde vlastně zobecnění pojmu věrohodnostnípoměr,atovedvojímsmyslu:jednakdo bayesovskéhosvěta, jednak zde se nepožaduje, aby druhý model byl rozšířením prvého, což je potřebapropoužitívěrohodnostníhopoměru(vnořenéči vhnízděné,nested, modely). Zůstaneme u našeho značení, mějme tedy data x, dva modely charakterizovanéčísly k 1, k 2,takéjejichapriornípravděpodobnosti P 0 (k j ),apříslušnéparametry α j sjejichoboryhodnotapriory g 0 (α j k j ), j=1,2.nyní udělejme poměr aposteriorních pravděpodobností obou modelů, z(3), přičemžsefunkce c 2 (x)zkrátí, P(k 1 x) P(k 2 x) = P 0(k 1 ) P 0 (k 2 ) α 1 f(x α 1, k 1 ) g 0 (α 1 k 1 )dα 1 α 2 f(x α 2, k 2 ) g 0 (α 2 k 2 )dα 2.

432 422 Petr Volf Zde integrály v 2. části lze také považovat za pravděpodobnosti(hustoty) p(x k j )aprávějejichpoměr,tj.kdovípročbezpoměrupriorůpro k j,se označuje pojmem Bayesův faktor[2]: B 12 = p(x k 1) p(x k 2 ). Jepravda(podobnějakouBIC),žepřirostoucímrozsahudat(n )vliv apriorníchpravděpodobností P 0 (k j )klesá,apůsobnostbfjesrovnatelná sbic.konkrétně,pokudoznačímepříslušnémvo α j a S 12=logf(x α 1, k 1) log f(x α 2, k 2) (k 1 k 2 )log(n)/2,tak S 12 log B 12 log B (6) Pokud neumíme přímo spočítat p(x k), tak jednou cestou je generování hodnot α (i), i=1,...,n,zjejichprioru g 0 (α k),pakjetedyodhadˆp(x k)= i f(x α (i), k)/n. 2.3 Použití standardních statistických testů Standardní statistické testy jsou samozřejmě také nástrojem sloužícím k nalezenínejvhodnějšíhomodelu.pokudzůstanemeve věrohodnostních modelech splňujících podmínky regularity, tak máme k dispozici především testy významnosti jednotlivých parametrů, založené na asymptotické normalitě jejich MV odhadů. V těchto případech jde skutečně o porovnání vhnízděných modelů, nejčastěji testujeme přidání 1 komponenty k modelu stávajícímu. Místo penalty vyskytující se v předešlých kritériích(a vznikající tam z apriorních rozdělení parametrů) zde podobným způsobem působí kritická hodnota testu. Zkusme teď porovnat test pomocí věrohodnostního poměru s BIC. Mějmemodel M 0 amodel M 1,kterýjerozšířením M 0 o1komponentu. Našehypotéza H 0 je,žeonakomponentajenavíc,žemodel M 0 jesprávný. Kriterium pomocí poměru věrohodností je založené na MVO v obou modelech aporovnánídosaženýchmaximvěrohodnostníchfunkcí,řekněme V0 a V 1. Konkrétně se užívá LV P 10 =2log ( ) V 1 V0 =2L 1 2L 0, kde L j =log V j.připlatnosti H 0 mátatoveličinalimitnírozděleníchikvadráts1stupněmvolnosti.takže H 0 zamítneme(pokudzvolímehladinu testunapř.1%),ažpokud LV P 10 > χ 2 (1)(0.99) Kdybychom stejné rozhodování dělali pomocí BIC kriteria, ke stejnému závěru(prefernci M 1 před M 0 )bychomdošli,pokudbybylo 2L 1 2L 0 > log n.takžeažzhrubapro n exp(6.635) 760bychomdostalistejnoukritickou hodnotu. Pro menší n by kritická hodnota BIC byla menší, a naopak.

433 Odhady počtu komponent modelu 423 Takže se zdá, že test poměrem věrohodnosti je pro střední rozsahy výběrů dost ostrý.alemusímevzítvúvahu,žetatokriteriajsouformulovánapro dost obecné případy, a teprve podrobná analýza(a simulace) v konkrétních případech ukazují, jak si která kriteria vedou. Podobné porovnání můžeme dostatiprobf,kdyžz(6)vyvodíme,že 2logB 10 LV P 10 (k 1 k 0 )log n. O určité vágnosti takto obecně pojatého kritéria svědčí i doporučení obsažené např. v[2] v následující tabulce: 2log B 10: B 10: Evidence against H 0 0 to 2 1 to 3 Not worth than a bare mention 2 to 6 3 to 20 Positive 6 to to 150 Strong > 10 > 150 Very strong Poznámka: V praxi se při konstrukci modelů(např. regresních modelů z bázových funkcí) osvědčuje takový postup, že nejprve vybereme řád modelu pomocí BIC či podobného kriteria s penalizací, a pak tento model dále zjednodušujeme již statistickými testy významnosti jednotlivých parametrů. Navíc, na základě zkušeností se penalta v BIC často násobí vhodnou konstantou, která může být chápána jako parametr řídící optimalizaci modelu. 3 Maximalizace sdruženého aposteriorního rozdělení Hledámenynítakovoukonfiguraci α k a k,kterámaximalizujesdruženéaposteriornírozdělení(2),tj.hledáme argmax αk,kpro f(x α k, k) g 0 (α k k) P 0 (k). (7) Nejjednodušší případ je, že jsme schopni pro každé k spočítat MAP odhad ˆα k,tendosaditdo(7)aporovnatprorůzná k.pokudtoneumíme, jetřebasekoptimudostatnějakpostupně.jednoumožnostíjemcmcmetoda. O těchto metodách bylo na Robustech již mnoho napsáno(janžura, i Volf, 1998). Nyní popíšeme, jak by taková vhodná metoda mohla vypadat. Jak jsme již řekli, důsledné použití MCMC procedur(gibbsův sampler, Metropolis-Hastings algoritmus) vede k generování reprezentace aposteriorního rozdělení, což v tomto případě vlastně nepotřebujeme. Je pravda, že když místo bodového odhadu máme celou reprezentaci, je to značně bohatší informace. Za tu cenu, že generování je většinou časově náročnější, a navíc, každátakováproceduramáurčité volné parametry(dodávanéanalytikem).

434 424 Petr Volf Poznámka 2: Už i volba apriorní distribuce je vlastně jeden z podstatných dojistémíry volnýchparametrů celéanalýzy.iprotosevrámcibayesovské statistikyrozvíjítémazvané bayesovskárobustnost,zkoumajícímimojiné právě citlivost výsledku na vnesené aproirní informaci. Poznámka 3: Jsou ovšem typické situace, kdy je výhodné mít reprezentaci aposteriorního rozdělení, např. pro predikci dalšího chování systému. Na základě dat a apriorní informace odvozujeme vlastně distribuci možných konfigurací(stavů) systému. Formálně,MHalgoritmusbypostupovaltak,žekdanémustavu α, kby navrhovalpomocínějakézvolenédistribuce q 0 (α α, k, k )Q(k k)novéhodnoty α, k apřijímalje(jakodalšíčlenvytvářenémarkovovyposloupnosti) s pravděpodobností min(π, 1), kde π= f(x α, k )g 0 (α k )P 0 (k ) f(x α, k)g 0 (α k)p 0 (k) q 0 (α k)q(k k ) q 0 (α k )Q(k k). Vidíme, že v posledním zlomku je ve jmenovateli popsán krok, který navrhujeme, zatímco v čitateli je krok opačný, od navrhované konfigurace k původní.aprávětadyvznikáproblém,jakmilesevtakovémkrokuměníik, tj. i dimenze α. Jeden možný způsob, jak tento problém překlenout, navrhl Green[3],viziRichardsonaGreen[5]. 3.1 RJMH algoritmus Tatozkratkaznamená ReversibleJumpMetropolis-Hastings aoznačuje právěonugreenemnavrženou trans-dimensional variantumhalgoritmu. Představme si zjednodušeně popsanou situaci: Máme jen 2 různé prostory možných konfigurací parametrů, řekněme A, B, na nich apriorní distribuce parametrů g A (α), g B (β)atakyapriornípravděpodobnosti P(A), P(B).Ataké předpokládáme, že lze vždy oba parametry doplnit nějakými veličinami u, vznějakýchprostorů U, Vtak,aby(α, u)užbylostejnédimenzejako(β, v) a bylo možné vybrat vzájemně jednoznačné a diferencovatelné zobrazení, které by zároveň bylo použitelné pro navrhování přechodů,(β, v) = h(α, u). Přitom u a v generujeme náhodně a nezávisle na stávající konfiguraci z nějakých rozdělení r(u), s(v). Poznámka 4: Při MCMC(i jiných prohledávacích) algoritmech jde i o to, aby přechod něco přinesl z hlediska cíle generování, tj. aby se navrhovaly spíš dobré konfigurace,kterébudoumítvětšíšancinapřijetí,abyprohledávání prostorumožnýchkonfiguracíbylo inteligentní něcojakovřečigenetických algoritmů, navrhovat i mutace a kombinace dobrých konfigurací. Např. pokud A R k a B R k+1,takvezmemenejspíš U R 1, V =.Alenapříklad v případě, kdy parametry mají význam uzlů regresních splinů nebo centrů shluků, spíš než abychom k danému α přigenerovali 1 komponentu, je

435 Odhady počtu komponent modelu 425 z hlediska efektivity hledání řešení lepší jeden z dosavadních centrů rozštěpit na2,tak,žekněmupřičtemeaodečtemenáhodněnavržené u. Jak tedy nyní vypadá onen poměr navrhovacích pravděpodobností, tj. ta 2. část v přijímací pravděpodobnosti MH algoritmu(7)? Ve jmenovateli je popsán navržený přechod, v čitateli přechod opačný, dostaneme tedy s(v) q 1 (α, u β, v) P BA, r(u) q 2 (β, v α, u) P AB kde P AB, P BA jsoupravděpodobnosti,sjakýmionypřechodymeziprostory navrhujeme(tj. zbývající možnosti, při nichž jde o standardni kroky MH algoritmu, jsou setrvání v daném prostoru, které se navrhují s pravděpodobnostmi P AA,aP BB ).Aleprotože q 1 (α, u β, v) = I[(β, v) = h(α, u]/q 3 (α, u) aobdobně q 2 (β, v α, u)=i[(β, v)=h(α, u]/q 4 (β, v),takprostřednípoměrje vlastně jen Jacobián zobrazení h: q 1 = q 4(β, v) v) = (β, q 2 q 3 (α, u) (α, u). Je dobré připomenout, že pokud netrváme na vygenerování reprezentace aposteriorního rozdělení, je lépe se takovýmto algoritmům vyhnout. V praxi se dále komplikují i tím, že apriorní rozdělení mají také své parametry, které se opět mohou generovat z jejich apriorních rozdělení, která mají zase nějaké parametry...(aledálesevětšinoujižnejde,tyto metaparametry sejižnějakzvolíazacházísesnimitakéjakosřídícímiparametryprocedury.toje tzv. hiearchické schema v bayesovské analýze). 3.2 Návrh praktické metody Praktická metoda by měla mít dvě důležité složky, a to navrhování vhodných konfigurací a jejich vyhodnocování(a přijímání dobrých konfigurací). Navrhování by mělo mít ony vlastnosti zmíněné shora(pamatovat si dobrá řešení), ale zároveň by mělo občas přijít s odskokem do jiné oblasti konfigurací(mělo by vytvářet nerozložitelný řetězec). Přijímání by pak mělo používat postup typu simulované žíhání. Většinou jsme v situaci, že část parametrů můžeme pro každou navrženou konfiguraci spočítat přímo(zde tedy jako Bayesův odhad), část musíme hledat. Například v regresním modelu s regresními spliny lineární koeficienty odhadneme přímo, uzly splinů získáme prohledáváním(viz i Volf, 1998). Postupovat budeme tedy nejspíš tak, že navržené konfigurace budeme přijímat s pravděpodobností min(π(m), 1), kde nyní m je počet provedených iterací(resp. skupin iterací, sweeps) a π(m)={ f(x α, k )g 0 (α k )P 0 (k ) } 1/temp(m), f(x α, k)g 0 (α k)p 0 (k) kde temp(m) 0vhodnourychlostí,řekněmeoněcorychlejinež1/logm. O zkušenostech s tímto postupem viz Janžura, Robusty 1990, 2004.

436 426 Petr Volf 4 Závěr, poznámky o shlukové analýze Tento příspěvek měl být původně o shlukové analýze, či o souvisejících modelech směsí distribucí. Ale pro nedostatek místa odkazuji na některý z budoucích článků. Směsový model shlukové analýzy je x i k π j f j (x i α j ), j=1 kde kjepronásneznámýpočetshluků, πjsoujejichváhy,amáme ndat x=(x 1,...,x n ).Praktičtějšíjepoužíttentopopis:nechť z=(z 1,..., z n ) jsouindikátorypříslušnostibodu x i doshluku j,tj. z i {1,...,k}.Úkolemshlukovéanalýzyjeodhadnoutparametry α j,indikátory zataképočet shluků k. Při daném k je úloha poměrně snadno početně řešitelná modifikacíemalgoritmu:přidaných z i,tjdanémzařazenídat x i kjednotlivýmdistribucím,spočtememvoparametrů α j,anaopak,přidanýchparametrech,tj.známýchdistribucích f j (. α j ),volíme z i = argmax j f j (x i α j ). Ovšem problém určení počtu komponent není uspokojivě řešen. Metody popsané v 1. části této práce se samozřejmě používají, ale protože tato úloha nyní nesplňuje podmínky regularity, nelze je považovat za konzistentní. Metody náhodného prohledávání jsou v tomto případě tedy vhodnou možností. O mixture models existuje několik monografií a mnoho článků, ale upozorňuji na přehled výsledků(i vyzkoušení RJMH postupu pro jednoduchý příklad shlukování) v diplomové práci J. Němečka[1]. Reference [1] Němeček J.(2004). Klasifikace a rozpoznávání. Diplomová práce KPMS MFF UK Praha. [2] Kass R.E., Raftery A.E.(1995). Bayes factors. J.A.S.A. 90, [3] Green P.J.(1995). Reversible jump MCMC computation and Bayesian model determination. Biometrika 82, [4] Ripley B.D. (1996). Pattern recognition and neural networks. Cambridge Univ. Press. [5] Richardson S., Green P.J.(1997). On Bayesian analysis of mixtures with an unknown numbers of components(with discussion). J.R.S.S., ser.b59, [6] Schwarz G.(1978). Estimating the dimensionof a model. Annals Statist 6, Poděkování: Práce byla podpořena grantem GA ČR č. 201/02/0049. Adresa:P.Volf,ÚTIAAVČR,Podvodárenskouvěží4,18208Praha8 volf@utia.cas.cz

437 ROBUST 2004 c JČMF 2004 KONFIDENČNÉ INTERVALY PRE EFEKT OŠETRENIA V KLINICKÝCH POKUSOCH Gejza Wimmer, Viktor Witkovský Kľúčové slová: Meta-analýza klinických pokusov, zmiešaný lineárny model, metóda Kenwarda-Rogera. Abstrakt: V príspevku je navrhnutá metóda konštrukcie konfidenčného intervalu pre spoločný efekt ošetrenia, ktorý je hlavným parametrom záujmu v klinických štúdiach, resp. v meta-analýze klinických štúdii, ktoré sú založené na nezávislých pokusoch v k zdravotníckych zariadeniach, alebo klinických štúdiach. Metóda je založená na spojitej normálnej aproximácii rozdelenia výberových pravdepodobností v jednotlivých zariadeniach, ktorá vedie k modelu jednoduchého triedenia s náhodným efektom vplyvu zdravotníckeho zariadenia a s nerovnakými rozptylmi vo vnútri jednotlivých zariadení. Takýto model sa používa tiež na modelovanie medzilaboratórnych porovnávacích štúdii a je špeciálnym prípadom zmiešaného lineárneho modelu. Na konštrukciu približného(1 α)-konfidenčného intervalu pre parameter spoločného efektu ošetrenia využívame metódu navrhnutú v práci[6] a pre prípad medzilaboratórnych porovnávacích štúdii podrobne študovanú v práci[14] pre prípad spoločnej strednej hodnoty v medzilaboratórnych porovnávacích štúdiach. Simulačná štúdia ukazuje vlastnosti(resp. ohraničenia) navrhnutého konfidenčného intervalu. 1 Úvod Uvažujme určitý klinický pokus, napr. liečbu istej choroby, špecifikovaný operačný zákrok, podávanie určitého lieku, a pod. Ten istý pokus sa realizuje v k zdravotníckych zariadeniach(k nemocniciach, vykonáva ho k lekárov, podáva sa liek k homogénnym skupinám pacientov, atď.). Medzi základné otázky lekárov, farmaceutov, riadiacich pracovníkov v zdravotníctve, resp. v zdravotných poisťovniach, výrobcov liekov, pacientov, je: Aká je skutočná úspešnosť ošetrenia (operačného zákroku, terapie liekom, atď.). Z matematicko-štatistického pohľadu je to problém návrhu dostatočne dobrého,čomožnonajjednoduchšiehomodeluvyššiespomenutýchklinických pokusov a návrh vhodného bodového a intervalového odhadu úspešnosti ošetrenia v klinických pokusoch. Klinické pokusy sa ukazujú akousi diskrétnou paralelou medzilaboratórnychkľúčovýchporovnávaní,(pozrinapr.[2],[7],[3],[9],[8],[4],[10],[14], [12],[13]). V tomto príspevku využijeme výsledky dosiahnuté v modeloch medzilaboratórnych kľúčových porovnávaní(hlavne aplikáciu postupu navrhnutú

438 428 Gejza Wimmer, Viktor Witkovský v práci[6]) pre získanie odpovedí na vyššie uvedené matematicko-štatistické problémy. Výsledky dosiahnuté v modeloch medzilaboratórnych kľúčových porovnávaní modifikujeme na spojitú aproximáciu diskrétneho modelu klinických pokusov. Špecifikovaný klinický pokus sa realizuje v k zdravotníckych zariadeniach. Početrealizovanýchpokusovvi-tomzariadeníje n i, i=1,...,k.nechpravdepodobnosťúspechu(vpokuse)vi-tomzariadeníje p i, i=1,...,k.všetky pokusy v jednom zdravotnom zariadení považujeme za navzájom nezávislé. Označme X i náhodnúpremennú početúspešnýchpokusovvi-tomzdravotníckomzariadení.preto X i Bi(n i, p i ), i=1,..., k.(x i Bi(n i, p i ) znamená,že X i mábinomickérozdeleniesparametrami n i a p i ). X 1,...,X k považujeme za stochasticky nezávislé náhodné premenné. V ďalšom budeme pracovaťsnáhodnýmipremennými Y i, i=1,...,k,pričom Y i = Xi n i.dostávame teda model Y i = X i, i=1,..., k. (1) n i 2 Model klinických pokusov a bodový odhad úspešnosti ošetrenia Predpokladajme najskôr, že vo všetkých uvažovaných zdravotníckych zariadeniach v danom klinickom pokuse je na ošetrenie(liečbu) použitá rovnaká metóda,ktorájeaplikovanánaskupinu homogénnych pacientov.vcentre nášho záujmu je v tomto prípade hodnota pravdepodobnosti úspešnosti daného ošetrenia(liečby), ktorá, ako predpokladáme, je rovnaká v každom zdravotníckom zariadení. V praxi však možno často pozorovať porušenie tohto prepokladu. Skutočná pravdepodobnosť úspešnej liečby v i-tom zariadení, p i,môženáhodnekolísaťokolospoločnejpravdepodobnostiúspešnejliečby, povedzme p, ktorá je v centre nášho záujmu. Na modelovanie tejto skutočnosti budeme uvažovať spojitú aproximáciu modelu(1),normálnymmodelomjednoduchéhotriedeniasnáhodnými efektmi.presnejšie,budemepredpokladať,žepredostatočneveľképočty n i jednotlivých ošetrení(pokusov) v zdravotníckych zariadeniach platí(aspoň približne) model Y i = p+b i + ε i, i=1,..., k, (2) kde preprezentujespoločnúpravdepodobnosťúspešnejliečby, b i jenáhodný efekt i-tého zdravotníckeho zariadenia. Teda pravdepodobnosť úspešnej ličeby v i-tomzariadeníjevtomtomodeli p i = p+b i.napokon ε i jenezávislá aditívnachyba,pričompredpokladáme,žepre i=1,...,kje b i N(0, σ 2 0 ), ε i N(0, σ 2 i /n i)ateda Y i N(p, σ σ2 i /n i), i=1,...,k. Náhodný(observačný)vektor Y =(Y 1,..., Y k ) modelujemetedazmiešaným lineárnym modelom

439 Konfidenčné intervaly pre efekt ošetrenia 429 Y N ( 1 k,1 p,σ k,k = ) k σi 2 G i. (3) Teda, observačný vektor Y je normálne rozdelený so strednou hodnotou E(Y)=1pakovariančnoumaticou cov(y)=σ k,k = k i=0 σ2 i G i,pričom G 0 =I k,k a G i = diag(0,...,0, 1 n i,0,...,0),1 = (1,...,1).Akbysme poznalivariančnékomponenty σ0a 2 σi 2, i=1,...,k,optimálnymodhadom úspešnosti liečby p(spoločnej pravdepodobnosti úspešnej liečby) by bol Z(1) vyplýva, že disperzia i=0 ˆp=(1 Σ 1 1) 1 1 Σ 1 Y. (4) Var(Y i p i )= p i(1 p i ) n i, odkiaľdostávame σi 2= p i(1 p i ), i=1,...,k.akoprirodzenýodhadparametra σi 2budemeuvažovaťodhad σ2 i = p i(1 p i ),kdezaodhadpravdepodobnosti úspešnosti liečby v i-tom zariadení voľme odhad navrhnutý v práci[1], asíce p i = Xi+2 n,ktorý,naprieksvojejjednoduchosti,mámnohédobréštatistické vlastnosti už pre stredné rozsahy výberov z binomického i+4 rozdelenia. Dostávame σ i= 2 X ( i+2 1 X ) i+2. n i +4 n i +4 Akovhodnýodhadparametra σ 2 0sanúkaodhad σ 2 0navrhnutývpráci[7]. Získa sa iteratívne z rovníc ˆµ (MP) = k i=1 k i=1 X i n i σ σ2 i n i n i σ σ2 i, k i=1 (X i n iˆµ (MP) ) 2 n i σ σ2 i = k 1. (Poznamenávame len, že ľavá strana v poslednej rovnici je s pravdepodobnosťou jedna monotónne klesajúca funkcia, pozri[7],[9] a[5].) Ak v(4) nahradímeskutočné(neznáme)hodnoty σ0 2 a σi 2, i=1,...,kodhadmi σ2 0 a σ i 2, i=1,...,k,dostávamebodovýodhadúspešnostiošetrenia p= k i=1 k i=1 X i n i σ σ2 i n i n i σ σ2 i. (5)

440 430 Gejza Wimmer, Viktor Witkovský 3 Intervalový odhad úspešnosti ošetrenia Keďvmodeli(3)poznáme σ0 2a σ2 i, i=1,..., k,takdisperziaodhaduˆpz(4) je Φ(σ 2 0, σ 2 1,..., σ 2 k)=(1 Σ 1 1) 1. Kenward&Roger[6]navrhujúkorigovanýodhadˆΦ A disperzieφ A aaproximáciu náhodnej premennej ( p p)2 F= λ (6) ˆΦ A F 1,m rozdeleníms1amstupňamivoľnosti.postupujúcúplneanalogickyako Kenward& Roger[6] dostávame P 0 = k ( i=1 n i n i σ σ2 i n i ) 2, P i = (n i σ0 2+, i=1,...,k, σ2 i )2 k ( ) 3 n i Q 0,0 = n i σ0 2+, σ2 i i=1 n 2 i Q 0,i = Q i,0 = (n i σ0 2+, i=1,...,k, σ2 i )3 { 0, i j, Q ij = n i (n i σ0 2+, i=j,, i=1,..., k. σ2 i )3 Akokovariančnúmaticuodhadovvariančnýchkomponentov σ 0 2, σ2 1,..., σ2 k, použjeme I 1 F (σ2 0, σ1, 2..., σk 2)-inverziuFisherovejinformačnejmaticeREML (RestrictedMaximumLikelihood)odhadovvariančnýchkomponentov σ0 2, σ2 1,..., σk 2.Tentokrokpodporujeajvýsledokzpráce[8],podľaktoréhomožno Mandel-Pauleho odhady za platnosti predpokladu o normalite rozdelenia Y považovať za zjednodušenú verziu REML odhadov. Prvkymatice I F súdanévzťahmi: {I F } i,j = 1 2 [ tr ( Σ 1 σ 2 i ) ] Σ Σ 1 σj 2 Σ tr(2φq ij ΦP i ΦP j ) = 1 2 [{S} ij {R} ij ], i, j=0,1,..., k, pričomprvkymatíc RaSsú:

441 Konfidenčné intervaly pre efekt ošetrenia 431 {R} ij =Φ(2Q ij P i ΦP j ), i, j=0,1,...,k, k ( ) 2 n i {S} 0,0 = P 0 = n i σ0 2+, σ2 i i=1 {S} 0,i = {S} i,0 = P i = (n i σ0 2+, i=1,...,k, σ2 i )2 0, ( i j, {S} ij = 1 σi 4 n i 2σ2 0n i n i σ 4 ) 0 n i σ σ2 i (n i σ0 2+, i=j, σ2 i )2 n i, i=1,...,k, pozritiež[11]a[14]. Teda kovariančná matica W odhadov variančných komponentov je W= W(σ 2 0, σ 2 1,..., σ 2 k)=i 1 F (σ2 0, σ 2 1,...,σ 2 k). Podľa Kenward& Roger[6] ďalej platí kde ˆΛ=ˆΦ 2 k ˆΦ A =ˆΦ+2ˆΛ, (7) i=0 i=0 k Ŵ ij (ˆQ ij ˆP iˆφˆpj ), pričomˆφ, Ŵ ij, ˆQij a ˆP i,súodhadyφ, W ij, Q ij a P i, i, j=0,...,k,ktoré dostanemenahradenímneznámychvariančnýchkomponentov σ0 2, σ2 1,..., σ2 k vovýrazochφ, W ij, Q ij a P i, i, j=0,...,k,ichodhadmi σ 0 2, σ2 1,..., σ2 k. Ďalej 2 λ=1, m=, (8) ˆΦ 2 (ˆP ŴˆP) kde ˆP=(ˆP 0,ˆP 1,...,ˆP k ). Hľadaný(1 α)-konfidenčný interval pre úspešnosť ošetrenia p je p ˆΦ A F 1,m (α), p+ ˆΦ A F 1,m (α) 0,1, (9) pričom F 1,m (α)je α-kritickáhodnota F 1,m rozdelenia, pjedanév(5),ˆφ A je danév(7)amjedanév(8). 4 Simulačná štúdia V simulačnej štúdii sme overovali empirické pravdepodobnosti pokrytia úspešnosti ošetrenia p(1 α)-konfidenčným intervalom(9) pre rôzne hodnoty parametrov k, n i, i=1,...,k, paσ 2 0 modelu(3). Počet zdravotníckych zariadení k {5, 10, 15, 20}.

442 432 Gejza Wimmer, Viktor Witkovský 1 n i =(100,100,...) 1 n i =(50,50,...) 1 n i =(30,30,...) 1 n i =(15,15,...) k= k= k= k= σ σ σ 0 σ Obrázok 1: Empirické pravdepodobnosti pokrytia úspešnosti ošetrenia p 95%-konfidenčným intervalom (9) pre rôzne hodnoty parametrov k, n i, i=1,...,k, paσ0 2 vovyváženommodeli(3).symbol označujenávrhy experimentu s parametrom p = 0.2, označuje návrhy experimentu s parametrom p=0.3, označujenávrhyexperimentusparametrom p=0.4, označuje návrhy experimentu s parametrom p = 0.5. Početpokusovvjednotlivýchzariadeniachprivyváženýchpokusoch: n i = 100, i = 1,...,k; n i = 50, i = 1,...,k; n i = 30, i = 1,...,k; n i = 15, i=1,...,k.početpokusovvjednotlivýchzariadeniachprinevyváženýchpokusoch: n i = {15,50,15,50,...}; n i = {30,100,30,100,...}; n i = {15,100,15,100,...}; n i = {15,30,50,100,15,30,50,100,...}. Spoločná pravdepodobnosť úspešnosti liečby p {0.2, 0.3, 0.4, 0.5}. Disperzianáhodnýchefektovzdravotníckychzariadení σ 2 0 {0,1 4 ( p 3 )2, 1 2 ( p 3 )2, 3 4 ( p 3 )2,( p 3 )2 }, kde p je spoločná pravdepodobnosťúspešnosti liečby v danej sérii pokusov. Zanominálnuhladinuvýznamnosti αsmezvolili α=0.05.prekaždú kombináciu parametrov sme realizovali 5000 opakovaní(série) pokusov. 5 Diskusia V práci sa navrhla spojitá normálna aproximácia modelu 1) efektu ošetrenia v klinických pokusoch zmiešaným lineárnym modelom(3).

443 Konfidenčné intervaly pre efekt ošetrenia n i =(15,50,...) 1 n i =(30,100,...) 1 n i =(15,100,...) 1 n i =(15,30,50,100,...) k= k= k= k= σ σ σ 0 σ Obrázok 2: Empirické pravdepodobnosti pokrytia úspešnosti ošetrenia p 95%-konfidenčným intervalom (9) pre rôzne hodnoty parametrov k, n i, i=1,...,k, paσ0 2 vnevyváženommodeli(3).symbol označujenávrhy experimentu s parametrom p = 0.2, označuje návrhy experimentu s parametrom p=0.3, označujenávrhyexperimentusparametrom p=0.4, označuje návrhy experimentu s parametrom p = 0.5. Využijúc ďalej poznatky získané pri modelovaní medzilaboratórnych porovnávacích štúdií sa navrhol v(5) bodový odhad spoločnej úspešnosti ošetrenia p a intervalový odhad(9) založený na metóde Kenwarda a Rogera. Simulačnáštúdiaukázala,žepre0.2 < p <0.8,privšetkýchnávrhoch (ktoré sa blížili reálne sa vyskytujúcim situáciam v praxi), je empirická hladina významnosti navrhnutého konfidenčného intervalu(9) veľmi blízka nominálnej hodnote, čo ukazuje na to, že uvažovaná spojitá aproximácia modelu klinických pokusov a navrhnuté odhady(bodový a intervalový) spoločnej úspešnosti ošetrenia sú vhodné pre praktické použitie. Reference [1] Agresti A., Caffo B.(2000). Simple and effective confidence intervals for proportions and differences of proportions result from adding two successes and two failures. The American Statistician 54, [2]CochranW.G.(1937).Problemsarisingintheanalysisofaseriesof similar experiments. Journal of the Royal Statistical Society, Supplement 4,

444 434 Gejza Wimmer, Viktor Witkovský [3] DerSimonian R., Laird N.M. (1982). Meta-analysis in clinical trials. Controlled Clinical Trials 7, [4] Hartung J., Böckenhoff A., Knapp G.(2003). Generalized Cochran-Wald statistics in combining of experiments. Journal of Statistical Planning andinference113, [5] Iyer H.K., Wang C.M., Mathew T.(2002). Models and confidence intervals for true values in interlaboratory trials. Submitted for publication. [6] Kenward M.G., Roger J.H.(1997). Small sample inference for fixed effects from restricted maximum likelihood. Biometrics 53, [7] Paule R.C., Mandel J.(1982). Consensus values and weighting factors. JournalofResearchoftheNationalBureauofStandards87, [8] Rukhin A.L., Biggerstaff B.J., Vangel M.G.(2000). Restricted maximum likelihood estimation of a common mean and the Mandel-Paule algorithm. Journal of Statistical Planning and Inference 83, [9] Rukhin A.L., Vangel M.G.(1998). Estimation of a common mean and weighted means statistics. Journal of the American Statistical Association93, [10] Savin A., Wimmer G., Witkovský V.(2003). On Kenward-Roger confidence intervals for common mean in interlaboratory trials. Measurement Science Review 3, Section 1, [11] Searle S.R., Casella G., McCulloch C.E.(1992). Variance components. J.Wiley&Sons,NewYork. [12] Wimmer G., Witkovský, V.(2003). Between group variance component interval estimation for the unbalanced heteroscedastic one-way random effects model. Journal of Statistical Computation and Simulation 73, [13] Wimmer G., Witkovský V.(2003). Consensus mean and interval estimators for the common mean. Tatra Mountains Mathematical Publications 26, [14] Witkovský V., Savin A., Wimmer G. (2003). On small sample inference for common mean in heteroscedastic one-way model. Discussiones Mathematicae: Probability and Statistics 23, Poďakovanie: Podporené grantom VEGA 1/0264/03 a VEGA 2/4026/04. Adresa: G. Wimmer, Inštitút matematiky a informatiky, Banská Bystrica, Slovenská republika, a Přírodovědecká fakulta, Masarykova univerzita, Brno, Česká republika V. Witkovský, Ústav merania SAV, Dúbravská cesta 9, Bratislava, Slovenská republika wimmer@mat.savba.sk, witkovsky@savba.sk

445 ROBUST 2004 c JČMF 2004 GRAFICKÉ MODELY V ANALÝZE FINANČNÍCH DAT Jitka Zichová Klíčová slova: Grafický model, podmíněná nezávislost. Abstrakt: Grafické modely jsou jedním z nástrojů mnohorozměrné statistické analýzy. Umožňují popis a přehledné znázornění struktury vzájemných závislostí v dané množině proměnných. V poslední době se uplatňují i v oblasti financí, o čemž svědčí například publikace[1],[2],[3]. Článek shrnuje některé aplikace zpracované s použitím českých i zahraničních finančních dat diplomanty oboru Finanční a pojistná matematika na MFF UK v Praze pod vedením autorky příspěvku. 1 Grafický model Uvažujme sloupcový náhodný vektor X = (X 1, X 2,...,X k ) T, indexovou množinu K= {1,2,..., k}agraf G=(K, E),vněmžmnožinavrcholůje K a E označuje množinu hran. Nechť chybějící hrana(i, j) indikuje podmíněnounezávislostnáhodnýchveličin X i a X j připevnýchhodnotáchostatních složekvektoru X,cožznačíme X i X j {X r ; r i, j}.znamenáto,žepro podmíněnéhustotyveličin X i, X j avektoru(x i, X j ) T platí f Xi,X j {X r;r i,j}= f Xi {X r;r i,j}f Xj {X r;r i,j}. Nechť K = A B C.Označme X a podvektorvektoru X obsahující složky X i, i Aaanalogickypodvektory X b a X c sesložkamisindexyzb respektivezc.množinavrcholů Cseparujemnožiny AaB,kdyžvšechny cesty z některého vrcholu i A do některého vrcholu j B obsahují alespoň jedenvrcholzc.separaciinterpretujemetak,ženáhodnévektory X a a X b jsoupodmíněněnezávislépřipevnéhodnotěvektoru X c,t.j. X a X b X c. Úplný graf má všechny dvojice vrcholů spojené hranou. Klika je maximální úplný podgraf, jejím rozšířením o další vrcholy vznikne podgraf, který již není úplný. Řetězový graf má vrcholy uspořádané do bloků, takže K = b 1 b 2 b m pronějaképřirozené m < k.nechť r(j)jeindex bloku obsahujícího vrchol j. Na množině vrcholů existuje částečné uspořádánídefinovanépředpisem i < jkdyž r(i) < r(j), i jkdyž r(i)=r(j). Hrany spojující vrcholy z téhož bloku jsou neorientované zatímco hrany, jež spojují vrcholy z různých bloků, jsou orientované od bloku s nižším indexem kblokusindexemvyšším.nechť K(j)=b 1 b 2 b r(j).chybějícíhrana (i, j), i jznamená,že X i X j {X r ; r K(j), r i, j}. Grafický model s grafem G je systém pravděpodobnostních rozdělení náhodného vektoru X splňujících podmíněné nezávislosti dané grafem G. Speciálním případem je saturovaný model s úplným grafem.

446 436 Jitka Zichová V praxi se používají systémy normálních rozdělení pro analýzu spojitých dat a systémy rozdělení určených mnohorozměrnou kontingenční tabulkou pro zpracování dat diskrétních. Zkoumání podmíněných nezávislostí v množině proměnných umožňují modely s neorientovanými grafy. Chceme-li vyšetřovat příčinné souvislosti, to jest vztahy mezi soubory závisle a nezávisle proměnných, používáme modely s řetězovými grafy. 2 Selekce modelu Předpokládejme nadále, že máme k dispozici data ve formě n realizací k-rozměrného náhodného vektoru X. Naším cílem je popsat strukturu podmíněných nezávislostí složek vektoru X vhodným grafickým modelem. K tomu účelu byly vypracovány různé selekční algoritmy v rámci věrohodnostního a bayesovského přístupu. Omezíme-li se na věrohodnostní přístup, je základním nástrojem selekčních algoritmů deviance. Pro grafický model s grafem G ji definujeme předpisemdev(g)=2(l S l G ),kde l S jemaximumlogaritmickévěrohodnostní funkcevsaturovanémmodelual G jemaximumlogaritmickévěrohodnostní funkce v modelu s grafem G. Deviance má asymptoticky chí-kvadrát rozdělení, počet stupňů volnosti f závisí na rozdělení dat a zmíníme jej později. Je testovou statistikou pro test modelu s grafem G proti alternativě saturovaného modelu. Selekční algoritmy pracují v krocích spočívajících v postupném ubírání hran počínaje saturovaným modelem s úplným grafem(typ backward) nebo naopak v postupném přidávání hran počínaje grafem bez hran(typ forward). Zřejmějetedytřebauměttestovatmodelsgrafem G 2 protialternativěmodelusgrafem G 1 obsahujícímoproti G 2 navícjednunebovícehran.testovou statistikoujevtakovýchpřípadechdiferencedeviancídev(g 2 ) dev(g 1 ) sasymptotickýmchí-kvadrátrozdělenímof 2 f 1 stupníchvolnosti,kde f 2 jsoustupněvolnostiprodev(g 2 )af 1 jsoustupněvolnostiprodev(g 1 ). Překročí-li deviance respektive diference deviancí kritickou hodnotu příslušného chí-kvadrát rozdělení, zamítáme testovaný model ve prospěch alternativního modelu s grafem s více hranami. Podrobný popis selekčních algoritmů nalezneme v knize[4] a v citovaých diplomových pracích. 3 Gaussovské grafické modely Předpokládejme, že náhodný vektor X má mnohorozměrné normální rozdělenísnulovoustředníhodnotouavariančnímaticí V.Označme D=V 1 inverznívariančnímaticiad ij, i, j=1,2,...,kjejíprvky.lzedokázat,že X i X j {X r ; r i, j}právětehdy,když d ij =0.Deviancemodelusgrafem Gmátvar dev(g)=n{tr(sˆd) ln[det(sˆd)] k}, kde ˆD=ˆV 1 aˆv jemaximálněvěrohodnýodhadvariančnímatice V vmodelu s grafem G. Tento odhad se počítá iteračně aplikací tzv. IPF algoritmu

447 Grafické modely v analýze finančních dat 437 (Iterative Proportional Fitting), který je popsán např. v[4]. Výběrová varianční matice S je maximálně věrohodným odhadem pro V v saturovaném modelu. Počet stupňů volnosti pro chí-kvadrát rozdělení deviance modelu sgrafem GjerovenpočtuchybějícíchhranvG. Následující příklad byl řešen v diplomové práci[6] s pomocí programu napsaného autorem práce v systému Mathematica. Příklad 1. Analýza vzájemných vztahů českých burzovních indexů. Databáze byla tvořena časovými řadami měsíčních pozorování uzávěrkových kursů odvětvových indexů Burzy cenných papírů Praha z let Zaměřilijsmesenašesticiodvětví,atovýrobanápojůatabáku(X 1 ),textilní průmysl(x 2 ),hutnictví(x 3 ),elektroprůmysl(x 4 ),služby(x 5 )ainvestiční fondy(x 6 ).Databylatransformovánadiferencemilogaritmů,kterésplnily předpoklady normality a nezávislosti pozorovaných realizací. Podívejme se nejprve na korelační matici indexů pro sledovaná odvětví. Nápoje Textil Hutnictví Elektro Služby Fondy Naprogramovaný backward algoritmus vybral pro popis vzájemných souvislostí v datech graf Korelace dvojic odvětví spojených v grafu hranami jsou vytištěny tučně. Zgrafulzečíst,žechováníindexuinvestičníchfondů X 6 výrazněovlivňují zuvažovanýchodvětvívýrobanápojůatabáku X 1 aelektroprůmysl X 4,čemuž odpovídají dvě nejvyšší korelace v posledním sloupci korelační matice. U normálně rozdělených dat však hrany v grafu znamenají nenulové hodnoty parciálních korelací. Vidíme například, že vrcholy 2 a 6 nejsou spojeny hranou,tudížproměnné X 2 a X 6 majínevýznamnouparciálníkorelaci.jejich relativně vysoká korelace 0.38 je způsobena vlivem ostatních proměnných. V Příkladu 2 řešeném v práci[8] ukážeme aplikaci modelu s řetězovým grafem na data podobného charakteru.

448 438 Jitka Zichová Příklad 2. Chování indexu PX50 v závislosti na odvětvových indexech. Opět máme k dispozici časové řady odvětvových burzovních indexů pro vybraná odvětví a navíc řadu hodnot průřezového indexu PX50 za stejné období.bylasledovánaodvětvívýrobanápojůatabáku(x 1 ),textilníprůmysl(x 2 ),chemickýprůmysl(x 3 ),elektroprůmysl(x 4 ),energetika(x 5 ), dopravaaspoje(x 6 ),služby(x 7 ),sklářskýprůmysl(x 8 ),investičnífondy (X 9 )aindexostatníchodvětví(x 10 ).Závisleproměnnou(Y)jeindexPX50. Stejně jako v Příkladu 1 byly zpracovány diference logaritmů všech proměnných, a to třístupňovým algoritmem pro selekci řetězového grafu popsaným v knize[4] a realizovaným diplomantkou v systému Mathematica. Uveďme nejprve parciální korelace indexu PX50 s oborovými indexy. Statisticky významné parciální korelace na pětiprocentní hladině jsou vytištěny tučně. X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X Bloknezávisleproměnných b 1 jetvořenveličinami X 1, X 2,...,X 10 ablok b 2 obsahujejedinouzávisleproměnnou Y reprezentujícíindexpx50.vgrafickém modelu pro popis dat nás zajímají především hrany spojující vrchol 11 veličiny Ysvrcholyzbloku b 1.Selekčníalgoritmusnavrhlmodelsgrafemobsahujícímorientovanéhranyprodvojice(X 5, Y),(X 6, Y),(X 9, Y),(X 10, Y). To znamená, že index PX50 je významně ovlivňován indexy energetiky, dopravy a spojů, investičních fondů a indexem ostatních odvětví. Odpovídá to statisticky významným parciálním korelacím. Ze získaného výsledku lze vyjít například při modelování regresní závislosti PX50 na odvětvových indexech. Vybraný grafický model nám oproti regresnímu modelování poskytuje navíc informaci o vzájemných souvislostech v množině nezávisle proměnných, a to prostřednictvímneorientovanýchhranspojujícíchvrcholyzbloku b 1.Podgraf problok b 1 lzepopsatmaticísousednosti,kterámá1namístě(i, j),spojuje-li vrcholypříslušejícíproměnným(x i, X j )hrana,a0vpřípaděnepřítomnosti hrany. X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X

449 Grafické modely v analýze finančních dat 439 Největší provázanost s ostatními odvětvími vykazují indexy výroby nápojů atabáku X 1,elektroprůmyslu X 4 ainvestičníchfondů X 9,jakukazujítučně vytištěné 1 ve výše uvedené matici. Dalšípříkladbylřešenvpráci[5]abylvěnovánstudiuzávislostimezi několika bloky proměnných. Příklad 3. Analýza odvětvových indexů a indexu IBIX prostřednictvím blokové struktury. Odvětvovéindexybylyrozdělenydobloků b 1, b 2, b 3,unichžlzeusuzovat, že proměnné z bloku s nižším indexem mohou ovlivňovat chování proměnných z bloků s vyšším indexem. Vstup představovaly časové řady diferencílogaritmůdenníchpozorováníindexůzlet blok b 1 obsahovalindexyzemědělství(x 1 ),dřevozpracujícíhoprůmyslu(x 2 ),chemického průmyslu(x 3 )ahutnictví(x 4 ).Vbloku b 2 bylazastoupenaodvětvípotravinářství(x 5 ),textilní průmysl(x 6 ),stavebnictví(x 7 )astrojírenský průmysl(x 8 ).Blok b 3 zahrnovalelektroprůmysl(x 9 )aobchod(x 10 ).Jedináproměnná X 11 vbloku b 4 reprezentovalaprůřezovýindexibix,jenž byl sestavován Investiční a Poštovní bankou. Autor práce naprogramoval zobecněný třístupňový algoritmus pro selekci grafického modelu s řetězovým grafem zahrnujícím více bloků proměnných. Tímto algoritmem byl pro vyšetřovaná data navržen graf, jehož strukturu zde opět naznačíme v maticové formě. X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 X * 0 * * * * * 0 * * 0 0 * 0 * * 0 * * * * * * 0 * 0 * * Hvězdička na místě(i, j) představuje orientovanou hranu vedoucí z vrcholu idovrcholu jvblokusvyššímindexem,jedničkanamístě(i, j)pak neorientovanou hranu spojující dva vrcholy téhož bloku. Například vrchol 5 proměnné potravinářství je spojen orientovanými hranami s vrcholy 1, 2, 3, 4 všechodvětvíbloku b 1 aneorientovanýmihranamisvrcholy6,7a8.vysoká 0

450 440 Jitka Zichová provázanost s ostatními odvětvími způsobuje i vliv proměnné potravinářství X 5 naindexibix.vrchol10proměnnéobchodneníspojensžádným zvrcholůbloku b 1.Vidíme,žeindexobchodujeprostřednictvímorientované hrany ovlivněn pouze chováním indexu stavebnictví s vrcholem 7 v bloku b 2.Dálelzekonstatovat,žehodnotaindexuIBIXjeovlivněnaindexychemického, potravinářského a strojírenského průmyslu, stavebnictví a obchodu, a že všechny čtyři bloky proměnných spolu souvisejí. Největší počet orientovanýchhranjemezibloky b 1 a b 2. 4 Grafické modely pro kategoriální data Nechťnyní X =(X 1, X 2,...,X k ) T představujenáhodnývektorměřených znakůnaurčitémsubjektu,přičemž i-týznaknabýváhodnot0,1,2,..., r i, i=1,2,..., k.označíme-lisymbolem xkonkrétníkombinacisledovaných k znaků, je rozdělení vektoru X dáno k-rozměrnou tabulkou pravděpodobností P(X= x)všechmožnýchkombinací.databázejevtomtopřípadětvořena n subjekty, z nichž každý je popsán k znaky. Četnost kombinace x v datech označíme n(x),přičemž x n(x)=n.deviancemodelusgrafem Gje dev(g)=2 x n(x)ln n(x) nˆp(x), kde ˆp(x) je maximálně věrohodný odhad pravděpodobnosti p(x) v modelu s grafem G a relativní četnost n(x)/n je maximálně věrohodný odhad pro p(x) v saturovaném modelu. Odhady ˆp(x) se opět počítají iteračně pomocí IPF algoritmu. Logaritmicko-lineární rozvoj hustoty lze psát ve tvaru ln p(x)= a K u a (x a ), kdesčítámepřesvšechnypodmnožiny amnožinyvrcholů Ka u a (x a )jsoutzv. u-členy,proněžplatí u a (x a )=u a (x i ; i a)au a (x a )=0,existuje-litakové i a,že x i =0.Početstupňůvolnostiprodeviancijerovenpočtuchybějících u-členů s nenulovými argumenty v logaritmicko-lineárním rozvoji p(x), neboť X i X j {X r ; r i, j}právětehdy,když u a (x a )=0provšechna a K taková,že i, j a. V práci[7] byl řešen problém z oblasti credit scoringu, to jest posuzování bonity žadatelů o úvěry. K dispozici byla databáze klientů jisté německé banky z doby před zavedením Eura. Základním sledovaným znakem je to, zda klientovi byl či nebyl bankou poskytnut úvěr, dalšími znaky je například pohlaví klienta, výše požadovaného úvěru apod. Příklad 4. Stanovení faktorů ovlivňujících přidělení úvěru. Uvažujme následující kategoriální proměnné zaznamenávané u žadatelů obankovníúvěr:úvěr(x 1 )nabývajícíhodnot0(neposkytnut)a1(poskytnut),výšeúvěru(x 2 )shodnotami0(<1500dem),1(1500až5000dem)

451 Grafické modely v analýze finančních dat 441 a2(>5000dem), úspory(x 3 ) shodnotami0(<100dem),1(100až 1000DEM)a2(>1000DEM),pohlaví(X 4 ),kde0kódujemužea1ženu, ajinýúvěr(x 5 )shodnotami0(ano)a1(ne).posledníproměnnáindikuje, zda žadatel již má přidělen jiný úvěr. Selekční algoritmus naprogramovaný diplomantkou v Mathematice navrhl model s grafem Grafnásinformuje,otom,žepřiděleníúvěru X 1 ovlivňujíkroměpohlaví X 4 všechnysledovanéznaky.vrcholy1,2,a3odpovídajícíznakům úvěr, výše úvěru, úspory tvoří kliku dokumentující vzájemnou provázanost vtétotrojiciproměnných.dalšíklikajetvořenavrcholy1,2,a5,ježpředstavujíznakyúvěr,výšeúvěruajinýúvěr.pohlaví X 4 souvisípouzespožadovanouvýšíúvěru X 2.Podíváme-lisenaprocentnípodílženžádajících oúvěrvdanédatabázi,zjistíme,žeseskutečnělišípodlevýšeúvěru: <1500DEM 1500až5000DEM >5000DEM 54 procent 36 procent 30 procent Grafické modely v databázích uvedeného typu mohou například poskytnout bankám informaci o tom, které znaky je důležité u klientů evidovat a které nikoli. Reference [1] Giudici P.(2001). Bayesian data mining with application to benchmarking and credit scoring. Applied Stochastic Models in Business and Industry 17, [2] Hand D.J., Mc Conway K.J., Stanghellini E.(1997). Graphical models of applicants for credit. IMA Journal of Mathematics Applied in Business andindustry8, [3] Stanghellini E., Mc Conway K.J., Hand D.J.(1999). A discrete variable chain graph for applicants for credit. Applied Statistics 48, Part 2, [4] Whittaker J.(1990). Graphical models in applied multivariate statistics. Wiley, New York. [5] Ambrož Z.(2004). Regresní modely pro analýzu výnosu portfolia. Diplomová práce, KPMS MFF UK, Praha.

452 442 Jitka Zichová [6] Chýna V.(2002). Grafické modely pro analýzu spojitých finančních dat. Diplomová práce, KPMS MFF UK, Praha. [7] Svobodová B.(2003). Analýza kategoriálních finančních dat. Diplomová práce, KPMS MFF UK, Praha. [8] Zelinková J.(2003). Regrese a grafické modely pro finanční analýzu. Diplomová práce, KPMS MFF UK, Praha. Poděkování: Tato práce je podporována výzkumným záměrem MSM Adresa:J.Zichová,KPMSMFFUK,Sokolovská83,18675Praha8 zichova@karlin.mff.cuni.cz

453 ROBUST 2004 c JČMF 2004 ROBUSTNOST V MODELU RŮSTOVÝCH KŘIVEK Ivan Žežula, Daniel Klein Klíčová slova: Mnohorozměrný lineární model, simulace. Abstrakt: Příspěvek se zabývá dvěmi variantami modelu růstových křivek replikovaným modelem a modelem se speciálními variančními strukturami a zkoumá chování odhadů parametrů v případě porušení předpokladů, zejména normality rozdělení. 1 Motivace a popis modelu Model růstových křivek vznikl při analýze anatomických dat: na jisté zubní klinice byl sledován vývoj vzdálenosti středu hypofýzy od pterygomaxilární brázdyuchlapcůaděvčat.otázkoubylo,zdatatovzdálenostjeuděvčat menšínežuchlapcůazdarychlostrůstujestejná.získanádatajsouna obrázku. Silnou čarou je vyznačen průměr; jeho průběh ukazuje, že růst má zhruba lineární trend. Na první pohled to vypadá jako dvě nezávislé regrese. Potthoff a Roy sivšakuvědomili,žeobasoubory vzhledemkokolnostemvzniku mají stejnou varianční matici. Proto navrhli společný model, který tuto skutečnost zohledňoval: EY = XBZ var(vec Y)=Σ I Tento model přirozeným způsobem spojuje regresní analýzu s analýzou rozptylu matice X je maticí analýzy rozptylu, Z maticí regresních konstant. Neznámé parametry jsou v maticích B(regresní koeficienty pro jednotlivé skupiny) a Σ(variance a kovariance pro jednotlivé časy pozorování). Později se tento model dočkal mnoha dalších aplikací i rozšíření. Z těchto aplikací vyplynuly různé struktury varianční matice Σ:

INFERENCE ZALOŽENÁ NA SEKVENČNÍCH POŘADÍCH

INFERENCE ZALOŽENÁ NA SEKVENČNÍCH POŘADÍCH ROBUST 2004 c JČMF 2004 INFERENCE ZALOŽENÁ NA SEKVENČNÍCH POŘADÍCH Lucie Belzová Klíčová slova: Pořadí, sekvenční pořadí, ův test. Abstrakt:Tématemčlánkujsou klasická asekvenčnípořadí.jsouzde uvedeny jejich

Více

ROBUST Sborník prací 13. letní školy JČMF ROBUST 2004 uspořádané Jednotou českých matematiků a fyziků

ROBUST Sborník prací 13. letní školy JČMF ROBUST 2004 uspořádané Jednotou českých matematiků a fyziků ROBUST 2004 Sborník prací 13. letní školy JČMF ROBUST 2004 uspořádané Jednotou českých matematiků a fyziků zapodporykpmsmffuk a České statistické společnosti vednech7. 11.června2004vTřešti Praha 2004 Všechna

Více

ČASOPROSTOROVÉ BODOVÉ PROCESY

ČASOPROSTOROVÉ BODOVÉ PROCESY ROUST 2004 c JČMF 2004 ČASOPROSTOROVÉ ODOVÉ PROCESY Viktor eneš, Michaela Prokešová Klíčová slova: Časoprostorové procesy, kótovaný bodový proces, věrohodnost, Coxovy procesy, podmíněná intenzita, metoda

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin Příklady k procvičení z Matematické statistiky Poslední úprava. listopadu 207. Konvergence posloupnosti náhodných veličin. Necht X, X 2... jsou nezávislé veličiny s rovnoměrným rozdělením na [0, ]. Definujme

Více

AVDAT Náhodný vektor, mnohorozměrné rozdělení

AVDAT Náhodný vektor, mnohorozměrné rozdělení AVDAT Náhodný vektor, mnohorozměrné rozdělení Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování, náhodná veličina, rozdělení Náhodná veličina zobrazuje elementární

Více

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36

Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36 Testování změn v binárnách autoregresních modelech Šárka Hudecová KPMS MFF UK ROBUST 2012 Němčičky 9. 14.9.2012 Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36 Uvažovaná situace

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

2 Hlavní charakteristiky v analýze přežití

2 Hlavní charakteristiky v analýze přežití 2 Hlavní charakteristiky v analýze přežití Předpokládané výstupy z výuky: 1. Student umí definovat funkci přežití, rizikovou funkci a kumulativní rizikovou funkci a zná funkční vazby mezi nimi 2. Student

Více

8 Coxův model proporcionálních rizik I

8 Coxův model proporcionálních rizik I 8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná

Více

Pravděpodobnost a statistika

Pravděpodobnost a statistika Pravděpodobnost a statistika Bodové odhady a intervaly spolehlivosti Vilém Vychodil KMI/PRAS, Přednáška 10 Vytvořeno v rámci projektu 963/011 FRVŠ V. Vychodil (KMI/PRAS, Přednáška 10) Bodové odhady a intervaly

Více

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina. Parametrické metody odhadů z neúplných výběrů 2 1 Metoda maximální věrohodnosti pro cenzorované výběry 11 Náhodné cenzorování Při sledování složitých reálných systémů často nemáme možnost uspořádat experiment

Více

Pravdepodobnosť. Rozdelenia pravdepodobnosti

Pravdepodobnosť. Rozdelenia pravdepodobnosti Pravdepodobnosť Rozdelenia pravdepodobnosti Pravdepodobnosť Teória pravdepodobnosti je matematickým základom pre odvodenie štatistických metód. Základné pojmy náhoda náhodný jav náhodná premenná pravdepodobnosť

Více

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK Aneta Andrášiková 1, Eva Fišerová 1, Silvie Bělašková 2 1 Univerzita Palackého v Olomouci, PřF, KMaAM 2 Fakultní nemocnice u sv. Anny v Brně,

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

Klasická a robustní ortogonální regrese mezi složkami kompozice

Klasická a robustní ortogonální regrese mezi složkami kompozice Klasická a robustní ortogonální regrese mezi složkami kompozice K. Hrůzová, V. Todorov, K. Hron, P. Filzmoser 13. září 2016 Kompoziční data kladná reálná čísla nesoucí pouze relativní informaci, x = (x

Více

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace Jan Slovák Masarykova univerzita Fakulta informatiky 28. 11 2. 12. 2016 Obsah přednášky 1 Literatura 2 Střední

Více

Apriorní rozdělení. Jan Kracík.

Apriorní rozdělení. Jan Kracík. Apriorní rozdělení Jan Kracík jan.kracik@vsb.cz Apriorní rozdělení Apriorní rozdělení (spolu s modelem) reprezentuje informaci o neznámém parametru θ, která je dostupná předem, tj. bez informace z dat.

Více

NEPARAMETRICKÉ BAYESOVSKÉ ODHADY V KOZIOLOVĚ-GREENOVĚ MODELU NÁHODNÉHO CENZOROVÁNÍ. Michal Friesl

NEPARAMETRICKÉ BAYESOVSKÉ ODHADY V KOZIOLOVĚ-GREENOVĚ MODELU NÁHODNÉHO CENZOROVÁNÍ. Michal Friesl NEPARAMETRICKÉ BAYESOVSKÉ ODHADY V KOZIOLOVĚ-GREENOVĚ MODELU NÁHODNÉHO CENZOROVÁNÍ Michal Friesl Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Princip Příklady V K.-G. modelu

Více

ODHADY NÁVRATOVÝCH HODNOT

ODHADY NÁVRATOVÝCH HODNOT ODHADY NÁVRATOVÝCH HODNOT KLIMATOLOGICKÝCH DAT Katedra aplikované matematiky Fakulta přírodovědně-humanitní a pedagogická Technická univerzita v Liberci Robust 2018 ÚVOD Velká pozornost v analýze extrémních

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013 Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika Podrobnější rozpis okruhů otázek pro třetí část SZZ Verze: 13. června 2013 1 Úvodní poznámky 6 Smyslem SZZ by nemělo být toliko

Více

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc. Náhodné veličiny III Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc. Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze c Rudolf Blažek, Roman

Více

Statistika II. Jiří Neubauer

Statistika II. Jiří Neubauer Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Zaměříme se především na popis dvourozměrných náhodných veličin (vektorů). Definice Nechť X a Y jsou

Více

Teorie náhodných matic aneb tak trochu jiná statistika

Teorie náhodných matic aneb tak trochu jiná statistika Teorie náhodných matic aneb tak trochu jiná statistika B. Vlková 1, M.Berg 2, B. Martínek 3, O. Švec 4, M. Neumann 5 Gymnázium Uničov 1, Gymnázium Václava Hraběte Hořovice 2, Mendelovo gymnázium Opava

Více

KVADRATICKÁ KALIBRACE

KVADRATICKÁ KALIBRACE Petra Širůčková, prof. RNDr. Gejza Wimmer, DrSc. Finanční matematika v praxi III. a Matematické modely a aplikace 4. 9. 2013 Osnova Kalibrace 1 Kalibrace Pojem kalibrace Cíle kalibrace Předpoklady 2 3

Více

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi

Více

ROBUST 2014 - PROGRAM NEDĚLE ODPOLEDNE oběd 12.00-13.00 oběd bude čekat i na ty, kteří přijedou později registrace 13.00-15.00 G. DOHNAL J.

ROBUST 2014 - PROGRAM NEDĚLE ODPOLEDNE oběd 12.00-13.00 oběd bude čekat i na ty, kteří přijedou později registrace 13.00-15.00 G. DOHNAL J. ROBUST 2014 - PROGRAM NEDĚLE ODPOLEDNE oběd 12.00-13.00 oběd bude čekat i na ty, kteří přijedou později registrace 13.00-15.00 G. DOHNAL J. Antoch 15.00-15.05 5 ROBUST 2014 : Zahájení I. Mizera 15.05-16.05

Více

Studentove t-testy. Metódy riešenia matematických úloh

Studentove t-testy. Metódy riešenia matematických úloh Studentove t-testy Metódy riešenia matematických úloh www.iam.fmph.uniba.sk/institute/stehlikova Jednovýberový t-test z prednášky Máme náhodný výber z normálneho rozdelenia s neznámymi parametrami Chceme

Více

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Stochastický proces Posloupnost náhodných veličin {Y t, t = 0, ±1, ±2 } se nazývá stochastický proces

Více

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni BAYESOVSKÉ ODHADY V NĚKTERÝCH MODELECH Michal Friesl Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Slunce Řidiči IQ Regrese Přežití Obvyklý model Pozorování X = (X 1,..., X

Více

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci. Ortogonální regrese pro 3-složkové kompoziční data využitím lineárních modelů Eva Fišerová a Karel Hron Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci

Více

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1 Minikurz aplikované statistiky Marie Šimečková, Petr Šimeček Minikurz aplikované statistiky p.1 Program kurzu základy statistiky a pravděpodobnosti regrese (klasická, robustní, s náhodnými efekty, ev.

Více

Odhady Parametrů Lineární Regrese

Odhady Parametrů Lineární Regrese Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké

Více

Úlohy nejmenších čtverců

Úlohy nejmenších čtverců Úlohy nejmenších čtverců Petr Tichý 7. listopadu 2012 1 Problémy nejmenších čtverců Ax b Řešení Ax = b nemusí existovat, a pokud existuje, nemusí být jednoznačné. Často má smysl hledat x tak, že Ax b.

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů Časové řady, typy trendových funkcí a odhady trendů Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Jiří Neubauer (Katedra ekonometrie UO Brno) Časové

Více

Markovské metody pro modelování pravděpodobnosti

Markovské metody pro modelování pravděpodobnosti Markovské metody pro modelování pravděpodobnosti rizikových stavů 1 Markovský řetězec Budeme uvažovat náhodný proces s diskrétním časem (náhodnou posloupnost) X(t), t T {0, 1, 2,... } s konečnou množinou

Více

Intervalová data a výpočet některých statistik

Intervalová data a výpočet některých statistik Intervalová data a výpočet některých statistik Milan Hladík 1 Michal Černý 2 1 Katedra aplikované matematiky Matematicko-fyzikální fakulta Univerzita Karlova 2 Katedra ekonometrie Fakulta informatiky a

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

7. Analýza rozptylu.

7. Analýza rozptylu. 7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y, Y,..., Y n a

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti

Více

Charakterizace rozdělení

Charakterizace rozdělení Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf

Více

9. Vícerozměrná integrace

9. Vícerozměrná integrace 9. Vícerozměrná integrace Aplikovaná matematika II, NMAF072 M. Rokyta, KMA MFF UK LS 2016/17 9.1 Elementy teorie míry Poznámka Na R n definujeme systém tzv. měřitelných množin, M n, který má následující

Více

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně 7 Náhodný vektor Nezávislost náhodných veličin Definice 7 Nechť je dán pravděpodobnostní prostor (Ω, A, P) Zobrazení X : Ω R n, které je A-měřitelné, se nazývá (n-rozměrný) náhodný vektor Měřitelností

Více

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým

Více

SIGNÁLY A LINEÁRNÍ SYSTÉMY

SIGNÁLY A LINEÁRNÍ SYSTÉMY SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. holcik@iba.muni.cziba.muni.cz II. SIGNÁLY ZÁKLADNÍ POJMY SIGNÁL - DEFINICE SIGNÁL - DEFINICE Signál je jev fyzikální, chemické, biologické, ekonomické

Více

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz. Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2015/2016 Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz Jan Kracík jan.kracik@vsb.cz Obsah: Výběrová rozdělení

Více

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Metoda backward výběru proměnných v lineární regresi a její vlastnosti Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda

Více

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady PRAVDĚPODOBNOST A STATISTIKA Bayesovské odhady Bayesovské odhady - úvod Klasický bayesovský přístup: Klasický přístup je založen na opakování pokusech sledujeme rekvenci nastoupení zvolených jevů Bayesovský

Více

Testy dobré shody pro časové řady s diskrétními veličinami

Testy dobré shody pro časové řady s diskrétními veličinami Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová, Marie Hušková a Simos G. Meintanis KPMS MFF UK Robust 2016 Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová

Více

SIGNÁLY A LINEÁRNÍ SYSTÉMY

SIGNÁLY A LINEÁRNÍ SYSTÉMY SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. holcik@iba.muni.cz II. SIGNÁLY ZÁKLADNÍ POJMY SIGNÁL - DEFINICE SIGNÁL - DEFINICE Signál je jev fyzikální, chemické, biologické, ekonomické či jiné

Více

Výběrové charakteristiky a jejich rozdělení

Výběrové charakteristiky a jejich rozdělení Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistické šetření úplné (vyčerpávající) neúplné (výběrové) U výběrového šetření se snažíme o to, aby výběrový

Více

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak. 8. Normální rozdělení 8.. Definice: Normální (Gaussovo) rozdělení N(µ, ) s parametry µ a > 0 je rozdělení určené hustotou ( ) f(x) = (x µ) e, x (, ). Rozdělení N(0; ) s parametry µ = 0 a = se nazývá normované

Více

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D. Úvod do teorie odhadu Ing. Michael Rost, Ph.D. Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost

Více

ALGEBRA. Téma 5: Vektorové prostory

ALGEBRA. Téma 5: Vektorové prostory SLEZSKÁ UNIVERZITA V OPAVĚ Matematický ústav v Opavě Na Rybníčku 1, 746 01 Opava, tel. (553) 684 611 DENNÍ STUDIUM Téma 5: Vektorové prostory Základní pojmy Vektorový prostor nad polem P, reálný (komplexní)

Více

5. T e s t o v á n í h y p o t é z

5. T e s t o v á n í h y p o t é z 5. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze c Rudolf Blažek, Roman Kotecký, 2011 Pravděpodobnost

Více

Lineární algebra : Násobení matic a inverzní matice

Lineární algebra : Násobení matic a inverzní matice Lineární algebra : Násobení matic a inverzní matice (8. přednáška) František Štampach, Karel Klouda frantisek.stampach@fit.cvut.cz, karel.klouda@fit.cvut.cz Katedra aplikované matematiky Fakulta informačních

Více

19 Hilbertovy prostory

19 Hilbertovy prostory M. Rokyta, MFF UK: Aplikovaná matematika III kap. 19: Hilbertovy prostory 34 19 Hilbertovy prostory 19.1 Úvod, základní pojmy Poznámka (připomenutí). Necht (X,(, )) je vektorový prostor se skalárním součinem

Více

Interpolace, ortogonální polynomy, Gaussova kvadratura

Interpolace, ortogonální polynomy, Gaussova kvadratura Interpolace, ortogonální polynomy, Gaussova kvadratura Petr Tichý 20. listopadu 2013 1 Úloha Lagrangeovy interpolace Dán omezený uzavřený interval [a, b] a v něm n + 1 různých bodů x 0, x 1,..., x n. Nechť

Více

AVDAT Klasický lineární model, metoda nejmenších

AVDAT Klasický lineární model, metoda nejmenších AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i

Více

10 Funkce více proměnných

10 Funkce více proměnných M. Rokyta, MFF UK: Aplikovaná matematika II kap. 10: Funkce více proměnných 16 10 Funkce více proměnných 10.1 Základní pojmy Definice. Eukleidovskou vzdáleností bodů x = (x 1,...,x n ), y = (y 1,...,y

Více

Rovnovážné modely v teorii portfolia

Rovnovážné modely v teorii portfolia 3. září 2013, Podlesí Obsah Portfolio a jeho charakteristiky Definice portfolia Výnosnost a riziko aktiv Výnosnost a riziko portfolia Klasická teorie portfolia Markowitzův model Tobinův model CAPM - model

Více

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y 9. T r a n s f o r m a c e n á h o d n é v e l i č i n Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota závisí nějakým způsobem na vstupní, je její funkcí = f(x). Pokud

Více

Stochastické diferenciální rovnice

Stochastické diferenciální rovnice KDM MFF UK, Praha Aplikace matematiky pro učitele 15.11.2011 Kermack-McKendrickův model Kermack-McKendrickův model s vakcinací Model pro nemoc s rychlým šířením a krátkou dobou léčby. Příkladem takovéto

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

ROBUSTNOST V MODELU RŮSTOVÝCH KŘIVEK

ROBUSTNOST V MODELU RŮSTOVÝCH KŘIVEK ROBUST 2004 c JČMF 2004 ROBUSTNOST V MODELU RŮSTOVÝCH KŘIVEK Ivan Žežula, Daniel Klein Klíčová slova: Mnohorozměrný lineární model, simulace. Abstrakt: Příspěvek se zabývá dvěmi variantami modelu růstových

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

LWS při heteroskedasticitě

LWS při heteroskedasticitě Stochastické modelování v ekonomii a financích Petr Jonáš 7. prosince 2009 Obsah 1 2 3 4 5 47 1 Předpoklad 1: Y i = X i β 0 + e i i = 1,..., n. (X i, e i) je posloupnost nezávislých nestejně rozdělených

Více

ROVNICE NA ČASOVÝCH ŠKÁLÁCH A NÁHODNÉ PROCESY. Michal Friesl

ROVNICE NA ČASOVÝCH ŠKÁLÁCH A NÁHODNÉ PROCESY. Michal Friesl Robust 14, Jetřichovice ROVNICE NA ČASOVÝCH ŠKÁLÁCH A NÁHODNÉ PROCESY Michal Friesl Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Robust 14, Jetřichovice ÚVOD Úvod Analýzníkům

Více

KATEDRA DOPRAVNEJ A MANIPULAČNEJ TECHNIKY TESTOVANIE ŠTATISTICKÝCH HYPOTÉZ

KATEDRA DOPRAVNEJ A MANIPULAČNEJ TECHNIKY TESTOVANIE ŠTATISTICKÝCH HYPOTÉZ 64 1 TESTOVANIE ŠTATISTICKÝCH HYPOTÉZ OBLASŤ PRIJATIA A ZAMIETNUTIA HYPOTÉZY PRI TESTOVANÍ CHYBY I. A II. DRUHU Chyba I. druhu sa vyskytne vtedy, ak je hypotéza správna, ale napriek tomu je zamietnutá,

Více

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Téma 2: Pravděpodobnostní vyjádření náhodných veličin 0.025 0.02 0.015 0.01 0.005 Nominální napětí v pásnici Std Mean 140 160 180 200 220 240 260 Std Téma 2: Pravděpodobnostní vyjádření náhodných veličin Přednáška z předmětu: Pravděpodobnostní posuzování

Více

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B. Zkouška z předmětu KMA/PST. Anotace předmětu Náhodné jevy, pravděpodobnost, podmíněná pravděpodobnost. Nezávislé náhodné jevy. Náhodná veličina, distribuční funkce. Diskrétní a absolutně spojitá náhodná

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

Aplikovaná numerická matematika

Aplikovaná numerická matematika Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních

Více

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu. 6. NÁHODNÝ VEKTOR Průvodce studiem V počtu pravděpodobnosti i v matematické statistice se setkáváme nejen s náhodnými veličinami, jejichž hodnotami jsou reálná čísla, ale i s takovými, jejichž hodnotami

Více

Dnešní látka: Literatura: Kapitoly 3 a 4 ze skript Karel Rektorys: Matematika 43, ČVUT, Praha, Text přednášky na webové stránce přednášejícího.

Dnešní látka: Literatura: Kapitoly 3 a 4 ze skript Karel Rektorys: Matematika 43, ČVUT, Praha, Text přednášky na webové stránce přednášejícího. Předmět: MA4 Dnešní látka: Od okrajových úloh v 1D k o. ú. ve 2D Laplaceův diferenciální operátor Variačně formulované okrajové úlohy pro parciální diferenciální rovnice a metody jejich přibližného řešení

Více

Diferenciální rovnice a jejich aplikace. (Brkos 2011) Diferenciální rovnice a jejich aplikace 1 / 36

Diferenciální rovnice a jejich aplikace. (Brkos 2011) Diferenciální rovnice a jejich aplikace 1 / 36 Diferenciální rovnice a jejich aplikace Zdeněk Kadeřábek (Brkos 2011) Diferenciální rovnice a jejich aplikace 1 / 36 Obsah 1 Co to je derivace? 2 Diferenciální rovnice 3 Systémy diferenciálních rovnic

Více

Lineární algebra : Násobení matic a inverzní matice

Lineární algebra : Násobení matic a inverzní matice Lineární algebra : Násobení matic a inverzní matice (8. přednáška) František Štampach, Karel Klouda LS 2013/2014 vytvořeno: 17. března 2014, 12:42 1 2 0.1 Násobení matic Definice 1. Buďte m, n, p N, A

Více

Dnešní látka Variačně formulované okrajové úlohy zúplnění prostoru funkcí. Lineární zobrazení.

Dnešní látka Variačně formulované okrajové úlohy zúplnění prostoru funkcí. Lineární zobrazení. Předmět: MA4 Dnešní látka Variačně formulované okrajové úlohy zúplnění prostoru funkcí. Lineární zobrazení. Literatura: Kapitola 2 a)-c) a kapitola 4 a)-c) ze skript Karel Rektorys: Matematika 43, ČVUT,

Více

9. Vícerozměrná integrace

9. Vícerozměrná integrace 9. Vícerozměrná integrace Tomáš Salač Ú UK, FF UK LS 2017/18 Tomáš Salač ( Ú UK, FF UK ) 9. Vícerozměrná integrace LS 2017/18 1 / 29 9.1 Elementy teorie míry Poznámka Na R n definujeme systém tzv. měřitelných

Více

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová VYBRANÉ DVOUVÝBĚROVÉ TESTY Martina Litschmannová Obsah přednášky Vybrané dvouvýběrové testy par. hypotéz test o shodě rozptylů (F-test), testy o shodě středních hodnot (t-test, Aspinové-Welchův test),

Více

Téma 22. Ondřej Nývlt

Téma 22. Ondřej Nývlt Téma 22 Ondřej Nývlt nyvlto1@fel.cvut.cz Náhodná veličina a náhodný vektor. Distribuční funkce, hustota a pravděpodobnostní funkce náhodné veličiny. Střední hodnota a rozptyl náhodné veličiny. Sdružené

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipa.cz Pravděpodobnost a matematická statistika 2010 1.týden 20.09.-24.09. Data, tp dat, variabilita, frekvenční analýza histogram,

Více

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,

Více

časovém horizontu na rozdíl od experimentu lépe odhalit chybné poznání reality.

časovém horizontu na rozdíl od experimentu lépe odhalit chybné poznání reality. Modelování dynamických systémů Matematické modelování dynamických systémů se využívá v různých oborech přírodních, technických, ekonomických a sociálních věd. Použití matematického modelu umožňuje popsat

Více

AVDAT Mnohorozměrné metody metody redukce dimenze

AVDAT Mnohorozměrné metody metody redukce dimenze AVDAT Mnohorozměrné metody metody redukce dimenze Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování vlastní čísla a vlastní vektory A je čtvercová matice řádu n. Pak

Více

Stavební fakulta Katedra mechaniky. Jaroslav Kruis, Petr Štemberk

Stavební fakulta Katedra mechaniky. Jaroslav Kruis, Petr Štemberk České vysoké učení technické v Praze Stavební fakulta Katedra mechaniky Fuzzy množiny, fuzzy čísla a jejich aplikace v inženýrství Jaroslav Kruis, Petr Štemberk Obsah Nejistoty Teorie pravděpodobnosti

Více

EXTRÉMY V TEPLOTNÍCH ŘADÁCH

EXTRÉMY V TEPLOTNÍCH ŘADÁCH ROBUST 24 c JČMF 24 EXTRÉMY V TEPLOTNÍCH ŘADÁCH Monika Rencová Klíčová slova: Teorie extrémů, teplotní řady, tříparametrické Weibullovo rozdělení. Abstrakt: Ze statistického hlediska je užitečné studovat

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Statistika, Biostatistika pro kombinované studium. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování

Více

Aplikace T -prostorů při modelování kompozičních časových řad

Aplikace T -prostorů při modelování kompozičních časových řad Aplikace T -prostorů při modelování kompozičních časových řad P. Kynčlová 1,3 P. Filzmoser 1, K. Hron 2,3 1 Department of Statistics and Probability Theory Vienna University of Technology 2 Katedra matematické

Více