BAKALÁŘSKÁ PRÁCE. Josef Orel Úvod do bootstrapu s aplikacemi



Podobné dokumenty
Numerická integrace. 6. listopadu 2012

Výrazy lze též zavést v nečíselných oborech, pak konstanty označuji jeden určitý prvek a obor proměnné není množina čísel.

Rostislav Horčík. 13. října 2006

Goniometrie trigonometrie

2.1. Pojem funkce a její vlastnosti. Reálná funkce f jedné reálné proměnné x je taková

Regresní analýza. Statistika II. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

Fyzikální praktikum 3 - úloha 7

Gymnázium, Praha 10, Voděradská 2 Projekt OBZORY

Asymptoty grafu funkce

Lineární algebra. Vektorové prostory

Definice z = f(x,y) vázané podmínkou g(x,y) = 0 jsou z geometrického hlediska lokálními extrémy prostorové křivky k, Obr Obr. 6.2.

3. Polynomy Verze 338.

Grafické řešení soustav lineárních rovnic a nerovnic

Skupina Testování obsahuje následující moduly: Síla a rozsah výběru, Testy a Kontingenční tabulka.

2.6.4 Lineární lomené funkce s absolutní hodnotou

B Kvantitativní test. Semestrální práce TUR. Novotný Michal

Střední průmyslová škola a Vyšší odborná škola technická Brno, Sokolská 1. Podpora digitalizace a využití ICT na SPŠ CZ.1.07/1.5.00/34.

1 Měření kapacity kondenzátorů

Lineární Regrese Hašovací Funkce

Statistika ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ. Jiří Volf, Adam Kratochvíl, Kateřina Žáková. Semestrální práce - 0 -

Jak udělat simulační studii z minulého čísla?

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

MS Word 2007 REVIZE DOKUMENTU A KOMENTÁŘE

4 DVOJMATICOVÉ HRY. Strategie Stiskni páku Sed u koryta. Stiskni páku (8, 2) (5, 3) Sed u koryta (10, 2) (0, 0)

(k 1)x k + 1. pro k 1 a x = 0 pro k = 1.

c sin Příklad 2 : v trojúhelníku ABC platí : a = 11,6 dm, c = 9 dm, α = Vypočtěte stranu b a zbývající úhly.

ZATÍŽENÍ SNĚHEM A VĚTREM

Exponenciála matice a její užití. fundamentálních matic. Užití mocninných řad pro rovnice druhého řádu

Osvětlovací modely v počítačové grafice

STP097 STATISTIKA CVIČENÍ EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY

7. Silně zakřivený prut

Business Contact Manager Správa kontaktů pro tisk štítků

VYUŽITÍ NEURONOVÝCH SÍTÍ PROSTŘEDÍ MATLAB K PREDIKCI HODNOT NÁKLADŮ PRO ELEKTRICKÉ OBLOUKOVÉ PECE

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Reálná čísla

Aplikovaná statistika 2007 program přednášek pro 2. ročník denního studia

Druhá mocnina. Druhá odmocnina Druhá odmocnina. Předpoklady: V této hodině jsou kalkulačky zakázány.

IRACIONÁLNÍ ROVNICE. x /() 2 (umocnění obou stran rovnice na druhou) 2x 4 9 /(-4) (ekvivalentní úpravy) Motivace: Teorie: Řešené úlohy:

A. PODÍL JEDNOTLIVÝCH DRUHŮ DOPRAVY NA DĚLBĚ PŘEPRAVNÍ PRÁCE A VLIV DÉLKY VYKONANÉ CESTY NA POUŽITÍ DOPRAVNÍHO PROSTŘEDKU

AMU1 Monitorování bezpečného života letounu (RYCHLÝ PŘEHLED)

Zvyšování kvality výuky technických oborů

a m1 a m2 a mn zobrazení. Operaci násobení u matic budeme definovat jiným způsobem.

2.8.8 Kvadratické nerovnice s parametrem


Pokusy s kolem na hřídeli (experimenty s výpočty)

VY_62_INOVACE_VK53. Datum (období), ve kterém byl VM vytvořen Květen 2012 Ročník, pro který je VM určen

Makroekonomie I. Přednáška 2. Ekonomický růst. Osnova přednášky: Shrnutí výpočtu výdajové metody HDP. Presentace výpočtu přidané hodnoty na příkladě

Pokyn D Sdělení Ministerstva financí k rozsahu dokumentace způsobu tvorby cen mezi spojenými osobami

ESII-2.1 Elektroměry

ECB-PUBLIC ROZHODNUTÍ EVROPSKÉ CENTRÁLNÍ BANKY (EU) 2015/[XX*] ze dne 10. dubna 2015 (ECB/2015/17)

170/2010 Sb. VYHLÁŠKA. ze dne 21. května 2010

Digitální učební materiál

SYLABUS PŘEDNÁŠKY 6b Z INŽENÝRSKÉ GEODÉZIE (Polohové vytyčování) 4. ročník bakalářského studia studijní program G studijní obor G

Jednofázový alternátor

UŽITÍ DERIVACÍ, PRŮBĚH FUNKCE

Funkce Vypracovala: Mgr. Zuzana Kopečková

Změna sazby DPH v HELIOS Red po

( ) ( ) Sčítání vektorů. Předpoklady: 7201

Matrika otázky a odpovědi Vidimace částečné listiny. Ing. Markéta Hofschneiderová Eva Vepřková

Univerzita Tomáše Bati ve Zlíně

STANOVISKO č. STAN/1/2006 ze dne

Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM

9. února algoritmech k otáčení nedochází). Výsledek potom vstupuje do druhé fáze, ve které se určuje, jestli se

Rovnice s neznámou pod odmocninou I

Úlohy domácího kola kategorie C

1. kolo soutěže probíhá: od :00:00 hod do :59:59 hod

Neuronová síť. x 2 x 3. σ j. x 4. x 5. Menu: QCExpert Prediktivní metody

Specifikace pravidel hodnocení pro vzdělávací obor: český jazyk a literatura

PROJEKT BAKALÁŘSKÉ PRÁCE

Názory na bankovní úvěry

PŘIJÍMACÍ ŘÍZENÍ. Strana

Matematika pro 9. ročník základní školy

M-10. AU = astronomická jednotka = vzdálenost Země-Slunce = přibližně 150 mil. km. V následující tabulce je závislost doby

ČÁST PÁTÁ POZEMKY V KATASTRU NEMOVITOSTÍ

pracovní list studenta

Zvyšování kvality výuky technických oborů

Novinky v programu Majetek 2.06

Oblastní stavební bytové družstvo, Jeronýmova 425/15, Děčín IV

Příloha Průběžné zprávy. Shrnutí návrhu algoritmu

Pokyny k vyplnění Průběžné zprávy

4.5.1 Magnety, magnetické pole

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

Kočí, R.: Účelové pozemní komunikace a jejich právní ochrana Leges Praha, 2011

VÝKLADOVÁ PRAVIDLA K RÁMCOVÉMU PROGRAMU PRO PODPORU TECHNOLOGICKÝCH CENTER A CENTER STRATEGICKÝCH SLUŽEB

Rychlé vyrovnávací paměti (cache)

Jan Březina. Technical University of Liberec. 17. března 2015

ANALÝZA ZAJIŠTĚNÝCH FONDŮ

6. Matice. Algebraické vlastnosti

1.3 Druhy a metody měření

Modul pro testování elektrických obvodů

2 Trochu teorie. Tab. 1: Tabulka pˇrepravních nákladů

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE

21 SROVNÁVACÍ LCA ANALÝZA KLASICKÝCH ŽÁROVEK A KOMPAKTNÍCH ZÁŘIVEK

Základy počítačové grafiky

PROGRAM OBNOVY VENKOVA VYSOČINY

HODNOCENÍ VÝVOJE NEHODOVOSTI V ROCE 2012 A POROVNÁNÍ SE STÁTY EU

Analýza oběžného kola

( x ) 2 ( ) Další úlohy s kvadratickými funkcemi. Předpoklady: 2501, 2502

FOND VYSOČINY NÁZEV GP

Kategorizace zákazníků

Dne obdržel zadavatel tyto dotazy týkající se zadávací dokumentace:

Transkript:

Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Josef Orel Úvod do bootstrapu s aplikacemi Katedra pravděpodobnosti a matematické statistiky Vedoucí bakalářské práce: RNDr. Arnošt Komárek, Ph.D. Studijní program: Obecná matematika 2009

Chtěl bych poděkovat RNDr. Arnoštu Komárkovi, Ph.D., za odborné vedení při tvorbě této práce, za cenné rady, poskytnuté materiály a čas, které mi věnoval při konzultacích. Dále děkuji i své rodině a přítelkyni za jejich podporu během psaní bakalářské práce. Prohlašuji, že jsem svou bakalářskou práci napsal samostatně a výhradně s použitím citovaných pramenů. Souhlasím se zapůjčováním práce a jejím zveřejňováním. V Praze dne 6.srpna 2009 Josef Orel 2

Obsah Úvod 6 1 Základní principy metody bootstrap 8 1.1 Neparametrickýbootstrap........ 8 1.1.1 Empirickádistribučnífunkce... 9 1.1.2 Základníalgoritmusbootstrapu............ 9 1.2 Parametrickýbootstrap......... 11 1.3 Odhadsměrodatnéchybypomocímetodybootstrap..... 12 1.3.1 Přímý výpočet ideálního bootstrapového odhadu směrodatnéchyby........... 15 1.3.2 Odhadvychýlenímetodoubootstrap......... 17 1.3.3 Příklady... 17 2 Složitější modely 20 2.1 Úvod......... 20 2.2 Lineárníregresnímodel.......... 21 2.2.1 Základnípojmyadefinice.... 21 2.2.2 Aplikace metody bootstrap na model lineární regrese 24 2.2.3 Bootstrapovánínáhodnýchchyb-reziduí....... 25 2.2.4 Bootstrapovánípárů....... 26 2.2.5 Porovnáníbootstrapovánípáruareziduí....... 27 2.2.6 Váženámetodanejmenšíchčtverců.......... 29 2.3 Intervalyspolehlivostiametodabootstrap.......... 29 2.3.1 Úvod..... 29 2.3.2 Intervalové odhady s použitím normálního a Studentovarozdělení........... 30 2.3.3 Bootstrap-tintervaly....... 31 2.3.4 Intervalovéodhadypercentilovoumetodou...... 33 3

2.4 Kvantilováregresníanalýza....... 36 Závěr 42 Literatura 43 4

Název práce: Úvod do bootstrapu s aplikacemi Autor: Josef Orel Katedra: Pravděpodobnosti a matematické statistiky Vedoucí bakalářské práce: RNDr. Arnošt Komárek, Ph.D. E-mail vedoucího: arnost.komarek@mff.cuni.cz Abstrakt: V předložené práci studujeme základní principy statistické metody boootstrap. V textu je popsán algoritmus metody bootstrap, její parametrická a neparametrická verze a definice a základní vlastnosti směrodatné chyby odhadu získané touto metodou. Dále studujeme různé způsoby aplikace metody bootstrap na lineární regresní model a rozdíly mezi nimi a zabýváme se výpočtem intervalových odhadů spolehlivosti metodou bootstrap-t a percentilovou metodou a využitím bootstrapu při kvantilové regresní analýze. Text je doplněn příklady a obrázky, jež byly vypočteny a vykresleny pomocí statistického programu R. Klíčová slova: bootstrap, bootstrapový konfidenční interval, regresní model, simulační metoda Title: Introduction to bootstrap method and applications Author: Josef Orel Department: Department of probability and mathematical statistics Supervisor: RNDr. Arnošt Komárek, Ph.D. Supervisor s e-mail address: arnost.komarek@mff.cuni.cz Abstract: In presented work we deal with basic principles of statistical method bootstrap. We describe algorithm of bootstrap method, its parametric and nonparametric version and defitions and qualities of bootstrap standard error of estimate in this text. Furthermore, we study application of bootstrap method on linear regression model in different ways, calculation of confidence intervals with bootstrap-t and percentile method and use of bootstrap in quantile regression. The paper is supplemented with examples and pictures, which were calculated and drawed with use of statistic program R. Keywords: bootstrap, bootstrap confidence interval, regression model, simulation method 5

Úvod Nebývale rychlý rozvoj informačních technologií v posledních letech má vliv i na statistiku. Zejména rychlý vývoj ve výpočetním výkonu počítačů dal vzniknout nové třídě metod statistické analýzy dat, tzv. počítačově intenzivním metodám. Mezi hlavní výhody těchto metod patří, že pro své fungování nevyžadují velké výběry nebo normalitu údajů, dokaží pracovat naprosto bez vzorců a pracují obecně stejně pro různé statistiky a různé výchozí podmínky a často poskytují výsledky, které jsou přesnější než výsledky tradičních statistických postupů. Mezi počítačově intenzivní metody patří i metoda bootstrap, jíž se zabývá tato práce. Základní principy metody bootstrap publikoval Bradley Efron v roce 1979 (viz[4]) a jeho článek získal ihned velký ohlas. Metoda bootstrap vycházející z metody jacknife totiž v té době znamenala naprosto nový přístup ke statistické analýze dat. Na rozdíl od metody jacknife, která se používá k odhadu směrodatné odchylky statistiky, má bootstrap za úkol odhadnout celé rozdělení zkoumané statistiky. Tohoto cíle dosahuje pomocí mnohonásobného generování náhodných výběrů, založeném na základě nezávislých výchozích pozorování. O metodě bootstrap a jejích modifikacích vyšlo během třiceti let její existence mnoho článků a vědeckých prací, které se věnovaly konzistenci a rychlosti konvergence bootstrapu a rozšířily jeho užití na širokou škálu aplikací. Dnes používají postupy založené na metodě bootstrap nejen statistici, ale najdou uplatnění i v biologii, fyzice, medicíně, sociálních vědách, finančním sektoru nebo obchodu. Bakalářskou práci jsem rozdělil do dvou kapitol. První kapitola je věnována základním principům metody bootstrap, jsou zde definovány elementární pojmy a jednoduchým způsobem nastíněn algoritmus metody. Dále v této části vysvětluji rozdíly v použití neparametrické a parametrické verze bootstrapu a na konci kapitoly se věnuji základní aplikaci metody- výpočtu směrodatné odchylky odhadu. Cílem druhé kapitoly je ukázat bootstrap v některých složitějších situacích. Budu se zde zabývat různými způsoby aplikace metody bootstrap na model lineární regrese a kvantilové regrese a problematikou bootstrapových intervalů spolehlivosti. 6

Součástí práce jsou i vyřešené příklady, na kterých ilustruji použití metody bootstrap. Tyto příklady jsem včetně grafických výstupů zpracovával ve volnědostupnémstatistickémprogramur 1. 1 RDevelopmentCoreTeam(2008).R:Alanguageandenvironmentforstatistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.r-project.org. 7

Kapitola 1 Základní principy metody bootstrap Tato část se zabývá základní myšlenkou metody bootstrap, obsahuje definice neparametrického a parametrického bootstrapu a odvození některých charakteristik bootstrapových odhadů. Některé postupy jsou pak prezentovány na příkladech. 1.1 Neparametrický bootstrap Představme si, že se nacházíme v následující situaci: Nechť máme nezávislé stejněrozdělenénáhodnéveličiny X 1, X 2,..., X n,kterémajírozdělenísdistribučnífunkcí F,anechťvektorx = (x 1, x 2,...,x n )jerealizacítěchto náhodných veličin. Nechť θ = t(f) je charakteristika rozdělení, kterou se pokoušíme odhadnout nazákladěvektoruměřeníx.pakodhadparametru θoznačmeˆθ=s(x). Předpokládejme, že s(x) < pro skoro všechna x. Poznamenejme, že na ˆθlzepohlížettéžjakonafunkcináhodnýchveličin X 1, X 2,..., X n,aztoho důvodu má také nějaké pravděpodobnostní rozdělení. Toto rozdělení záleží na rozsahu výběru n a distribuční funkci F. Našímcílemjezískatrozděleníˆθ.Mohounastatdvěmožnosti: 1.Známedistribučnífunkci F,avšakˆθ=s(x)jetakkomplikovanáfunkce proměnných X 1, X 2,...,X n,ženejsmeschopnipomocíanalytických prostředkůrozděleníˆθnajít. 8

(Vopačnémpřípaděbychomjednodušerozděleníˆθanalytickyspočetli a nebylo by zapotřebí hledat výsledek pomocí jiných prostředků.) 2.Rozdělenínáhodnýchveličin X 1, X 2,...,X n danédistribučnífunkcí F neznáme a nemáme o něm žádné informace. Vprvnísituacimůžemepravděpodobnostnírozděleníparametruˆθodhadnout bez složitých analytických kalkulací pomocí počítačové simulace: z rozdělení daného funkcí F vygenerujeme velmi velké množství náhodných výběrů velikosti n(počet výběrů budeme značit B). Z každého výběru spočtemepříslušnouhodnotuˆθ =s(x)(hodnotuparametruzískanázesimulace budemeznačitznakem*).empirickérozdělení(viz(1.1))ˆθ 1,ˆθ 2,...,ˆθ B pakaproximujerozděleníˆθ. V druhém případě ale F neznáme. Pak se jedná o neparametrický bootstrap, jehož idea a základní vlastnosti jsou popsány na následujících řádcích. 1.1.1 Empirická distribuční funkce V následujícím textu bude důležitý pojem empirické distribuční funkce, proto připomeňme její definici: Nechť I(A) je indikátor množiny A. Potom empirickou distribuční funkci založenounavýběru X 1, X 2,...,X n definujemejako F n (x)= 1 n I(X x). (1.1) n i=1 F n jezřejmědiskrétnírozdělení,kterékladepravděpodobnostrovnou 1 n na každounaměřenouhodnotu x i, i=1,2,..., n(zapředpokladu,že x i jsounavzájemrůzné). F n tedypřiřazujekaždépodmnožině Amnožinynáhodného výběrupravděpodobnost F n (A)= #{x i A} n. 1.1.2 Základní algoritmus bootstrapu Bootstrapovývýběrx jedefinovánjakonáhodnývýběrorozsahu nzrozdělenísdistribučnífunkcí F n,tedyx =(x 1, x 2,...,x n ), F n (x 1, x 2,...,x n ). 9

Jinak řečeno, bootstrapový výběr je náhodný výběr s vracením z množiny {x 1, x 2,...,x n }. Hlavní myšlenka metody bootstrap spočívá ve spojení substitučního principu a metody Monte Carlo- mnohokrát generujeme z empirické distribuční funkce bootstrapový výběr, z každého tohoto výběru spočítáme příslušnou hodnotu ˆθ i anakoneczesouborutaktozískanýchhodnotmůžemeaproximovatrozděleníˆθ.pokudchcemeznátnějakoucharakteristikuˆθ-např. směrodatnou odchylku, aproximujeme ji výběrovou směrodatnou odchylkou souboru {ˆθ 1,ˆθ 2,...,ˆθ B }. Pro přehlednost rozdělme algoritmus bootstrapu do několika kroků: 1.Znaměřenýchdatx=(x 1, x 2,...,x n )sestrojmeempirickoudistribučnífunkci F n. 2. B krát(kde Bjenějakévelképřírozenéčíslo)generujmezF n bootstrapovývýběr.získámetaknezávislévýběryx 1,x 2,...,x B. 3.Vypočtemeˆθ n i i předpisemˆθ n =s n(x i )pro i=1,2,..., B.Dostaneme takposloupnostˆθ n 1,ˆθ n 2,...,ˆθ n B. 4. Posledním krokem je zkonstruování histogramu relativní četnosti z ˆθ n 1 2 B i,ˆθ n,...,ˆθ n,kdeˆθ n položímepravděpodobnost 1 pro i=1,2,..., B. B Tento histogram určuje rozdělení, které je bootstrapovým odhadem rozdělení ˆθ.Ztohotorozdělenímůžemedělatzávěryovlastnostech parametru θ(kterýjeodhadovánˆθ). Někdy je lepší místo histogramu odhadovat distribuční funkci. Zaveďmenásledujícíoznačení: R n = R n (θ n, F)nechťjefunkcionálproměnných Fa θ n =s(x 1, X 2,...,X n )shodnotamivreálnémoboru.distribuční funkcistatistiky R n budemeznačitjako H n : H n (x)=p {R n x}. Bootstrapováverzestatistiky(prodanýbootstrapovývýběrx =(x 1, x 2,...,x n )) R n je R n= R n (ˆθ n, F n ).Distribučnífunkci R noznačme H n H n= P {R n x}, (1.2) kde P značípodmíněnoupravděpodobnostvzhledemkezpůsobugenerování bootstrapového výběru(v případě algoritmu popsaném výše je tedy tím 10

způsobemgenerovánípomocíempirickédistribučnífunkce F n ). Konečně,prodanýpočetopakování Bodhadujeme H n následujícímvzorcem (viz[7]): Ĥn = 1 B I{R n (ˆθ n B,ˆF n ) x}. b=1 1.2 Parametrický bootstrap Metoda parametrického bootstrapu se používá v situaci, kdy distribuční funkce F,kteráurčujerozdělenínáhodnýchveličin X 1, X 2,...,X n,nenízcela neznámá. Známe tedy částečný parametrický model funkce rozdělení těchto náhodnýchveličin,jejichdistribučnífunkcipřeznačmena F ψ,abybylovidět, že závisí na neznámém vektoru parametrů ψ. Parametr ψ seodhadneznaměřených dat (x 1, x 2,...,x n ). Tento odhad označmejako ˆψ.Potom Fˆψjeodhaddistribučnífunkce F ψ. Bootstrapové výběry, na rozdíl od metody neparametrického bootstrapu, negenerujemevybíránímsvracenímz(x 1, x 2,..., x n ),nýbržrealizujeme B výběrůovelikosti nzrozdělenídaném Fˆψ: Fˆψ (x 1, x 2,...,x n )=x. Potom je již postup stejný jako v části 1.1.2. Z každého bootstrapového výběrux b vypočtemestatistikuˆθ b,azesouboru {ˆθ n 1 2 B,ˆθ n,...,ˆθ n }můžeme dělatzávěryoodhaduˆθ. Příklad 1 Nechť X 1, X 2,..., X n jenáhodnývýběrzrozdělení N(µ,1)aR n = n( X n µ).zajímánásrozdělenístatistiky R n. Distribučnífunkcebootstrapovéverze R n je H n (a)=p {R n a},kde P je podmíněná pravděpodobnost vzhledem ke způsobu generování bootstrapového výběru. Pravá strana předchozí rovnosti bude v případě neparametrického bootstrapu rovna výrazu P NB = P {R n a ˆF n }, a v případě parametrického bootstrapu P PB = P {R n a N( X n,1)} 11

Nechť X 1, X 2,...,X njebootstrapovývýběrzískanýzx 1, X 2,...,X n (každý člen bootstrapového výběru se dá brát i jako náhodná veličina- v případě neparametrickémetodyjejehorozdělenídanéfunkcí ˆFn,vparametrickém případěrozdělením N( X n,1)). Potom X 1, X 2,...,X n jsounezávisléastejněrozdělenéaplatí µ =EXi = 1 n X j = n X n. j=1 Bootstrapová statistika je pak v obou případech R n = n( X n µ )= n( X n X n ). Dálejsemvygenerovalnáhodnývýběrorozsahu n=25zrozdělení N(0,1)a oběmametodamispočítal B=1000bootstrapovýchhodnot R n.naobrázku 1.2jsouvykreslenypříslušnéhistogramyaskutečnáhustotastatistiky R n - ta má zřejmě rozdělení N(0, 1). Je zřejmé, že v tomto případě parametrická metodaaproximujerozdělení R n oněcolépe. Celý postup jsem poté zopakoval s tím rozdílem, že rozsah náhodného výběru bylvětší-n=1000.výsledkyjsouvykreslenyvdolníčástiobrázku1.2. Je vidět, že bootstrapové rozdělení pro větší rozsah výběru více kopíruje skutečnérozdělenístatistiky R n (zlepšeníjevidětzejménauneparametrické metody). 1.3 Odhad směrodatné chyby pomocí metody bootstrap Mámenějakýnáhodnývýběr X= X 1, X 2,..., X n zrozdělenísdistribuční funkcí Faparametr θ= t(f)aodvodímenějakýodhadtohotoparametru ˆθ=s(X).První,cobynásmělozajímat,jepřesnosttohotoodhadu.Tu popisujeveličina,kterásenazývásměrodatnáchybaodhaduˆθakteroubudemeznačitjakose F (ˆθ). X= X 1, X 2,...,X n jenáhodnývýběrznějakého rozdělení- jestliže budeme z tohoto rozdělení opakovaně generovat náhodné výběry, dostaneme různé vektory X (ovšem všechny dané velikosti n), a tedyihodnotyˆθbudourůzné.směrodatnáchybaodhaduˆθjedefinována jakosměrodatnáodchylkapopulacevšechmožnýchhodnotˆθ. Proč je důležité znát směrodatnou chybu odhadu? Její hodnota je totiž potřebná u široké škály statistických postupů. Například pokud známe směrodatné chyby několika veličin, jsme pak v mnoha případech schopni spočítat 12

Neparametrický bootstrap Parametrický bootstrap 0.0 0.2 0.4 0.0 0.2 0.4 4 2 0 2 4 4 2 0 2 4 0.0 0.2 0.4 0.0 0.2 0.4 4 2 0 2 4 4 2 0 2 4 Obrázek 1.1: Vlevo nahoře je histogram B = 1000 bootstrapových verzí statistiky R n = n( X n µ), n=25,pořízenýchneparametrickoumetodou, vpravo pak histogram stejného počtu opakování pořízený pomocí metody parametrické.tučnoučaroujepakvyznačenoskutečnérozdělenístatistiky R n - normované normální rozdělení. Z obrázku je zřetelné, že parametrická metoda lépe aproximuje skutečné rozdělení. Proto pokud máme alespoň částečnou informaci o rozdělení, z něhož pocházejí naměřená data, používáme raději parametrickou verzi metody bootstrap. V dolní části jsou pak histogramy bootstrapového rozdělení pořízené stejnou metodou pro n = 1000- je vidět, že s větším rozsahem výběru je aproximace bootstrapem lepší a histogramy získané parametrickou i neparametrickou metodou jsou si podobnější. 13

směrodatnouchybufunkcetěchtoveličin.hodnotase F (ˆθ)jepotřebapřipočítání intervalových odhadů spolehlivosti, testování hypotéz apod. Pro směrodatnou chybu odhadu existuje přímý vzorec pro výpočet jen pro omezenoumnožinuodhadůˆθ.napříkladpřimaximálněvěrohodnýchodhadechparametrůˆθ ML ječastonemožnéspočítatse F (ˆθ ML )analytickoucestou. Metoda bootstrap nabízí přijatelné řešení, jak směrodatnou chybu v podobných případech aproximovat. Pokud chceme tuto směrodatnou chybu odhadnout metodou bootstrap, použijeme substituční princip- místo neznámé distribuční funkce F budeme počítatsempirickoudistribučnífunkci ˆFn. Bootstrapovýodhadhodnotyse F (ˆθ)jedefinovánjako seˆ Fn (ˆθ ). Jinakřečeno,bootstrapovýodhadse F (ˆθ)jesměrodatnáodchylkahodnot ˆF n (ˆθ prosouborvýběrůnáhodněvybranýchz ˆF n ovelikosti n. Výrazseˆ Fn (ˆθ )senazýváideálníbootstrapovýodhadsměrodatnéchybyˆθ. Naneštěstílzehodnotuseˆ Fn (ˆθ )přesněvypočítatjenprovelmiomezenou množinustatistikˆθ=s(x)(jetomožnétonapříkladprovýběrovýprůměr X= n i=1 x i ). Směrodatnou chybu proto aproximujeme bootstrapovým odhadem směrodatnéchyby,kterýznačímeŝe B.Tentoodhadjedefinovánnásledovně: { } 1 B 1 ŝe B = [ˆθ b 2 n B 1 ˆθ n (.)] 2, (1.3) Bb=1ˆθ b n. b=1 kdeˆθ n (.)= 1 B ˆθ n bzískámepomocíkrokůpopsanýchnastraně10abječíslooznačující příslušný počet bootstrapových opakování. Vztah bootstrapového odhadu a ideálního bootstrapového odhadu objasňuje následující tvrzení: Tvrzení1Bootstrapovýodhadsměrodatnéchybyŝe B konvergujes.j.kideálnímubootstrapovémuodhaduseˆfn : lim B ŝe B=seˆFn =seˆfn (ˆθ ). [P]-s.j. 14

Důkaz:Označme Y i =ˆθ n, i i=1,2,..., B.Potomˆθ n i jsou zřejmě nezávislé stejně rozdělené náhodné veličiny. PlatíE Y i =E ˆθ i =E s(x i ).Jakvíme, s(x i ) < ax i ˆF n,kde nje pevnépřirozenéčíslo.tedy ˆF n jediskrétnírozdělenínakonečnémnožiněa E Y i <. var Y i =varˆθ i =vars(x )=se 2ˆFn. Podle silného zákona velkých čísel(viz[3]) proto platí Platí také vztah: 1 B Ȳ B µ [P]-s.j. pro B. B (Y i Y B ) 2 = 1 n (Y i EY i ) 2 ( Y B EY i ) 2. i=1 B i=1 Opět ze silného zákona velkých čísel plyne 1 B B (Y i EY i ) 2 vary i [P]-s.j. pro B. i=1 Když dáme tři předchozí vztahy dohromady, dostaneme 1 B n (Y i Y B ) 2 se 2ˆFB [P]-s.j. pro B. i=1 Konečnědosazenímza Y i aodmocněnímdostaneme ŝe B seˆfn [P]-s.j. pro B. 1.3.1 Přímý výpočet ideálního bootstrapového odhadu směrodatné chyby V této části budeme potřebovat následující tvrzení: Tvrzení2Nechťmámemnožinu {x 1, x 2,...,x n }anechťplatí x i x j i j. Potom počet od sebe různých bootstrapových výběrů je roven ( ) 2n 1. n 15

(Pozn.: Bootstrapový výběr je množina, nezáleží tedy na pořadí prvků- napříkladpro n=2je {x 1, x 2 }tensamýbootstrapovývýběrjako {x 2, x 1 }.) Důkaz:Použijemetzv.přihrádkovoumetodu.Bootstrapovývýběrx z {x 1, x 2,...,x n } zašifrujeme pomocí posloupnosti znaků a následujícím způsobem: předpokládejme, že máme n přihrádek; do i-té přihrádky patří všechny exempláře x i,kterésevdanémbootstrapovémvýběruvyskytují.rozhranímezi i-tou a i+1-nípřihrádkouoznačímejako -znaků potřebujemetedycelkem n+1.proprvek x i zakreslímedo i-tépřihrádkytolikznaků,kolikrátse x i vyskytujevbootstrapovémvýběrux.vbootstrapovémvýběruje nprvků, potřebujeme tedy do přihrádek rozmístit celkem n znaků. Napříkladbootstrapovývýběr(x 1, x 2, x 2,...,x 2 )zapíšemenásledovně: } {{... }... } {{ } n 1 n 2 Od sebe různých boostrapových výběrů je zřejmě stejně jako od sebe různýchposloupností nznaků an 1znaků.Počettěchtoposloupnostíje roven počtu permutací s opakováním ze dvou prvků, z nichž jeden se opakuje n-krátadruhý(n 1)-krát.Jakjeznámo, P (n, n 1)= ( ) ( ) n+n 1 n 1 = 2n 1 n. Tím je tvrzení dokázáno. Máme-limnožinu {x 1, x 2,...,x n }různýchhodnotjakovtvrzenívýše, pakoznačmevšechnyrůznébootstrapovévýběryjakox ( ) 1,x 2,...,x m, m= 2n 1 n. Pravděpodobnost, že obdržíme konkrétní náhodný výběr, pokud bychom výběry generovali pomocí empirické distribuční funkce, se řídí multinomickýmrozdělením.prox i označmetutopravědpodobnost w i. Přesnývzorecprovýpočet w i jedánnásledovně: Bootstrapovývýběrx i jegenerovánzmnožiny {x 1, x 2,...,x n }ahodnotu x i obsahuje j i -krát.samozřejměmusíplatit,že j 1 + j 2 +...+j n = n.pravděpodobnost, že obdržíme tento výběr, je kde ( ) n j 1 j 2...j n = n!. j 1!j 2!...j n! ( ) n n ( 1 j 1 j 2... j n i=1 n )j i, Nakonec můžeme spočítat ideální bootstrapový odhad směrodatné chyby 16

pomocísměrodatnéodchylkypopulace mhodnotˆθ (x i ): se F (ˆθ )= kdeˆθ n (.)= m i=1 w iˆθ n (x i ). { m w i [ˆθ n (x i ) ˆθ n(.) ] }1 2 2, (1.4) i=1 Jakjevidětztabulky1.1,přímýzpůsobvýpočtujemožnépoužítjenpro velmi malá n. Výpočetní čas stoupá jednak s časovou náročností výpočtu jednéhodnotystatistiky θ n(x i )ajednaksrostoucím n.zřejměvšakipro velmi jednoduché statistiky je pro větší hodnoty n nepraktické počítat ideálníbootstrapovýodhadamusímesespokojitsaproximacíŝe B. 1.3.2 Odhad vychýlení metodou bootstrap Proodhadvychýlení(bias)parametruˆθpostupujemeobdobnějakouodhadu směrodatné odchylky- nejdříve pomocí algoritmu, který je popsaný nastraně10,získámesoubor {ˆθ n 1,ˆθ n 2,...,ˆθ n B }. Ideální bootstrapový odhadvychýleníˆθjedefinovanýjako biasˆfn (ˆθ ), kterýaproximujemepomocíbootstrapovéhoodhaduvychýleníbias B : bias B = B b=1 kde B je počet bootstrapových opakování. 1.3.3 Příklady Příklad 2:([5], Problém 6.10) ˆθ b n B ˆθ n, Máme zadaný datový soubor obsahující osm hodnot: 1,2;3,5;4,7;7,3;8,6;12,4;13,8;18,1 17

Rozsah souboru Počet výběrů 3 10 5 126 10 92378 20 68923264410 50 5,044567 10 28 Tabulka 1.1: Počet od sebe různých bootstrapových výběrů v závislosti na rozsahu souboru dat. Jak je vidět, počet možných bootstrapových výběrů roste vzávislostinamohutnostinaměřenýchdat nvelmirychle,aprotojepro n > 10 zpravidla takřka nemožné spočítat ideální bootstrapový odhad. Nechťjestatistikaˆθ25%seříznutýprůměr.Tensezískátak,žesevyškrtnou dvě nejmenší a dvě největší čísla, a ze zbývajících čtyř čísel spočítáme aritmetický průměr. Úkolemjespočítatŝe B statistikyˆθprobrovno25,100,200,500,1000a 2000 a porovnat tyto odhady s ideálním bootstrapovým odhadem směrodatné odchylky, kterou spočítame podle vzorce(1.4). Pro různé hodnoty B aplikuji na vstupní data pomocí programu R algoritmus popsaný na straně 10 a získám tím populaci seříznutých průměrů ˆθ 1,ˆθ 2,...,ˆθ B.Ztohotosouborujižjednodušespočtupříslušnouhodnotu ŝe B podlevzorce(1.3).proilustraciuveďme,jakjednodušesecelýtento postupimplementujedoprogramur(hodnotyŝe B prorůzné njsoupoproběhnutí algoritmu uloženy v proměnné vysledek): x=c(1.2,3.5,4.7,7.3,8.6,12.4,13.8,18.1) n=c(25,100,200,500,1000,2000) for(i in 1:6){ B=n[i] trimmedmean<-function(v){(v[3]+v[4]+v[5]+v[6])/4} resamples <- lapply(1:b, function(i) sort.int(sample(x,replace=true), partial = NULL, na.last = NA, decreasing = FALSE, method = c("shell", "quick"), index.return = FALSE)) dataset <- sapply(resamples, trimmedmean) se=sqrt(var(dataset)) vysledek[i]=se} 18

B 25 100 200 500 1000 2000 ŝe B 2,638023 2,207768 2,394776 2,553717 2,478584 2,433869 2,462793 Tabulka 1.2: Odhad směrodatné odchylky seříznutého průměru pomocí metody bootstrap pro různé počty iterací B. V posledním sloupci je ideální bootstrapová směrodatná odchylka, kterou jsem spočítal přímo ze vzorce(1.4). n se F ( X n ) ŝe 100 ŝe 500 ŝe 2000 100 0,2 0,21539927 0,18525022 0,18856007 500 0,08944272 0,08969368 0,08917822 0,09396389 2000 0,04472136 0,04718756 0,04658942 0,04444724 Tabulka 1.3: Hodnoty odhadu směrodatné chyby výběrového průměru pro různé hodnoty n a B, v prvním sloupci jsou uvedeny skutečné hodnoty směrodatné chyby. V literatuře se uvádí, že zvyšování počtu bootstrapových opakovánínadrozsahvýběru njižnevedekpřílišnémuzlepšeníodhadu-pro n=500jetomudokoncenaopak! Výslednéhodnotyŝe B aideálníbootstrapovásměrodatnáchyba(b= ) jsou vyneseny v tabulce 1.2. Příklad 3 Nechťje X 1, X 2,...,X n náhodnývýběrzrozdělení,kterémástředníhodnotu µarozptyl σ 2.Zajímánásodhadparametru µ=θ.odhademstřední hodnotyjevýběrovýprůměr,protopoložmeˆθ n = X n = 1 ni=1 X n i.naším cílemjeodhadnoutsměrodatnouchybu se F ( X n ). Nechť X i N(µ, σ 2 ).Tentopředpokladjsmeučiniliproto,abychommohli bootstrapový odhad porovnat se skutečnou hodnotou směrodatné chyby, a získali tak představu o přesnosti metody bootstrap. Jeznámo(např.[1]),žepokud X 1, X 2,..., X n N(µ, σ 2 ),potommátaké výběrovýprůměr X n normálnírozdělení, Xn N(µ, σ2).skutečnáhodnota n směrodatnéodchylkyjetedyse F ( X n )= σ n.pomocíprogramurbudeme generovat výběry z rozdělení N(4, 4) o různém rozsahu n a pomocí obdobnéhopostupujakovminulémpříkladěvypočtemeŝe B.Vtabulce1.3jsou shrnutyhodnotyŝe B pro B=100,500,2000askutečnésměrodatnéchyby. 19

Kapitola 2 Složitější modely 2.1 Úvod První část této práce popisovala fungování metody bootstrap v situaci, která je ze statistického hlediska nejméně složitá- zabývali jsme se vždy jen jedním náhodným výběrem, který pocházel z jednorozměrného rozdělení s neznámou distribuční funkcí F. Data x, se kterými se pracovalo, byla generována funkcí F: F x=(x 1, x 2,...,x n ). Vestatistickéanalýzedatsealečastodostanemedosituací,kterésistakovoutojednoduchoustrukturounevystačí.Veličiny x i nemusíbýtjednorozměrné body, mohou to být například dvojice, vektory, polynomy nebo cokoliv jiného. Mnoho postupů se zakládá na komplikovaných datových strukturách, například regresní modely, modelování časových řad, analýza rozptylu, vícevýběrové problémy, analýza cenzorovaných dat a mnoho dalších. Bootstrap může být aplikován obecně na každý pravděpodobnostní model. V obecné situaci máme nějaký pravděpodobnostní model P, z něhož pocházejí naměřená data x, model P je neznámý. Tuto skutečnost značíme jako P x=(x 1, x 2,..., x n ). Zdatxjeznámýmmechanismemvypočtenanějakácharakteristikaˆθ,která je tedy nějakou funkcí x: ˆθ=s(x). 20

Klíčovým krokem je aproximování pravděpodobnostního modelu P z naměřených dat x. Na to neexistuje univerzální postup, přesto lze ve většině situacípřekvapivěsnadnonaléztřešení-označmehojako ˆP.Z ˆP generujemevelkémnožstvíbootstrapovýchvýběrůx (stejnýmzpůsobem,jakým vzniklxzp)anakoneczískávámeˆθ = s(x ).Poznamenejme,žegenerováníboostrapovýchvýběrů ˆP x jeobvyklemnohemméněnáročnéna strojovýpočítačovýčasnežkalkulaceˆθ. 2.2 Lineární regresní model 2.2.1 Základní pojmy a definice Regresní modely se řadí mezi nejužitečnější a nejpoužívanější prostředky statistické metody. Umožňují relativně snadno analyzovat komplikované situace, kdy se snažíme zjistit vliv velkého množství proměnných na závislou proměnnou. Lineární regresní model byl vyvinut již v počátku 19. století Gaussem a Legendrem. Základní model lineární regrese je definován takto: Nechť máme reálná čísla y 1, y 2,..., y n,kterávzniklajakorealizacenáhodnýchveličin Y 1, Y 2,...,Y n, amaticidanýchčísel C=(c ij ),kterámarozměry n k, k n.vdalším textupotřebujeme,abymatice C Cbylaregulární,protopředpokládáme, že h(c)=k.probudoucíúčelydáleoznačme x i =(c i, y i ), kde c i jevektor1 k,kterýsenazýváprediktor, y i jejemupříslušnáhodnota. Dálepředpokládejme,žeprovektor y=(y 1, y 2,..., y n ) platí y= Cβ+ e, kde β=(β 1, β 2,...,β k ) jevektorparametrů.tentovektorsenazývávektor regresníchparametrů.vektor e=(e 1, e 2,...,e n ) jevektornáhodnýchchyb -jetonáhodnývýběrzneznáméhorozdělenísdistribučnífunkcí F,které splňuje podmínky E(e)=0 a var e=σ 2 I. (2.1) Cílemregresníanalýzyjezjistitodhadvektoru βznaměřenýchdatx= (x 1,x 2,...,x n ) = ((c 1, y 1 ),(c 2, y 2 ),...,(c n, y n )). Tento odhad provádíme například pomocí metody nejmenších čtverců, tzn. hledáme minimum výrazu n RSE(b) = (y i c i b) 2. i=1 21

Odhad metodou nejmenších čtverců vektoru parametrů β se označuje jako ˆβ a minimalizuje funkci RSE(b): RSE(ˆβ)=min b {RSE(b)}. Za našich předpokladů je tento odhad dán vzorcem ˆβ=(C C) 1 C y. Jakpřesnýjeodhad ˆβ?Nechťje Gmaticetypu k k dánapředpisem G=C Ca G 1 inverznímaticeke G. Potomjesměrodatnáchyba j-tésložkyˆβrovna se(ˆβ j )=σ G 1 jj. Směrodatná odchylka náhodných chyb σ se odhaduje následujícím vzorcem: ˆσ= { ni=1 (y i c iˆβ) 2 n } 1 2 = { RSE(ˆβ) n } 1 2, a nestrannou verzí předchozího odhadu je odhad σ= { } RSE(ˆβ) 1 2. n k K těmto dvěma odhadům přísluší přirozeně definované odhady směrodatné chybysložekˆβ: ŝe(ˆβ j )=ˆσ G 1 jj a se(ˆβ j )= σ G 1 jj. (2.2) Důkazy rovností uvedených výše a další vlastnosti lineárního regresního modelu lze nalézt například v[1]. Příklad 4 V tomto a několika dalších příkladech budeme pracovat s datovým souborem, který obsahuje různé údaje o 428 automobilech, které se nacházely v roce 2004 na trhu v USA. Zdrojem těchto dat je Kiplinger s Personal Finance, December 2003, vol. 57, no. 12, pp. 104 123, http://www.kiplinger.com. 22

Metoda nejmenších čtverců Spotřeba[l/100 km] 3.9 5.9 7.9 9.9 11.9 13.9 15.9 17.9 19.9 21.9 Spotřeba[l/100 km] 3.9 5.9 7.9 9.9 11.9 13.9 15.9 17.9 19.9 21.9 839 1239 1739 2239 2739 Hmotnost[kg] 839 1239 1739 2239 2739 Hmotnost[kg] Obrázek2.1:Vlevémgrafujsouvynesenadatapro n=412automobilů.v pravé části je pak příslušnými body proložena přímka, která je vypočítána metodou nejmenších čtverců. 23

Původní data uvedená v jednotkách běžných v USA byla převedena na jednotky užívané v kontinentální Evropě. Vlevéčástiobrázku2.1jevyneseno n=412bodů,kteréodpovídajíúdajůmohmotnostiaspotřeběveměstě.uněkterýchpoložeknebylúdajo hmotnosti nebo spotřebě ve městě uveden, a proto jsem je pro účely tohoto příkladu vyřadil. Předpokládejme, že platí regresní model y i = β 0 + β 1 z i + e i, i=1,2,..., n, kde závislou proměnnou je spotřeba auta: y i =spotřebaveměstěi-téhovozidlavlitrechna100km a nezávislou proměnnou je hmotnost auta: z i =hmotnosti-téhovozidlavkilogramech. Aplikací metody nejmenších čtverců popsané výše dostaneme ˆβ=(1,417796;0,006727).Křivka y=ˆβ 0 +ˆβ 1 xproloženádatyjeznázorněnanapravéčástiobrázku 2.1. Jak přesný je tento odhad regresního parametru? K získání odpovědi na tuto otázku můžeme použít též metodu bootstrap. 2.2.2 Aplikace metody bootstrap na model lineární regrese Existují dva způsoby, jak metodu bootstrap aplikovat na lineární regresní model- buď algoritmus použijeme na náhodné chyby e, anebo na dvojice x=((c 1, y 1 ),(c 2, y 2 ),...,(c n, y n )).Obazpůsobyjsouvnásledujícímtextu popsány a nakonec jsou s pomocí jednoduchého příkladu ukázány rozdíly mezi nimi. 24

2.2.3 Bootstrapování náhodných chyb- reziduí Pravděpodobnostnímodel P xvpřípadělineárníregresemádvěsložkyvektor regresních parametrů β a rozdělení náhodných chyb dané distribuční funkcí F.Tedy P=(β, F).Abychommohlidělatzávěryolineárnímregresním modelu, potřebujeme odhadnout celý pravděpodobnostní model P. Jestliže je vektor β známý, potom můžeme spočítat vektor náhodných chyb epřímo-e i = y i c i β, i=1,2,...,n,anásledněodhadnout F pomocí empirickédistribučnífunkce e i. Obvykleale βneznáme,aprotomístonějpoužijemejehoodhad ˆβ-ten získáme například metodou nejmenších čtverců anebo jinými prostředky. Pomocí něj spočítáme přibližné chyby ê i = y i c iˆβ, i=1,2,..., n. Funkci F aproximujemeempirickoudistribučnífunkcí ê i,kteroubudeme značitjako ˆF.Sdvojicí ˆP =(ˆβ,ˆF)jejižmožnogenerovatbootstrapová datax : Nejprve generujeme bootstrapový výběr náhodných chyb ˆF (e 1, e 2,..., e n )=e. (Prokaždé e iplatí,žesenějakéznhodnot ê j rovnáspravděpodobností 1 n.) Dalšímkrokemjespočítánízávislýchproměnných y i : yi = c iˆβ+ e i, i=1,2,..., n. Kdyžrovnostipřevedemedomaticovéhozápisu,dostaneme y = Cˆβ+ e. Tímtojednoduchýmpostupemjsmevygenerovalibootstrapovádatax = (x 1,x 2,...,x n ),x i=(c i, yi ).Jetřebasipovšimnout,žematice Czůstala nezměněna, při bootstrapování náhodných chyb se bere jako konstanta- na rozdíl od bootstrapování páru, viz níže). Poslednímkrokemjepřirozenéodvozeníbootstrapovéhoodhaduˆβ aodhadu směrodatné chyby. Bootstrapový odhad metodou nejmenších čtverců ˆβ minimalizujefunkcirse (b)= n i=1 (yi c ib) 2 : Minimum nastavá pro n (yi c iˆβ ) 2 n =min (yi c ib) 2. i=1 b i=1 ˆβ =(C C) 1 C y. 25

Prorozptyl yplatívar(y)=σ 2 I.Jednoduchýmvýpočtemdostanemerozptylvarˆβ =ˆσ 2 (C C) 1. Ztohoplyne,že seˆf(ˆβ j)=σ G 1 jj =se(ˆβ j ). Jinakřečeno,ideálníbootstrapovýodhadsměrodatnéchyby j-tésložkyˆβ je roven základnímu odhadu směrodatné chyby. 2.2.4 Bootstrapování párů Bootstrapování párů představuje odlišný přístup k lineární regresi, než byla předchozímetoda.nepředpokládámezde,ženáhodnéchyby e i majívšechny stejný rozptyl, stačí předpokládat pouze jejich vzájemnou nezávislost. Výchozí situaci pro bootstrapování páru lze popsat takto: máme dvojice ((c 1, y 1 ),(c 2, y 2 ),...,(c n, y n ))=(x 1,x 2,...,x n ),kteréjsourealizacemináhodných nezávislých stejně rozdělených veličin, kterým přísluší dvourozměrná distribuční funkce F. Vektor regresních paramaterů β lze chápat jakofunkci F.TubudemeaproximovatempirickoudistribučnífunkcíˆFpárů (c i, y i ).Bootstrapovývýběr(c 1, y 1 ),(c 2, y 2 ),...,(c n, y n )=(x 1,x 2,...,x n ) získámepomocí ˆF,platížex i =x j provšechna i, j=1,2,..., n.nakonec hodnotubootstrapovéhoodhaduvektoruˆβ spočítámemetodounejmenších čtverců z bootstrapového výběru. Celý bootstrapový algoritmus se dá popsat také takto[2]: Pro b=1,2,..., B 1.Zmnožiny {1,2,..., n}proveďmenáhodnývýběrsvracením-získáme tímposloupnost i b 1, i b 2,...,i b n. 2.Pro j=1,2,..., npoložíme c b j 3.Z((c b 1, y b 1 ),(c b odhadˆβ b. 2, y b 2 ),...,(c b n, y b = c, i b y b j j = y. i b j n ))spočtememetodounejmenšíchčtverců Po provedení tohoto algoritmu máme k dispozici bootstrapový odhad rozděleníˆβ,můžemenapříkladspočítatjehosměrodatnouchybuvzorcem(1.3). 26

Tradiční vzorec Bootstrapování párů ˆβ 0 0,2992056 0,3424628 ˆβ 1 0,0001812 0,0002025 Tabulka 2.1: Hodnoty směrodatné odchylky složek odhadu regresního parametruˆβpomocístandartníhovzorceametodoubootstrapovánípárů, B=100. 2.2.5 Porovnání bootstrapování páru a reziduí Jakázvýšeuvedenýchmetodjelepší?Jakjižtomuvestatisticebývá,záleží na situaci a na povaze naměřených dat. Připomeňme, jak vypadají bootstrapové výběry, které obě metody generují: x = {((c 1, c 1ˆβ+ ei1 ),((c 2, c 2ˆβ+ ei2 ),...,((c n, c nˆβ+ ein )} bootreziduí x = {((c i1, y i1 ),(c i2, y i2 ),...,(c in, y in ))} bootpárů Jak již bylo zmíněno, výhodou v pořadí druhé uvedené metody je absence předpokladů o vektoru náhodných chyb e. I když podmínky(2.1) vůbec neplatí, dává bootstrapování párů na rozdíl od druhého způsobu rozumné odpovědi. Jestliže je ale model konstatního rozptylu chyb(2.1) správný, je bootstrapování párů v porovnání s bootstrapováním reziduí méně efektivní. Dásevšakdokázat,ževtomtopřípaděsrostoucímrozsahemvýběru nse odpovědi získané bootstrapováním párů blíží k závěrům metody bootstrapování reziduí. Zadruhé,protožesepřibootstrapovánípárůpracujesvektory c 1, c 2,...,c n, dochází k pozměňování matice C. To je velmi podstatné, protože ta obsahuje informace o naměřených datech a naše závěry vždy vycházejí z naměřených dat, tedy zkreslení způsobené generováním bootstrapových výběrů můžezpůsobitiurčitézkreslenízávěrů.naštěstísevpraxiukazuje,žejižu středně velkých datových souborů tento vliv obvykle není významný. Příklad 5 Pokračování příkladu 4 ze strany 22 Budeme pokračovat v práci s údaji o automobilech. Metodou nejmenších čtvercůjsmejižodhadlivektorparametrů ˆβ=(1,417796;0,006727),který udává lineární závislost spotřeby automobilu na jeho hmotnosti. Jak je odhadˆβpřesný?vprogramurjsemnadataaplikovalmetodybootstrapování 27

Bootstrapování párů Bootstrapování reziduí 0 500 1500 0 500 1500 0.0060 0.0066 0.0072 0.0062 0.0066 0.0070 ˆβ 1 ˆβ 1 0.0 0.4 0.8 0.0 0.4 0.8 1.2 0.5 1.0 1.5 2.0 0.5 1.0 1.5 2.0 ˆβ 0 ˆβ 0 Obrázek2.2:Histogramy B=500hodnotbootstrapovýchopakování ˆβ 0,ˆβ 1 získané bootstrapováním párů a bootstrapováním reziduí. Všechny histogramy mají zhruba tvar podobný histogramu normálního rozdělení. Přerušovanoučaroujsouvyznačenyhodnotyˆβ 0,resp. ˆβ 1 získanémetodounejmenších čtverců. 28

párůareziduí,oběpro B=500.Vypočtenéhodnotyŝe 500 (ˆβ 0 ),ŝe 500 (ˆβ 1 )jsou společněshodnotami se(ˆβ 0 ), se(ˆβ 1 ),kteréjsoudanévzorcem(2.2),uvedeny vtabulce2.1.naobrázku2.2jsouhistogramybootstrapovýchopakováníˆβ 0, ˆβ 1. 2.2.6 Vážená metoda nejmenších čtverců Pro úplnost uveďme ještě metodu, kterou využijeme v situaci, kdy náhodné chyby e i majínehomogenníznámýrozptyl.nechťtedy var(e)=σ 2 W 1, kde Wjediagonálnímaticetypu n nznámýchhodnot w i - W=Diag(w 1,w 2,...,w n ).Algoritmusjepodobnýjakovčásti2.2.3stímrozdílem,žekaždá hodnota v regresním vztahu je vážena převrácenou hodnotou příslušného rozptylu. Z toho vyplývá, že proměnné s větším rozptylem bude v modelu přiřazena menší váha. Vektor regresních parametrů β váženou metodou nejmenších čtverců odhadujeme vzorcem ˆβ=(C WC) 1 C Wy. Dáljižpostupujemestejnějakov2.2.3-vypočtemevektorreziduí e = y Cˆβ,znějudělámebootstrapovývýběr e aspočítáme y = Cˆβ. Číslo σ pro fungování tohoto postupu není nutné odhadovat. Pokud je ho přesto potřeba znát, je odhad dán vzorcem(viz.[2]) ˆσ 2 = y W(y Cˆβ). n k 2.3 Intervaly spolehlivosti a metoda bootstrap 2.3.1 Úvod Nejprve připomeneme některé definice a pojmy z teorie intervalových odhadů. Zatím jsme se zabývali především bodovými odhady, tedy pro dané realizace x 1, x 2,...,x n náhodnýchveličin X 1, X 2,...,X n jsmepomocíbootstrapuodvozovalirůznévlastnostiˆθ,kterýseblížilkeskutečnéhodnotě parametru θ. Teorie intervalů spolehlivosti(nebo také konfidenčních intervalů) se zabývá úlohou,kdysepronáhodnéveličiny X 1, X 2,..., X n zrozdělenísdistribuční 29

funkcí Fapronějakoucharakteristiku θ=t(f)hledáinterval(θ L, θ U )tak, aby s nějakou pravděpodobností(tu obvykle značíme jako 1 2α) pokryl skutečnou hodnotu θ. Jinakřečeno,dvojice(θ L (X 1, X 2,...,X n ), θ U (X 1, X 2,...,X n ))senazýváintervalový odhad parametru θ o spolehlivosti 1 2α, jestliže P(θ L (X 1, X 2,...,X n ) < θ < θ U (X 1, X 2,...,X n ))=1 2α. Intervalové odhady se zpravidla konstruují následovně: Najdemenějakoufunkci hnáhodnýchveličin X 1, X 2,...,X n = Xaparametru θ,tzn. h(x, θ)akvantily h α a h 1 α rozdělenítétofunkce.potom platí P(h α < h(x, θ) < h 1 α )=1 2α. (2.3) Potéjižstačíupravitvýraznatvar P(θ L (X) θ θ U (X))=1 2α. 2.3.2 Intervalové odhady s použitím normálního a Studentova rozdělení Vnásledujícímtextuznačímesymbolem u β kvantilynormovanéhonormálníhorozdělení N(0,1)at β,n kvantilystudentova rozděleníonstupních volnosti. Předpokládejme,že ˆθ n = t(ˆf n )jeodhadparametru θ=t(f).připoměňme, že ˆF n značíempirickoudistribučnífunkcizaloženounanáhodnémvýběru (X 1, X 2,..., X n )=X,atedyi ˆθn jefunkcí X.Dálenechťjeŝenějakýodhadsměrodatnéchybyodhaduˆθ n. Využijemetoho,ževevětšiněpřípadůrozdělení ˆθ postandartizacikonverguje k normálnímu rozdělení se střední hodnotou 0 a rozptylem 1, tzn. položíme-li h(x, θ)=ˆθ n θ ŝe,potom h N(0,1). Jakjeznámo, u β = u 1 β.ztohoaz(2.3)plyne,žepro α (0, 1 4 )můžeme předchozí rovnost upravit například na tvar P(θ (ˆθ n u 1 α ŝe,ˆθ n + u 1 α ŝe)). =1 2α. Vtomtopřípadětedyintervalovýodhadvypadá(θ L, θ U )=(ˆθ n u 1 α ŝe,ˆθ n + u 1 α ŝe).tentointervalbudemedálenazývatjakostandardníkonfidenční 30

intervalospolehlivosti 1 2α.Promaléhodnoty njevšakaproximace normovaným normálním rozdělením v mnoha případech nepřesná. Často je lepší aproximace Studentovým rozdělením ˆθ n θ ŝe t n 1, kde t n 1 jestudentovorozdělenísn 1stupnivolnosti.(Poznamenejme, ževpřípaděvýběrovéhoprůměruˆθ n = X n zvýběruznormálníhorozdělení máveličina n θ ŝe přesněrozdělení t n 1 ). Intervalový odhad se spolehlivostí 1 α potom je (ˆθ n t 1 α,n 1 ŝe,ˆθ n + t 1 α,n 1 ŝe). Povšimněme si, že jak standardní konfidenční interval, tak i odhad s použitím Studentovarozděleníjevždysymetrickýintervalokolohodnotyˆθ n. 2.3.3 Bootstrap-t intervaly Použití bootstrapu při hledání intervalových odhadů je výhodné v tom (ostatně stejně jako většina aplikací metody bootstrap), že se dobrých výsledků dobereme i bez předpokladů o rozdělení zkoumané charakteristiky θ a že intervalové odhady pomocí bootstrapu v mnohém zlepšují výsledky získané pomocí normálního nebo Studentova rozdělení. Metoda, kterou se budeme nyní zabývat, odhaduje rozdělení veličiny h přímo z dat. Kvantily tohoto bootstrapem získaného rozdělení budeme značit jako ˆt β.postupvýpočtubootstrap-tintervaluospolehlivosti1 2αshrnemev následujícím algoritmu: 1. Ze zadaných naměřených hodnot vygenerujeme B bootstrapových výběrůx 1,x 2,...,x B. 2. Pro každý bootstrapový výběr spočítáme veličinu h: h b =ˆθ b ˆθ ŝe b, b=1,2,..., B, (2.4) kdeˆθ b =s(x b )jehodnotaˆθprobootstrapovývýběrx b.hodnota ŝe b představujesměrodatnouchybuˆθ provýběrx b.jakzískattuto hodnotu je diskutováno níže. 31

3. Vypočteme příslušné kvantily rozdělení veličiny h: α-tý kvantil je aproximovánhodnotouˆt α,kterásplňuje #{h b ˆt α } B = α. (2.5) 4. Bootstrap-t interval spolehlivosti je dán výrazem (ˆθ ˆt 1 α ŝe,ˆθ ˆt α ŝe). Možnánenízcelazřejmé,jaksezevzorce(2.5)získáhodnotaˆt α :bootstrapovéhodnoty h seřadímevzestupnědoposloupnosti h (1), h (2),...,h (B) - tzn.platí h (1) h (2)... h (B).Položme γ = α B(pokudje α B desetinnéčíslo,pakhozaokrouhlímenanejbližšícelé).potomˆt α = h (γ+1) a ˆt 1 α = h (B γ). Vrovnosti(2.5)sevyskytujehodnotaŝe b,cožjeodhadsměrodatnéchyby ˆθ provýběrx b =(x b 1, x b 2,...,x b n ).Pokudjeˆθvýběrovýprůměr,pakje možné spočítat tuto hodnotu přímo vzorcem n ŝe b = { (x b i x b ) 2 /n} 1 2. (2.6) i=1 Provětšinustatistikˆθvšakpodobnývzorecprovýpočetsměrodatnéchyby neexistuje, a proto musíme spočítat bootstrapový odhad pro každý bootstrapový výběr- bootstrap tedy bude probíhat na dvou úrovních. Uvádí se, že pro výpočet bootstrapových intervalových odhadů je nutné generovat nejméně B = 1000 bootstrapových výběrů. Pro výpočet směrodatnéchybyseuvádíjakodostatečnýpočet B1 = 25až200opakování. Teoreticky pro výpočet bootstrap-t intervalu tedy potřebujeme nejméně B B1=1000 25=25000bootstrapovýchopakování,vkaždémznich jepotřebaspočítatverzistatistiky ˆθ.Jezřejmé,žepokudje ˆθsložitější funkce, je tento počet opakování již poměrně velký a i přes rychlost dnešních počítačů se výpočet může protáhnout. Obecně platí, že bootstrap-t intervaly a výsledky získané pomocí Studentova rozdělení k sobě pro rostoucí rozsah výběru n konvergují. Pro malé hodnoty n(vliteratuřeseuvádípro n <150)jejižlepšípoužítbootstrapnežstandardní metody. Ty jednak často ignorují šikmost nebo jiné nepravidelnosti v 32

rozděleníˆθ,ajednakunichvznikározdílmezispolehlivostí1 2α,prokterou intervalový odhad počítáme, a skutečným pokrytím pravděpodobnosti výsledného odhadu. Lepší pokrytí bootstrap-t intervalů souvisí také s tím, žekvantilyrozdělení h nejsouobecněsymetrickékolem0. V[5] se uvádí, že bootstrap-t intervalové odhady je vhodné používat zejména pro statistiky, pro něž platí, že pokud vynásobíme naměřená data konstantou c,paksehodnotaˆθzvýšítaké c-krát.mezitakovéstatistikypatřínapříklad výběrový průměr nebo medián. 2.3.4 Intervalové odhady percentilovou metodou Výchozí situace je stejná jako obvykle: z výchozích dat generujeme bootstrapovévýběryx apříslušnébootstrapovéverzeˆθ =s(x ).Intervalový odhadparametruˆθpercentilovoumetodousespočítápomocíkvantilůdistribučnífunkce G bootstrapovýchopakováníˆθ.tatodistribučnífunkceje definována jako(v souladu s(1.2)) G (x)=p {ˆθ x}. Intervalový odhad o spolehlivosti 1 2α je pak definován následovně: (ˆθ L,ˆθ U )=(G 1 (α), G 1 (1 α)). To však platí jen pro ideální situaci, kdy by počet bootstrapových opakování musel být rovný nekonečnu. V praxi zkonstruujeme interval následujícím postupem: 1.Zvýchozíchdat x 1, x 2,...,x n vygenerujeme Bbootstrapovýchvýběrů x 1,x 2,...,x B. 2.Spočítámehodnotyˆθ b =s(x b ), b=1,2,..., B. 3.Tytohodnotyseřadímevzestupnědoposloupnosti:ˆθ (1) ˆθ (2)... ˆθ (B). 4. Intervalový odhad o spolehlivosti 1 2α je aproximován následovně: (θ L, θ U ) (ˆθ (γ),ˆθ (B γ) ), kde γ= α B(případněhodnotu α Bzaokrouhlímenanejbližšícelé číslo). 33

α 0,01 0,025 0,05 Bootstrap- t (3,65953; 4,61402) (3,74705; 4,53992) (3,82474; 4,46655) Percentilová metoda (3,75201; 4,60812) (3,79152; 4,56885) (3,85078; 4,50469) Studentova metoda (3,68997; 4,63581) (3,76605; 4,55973) (3,83081; 4,49497) Tabulka 2.2: Tato tabulka shrnuje vypočtené intervalové odhady o spolehlivosti 98%, 95% a 90% vypočtené pomocí Studentova rozdělení, percentilovou metodou a metodou bootstrap-t intervalů. Percentilová metoda je v praxi použitelná pro velkou množinu problémů s výjimkou případu, kdy se zajímáme o odhad střední hodnoty pomocí výběrového průměru a rozsah náhodného výběru n je malý. Zřejmě je výpočetně mnohem méně náročnější než metoda bootstrap-t intervalů- během té generujeme celkem B B1 bootstrapových výběrů, zatímco percentilová metoda vyžaduje pouze B opakování. Příklad 6 Nechťje X 1, X 2,...,X 100 náhodnývýběrzrozdělení N(4,4).Těchto100 hodnot jsem náhodně vygeneroval v programu R. Zajímá nás intervalový odhadprostatistikuˆθ= X n. Odhadŝesměrodatnéchybyˆθjsemzískalpomocíneparametrickéhobootstrapu s 1000 opakování. Poté jsem odvodil intervalové odhady běžným odhadem pomocí Studentova rozdělení s 99 stupni volnosti, dále percentilovou metodoupro B=1000iteracíabootstrap-tmetodourovněžsB=1000 iteracemi.směrodatnéchybyproboostrapovéhodnoty ˆθ b bylyspočteny podle vzorečku(2.6). Tabulka 2.2 shrnuje výsledky percentilové metody, bootstrap-t intervalové metody a výpočtu pomocí Studentova rozdělení pro různé hodnoty α. Je vidět, že pro takto velký rozsah výběru nejsou intervalové odhady spolehlivosti příliš odlišné. Celýpostupjsempakzopakovalpromenšírozsahvýběru-n = 20.Na obrázku 2.3 jsou histogramy pro B = 1000 bootstrapových opakování a vertikálními čarami jsou vyznačeny intervalové odhady o spolehlivosti 95% pro oba rozsahy výběru. Je zřejmé, že pro menší hodnotu n produkuje percentilová metoda užší interval, zatímco bootstrap-t interval a Studentův interval se zhruba shodují. 34

n=100 n=20 0.0 0.5 1.0 1.5 2.0 0.0 0.2 0.4 0.6 0.8 1.0 3.6 4.0 4.4 4.8 3.0 3.5 4.0 4.5 5.0 5.5 Obrázek2.3:Histogramy1000bootstrapovýchopakovánístatistikyˆθ.Nalevémobrázkujehistogramprorozsahvýběru n = 100,napravémpotom histogrampro n=20.plnoučaroujevyznačenprůměrˆθ=4,162souboruo velikosti n = 100 náhodně vygenerovaných hodnot z rozdělení N(4,4), resp. ˆθ=4,083provýběrorozsahu n=20zestejnéhorozdělení.přerušované vertikální čary označují intervalové odhady o spolehlivosti 95% získané percentilovou metodou, čerchované představují interval vypočtený pomocí Studentova rozdělení o 99(resp. 19) stupních volnosti o stejné spolehlivosti a konečně tečkované čary označují 95%-ní bootstrap-t intervaly. Pro velký rozsah náhodného výběru jsou všechny intervalové odhady zhruba stejné, zatímco v druhém případě produkuje percentilová metoda znatelně užší interval. Pro výběrový průměr a takto malé rozsahy výběru n má bootstrap-t metoda mnohem lepší pokrytí než percentilová metoda. 35

2.4 Kvantilová regresní analýza V části 2.2, ve které jsme se zabývali lineární regresí, jsme modelovali podmíněnou střední hodnotu E[y C]. Nemusí nás zajímat pouze podmíněné rozdělení střední hodnoty, ale například podmíněné kvantily různých podmíněných rozdělení. Právě k tomuto cíli se používá kvantilová regresní analýza, jíž se zabývá např. R.Koenker v[6]. Výsledky kvantilové regresní analýzy nejsou zpravidla získány přímými vzorci jako v případě metody nejmenších čtverců, nýbrž různými numerickými výpočty, a z toho důvodu není obvykle možné odvodit přímý vzorec pro výpočet směrodatné chyby nebo intervalů spolehlivosti pro tyto výstupy. Proto je při určování přesnosti odhadů získaných kvantilovou regresí často bootstrap nenahraditelný. Na následujících řádcích základy kvantilové regresní analýzy a ilustrujeme ji na automobilových datech společně s odhady přesností metodou bootstrap. V následujícím textu budeme značit τ-kvantil rozdělení náhodné veličiny Y jako y τ.připomeňme,žeprokvantil y τ platí P(Y y τ ) τa P(Y > y τ ) 1 τ.např.prodatazpříkladu4dosahujeautomobil95 téhokvantilu hmotnosti, pokud 95% souboru automobilů má menší hmotnost a naopak 5%vozidelztohotosouborujetěžšíneždanýautomobil. Předpokládejme stejné značení jako v části 2.2. Nejvýznamějším kvantilem jebezesporumedián-y 0,50.Odhadmetodounejmenšíchčtvercůbyldán minimalizací součtu čtverců reziduí; podobně odhad podmíněného mediánu získáme minimalizací součtu absolutních hodnot reziduí: ˆβ 0.50 =min b n i=1 y i c i b. V jiném případě, kdy nás místo mediánu zajímá nějaký τ-kvantil, minimalizujeme obecnější výraz: ˆβ τ =min b n i=1 ρ τ (y i c i b), kde ρ τ ( )označujetakzvanouztrátovoufunkci ρ τ (u)=u (τ I(u <0)). Tyto optimalizační úlohy jsou velmi dobře řešitelné metodami lineárního programování. 36

τ 0,1 0,25 0,5 0,75 0,9 ˆβ 0 0,4973637 1,1912790 1,1462441 2,3882352 2,5059203 ˆβ 1 0,0065026 0,0063953 0,0068075 0,0065359 0,0071044 Boot. párů se 100 (ˆβ 0 ) 0,3669734 0,2288621 0,3378647 0,7150589 0,6792194 se 100 (ˆβ 1 ) 0,0002001 0,0001935 0,0002652 0,0005191 0,0003935 Boot. reziduí se 100 (ˆβ 0 ) 0,3628389 0,2457566 0,2441471 0,4657161 0,4646243 se 100 (ˆβ 1 ) 0,0002057 0,0001374 0,0001229 0,0002698 0,0003635 Tabulka 2.3: Tato tabulka obsahuje výsledky kvantilové analýzy a následné aplikacemetodybootstrapprokvantily τ= {0,1;0,25;0,5;0,75;0,9}.Zapovšimnutí stojí především poměrně hodně odlišné odhady směrodatné chyby pro τ = 0,75aτ = 0,9vpřípaděbootstrapovánípárůabootstrapování reziduí. Protožeprosměrodatnouchybuodhaduˆβ τ neexistujevzorecjako(2.2),je vhodné použít metodu bootstrap, jak si ukážeme v následujícím příkladu: Příklad 7 Pokračování příkladu ze strany 27 Aplikujme na data s auty kvantilovou regresní analýzu. Nezávislou proměnnoujestálehmotnost,závisloujespotřebavozidlaveměstěvlitrechna100 km. Na obrázku 2.4 jsou vyneseny body představující hmotnosti a spotřeby automobilů, tučnou čarou je vyznačen podmíněný medián. Tečkované čáry představují kvantilové regresní funkce pro kvantily τ = {0,1; 0,25; 0,75; 0,9}. Přerušovanou čarou je vyznačena podmíněná střední hodnota vypočtená v příkladu 4. Dálejsemspočetlprovšechnyhodnotyodhadů ˆβ 0,τ, ˆβ1,τ směrodatnéodchylky metodou bootstrap- použil jsem jak bootstrapování párů, tak reziduí. Postup je stejný jako v části 2.2.2 s jediným rozdílem, že pokaždé, kdy potřebujeme vypočítat bootstrapovou verzi odhadu regresních parametrůˆβ,použijememístometodynejmenšíchčtvercůvýsledekoptimalizační úlohy příslušné pro daný kvantil. Výsledky jsou vyneseny v tabulce 2.3. Co nás dále může zajímat, je pás spolehlivosti kolem těchto regresních přímek. Připomeňme definici pásu spolehlivosti kolem regresní přímky: nechť 37

Kvantilová regresní analýza Spotřeba[l/100 km] 3.9 5.9 7.9 9.9 12.9 15.9 18.9 21.9 839 1139 1439 1739 2039 2339 2639 Hmotnost[kg] Obrázek 2.4: Obrázek prezentuje výsledky kvantilové regresní analýzy pro data s auty- tučnou čarou je vyznačen podmíněný medián, tečkované čáry představují kvantilové regresní funkce pro kvantily τ = {0,1; 0,25; 0,75; 0,9}. Mezery mezi kvantilovými přímkami nám poskytují náhled na podmíněné rozdělení spotřeby v závislosti na hmotnosti- nižší kvantily jsou blízko u sebe a naopak vyšší kvantily jsou od sebe dále, což naznačuje, že graf hustoty podmíněného rozdělení spotřeby dosahuje vyšších hodnot ve své levé části a má dlouhý ocas vpravo. 38

je(β 0, β 1 )vektorregresníchparametrůac 0 jedanýbod.nechť(y L, y U ) jeinterval,kterýpokryjehodnotu β 0 + β 1 c 0 spravděpodobnostní1 2α. Přispojitěměnícímse cpakmeze(y L, y U )(rovněžseměnící)vytvořípři grafickémznázorněnípásspolehlivostikolemregresnípřímky β 0 + β 1 c 0 o koeficientu spolehlivosti 1 2α. V případě lineární regrese existuje vzorec pro výpočet jednotlivých intervalovýchodhadůhodnot β 0 + β 1 c,znichžpaksestavímecelýpásspolehlivosti (viz např[1]). V případě kvantilové regrese však podobný vzorec není k dispozici, a tak je vhodné použít metodu bootstrap: 1.Získámebootstrapovévýběryx 1,x 2,...,x B (buďbootstrapováním párů, nebo reziduí). 2. Pro každý bootstrapový výběr spočítáme bootstrapové odhady regresníchparametrůˆβ 0,ˆβ i 1,i=1,2, i..., B. 3.Probod c 0 získámeintervalovýodhad(y L, y U )ospolehlivosti1 2α obdoboupercentilovémetody:hodnoty(ˆβ 0 i i +ˆβ 1 c 0)uspořádámedo rostoucíposloupnosti;potom y L =(ˆβ 0 i +ˆβ 1 i c 0 ) (αb) a y U =(ˆβ 0 i + ˆβ 1 ic 0) (B αb) (popř.neceléhodnoty αbzaokrouhlíme). 4. Předchozí krok opakujeme pro vhodné hodnoty c tak, abychom mohli vykreslit dostatečně hladký pás spolehlivosti. Výsledky právě popsané metody pro data s auty jsou prezentovány na obrázku 2.5. Pro přehlednost jsou zde vykresleny jen pásy spolehlivosti pro regresní kvantilové funkce pro τ = {0,1; 0,5; 0,9}. Nakonec nás může zajímat celé rozdělení podmíněné kvantilové funkce spotřeby.náhledzískámetak,žespočítáme β τ pro τ= {0,04;0,08;...;0,96}a výsledné body vyneseme do grafu. Výsledky společně s intervaly spolehlivostiprodanéhodnoty β 1 jsouznázorněnynaobrázku2.6. 39