Intervalová data a výpočet některých statistik

Podobné dokumenty
PRAVDĚPODOBNOST A STATISTIKA

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Základy matematické analýzy

Charakterizace rozdělení

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Výběrové charakteristiky a jejich rozdělení

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

Aproximace binomického rozdělení normálním

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

15. T e s t o v á n í h y p o t é z

Odhad parametrů N(µ, σ 2 )

Bodové a intervalové odhady parametrů v regresním modelu

Pravděpodobnost a matematická statistika

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Intervalové Odhady Parametrů

Normální (Gaussovo) rozdělení

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Odhad parametrů N(µ, σ 2 )

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Definice spojité náhodné veličiny zjednodušená verze

4EK211 Základy ekonometrie

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

6. Lineární regresní modely

Časové řady, typy trendových funkcí a odhady trendů

PRAVDĚPODOBNOST A STATISTIKA

Inovace bakalářského studijního oboru Aplikovaná chemie

Odhady Parametrů Lineární Regrese

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

15. T e s t o v á n í h y p o t é z

Časové řady, typy trendových funkcí a odhady trendů

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Intervalová data, algoritmy a výpočetní složitost

4EK211 Základy ekonometrie

Statistika II. Jiří Neubauer

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X


odpovídá jedna a jen jedna hodnota jiných

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

4. Aplikace matematiky v ekonomii

Návrh a vyhodnocení experimentu

Řešení. Označme po řadě F (z) Odtud plyne, že

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

Vlastnosti odhadů ukazatelů způsobilosti

VYBRANÁ ROZDĚLENÍ. SPOJITÉ NÁH. VELIČINY Martina Litschmannová

ODHADY NÁVRATOVÝCH HODNOT

3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Lineární a logistická regrese

5.3. Implicitní funkce a její derivace

Téma 22. Ondřej Nývlt

Příklady na testy hypotéz o parametrech normálního rozdělení

Pravděpodobnost a aplikovaná statistika

Základy počtu pravděpodobnosti a metod matematické statistiky

Texty k přednáškám z MMAN3: 4. Funkce a zobrazení v euklidovských prostorech

KMA Písemná část přijímací zkoušky - MFS 2o16

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

MATEMATICKÁ STATISTIKA

5. T e s t o v á n í h y p o t é z

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

STATISTICKÉ HYPOTÉZY

ROVNICE NA ČASOVÝCH ŠKÁLÁCH A NÁHODNÉ PROCESY. Michal Friesl

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Statistika pro každého. Párový test Test shody dvou rozptylů Dvouvýběrový t-test Porovnání středních hodnot při nestejných rozptylech

AUTOMATY A GRAMATIKY. Pavel Surynek. Kontextové uzávěrové vlastnosti Turingův stroj Rekurzivně spočetné jazyky Kódování, enumerace

naopak více variant odpovědí, bude otázka hodnocena jako nesprávně zodpovězená.

Stavový model a Kalmanův filtr

17. Posloupnosti a řady funkcí

AVDAT Náhodný vektor, mnohorozměrné rozdělení

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

5EN306 Aplikované kvantitativní metody I

Statistika (KMI/PSTAT)

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Odhad stavu matematického modelu křižovatek

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

LWS při heteroskedasticitě

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Vybraná rozdělení náhodné veličiny

Aplikace 2: Hledání informativních příznaků pro rozpoznávání

Tomáš Karel LS 2012/2013

AVDAT Nelineární regresní model

Cvičení ze statistiky - 5. Filip Děchtěrenko

Plánování experimentu

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

1. Přednáška. Ing. Miroslav Šulai, MBA

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Testování statistických hypotéz

Transkript:

Intervalová data a výpočet některých statistik Milan Hladík 1 Michal Černý 2 1 Katedra aplikované matematiky Matematicko-fyzikální fakulta Univerzita Karlova 2 Katedra ekonometrie Fakulta informatiky a statistiky Vysoká škola ekonomická Praha Robust 2014 M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 1 / 15

Intervalová data a příklady Intervalová data. Nechť data x 1,...,x n jsou nepozorovatelná. Pozorovatelné jsou jen intervaly o nichž víme, že platí [x 1,x 1 ],...,[x n,x n ], x i x i x i, i = 1,...,n. Příklad 1. Namísto dat x 1,...,x n pozorujeme pouze zaokrouhlené hodnoty x i = x i, x i = x i, i = 1,...,n. M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 2 / 15

Intervalová data a příklady Příklad 2. Namísto dat x 1,...,x n pozorujeme pouze zašuměné hodnoty x i = x i γ i, x i = x i +δ i, i = 1,...,n, kde γ i a δ i jsou nezáporné náhodné veličiny. Příklad 3. Nechť X(t) je pozorovatelný náhodný proces s časem t 0. Nechť τ 1 [0,1], τ 2 [1,2],..., τ n [n 1,n] jsou nepozorovatelné časové okamžiky. Pak i data x 1 = X(τ 1 ),..., x n = X(τ n ) jsou nepozorovatelná. Pozorovatelné jsou ovšem hodnoty x i = min X(t), x i = max X(t), i = 1,...,n, t [i 1,i] t [i 1,i] které jistě splňují x i x i x i. M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 3 / 15

Některé obecné otázky Jaké jsou další zajímavé mechanismy generující intervalová data (vedle zaokrouhlování, diskretizace, klasifikace do tříd,...)? Jak se chovat v lineárním regresním modelu y = Xβ +ε, jestliže namísto dat (X,y) pozorujeme jen intervaly ([X,X],[y,y]), o nichž víme, že platí X X X a y y y? Co když nevíme nic více? A co když naopak víme něco dalšího, například známe rozdělení X na [X, X] a/nebo rozdělení y na [y, y]? Je-li dána statistika S(x 1,...,x n ), co o ní můžeme říci? M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 4 / 15

Hlavní otázka Uvažme například, že x 1,...,x n je výběr z N(µ,σ 2 ). Pozorujeme ale jen naše intervaly [x 1,x 1 ],...,[x n,x n ]. (1) Hlavní otázka. Je dána statistika (= funkce dat) S(x 1,...,x n ), např. µ, σ 2, t-ratio apod. Co o ní můžeme říci, známe-li jen intervaly (1)? Na x 1,...,x n můžeme nahlížet jako na náhodné veličiny na intervalech (1) s jistým rozdělením. Pak i hodnota S = S(x 1,...,x n ) je náhodná veličina. Můžeme něco říci o jejím rozdělení? M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 5 / 15

Výběrový rozptyl Za statistiku S vezměme σ 2 = 1 ( n n 1 i=1 x i 1 n 2. n j=1 j) x Příklad: předpokládejme nezávislé { xi s pravděpodobností p, x i = s pravděpodobností 1 p. Pak rozdělení σ 2 může vypadat například: x i 0.2 0.18 0.16 0.14 p = 0.1 0.12 p = 0.3 0.1 0.08 0.06 0.04 p = 0.5 0.02 0 1 2 3 4 5 6 7 8 M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 6 / 15

Výběrový rozptyl Položme si tuto otázku: je-li dána statistika S, dokážeme spočítat alespoň S = sup{s(x 1,...,x n ) : ( i) x i [x i,x i ]}, S = inf{s(x 1,...,x n ) : ( i) x i [x i,x i ]}? Tyto hodnoty dávají alespoň informaci S S S. Navíc za mírných předpokladů dokonce platí, že [S,S] je nosičem distribuce S. Za statistiku S opět vezměme σ 2 = 1 ( n n 1 i=1 x i 1 n 2. n j=1 j) x Věta. Spočítat S = σ 2 lze efektivně redukcí na konvexní kvadratické programování. Věta. Spočítat S = σ 2 je NP-těžký problém ( neexistuje obecná metoda pracující v lepším čase než 2 n ). Dokonce ani (přímočará) simulace příliš nepomáhá (např. při rovnoměrném rozdělení x i na [x i,x i ]) chceme-li se při simulaci strefit do blízkosti σ 2 s rozumnou pravděpodobností, potřebujeme řádově 2 n pokusů. M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 7 / 15

Ilustrace Řekněme, že x i jsou nezávislé a rovnoměrně rozdělené na [x i,x i ]. Rozdělení σ 2 si pak lze představovat např. podle obrázku: σ 2 σ 2 (lze spočítat) (nelze spočítat) Důsledek. Neexistuje ani metoda, která by dokázala efektivně vyčíslit hodnoty funkce hustoty, distribuční funkce, kvantilové funkce apod. (Kdyby taková metoda existovala, pak bychom dokázali pomocí půlení intervalu efektivně aproximovat hodnotu σ 2, ale to nejde.) M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 8 / 15

Pozitivní výsledek Věta. Existuje pseudopolynomiální algoritmus pro výpočet σ 2. To zhruba znamená: Jsou-li kraje intervalů x i, x i celá čísla, která nejsou příliš velká, pak dokážeme spočítat σ 2 i při velkém n. Polynomiální algoritmus pracuje v polynomiálním čase vzhledem k binárnímu kódování celých čísel, tj. v čase polynom(log x 1 +log x 1 + +log x n +log x n ). Pseudopolynomiální algoritmus pracuje v polynomiálním čase vzhledem k unárnímu kódování celých čísel, tj. v čase polynom( x 1 + x 1 + + x n + x n ). M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 9 / 15

Příklad Data: [x 1, x 1 ] = [2,3] [x 2, x 2 ] = [0,1] [x 3, x 3 ] = [1,3] [x 4, x 4 ] = [0,5] [x 5, x 5 ] = [ 2,1] [x 6, x 6 ] = [ 1,0] [x 7, x 7 ] = [1,2] [x 8, x 8 ] = [1,6] [x 9, x 9 ] = [0,7] [x 10, x 10 ] = [0,2] [x 11, x 11 ] = [1,2] [x 12, x 12 ] = [1,3] [x 13, x 13 ] = [ 1,1] [x 14, x 14 ] = [ 2,4] [x 15, x 15 ] = [3,4] [x 16, x 16 ] = [1,10] [x 17, x 17 ] = [1,2] [x 18, x 18 ] = [2,3] [x 19, x 19 ] = [3,4] [x 20, x 20 ] = [1,6] Počet kroků pseudopoly algoritmu: n pseudopol. brute-force metoda (2 n ) 2 6 4 3 14 8 4 30 16 5 62 32 6 126 64 7 230 128 8 428 256 9 784 512 10 1272 1024 11 1814 2048 12 2442 4096 13 3220 8192 14 4 314 16 384 15 5 513 32 768 16 7 715 65 536 17 10 004 131 072 18 12 380 262 144 19 14 880 524 288 20 17812 1048576 M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 10 / 15

Další výsledky o výpočtu rozptylu Věta. Nejen přesný, ale dokonce i přibližný výpočet hodnoty σ 2 s libovolnou absolutní chybou je NP-těžký. Problém. Jak je to s výpočtem σ 2 s relativní chybou? Víme jen: existuje polynomiální algoritmus na σ 2 s relativní chybou = 1; aproximace σ 2 s relativní chybou 2 2n 1 je NP-těžká. M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 11 / 15

Testové statistiky K čemu může být dobrý interval [S,S], kde S = sup{s(x 1,...,x n ) : ( i) x i [x i,x i ]}, S = inf{s(x 1,...,x n ) : ( i) x i [x i,x i ]}, je-li S = S(x 1,...,x n ) testová statistika pro nějaký test? Je-li C kritický obor (na pevně zvolené hladině významnosti), pak můžeme činit alespoň dílčí závěry, máme-li štěstí: Je-li [S,S] C, pak víme, že test zamítá nulovou hypotézu (bez ohledu na to, kde konkrétně leží data x 1,...,x n v intervalech [x 1,x 1 ],...,[x n,x n ]). Analogicky, je-li [S, S] C =, pak víme, že test nulovou hypotézu nezamítne. Problém. A jak se zachovat ve třetím případě? Co když je např. průnik [S, S] C neprázdný, ale malý? M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 12 / 15

Další statistiky Spočítat S a S je snadné, je-li S lineární funkcí proměnných x 1,...,x n, například µ = 1 n n i=1 x i. Obecněji: Spočítat S a S je snadné, lze-li předpis pro S napsat jako vzorec, v němž se každá z proměnných x 1,...,x n vyskytuje nanejvýš jednou, například 1 n (x i µ) 2. n i=1 Někdy je to ale těžké: například není těžké ukázat, že pro F-statistiku je výpočet F i F NP-těžký. A co slibovaná t-statistika? M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 13 / 15

t-statistika Ve výrazu t = n µ µ 0 σ = n 1 n n j=1 x j µ 0 1 n 1 n i=1 (x i 1 n n j=1 x j) 2, kde µ 0 je libovolná pevná konstanta, se normuje rozptylem. Není proto překvapivé, že platí Věta. Spočítat hodnotu t lze efektivně (netriviální redukcí na konvexní optimalizaci), spočítat hodnotu t je NP-těžké, spočítat hodnotu t je dokonce NP-těžké i s libovolnou absolutní chybou (tj. např. i s chybou 1000!), spočítat hodnotu t lze v pseudopolynomiálním čase. M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 14 / 15

Otázka na závěr Zajímá nás ekonometrická regrese C t = β 0 +β 1 Y t +β 2 π t +ε t, kde t indexuje čas, C t = spotřební výdaje, Y t = příjem, π t = inflace predikovaná v období t pro období t + 1. Otázka. Problém je, že hodnoty π t nejsou pozorovatelné. Máme k dispozici jen intervaly [π t,π t ], např. interval predikcí expertů či intervalovou predikci jiného modelu. Co pak můžeme dělat? Co můžeme například říci o běžných estimátorech regresních parametrů? Děkujeme za pozornost. (Některé z prezentovaných výsledků vyjdou v CSDA.) M. Hladík a M. Černý (UK, VŠE) Intervalová data a výpočet některých statistik Robust 2014 15 / 15