Jemný úvod do statistických metod v netržním oceňování



Podobné dokumenty
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Úvodem Dříve les než stromy 3 Operace s maticemi

Tomáš Karel LS 2012/2013

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Statistická analýza jednorozměrných dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

5EN306 Aplikované kvantitativní metody I

odpovídá jedna a jen jedna hodnota jiných

Korelační a regresní analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Regresní analýza. Eva Jarošová

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

4EK211 Základy ekonometrie

Jednofaktorová analýza rozptylu

LINEÁRNÍ REGRESE. Lineární regresní model

Základy popisné statistiky

4EK211 Základy ekonometrie

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Zápočtová práce STATISTIKA I

Lineární regrese. Komentované řešení pomocí MS Excel

Korelace. Komentované řešení pomocí MS Excel

Technická univerzita v Liberci

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Cvičení 12: Binární logistická regrese

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Chyby měření 210DPSM

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

AVDAT Klasický lineární model, metoda nejmenších

Odhady Parametrů Lineární Regrese

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Tomáš Karel LS 2012/2013

KORELACE. Komentované řešení pomocí programu Statistica

4EK211 Základy ekonometrie

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Regresní a korelační analýza

Bodové a intervalové odhady parametrů v regresním modelu

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Ing. Michael Rost, Ph.D.

Regresní analýza 1. Regresní analýza

4EK211 Základy ekonometrie

4EK201 Matematické modelování. 11. Ekonometrie

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

PRAVDĚPODOBNOST A STATISTIKA

4EK211 Základy ekonometrie

7 Regresní modely v analýze přežití

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Inovace bakalářského studijního oboru Aplikovaná chemie

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Robustní odhady statistických parametrů

PRAVDĚPODOBNOST A STATISTIKA

ADDS cviceni. Pavlina Kuranova

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Aplikovaná statistika v R - cvičení 3

INDUKTIVNÍ STATISTIKA

Přednáška IX. Analýza rozptylu (ANOVA)

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KGG/STG Statistika pro geografy

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování statistických hypotéz

Jednofaktorová analýza rozptylu

Pravděpodobnost a aplikovaná statistika

KGG/STG Statistika pro geografy

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

AVDAT Geometrie metody nejmenších čtverců

Charakteristika datového souboru

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Plánování experimentu

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Lineární a logistická regrese

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Lekce 1 úvod do ekonometrie

pravděpodobnosti, popisné statistiky

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Pearsonův korelační koeficient

Nadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech.

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

Transkript:

Jemný úvod do statistických metod v netržním oceňování Ing. Jan Brůha PhD. Karlova univerzita

Struktura prezentací První prezentace Cíle, možnosti a omezení Nástroje: metodologie a software CVM (open ended) Druhá prezentace TCM (single site) Závěr

Cíle statistických metod Ekonomická teorie predikuje jistá tvrzení ohledně netržního oceňování (viz předchozí přednášky) Testovat predikce teorie Numericky kvatifikovat teoretické předpovědi Možnosti Využití nástrojů statistické analýzy společně s ekonomickou teorií k empirické práci

Cíle prezentací Ukázat posluchačům možnosti a omezení statistické analýzy v oblasti metod netržního oceňování Co lze udělat snadno a co těžko Jak interpretovat výsledky Nemá suplovat statistické učebnice Použité pojmy budou buď vysvětleny nebo jsou základní Interaktivní učebnice statistiky http://badame.vse.cz/iastat

Omezení empirických metod Empirické metody mají svou sílu, ale nejsou samospasitelné Neexistují data sama o sobě vždy nutno interpretovat v určitém paradigmatu Sláva a bída matematické statistiky (testování hypotéz) Nezodpovědné předpoklady mnohdy znehodnocují statistickou analýzu

Metodologie (\1) Cíl statistické analýzy Na základě teorie ověřit nebo kvantifikovat hypotézy Je nebezpečné těžit data data mining Klíčové předpoklady: Důležité myšlenky Dobrá data Správné statistické metody

Software (\1) Dnes důležité: mít vhodný software Více kritérií pro výběr Cena Snadnost užívání Výběr metod Možnosti implementace speciálních metod Ověřitelnost Dále rozlišíme 3 typy

Software (\2) Spreadsheetové nástroje levné, v poslední době vybaveni celkem užitečnými nástroji statistické analýzy, snadné uživatelské ovládání, těžké programování speciálních postupů, mnoho je před uživateli skryto

Software (\3) Profesionální programy SPSS, SAS, Statgraphics, TSP, Stata, už ne tak levné, větší množství procedur než u spreadsheetů, relativně snadné uživatelské ovládání, těžší programování speciálních postupů, stále mnoho je před uživateli skryto.

Software (\4) Numerické balíky MATLAB, GAUSS (případně programovací jazyky Fortran) Drahé, ale existují i lacinější varianty: (Octave, OX, ) Možnost naprogramovat prakticky cokoliv nutnost něco se naučit, ale uživatel má vše pod kontrolou.

CVM (\1) Cíle tohoto pod-bloku Jak přistoupit ke zpracování dat Jaké otázky (a za jakých okolností) lze zodpovědět Jak interpretovat výstupy analýz Odkazy Bude ukázáno na Open-Ended CVM

CVM (\2) příklad WTP Pohlaví Vzdělání Příjem Věk Choroby 8,57 0 2 12365 39 0 7,5731 1 4 28850 43 0 4,8602 0 1 22207 55 1 7,4897 1 2 28393 38 0 10,8755 0 2 33828 42 1 7,0437 0 3 27842 52 1 10,7701 1 4 33544 65 1 10,8019 1 4 34103 39 0 3,5299 0 1 17891 56 1 6,7426 1 1 26648 42 1 10,3151 0 4 33057 46 0 2,2461 0 5 11443 43 1 12,971 0 4 36208 62 1 4,9923 0 2 22778 58 1 8,7723 1 2 30717 28 0

Výběrové charakteristiky (\1) Charakteristiky polohy Průměr Medián Charakteristiky variability Výběrové rozpětí Rozptyl Směrodatná odchylka

Charakteristika dat (\2a) Histogram Třídy Četnost 5 32 10 26 15 13 20 5 25 1 30 0 35 0 40 1 Další 2 Četnost 40 30 20 10 Histogram Četnost 0 5 15 25 35 Další Třídy

Charakteristika dat (\2b) Kumulativní Histogram Třídy Četnost Kumul. % 5 32 40,00% 10 26 72,50% 15 13 88,75% 20 5 95,00% 25 1 96,25% 30 0 96,25% 35 0 96,25% 40 1 97,50% Další 2 100,00% Č e tn o s t 40 30 20 10 Histogram 120,00% 100,00% 80,00% 60,00% 40,00% 20,00% Četnost Kumul. % 0 5 15 25 35 Další 0,00%

Charakteristika dat (\3) Jak vypadá WTP po logaritmování? 12 Histogram Četnost 10 8 6 4 2 Četnost 0 0 0,4 0,8 1,2 1,6 2 2,4 2,8 3,2 3,6 Třídy

Jemnější nástroje (\1) Analýza rozptylu Umožňuje testovat závislost veličin (jejich průměru) na diskrétních znacích Regresní analýza Mnohorozměrná závislost Y = f(x,β)

Analýza rozptylu Jednorozměrný model Střední hodnota x i = m + t i Vliv diskrétního znaku na střední hodnotu zkoumané veličiny Umožňuje testování t i > t k Mají muži systematicky vyšší WTP než ženy? Zobecnění Dvourozměrný model x ik = m + t i + s k + u ik Vícerozměrné modely

ANOVA příklad závisí WTP na pohlaví? Anova: jeden faktor Faktor Výběr Počet Součet Průměr Rozptyl Sloupec 1 43 76,71018 1,783958 0,555829 Sloupec 2 37 71,14525 1,922845 0,558111 ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry 0,383621 1 0,383621 0,688872 0,409081 3,963472 Všechny výběry 43,43685 78 0,556883 Celkem 43,82047 79

Omezení analýzy rozptylu Lze snadno použít pouze při vysvětlování vlivu proměnných, jež nabývají několika málo hodnot Většina testů (skrytě) předpokládá normalitu rozložení Nemusí být vždy splněno, a pak chybné výsledky Alternativa: neparametrické a robustní testy Kruskal-Wallisův test (ANOVA1) Friedmanův test (ANOVA2)

Regresní analýza (\1) Obecný model Y = f(x,β,ε) Y vysvětlované proměnné (WTP, ) X vysvětlující proměnné (věk, pohlaví, příjem, vzdělání, ) β vektor koeficientů udávající vliv jednotlivých proměnných ε náhodné chyby Přítomnost náhodných chyb neznamená celkovou bezzákonitost, pouze nepřítomnost jednoduchého, zřejmého, deterministického vztahu!!

Regresní analýza (\2a) Typy regresních rovnic Lineární Y = β 0 + β 1 X 1 + β 2 X 2 +... β Ν X N +ε Koeficienty udávají přímý vliv β i = dy/dx i Semi Log-lineární Log(Y) = β 0 + β 1 X 1 + β 2 X 2 +... β Ν X N +ε Oblíbená ve Open-ended CVM Koeficienty udávají semi-elasticitu β i = Y/dX i

Regresní analýza (\2b) Log-lineární Log(Y) = β 1 Log(X 1 ) ++... β Ν Log(X N ) +ε Koeficienty udávají elasticity β i = Y/ X i Cox-Boxova specifikace Možnost testování funkčního tvaru modelu Obecná nelineární specifikace Nutno koeficienty interpretovat případ od případu

Regresní analýza (\3a) Metody odhadu Nejčastěji Metoda nejmenších čtverců Σ(Y- β 0 + β 1 X 1 + β 2 X 2 +... β Ν X N ) 2 min Výhody Snadno se počítá Známé statistické vlastnosti Nevýhody Citlivá k odlehlým pozorováním

Regresní analýza (\3b) Alternativy Metoda maximální věrohodnosti Nutné silné předpoklady o rozložení náhodných chyb, ale dobré statistické vlastnosti Může být relativně složitá Více u TCM Robustní metody Např. nejmenší absolutní chyba (LAD) Robustní vůči odlehlým pozorováním Složitější výpočty, statistické vlastnosti nejsou mnohdy dobře probádány

Regresní analýza (\4) Typický výstup - interpretace Regresní statistika Násobné R 0,99393323 Pozorování 79 ANOVA Rozdíl SS MS F Významnost F Regrese 5 308,6889097 61,73778 1208,67022 0,0000 Rezidua 74 3,779853084 0,051079 Celkem 79 312,4687628 Koeficienty t stat Hodnota P Dolní 95% Horní 95% Pohlaví -0,0208124-0,405215529 0,686488-0,1231522 0,081527354 Vzdělání 0,03931011 1,611797899 0,111263-0,009286 0,087906211 Příjem 0,0000597 26,53850595 0,0000 0,00000546 0,00000635 Věk 0,00420947 3,066970111 0,003019 0,00147467 0,006944277 Choroby -0,0541953-1,060692334 0,292279-0,1560029 0,047612252

Regresní analýza (\5) Problémy s regresní analýzou Nezávislost náhodné složky ε na vysvětlujících proměnných X Pokud porušeno, pak jsou odhady vychýlené To se může stát typicky pokud není v modelu proměnná, jež tam má být Např. příjem může tahat vliv vzdělání Výběr modelu a výběr proměnných Hodně složité věci

Aplikace na TCM (\1a) V této přednášce se zaměříme na single-site modely Obecný model r = f(p r, p s, y, X) r Počet cest p r cena cesty, p s cena subsitutů y důchod X ostatní relevantní charakteristiky

Aplikace na TCM (\1b) Problémy s měřením ceny cest Náklady cesty (např. pohonné hmoty) Cena vybavení Závisí na účelu cesty Vstupné V některých případech může být těžko pozorovatelné Ceteris paribus představuje vhodný experiment Cena času Velice obtížné, ušlá mzda je ne vždy vhodná pomocná proměnná

Aplikace na TCM (\2) Odhad spotřebitelského přebytku CS = p f(p r, p s, y, X)dp r Nejčastější problémy On-site sampling Vychýlený soubor Nejsou ti, co tam necestují + větší pravděpodobnost pro návštěvníky, co cestují více Off-site sampling Nákladné, nicméně občas se to děje Hausman, Leonard, McFadden (1995) J Pub Econ

Aplikace na TCM (\3) Off-site sampling Ještě významnější problém správné funkcionální specifikace problému ANOVA je dost nevhodná Možné přístupy Lineární regrese Pozor není možné logaritmovat závislou proměnou! Metoda maximální věrohodnosti

Aplikace na TCM (\4) Metoda maximální věrohodnosti Pr( R = i) = π i (p c, p s, y, X) i = 0,1,2, Statistické restrikce π i (p c, p s, y, X) 0 Σ i π i =1 Možná formulace π i (p c, p s, y, X) = exp{b 1i *p c + b 2i *p s + b 3i *y + }/M

Aplikace na TCM (\5) Metoda maximální věrohodnosti Odhad = argmax Σ jj log Pr(R j =i)i (Rj=i) Nutnost využít optimalizačních postupů Lze to udělat v spreadsheetu, ale lépe je použít jiných programů Protože např. odhad směrodatných chyb odhadů je složitý Problémy s přístupem naznačeným výše Mnoho parametrů Interpretace Problémy s odhady

Aplikace na TCM (\6) Redukce parametrů Poissonův model Počet návštěv má Poissonovo rozložení Pr(R j =i) = exp{-λ j }*λ ji / i! λ j = exp{b 1 *p cj + b 2 *p sj + b 3 *y j + b 4 *X j } Spotřebitelský přebytek CS j = λ j /(-b 1 )

Aplikace na TCM (\7) Obvyklé regresory X Velikost rodiny Věk, pohlaví, vzdělání Bydliště (venkov, město) Povolání Členství v klubech, vlastnictví vybavení, zkušenost s aktivitou

Aplikace na TCM (\7) Možné problémy s Poissonovým modelem 1. Příliš mnoho nul 2. Příliš velká variace 1) může znehodnotit statistickou analýzu (nekonzistentní odhady) 2) vychýlení v odhadu chyb

Aplikace na TCM (\8) Alternativy k Poissonovu modelu Explicitní modelování návštěvy Pr(R j =0) = exp{-µ j } Pr(R j =i) = (1-exp{-µ j } )* exp{-λ j }*λ ji / i!/(1-exp{-λ j }) pro i > 0 Složitější modely Negativně-binomické rozložení Neparametrické / semiparametrické modely

Aplikace na TCM (\9) On-site sampling Je nezbytná korekce počtu návštěv Příklad: Poissonův model Pr(R j =i i>0) = exp{-λ j }*λ j i -1 / (i-1)! λ j = exp{b 1 *p cj + b 2 *p sj + b 3 *y j + b 4 *X j } Odhad spotřebitelského přebytku je nezměněn

Aplikace na TCM (\10) Odhad CS Off-site sampling CS j = λ j /(-b 1 ) AS =(POP off /N)*Σ j CS j On-site sampling M = Σ j (n j /r j ) AS = (POP on /M)* Σ j (CS j /r j ) Pozor: jedná se o náhodné veličiny!!