ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ STATISTIKA. Semestrální práce

Podobné dokumenty
5 Parametrické testy hypotéz

Semestrální práce z předmětu Statistika

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Testování statistických hypotéz

Ing. Michael Rost, Ph.D.

Testy. Pavel Provinský. 19. listopadu 2013

Aproximace binomického rozdělení normálním

Testování statistických hypotéz

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz. 4. přednáška

Testování statistických hypotéz. Obecný postup

PRAVDĚPODOBNOST A STATISTIKA

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Cvičení ze statistiky - 8. Filip Děchtěrenko

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Pravděpodobnost a matematická statistika

= = 2368

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a aplikovaná statistika

12. cvičení z PST. 20. prosince 2017

You created this PDF from an application that is not licensed to print to novapdf printer (

TECHNICKÁ UNIVERZITA V LIBERCI

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Náhodné veličiny, náhodné chyby

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení

Testování statistických hypotéz

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Návrh a vyhodnocení experimentu

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Jednostranné intervaly spolehlivosti

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

4ST201 STATISTIKA CVIČENÍ Č. 7

3 Bodové odhady a jejich vlastnosti

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Neparametrické metody

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Testy statistických hypotéz

15. T e s t o v á n í h y p o t é z

Tomáš Karel LS 2012/2013

Charakteristika datového souboru

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

prosince oboustranný symetrický 95% interval spolehlivosti pro střední hodnotu životnosti τ. X i. X = 1 n.. Podle CLV má veličina

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Jednofaktorová analýza rozptylu

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Odhad parametrů N(µ, σ 2 )

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

STATISTICKÉ HYPOTÉZY

Stručný úvod do testování statistických hypotéz

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Jednofaktorová analýza rozptylu

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

na za átku se denuje náhodná veli ina

Testování hypotéz Biolog Statistik: Matematik: Informatik:

Zápočtová práce STATISTIKA I

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Testování hypotéz. December 10, 2008

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ FAKULTA DOPRAVNÍ

Intervalové Odhady Parametrů

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

INFLUENCE OF SPEED RADAR SIGN ON VELOCITY CHANGE IN THE SELECTED LOCATION

y = 0, ,19716x.

Semestrální práce z předmětu Pravděpodobnost, statistika a teorie informace

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

KGG/STG Statistika pro geografy

5. T e s t o v á n í h y p o t é z

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

Technická univerzita v Liberci

1. Přednáška. Ing. Miroslav Šulai, MBA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

STATISTICKÉ TESTY VÝZNAMNOSTI

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTICKÉ ODHADY Odhady populačních charakteristik

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Regresní analýza 1. Regresní analýza

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Transkript:

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ STATISTIKA Semestrální práce Lukáš Sůva, Jakub Culek (2 31) 20/2013

Ú vod Předmětem naší semestrální práce jsme si zvolili průzkum překračování povolené rychlosti motorových vozidel v obci Lomnice nad Popelkou. Cílem zkoumání byl počet motoristů, který nedodržel předepsanou rychlost a v jakém rozmezí se pohybují průměrné rychlosti projíždějících vozidel. Podmí nky mě ř ění Místem měření jsme si určili okrajovou část města Lomnice Popelkou na příjezdové silnici II. třídy č. 286 z Jičína ve směru do centra (Jičínská ulice). Jedná se o nejvýznamnější průtah tímto malým městem s 6000 obyvateli. Hodnoty byly zaznamenávány během dvou měření. První jsme provedli v pátek 23. listopadu po dobu tří hodin 13-16 hod. a druhé v pátek 7. prosince od 14-15 hod. K jejich získání bylo využito v tomto místě nacházejícího se statického informativního radaru. Protože se však při projíždění vozidla hodnota na displeji radaru několikrát zaktualizuje, zaznamenávali jsme hodnotu zobrazenou zhruba při patnáctimetrové vzdálenosti vozidla od radaru.

Těořiě Bodové odhady Metoda maximální věrohodnosti označuje jednu z centrálních metod matematické statistiky. Úlohou matematické statistiky je, zjednodušeně řečeno, odhad neznámých veličin v závislosti na pozorovaných (experimentálních) datech. Metoda maximální věrohodnosti je univerzální metoda pro konstrukci odhadů parametrů. V tomto případě se bude jednat o alternativní rozdělení, které lze napsat ve tvaru: Z toho odvození věrohodnostní funkce L: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) Úkolem je odhadnout hodnotu parametru p a to tak, že věrohodnostní funkci L zderivujeme a položíme rovnu 0. Výsledkem bude parametr p, který odpovídá hodnotě pravděpodobnosti, a po vynásobení 100 získáme hodnotu v %. Intervalové odhady Metoda maximální věrohodnosti označuje jednu z centrálních metod matematické statistiky. Úlohou matematické statistiky je, zjednodušeně řečeno, odhad neznámých veličin v závislosti na pozorovaných (experimentálních) datech. Metoda maximální věrohodnosti je univerzální metoda pro konstrukci odhadů parametrů. V tomto případě se bude jednat o alternativní rozdělení, které lze napsat ve tvaru: Z toho odvození věrohodnostní funkce L: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) Úkolem je odhadnout hodnotu parametru p a to tak, že věrohodnostní funkci L zderivujeme a položíme rovnu 0. Výsledkem bude parametr p, který odpovídá hodnotě pravděpodobnosti, a po vynásobení 100 získáme hodnotu v %.

Počet vozidel v rozmezí rychlostí Počet vozidel v rozmezí rychlostí Testy hypotézy Na základě výběru srovnáváme dvě tvrzení o hodnotě určitého parametru θ rozdělení f (x, θ). První tvrzení (které většinou obsahuje stávající stav věcí) se nazývá nulová hypotéza a značí se H 0, druhé tvrzení (které většinou prosazuje, že se věci změnily) je alternativní hypotéza označená H A. Nulová hypotéza něco tvrdí, např. že střední hodnota µ je rovna µ 0 a alternativní hypotéza ji odporuje. Tvrzení testujeme na základě testové statistiky, kterou je statistika pro bodový odhad podle H 0. Pro parametrické testy lze podstatu testování vyložit v souvislosti s IS následujícím způsobem (pro jednoduchost budeme uvažovat test pro střední hodnotu a se známým rozptylem souboru). Nulová hypotéza říká, že µ=µ 0. Jestliže je tato hypotéza pravdivá a kolem bodu µ 0 sestrojíme α IS, tam by také s pravděpodobností 1-α měl padnout bodový odhad, pořízený z výběru. Pokud tam padne, hypotézu H 0 nezamítáme řekneme, že data neprokázala její neplatnost. Pokud bodový odhad padne mimo IS, hypotézu H 0 zamítneme. Jediný (formální) rozdíl testů intervalů je v tom, že při intervalu používáme nenormovaný tvar statistiky, např. pro středí hodnotu se známým rozptylem je to výběrový průměr Y, zatímco pro test použijeme normovaný výběrový průměr z =( ) Jeho realizaci označíme z r. Namě ř ěna data Skupiny rychlostí [km/h] Počet vozidel Listopad (3h) Prosinec (1h) 20-30 9 7 30-40 6 40-45 24 45-50 51 20 50-55 29 11 55-60 25 9 60-70 46 13 70-80 32 8 80-90 3 90-100 2 1 <=50 96+45=141 >50 146+45=191 50 40 30 20 10 0 20 18 16 14 10 8 6 4 2 0 9 7 6 24 51 46 29 25 Skupiny rychlostí [km/h] 20 13 11 9 Listopad (3h) 32 8 Prosinec (1h) 3 2 1 Skupiny rychlostí [km/h]

Zpřacova ní K výpočtům jsme využili software MatLab. Bodový odhad parametru p pro dodržení nebo naopak nedodržení rychlosti >> x = [0 1] %0.. dodržení rychlosti 1..překročení 50 x = 0 1 >> c = [141 191] %četnost c = 141 191 >> syms p n sx >> L = p^sx*(1-p)^(n-sx) % věrohodnostní funkce L = p^sx*(1 - p)^(n - sx) >> Lp = diff (L,p) % derivace funkce Lp = p^(sx - 1)*sx*(1 - p)^(n - sx) - p^sx*(n - sx)*(1 - p)^(n - sx - 1) >> solve (Lp,p) % porovnání derivace funkce s 0 ans = 1 0 sx/n >> odhad1 = (c*x')/sum(c) % pravděpodobnost překročení rychlosti odhad1 = 0.6033 >> odhad0 = 1-odhad1 % pravděpodobnost dodržení rychlosti odhad0 = 0.3967

Intervalový odhad rychlosti Z naměřených dat jsme usoudili, že se jedná o studentovo rozdělení. Hladinu významnosti jsme zvolili α=5%. Rozptyl je neznámý. >> x=[25 25 25 35 35 35 42.5 42.5 42.5 47.5 47.5 47.5 52.5 52.5 52.5 57.5 57.5 57.5 65 65 65 75 75 75 85 85 85 95 95 95] % naměřená data >> n=length(x) % počet vozidel n = 301 >> prumer=sum(x)/length(x) % průměr hodnot prumer = 55.6561 >> s=sqrt(1/(n-1)*sum((x-prumer).^2)) % směrodatná odchylka výběru s = 15.5753 >> t2=t_inv(1-0.025,n-1) t2 = 1.9679 >> odhad_mi_rychlost=[prumer-t2*s/sqrt(n),prumer+t2*s/sqrt(n)] % výpočet intervalu stř. hod. µ odhad_mi_rychlost = 53.8895 57.4228 Testy hypotézy Rozhodli jsme se otestovat hypotézu, že předepsaná rychlost 50km/h, (ne)bude zpravidla dodržována v obou měsících stejně. K ověření použijeme dva intervalové odhady, jeden pro zjištění průměrné rychlosti vozidel v listopadu a druhý v prosinci. >> x=[25 25 25 35 35 35 42.5 42.5 42.5 47.5 47.5 47.5 52.5 52.5 52.5 57.5 57.5 57.5 65 65 65 75 75 75 85 85 85 95 ] LISTOPAD PROSINEC >> n=length(x) n = n = 242 90 >> prumer=sum(x)/length(x) prumer = prumer= 56.3946 52.6111 >> s2= 1/(n-1)*sum((x-prumer).^2)) s2= s2= 210.7285 225.9707

>> mi0=50 mi0 = mi0 = 50 50 >> t_r=(prumer-mi0)/sqrt(s2/n) t_r = t_r = 6.8527 1.6479 >> t2=t_inv(1-0.025,n-1) t2 = t2 = 1.9699 1.9870 >> obor_prijeti=[-t2,t2] obor_prijeti = obor_prijeti = -1.9699 1.9699-1.9870 1.9870 >> odhad=[prumer-t2*sqrt(s2/n),prumer+t2* sqrt(s2/n)] odhad = odhad = 54.5564 58.2328 49.4627 55.7596 V jednom z případů (listopad) není µ 0 prvkem intervalového odhadu, a proto hypotézu zamítáme. Za vě ř V semestrální práci jsme pracovali v programu MatLab, díky kterému jsme po zpracování naměřených dat došli k zajímavým zjištěním. Při bodovém odhadu jsme zjistili, že k porušování předepsané rychlosti dochází v 60,33% a pouze 39,97% motoristů ji dodrží. Otázkou nyní je, zdali by pověřené orgány neměly přistoupit k radikálnějšímu řešení problematiky překračování rychlosti v obci. Intervalový odhad podpořil výsledek bodového odhadu. Průměrná rychlost, kterou motoristé v daném místě projíždění, se pohybuje přibližně v intervalu 54-57 km/h v kterém není obsažena maximální povolená. Při testu hypotéz jsme dospěli k nejspíš nejzajímavějšímu zjištění. Předpokládali jsme, že pokud rychlost není dodržována v jednom ze dvou měření, nebude dodržována ani jindy. Při druhém prosincovém měření se však hodnota µ 0 (50km/h) vešla do intervalového odhadu. Možných vysvětlení se nabízí několik. Možností je vyšší opatrnost řidičů způsobená přicházejícím zimním obdobím a nízké teplotě. Dalším vysvětlením může být všeobecná nepřesnost způsobu měření ovlivněná například času zaznamenávání. Použité zdroje www.wikipedia.cz 60,33 % NAGY I., KRATOCHVÍLOVÁ J., Matematická statistika texty k přednáškám 39,67 %