Vzdálenost k nejbližší benzinové čerpací stanici χ 2 -test dobré shody



Podobné dokumenty
Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

You created this PDF from an application that is not licensed to print to novapdf printer (

4ST201 STATISTIKA CVIČENÍ Č. 7

= = 2368

Cvi ení 7. Docházka a testík - 15 min. Distfun 10 min. Úloha 1

Normální (Gaussovo) rozdělení

12. cvičení z PST. 20. prosince 2017

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Normální (Gaussovo) rozdělení

PRAVDĚPODOBNOST A STATISTIKA

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Stručný úvod do testování statistických hypotéz

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Semestrální práce z předmětu Matematika 6F

Testování statistických hypotéz

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testování hypotéz. 4. přednáška

Testování statistických hypotéz

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

y = 0, ,19716x.

Testy. Pavel Provinský. 19. listopadu 2013

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Semestrální práce z předmětu Pravděpodobnost, statistika a teorie informace

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a aplikovaná statistika

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

Tomáš Karel LS 2012/2013

15. T e s t o v á n í h y p o t é z

Testování statistických hypotéz

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Návrh a vyhodnocení experimentu

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Porovnání dvou výběrů

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Lineární regrese. Komentované řešení pomocí MS Excel

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

15. T e s t o v á n í h y p o t é z

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

1. (18 bod ) Náhodná veli ina X je po et rub p i 400 nezávislých hodech mincí. a) Pomocí ƒeby²evovy nerovnosti odhadn te pravd podobnost

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

prosince oboustranný symetrický 95% interval spolehlivosti pro střední hodnotu životnosti τ. X i. X = 1 n.. Podle CLV má veličina

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Ing. Michael Rost, Ph.D.

Cvičení ze statistiky - 8. Filip Děchtěrenko

2 ) 4, Φ 1 (1 0,005)

Testy statistických hypotéz

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

ÚSTAV MATEMATIKY A DESKRIPTIVNÍ GEOMETRIE. Matematika 0A4. Cvičení, letní semestr DOMÁCÍ ÚLOHY. Jan Šafařík

4EK211 Základy ekonometrie

Testování hypotéz Biolog Statistik: Matematik: Informatik:

Odhad parametrů N(µ, σ 2 )

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Pravděpodobnost a matematická statistika

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

Přednáška X. Testování hypotéz o kvantitativních proměnných

Testování hypotéz o parametrech regresního modelu

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Národníinformačnístředisko pro podporu jakosti

12. prosince n pro n = n = 30 = S X

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování hypotéz o parametrech regresního modelu

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Jednofaktorová analýza rozptylu

5. T e s t o v á n í h y p o t é z

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

STATISTICKÉ HYPOTÉZY

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

χ 2 testy. Test nekorelovanosti.

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Zápočtová práce STATISTIKA I

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Náhodné veličiny, náhodné chyby

Testování statistických hypotéz. Obecný postup

Chyby měření 210DPSM

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Cvičení ze statistiky - 9. Filip Děchtěrenko

Tomáš Karel LS 2012/2013

STATISTICKÉ TESTY VÝZNAMNOSTI

STATISTICKÉ TESTY VÝZNAMNOSTI

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Transkript:

České vysoké učení technické v Praze Fakulta elektrotechnická Katedra matematiky Semestrální práce z předmětu X01MVT Matematika pro výpočetní techniku Vzdálenost k nejbližší benzinové čerpací stanici χ 2 -test dobré shody Jan Skalický leden 2008

Obsah 1. Zadání...3 2. Získání dat...3 2.1 Sběr a vyčiště ní dat...4 2.2 Stručné charakteristiky dat...4 3. Testovaná hypotéza...5 4. Test dobré shody rozdě lení...5 4.1 Realizace testu...6 4.2 Test na normální rozdě lení...6 5. Rezerva paliva......7 6. Závě r...7 7. Zdroje......7 Seznam tabulek Tabulka 2.1: Histogram zastoupení navštívených firem...4 Tabulka 4.1: Hodnoty testu...6 Tabulka 4.2: Hodnoty testu pro jinou diskretizaci...6 Tabulka 4.3: Hodnoty testu původních dat na normální rozdě lení...7 Seznam obrázků Obrázek 2.1: filtrace pro 500 bodů...3 Obrázek 2.2: filtrace pro 1000 bodů...3 Obrázek 2.3: filtrace pro 2000 bodů...3 Obrázek 2.4: filtrace pro 20000 bodů...3 2

1. Zadání Otestujte hypotézu, že nejkratší vzdálenost po silnici z náhodn ě zvoleného bodu v ČR k nejbližší benzinové čerpací stanici má logaritmicko-normální rozdě lení. Stanovte jaký minimální dojezdový rádius by si měl ř idič nechávat jako rezervu, aby mu i při neznalosti místních poměr ů zůstala statistická pravděpodobnost alespo ň 90 % na dojetí k čerpadlu pro doplnění paliva. Předpokladem je, že řidič se po mapě pohybuje rovnoměrn ě. 2. Získání dat Bylo třeba získat data s délkou trasy z náhodn ě zvoleného bodu na silniční síti ČR k nejbližší čerpací stanici. Za tímto účelen byl vytvořen program, který po př edložení obrázku s šablonou mapy území filtruje vstup geografických souř adnic na body ležící uvnit ř obrysu. Program provádí lineární korekci souř adnic na sférickém povrchu. Vzhledem k tomu a k rozlišení použitého obrázku mapy (1921*1102 pix) jsme obdrželi přesnost rozhodnutí o hranici lepší než cca 1.5 km, což pln ě postačuje našemu účelu. Pomocí generátoru v linuxovém souboru /dev/random byly vygenerovány náhodné souřadnice bod ů z obdélníka opsaného obrysu mapy ČR a ty následn ě filtrovány výše zmíněným programem (pro velký počet je to cca 57.7 % bod ů z použitého intervalu o rozmě rech cca 484*279 km, tozn. pokud bychom takto metodou Monte Carlo integrovali plochu ČR, obdrželi bychom výsledek cca 77.9 tis. km 2 ). Vizualizaci výsledk ů této filtrace ukazují obrázky 2.1 až 2.4. Obrázek 2.1: filtrace pro 500 bodů Obrázek 2.2: filtrace pro 1000 bodů Obrázek 2.3: filtrace pro 2000 bodů Obrázek 2.4: filtrace pro 20000 bodů 3

2.1 Sběr a vyčištění dat Pro sběr vzdáleností byl použit soubor 2000 bod ů, z nichž 1145 leželo uvnit ř ČR. Vlastní vzdálenosti byly získány z veřejného navigačního portálu na www.mapy.cz. Plánovač trasy mě l nastaven atribut použití nejkratší cesty a klíčem k vyhledání cílových bod ů byl řetě zec benzinová čerpací stanice. V některých př ípadech byly nalezeny kombinované stanice LPG. Ačkoliv bylo snahou proces sbě ru co nejvíce automatizovat, bylo nutné provést manuální vyčiště ní datového souboru, a sice korekce nepřesn ě nalezených cest v důsledku velké vzdálenosti počátk ů k nejbližšímu bodu na silnici (nejbližší čerpací stanice se vybírá podle přímé vzdálenosti) v důsledku jednosměrnosti dálnic a granularity jejich křížení s jinými cestami vyřazení počátk ů na území vojenských újezdů 2.2 Stručné charakteristiky dat Získaná a vyčištěná data obsahují vzdálenosti od 0.1 km do 33.8 km. Po vyř azení počátk ů ve vojenských újezdech jsou největší vzdálenosti způ sobeny počátky v horách (zejm. Beskydy, Orlické hory) a nap ř. za př ehradou Lipno, kterou je nutno celou objet. Vzdáleností přesahujících 20 km je celkem 14. Z 1145 návštěv bylo 661 stanic rů zných a 384 z nich bylo navštíveno pouze jednou. 21 stanic bylo navštívenou více než 4x, z toho 2 nejvíckrát navštívené byly 9x a 8x. Histogram zastoupení jednotlivých firem provozujících veř ejné čerpací stanice je v tabulce 2.1. Název firmy Benzina, s.r.o. 224 Čepro, a.s. 214 PAP Oil čerpací stanice, s.r.o. 91 Shell Czech Republic, a.s. 64 Robin Oil, s.r.o. 60 OMV Česká republika, s.r.o. 54 Agip Česká republika, s.r.o. 25 KM - PRONA, a.s. 21 Hunsgas, s.r.o. 16 Svam CS, s.r.o. 14 Inteko Konice, a.s. 13 Počet návštěv ostatní (179 subjek ů, mén ě než 10 návštev) 349 (z toho 105 subjekt ů práv ě 1x) Tabulka 2.1: Histogram zastoupení navštívených firem Podle zběžného porovnání histogramu z tab. 2.1 se zprávou o síti čerpacích stanic PHM v ČR za 1. pololetí 2007, obsahující výsledky statistického zjišť ování odboru surovinové a energetické politiky ministerstva prů myslu a obchodu, se zdá, že sesbíraná data jsou v souladu se skutečností. 4

3. Testovaná hypotéza Nulovou hypotézu, kterou chceme testovat formulujeme takto: Nasbíraná data mají logaritmicko-normální rozdělení. Alternativní hypotéza toto rozdělení popírá. Požadujeme test s hladinou významnosti 0.01. To je max. pravdě podobnost chyby 1. druhu toho, že hypotézu neoprávněn ě zamítneme, ačkoliv bude platit. 4. Test dobré shody rozdělení O neplatnosti testované hypotézy se pokusíme rozhodnout provedením χ 2 -testu dobré shody. Testujeme na logaritmicko-normální rozdě lení, které odpovídá zobrazení náhodné veličiny s normálním rozdě lením exponenciální funkcí. Parametry normálního rozdělení můžeme jednoduše odhadnout z realizace výbě ru, a proto budeme testovat logaritmus původních dat na normální rozdě lení. Za účelem snadné modifikovatelnosti a získání přesných výsledk ů byl celý test naprogramován v matematickém systému Maple 9.5 Z dat (n = 1145), již zlogaritmovaných (základ logaritmu není podstatný, protože má pouze vliv multiplikativní konstanty na rozptyl výsledného rozdě lení a byl použit 10 10, takže nová data dostala význam dbkm), spočítáme výběrový průmě r a výběrový rozptyl pro odhad parametr ů odpovídajícího normálního rozdělení: n = x = 1 x n i =7.4889 i =1 n 2 =s 2 x = 1 x n 1 i x 2 =12.385 i =1 = 2 =3.5192 Test pracuje s diskrétními hodnotami, a tak rozdělíme data do disjunktních tř íd s blízkými významy. Všechny teoretické četnosti musí být velké a nejlépe podobné. Ke zvoleným intervalům <a, b) spočítáme teoretické pravdě podobnosti pro testované rozdělení z jeho distribuční funkce a jim odpovídající očekávané četnosti: p i =F N, 2 b F N, 2 a np i =p i n Testovacím kritériem je statistika T: k T = i=1 k n t i = i np i 2 i =1 np i a testujeme ji proti zvolenému (1 0.01) kvantilu χ 2 rozdě lení s tolika stupni volnosti, kolik je interval ů diskretizace 1 (poslední je doplň kem do celku) 2 (2 neznámé parametry rozdělení jsme odhadovali s použitím stejného souboru dat). q k 1 2 0.99 =16.812 pro k =9; 9.210 pro k =5; 13.277 pro k =7 Aktuáln ě dosažený koeficient spolehlivosti testu lze vyjádřit jako: F k 1 2 T 5

4.1 Realizace testu Tabulka 4.1 obsahuje hodnoty testu pro zvolenou diskretizaci dat. Vidíme, že hodnota kritéria je větší než zvolený kvantil (44.588 > 16.812), a proto mů žeme na zvolené hladin ě významnosti 0.01 zamítnout nulovou hypotézu a př ijmout hypotézu alternativní. Po naprogramování testu, včetn ě dělení do interval ů, nám nečiní potíže vyzkoušet i jinou diskretizaci dat, s důrazem na podobnost teoretických četností, viz tabulku 4.2. Zde rovněž zamítáme (pro 43.646 > 9.210). i Interval [dbkm] n i p i np i t i 1 (-..3) 109 0.1010614636 115.7153758 0.3897171990 2 <3..5) 112 0.1386536014 158.7583736 13.77152872 3 <5..6) 91 0.0964085430 110.3877817 3.405142067 4 <6..7) 132 0.1086361253 124.3883635 0.4657751624 5 <7..8) 125 0.1129800837 129.3621958 0.1470967007 6 <8..9) 147 0.1084422370 124.1663614 4.199004028 7 <9..10) 144 0.0960647192 109.9941035 10.05471846 8 <10..11) 120 0.0785412865 89.92977304 10.05471846 9 <11..+ ) 165 0.1592119403 182.2976716 1.641323447 9 1145 1.0 1145 44.58760569 Tabulka 4.1: Hodnoty testu i Interval [dbkm] n i p i np i t i 1 (-..4.5) 192 0.1978582449 226.5476904 5.268395850 2 <4.5..6.6) 199 0.2024405794 231.7944634 4.639786534 3 <6.6..8.4) 225 0.2018460258 231.1136995 0.1617269840 4 <8.4..10.5) 318 0.2017525921 231.0067180 32.76022091 5 <10.5..+ ) 211 0.1961025578 224.5374287 0.8161756232 5 1145 1.0 1145 43.64630590 Tabulka 4.2: Hodnoty testu pro jinou diskretizaci Z obou výsledk ů je patrné, že rozdě lení se liší zejm. v oblasti nedaleko za odhadnutou stř ední hodnotou, a to tak, že hustota klesá rychleji, než podle logaritmicko-normálního rozdělení. Můžeme tedy vyzkoušet ješt ě test proti normálnímu rozdělení (tozn. pů vodní data nebudeme logaritmovat a bude nutné přepočítat odhady parametr ů rozdě lení EX=7.2358 a DX=21.708) v domně ní, že záporné výsledky, které data neobsahují, budou mít nízký vliv na příspě vek do testované statistiky. Takovou situaci, pro 7 interval ů dělení zachycuje tabulka 4.3. 4.2 Test na normální rozdělení V testu shody původních dat na normální rozdělení vidíme opačný trend př ebytek dat pod střední hodnotou a jejich nedostatek v jisté vzdálenosti nad ní. Celkově 6

zamítáme (porovnávaný kvantil je 13.277), ale k výraznému zhoršení oproti předchozím testům nedošlo. Toto pozorování m ě vede k podezř ení, že naše data mají rozdělení blízké nějaké směsi normálního a logaritmicko-normálního rozdě lení. Takové rozdělení by mělo 5 stup ňů volnosti a tudíž by bylo vhodné ho testovat při vě tším počtu interval ů dělení. i Interval [dbkm] n i p i np i t i 1 (-..2.3) 144 0.1447176118 165.7016655 2.842230246 2 <2.3..4.6) 247 0.1410752921 161.5312095 45.22292734 3 <4.6..6.4) 178 0.1430237912 163.7622409 1.237854240 4 <6.4..8.1) 153 0.1447568750 165.7466219 0.9802695707 5 <8.1..9.9) 133 0.1427009426 163.3925793 5.653309841 6 <9.9..12.2) 116 0.1403900974 160.7466615 12.45602053 7 <12.2..+ ) 174 0.1433353899 164.1190214 0.5948959314 7 1145 1.0 1145 68.98750770 Tabulka 4.3: Hodnoty testu původních dat na normální rozdělení 5. Rezerva paliva Pro stanovení minimálního dojezdu jako rezervy, aby řidiči zů stala statistická pravděpodobnost alespo ň 90 % na dojetí k benzinovému čerpadlu, potř ebujeme znát rozdělení použité náhodné veličiny. My jsme však ověřovaná rozdě lení zamítli, takže musíme vystačit s empirickým rozdělením z realizace výbě ru. Jeho 0.9-kvantil nám odpovídá hodnotou 13.7 km. Pro zajímavost můžeme zkusit vyčíslit tento kvantil i z ověřovaných rozdě lení. Pro normální rozdělení se zjištěnými parametry činí cca 13.2 km. Pro pů vodní logaritmicko-normální je to 12 dbkm a pro obdržení vzdálenosti musíme provést zpětnou transformaci delogaritmováním a vyjde cca 15.8 km. Je zde opět vidě t stejný trend jako v příspě vcích k testovací statistice a i tato statistika nám napovídá, že lépe odpovídající rozdělení bude někde mezi těmito dvěma. Praktická rada je tedy rezervovat si palivo na dojezd cca 15 km k dosažení více než 90 % pravděpodobnosti, že budeme schopni ho kdekoliv doplnit. 6. Závěr Hypotéza, že nejkratší vzdálenost po silnici z náhodn ě zvoleného bodu v ČR k nejbližší benzinové čerpací stanici má logaritmicko-normální rozdě lení, byla na hladin ě významnosti < 1 % zamítnuta. Rovněž normální rozdě lení této veličiny bylo s touto hladinou zamítnuto. Je zde domněnka, že rozdělení by lépe odpovídalo smě si těchto 2. Byla vyslovena praktická rada, nechávat si rezervu paliva na dojetí 15 km. 7. Zdroje [1] Webová stránka podpory výuky: http://cmp.felk.cvut.cz/~navara/mvt/ [2] Mirko Navara Matematika pro výpočetní techniku (přednášky předmětu) [3] Vladimír Rogalewicz Pravděpodobnost a statistika pro inženýry, 2000 7