ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ Jiří Volf, Adam Kratochvíl, Kateřina Žáková 2 34 Statistika Semestrální práce - 0 -
1. Úvod Popis úlohy: V této práci se jedná se o porovnání statistických dat od ŘSD s naším průzkumem. Data se vztahují k počtu vozidel (osobních a autobusových) na cestě z Prahy do Brna po dálnici D1. Náš průzkum byl založen na dotazníku, kde jsme se ptali na 2 otázky týkající se tématu. První otázka byla, zda lidé preferují cestování autobusem nebo osobním vozidlem. Druhou otázku jsme zaměřili na finance cestujících. Pro porovnávání jsme zvolili 2 metody. A to metodu Test dobré shody a metodu Test nezávislosti. 2. Data Řádná cesta, podle pravidel silničního provozu, z Prahy do Brna po dálnici D1 trvá: - Osobní vozidla: 2 hodiny - Autobusy: 2,5 hodiny Statistická data: průměrný počet osobních vozidel z Prahy do Brna ve všední den po D1 13737 (dle ŘSD 2010) počet autobusů, který jede z Prahy přímou linkou do Brna (bez ohledu na to, odkud přijel nebo kam pokračuje), v běžný pracovní den a to úterý 83 (dle serveru idos.cz) průměrná obsazenost osobních vozidel v ČR 1,9 osob/voz. průměrná obsazenost autobusů v ČR 36 osob/voz. Vypočtené hodnoty z dat od ŘSD pro lepší porovnávání s daty z průzkumu: Počet cestujících v autobuse: 2 988 osob/den (10,3 %) Počet cestujících v osobním vozidle: 26 100 osob/den (89,7 %) Celkový počet cestujících: 29 088 Data z průzkumu: celkový počet respondentů: 282 1) Jaký dopravní prostředek preferujete na cestě z Prahy do Brna po dálnici D1? respondenti preferující autobus: 168 (59,6 %) respondenti preferující automobil: 114 (40,4 %) 2) Jaký je váš měsíční příjem (v Kč)? respondenti preferující autobus: 168 příjem 10 000 Kč: 106 (63,1 %) příjem 10 000 Kč: 62 (36,9 %) respondenti preferující automobil: 114 příjem 10 000 Kč : 44 (38,6 %) příjem 10 000 Kč: 70 (61,4 %) - 1 -
3) Teorie 3.1 Test dobré shody Je to metoda matematické statistiky, která umožňuje ověřit, zda má náhodná veličina určité předem dané rozdělení pravděpodobnosti. 1. Obor všech možných hodnot náhodné veličiny se rozdělí na k nepřekrývajících se částí. 2. Pro každou část se stanoví pravděpodobnost, že náhodná veličina nabyde hodnoty z i-té části. 3. Provede se N pokusů a zjistí se, kolikrát z těchto pokusů nabyla náhodná veličina hodnoty z 1., 2., k-té části. Tyto četnosti se označí. 4. Porovnají se očekávané četnosti v jednotlivých částech ( ) se skutečnými četnostmi ( ) pomocí vzorce: Pokud má testovaná náhodná veličina předpokládané rozdělení, má náhodná veličina přibližně rozdělení chí kvadrát. Jestliže bylo rozdělení dáno včetně všech parametrů, je počet stupňů volnosti k-1; jestliže byl některý parametr rozdělení neznámý, snižuje se počet stupňů volnosti za každý neznámý parametr (bylo jej nutno nejprve z dat odhadnout a pak teprve stanovit pravděpodobnosti ). Hodnotu veličiny porovnáme s kritickou hodnotou příslušného rozdělení chí kvadrát na požadované hladině významnosti. Test lze použít za předpokladu, že všechny hodnoty jsou aspoň 5. - 2 -
3.2 Test nezávislosti Používá kontingenční tabulku absolutních četností dvou náhodných veličin, jejichž nezávislost testujeme. Podle definice nezávislosti f(x,y) = f(x)f(y) určuje tabulku teoretických (nezávislých) četností takto: - Tabulku normalizuje na pravděpodobnosti (dělením prvků celkovým součtem prvků), - Určí marginální četnosti (součty) v sloupcích i řádcích, - Vypočte tabulku nezávislých pravděpodobností (prvek (i, j) je součinem i-té sloupcové a j-té řádkové marginály), - Tabulku re-normalizuje na absolutní četnosti (násobením všech prvků celkovým součtem původních prvků). Test je pravostranný a má (n x - 1)(n y - 1) stupňů volnosti. ( ) (1) Pomocí statistiky (1) se porovnává původní tabulka s tabulkou absolutních četností nezávislých veličin. Statistiku počítáme pro všechny prvky tabulek (srovnáváme obě tabulky do vektorů.) Nulová hypotéza je H 0 je jsou nezávislé. Test je vždy pravostranný a kritickým oborem ( ) a p-hodnotou ( ) P-hodnota (pro pravostranný test) je pravděpodobnost, hodnot statistiky větších než je realizována statistika, za předpokladu platnosti nulové hypotézy. H 0 zamítneme, je-li P-hodnota α a hladinu významnosti si zvolíme α = 0,05. - 3 -
4) Zpracování Výpočty byly provedeny za pomoci programu Matlab. 4.1 Test dobré shody H 0 : Počet cestujících je rovnoměrně rozděleno do automobilů a autobusů. a) data ŘSD: >> x=[2988,26100] skutečné data x = 2988 26100 >> E=282/2 teoretické četnosti E = 14544 >> chi_r=sum((x-e).^2./e) vztah pro výpočet dobré shody chi_r = 1.8364e+004 >> k=2 k = 2 >> chi2=chisquare_inv(1-0.05,k-1) chví-kvadrát rozdělení chi2 = 3.8415 chi_r > chi2 Závěr: Nulovou hypotézu H 0 zamítáme na hladině významnosti 5%. Počet cestujících není rovnoměrně rozdělen do dopravních prostředků - 4 -
b) data z průzkumu: >> x=[168,114] skutečné data x = 168 114 >> E=282/2 teoretické četnosti E = 141 >> chi_r=sum((x-e).^2./e) vztah pro výpočet dobré shody chi_r = 10.3404 >> k=2 k = 2 >> chi2=chisquare_inv(1-0.05,k-1) chí-kvadrát rozdělení chi2 = 3.8415 chi_r > chi2 Závěr: Nulovou hypotézu H 0 zamítáme na hladině významnosti 5%. Počet cestujících není rovnoměrně rozdělen do dopravních prostředků. - 5 -
4.2 Test nezávislosti Pro tento test byla použita data z našeho průzkumu. Příjem 10 000 Příjem 10 000 Autobus 106 62 Osobní automobil 44 70 H 0 : Výběr dopravního prostředku nezávisí na měsíčním příjmu. >> A=[106,62;44,70] zadání matice >> n=sum(sum(a)) n = 282 počet respondentů >> p=sum(a,2)/n p = 0.5957 0.4043 sčítání po řádcích >> Q=sum(A,1)/n Q = 0.5319 0.4681 sčítání po sloupcích >> np=p*q*n np = 89.3617 78.6383 ; 60.6383 53.3617 >> chi_r=sum(sum((a-np).^2./np)) chi_r = 16.3714 chí-kvadrát test >> p_hodnota=1-chisquare_cdf(chi_r,(2-1)*(2-1)) výpočet p-hodnoty p_hodnota = 5,2065*10-5 P-hodnota 0,05 Závěr: Hypotézu H 0 zamítáme na hladině významnosti 5%, nezávislost neplatí. Výběr dopravního prostředku závisí na měsíčním příjmu. - 5 -
5) Závěr Pomocí nulových hypotéz jsme si ověřili, že počet respondentů není rovnoměrně rozdělen do dopravních prostředků na hladině významnosti 5% a že způsob dopravní přepravy závisí na měsíčním příjmu na hladině významnosti 5%. V porovnání se statistikami ŘSD můžeme konstatovat, že počet cestujících a počet respondentů je shodně nerovnoměrně rozdělen. Zdali závisí na měsíčním příjmu nelze ze statistik ŘSD určit, ale musíme též podotknout, že naše výsledky jsou zkresleny nerovnoměrným výběrem tázaných osob (převážně studenti). Jinak v reálném provozu je vidět značná převaha osobních vozidel nad autobusovou dopravou, což je zapříčiněno tím, že spousta lidí nemá možnost volby atd. - 6 -
Obsah: 1. Úvod. 1 2. Data... 1 3. Teorie 2 3.1. Test dobré shody 3.2. Test nezávislosti 4. Zpracování 4 4.1. Test dobré shody 4.2. Test nezávislosti 5. Závěr. 6-7 -
Literatura: [1] Ivan Nagy, Jitka Kratochvílová: Matematická Statistika Texty k přednáškám - 8 -