České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

Podobné dokumenty
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU STATISTIKA TÉMA:

Testy. Pavel Provinský. 19. listopadu 2013

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

TECHNICKÁ UNIVERZITA V LIBERCI

12. cvičení z PST. 20. prosince 2017

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

Zápočtová práce STATISTIKA I

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

TECHNICKÁ UNIVERZITA V LIBERCI

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ STATISTIKA. Semestrální práce

Charakteristika datového souboru

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU STATISTIKY

Normální (Gaussovo) rozdělení

Cvičení ze statistiky - 8. Filip Děchtěrenko

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

You created this PDF from an application that is not licensed to print to novapdf printer (

PRAVDĚPODOBNOST A STATISTIKA

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ Ústav aplikované matematiky

= = 2368

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Normální (Gaussovo) rozdělení

Tomáš Karel LS 2012/2013

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

Semestrální práce z předmětu Statistika

Cvičení ze statistiky - 9. Filip Děchtěrenko

České vysoké učení technické v Praze Fakulta dopravní

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Lineární regrese. Komentované řešení pomocí MS Excel

Protokol č. 1. Tloušťková struktura. Zadání:

Kontingenční tabulky, korelační koeficienty

15. T e s t o v á n í h y p o t é z

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Příklady na testy hypotéz o parametrech normálního rozdělení

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Kontingenční tabulky a testy shody

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Jednofaktorová analýza rozptylu

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Tomáš Karel LS 2012/2013

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Semestrální práce z předmětu Pravděpodobnost, statistika a teorie informace

Výběrové charakteristiky a jejich rozdělení

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Pravděpodobnost a aplikovaná statistika

Technická univerzita v Liberci

Normální rozložení a odvozená rozložení

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

12. prosince n pro n = n = 30 = S X

STATISTICKÉ ZJIŠŤOVÁNÍ

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA)

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ

Testování statistických hypotéz. Obecný postup

ČVUT FAKULTA DOPRAVNÍ

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

KGG/STG Statistika pro geografy

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Stručný úvod do testování statistických hypotéz

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Kvantitativní testování porovnání Alza.cz a Mall.cz

Testování statistických hypotéz

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ FAKULTA DOPRAVNÍ

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Neparametrické metody

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Regresní analýza 1. Regresní analýza

SEMESTRÁLNÍ PRÁCE STATISTIKA

Plánování experimentu

5 Parametrické testy hypotéz

Pravděpodobnost a aplikovaná statistika

IDENTIFIKACE BIMODALITY V DATECH

15. T e s t o v á n í h y p o t é z

Transkript:

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611 Semestrální práce ze Statistiky (SIS) Petr Procházka, Jakub Feninec Skupina: 97 Akademický rok: 01/013

Úvod V naší semestrální prací jsme se zabývali cestováním v MHD zejména pak v metru. Zkoumali jsme výběrové jevy, u kterých jsme schopni pomocí statistických metod spočítat různé statistické ukazatele a z těchto výsledků odhadnout a vyslovit různá tvrzení s určitou pravděpodobností. O tom také statistika je. Sběr dat probíhal ručně v metru, kde jsme rozdávali cestujícím dotazníky s otázkami a po vyplnění jimi je opět sbírali. Uvádíme pro informaci všech sedm dotazovaných otázek:!! 1)Jak často používáte MHD!!! -každý den -3 krát týdně -několikrát do měsíce -turista )Jste spokojen s kvalitou MHD v Praze -není ji co vytknout -jsem celkem spokojený -nejsem spokojený(důvod) 3)Jaký cestovní průkaz používáte -roční -čtvrtletní -týdenní -denní -90 minut -žádný 4)Kolikrát do měsíce vidíte revizory při práci -číslo 5)Kolikrát do měsíce jste revizory zkontolován/a -číslo 6)Odhadněte délku trvání cesty k nebližší zastávce MHD -číslo 7) Doba trvání cesty do práce/školy -číslo Celkem se nám podařilo získat data od 79 lidí. Pro opravdový statistický průzkum by asi bylo lepší aby sběr dat proběhl ve větším objemu. Dále uvádíme vyhodnocení dat.

a) b) c) d) e) celkem 1)Jak často používáte MHD každý den 3x týdně několikrát do měsíce turista 55 9 8 7 79 )Jste spokojen s kvalitou MHD v Praze není jí co vytknout jsem celkem spokojený nejsem spokojený 6 61 1 79 3)Jaký cestovní průkaz používáte roční nebo čtvrtletní týdenní denní 90-ti minutový žádný 49 1 7 8 14 79 4)Kolikrát do měsíce vidíte revizory při práci 0* 1-* 3-5* 6-8* časteji 15 4 1 9 10 79 5)Kolikrát do měsíce jste revizory zkontolován/a 0* 1-* 3-5* 6-8* časteji 0 38 34 6 0 1 79 6)Odhadněte délku trvání cesty k nebližší zastávce MHD 1- min 3-4 min 5-7 min 8-10 min déle 0 30 10 3 7 9 79 7) Doba trvání cesty do práce/školy 0-0 min 1-40 min 41-60 min 1h-1h0min déle 0 1 4 5 6 3 79

Test nezávislosti č.1 Jev č. 1 Jak často využíváte MHD? Odpovědi: Každý den 3* do týdne Několikrát za měsíc Jev č. Kolikrát do měsíce zpozorujete revizory při práci? Odpovědi: 0x-4x 4x-vícekrát Slovní hypotéza: Člověk, který využívá MHD denně má více možností zahlédnout revizora než člověk, který používá MHD pouze zřídka. Tudíž by tyto dva jevy měli být závislé Testujeme na hladině významnosti α= 5% Výpočet stupňů volnosti: Každý den 3* do týdne Někol. za měsíc Marginální čet. 0-4x 3 4 5 3 4x-vícekrát 4 3 9 45 8 8 61 Hodnoty získané vyhodnocením ankety: Očekávané četnosti: Každý den 3* do týdne Někol. za měsíc 0-4x 3,61 4, 4, 4x-vícekrát 1,39 3,8 3,8 Testové kritérium: Porovnání Testového kritéria s hodnotou z tabulky: Tabulková hodnota pro α= 5%:

Porovnáním testového kritéria ke kterému jsme došli výpočtem a testového kritéria které jste odečetli z tabulky pro hladinu významnosti α =5% jsme dospěli k jasnému závěru. Hypotézu o nezávislosti zkoumaných jevů musíme na hladině významnosti 5% zamítnout a tudíž jsou jevy závislé. Test nezávislosti č. Jev č. 1 Kolikrát do měsíce zpozorujete revizory při práci? Odpovědi: 0x-x 3x-5x 6x-častěji Jev č. Jak dlouho vám trvá každodenní cesta do za povinnostmi? Odpovědi: 0-40min 41min více Slovní hypotéza: Člověk, který stráví v MHD každý den více času zpozorovat revizory, tudíž by tyto jevy měly být na sobě závislé ale v opačném pořadí, tudíž při našem zadání by se měli jevit jako protichůdné a tudíž nezávislé. Testujeme na hladině významnosti α= 5% Výpočet stupňů volnosti: 0x-x 3x-5x 6x-častěji Marginální čet. 0-40min 0 10 4 34 41 min - více 10 6 1 8 30 16 16 6 Hodnoty získané vyhodnocením ankety: Očekávané četnosti: Každý den 3* do týdne Někol. za měsíc 0-4x 16,45 8,77 8,77 4x-vícekrát 13,55 7,3 7,3 Testové kritérium:

Porovnání Testového kritéria s hodnotou z tabulky: Tabulková hodnota pro α= 5%: Porovnáním testového kritéria ke kterému jsme došli výpočtem a testového kritéria které jste odečetli z tabulky pro hladinu významnosti α =5% jsme dospěli k závěru že Jevy jsou na hladině významnosti 5% nezávislé Hypotézu o nezávislosti zkoumaných jevů musíme na hladině významnosti 5% zamítnout a tudíž jsou jevy závislé. Dalším úkolem, který jsme si zadali při plánování našeho výzkumu bylo odhadnout, zda se nám vyplatí jezdit bez jízdního dokladu a platit pokuty a nebo zda je výhodnější jezdit s platným jízdním dokladem. Prvním krokem z výpočtu bylo zpočítání, kolik jízd člověk učiní za jeden den, tudíž jsme použili následující tabulku z měření: Otázka: Jak často používáte MHD? Každý den 3x do týdne Někol. do měs. Jsem turista 55 9 8 7 79 Ze slovního zadání našich otázek jsme si určili koeficient pro počet jízd za den pro každou odpověď: Každý den - jízdy denně 3x do týdne - 1 jízda denně Někol. do měs.- 0,33 jízd denně Turista - 0,1 jízd denně Následujícím výpočtem jsme zjistili průměrný počet jízd za den na průměrného cestujícího: Dalším postupen našeho výpočtu bylo odhadnout jaká je pravděpodobnost že bude člověk zkontrolován revizory, k tomu jsme použili odpovědi k následující otázce: Kolikrát do měsíce jste revizory zkontrolován/a

0x 1-x 3-5x 6-8x Častěji 38 34 6 0 1 K odpovědím jsme použili následující koeficienty: 0x - 0 1-x - 1,5 3-5x - 4 6-8x - 7 Častěji - 10 Výpočtem jsme určili průměrné počet kontrol na jedince na den, (dělení 30-ti znamená že hodnoty uvedené tazateli jsou ztahovány k jednomu měsíci). Vydělením našich dvou zpočtených hodnot pro počet jízd a počet kontrol na den získáme hodnotu, která nám ukazuje, kolikrát denně je průměrný člověk zkontrolován. Převrácenou hodnotou této hodnoty je počet jízd, po kolika nás v průměru jednou zkontroluje revizor. Z tohoto čísla můžeme usoudit že při koupi jedné devadesáti-minutové jízdenky na každou jízdu zaplatíme na jízdenkách 1381,7Kč ale cena jedné průměrné pokuty je podle DPP pouze 500 Kč, z toho lze usoudit, že by se nám mělo vyplatit nekupovat si jízdenku ale platit pouze pokuty. Při těchto podmínkách nám vyšel zcela jasný výsledek, ale už jenom při změně postoje cestujícího, a jeho nákupu měsíční jízdenky místo 90-minutové se nám náklady na obě možnosti prakticky rovnají.

Intervalové odhad č.1 Pokusíme se pomocí statistiky spočítat jaký bude intervalový odhad rozptylu a směrodatné odchylky pro dobu trvání cesty k nejbližší zastávce MHD. Podle vypočítaných hodnot intervalů můžeme vyslovit určitá tvrzení o naměřených hodnotách. -pro náš výpočet použijeme pravděpodobností rozdělení chí kvadrát platí následující 1 δ n δ -90% z bude v intervalu n i n i (x i µ)...χ (n) (x i µ) n n δ s 0...χ (n) δ (n) < n s 0...χ (n) < χ δ 0,95 (n) 1 (n) > δ n s > 1 0 (n) n s 0 χ 0,95 χ 0,95 (n) < δ < n s 0 (n) -protože počítáme z výběrového souboru použijeme rozptyl pro výběrový soubor (n 1) s χ 0,95 (n 1) < δ < (n 1) s (n 1) -spočítali jsme si průměr doby trvání k nejbližší zastávce MHD z dat, která jsme získali Bodový odhad X = 6,41min

-rozptyl 79 (X i X) / (n 1) = 66,36 i=1 -směrodatná odchylka s = 8,15 -dále dosadíme do vzorce pro interval (n 1) s χ 0,95 (n 1) < δ < χ 0,95 (78) = 99,617 (78) = 58,654 78 66,35 99,617 < δ < (n 1) s (n 1) 78 66,35 58,654 -na 90% bude rozptyl z intervalu 51,95;88,3 -dále ještě spočítáme odhad pro směrodatnou odchylku 78 8,15 99,617 < δ < 78 8,15 58,654 -na 90% bude směrodatná odchylka z intervalu 7,1;9, 41 Můžeme si všimnout, že směrodatná odchylka a intervalový odhad nám vyšli vzhledem k naměřeným hodnotám poměrně velká čísla. Na základě tohoto výsledku bychom mohli předpokládat, že mezi jednotlivými získanými daty jsou poměrně velké odlišnosti. Což nám v porovnání s reálnými daty souhlasí.

Intervalový odhad č. V tomto případě se budeme snažit spočítat intervalový odhad rozptylu a směrodatné odchylky doby trvání cesty do práce/školy. Opět využijeme chí kvadrát a odvozený vzorec pro výpočet intervalu daného ukazatele. Bodový odhad X = 39,18min -rozptyl 79 (X i X) / (n 1) = 654,0 i=1 -směrodatná odchylka s = 5,57 (n 1) s χ 0,95 (n 1) < δ < (n 1) s (n 1) χ 0,95 (78) = 99,617 (78) = 58,654 78 654,0 99,617 < δ < 78 654,0 58,654 -na 90% bude rozptyl z intervalu 505,05;869, 74 -odhad pro směrodatnou odchylku 78 5,57 99,617 < δ < 78 5,57 58,654 -na 90% bude směrodatná odchylka v intervalu,63;9, 49 Zde máme rozptyl i odchylku v širším intervalu než v odhadu č.1. Tyto hodnoty tedy odpovídají větším odlišnostem mezi daty, což potvrzují i data naměřená.

Spokojenost v MHD v Praze 7,59% dotazovaných lidí si myslí že MHD v Praze není co vytknout 77,% dotazovaných lidí jsou s MHD v Praze celkem spokojení 15,19% dotazovaných lidí nejsou spokojení s MHD v Praze Grafická příloha Jak často používáte MHD? Každý den 3* týdně Několikrát měsíčně Jsem turista Jste spokojeni s kvalitou MHD? Není co vytknout Jsem celkem spokojený Nejsem spokojený

Jaký cestovní průkaz používáte? Roční nebo čtvrtletní Týdenní Denní 90-minutový Žádný Kolikrát do měsíce vidíte revizory? 0* 1-* 3-5* 6-8* časteji Doba trvání cesty k nejbližší zastávce? 1- min 3-4 min 5-7 min 8-10 min déle

Doba trvání cesty do práce/školy? 0-0 min 1-40 min 41-60 min 1h-1h0min déle Závěr Abych tak shrnul naší semestrální práci, musím říct, že jsme se snažili upřednostnit kvalitu před kvantitou. Snažili jsme použít různé statistické ukazatele Sběr dat probíhal ručně, proto jsme se dotazovali pouze na 7 otázek.