Práce s daty. 2. února Do tohoto adresá e stáhn te ze stránek soubory data.dat a Nacti_data.sci.

Podobné dokumenty
T i hlavní v ty pravd podobnosti

Cvi ení 7. Docházka a testík - 15 min. Distfun 10 min. Úloha 1

1. (18 bod ) Náhodná veli ina X je po et rub p i 400 nezávislých hodech mincí. a) Pomocí ƒeby²evovy nerovnosti odhadn te pravd podobnost

na za átku se denuje náhodná veli ina

P íklad 1 (Náhodná veli ina)

Vektor náhodných veli in - práce s více prom nnými

Vektory. Vektorové veli iny

Skalární sou in. Úvod. Denice skalárního sou inu

Testy pro více veli in

Limity funkcí v nevlastních bodech. Obsah

Binární operace. Úvod. Pomocný text

P íklady k prvnímu testu - Pravd podobnost

Pr b h funkce I. Obsah. Maxima a minima funkce

Vyvažování tuhého rotoru v jedné rovině přístrojem Adash Vibrio

Analýza oběžného kola

Pravd podobnost a statistika - cvi ení. Simona Domesová místnost: RA310 (budova CPIT) web:

Jevy, nezávislost, Bayesova v ta

Skupina Testování obsahuje následující moduly: Síla a rozsah výběru, Testy a Kontingenční tabulka.

ST2 - Cvi ení 1 STATISTICKÁ INDUKCE

e²ení systém lineárních rovnic pomocí s ítací, dosazovací a srovnávací metody

Statistika pro geografy. Rozd lení etností DEPARTMENT OF GEOGRAPHY

Průzkum dopravy v ulicích Pod Vinohrady a Havlíčkova

Integrování jako opak derivování

Domácí úkol 2. Obecné pokyny. Dbejte na formáln správný zápis výpo tu! Pro vy íslení výsledku pro binomické rozd lení pouºijte nap. Maple nebo Matlab.

Statistika ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ. Jiří Volf, Adam Kratochvíl, Kateřina Žáková. Semestrální práce - 0 -

1.7. Mechanické kmitání

ZATÍŽENÍ SNĚHEM A VĚTREM

Státní maturita 2010 Maturitní generálka 2010 Matematika: didaktický test - základní úrove obtíºnosti MAGZD10C0T01 e²ené p íklady

Derivování sloºené funkce

ST2 - Cvi ení 1 STATISTICKÁ INDUKCE

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Reálná čísla

ízení Tvorba kritéria 2. prosince 2014

Regrese a nelineární regrese

Kelvin v kapkový generátor

3 D leºitá rozd lení náhodné veli iny

pracovní list studenta

SMĚRNICE EVROPSKÉHO PARLAMENTU A RADY 2009/76/ES

Zapojení horního spína e pro dlouhé doby sepnutí III

Metodika kontroly naplněnosti pracovních míst

Zdravotní stav seniorů

1 Spo jité náhodné veli iny

Android Elizabeth. Verze: 1.3

2. Ur íme sudost/lichost funkce a pr se íky s osami. 6. Na záv r na rtneme graf vy²et ované funkce. 8x. x 2 +4

Státní maturita 2011 Maturitní testy a zadání jaro 2011 Matematika: didaktický test - základní úrove obtíºnosti MAMZD11C0T02 e²ené p íklady

Základní praktikum laserové techniky

Reálná ísla a posloupnosti Jan Malý

2.2.2 Zlomky I. Předpoklady:

5. cvičení 4ST201_řešení

1.2.5 Reálná čísla I. Předpoklady:

PRAKTIKUM... Oddělení fyzikálních praktik při Kabinetu výuky obecné fyziky MFF UK. Odevzdal dne: Seznam použité literatury 0 1. Celkem max.

Úprava tabulek v MS Word. Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí

I. Objemové tíhy, vlastní tíha a užitná zatížení pozemních staveb

( ) Úloha č. 9. Měření rychlosti zvuku a Poissonovy konstanty

A. PODÍL JEDNOTLIVÝCH DRUHŮ DOPRAVY NA DĚLBĚ PŘEPRAVNÍ PRÁCE A VLIV DÉLKY VYKONANÉ CESTY NA POUŽITÍ DOPRAVNÍHO PROSTŘEDKU

P íklady k prvnímu testu - Scilab

Rovnice a nerovnice. Posloupnosti.

Č e s k ý m e t r o l o g i c k ý i n s t i t u t Okružní 31,

Příprava na 1. čtvrtletní písemku pro třídu 1EB


Zvyšování kvality výuky v přírodních a technických oblastech CZ.1.07/1.128/ Nástrahy virtuální reality (pracovní list)

Návrh realizace transformátoru Thane C. Heinse

Zadávací dokumentace k veřejné zakázce

Západo eská univerzita v Plzni. Fakulta aplikovaných v d. Katedra kybernetiky. Datová analýza ve ejn dostupných meteorologických dat.

1 Data. 2 Výsledky m ení velikostí. Statistika velikostí výtrus. Roman Ma ák

4.5.1 Magnety, magnetické pole

Ėlektroakustika a televize. TV norma ... Petr Česák, studijní skupina 205

VYBRANÉ APLIKACE RIEMANNOVA INTEGRÁLU I. OBSAH A DÉLKA. (f(x) g(x)) dx.

VÝZVA. Česká republika-ministerstvo školství, mládeže a tělovýchovy (dále jen zadavatel) se sídlem Karmelitská 7, Praha 1, IČ

Mezní kalibry. Druhy kalibrů podle přesnosti: - dílenské kalibry - používají ve výrobě, - porovnávací kalibry - pro kontrolu dílenských kalibrů.

Věc: Výzva pro předložení nabídek k veřejné zakázce s názvem: VÚ a ŠJ PŠOV, Nákup nového osmimístného vozidla

ZADÁVACÍ DOKUMENTACE K VEŘEJNÉ ZAKÁZCE ZADÁVANÉ PODLE ZÁKONA Č. 137/2006 SB., O VEŘEJNÝCH ZAKÁZKÁCH, VE ZNĚNÍ POZDĚJŠÍCH PŘEDPISŮ (DÁLE JEN ZÁKON )

Teorie her. Klasikace. Pomocný text

e²ení 4. série Binární operace

Číslo zakázky (bude doplněno poskytovatelem dotace) 1 Název programu: Operační program Vzdělávání pro konkurenceschopnost

Základní praktikum laserové techniky

Vybrané funkce v programu Scilab z oblasti pravd podobnost a statistika. Pavla Pecherková, Ivan Nagy

Centrum pro rodinu, Lidická 174, Broumov Sociálně aktivizační služba pro rodiny s dětmi. STANDARD č.7

MATEMATIKA. 1 Základní informace k zadání zkoušky

4. cvičení: Pole kruhové, rovinné, Tělesa editace těles (sjednocení, rozdíl, ), tvorba složených objektů

Unfolding - uºivatelský manuál

e²ení 1. série Úvodní gulá² autor: Kolektiv org

POKYNY. k vyplnění přiznání k dani z příjmů fyzických osob za zdaňovací období (kalendářní rok) 2012

Zobrazení v rovině je předpis, který každému bodu X roviny připisuje právě jeden bod X roviny. Bod X se nazývá vzor, bod X se nazývá obraz.

1. DÁLNIČNÍ A SILNIČNÍ SÍŤ V OKRESECH ČR

PRŮZKUM PRODEJE INJEKČNÍHO MATERIÁLU. v lékárnách ORP Zlín, ORP Vizovice a ORP Otrokovice

Měření hustoty kapaliny z periody kmitů zkumavky

Novinky verzí SKLADNÍK 4.24 a 4.25

Jméno a příjmení holka nebo kluk * Třída Datum Škola

3.1.5 Energie II. Předpoklady: Pomůcky: mosazná kulička, pingpongový míček, krabička od sirek, pružina, kolej,

Kočí, R.: Účelové pozemní komunikace a jejich právní ochrana Leges Praha, 2011

Laserové skenování principy

2. referát (Pruºnost a pevnost I.)

AMC/IEM HLAVA B PŘÍKLAD OZNAČENÍ PŘÍMOČARÉHO POHYBU K OTEVÍRÁNÍ

9. Lineárně elastická lomová mechanika K-koncepce. Únava a lomová mechanika Pavel Hutař, Luboš Náhlík

4. Připoutejte se, začínáme!

Instrukce Měření umělého osvětlení

Fyzikální praktikum 3

nazvu obecnou PDR pro neznámou funkci

STP097 STATISTIKA CVIČENÍ EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY

Zadání. Založení projektu

Transkript:

Práce s daty 2. února 2015 V tomto lánku si ukáºeme statistickou práci v praxi. Setkáme se s mnoha bodovými i intervalovými odhady i s r znými testy. Na kraji textu máte vyzna eno, jaké pojmy a znalosti se práv pouºívají. Student na konci p edm tu Statistika by m l lánku bez problému rozum t. Zprovozn ní 1. Pokud nemáte aktuální statistický balí ek pro Scilab, stáhn te si jej. 2. P ihla²te se do Novellu. 3. Vytvo te si adresá na dne²ní práci s reálnými daty. Doporu ený název: Tunel.. Do tohoto adresá e stáhn te ze stránek soubory data.dat a Nacti_data.sci. 5. Otev ete si Scilab. 6. Otev ete si soubor Nacti_data.sci a nastavte v n m cesty ke svým adresá m, kde máte uloºené soubory spust_pri_startu.sce a data.dat. Uloºte. 7. Otev ete si soubor spust_pri_startu.sce a p epi²te ho. Zadejte absolutní cesty k adresá m kombinatorika, pravd podobnost, statistika. Dopl te adresá, kde je funkce Nacti_data.sci. Výsledek m ºe podle toho, jaké máte adresá e vy, vypadat nap. takto: clear; getd("f:\scilab\funkce\kombinatorika"); getd("f:\scilab\funkce\pravdepodobnost"); getd("f:\scilab\funkce\statistika"); getd("f:\scilab\tunel"); 8. Soubor spust_pri_startu.sce pus te. 9. Otev ete si nový editor a za n te e²it následující úkoly. Ke kaºdému úkolu vytvo te zvlá²tní program. Ukládejte je do stejného adresá e jako soubor data.dat. 10. Na za átku kaºdého programu zavolejte funkci: [I,O,R,H,D]=Nacti_data(); 1

Zobrazení veli in Setkáme-li se s neznámými daty, prvním krokem je seznámení se s nimi. Jednak si p e teme doprovodné informace, jadnak si je zobrazíme v mnoºství graf, abychom zachytili zajímavé souvislosti. Doprovodné informace Veli iny I, O a R znamenají intenzitu, obsazenost a rychlost ve Strahovském tunelu. M eny jsou v p timinutových intervalech po dobu ty týdn. Za átek je v pond lí p t minut po p lnoci. Veli ina I znamená po et projetých aut za p t minut. Je to p irozené íslo. Veli ina R znamená pr m rnou rychlost aut, které tunelem projely b hem p ti minut. Je to reálné íslo v km /h. Veli ina O znamená obsazenost a je to pom r O = I R. Jednotkou je ks /5 min = h km/h 5 min ks km = 12 ks km = ks /83 m.veli ina tedy znamená pr m rný po et aut na úseku délky 83 metr. Veli ina H znamená hodinu. Je to desetinné íslo z intervalu (0, 2. Veli ina D ozna uje den v týdnu. Je to celé íslo od 1 do 7. Základní grafy Z mnoºství moºných graf si ukaºme tyto: Intenzita Zobrazíme si intenzitu I. Pokud v p íkazu plot na ose x nenapí²eme nic, bude na ose x po adí dat. Vidíme denní ²pi ky a vidíme rovn º niº²í intenzitu b hem víkend. 2

Okamºit nás m ºe napadnout, zda je doprava b hem r zných pracovních / víkendových dní stejná. Intenzita proti hodin Zde op t vidíme, ºe intenzita má o víkendech jiný vývoj neº b hem pracovních dní. M ºeme si nap. v²imnout, ºe ranní ²pi ka o víkendu nastupuje pozd ji. Rychlost proti hodin 3

Zde m ºeme vid t zajímavou v c: V noci mají rychlosti v t²í rozptyl. Jak tento jev vysv tlit? Dále pak vidíme, ºe velmi nízké rychlosti se vyskytují tém pouze b hem pracovních dní v noci. Jak vysv tlit tento jev? Vyskytují se tyto velmi nízké rychlosti b hem v²ech pracovních dní? Velmi nízké rychlosti proti dni v týdnu Vidíme, ºe nízké rychlosti se vyskytují tém pouze ve tvrtek a pátek. To je velmi zajímavé zji²t ní. Moºná se jedná o pravidelnou údrºbu? Podobn bychom mohli pokra ovat, abychom objevily zajímavosti, které jsou v datech skryty. ídký dopravní proud a Poissonovské rozd lení Jist jste se u ili nebo budete u it, ºe pokud je dopravní proud ídký, tzn. netvo í se ºádné kolony ani "bu tíky", m l by mít po et aut za jednotku asu (tj. v na²em p ípad za p t minut) Poissonovo rozd lení. Prozkoumejme, zda toto platí pro intenzity mezi druhou a t etí hodinou v noci b hem pracovních dn. Pouºijeme Chí-kvadrát test dobré shody. Tedy testujeme nulovou hypotézu: Mezi druhou a t etí hodinou v noci pracovního dne má intenzita dopravy ve Smíchovském tunelu Poissonovo rozd lení. Poissonovo rozd lení. Chí-kvadrát test dobré shody hypo- Nulová téza.

Funkce vyºaduje zadat n jakou hladinu významnosti, ale ve skute nosti na ní nezáleºí, pokud nás zajímá p-hodnota. Teoretické hodnoty jsou zelen, skute né mod e. Funkce cdf poi je distribu ní funkcí Poissonova rozd lení. Parametr Poissonova rozd lení jsme bodov odhadli: λ = 1, 3231. Vy²la nám krásná p- hodnota 0, 975906, takºe hypotézu o tom, ºe intenzita v daný as má Poissonovo rozd lení s danou λ rozhodn zamítat nebudeme. Zkusme stejný test, tentokrát pro as 7:30 aº 8:30 b hem pracovního dne: Výpo et pravd podobnostní funkce z distribu ní funkce. Bodový odhad parametru λ. P-hodnota 5

Aby byl Chí-kvadrát test kvalitní, doporu uje se, aby teoretická etnost pro kaºdou kolonku byla alespo p t. Proto jsme tentokrát prvních 30 hodnot a poslední hodnoty od 50 slou ili do jedné. Bodový odhad parametru λ = 39.186, p-hodnota vy²la 0, 079. To je mezní hodnota. M ºe znamenat, ºe nastal onen jeden p ípad z 20, kdy p-hodnota bude niº²í neº 5% i pokud je nulová hypotéza v po ádku, m ºe to ale také znamenat, ºe b hem ranních ²pi ek nem ºeme dopravní proud povaºovat za Poissonovský. Abychom mezi t mito dv ma alternativami rozhodli, prove me test je²t pro as 8:30 aº 9:30. P-hodnota tentokrát po slou ení p íslu²ných krajních hodnot vyjde 0, 3386562. Zdá se tedy, ºe i b hem ranních ²pi ek m ºeme dopravní proud povaºovat za Poissonovský. V tunelu se tedy patrn nevyskytují kolony ani p i nejv t²ích dopravních intenzitách. Koneckonc intenzita 60 aut za 5 minut odpovídá v pr m ru jednomu autu za p t sekund. A to není tolik.kapacita tunelu je tedy dostate ná. Je intenzita b hem r zných pracovních dní stejná? P edpokládejme, ºe zm ená intenzita má b hem pracovního dne intenzitu I(t) = f(t) + e(t), kde f(t) je stále stejná funkce a e(t) je náhodný ²um. O tomto ²umu p edpokládáme, ºe má nulovou st ední hodnotu a jeho hodnoty jsou po adov nezávislé. Pokud ode teme intenzity dvou r zných dní, získáme: I 1 (t) I 2 (t) = f 1 (t)+e 1 (t) f 2 (t) e 2 (t) = e 1 (t) e 2 (t), coº je ²um, který má st ední hodnotu také nula a jehoº hodnoty jsou také po adov nezávislé. (Rozptyl je sou et rozptyl ²um e 1 (t) a e 2 (t).) Testujme tedy, jestli má rozdíl intenzit dvou r zných dní nulovou st ední hodnotu a jestli je po adov nezávislý. Nejprve testujme první a druhé pond lí: Po adová nezávislost dat V ta o s ítání náhodných veli in Test st ední hodnoty Test po adové nezávislosti Intenzita je erven a mod e, rozdíl zelen. Pro test nulové st ední hodnoty vy²la p-hodnota 0.0889812, pro test po adové nezávislosti 0.066727. První p-hodnota je pom rn nízká, moºná to signalizuje, ºe b hem jednoho pond lí do²lo k n jaké nestandardnosti. Ale i tak oba testy na hladin významnosti 5% pro²ly. 6

um tedy m ºeme povaºovat za po adov nezávislý a s nulovou st ední hodnotou. Abychom v²ak mohli ²um povaºovat za bílý, m l by být je²t nezávislý na ase. A to není, nebo vidíme, ºe v noci má men²í rozptyl neº b hem dne. Abychom vylou ili nestandardnosti b hem jednotlivých dní, budeme pracovat s pr m rnými intenzitami za v²echny ty i pond lky, úterky, atd. Testujme tedy nulovost st ední hodnoty a po adovou nezávislost rozdílového ²umu nap. pro úterky a st edy: Bílý ²um A zde pro soboty a ned le: 7

Uve me si tabulku pro p-hodnoty testu nulovosti st ední hodnoty a po adové nezávislosti pro jednotlivé dni v týdnu: Po Út St ƒt Pá So Ne Po 0,901 0,028 0,35 0,617 1.115D-1 7.595D-3 0,016 0,005 0,0001 0,00008 1.557D-37 2.82D-7 Út 0,027 0,331 0,519 3.781D-2 1.751D-5 0,278 0,017 0,0003 5.956D-35 5.7D-3 St 0,00 0,0095 1.8D-6 5.030D-8 0,00002 0,0091 1.825D-32 7.922D-9 ƒt 0,770 8.811D-0 3.917D-2 0,00002 5.7D-3 2.82D-7 Pá 3.278D-3 8.109D- 3.262D-0 6.831D-52 So 1.156D-09 1.883D-16 Vidíme, ºe výrazn jiný pr b h má intenzita v pracovní dny, v sobotu a v ned li. Kupodivu testy nazna ují, ºe i mezi jednotlivými pracovními dny jsou statisticky významné rozdíly. Nap. pro hladinu významnosti 1% m ºeme za stejné povaºovat pr b hy v pond lí a úterý, v úterý a ve Hladina významnosti st edu, v úterý a ve tvrtek, ale uº ne ve st edu a tvrtek. Na hladin významnosti 5% uº musíme pro kaºdý den v týdnu uvaºovat alespo trochu jiné rozd lení. 8

Je rozd lení intenzity opravdu Poissonovské? ²umu je nulová. Tedy rozptyl ²umu e(t) by m l být roven také f(t). Ov me si to vykreslením do grafu. Vybereme si pond lní hodnoty a vykreslíme si mod e funkci f(t), kterou odhadujeme pr m rem ze ty pond lk : f(t) = I 1(t) + I 2 (t) + I 3 (t) + I (t). Zelen vykreslíme rozptyl ²umu e(t) = I 1 (t) f(t), kde I 1 (t) jsou intenzity za první pond lí. Rozptyl po ítáme vºdy z t iceti sousedních hodnot: V jedné z p edchozích kapitolek jsme si ukázali, ºe m ºeme intenzitu v celém rozsahu, od noci aº po denní ²pi ky, povaºovat za Poissonovskou. Rozptyl by tedy m l být, stejn jako st ední hodnota, roven λ. A st ední hodnota I(t) je v modelu I(t) = f(t) + e(t) rovna f(t), nebo st ední hodnota St ední hodnota a rozptyl Poissonova rozd lení Co to? Rozptyl je výrazn men²í, neº bychom o ekávali! Bylo snad n co v na²ich úvahách ²patn? Ano! Zapomn li jsme na to, ºe zatímco funkce f(t) je nenáhodná, my ji jen p ibliºn odhadujeme náhodnou veli inou f(t) = I1(t)+I2(t)+I3(t)+I(t). Protoºe ²um e(t) = I 1 (t) f(t) = I 1 (t) I 1(t) + I 2 (t) + I 3 (t) + I (t) m l by být rozptyl: 9 = 3 I 1(t) 1 I 2(t) 1 I 3(t) 1 I (t), V ty o s ítání náhodných veli in a násobení náhodné veli iny konstantou

σ 2 = ( ) 2 3 f(t) + ( ) 2 1 f(t) + ( ) 2 1 f(t) + Porovnejme tedy znovu rozptyl nikoliv s f(t), ale s 3 f(t): ( ) 2 1 f(t) = 3 f(t). Vidíme, ºe zatímco pro niº²í intenzity si grafy p kn odpovídají, (pomalej²í náb h rozptylu je zp soben tím, ºe se hodnoty po ítají z 30 sousedních hodnot), pro vy²²í hodnoty je jiº rozptyl pon kud niº²í. Tento efekt m ºe být zp soben bu tím, ºe uº vznikají "bu tíky" nebo ízením, nap. semafory. M ºeme si ale také myslet, ºe niº²í pr b h rozptylu je pouze náhodný. Vºdy bodový odhad rozptylu je velmi nep esný, jak zjistíme, pokud si vykreslíme intervalový odhad rozptylu. Vykreslujeme 95% oboustranný interval spolehlivosti ( erven ). Abychom kompenzovali pomalej²í náb h rozptylu (který je po ítán z 30 sousedních hodnot), pouºijeme místo funkce f její pr m r z 30 sousedních hodnot. Nakonec provedeme test podílu na podíl hodnot, které vybíhají z 95% intervalu spolehlivosti: Intervalový odhad rozptylu 10

Vidíme, ºe na²e k ivka zpr m rovaných 3 f(t) je opravdu v t²inou v mezích 95% intervalu. Mimo se ocitla pouze 13 krát, coº je 5,02% p ípad. U 95% intervalu spolehlivosti bychom p itom o ekávali, ºe k ivka bude mimo zhruba v 5% p ípad. To je výborná shoda, jak nám napovídá i p-hodnota 0,9886 v provedenám testu podílu. Nezamítáme tedy nulovou hypotézu, ºe mimo 95% interval spo- Test podílu lehlivosti je 5% hodnot, tedy ani hypotézu, ºe rozptyl ²umu je roven 3 f(t). Tento vztah byl vyvozen z p edpokladu, ºe rozd lení intenzit je Poissonovské. Nezamítáme tedy ani tento p edpoklad. 11