Statistický model pro predikci parkovací kapacity z nepřímých dat. Workshop Matematické modely a aplikace Podlesí

Podobné dokumenty
Intervalová data a výpočet některých statistik

Charakterizace rozdělení

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

Pokročilé neparametrické metody. Klára Kubošová

DETEKCE DOPRAVY KLASIFIKACE VOZIDEL MONITORING DOPRAVNÍHO PROUDU

Jasové transformace. Karel Horák. Rozvrh přednášky:

Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

M cvičení : GLM04b (Vztah mezi Poissonovým a

Základní informace ISEM INTEROPERABILNÍ SYSTÉM ELEKTRONICKÉHO MÝTNÉHO

Vývoj sběru intenzit dopravy. Ing. Petr Neuwirth Centrum dopravního výzkumu, v. v. i.

Komplexní dopravní koncepce města Český Krumlov. A3 Kontinuální profilové sčítání dopravy

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Kapacita jako náhodná veličina a její měření. Ing. Igor Mikolášek, Ing. Martin Bambušek Centrum dopravního výzkumu, v. v. i.

Odhad stavu matematického modelu křižovatek

pravděpodobnosti, popisné statistiky

Popis zobrazení pomocí fuzzy logiky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Klasifikace a rozpoznávání. Extrakce příznaků

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

5EN306 Aplikované kvantitativní metody I

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Kompresní metody první generace

Predikce roční spotřeby zemního plynu po ceníkových pásmech

Mˇ eˇren ı ˇ cetnost ı (Poissonovo rozdˇ elen ı) 1 / 56

Úvodem Dříve les než stromy 3 Operace s maticemi

Informace o připravovaných. telematických aplikacích na dálnici D1

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

V. ZÁKLADNÍ PARAMETRY VÝHLEDOVÉ SILNIČNÍ SÍTĚ KRAJE

INTENZITA DOPRAVY na komunikaci I/7 květen Hodnověrnost tvrzení je dána hodnověrností důkazů

LWS při heteroskedasticitě

DOPRAVNÍ PR ZKUMY V OBLASTI ROZVOJOVÉ PLOCHY ZA MLÉKÁRNOU

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

4EK201 Matematické modelování. 11. Ekonometrie

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Kredibilitní pojistné v pojištění automobilů. Silvie Zlatošová září 2016, Robust

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Numerická stabilita algoritmů

Nové prvky regulace automobilové dopravy v Praze 6 / 2014

AVDAT Mnohorozměrné metody, metody klasifikace

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Statutární město Olomouc. Plán udržitelné městské mobility Olomouc.

KGG/STG Statistika pro geografy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Znečištění ovzduší Doprava Jmk, Brno. J. Jedlička, I. Dostál

4EK211 Základy ekonometrie

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Numerické metody optimalizace - úvod

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Kvantifikace externích nákladů z jízdy nákladního vozidla na zpoplatněných a objízdných trasách

Modely přidané hodnoty škol

Ekonometrie. Jiří Neubauer

Statistická analýza jednorozměrných dat

velkou variabilitou: underdispersion, overdispersion)

Statistická analýza jednorozměrných dat

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta dopravní SEMESTRÁLNÍ PRÁCE. z předmětu: INTELIGENTNÍ DOPRAVNÍ SYSTÉMY. na téma:

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

7. Analýza rozptylu.

Zavedení nízkoemisní zóny ve městě Písku. Ing. Roman Čampula Centrum dopravního výzkumu, v. v. i

Statistika II. Jiří Neubauer

PERSPEKTIVA STATICKÉ DOPRAVY V OSTRAVĚ Příklad ankety o dopravě

Jana Vránová, 3. lékařská fakulta, UK Praha

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Úvod do teorie měření. Eva Hejnová

2.2 Kalibrace a limity její p esnosti

sídlo: Pařížská 1230/1, Plzeň telefon: BABYLON, SILNICE I/26 PRŮZKUM INTENZIT DOPRAVY

Stabilizace Galerkin Least Squares pro

MATEMATICKÁ STATISTIKA

Měření dat Filtrace dat, Kalmanův filtr

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

TECHNICKÁ UNIVERZITA V LIBERCI

Úvod do analýzy časových řad

Úvod do teorie měření. Eva Hejnová

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Stochastické diferenciální rovnice

15. T e s t o v á n í h y p o t é z

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Využití predikčního nehodovostního modelu při identifikaci kritických úseků na silniční síti

Inteligentní dálnice, smart cities

Patrice Marek. Západočeská univerzita v Plzni. * Podpořeno z OPVK CZ.1.07/2.2.00/

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Jemný úvod do statistických metod v netržním oceňování

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Predikční modely nehodovosti a jejich využití při hodnocení efektivity investic do infrastruktury Petr Šenk

Technická univerzita v Liberci

Konference o bezpečnosti silničního provozu REGIONSERVIS , Praha, hotel Olympik

Fisherův exaktní test

Měření závislosti statistických dat

Úloha 1: Lineární kalibrace

KLÍČOVÉ PROMĚNNÉ OVLIVŇUJÍCÍ PLÁNOVÁNÍ TRASY: KONCEPT MAAS OČIMA UŽIVATELŮ

Transkript:

Statistický model pro predikci parkovací kapacity z nepřímých dat Brabec,M.-Konár,O.-Kasanický,I.-Pelikán,E. mbrabec@cs.cas.cz Workshop Matematické modely a aplikace Podlesí 5.-6.9.2013

Projekt TAČR projekt 2012-2014 TA02031411, Zvýšení využití parkovací kapacity na dálnicích za pomoci predikčních modelů Partneři: FD ČVUT ÚI AV ČR, v.v.i. Kapsch Innoxive, s.r.o.

Cíle projektu Rychlý a relativně levný predikční model parkovací kapacity pro nákladní automobily podél dálnic Online implementace, telematické řešení přenosu dat k uživatelům/řidičům Využití stávajících (byť nepřímých) dat z mýtných bran vs. budování nákladné nové infrastruktury

Dostupná data Individuální data o průjezdech jednotlivých vozidel (OBU) z mýtného systému (Kapsch) Časy průjezdu jednotlivými mýtnými branami (1s rozlišení) Info o individuálních vozidlech (státní příslušnost SPZ, tonáž, Bus/Truck, apod.) Info o celkovém dopravním proudu (ŘSD, intenzita, hustota na vybraných branách) Dodatečná měření na vybraných parkovištích (počet vjíždělících/vyjíždějících vozidel, kalibrace a kontrola modelů)

Jak odhadnout intenzitu parkování z mýtných dat? Přímá měření počtu vozidel parkujících na daném parkovišti nejsou k dispozici latentní proměnná odhadovaná z pozorovatelných dat (o průjezdech mýtnými branami) Konstrukce proxy proměnné jako aproximace počtu parkujících časy průjezdu úseky -> průměrná rychlost 44 úseků na D5 (na 18 je parkoviště) délka úseku 1.2-14.1 km (průměrně 6.7 km) Klasifikace parkující/neparkující založena hlavně na prahu pro rychlost (event. i dalších proměnných)

Značení, I Máme individuální (krátké) řady časů průjezdů jednotlivými branami T, 1 j, T1 j, T1 j, K, T1 j, K, T n mj, Tmj, Tmj, K T 1 2 3 1 2 3 mj 1 nm i-té vozidlo, j-tá brána individuálnířady mají obecně různou délku Parkování v úseku mezi j-tou a (j+1)-ní branou (1) Tij ijt < t a (2) + t < T i, j + 1 i, j + 1, t

Značení, II (Velmi) jednoduchý přístup xb, j (1 ) T ij < t a i, j+ 1, t : = j+ 1 = K. j může/měla by záviset na lokálních +1,t vlastnostech dopravního proudu Proxy pro počet parkujících na parkovišti v úseku j (mezi branami j, j+1) N j ( t) = I( vozidlo i splnuje (1 )). I( vozidlo i splnuje (2)) i + 1 v x., j P, j

Konstrukce proxy pro příznak parkování (pro binární A/N klasifikaci jednotlivých vozidel v daném úseku) count 0 50000 100000 150000 200000 0 50 100 150 200 speed (km/h)

Relevantní jsou jen nízké rychlosti (histogram pro rychlosti pod 80 km/hod) count 0 2000 4000 6000 8000 10000 12000 0 20 40 60 80 speed (km/h)

Klasifikační chyby Parkování Klasifikace pro proxy proměnnou z průjezdových dat Ano Ne Skutečnost Ano Korektní FN Ne FP Korektní

Konstrukce proxy Návrh třídy pravidel Optimalizace zvoleného kritéria FN, FP total misclassification weighted total miscalssification ROC (AUC) Klasifikační pravidla pevná/globální vs. lokální

Časová a prostorová nehomogenita (mediánová trajektorie) 0 500000 1500000 2500000 0 500000 1500000 2500000 0 500000 1500000 2500000 0 500000 1500000 2500000 R.36.5 R.59 R.83 R.92 R.111.5 R.123 R.144 R.150 100 80 60 40 20 0 P.37 P.22 P.18 P.14 P.4 R.NA R.4 R.18 100 80 median speed 60 40 20 0 P.NA P.149.5 P.144 P.123 P.111.5 P.92 P.83 P.61 100 80 60 40 20 0 0 500000 1500000 2500000 0 500000 1500000 2500000 0 500000 1500000 2500000 0 500000 1500000 2500000 hour since start

Kritéria pro klasifikaci parkování Rychlost lokální pravidlo 1/3 mediánu rychlosti pro daný úsek v době průjezdu A Z = Cas_dif.min - 60 * Vzdalenost/(dana rychlost) Doba zbývající pro parkování při mediánové rychlosti průjezdu úsekem alespoň B minut

Důsledky pro konstrukci proxy proměnné Kritéria pro hodnocení parkovacího statusu musí být lokální (v prostoru i čase) Musí zohledňovat nepravidelností dané sníženou rychlostí dopravního proudu v důsledku - odlišného výškového profilu úseku - congestion - dopravních omezení bylo by dobré aby predikční systém o omezeních věděl plánovaných

Vliv cutoffu rychlosti na FN FP.cut.Z.10.nom.rych.Z.85 0 20 40 60 80 speed cutoff FP rate 0.000 0.002 0.004 0.006 0.008 0.010 0.012

Dílčí orientační test pro FP Pravidlo se aplikuje i na úseky v nichž žádné parkoviště není Ta vozidla která pravidlo klasifikuje jako pozitivní jsou FP Problémy - úseky bez parkoviště nemusejí mít všechny vlastnosti stejné jako úseky s parkovištěm - FP takto můžeme optimalizovat, mnohem důležitější FN ale nikoli

Misclassifikace z manuální sčítací kampaně Model.20 Vezmeme-li manuální kampaň za zlatý standard, máme: total misclassification=0.0368 FN 0.0209 FP 0.3042 Neparkuje Parkuje Manuální kampaň Neparkuje 0.9241 0.0197 Parkuje 0.0171 0.0391

Vztah mezi manuálním sčítáním a proxy model.20 0 10 20 30 0 10 20 30 pruzkum

Časově-proměnlivá kalibrace a různá intenzita krátkodobého parkování v průběhu dne (výsledky manuálního sčítání) relativni cetnost parkujicich 0.000 0.005 0.010 0.015 0.020 0.025 pruzkum model.20 0 10 20 30 40 50 60 70 hodina od pocatku pruzkumu

Počty parkujících odvozené z proxy proměnné a nominální kapacita parkoviště proxy 0 20 40 60 0 10000 20000 30000 40000 time

Proxy pro jednotlivý úsek, chování v různých kalendářních dnech proxy truck 0 20 40 60 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 day

Statické modelování, I Poissonovský model GLM třída výhoda IRWLS algoritmu zohlednění heteroskedasticity periodicita v intenzitách Overdispersion quasi-poisson GLM negativně-binomický model

Statické modelování, II jt ( ) P ~ Poi µ jt log jako link Wliv typu dne a hodiny: Additive (on the log scale) log µ = α + β + γ ( ) jt j j, d ( t ) j, h( t) Interaction (non-multiplicative on original scale) reparametrizace: log ( µ ) jt = α j + β j, d ( t ) + γ j, h( t ) + δ j, dh( t ) log ( µ jt ) = ω j, dh( t )

Zpětná transformace na původní škálu (# of vozidel) 20 30 40 50 0 50 100 150 time in hours within a week weekday and hour effects on original scale

Trajektorie intenzity parkování pro různé dny v týdnu (na log škále) weekday and hour effects 2.8 3.0 3.2 3.4 3.6 3.8 4.0 Sun Mo Tue Wed Thu Fri Sat 5 10 15 20 time in hours within a week

Dynamický model (Poissonovský model Markovského typu) Jako kovariáty se používá nejen externích veličin (např. čas) ale i vlastní historie procesu Markovský (nehomogenní) řetězec Jednoduchá specifikace Jednoduchá interpretace analog AR modelů na povrchu (více komplexity uvnitř) MA analog také možný, ale výrazně komplikovanější Coxův process Relativně jednoduchý odhad (požívá výhod GLM třídy) Jednoduchá implementace v online prediktivním nástroji

jt Lag1 Modely s jediným lagem (jednoduchá alternativa k distributed lags přístupu) ( ) P ~ Poi µ log jt ( µ ) ω + β. ( P ) jt ˆ = 1.025(0.004) β = j, h log j, t 1 Lag20 (minut) log ˆ = 0.950 β ( µ ) ω + β. ( P ) jt = j, h log j, t 20 (0.004)

Lag20 model, statická část (ne-ortogonalita, přítomnost dynamické části deformuje tvar týdenní periodicity oproti plně statickému modelu) weekday and hour effects 2.30 2.35 2.40 2.45 2.50 2.55 0 50 100 150 time in hours within a week

Použití delší historie? Získat na efektivitě predikcí pokud použijeme více lagů simultánně? Technicky náročné (blízké lagy jsou velmi korelované). Jednou možností je použít ideu of Almonova modelu (populárního v Ekonometrii) a mírně jej zobecnit za použití B-splinové (namísto polynomiální) báze pro transformaci pořadových čísel lagů

Almon model, (time invariant) filter 0 5 10 15 20 25 30 lag coefficient 0.0 0.2 0.4 0.6 0.8 1.0

Časově-proměnlivý koeficient pro pevně zvolený lag? Předchozí dynamické modely měly jeden nebo více lagů s pevným (časově ne-proměnlivým) koeficientem dynamickáčást pak sestává ze specifikace časově- (byť nelineárního) filtru neproměnlivého Lze ale uvažovat o konstrukci časově-proměnlivého filtru ve smyslu časově-proměnlivého koeficientu pro pevně daný lag Např. koeficient pro lag 1 či lag 20 se mění s časem (např. dle dne v týdnu a/nebo denní hodiny. Ideálně, den*hodina interakce jak pro statickou tak dynamickou část Pak máme časově-proměnlivé absolutní členy i směrnice Ale: kolinearita jejich odhadů má tendenci likvidovat případné vylepšení vnesené obecnějším/flexibilnějším modelem

Kompromis Jediný lag s časově-proměnlivým koeficientem (model bez čistě statické části) Odpovídá modelu s trojnou interakcí (na log škále máme den v týdnu*hodina*lagovaný počet, bez marginálních členů či nižších interakcí) Roughness penalizace nutná pro regularizaci koeficientů popisujících trajektorie

Regularizovaný model s interakcí Poisson P ~ Poi( µ ) jt jt Linearní prediktor na (log) link škále log( µ ) β.log( P ) jt = jh j, t 20 (časově-nehomogenní Markov Poisson model) Roughness penalizace koeficientů ( β ) + λ. ( β. H )'.( β H ) L. s β = β j M β 1 jh a 1 1 M 0 0 1 K K K K 1 1 0 M 1

Lag20, změny koeficientu uvnitř týdne log lag1 effects by WH levels 0.985 0.990 0.995 1.000 1.005 0 50 100 150 time in hours within a week

Testování (prakticky motivovaných) hypotéz Může být užitečné využít info z předchozích parkovišť (proti směru jízdy)? Lineární prediktor expandován na log( µ ) β.log( P ) δ. ( P ) jt = jh j, t 20 + log j 1, t 20 Přídavek členu odpovídajícímu lag20 opředchozícho parkoviště lze snadno testovat (LRT) ˆ δ = 0.419, (0.001), p value < 0.0001