Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Predikce odchylek v jízdních řádech založená na AVL datech

Transkript

1 Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Zbyněk Jiráček Predikce odchylek v jízdních řádech založená na AVL datech Katedra softwarového inženýrství Vedoucí diplomové práce: Studijní program: Studijní obor: RNDr. Vladislav Martínek Informatika Softwarové systémy Praha 2014

2 Děkuji vedoucímu diplomové práce, RNDr. Vladislavu Martínkovi, za spolupráci, užitečné rady a připomínky; dále též všem přátelům, kteří mě při tvorbě práce podporovali. Děkuji též Dopravnímu podniku hl. m. Prahy, a. s. za poskytnutí podkladových dat.

3 Prohlašuji, že jsem tuto diplomovou práci vypracoval samostatně a výhradně s použitím citovaných pramenů, literatury a dalších odborných zdrojů. Beru na vědomí, že se na moji práci vztahují práva a povinnosti vyplývající ze zákona č. 121/2000 Sb., autorského zákona v platném znění, zejména skutečnost, že Univerzita Karlova v Praze má právo na uzavření licenční smlouvy o užití této práce jako školního díla podle 60 odst. 1 autorského zákona. V... dne... Podpis autora

4 Název práce: Predikce odchylek v jízdních řádech založená na AVL datech Autor: Zbyněk Jiráček Katedra: Katedra softwarového inženýrství Vedoucí diplomové práce: RNDr. Vladislav Martínek Abstrakt: Relevantní plánování tras v hromadné dopravě je limitováno spolehlivostí přepravní sítě. V některých případech se však ukazuje, že můžeme plánovat trasy s přihlédnutím k očekávaným zpožděním a tím spolehlivost nalezených spojení vylepšit. Tato práce se soustředí na předpověd zpoždění v sítích hromadné přepravy s využitím dat ze systémů sledování polohy vozidel známých jako AVL data. Ta jsou typicky shromažd ována přepravci. Porovnávány jsou různé algoritmy za použití reálných dat ze sledovacího systému tramvají v Praze. Práce též obsahuje diskusi o možném využití informací získaných pomocí použitých metod v informačních systémech pro cestující. Klíčová slova: jízdní řády, městská hromadná doprava, AVL, predikce Title: Deviations prediction in timetables based on AVL data Author: Zbyněk Jiráček Department: Dept. of Software Engineering Supervisor: RNDr. Vladislav Martínek Abstract: Relevant path planning using public transport is limited by reliability of the transportation network. In some cases it turns out that we can plan paths with respect to expected delays and hereby improve the reliability of the resulting path. This study focuses on prediction of the delays in public transport systems using data from vehicle tracking systems known as the AVL data. These data are typically collected by the transit operators. Various algorithms are compared using real data from Prague trams tracking system. The study also includes a discussion about a possible utilization of the information gained from the used methods in passenger information systems. Keywords: timetables, public transportation, AVL, prediction

5 Obsah 1 Úvod Cíle práce Terminologie Zkratky Pojmy Struktura práce Analýza Zaměření práce Orientace na MHD Orientace na dynamický přístup Orientace na Prahu Obecné poznatky Nepravidelnosti v sítích MHD Vliv konstrukce jízdních řádů Existující metody Existující systémy TDplanner ecompass Specifika AVL systémů Situace v Praze Dostupná data Trasy linek Roztřídění jednotlivých spojů Jízdní řády Kódy záznamů Souhrn Důsledky Použité nástroje Matlab Vlastní podpůrné knihovny Výběr a srovnání metod Analýza Zvolené metody Notace Formalizace zadání úlohy Vyhodnocení a srovnání algoritmů Testovací prostředí Statistické metody Cílové zpoždění jako funkce výchozího zpoždění Cílové zpoždění jako funkce času Shrnutí Neuronové sítě Motivace a obecné poznatky

6 3.3.2 Základní varianta Vylepšení Zahrnutí aktuální dopravní situace na lince Shrnutí Regrese Lineární regrese Vyšší stupně regrese Shrnutí Srovnání Implementace simulačního prostředí Předpoklady Větvení linek Sledování polohy Predikční knihovna Datový model Rozhraní pro zadávání dat Predikce Unit testy Použití pro simulace Simulační knihovna Datový model Rozhraní Vizualizace Dokumentace Výsledky simulací Zvolené metody Srovnání s aktuální situací v Praze Návrat ke statickým metodám Vliv vzdálenosti od cíle na přesnost predikce Spojení v náhodné časy Spojení s přestupy Spolehlivost Pevně daná rezerva Určení rezervy na základě minulých dat Výsledky Shrnutí Využití v praxi Zastávková tabla Navigace Závěr Možnosti do budoucna Seznam použité literatury 55 Přílohy 57 2

7 1. Úvod Mnoho lidí v dnešním světě denně cestuje, nejčastěji do práce a do školy. Při tom se rozhodují mezi dopravou individuální (auto, kolo atd.) a hromadnou. Během tohoto rozhodování lidé počítají s různými aspekty, jako je cena a délka cesty. Důležitým aspektem bývá též spolehlivost zvoleného dopravního prostředku. Zejména ve větších městech je hromadná doprava klíčová. Napomáhá totiž redukci automobilové dopravy, která by jinak při současné rozšířenosti automobilů mezi lidmi byla pro většinu měst neúnosná. Důvodem je jak kapacita komunikací a parkovacích míst, tak hledisko negativních vlivů na životní prostředí. Z tohoto důvodu bývají investovány nemalé částky na podporu městské hromadné dopravy (MHD) a bývá snahou činit ji komfortnější a spolehlivější, aby mohla dopravě automobilové konkurovat. Toho se většinou dosahuje například budováním podzemních tratí (metra) a oddělováním provozu tramvají a autobusů od individuální dopravy. Nikdy nejspíše nebudeme schopni zajistit, aby byla sít hromadné dopravy stoprocentně spolehlivá, vždy bude docházet k nepravidelnostem, výlukám a mimořádným událostem. Můžeme však alespoň mírnit důsledky nepravidelností v síti, pokud o tom budeme cestující informovat. Můžeme též vylepšit systémy na plánování cest v MHD tak, aby preferovaly spolehlivější trasy a zohledňovaly při hledání cesty aktuální situaci. Tím je možné cestujícím ušetřit cenné minuty, které by jinak strávili čekáním na zastávce nebo popojížděním v kolonách. Zároveň jde o řešení, která jsou v dnešní době na mnoha místech zaveditelná v praxi, a to dokonce bez příliš vysokých nákladů. Velká část dopravců již nějaký čas shromažd uje data o pohybu svých vozidel, typicky v reálném čase. Tato data se často označují jako Automated vehicle location (AVL) data. Nabízí se tedy možnost tato data použít k predikci pohybu vozidel, na základě čehož lze vyjádřit odhady budoucích zpoždění v síti. Vzhledem ke vzrůstajícímu rozšíření mobilních telefonů a tabletů s připojením k internetu, by mohly být získané informace předávány cestujícím přes internet právě do těchto zařízení. Druhou možností je předávat informace skrze informační systémy na zastávkách. 1.1 Cíle práce Cílem této práce je najít, porovnat a případně vylepšit algoritmy pro analýzu AVL dat za účelem predikce vývoje zpoždění vozidel MHD v reálném čase. Metody budou porovnávány nad daty ze sledovacího systému pražských tramvají z března a dubna Součástí by měla být také implementace vybraných metod a vyjádření přínosu oproti systémům, které se v současnosti v Praze používají. Cílem je též provést diskusi o využitelnosti těchto dat v praxi. 3

8 1.2 Terminologie Zkratky AUDIS dopravní řídící a informační systém sloužící ke sledování provozu autobusů v Praze AVL (automated vehicle location) obecné pojmenování systémů sledujících polohu vozidel hromadné dopravy DPP Dopravní podnik hlavního města Prahy DORIS (dopravní řídící a informační systém) slouží ke sledování provozu tramvají v Praze GPS (global positioning system) polohový systém, GPS souřadnice určuje libovolné místo na zemi; tvoří ji dvojice (zeměpisná šířka, zeměpisná délka) MHD městská hromadná doprava MPV (monitorování polohy vozidel) systém sloužící ke sledování provozu vozidel, využívá se v Praze, Ostravě a ve Zlíně PID (Pražská integrovaná doprava) dopravní systém zahrnující MHD v Praze a linky příměstské dopravy v okolí Prahy, včetně vlaků; většinu linek obsluhuje Dopravní podnik hl. m. Prahy (DPP), zejména na regionálních linkách však často jezdí soukromí dopravci Pojmy AVL data jsou výsledkem sledování provozu vozidel. Zpravidla jde o záznamy obsahující čas, identifikaci spoje, jeho polohu a aktuální zpoždění. Dopravce (též přepravce) je označení pro společnost, která provozuje hromadnou dopravu, vlastní potřebná vozidla a příslušnou infrastrukturu (zastávky, koleje,...). Jízdní řád je předpis pro spoje dané linky, který určuje ke každé zastávce na trase čas, kdy má tento spoj v této zastávce zastavit. Linka je tvořena všemi spoji se stejnou identifikací (typicky číselnou), ty mají stejnou nebo velmi podobnou trasu. Linka má zpravidla dva směry, jsou ale i výjimky, např. okružní nebo polookružní linky mají směr pouze jeden. V kontextu predikčních algoritmů bývá každý směr považován za samostatnou linku. Mimořádná událost je souhrnný termín pro nahodilé události mající negativní vliv na provoz. Patří mezi ně nehody, poruchy vozidel atd. Predikční algoritmus je algoritmus, který přijímá na vstupu AVL data a jeho výstupem je odhad zpoždění vybraného spoje ve vybrané zastávce. Statická predikce je přístup, kdy používáme pouze minulá data (záznamy 4

9 ze sledování spojů z minulých dní, či měsíců); aktuální situace na vstupu známa není. Dynamická predikce je přístup, kdy používáme jak minulá, tak aktuální data (v reálném čase). Preference MHD je soubor opatření, jejichž účelem je zvýšení přesnosti a komfortu MHD. Patří sem například úpravy křižovatek, které upřednostňují vozidla MHD, nebo vyhrazené pruhy pro autobusy. Průjezd zastávkou je souhrnné označení pro příjezd a odjezd. Různé systémy totiž monitorují vozidla bud při příjezdu do zastávky, nebo při odjezdu ze zastávky. Abychom zůstali v obecné rovině, používá se v práci termín průjezd, který není blíže specifikován. Spoj je jeden průjezd konkrétním vozidlem po trase určité linky. Stejné vozidlo přitom většinou realizuje několik spojů za den. Trasa je posloupnost zastávek. Zastávka je bod na trase. Zastávkové tablo je elektronická informační tabule umístěná na zastávce, která obsahuje seznam odjezdů (linka, čas), většinou včetně předpokládaného zpoždění. Mohou existovat i mobilní verze, kde si uživatel vybere zastávku, pro kterou chce tablo zobrazit. Používá se též termín odjezdová tabule. Zpoždění je odchylka daného spoje od jízdního řádu (v dané zastávce). Lze ho vyjádřit jako rozdíl skutečného a plánovaného průjezdu zastávkou. 1.3 Struktura práce Práce je rozdělena následovně. V následující, druhé kapitole je popsán současný stav na úrovni akademického poznání o predikci zpoždění. Dále je zmíněna aktuální situace v Praze a popis dat, která budeme používat k testům. Třetí kapitola se věnuje popisu zvolených predikčních metod a srovnává je mezi sebou. Čtvrtá kapitola dokumentuje prostředí vytvořené pro implementaci predikčních metod, testování a simulace. Pátá kapitola popisuje simulace prováděné nad dostupnými daty a přináší srovnání se systémy aktuálně použitými v Praze. Kapitola se zabývá též možnostmi využití predikce v praxi. Závěrečná, šestá kapitola dokument uzavírá a přináší zhodnocení a možnosti dalšího vývoje. 5

10 2. Analýza Cílem této kapitoly je přinést přesnější vymezení kontextu a cílů práce. To zahrnuje i obecné poznatky o tématu predikce odchylek od jízdních řádů, včetně analýzy existujících prací a článků. Dále se kapitola zabývá rozborem dané problematiky v kontextu dostupných informací o pražské MHD. Kapitola se věnuje také formátu dostupných dat, která byla v práci použita k testování jednotlivých algoritmů. Závěrečná část se zabývá přehledem použitých prostředků a nástrojů. 2.1 Zaměření práce Orientace na MHD Práce se soustředí na hromadnou dopravu ve větších městech; meziměstskou a mezistátní dopravou se nezabývá, stejně jako se nezabývá sítěmi v menších městech. To má několik důvodů. Specifika sítí hromadné dopravy Predikce odchylek v meziměstské dopravě je o dost jinou úlohou, nežli predikce v dopravě městské. V MHD máme k dispozici mnoho spojů, které samy o sobě popisují dopravní situaci. Zdržení, nebo překážka na cestě se projeví tím, že se v daném úseku v nedávné době několik spojů zpozdilo. U dopravy meziměstské bychom pravděpodobně potřebovali více vstupů. Spojů je mnohem méně, což znamená menší množství aktuálních informací. To samé platí pro MHD v menších městech, kde je celý systém tvořen pouze několika linkami se spíše delšími intervaly. Zejména v dopravě vlakové se navíc do řízení provozu velkou měrou vkládají dispečeři, kteří musí pracovat s omezenou kapacitou tratí. Kvůli nižší frekvenci spojů se častěji přistupuje k jejich úmyslnému zdržení, aby byly zajištěny přestupy ze zpožděných spojů. Toto jsou faktory, které automatizovaný systém může jen obtížně předvídat. Důležitější však je, že u meziměstské dopravy nevzniká tak velká potřeba předpovídat zpoždění algoritmicky. Jelikož je spojů v meziměstské dopravě mnohem méně, je možné zpoždění předpovídat ručně. Bývá tak zvykem, že v dopravě dálkové autobusové, vlakové nebo letecké, cestující informace o zpožděních mají. Složitá dopravní sít Důvodem k orientaci na MHD ve větších městech je též komplexita dopravní sítě. Doprava meziměstská je typicky uspořádána hierarchicky tak, že z menších obcí existuje spojení do jednoho nebo více blízkých měst a města jsou vzájemně propojena mezi sebou rychlejšími dopravními prostředky. Toto uspořádání se často označuje jako dálniční hierarchie. Podobná situace platí v menších městech, kde bývá MHD organizována paprskovitě z centrální zastávky (zpravidla autobusového či vlakového nádraží) směrem k okrajovým částem města. Důsledkem toho je, že ve většině případů mezi dvěma body existuje pouze jedna smysluplná trasa. Naproti tomu v komplexnějších systémech městské dopravy je sít složitější, úměrně k velikosti města. Kromě radiálních linek spojujících centrum s okrajovými 6

11 částmi existují i tzv. linky tangenciální, které spojují jednotlivé části na kraji města. Důsledkem je, že pro mnoho relací existuje více smysluplných tras a záleží na aktuálním čase, dopravní situaci a preferencích cestujícího, která z možných tras je nejvýhodnější. Z toho všeho vyplývá větší potenciál predikčních systémů pro MHD ve městech s netriviální sítí linek. U meziměstské dopravy informace o zpoždění typicky uživateli kromě většího přehledu příliš nepomůže, nebot je méně pravděpodobné, že by existovala alternativní trasa, kterou by se mohl vydat a dorazit do cíle dříve. To samé platí pro malá města. Naproti tomu ve složitější síti MHD může aktuální dopravní situace volbu trasy zásadně ovlivnit, protože v mnoha případech existuje možných tras více Orientace na dynamický přístup V práci je rozdělen přístup k předpovědím odchylek do dvou skupin - na statickou a dynamickou predikci. Statická predikce je přístup, kdy používáme pouze minulá data. Aktuální (real-time) data bud nejsou využívána, nebo nejsou systému vůbec přístupná. Takový systém nezná aktuální situaci, takže může předpovídat pouze očekávatelné odchylky, ke kterým dochází pravidelně a jsou tedy vypozorovatelné z dat z minulosti. Dynamická predikce je přístup, kdy používáme jak minulá, tak aktuální data. To umožňuje rozpoznávání neočekávaných problémů v přepravní síti. Na druhé straně mají real-time provozní data pouze krátkou časovou platnost, po chvíli se stávají zastaralými. Pro cestujícího tak má informace z dynamických predikčních systémů přínos oproti statické predikci pouze, pokud je právě na cestě, nebo se na cestu bezprostředně chystá. Práce se soustředí na předpověd odchylek od jízdních řádů v reálném čase. To znamená, že nám půjde zejména o predikci dynamickou Orientace na Prahu Ačkoliv v analýze a návrhu konkrétních algoritmů zůstává práce v obecné rovině, nezávislé na konkrétních datech, při vyhodnocování těchto metod se soustředí na město Prahu, konkrétně na její tramvajovou sít. K tomuto existuje několik důvodů. Praha má dostatečně hustou sít hromadné dopravy, která podléhá vlivům dopravní situace ve městě. To přináší možnost zkoumat tyto vlivy a zejména pak zkoumat schopnost jednotlivých algoritmů s těmito jevy pracovat při předpovídání odchylek od jízdních řádů. Zároveň máme k dispozici AVL data ze dvou měsíců sledování tramvajových linek v Praze, nad kterými je možné po určitém předzpracování vybrané algoritmy porovnávat. V rámci předběžného průzkumu nebyla nalezena žádná práce, která by se věnovala analýze dynamických algoritmů nad sítí pražské hromadné dopravy. Práce si neklade za cíl obecné porovnání predikčních metod, které by bylo platné univerzálně pro všechny sítě (nebo alespoň většinu sítí) hromadné dopravy. Přepravní sítě se typicky velmi liší svou složitostí, způsobem tvorby jízdních řádů, 7

12 mírou preference a též konkrétním sledovacím systémem, který je použit. Všechny tyto aspekty pravděpodobně budou mít vliv na to, které metody budou úspěšnější a které méně. 2.2 Obecné poznatky Nepravidelnosti v sítích MHD Nepravidelnosti v síti MHD můžeme rozdělit podle původu do dvou skupin opakované a náhodné [1]. Opakované nepravidelnosti se vyskytují pravidelně v podobných časech na stejných místech. Může jít například o houstnutí dopravy v některých oblastech v době přepravních špiček, což při nedostatečné preferenci MHD má negativní vliv na její přesnost. Naproti tomu náhodné nepravidelnosti jsou způsobovány neočekávanými mimořádnými událostmi. Náhodné nepravidelnosti bývají závažnější zejména u kolejových systémů dopravy (tramvaje, vlaky), kde i drobný problém může zasáhnout mnoho cestujících, protože kolejová vozidla typicky nemají možnost se vzájemně objíždět. Pro nás je důležité, že náhodné nepravidelnosti nemohou být předpovídány statickými algoritmy. Naproti tomu dynamické algoritmy mohou problémy odhalit, protože mají přístup k informacím o aktuální situaci Vliv konstrukce jízdních řádů Na pravidelnost provozu má velký vliv také samotná konstrukce jízdních řádů. Zde existují dva protichůdné směry, kterými se mohou konstruktéři jízdních řádů vydat. Jednou z možností zlepšení spolehlivosti je vytváření časových rezerv v jízdních řádech. To ale může zbytečně prodlužovat cestu. V tramvajové síti dokonce může takový postup paradoxně zpoždění prohlubovat, například v následujícím příkladu: Za sebou jedou dvě vozidla, první jede předčasně, bude tedy muset v zastávce čekat. Druhá tramvaj je zpožděná, nemůže ale předjíždět, a proto bude nuceně v zastávce čekat také. Tím se její zpoždění ještě více prohloubí. Protichůdnou možností je nastavit jízdní doby na co nejkratší, což přináší přinejmenším papírové zrychlení dopravy, může to však mít negativní vliv na spolehlivost [1], nebot nabrané zpoždění je velmi těžké v takovém případě dohánět. Toto je blíže zkoumáno na datech ze sledovacího systému pražských tramvají v kapitole Existující metody Úloha předpovědi odchylek v sítích hromadné dopravy byla již dříve zkoumána. Existují jak statické, tak dynamické algoritmy. Statické algoritmy se většinou soustředí na výpočet průměrného zpoždění spojů dané linky v každé zastávce na trase. O tuto hodnotu pak opravují existující jízdní řády v zastávkách [2]. Dynamický přístup je rozmanitější, nebot tyto algoritmy mají k dispozici více informací. Místo průměrného zpoždění v zastávce tak můžeme použít například 8

13 podmíněnou střední hodnotu podle aktuálního zpoždění [3]. Jednou z možností je též na základě aktuální pozice získané z AVL systému vypočítat vzdálenost do cíle (např. v metrech). K tomu lze z minulých dat sestavit pravděpodobnostní závislost času zbývajícího do cíle na vzdálenosti. Z této závislosti můžeme pro danou vzdálenost vyjádřit střední hodnotu pro výpočet odhadu délky cesty a rozptyl pro vyjádření intervalu spolehlivosti tohoto odhadu [5]. Kromě statistických metod se nabízí též použití umělé inteligence. Neuronové sítě se ukázaly být poměrně úspěšné při hledání vztahů mezi aktuálními a budoucími zpožděními na autobusové lince v Houstonu v Texasu [6]. K podobnému účelu je možné využít též regresi. Z obecnějšího srovnání statistických metod a metod umělé inteligence vyplývá, že neuronové sítě by měly být zdatnější při hledání složitějších nelineárních vztahů. Naproti tomu jejich zásadní nevýhodou je mnohem nižší transparentnost, jelikož neuronová sít je z vnějšího pohledu spíše černou skříňkou a je náročné při jejím použití určovat například intervaly spolehlivosti [7]. 2.4 Existující systémy Kromě samotných algoritmů pro výpočet předpovědí existují i návrhy na komplexní systémy, které umí AVL data zpracovat v užitečné informace pro cestující TDplanner Jedním takovým systémem je TDplanner [4]. Jde o systém navigace v hromadné dopravě pro přenosná zařízení fungující v Bostonu ve Spojených státech. Systém používá informaci o pozici uživatele (z GPS modulu v zařízení) a aktuální data o pozicích vozidel. Na základě toho může reagovat, pokud uživatel zmešká autobus, nebo pokud je spoj opožděn. Citovaný článek však bohužel nespecifikuje, jestli jsou nějakým způsobem předpovídány průjezdy zastávkami ecompass Projekt ecompass se soustředí na robustní plánování tras ve velkých městech [8]. Připomíná, že ve velkých městech je plánování odlišné od plánování na úrovni například celostátní dopravní sítě, nebot dopravní sít ve městě není nutně hierarchická a často existuje mezi vybranými body několik srovnatelných tras. Autoři zároveň zmiňují, že intervaly městských linek bývají krátké, pročež není potřeba navádět cestující na konkrétní časy odjezdů, ale stačí pouze informace o linkách a směru. To znamená, že místo informace použijte linku X odjíždějící v HH:MM v daném směru obdrží cestující instrukce ve formě použijte první spoj linky X nebo Y v daném směru. Při plánování tras jsou využívána data z provozu v posledních dnech, na jejichž základě jsou opraveny jízdní řády. 9

14 2.5 Specifika AVL systémů Konkrétní AVL systémy v různých městech se mohou lišit. Dokonce může existovat i více systémů v rámci jednoho města, pokud v něm operuje více dopravců. Různé způsoby fungování sledovacích systémů mohou mít vliv na přesnost předpovědí. Základními parametry jsou: četnost zasílání informací o poloze způsob získávání aktuální polohy přesnost a chybovost systému Odlišnosti fungování AVL systémů se projevují také v pracích a článcích, které se tomuto tématu věnují. Někde se počítá s pravidelnými aktualizacemi polohy v krátkých časových intervalech (např. 5 sekund [6]). Jinde se využívají pouze informace o příjezdu a odjezdu ze zastávky [3] Situace v Praze Práce se zaměřuje na porovnávání algoritmů nad MHD v Praze. Pro tento účel máme k dispozici data ze sledovacího systému pražských tramvají. Zde stručně shrneme, jak systémy sledování vozidel ve městě fungují a jaké informace mají cestující k dispozici. Systémy sledování vozidel V Praze existují tři sledovací systémy: DORIS, AUDIS a MPV. Všechny uvedené systémy jsou neveřejné, přístup k nim mají pouze povolané osoby dopravců, resp. organizátora dopravy. Cestující mají k dispozici jen omezené výstupy. DORIS (dopravní řídící a informační systém) je AVL systém sledující provoz všech tramvajových linek v Praze. Jeho vlastníkem je Dopravní podnik hl. m. Prahy (DPP). Tramvaje jsou zaznamenávány při průjezdu zastávkou pomocí inframajáků, zaznamenává se též vyhlášení zastávky řidičem. [11] AUDIS je obdobný systém fungující pro autobusy DPP. Pozice se získává pomocí GPS, na dispečink se zasílá pomocí městské radiové sítě TETRA. Ta má omezenou propustnost, proto vzhledem k vysokému počtu autobusových linek nelze aktualizovat polohu příliš často. [11] MPV (monitorování polohy vozidel), nebo též MPVnet je systém monitorující polohu autobusů všech ostatních dopravců Pražské integrované dopravy (PID), s výjimkou DPP. Používá se také v Ostravě a ve Zlíně. Jeho výhodou je, že ke komunikaci s dispečinkem používá sít GSM (sítě mobilních operátorů), která je mnohem robustnější a umožňuje častější aktualizace. [10] 10

15 Výstupy pro cestující K cestujícím se dostávají data ze sledovacích systémů zprostředkovaně. Například zastávková tabla umístěná v některých zastávkách tramvají zobrazují předpokládané odjezdy (včetně zpoždění) a čerpají data ze systému DORIS. Na internetu jsou k dispozici mobilní zastávková tabla, ta čerpají data ze systému MPV [10] [12]. I ta zobrazují seznam odjezdů ze zastávky včetně zpoždění. Uváděná zpoždění nicméně nejsou nijak predikována, používá se aktuální zpoždění daného vozidla a předpokládá se, že to zůstane konstantní. 2.6 Dostupná data Pro testování algoritmů je vhodné mít data z reálného provozu. Ta většinou nejsou veřejná, dopravci si je chrání a zobrazují jen určité výstupy. Praha v tomto případě není výjimkou. My však máme pro studijní účely k dispozici data ze systému DORIS z března a dubna roku Data máme ve formě databáze obsahující záznamy o všech vypravených tramvajových spojích. Každý záznam reprezentuje pozici tramvajového vlaku v daném čase. Záznamy jsou vytvářeny vždy při vyhlášení zastávky nebo při průjezdu kolem kontrolního majáku (ty jsou umístěny ve vybraných zastávkách). Jeden záznam obsahuje následující údaje: Datum a čas Kód Z = vyhlášení zastávky M (příp. MK, MP,...) = průjezd kolem majáku Číslo linky Evidenční číslo vozu ID zastávky (uzlu) ID zastávkového sloupku v rámci uzlu Aktuální zpoždění oproti jízdnímu řádu Databáze obsahuje také tabulku se jmény zastávek. Výše uvedené záznamy obsahují téměř všechny potřebné informace, se třemi výjimkami: 1. V záznamech nejsou explicitně uvedeny trasy linek. 2. V záznamech se nerozlišují jednotlivé spoje (máme pouze evidenční číslo vozu, jenže jeden vůz za den realizuje několik spojů). 3. Záznamy neobsahují jízdní řády. Tyto problémy jsou ovšem řešitelné, rozeberme si je v následujícím textu. 11

16 2.6.1 Trasy linek Trasy linek nejsou v databázi explicitně uvedeny. My je ale potřebujeme znát, abychom podle nich mohli spoje do linek roztřídit. Nabízí se vyjít z předpokladu, že všechna vozidla na dané lince jezdí po stejné trase, pak by bylo možno trasu odvodit z dostupných záznamů. Tento předpoklad však bohužel neplatí a to z následujících důvodů: Spoje, které vyjíždí z vozovny, nebo do ní zatahují, mají jinou trasu. Vlivem výluk a mimořádných událostí mohou některé linky po určité období jezdit po jiné trase. Údaje v databázi nejsou vždy kompletní, některé záznamy mohou chybět, některé mohou být naopak duplicitní. Z dat nelze jednoduše poznat začátek a konec trasy (máme pouze nepřerušený sled zastávek pro každý vůz). Uvedené vlastnosti databázových dat velmi komplikují strojové získání tras linek. Muselo by jít o složitý algoritmus schopný všechny tyto vlastnosti dat zohlednit. Proto se trasy nezjišt ují z databáze, ale zadávají se ručně a přidávají se ke vstupu. Tramvajových linek není v Praze mnoho a nemění se příliš často, proto by mělo být ruční zadání řádově jednodušší, než odvozování tras z databázových dat. Pro jednoduchost chápeme dále každou linku jako jednosměrnou. To znamená, že jednu reálnou linku reprezentujeme pro nás dvěma oddělenými linkami, pro každý směr jednou Roztřídění jednotlivých spojů Kvůli charakteru úlohy potřebujeme rozlišovat jednotlivé spoje. Zpoždění dané tramvaje máme totiž předpovídat na základě minulých spojů stejné linky, proto bychom potřebovali záznamy z databáze roztřídit podle jednotlivých spojů. V databázi nicméně nejsou spoje nijak rozlišeny, máme pouze číslo linky, evidenční číslo vozu a čas, což nám dává sled zastávek pro každý vůz tento sled reprezentuje několik spojů, nebot jeden vůz typicky objede svou trasu několikrát. Vzhledem k tomu, že už známe trasy linek (viz 2.6.1), můžeme sled zastávek rozdělit v místech konečných zastávek, čímž získáme přesně jednotlivé spoje. Potom už zbývá jen tyto spoje namapovat na trasu linky, kterou již známe. To není úplně triviální krok, vzhledem k vlastnostem dat zmíněným v předchozí části. Přiřazení spojů k linkám Vzhledem k chybám a nepravidelnostem v datech bylo potřeba vyřešit, jak roztřídit jednotlivé spoje pod jednotlivé linky. Je zapotřebí, aby všechny spoje stejné linky měly společný seznam zastávek. Nabízí se jednoduché řešení všechny spoje, jejichž seznam zastávek se neshoduje s tím, který je u linky zadaný, budou zahozeny. Ukázalo se však, že nepravidelností v datech je mnoho a důsledkem takového omezení byla ztráta velkého množství (až poloviny) informací. Nakonec byl proto implementován algoritmus, který povoluje drobné odlišnosti konkrétně každý 12

17 spoj může vynechat maximálně omezený počet zastávek v řadě, a to i vícekrát v rámci trasy. Vynechá-li více zastávek za sebou, je jeho trasa považována za odlišnou a spoj je zahozen. Konkrétní hodnota maximálního počtu vynechaných zastávek je volitelná Jízdní řády Jízdní řády sice k databázi přiloženy nejsou, dají se však z databáze zrekonstruovat. Protože každý záznam obsahuje čas průjezdu a zpoždění, stačí odečíst zpoždění od času průjezdu Kódy záznamů Jak již bylo zmíněno v kapitole o formátu zdrojových dat, každý záznam obsahuje tzv. kód. Ten určuje metodu, jakou byla poloha vozu získána. Možnosti jsou následující: Určení polohy vyhlášením zastávky (typ Z): Kdykoliv řidič vyhlásí zastávku, pošle se zpráva do řídícího systému, který zapíše záznam o pozici tramvaje. Nevýhodou je, že pokud řidič opomene vyhlášení zastávky, nebo ji naopak vyhlásí příliš brzy, data jsou nepřesná. Určení polohy kontrolním majákem (typ M): Ve vybraných zastávkách tramvají jsou umístěny inframajáky, které zaznamenají průjezd každé tramvaje. Tato data jsou mnohem přesnější, nevýhodou ale je, že ne každá zastávka je tímto majákem vybavena. Pro budoucí pokusy byly tyto dva typy dat porovnány. To lze udělat v zastávkách vybavených majáky, kde můžeme srovnávat záznamy typu M se záznamy typu Z a sledovat střední hodnotu a rozptyl odchylky mezi vyhlášením zastávky a projetím kolem majáku. Některé z výsledků měření shrnuje Tabulka 2.1. Zastávka Průměr. odchylka 80%-interval Anděl 60 s s I. P. Pavlova 56 s s Karlovo náměstí 44 s s Vozovna Motol 27 s s Tabulka 2.1: Srovnání Z a M záznamů (vybrané zastávky) Z dat můžeme především vyčíst, že vyhlášení zastávky proběhne téměř vždy před projetím kolem majáku. To je logické, nebot zastávka se vyhlašuje při příjezdu, zatímco maják registruje vůz při odjezdu ze zastávky. Dále se též ukazuje, že typicky se rozdíl mezi časem vyhlášení zastávky a časem projetí kolem majáku zvyšuje s tím, o jak důležitou zastávku se jedná. Zde je pravděpodobným zdůvodněním to, že na uzlových zastávkách déle trvá výstup a nástup cestujících, což prodlužuje čas mezi příjezdem a odjezdem. Navíc také mnoho významných zastávek jsou zároveň tzv. kontrolní body. Z těchto zastávek řidič nesmí odjet dříve, než má stanoveno v jízdním řádu, čas od času tedy musí v zastávce vyčkávat. 13

18 2.6.5 Souhrn Protože dat je poměrně mnoho a toto zpracování chvíli trvá, byl vytvořen parser, který vstupní data z databáze převede do formátu lépe použitelného pro naši úlohu. Vstupem tohoto parseru je databáze exportovaná do XML souboru a pro každou linku (jednosměrnou) textový soubor s trasou. Výstupem je XML soubor pro každou (jednosměrnou) linku, který obsahuje všechny spoje této linky, a pro každý spoj časy odjezdů a zpoždění v jednotlivých zastávkách na trase. Obousměrné linky jsou před zpracováním rozděleny na dvě jednosměrné. Formát jednoho takového XML souboru ukazuje výpis 2.1. Výpis 2.1: Ukázka XML souboru se spoji jedné linky <l i n e number= 9b mode= Z > <l i n k evno= 9127 > < v i s i t s t a t i o n= 47/0 > <date>03/01/ : 4 9 : 5 9</ date> <delay> 1</ delay> </ v i s i t> < v i s i t s t a t i o n= 236/0 >... </ v i s i t>... </ l i n k> <l i n k evno= 8681 >... </ l i n k>... </ l i n e> Bylo též potřeba rozhodnout, jak naložit s dvojím typem dat v databázi (záznamy Z a M). Nakonec byl parser vytvořen tak, že na vstupu přijímá parametr určující typ záznamů, které má zpracovávat. Díky tomu je možné použít jak záznamy z vyhlášení zastávek, tak záznamy z majáků v zastávkách. Limitace Parser je sice obecný pro oba typy záznamů, neumí však použít oba typy zároveň. Jde o důsledek toho, že ve výstupním souboru může být pro každou zastávku zadána jen jedna hodnota průjezdu Důsledky Podstatným důsledkem popsaného formátu dat je, že ve skutečnosti neznáme přesné polohy tramvají. V každé chvíli známe pouze poslední projetou zastávku společně s časem a zpožděním v této zastávce. To tvoří problémy zejména při detekci mimořádných událostí majících za následek zastavení provozu. Jediným indikátorem takové události totiž je, že se tramvaj přestane na čas hlásit. Na druhou stranu, nenahlášení zastávky je poměrně obvyklou chybou i při normálním provozu. 14

19 2.7 Použité nástroje Po předběžné analýze problému a získání a přípravě potřebných dat je na řadě další krok vytvořit výpočetní a testovací prostředí, ve kterém bude možno vybrané algoritmy implementovat a testovat. V tomto směru byla práce rozdělena do dvou fází: nejprve obecnější průzkum s implementací a testováním algoritmů v prostředí Matlab, následně pak implementace vlastního prostředí v jazyce C#, ve kterém byly vybrané metody dále testovány a podrobeny simulacím Matlab V první fázi bylo použito výpočetní prostředí Matlab. To je svou podstatou určeno na technické výpočty s větším množstvím dat; s jeho pomocí lze mnoho výpočtů provést s menším úsilím, než by tomu bylo v klasických programovacích jazycích. Vybraná experimentální data ze sledování pražských tramvají byla přes textový soubor načtena do Matlabu, kde byla uložena ve strukturované podobě. Nad těmito daty poté byly implementovány vybrané metody a jejich výsledky vyhodnocovány a porovnávány. Podrobně se tomuto věnuje kapitola 3. Neural networks toolbox Protože jednou z testovaných metod jsou neuronové sítě, přišlo vhod, že pro Matlab existuje speciální toolbox pro modelování neuronových sítí, který byl k tomuto účelu použit. Vlastní implementace neuronové sítě je totiž jinak poměrně náročná Vlastní podpůrné knihovny Prostředí Matlab je sice vhodné pro výpočetní úlohy, u složitějších simulací, kde navíc vzniká potřeba existence uživatelského rozhraní, už ale přestává stačit. Matlab sice sám o sobě je programovacím jazykem a bylo by možné v něm tyto pokročilejší prvky vytvořit, nenabízí ale příliš vysoký programátorský komfort, navíc by bylo zapotřebí mnohem hlubších znalostí tohoto jazyka. Ve druhé fázi proto bylo pro pokročilejší simulace a testy vytvořeno vlastní prostředí (dále označované jako framework). Ten je detailněji zdokumentován v kapitole 4. Výsledky testů a simulací provedených v tomto frameworku jsou popsány v kapitole 5. 15

20 3. Výběr a srovnání metod V této kapitole budou vybrány metody dynamické predikce, které budou následně aplikovány na dostupná data ze sledovacího systému pražských tramvají. Na konci kapitoly potom výsledky jednotlivých metod porovnáme. 3.1 Analýza Zvolené metody Na základě poznatků z analýzy existujících metod v kapitole 2.3 byly vybrány tři hlavní přístupy: statistické zpracování dat, neuronové sítě a regresní metody. Každému z těchto přístupů po řadě odpovídají sekce 3.2, 3.3 a 3.4. V každé z nich je popisována jedna nebo více konkrétních metod, včetně možných vylepšení a vyhodnocení. Jednotlivé přístupy jsou pak vzájemně porovnány v závěrečné sekci této kapitoly Notace V dalším popisu je dodržováno následující značení: Spoje jsou označovány malými písmeny (např. c, s,...). Linky jsou označovány velkými písmeny (např L). Uvažujeme pouze jednosměrné linky, které neobsahují cykly (tzn. každou zastávku obsluhují pouze jednou). Z(L) necht je uspořádaná n-tice zastávek linky L. Linka je považována za množinu spojů; zápis s L tedy označuje spoj s na lince L. Zastávky jsou označovány malými písmeny řecké abecedy (např. α, β,...). Zápis α Z(L) označuje zastávku na trase linky L. Zastávky lze též v kontextu dané linky porovnávat. Zápis α < L β značí, že zastávka α je na trase linky L před zastávkou β. Analogicky α > L β znamená, že zastávka α je na trase za zastávkou β. Úsek linky je trojice (L, α, β) : L je linka, α, β Z(L), α < L β. Zastávce α budeme říkat výchozí zastávka, zastávce β budeme říkat cílová zastávka. Den v týdnu vypravení spoje je funkce W (s) spoje s určující, jestli jde o spoj všednodenní, nebo víkendový. W (s) = 0 znamená, že byl spoj vypraven o víkendu, W (s) = 1 znamená, že jde o spoj vypravený v pracovní den. Čas průjezdu zastávkou je znázorněn jako funkce T spoje a zastávky. T (c, α) značí čas průjezdu spoje c zastávkou α. Čas je udáván jako desetinná hodnota v hodinách (0 24). Mezizastávkový čas je funkce T + spoje a dvojice zastávek. T + (c, α, β) je skutečná doba cesty spoje c ze zastávky α do zastávky β. Jednotkou jsou sekundy. Platí T + (c, α, β) = 3600 (T (c, β) T (c, α)). 16

21 Zpoždění je znázorněno jako funkce D spoje a zastávky. D(c, α) značí zpoždění spoje c v zastávce α. Jednotkou jsou sekundy. Dodatečné zpoždění je znázorněno jako funkce D + spoje a dvojice zastávek. D + (c, α, β) je dodatečné zpoždění spoje c mezi zastávkami α a β. Platí D + (c, α, β) = D(c, β) D(c, α). Odhady jsou označovány vlnovkou nad označením funkce. T (c, α) je tedy odhad času průjezdu spoje c zastávkou α, D(c, α) je odhad zpoždění spoje c v zastávce α Formalizace zadání úlohy Mějme spoj s L v námi zvolené zastávce α Z(L) v čase T (s, α) se zpožděním D(s, α). Zastávku α budeme označovat též jako výchozí zastávku. Jelikož se spoj právě nachází v zastávce α, je tato zastávka poslední, ke které máme informaci o času průjezdu a zpoždění spoje s, tzn. že pro každou zastávku γ Z(L), γ > L α platí, že hodnoty T (s, γ) a D(s, γ) jsou neznámé. Využít můžeme též informací o jiných spojích, ovšem k dispozici máme pouze informace známé v čase T (s, α). Zvolme si nyní zastávku β Z(L) : β > L α. Zastávku β budeme v textu označovat též jako cílovou zastávku. Zajímá nás odhad času průjezdu a zpoždění spoje s v zastávce β, tj. hodnoty T (s, β) a D(s, β). K této úloze se budeme snažit nalézt algoritmy, které ji co nejlépe řeší, a tyto algoritmy poté mezi sebou porovnáme. Zaměřme se nyní ještě na zadání úlohy v kontextu cíle práce. Tím je nalezení co nejlepšího algoritmu na předpověd odchylek od jízdních řádů nad daty z pražské tramvajové sítě. Zadání popsané výše tomuto odpovídá, nebot výstupem je odhad času a zpoždění. Na vstupu máme konkrétní spoj s, dvojici zastávek α a β a k tomu všechny informace známé v čase průjezdu zastávkou α spojem s. To poskytuje dostatečnou obecnost pro porovnávání algoritmů Vyhodnocení a srovnání algoritmů Zbývá vyřešit, jak vlastně budeme algoritmy hodnotit, abychom je mohli vzájemně porovnávat. Pro tento účel si vybereme několik linek z pražské tramvajové sítě a na každé z nich dvojici zastávek (výchozí a cílovou). Výsledné trojice (linka, výchozí zastávka, cílová zastávka) budeme nazývat úseky linek. Algoritmy budeme testovat na jednotlivých spojích vybraných linek. Přitom je třeba vzít v potaz, že porovnávat různé algoritmy můžeme vždy pouze v rámci daného úseku linky; výsledky na dvou různých úsecích linek porovnatelné nejsou. Toto nám může při srovnávání algoritmů A a B způsobit, že nebude možné rozhodnout, který algoritmus je lepší. Může se totiž stát, že na jednom úseku linky bude lepší výsledky přinášet algoritmus A, zatímco na druhém algoritmus B. Výběr linek pro testování Nejprve byla provedena analýza linkového vedení tramvají v Praze. Jejím výsledkem je výběr tří úseků linek, které pokrývají různé charakteristiky tramvajového provozu v Praze. Všechny úseky jsou přibližně stejně dlouhé, jejich průjezd trvá 17

22 typicky kolem 10 minut. Vybrané úseky linek a charakteristiky, které reprezentují, nastiňuje následující seznam: 1. Linka 9 v úseku Národní divadlo Hlavní nádraží (dále značena jako 9b). Ta je v tomto úseku velmi dobře oddělena od individuální dopravy a nemá na cestě žádné semafory. Proto bývá jen zřídka zpožděná. 2. Linka 22 1 v úseku Národní divadlo I. P. Pavlova (dále značena jako 22a). Ve zvoleném úseku, který je jinak od automobilové dopravy oddělen, se nachází několik křižovatek ovládaných semafory. Proto může docházet k menším náhodným zpožděním, která nelze efektivně předpovídat ani dynamickými algoritmy (podle toho, jak se podaří průjezd křižovatkami). 3. Linka 22 v opačném směru v úseku Národní divadlo Malostranská (dále značena jako 22b). Tramvaje v tomto úseku nejsou odděleny od automobilů, proto zde tramvajové spoje mohou nabírat mnohem větší zpoždění, než v předchozích případech, v závislosti na aktuální dopravní situaci. Zpoždění jsou částečně opakovaná (objevují se v podobných časech), den ode dne se ale liší v závislosti na intenzitě dopravy, obsahují tedy i náhodnou složku. Empirická pozorování o charakteristikách zpoždění na vybraných linkách doplníme měřením na dostupných datech. Obrázek 3.1 obsahuje histogramy zpoždění nabraného ve zvoleném úseku, tj. hodnoty D + (s, α, β) přes všechny spoje s L ze sledovaného období, pro úseky 9b, 22a a 22b. Z grafů můžeme vyčíst menší rozptyl zpoždění na úseku linky 9b a větší rozptyl zpoždění na úseku linky 22a. Histogram linky 22b ukazuje, že tato linka v některých případech nabírá ve zvoleném úseku zpoždění přes pět minut, což u předchozích dvou linek nastává jen velmi zřídka. Metriky pro porovnávání výsledků Vyhodnocování algoritmů budeme provádět pro jednotlivé vybrané úseky linek zvlášt. Důvodem k tomu je již zmíněná neporovnatelnost výsledků na různých linkách a úsecích. Spoje každé z vybraných linek nejprve seřadíme podle data a času a poté rozdělíme do dvou množin učící a testovací v poměru 2:1 ve prospěch učící množiny. Učící množina tak obsahuje spoje z období od 1. března přibližně do 10. dubna (u každé linky je hranice mírně odlišná). Testovací množina obsahuje zbylé spoje do 30. dubna. Spoje z učící množiny budou algoritmům poskytnuty na vstupu. Spoje z testovací množiny budou následně využity k vyhodnocení algoritmů. Tím zaručíme, že nebudeme hodnotit výsledky jednotlivých metod na datech, která jsme použili k učení. Zároveň tím simulujeme reálnou situaci (použití minulých dat k odhadu budoucnosti). Poznámka k notaci Učící množinu budeme značit jako L IN, testovací množina bude označena jako L T. Platí L IN L T =, L IN L a L T L. 1 Vzhledem k použití dat z roku 2008 jde ve skutečnosti o sjednocení linek 22 a 23. Linka 23 byla ovšem v průběhu času zrušena a její spoje včleněny do linky 22, proto tuto dvojlinku budeme jednoduše označovat číslem 22 i v této práci. 18

23 Obrázek 3.1: Histogram zpoždění nabraného ve zvolených úsecích pro linky 9b, 22a a 22b (v tomto pořadí odshora dolů). Osa X popisuje zpoždění v minutách, osa Y počet případů. Velikost intervalu je u všech grafů čtvrt minuty. Při vyhodnocování pro každý ze zadaných úseků (L, α, β), které jsme vybrali, spustíme testovaný algoritmus na každém spoji s L T, čímž pro každý spoj s získáme odhad D(s, β), který můžeme porovnat se skutečnou hodnotou D(s, β). Zaved me chybu odhadu E(s) := D(s, β) D(s, β). Na jejím základě definujme následující metriky, které budeme při porovnání algoritmů používat: Průměrná absolutní chyba: MAE = 1 L T s L T E(s) Medián absolutní chyby: MeAE = MEDIAN s LT ( E(s) ) Průměrná absolutní procentuální chyba: MAP E = 1 E(s) L T s L T T + (s,α,β) 19

24 95% kvantil absolutní chyby (tzn. limit chyby, do kterého se vejde 95 % spojů): Q 0,95 = QUANT ILE s LT (0.95, E(s) ) Procentuální podíl spojů odhadnutých s chybou maximálně 60 sekund: P 60 = {s L T : E(s) 60} / L T Použitý typ záznamů V analýze dostupných dat v kapitole jsou porovnávány dva druhy záznamů, které databáze AVL dat obsahuje (typ Z a typ M). Ze začátku byly jednotlivé metody testovány nad oběma typy dat, postupně se však ukázalo, že výsledky nad záznamy typu Z a nad záznamy typu M jsou téměř totožné. Z toho vyplývá, že na použitém typu záznamů nejspíše nezáleží. Proto jsou všechna srovnání a simulace prováděny nad záznamy typu Z, které jsou sice méně přesné, ale jsou k dispozici pro každou zastávku Testovací prostředí Algoritmy byly implementovány a porovnávány v prostředí Matlab. Bylo vytvořeno univerzální prostředí, do kterého je možné přidávat případné nové metody, nebo již implementované metody testovat na nových datech. Implementace Testované metody fungují většinou dvoufázově. V první fázi, kterou budeme nazývat učící fáze, obdrží na vstupu zadaný úsek linky (L, α, β) a učící množinu L IN s informacemi o minulých spojích. V této fázi se od metody nepožaduje žádný výstup. Poskytnutá data si může zpracovat a použít výsledky tohoto zpracování v další fázi. Druhou fázi budeme nazývat vybavovací fází. Při ní je metodě předán spoj s L. Metoda smí použít hodnoty T (s, γ) a D(s, γ) pro zastávky γ Z(L) : γ L α. Tento vstup později rozšíříme o ostatní spoje. Očekávaným výstupem je hodnota D(s, β). Hodnotu T (s, β) můžeme dopočítat automaticky s pomocí jízdního řádu spoje. 3.2 Statistické metody Soustřed me se nejprve na analýzu vztahů mezi vstupem a výstupem. Mějme daný úsek linky (L, α, β) a na vstupu spoj s L. Při vytváření odhadu zpoždění v cílové zastávce máme oproti statickým algoritmům k dispozici zpoždění ve výchozí zastávce. Proto se nyní zaměříme na vztah mezi hodnotami D(s, α) a D(s, β), které zkráceně nazveme výchozí a cílové zpoždění Cílové zpoždění jako funkce výchozího zpoždění Konstantní zpoždění Očekávané je takové chování, kdy s rostoucí hodnotou D(s, α) bude růst též hodnota D(s, β). Jinými slovy čím větší zpoždění ve výchozí zastávce, tím větší 20

25 bude nejspíš i zpoždění v zastávce cílové. V úplně nejjednodušším případě tak můžeme předpokládat, že zpoždění zůstává konstantní. Tím nám vznikne triviální algoritmus, který nazveme SAME-DELAY. Ten jako výstup D(s, β) vrátí hodnotu D(s, α). Pokud by zpoždění zůstávalo konstantní, byl by tento algoritmus velmi přesný. Konstantní dodatečné zpoždění Zpoždění ovšem zpravidla konstantní není. Už jen kvůli zaokrouhlení jízdních řádů na celé minuty je pravděpodobné, že v některých úsecích se bude zpoždění spíše zvětšovat a v některých naopak zmenšovat. Hodnotu, o kterou se zpoždění spoje s mezi zastávkami α a β změnilo, vyjadřuje dodatečné zpoždění: D + (s, α, β). Zmíněný algoritmus SAME-DELAY tuto hodnotu předpokládá vždy jako nulovou. Zkusme ale využít minulých spojů, které jsou algoritmu poskytnuty ve formě množiny L IN, a vyjádřit ze spojů, které již touto trasou projely, průměrnou hodnotu dodatečného zpoždění, kterou označíme jako D +. D + (L, α, β) = 1 L IN t L IN D + (t, α, β) (3.1) Vytvořme nyní algoritmus, který nazveme SIMPLE-AVERAGE, který bude výstup určovat následujícím výpočtem: D(s, β) := D(s, α) + D + (L, α, β) (3.2) Vztah mezi výchozím a dodatečným zpožděním Zkusme se ještě blíže zaměřit na vztah mezi hodnotou D(s, α) a hodnotou D + (s, α, β), tj. vlivu aktuálního zpoždění na budoucí vývoj. Navržený algoritmus SIMPLE-AVERAGE odhaduje hodnotu dodatečného zpoždění D + konstantou D +, kterou spočítá jako průměr minulých případů. Nepředpokládá tak existenci nějakého vztahu mezi D(s, α) a D + (s, α, β). Pokud by ale takový vztah existoval, mohli bychom odhad zpřesnit. To, že by spolu mohly tyto hodnoty souviset, podporuje například následující úvaha: Mějme spoj, který se značně zpozdí. Tím se vytvoří delší interval mezi tímto spojem a spojem předchozím nacházejícím se na stejné lince. Většina městských linek má krátké intervaly a cestující se tak zpravidla neřídí jízdním řádem, ale chodí na zastávku víceméně náhodně. Přijede-li zpožděné vozidlo po delší pauze, znamená to, že tento spoj musí obsloužit více cestujících. To může prodlužovat dobu potřebnou pro výstup a nástup, zejména je-li vozidlo v důsledku přeplněno. Pokud neexistují v jízdních řádech potřebné rezervy, bude se spoj pravděpodobně zpožd ovat stále více. Zároveň spoj následující, pokud není zpožděný, bude mít naopak menší množství cestujících k obsluze, a proto bude jednodušeji dodržovat jízdní řád. Toto při krátkém intervalu může způsobovat shlukování spojů [3]. Naproti tomuto příkladu můžeme postavit linku, jejíž spoj se zpozdí, avšak v jízdním řádu existují dostatečné rezervy. Ty umožní řidiči vozidla, aby zpoždění snížil a situaci tak postupně stabilizoval, což je úplně opačný výsledek, než v předchozím případě, kdy se zpoždění dále prohlubovalo. Uvedenou hypotézu podporují AVL data pražských tramvají. Nejlépe je to vidět, zvolíme-li α jako zastávku přibližně uprostřed trasy a β jako zastávku 21

26 blízkou konci stejné linky. Vztah mezi D(s, α) a D + (s, α, β) vyjádříme následujícím způsobem: spoje zvolené linky rozdělíme do skupin C i podle zpoždění v zastávce α zaokrouhleného na celé minuty. C i := {t L IN : i D(t, α)/60 < i + 1} (3.3) Pro každou skupinu následně vyjádříme průměrné dodatečné zpoždění do zastávky β: D + i := 1 D + (t, α, β) (3.4) C i t C i Pokud by hodnoty D(s, α) a D + (s, α, β) byly zcela nezávislé, potom by všechny hodnoty D + i měly být vzhledem k velkému množství testovacích dat přibližně stejné. Grafy na obrázku 3.2 nicméně naznačují, že dodatečné zpoždění na tom aktuálním závisí, a to dokonce u každé linky jinak. Zatímco na lince 9 jsou řidiči v daném úseku podle záznamů schopni zpoždění často redukovat (o čemž svědčí záporné hodnoty dodatečného zpoždění), na lince 22 se zpoždění má tendenci spíše prohlubovat. Řidič, který má v zastávce α zpoždění 4 5 minut, nabere v průměru ještě o téměř minutu větší zpoždění než řidič, který je v zastávce α se zpožděním maximálně jednu minutu. Obrázek 3.2: Průměrné dodatečné zpoždění pro linku 9 směr Spojovací (vlevo) a 22 směr Nádraží Hostivař (vpravo). Osa X je zpoždění ve výchozí zastávce, osa Y dodatečné zpoždění mezi výchozí a cílovou zastávkou. Výsledky tohoto experimentu nyní použijeme k návrhu algoritmu, který bude odhadovat hodnotu dodatečného zpoždění D + (s, α, β) přesněji, a to na základě známého zpoždění D(s, α). V učící fázi algoritmu rozdělíme množinu L IN do disjunktních podmnožin C i podle zaokrouhleného zpoždění v zastávce α, viz vzorec 3.3. Poté spočteme průměrné hodnoty D + i pro každou množinu C i podle vzorce 3.4. S těmito předpočítanými daty můžeme zavést algoritmus AVERAGE- BY-DELAY, který spočte výstupní hodnotu následujícím způsobem: D(s, β) := D(s, α) + D + D(s,α)/60 (3.5) Souhrn Navrhli jsme tři algoritmy, které odhadují zpoždění v cílové zastávce jako funkci zpoždění ve výchozí zastávce. Jde o algoritmy SAME-DELAY, SIMPLE- AVERAGE a AVERAGE-BY-DELAY. Všimněme si nyní, že v uvedeném pořadí vždy následující algoritmus zobecňuje ten předchozí. Algoritmus SAME-DELAY 22

27 je speciálním případem algoritmu SIMPLE-AVERAGE, ve kterém používá jako hodnotu D + nulu. Podobně algoritmus SIMPLE-AVERAGE je speciálním případem algoritmu AVERAGE-BY-DELAY, ve kterém určuje všechny hodnoty D + i shodně rovné jedné hodnotě D +. Z toho bychom mohli usoudit, že algoritmus AVERAGE-BY-DELAY by měl dávat nejpřesnější výsledky, jakožto nejobecnější. Tabulka 3.1 srovnává tyto algoritmy na třech zvolených úsecích podle průměrné absolutní chyby a podle mediánu absolutní chyby. Průměr (MAE) Medián (MeAE) Algoritmus 9b 22a 22b 9b 22a 22b SAME-DELAY 44,8 s 53,8 s 102,9 s 37,8 s 42,0 s 60,0 s SIMPLE-AVERAGE 36,3 s 49,9 s 96,1 s 28,8 s 41,7 s 76,4 s AVERAGE-BY-DELAY 34,7 s 48,3 s 95,5 s 27,4 s 40,6 s 76,6 s Tabulka 3.1: Srovnání algoritmů podle průměrné absolutní chyby odhadu a podle mediánu absolutní chyby odhadu. Při pohledu na průměrnou absolutní chybu zjistíme, že podle očekávání obecnější algoritmy dávají přesnější výsledky. Zajímavý je však pohled na medián absolutní chyby, zejména u linky 22b. Zde vidíme, že zatímco průměrná chyba algoritmů SIMPLE-AVERAGE a AVERAGE-BY-DELAY klesla, medián vzrostl o více než 16 sekund. Druhou zajímavostí je, že toto se nestalo u linek 9b a 22a. U linky 22a zůstal medián na přibližně stejné hodnotě, u linky 9b dokonce poklesl téměř o čtvrtinu. To potvrzuje již zmíněný předpoklad, že každá linka má vlastní charakteristiku, která výsledky zásadně ovlivňuje. Zaměřme se nyní na linku 22b a zkusme přijít na to, proč medián absolutní chyby v případě obecnějšího algoritmu stoupl, místo aby klesl. Vyjdeme přitom z charakteristiky úseku linky 22b. V něm bývají spoje občas významně zpožd ovány vlivem automobilové dopravy. Tato zpoždění nejsou pravidlem a dochází k nim většinou jen v přepravních špičkách některých pracovních dnů. Nás zajímá, jak s tímto budou pracovat algoritmy SAME-DELAY a SIMPLE- AVERAGE. První zmíněný algoritmus považuje zpoždění za konstantní, takže vlastně vždy předpokládá, že zpoždění v daném úseku se nemění. To je ve většině případů blízké pravdě, v obdobích dopravní komplikací je ale tento odhad velmi nepřesný. Znamená to, že algoritmus se ve většině případů přibližně trefí, zatímco na určitém počtu vstupů značně selhává. Z podstaty definice průměru a mediánu to znamená, že průměrná chyba bude silně ovlivněna případy, kdy algoritmus učinil velkou chybu, zatímco medián se soustředí spíše na typický případ, a proto není tak vysoký. Na druhé straně algoritmus SIMPLE-AVERAGE nejprve změří průměrné zpoždění v daném úseku, které následně používá. Protože spoje se většinou zpožd ují málo a jen v malém počtu případů nabírají větší zpoždění, výsledný průměr bude určitá mezihodnota, která je sice průměrná, ale ne příliš typická. Tím, že se algoritmus snaží o kompromis mezi extrémy, které na lince vznikají, ve skutečnosti stoupá počet případů, ve kterých udělá chybu, ačkoliv je tato chyba v průměru menší. Zmíněnou hypotézu potvrzuje i další metrika, kterou používáme podíl spojů s chybou pod 60 sekund (P 60 ). Zatímco u algoritmu SAME-DELAY je P 60 rovno 50 %, pro algoritmus SIMPLE-AVERAGE je to jen 40 %. 23

28 Dalším poznatkem je, že ačkoliv algoritmus AVERAGE-BY-DELAY je přesnější, než algoritmus SIMPLE-AVERAGE, zlepšení není příliš výrazné v nejlepším případě, u linky 9b, je průměrná chyba nižší o necelé 3 sekundy. Možná vylepšení Možným vylepšením algoritmů SIMPLE-AVERAGE a AVERAGE-BY-DELAY by mohlo být použití mediánu místo průměru. Medián totiž lépe snáší extrémní případy, kterými se nenechává ovlivnit tolik jako průměr. Naproti tomu v případě, kdy existují dvě přibližně stejně velké skupiny blízkých hodnot, může být medián nestabilní. Rozhodující je nejspíš pohled cestujícího, který si může vybrat mezi odhadem, který se soustředí na co nejmenší chybu, a odhadem, který v co největším počtu případů dá rozumně přesný odhad, přičemž může dělat větší chyby. Další možnost zpřesnění spočívá v rozdělování do skupin v algoritmu AVERAGE- BY-DELAY. Je možné skupiny rozdělovat po jiné časové jednotce, než jsou minuty, případně je možné, aby se skupiny překrývaly. Místo čistého průměru by mohl být použit průměr vážený. Tím by mělo být dosaženo dodatečného zpřesnění výsledků, které by ale pravděpodobně bylo už jen nepatrné vzhledem k tomu, jak malé zlepšení přinesl algoritmus AVERAGE-BY-DELAY oproti algoritmu SIMPLE-AVERAGE Cílové zpoždění jako funkce času Nechme nyní stranou vztah mezi D(s, α) a D(s, β) a zkusme se zaměřit na jinou závislost. Empirické pozorování napovídá, že by zpoždění v cílové zastávce mohlo být ovlivněno aktuálním časem a dnem v týdnu. Podporují to též výsledky článku [2]. V tom je zpoždění předpovídáno staticky jako průměr předchozích zpoždění. Při rozdělení spojů do skupin podle času přitom došlo k viditelnému zpřesnění výsledků. Pokusíme se nyní aplikovat podobný přístup, akorát v dynamické podobě. Vyjdeme z algoritmu SIMPLE-AVERAGE, který používá odhad dodatečného zpoždění D + počítaný jako průměr minulých případů podle vzorce 3.1. Místo této jedné hodnoty použijeme 2 24 hodnot pro každou hodinu dne o víkendech a v pracovních dnech zvlášt. V učící fázi tedy rozdělíme množinu L IN do podmnožin L d,h následovně: L d,h = {t L IN : W (t) = d T (t, α) = h}, d {0, 1}, h {0,..., 23} (3.6) To znamená, že množina L 0,h bude obsahovat víkendové a množina L 1,h všednodenní spoje, které projíždí výchozí zastávkou v čase h:00:00 až h:59:59. Poté ke každé množině L d,h vypočteme hodnotu D + d,h jako průměr dodatečných zpoždění spojů v této skupině: D + d,h(l, α, β) = 1 D + (t, α, β) (3.7) L d,h t L d,h Výsledek metody pro spoj s pak vyjadřuje následující vzorec. Příslušný algoritmus nazveme AVERAGE-BY-HOUR. D(s, β) := D(s, α) + D + W (s), T (s,α) (L, α, β) (3.8) Podobně jako u algoritmu AVERAGE-BY-DELAY je AVERAGE-BY-HOUR zobecněním algoritmu SIMPLE-AVERAGE. Rozdíl je v tom, že místo podle 24

29 výchozího zpoždění rozdělujeme spoje podle času a dne v týdnu. Algoritmy porovnává tabulka 3.2. Průměr (MAE) Medián (MeAE) Algoritmus 9b 22a 22b 9b 22a 22b SIMPLE-AVERAGE 36,3 s 49,9 s 96,1 s 28,8 s 41,7 s 76,4 s AVERAGE-BY-DELAY 34,7 s 48,3 s 95,5 s 27,4 s 40,6 s 76,6 s AVERAGE-BY-HOUR 31,9 s 44,8 s 79,5 s 25,3 s 35,9 s 54,7 s Tabulka 3.2: Srovnání algoritmů podle průměrné absolutní chyby odhadu a podle mediánu absolutní chyby odhadu. Z tabulky lze vyčíst, že rozdělení spojů podle času a dne v týdnu je přesnější, než rozdělení podle zpoždění ve výchozí zastávce. Nejmarkantnější je to u linky 22b, kde se pravděpodobně podařilo lépe zařadit větší zpoždění ke konkrétním hodinám, čímž se snížil průměr i medián. Možná vylepšení Možná vylepšení jsou podobná jako u algoritmu AVERAGE-BY-DELAY a spočívají zejména ve zpřesnění rozdělování spojů do jednotlivých množin. Další možností je, místo rozdělení záznamů do skupin, vytvoření spojitého modelu vyjadřujícího nalezené závislosti. To v této práci vynecháme, použijeme totiž metody, které umí spojitě modelovat vztahy i mezi větším množstvím veličin Shrnutí Začali jsme přímočarou analýzou vztahů mezi vstupem a výstupem. Při tom jsme zjistili, že vhodný způsob odhadu cílového zpoždění je odhad dodatečného zpoždění, který přičteme ke zpoždění ve výchozí zastávce. To je hlavní odlišnost dynamického přístupu od statického, protože zde využíváme znalosti výchozího zpoždění. Ukázalo se, že na dodatečné zpoždění má vliv jak zpoždění ve výchozí zastávce, tak aktuální čas a den. Výsledkem je, že nejpřesnějším algoritmem je algoritmus AVERAGE-BY-HOUR, který zohledňuje právě čas a den v týdnu. 3.3 Neuronové sítě Motivace a obecné poznatky Jedním z poznatků statistické analýzy je fakt, že odhadovaná hodnota zpoždění závisí na několika faktorech, přinejmenším na zpoždění ve výchozí zastávce, času a dni v týdnu. V této sekci proto použijeme metodu, která je stavěná na vícedimenzionální vstup, totiž neuronové sítě. O tom, že se neuronové sítě v pracích zaměřených na dopravu úspěšně používají, svědčí například články [6] a [7]. Neuronové sítě se využívají i v jiných oborech, například v medicíně nebo finančnictví. Jejich hlavní výhodou je schopnost zpracovávat větší množství vstupních parametrů a schopnost nacházet mezi těmito 25

30 parametry nelineární vztahy. Hlavní nevýhoda spočívá v malé průhlednosti neuronových sítí, kdy je většinou velmi těžké zpětně analyzovat a vysvětlit výsledky, které od neuronových sítí získáme. Způsob fungování neuronových sítí v této práci popíšeme jen stručně. Více informací je možné nalézt v odborných publikacích, například [9]. Vrstevnatá neuronová sít Při předpovídání zpoždění budeme používat vrstevnaté neuronové sítě. Taková sít je složena z neuronů rozdělených do N 2 vrstev tak, že jsou spojeny vždy právě všechny neurony mezi sousedními vrstvami. První vrstva se nazývá vstupní a počet neuronů v této vrstvě je shodný s velikostí vstupu. Poslední vrstva se nazývá výstupní a počet jejích neuronů odpovídá velikosti výstupu. Mezilehlé vrstvy se nazývají skryté. Vrstevnatá neuronová sít má vždy právě jednu vstupní a jednu výstupní vrstvu, skrytých vrstev může být libovolný počet (včetně nulového). Příklad vrstevnaté neuronové sítě zobrazuje obrázek 3.3. Obrázek 3.3: Vrstevnatá neuronová sít se dvěma vstupy, jedním výstupem a třemi neurony v jedné skryté vrstvě. V našem případě je výstupem vždy jedna hodnota D(s, β), výstupní vrstva proto bude obsahovat jeden neuron. K velikosti vstupu se vrátíme později, pro něj je nejprve třeba určit, jaké veličiny by mohly neuronové síti pomoci v rozhodování. Při pokusech jsme používali neuronovou sít s jednou skrytou vrstvou s deseti neurony. Volbě této topologie se blíže věnuje kapitola Učení neuronových sítí Testování neuronových sítí provedeme podobně, jako tomu bylo u statistických metod. Minulá data máme rozdělena na učící a testovací množinu. V první fázi neuronovou sít naučíme na učící množině spojů, v druhé budeme testovat její přesnost na spojích z testovací množiny. K učení se využívá tzv. zpětné propagace (back-propagation), která patří mezi metody učení s učitelem. Nejprve se nastaví váhy spojů mezi neurony na 26

31 náhodné hodnoty z intervalu 0 1. Poté jsou síti předkládány jednotlivé vstupy z minulých dat. Pro každý vstup sít vydá nějaký výstup, který je na začátku náhodný. Tento výstup porovnáme se skutečným očekávaným výstupem (který známe, protože používáme minulá data). Vypočítaná chyba se poté propaguje sítí zpět směrem od výstupu ke vstupním neuronům a upravují se podle ní váhy. S každým dalším vstupem se tak sít zpřesňuje, ovšem velmi postupně, proto je třeba předkládat vstupy a správné výstupy opakovaně, dokud se tím výsledky sítě zpřesňují. Naučenou neuronovou sít následně můžeme použít na vstupech, ke kterým již správné výstupy neznáme. Pokud je sít naučená dobře, měla by rozumně aproximovat hledané hodnoty. Uvedený popis procesu učení neuronových sítí je velmi stručný, neuronovou sít zde považujeme za černou skříňku, která pro daný vstup dává nějaký výstup založený na rozložení vah uvnitř sítě. Více informací o tom, jak se hodnoty propagují skrze neuronovou sít a jak se následně zpětně propaguje chyba výsledku, lze nalézt v odborné literatuře, např. [9]. Pro účely této práce postačuje tento zjednodušený popis. K učení neuronové sítě byla použita Levenberg-Marquardtova metoda. Jde o vylepšení standardní zpětné propagace, jejíž hlavní výhodou je rychlejší konvergence, díky které se sít učí rychleji Základní varianta Testování neuronových sítí rozdělíme do dvou fází. Nejprve v této sekci popíšeme přímočarý postup k předpovídání zpoždění pomocí neuronových sítí zaměříme se zejména na to, z čeho vytvořit vstup sítě. Na konci zhodnotíme dosažené výsledky. V další fázi následně aplikujeme na vstupy a na sít samotnou různé modifikace za účelem vylepšení výsledků. Vstupní vektor Vstupem neuronové sítě je vektor číselných hodnot z intervalu 0 1. Ideální jsou takové vstupy, které nabývají pouze mezních hodnot, tedy 0, nebo 1. V případě, že je obor hodnot vstupu jiný, je potřeba hodnoty do zmíněného intervalu normalizovat. Tímto se ale nebudeme zabývat, nebot to za nás řeší používaný toolbox sám. Mějme nyní zadaný úsek linky (L, α, β). Dejme neuronové síti na vstup všechny informace, které o tomto spoji známe čas, den v týdnu a zpoždění ve všech projetých zastávkách. To znamená, že pro každý spoj s L vytvoříme vstupní vektor obsahující hodnoty T (s, α), W (s) a D(s, γ) γ L α. Vstupní vektor tedy bude mít délku 2 + N, kde N je pořadí zastávky α od začátku trasy. Jako výstupní hodnotu pro trénování modelu budeme používat hodnotu D(s, β). Výsledky Před prezentací výsledků je nutné poznamenat, že na rozdíl od statistických metod, které jsou deterministické, neuronové sítě nejsou. Výchozí rozdělení vah v síti je voleno náhodně, proto se výsledky při opakovaném učení mohou lišit. Na průměrné chybě se tyto rozdíly projevují v rámci desetin sekundy. V tabulkách s výsledky testů budeme vypisovat vždy výsledek s nejmenší průměrnou absolutní 27

32 chybou ze tří opakování. Vycházíme při tom z toho, že pokud by se někdo rozhodl metodu použít v praxi, mohl by učení modelu opakovat vícekrát a následně vybrat tu instanci modelu, která dává nejlepší výsledky. Tabulka 3.3 ukazuje výsledky měření přesnosti neuronové sítě na testovacích datech. Statistika 9b 22a 22b Průměrná absolutní chyba (MAE) 28,9 s 42,3 s 78,2 s 95% kvantil abs. chyby (Q 0,95 ) 75,5 s 106,7 s 228,3 s Medián absolutní chyby (MeAE) 21,6 s 33,6 s 54,7 s Průměrná procentuální chyba (MAPE) 5,2 % 8,3 % 13,3 % Podíl spojů s abs. chybou do 60 s (P 60 ) 90,5 % 75,2 % 53,6 % Tabulka 3.3: Výsledky předpovědi zpoždění za pomoci neuronových sítí Vylepšení V této části se zaměříme na to, jak výsledky neuronových sítí zlepšit. Zkusíme upravit vstup a topologii sítě a nakonec vyzkoušíme rozdělení dat do skupin, podobně jako jsme to dělali u statistických metod. Vstup Při úpravách vstupního vektoru bylo zjištěno, že některé hodnoty nejspíš neuronová sít při vyhodnocování nevyužívá. Konkrétně jde o hodnoty zpoždění z minulých zastávek (kromě zastávky α). Z toho vyplývá, že nám stačí použít na vstupu vektor jen se třemi prvky: (T (s, α), W (s), D(s, α)). Výsledky se přitom nijak nezmění. Topologie sítě Byly testovány různé topologie neuronových sítí. Ukázalo se, že neuronová sít s 10 neurony v jedné skryté vrstvě je dostatečná. Přidávání většího množství vrstev nebo neuronů pouze zpomalovalo učící proces a nepřineslo žádné zlepšení výsledků. Zlepšení nepřinesla ani změna učící metody. Rozdělení do skupin Podobně jako u statistických metod můžeme vyzkoušet rozdělení dat do skupin. Pro začátek rozdělíme spoje do dvou skupin podle toho, jestli byly vypraveny v pracovní den nebo o víkendu. Nad každou skupinou naučíme jeden model neuronové sítě. Při vybavování poté použijeme příslušný model podle toho, jestli máme na vstupu spoj všednodenní, nebo víkendový. Tento přístup nicméně způsobil pouze zhoršení výsledků. Toto koresponduje s výsledky v článku [6]. Pravděpodobným vysvětlením je, že neuronová sít umí sama dobře zobecňovat vstupy a rozdělení do skupin jí tedy nijak nepomůže. Naopak to způsobí zhoršení výsledků, protože se zmenší učící množina. 28

33 Odebrání extrémních případů První úprava, která přinesla alespoň drobné zlepšení, bylo vyjmutí extrémních případů z učení. Z dostupných vstupních dat vyplývá, že některé spoje nabraly po cestě velmi velké zpoždění (např. přes 8 minut). Toto se může stát třeba v případě nehody nebo jiné mimořádné události. Jisté ale je, že není možné, aby bez dalších informací takové situace neuronová sít předpovídala, a proto tyto vstupy nijak nenapomáhají procesu učení; dokonce je tomu spíše naopak. Neuronová sít pracuje tak, že se snaží minimalizovat střední kvadratickou chybu. Přitom chyba u těchto velmi zpožděných spojů bude značná, sít navíc používá její druhou mocninu. To může ovlivnit výsledný model, přestože je takových spojů jen málo. V důsledku toho mohou být výsledky lehce nepřesné, ačkoliv střední kvadratická chyba bude minimální možná. Zkusme tedy vyjmout z učící množiny všechny spoje s cílovým zpožděním větším než 8 minut. Testovací množina zůstane samozřejmě nezměněna, jinak by porovnání nebylo spravedlivé. Výsledky po úpravě zobrazuje tabulka 3.4. Tabulka obsahuje i procentuální změnu hodnot oproti výsledkům v tabulce 3.3. Změna průměru a mediánu se počítá jako rozdíl nové a původní hodnoty dělený původní hodnotou. Změna počtu spojů s chybou do 60 sekund je počítána prostým rozdílem hodnot, které již v procentech jsou. Statistika 9b 22a 22b Průměrná absolutní chyba (MAE) 29,4 s 43,7 s 80,4 s Medián absolutní chyby (MeAE) 21,3 s 33,1 s 49,1 s Podíl spojů s abs. chybou do 60 s (P 60 ) 90,6 % 75,4 % 57,4 % Změna průměrné abs. chyby +1,7 % +3,3 % +2,8 % Změna mediánu abs. chyby -1,4 % -1,5 % -10,2 % Změna P 60 +0,1 % +0,2 % +3,8 % Tabulka 3.4: Výsledky předpovědi zpoždění za pomoci neuronových sítí bez extrémních vstupů v učící množině. Spodní část tabulky vyjadřuje změnu oproti původní metodě. Z tabulky vyplývá, že u všech linek došlo k nárůstu průměrné chyby, ale k poklesu mediánu chyby a nárůstu počtu spojů s chybou odhadu pod 60 sekund. To znamená, že sít ve větším počtu případů dává rozumný odhad za cenu větší chyby u špatně odhadnutých spojů. Příčinou bude nejspíše provedená úprava vstupu, kdy se sít nesnaží předpovídat náhodná velká zpoždění, která jsme ze vstupu odebrali. Lze proto očekávat, že v případě významně zpožděných spojů bude chyba větší, ale u ostatních spojů, kterých je mnohem více, jsou výsledky přesnější. Zatímco u linek 9b a 22a jsou tyto změny neznatelné, na lince 22b má tato úprava vstupu větší přínos, což je pravděpodobně dáno tím, že tato linka více trpí na nepředvídatelná zpoždění Zahrnutí aktuální dopravní situace na lince Až doposud jsme při konstruování vstupních vektorů používali pouze informace o jednom konkrétním spoji. Neuronová sít však pracuje s jednotlivými vektory 29

34 samostatně, a proto když je požádána o výstupní hodnotu k danému vstupu, může použít pouze hodnoty v zadaném vstupním vektoru. Pro nás to znamená, že pokud chceme, aby sít pracovala s aktuální situací na lince, je zapotřebí tuto informaci přidat do jednotlivých vektorů k informacím o daném spoji. Vyvstává tak otázka, jak zakódovat aktuální situaci do číselného vektoru tak, aby neuronová sít byla schopná takový vstup správně interpretovat. Nesmíme též zapomínat na to, že délka vektoru musí být fixní, pro všechny spoje stejná. Situaci navíc komplikuje skutečnost, že neznáme přesné pozice tramvají, ale pouze poslední obslouženou zastávku, nemáme tedy k dispozici jednoduché vyjádření aktuální pozice dané tramvaje. Pro popis situace na lince by se nabízelo například přidat do vstupního vektoru pozice tramvají, které se aktuálně v zadaném úseku nacházejí. To ale naráží jednak na to, že tato data nemají fixní velikost a jednak na to, že pozici neumíme přesně vyjádřit. Při pokusech se postupně ukázalo, že vstup musí být jednoduchý, jasně interpretovatelný, jinak má sít problémy vztahy najít. Užitečnou informací pro předpověd zpoždění spoje s by mohlo být dodatečné zpoždění posledního spoje, který zadaným úsekem projel, tj. hodnota D + (t, α, β) pro spoj t L s max. T (t, β) T (s, α). Výhodou použití této hodnoty je její jednoznačný vliv na odhadované zpoždění, dá se totiž očekávat, že čím větší zpoždění předchozí spoj v úseku nabral, tím větší zpoždění naberou i spoje následující. Informaci o posledním dodatečném zpoždění můžeme ještě doplnit počtem spojů, které se v úseku právě nachází. U linek s krátkým intervalem může být znakem zhoršené průjezdnosti úseku právě větší kumulace spojů. Vyjdeme ze základní varianty z části 3.3.2, ze které ponecháme tři relevantní vstupy (T (s, α), W (s), D(s, α)) a rozšíříme tento vektor ze tří na pět prvků přidáním dvou zmíněných hodnot: poslední známé dodatečné zpoždění v úseku a počet spojů nacházejících se v úseku. Výsledky měření s použitím tohoto vstupu zobrazuje tabulka 3.5. Statistika 9b 22a 22b Průměrná absolutní chyba (MAE) 29,1 s 42,8 s 61,7 s 95% kvantil abs. chyby (Q 0,95 ) 75,3 s 109,2 s 179,3 s Medián absolutní chyby (MeAE) 21,6 s 33,6 s 44,8 s Průměrná procentuální chyba (MAPE) 5,2 % 8,3 % 10,7 % Podíl spojů s abs. chybou do 60 s (P 60 ) 90,8 % 75,9 % 61,7 % Změna průměrné abs. chyby +0,7 % +1,2 % -21,1 % Změna mediánu abs. chyby 0,0 % 0,0 % -18,1 % Tabulka 3.5: Výsledky předpovědi zpoždění za pomoci neuronových sítí na vstupech obsahujících informace o předchozích spojích, včetně srovnání se základní variantou. Výsledky se opět liší podle linek. Zatímco u úseků linek 9b a 22a zaznamenáváme pouze nepatrné zhoršení průměrné chyby, u linky 22b vidíme značné zpřesnění předpovědi. To je nejspíš důsledkem charakteristiky zvolených úseků. Zatímco zpoždění u linek 9a a 22a bývá menší a víceméně nahodilé, linka 22b je závislá na aktuální dopravní situaci v daném úseku, která se zpravidla nemění skokově. Proto zde informace o předchozích spojích neuronové síti pomohou, zatímco u ostatních linek nemají význam. 30

35 Kombinace s odebráním extrémních případů Uvedené vylepšení vstupu neuronové sítě o předchozí spoje ještě můžeme zkombinovat s odebráním extrémních případů, jako jsme to udělali na základní variantě v sekci 3.3.3, kde jsme z učící množiny odebrali spoje se zpožděním větším než 8 minut. Při tom nás zajímá zejména linka 22b, u níž jsme aplikací tohoto postupu snížili medián absolutní chyby o více než 10 %. Tentokrát je efekt neznatelný. Odebráním extrémních případů ze vstupu získáme snížení mediánu na 44,1 sekundy, což je jen o 1 % lepší hodnota. Navíc je důsledkem zvýšení průměrné chyby na 67,0 s, tedy o 8,5 %. Pravděpodobným důvodem, proč tato metoda tentokrát již nepřinesla výrazné zlepšení, bude lepší schopnost neuronové sítě rozpoznat, kdy může docházet k větším zpožděním, díky informaci o zpoždění předchozího spoje, který projel stejným úsekem Shrnutí Při testování jsme zjistili, že neuronové sítě mohou být použity pro predikci zpoždění v pražských podmínkách. Základní metodu se podařilo vylepšit přidáním informace o aktuální situaci na lince složené ze dvou hodnot: počtu spojů, které se nacházejí v daném úseku linky, a dodatečného zpoždění posledního spoje, který daným úsekem projel. Z výsledků lze vyčíst, že toto vylepšení se projeví pouze na linkách, kde dochází ke zpožděním vlivem dopravní situace. V tomto směru bohužel sít pražských tramvají nenabízí mnoho dalších vhodných úseků pro testování, tramvaje jsou totiž ve většině případů od provozu individuální dopravy odděleny a jezdí poměrně přesně; k velkým zpožděním dochází jen málokdy. Možná vylepšení Výrazného zlepšení výsledků u linky 22b jsme dosáhli rozšířením vstupních vektorů o informaci o aktuální situaci na lince. Aby neuronová sít tuto informaci byla schopna efektivně využít, museli jsme ji zredukovat do pouhých dvou číselných hodnot. Je možné, že ze známých dat je možné vytěžit ještě víc, problém však spočívá v tom, jak tyto informace neuronové síti předat. Zároveň je pravděpodobné, že kdybychom měli další související informace, například o naplnění vozidel, nebo o dopravní situaci v ulicích, mohli bychom je též využít ke zpřesnění odhadu. Jak již bylo naznačeno při testování vylepšení sítě, neuronová sít používá při učení střední kvadratickou chybu, což nemusí být ideální. V datech se vyskytují spoje, které jsou ze své podstaty anomální, například kvůli velkým zpožděním z nečekaných důvodů. Použití kvadratické chyby způsobuje, že tyto spoje, ačkoliv jich je málo, mohou ovlivnit výsledky. Nabízí se proto myšlenka při učení použít jinou chybovou funkci, než střední kvadratickou chybu, například jen obyčejnou absolutní hodnotu. Problém ovšem je, že většina standardních učících metod požaduje chybovou funkci, která je derivovatelná, což pro absolutní hodnotu neplatí. Metody, které tento požadavek nemají, pro změnu nevykazují tak dobré výsledky, jako metoda Levenberg-Marquardt. 31

36 3.4 Regrese Třetí testovanou metodou předpovědi je regrese. Ta se nachází přibližně na pomezí statistických metod a metod umělé inteligence. Podobně jako neuronové sítě zvládá zpracování několika vstupů, navíc nabízí jednodušší implementaci a lepší interpretovatelnost výsledků. Nevýhodou je složitější hledání nelineárních vztahů, zvláště v případě, kdy máme větší množství vstupních hodnot. Mějme daný úsek linky (L, α, β). Využijeme poznatků učiněných při zkoumání neuronových sítí a jako vstup regresní metody pro každý spoj s použijeme následující hodnoty: čas průjezdu výchozí zastávkou: T (s, α) den v týdnu (1 = pracovní den, 0 = víkend): W (s) zpoždění ve výchozí zastávce: D(s, α) počet spojů, které se v čase T (s, α) nacházejí v zadaném úseku; označme N L α,β(s) dodatečné zpoždění posledního spoje, který projel zadaným úsekem: D(t, α) pro spoj t L s max. T (t, β) T (s, α) Lineární regrese Nejprve zkusíme použít pouze lineární vztahy. Vytvoříme následující lineární rovnici, která popisuje vztah mezi vstupem a výstupem: D(s, β) = k 1 T (s, α) + k 2 W (s) + k 3 D(s, α) + k 4 N L α,β(s) + k 5 D(t, β) + k 6 (3.9) V tomto vztahu bychom rádi určili koeficienty k K tomu využijeme známá vstupní data L IN a prostředků, které nám v oblasti lineární regrese nabízí Matlab. S jeho pomocí získáme tyto koeficienty jednoduše pomocí funkce regress [13]. Ta odhadne koeficienty k i tak, aby byla minimalizována střední kvadratická chyba, přičemž chybou se zde rozumí rozdíl mezi levou a pravou stranou. Následně ve vybavovací fázi, kdy již známe odhady koeficientů k i, pro spoj s L dosadíme do pravé strany rovnice, čímž získáme odhad zpoždění v cílové zastávce. Vyhodnocení výsledků přináší tabulka 3.6. Statistika 9b 22a 22b Průměrná absolutní chyba (MAE) 31,1 s 46,0 s 64,3 s 95% kvantil abs. chyby (Q 0,95 ) 78,2 s 114,2 s 174,8 s Medián absolutní chyby (MeAE) 24,0 s 38,2 s 49,4 s Průměrná procentuální chyba (MAPE) 5,6 % 9,0 % 11,3 % Podíl spojů s abs. chybou do 60 s (P 60 ) 88,3 % 72,3 % 58,4 % Tabulka 3.6: Výsledky předpovědi zpoždění za pomoci lineární regrese. 32

37 Koeficient k 1 k 2 k 3 k 4 k 5 k 6 Přidružená hodnota T (s, α) W (s) D(s, α) Nα,β(s) L D(t, β) 1 Úsek 9b 0,038-0,093 0,894 0,005 0,070-0,835 Úsek 22a -0,004 0,467 1,036 0,398 0,164-0,254 Úsek 22b -0,037 0,238 1,066 0,355 0,668 0,316 Tabulka 3.7: Nalezené koeficienty lineární rovnice 3.9. Analýza výsledků Výhodou lineární regrese oproti neuronovým sítím je, že můžeme vypsat nalezené koeficienty k ze vztahu 3.9, na nichž bude vidět, jaké závislosti mezi vstupními a výstupními hodnotami byly nalezeny. Zobrazuje je tabulka 3.7. V tabulce je vidět jednoznačný vliv výchozího zpoždění, které je reprezentováno koeficientem k 3, na výsledný odhad. U úseků linky 22 též vidíme přímou úměru vzhledem ke zpoždění předchozího spoje, který úsekem projel, na hodnotě koeficientu k 4. U linky 9 je vliv této hodnoty nižší. Zaměříme-li se dále na koeficient k 1, vidíme, že jeho hodnoty jsou vždy nízké. To vzhledem k doméně hodnoty T (s, α), která odpovídá intervalu 0 24, znamená příspěvek do celkového součtu ani ne ±1 sekundu. Je tedy otázka, jestli má tento vstup pro predikci význam. Vylepšení Podobně jako u předchozích metod se pokusíme výsledky zpřesnit. Pro začátek, protože používáme lineární regresi, je dobré si položit otázku, jestli vztah mezi vstupními veličinami a výstupní hodnotou je opravdu alespoň přibližně lineární. To pravděpodobně splňují všechny vstupy, kromě času T (s, α), jak napovídá i provedená analýza výsledků v tabulce 3.7. Již jsme ukázali, že distribuce zpoždění se v čase mění, nicméně velmi pravděpodobně tento vztah nebude lineární, nebot největších zpoždění se typicky na linkách dosahuje v ranní a odpolední špičce. Inspirujeme se u statistických metod a rozdělíme vstup po hodinách a podle dne v týdnu tak, jako jsme to udělali v sekci Místo jedné sady koeficientů tak získáme 2 24 modelů. Při vybavování nejprve najdeme podle času a dne v týdnu správný model a ten použijeme. Výsledky, včetně porovnání se základní metodou, lze nalézt v tabulce 3.8. Statistika 9b 22a 22b Průměrná absolutní chyba (MAE) 31,7 s 45,2 s 61,3 s Medián absolutní chyby (MeAE) 24,6 s 36,4 s 44,9 s Podíl spojů s abs. chybou do 60 s (P 60 ) 88,4 % 73,0 % 61,9 % Změna průměrné abs. chyby +1,9 % -1,7 % -4,7 % Změna mediánu abs. chyby +2,5 % -4,7 % -9,1 % Změna P 60 +0,1 % +0,7 % +3,5 % Tabulka 3.8: Výsledky předpovědi zpoždění při použití lineární regrese pro data rozdělená do skupin. Výsledky jsou rozporuplné. U linky 9b došlo k mírnému zhoršení, které může být důsledkem toho, že při rozdělení do 48 modelů má každý z nich menší počet 33

38 vstupů, což má za následek menší přesnost. Na druhé straně u linky 22b se tato změna projevila znatelným zlepšením, což bude patrně důsledek toho, že se podařilo oddělit období, kdy se spoje zpožd ují, od těch, kdy jsou zpoždění nižší Vyšší stupně regrese Lineární regrese má určitá omezení v rozpoznávání složitějších vztahů mezi vstupem a výstupem. Proto je vhodné vyzkoušet, jestli výsledky nezpřesní přidání vyšších mocnin vstupních proměnných, včetně vzájemných násobků. Problémem však je, že se vzrůstajícím stupněm rychle roste počet vstupů. My zůstaneme u stupně dva; místo původních pěti vstupů tak budeme mít 20 vstupních hodnot (5 druhých mocnin, 10 vzájemných násobků a 5 lineárních vstupů). Výsledky zobrazuje tabulka 3.9. Statistika 9b 22a 22b Průměrná absolutní chyba (MAE) 30,4 s 44,9 s 61,5 s 95% kvantil abs. chyby (Q 0,95 ) 76,8 s 111,4 s 177,7 s Medián absolutní chyby (MeAE) 23,4 s 37,5 s 45,4 s Průměrná procentuální chyba (MAPE) 5,5 % 8,8 % 10,7 % Podíl spojů s abs. chybou do 60 s (P 60 ) 89,6 % 74,4 % 61,9 % Změna průměrné abs. chyby -2,3 % -2,4 % -4,4 % Změna mediánu abs. chyby -2,5 % -1,8 % -8,1 % Změna P 60 +1,3 % +2,1 % +3,5 % Tabulka 3.9: Výsledky předpovědi zpoždění při použití kvadratické regrese, včetně srovnání se základní lineární regresí (tab. 3.6). Jak je vidět, rozdíly opět nejsou nijak zásadní, u všech linek ale došlo oproti lineární regresi ke zlepšení ve všech porovnávaných metrikách Shrnutí Výsledkem testování regresních metod je jejich dobrá použitelnost pro predikci zpoždění. Ukázalo se, že kvadratická regrese je přesnější, než regrese lineární, rozdíl ale není příliš zásadní. Možná vylepšení Možnosti vylepšení jsou podobné jako u neuronových sítí. Nabízí se vymyslet lepší kódování aktuální situace do vstupního vektoru. Stejně tak by výpočet mohl být zpřesněn, pokud bychom měli více informací o provozu. Drobné zlepšení by mohlo přinést též použití vyšších stupňů vybraných vstupních proměnných. Podobně jako u neuronových sítí by se dalo zaměřit na chybovou funkci. Regresní rovnice se standardně řeší metodou nejmenších čtverců, která minimalizuje druhou mocninu chyby, což může umožnit vliv anomálních spojů na celkový výsledek. 34

39 3.5 Srovnání V předchozím textu byly představeny tři různé přístupy k předpovídání zpoždění v sítích MHD. Z každého nyní vybereme konkrétní nejúspěšnější metodu a tyto metody následně vzájemně porovnáme. Ze statistických modelů byl nejúspěšnější algoritmus AVERAGE-BY-HOUR. Ten počítal průměrné dodatečné zpoždění zvlášt pro různé hodiny a pro pracovní dny a víkendy. V případě neuronových sítí zvolíme verzi, která přidává na vstup informace o předchozích spojích. Spoje s vysokým zpožděním z učící množiny odebírat nebudeme, nebot tato modifikace přinášela pouze nepatrné změny. Z regresních metod použijeme při srovnávání kvadratickou regresi. Ta byla o trochu přesnější, než regrese lineární. Srovnání uvedených metod zobrazuje tabulka Ta kombinuje výsledky z tabulek 3.2, 3.5 a 3.9. Průměr (MAE) Medián (MeAE) Metoda 9b 22a 22b 9b 22a 22b Statistické zpracování 31,9 s 44,8 s 79,5 s 25,3 s 35,9 s 54,7 s Neuronové sítě 29,1 s 42,8 s 61,7 s 21,6 s 33,6 s 44,8 s Regrese 30,4 s 44,9 s 61,5 s 23,4 s 37,5 s 45,4 s Tabulka 3.10: Srovnání metod podle průměrné absolutní chyby odhadu a podle mediánu absolutní chyby odhadu. Výsledky ukazují, že u linek 9b a 22a přináší všechny metody srovnatelné výsledky. Možným vysvětlením je, že tyto linky neposkytují dostatečný potenciál ke zlepšení odhadů. Linka 9 je sama o sobě velmi přesná, o čemž svědčí i to, že v polovině případů algoritmy odhadly čas příjezdu s chybou pod 25,3 sekundy. Linka 22 již tak přesná není, nepravidelnosti jsou ale z velké části způsobovány semafory, jejichž chování nelze na základě současných dat předpovídat. Vzhledem k cyklům křižovatek mohou tyto semafory zdržet tramvaj až o několik minut. Pokud jde o linku 22b, zde neuronové sítě a regrese přinesly přesnější odhady, než statistické zpracování dat. To je samozřejmě ovlivněno tím, že použité statistické modely byly jednodušší a neuměly pracovat s vícedimenzionálním vstupem. Linka 22b je více závislá na dopravní situaci ve městě, což dává větší prostor pro předpovídání zpoždění. Neuronové sítě a regrese získaly větší přesnost přidáním informací o předchozích spojích na vstup. Před tímto vylepšením byly i u linky 22b výsledky neuronových sítí, regrese a statistických modelů srovnatelné. Pokud jde o vzájemné srovnání neuronových sítí a regrese, výsledky ukazují, že mezi těmito metodami nejsou významnější rozdíly. Vzpomeneme-li na výsledky lineární regrese, zjistíme, že i ta dávala srovnatelné výsledky, jen o málo horší, než použitá regrese kvadratická. Z výsledků můžeme odvodit, že u linek s menšími zpožděními a u linek, kde je zpoždění tvořeno nepředvídatelnými faktory, je nejvhodnější použití statistických metod, které dávají dostatečně přesné výsledky a jsou výpočetně mnohem méně náročné, než regrese nebo neuronové sítě. U linek, které jsou více ovlivněny okolními faktory a dochází na nich k větším zpožděním, může přinést znatelné zlepšení odhadů použití regresních metod, nebo neuronových sítí. 35

40 4. Implementace simulačního prostředí Po provedení testů v prostředí Matlab bylo přikročeno k implementaci prostředí (dále označovaného jako framework), ve kterém by bylo možno testované metody implementovat a provádět nad nimi simulace reálných situací. Výsledky testů a simulací provedených v tomto frameworku jsou popsány v kapitole 5. Celý framework je složen ze tří komponent: predikční knihovny, simulační knihovny a vizualizační části. Všechny komponenty jsou vytvořeny v jazyce C#. Jejich propojení znázorňuje schéma 4.1. Důraz byl kladen na modularitu, aby bylo bez příliš velkého úsilí možné přidávat jak samotné predikční algoritmy, tak nové vizualizace a druhy simulací. Framework, včetně dokumentace a zdrojových kódů, je přiložen (viz kapitola Přílohy na konci práce). Obrázek 4.1: Struktura frameworku. 4.1 Předpoklady Framework je přizpůsoben formátu dat, která máme k dispozici, zároveň je vytvořen maximálně obecně, aby bylo možno případně použít data z jiných sítí MHD. Pokud bychom v budoucnu získali přístup k datům z jiných AVL systémů, bylo by možno na nich zopakovat stejné experimenty za použití již existujícího frameworku. K tomu by stačilo tato data převést do formátu popsaného v sekci Do tohoto formátu by měla být převoditelná data ze všech AVL systémů, které splňují požadavky popsané v následující části. 36

Zobrazit více