9. listopadu 212 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.7/2.4./17.117
Používané postupy Lord D., Mannering F.: The Statistical Analysis of Crash-Frequency Data: A Review and Assessment of Methodological Alternatives, 21 Geurts K., Wets G.: Black Spot Analysis Methods: Literature Review, 23 Regrese (Poisonova, Negativní binomická) Metody shlukové a diskriminační analýzy Bayessovský přístup Pro počet DN větší než 3: P=X+3Y+5Z, kde X počet lehce zraněných Y počet vážně zraněných Z počet smrtelně zraněných
Osnova prezentace 1. Zadání problému 2. Použité metody Metoda empirické distribuční funkce Metoda 3. Data a dosažené výsledky
Shluková analýza Třídění objektů do skupin na základě jejich podobnosti. Hierarchické shlukování dendrogram (určit metriku) Nehierarchické shlukování K-means 6 Poèet shlukù K 5 4 Výpoèet centroidù 3 2 Výpoèet vzdálenosti objektù od centroidù Zmìna? Konec 1 6 7 8 4 5 9 1 2 3 Seskupení objektù
Zadání problému Úkoly zjistit, zda se DN na úseku shlukují určit, kde se případné shluky na úseku nachází X 1 X 2... X n L H : Dopravní nehody mají na silničním úseku náhodné rovnoměrné rozdělení.
Metoda empirické distribuční funkce P 1.9.8.7.6.5.4.3.2.1 2 4 6 8 1 Vzdálenost (m)
Glivenko-Cantelliho věta (1933) F n (x) = 1 n ξ i (x), kde n i=1 { 1, Xi x, ξ i (x) =, pro i=1,..., n., X i > x Věta Necht X 1, X 2,..., X n jsou i.i.d. ze známého rozdělení s distribuční funkcí F(x), pak sup F n (x) F(x), pro n +, skoro jistě. x R
DKW nerovnost (1956) H : F(x)= x L P ( sup x R P(chyba I. druhu) ) F n (x) x > K L α α Věta P ( sup F n (x) F(x) > ε x R ) α=2e 2nK2 K= 2e 2nε2, ε >. ln 2 α 2n
Metoda empirické distribuční funkce úsek 1 3 5 7 9 11 13 úsek 2 5 53 56 12 122 124 126 128 13 Délka obou úseků je 2 metrů. 1 1.9 x/l + K.9 x/l + K.8 x/l.8 x/l.7.7.6.6 P.5 P.5.4.3.2 x/l K.4.3.2 x/l K.1.1 5 1 15 2 Vzdálenost (m) 5 1 15 2 Vzdálenost (m)
Metoda empirické distribuční funkce Problém! 1 1.9.8 x/l + K x/l.9.8 x/l + K x/l.7.7.6.6 P.5 P.5.4.4.3.2 x/l K.3.2 x/l K.1.1 5 1 15 2 Vzdálenost (m) 5 1 15 2 Vzdálenost (m)
1 9 Metoda K(ε) 8 7 6 5 4 3 2 1 2 4 6 8 1 ε
Úvod K(ε)= 1 ρ E(Y), kde Y je počet bodů na síti, jejichž vzdálenost je menší než ε > od vybraného bodu sítě. Za předpokladu H je ˆK(ε) = L n(n 1) I ε (X i X j )= Iε (X i X j ), i j { 1, Xi X j ε,, X i X j > ε.
Metoda Monte Carlo vyvinuta ve 4. letech Johnem von Neumannem a Stanislavem Ulamem v Los Alamos slouží k matematickým výpočtům, které deterministickou cestou není možné provést postup využívající opakovaných náhodných simulací za účelem určit vlastnosti či průběh nějakého jevu
Metoda Monte Carlo příklad Zadání Házíme opakované mincí. Je mince falešná? sledovaná vlastnost pravděpodobnost, že padne panna náhodný jev N hodů mincí náhodná simulace N hodů mincí podle alternativního rozdělení s parametrem 1 2
Metoda Monte Carlo příklad Zadání Házíme opakované mincí. Je mince falešná? sledovaná vlastnost pravděpodobnost, že padne panna náhodný jev N hodů mincí náhodná simulace N hodů mincí podle alternativního rozdělení s parametrem 1 2
Princip statistického testování Opakujeme 1. Vygenerujeme n bodů z Ro(; L). 2. Určíme K-funkci pro tyto body. Z vypočtených K-funkcí určíme na hladině významnosti testu α obálku. Příklad Výpočet opakujeme 2 krát. Seřadíme v každém bodě od nejmenší po největší. Pro α=,5 určuje obálku 5. a 195. hodnota.
Metoda úsek 1 3 5 7 9 11 13 úsek 2 5 53 56 12 122 124 126 128 13 Délka obou úseků je 2 metrů. 2 2 18 16 97,5% 2,5% 18 16 97,5% 2,5% 14 14 12 12 K(ε) 1 K(ε) 1 8 8 6 6 4 4 2 2 5 1 15 2 ε 5 1 15 2 ε
8 x 1 3 7 Jádrový odhad hustoty Hustota 6 5 4 3 2 1 2 4 6 8 1 Vzdálenost (m)
Jádrová funkce Typ jádrové funkce Gaussova Konstantní Epanechnikova 1.8.6.4.2 Gaussova Konstantní Epanechnikova Trojúhelníková Trojúhelníková 2 1 1 2
Jádrová funkce Typ jádrové funkce Gaussova Konstantní Epanechnikova 1.8.6.4.2 Gaussova Konstantní Epanechnikova Trojúhelníková Trojúhelníková 2 1 1 2
Jádrová funkce Hustota.15.1.5 5m 1m 5m 2 4 6 8 1 Vzdálenost (m) Velikost okna malé hodnoty= lokální shlukování vysoké hodnoty= větší zhlazení 5m prostředí měst 5m na dálnicích 1m
Jádrová funkce Hustota.15.1.5 5m 1m 5m 2 4 6 8 1 Vzdálenost (m) Velikost okna malé hodnoty= lokální shlukování vysoké hodnoty= větší zhlazení 5m prostředí měst 5m na dálnicích 1m
Jádrová funkce Hustota.15.1.5 5m 1m 5m 2 4 6 8 1 Vzdálenost (m) Velikost okna malé hodnoty= lokální shlukování vysoké hodnoty= větší zhlazení 5m prostředí měst 5m na dálnicích 1m
f n (x)= 1 n n K d (x X i ) i=1 1.2 x 1 3 4.5 x 1 3 4 1 3.5.8 3 Hustota.6 Hustota 2.5 2.4 1.5 1.2.5 5 1 15 2 Vzdálenost (m) 5 1 15 2 Vzdálenost (m)
Princip statistického testování Významný shluk část silnice v okolí lokálního maxima funkce f n (x), na kterém je hodnota funkce f n (x) významně vyšší než 1 L Říkáme, že na úseku dochází ke shlukování, pokud na něm existuje aspoň jeden významný shluk. Je potřeba stanovit hladinu významnosti.
Princip statistického testování Významný shluk část silnice v okolí lokálního maxima funkce f n (x), na kterém je hodnota funkce f n (x) významně vyšší než 1 L Říkáme, že na úseku dochází ke shlukování, pokud na něm existuje aspoň jeden významný shluk. Je potřeba stanovit hladinu významnosti.
Stanovení hladiny významnosti subjektivní odhad expertní úsudek postup nezávislý na hodnotiteli = metoda Monte Carlo sledovaná vlastnost hladina významnosti náhodný jev rozmístění DN na úseku náhodná simulace rozmístění DN podle náhodného rovnoměrného rozdělení
Stanovení hladiny významnosti subjektivní odhad expertní úsudek postup nezávislý na hodnotiteli = metoda Monte Carlo sledovaná vlastnost hladina významnosti náhodný jev rozmístění DN na úseku náhodná simulace rozmístění DN podle náhodného rovnoměrného rozdělení
Stanovení hladiny významnosti Opakujeme 1. Vygenerujeme n bodů z Ro(; L). 2. Určíme jádrový odhad hustoty pro tyto body. Z vypočtených jádrových odhadů hustoty určíme na hladině významnosti testu α obálku. Příklad Výpočet jádrového odhadu hustoty opakujeme 2 krát. Seřadíme odhady v každém bodě od nejmenšího po největší. Pro α=,5 určuje obálku 5. a 195. hodnota.
Stanovení hladiny významnosti 4.5 x 1 3 4 3.5 3 Hustota 2.5 2 1.5 1.5 2 4 6 8 1 12 14 16 18 2 Vzdálenost (m)
Stanovení hladiny významnosti 2 x 1 3 4.5 x 1 3 Hustota 1.8 1.6 1.4 1.2 1.8.6.4.2 Hustota 4 3.5 3 2.5 2 1.5 1.5 5 1 15 2 Vzdálenost (m) 5 1 15 2 Vzdálenost (m)
Problém křižovatek 4.5 x 1 3 3 x 1 3 4 3.5 2.5 3 2 Hustota 2.5 2 Hustota 1.5 1.5 1 1.5.5 5 1 15 2 Vzdálenost (m) 5 1 15 2 Vzdálenost (m) křižovatky = rizikové lokality
Problém jedné DN 8 x 1 3 8 x 1 3 7 7 6 6 5 5 Hustota 4 Hustota 4 3 3 2 2 1 1 5 1 15 2 Vzdálenost (m) 5 1 15 2 Vzdálenost (m)
Problém jedné DN 7 x 1 3 6 Hladina významnosti 5 4 3 2 1 n = 3 n = 5 n = 2 1 2 3 4 5 6 7 8 Délka silnice
Datová sada Olomoucký okres, listopad 26 prosinec 21, extravilánové úseky Zdroje dat dopravní nehody: Policie ČR silniční sít : Ředitelství silnic a dálnic hranice okresu Olomouc: Český statistický úřad zkoumáno 738 silničních úseků analyzováno 264 DN na 86km komunikací
Výsledky Úvod Bylo identifikováno 283 shluků s celkovou délkou 34,6km (4% komunikací), obsahujících 1234 DN. 6 x 1 3 3 x 1 3 5 2.5 4 2 Hustota 3 Hustota 1.5 2 1 1.5 5 1 15 2 25 Vzdálenost (m) 5 1 15 2 Vzdálenost (m)
Síla shluku (Cluster strength) Najít taková místa, kde: dochází k významnému shlukování děje se zde velké množství nehod jedná se o co nejkratší úseky Kvantifikátor významu shluku síla= hodnota lokálního maxima hladina významnosti hodnota lokálního maxima
Síla shluku (Cluster strength) síla:shluk (; 1) síla=síla(n S, L, n M, L S ) n S počet nehod ve shluku L délka úseku n M počet nehod na úseku, které nejsou ve shluku L S délka shluku (rozmístění DN ve shluku) srovnání významných shluků
Použití síly shluku Seřadíme shluky podle síly shluku. Síla Počet Průměrný počet DN Průměrná délka shluku shluků ve shluku shluku (m) > 283 4,36 122,5 >,4 75 5,92 153 >,5 28 7,54 18 >,6 9 9,11 186
Tendence ke shlukování DN { síla shluku, DN patří do shluku,, DN nepatří do shluku..35.3 v zatacce Tendence.25.2.15 v blizkosti mostu v blizkosti zel. prejezdu.1.5 alkohol ocekvana tendence 5 1 15 2 25 Pocet DN
Diskuze a dotazy
Dvě DN na úseku Příklad Najděte mezní situaci pro dvě DN na úseku délky L metrů tak, aby se ještě nejednalo o shluk. ( Epanechnikova funkce: K d (x)= 3 4d 1 ( ) ) x 2 d I ( d;d) (x) : f n (x)= 1 n n i=1 K d(x X i ) HV 3 4dn
Dvě DN na úseku ( f 2 (x ) = 1 ( ) 3 x X 2 ( ) ) 1 x X 2 2 1 + 1 = 2 4d d d ( ( ) 3 V 2 ( ) ) V 2 = 1 + 1 = 4d 2 d d ( ( ) ) 3 V 2 = 1 4d d Chceme, aby f 2 (x ) HV, což bude platit, pokud ( ( ) ) 3 V 2 1 4d d V 3 4d 2 2 2 d
Dvě DN na úseku 4 x 1 3 3.5 3 2.5 Hustota 2 1.5 1.5 5 1 15 2 Vzdálenost (m)