Česká zemědělská univerzita v Praze Provozně ekonomická fakulta Statistické softwarové systémy projekt Analýza časové řady Analýza počtu nahlášených trestných činů na území ČR v letech 2000 2014 autor: Jindřich Načeradský
OBSAH: 1. Úvod 2. Cíl práce 3. Použitá data 4. Analýza časové řady 4.1. Model reziduí 4.2. Kvalita modelu 4.3. Autokorelace 4.4. Předpovídaný budoucí vývoj 5. Závěr 1
1. Úvod Trestné činy se dějí všude kolem nás, přestože si to nejsme vždy ochotni plně uvědomit. Každý rok je v České republice spácháno tisíce trestných činů a ne všechny tyto skutky jsou nahlášeny na policii. Jak se tato čísla vyvíjela v průběhu posledních let? Jaký bude jejich vývoj v letech budoucích? Odpovědi na tyto otázky by měl nalézt přesně tento projekt. 2. Cíl práce Cílem projektu je analyzovat počet nahlášených trestných činů na území ČR od roku 2000 do roku 2014 a zkoumat jeho vývoj v následujících letech. Pro tyto účely bude využito softwaru SAS, ve kterém bude analyzován zmíněný problém. 2
3. Použitá data Data byla získána z internetové databáze Českého statistického úřadu a doplněna z internetových stránek Policie ČR. Základní tabulka udává počet trestných činů od roku 2000 do roku 2014. Sloupec,,zjištěné trestné činy udává počet nahlášených trestných činů na území ČR ve zmíněných letech. Hodnot je celkem 14. Maximální hodnota byla naměřena v roce 2000 a minimální v roce 2014. zdroje: https://www.czso.cz/csu/czso/ceska republika v cislech od roku 1989 wau52m1y38#14 http://www.policie.cz/statistiky kriminalita.aspx 3
Graficky jsou pak data znázorněna v následujícím grafu. Graf i přes výkyvy postupně klesá. 4
4. Analýza časové řady V programu SAS je použit modul Time Series Forecasting System. Po zadání dat do programu je nutné zvolit optimální model. Díky automatickému výběru je k dispozici několik vhodných modelů, které mají v pravém sloupci uvedenou hodnotu Mean Absolute Percent Error (MAPE), díky které je možné je vzájemně porovnat. Jako nejlepší je zvolen model Lienar (Holt) Exponential Smoothing. Důvodem ke zvolení tohoto modelu je že má nejmenší chybovou hodnotu MAPE oproti ostatním modelům. Pro tvorbu modelu budou použita data z celé časové řady. 5
4.1. Model reziduí Největší rozdíly mezi skutečnou a vyrovnanou hodnotou jsou v letech 2007 a 2013. Největší výkyv činí 20 574 trestných činů, a to právě v roce 2007. V grafu není na první pohled vidět žádná pravidelnost a graf se zdá být nahodilý. Rozložení reziduí kolem nuly se zdá být rovnoměrné. 6
4.2. Kvalita modelu Na obrázku je přehled základních kritérií pro výběr modelu. Odchylka hodnot modelu od původního souboru činí jen 2.69%, což je udáno hodnotou MAPE. Hodnota je menší než 5%, model tudíž velmi kvalitně popisuje minulost. Otázkou však zůstává jestli model správně popíše i budoucnost. Model vystihuje situaci z 82.4%, jak je možné vypozorovat z hodnoty koeficientu determinace, který udává z kolika procent odpovídá matematická funkce modelu zadaným datům. Vysoká hodnota R Square značí kvalitní model. 7
4.3. Autokorelace Autokorelace je jev, který naznačuje kvalitu modelu. Znamená hodnotu závislosti reziduí vůči sobě, kdy každá hodnota koreluje právě s tou předchozí. Výpočty částečné a inverzní autokorelace splňují kritickou mez. V případě prvního výpočtu autokorelace je hodnota na hranici meze, ale je pořád splněna. V případě přesáhnutí kritické meze u jakéhokoliv prvku kromě prvního není model schopen správně definovat daný průběh vztahu a je žádoucí pokusit se autokorelaci zmírnit, například volbou jiného modelu. 8
4.4. Předpovídaný budoucí vývoj Graf předpovídaného budoucího vývoje udává další postupný pokles trestných činů pro další čtyři roky. Graf je omezen na čtyři roky kvůli nepřesnosti dalších předpovědí. Počet trestných činů na další 4 roky by měl zůstat v udávané mezi. Dá se očekávat pokračování celkové klesající tendence s možnými výkyvy. Do přesnosti předpovědi se může dále promítnout nedostatek údajů v časové řadě. 9
V poslední tabulce lze porovnat původní hodnoty s hodnotami předpovídanými a pozorovat o kolik se mezi sebou liší. Stějně tak lze pozorovat rozmezí ve kterém se budou pohybovat předpovídané hodnoty. 10
5. Závěr Počet trestných činů se snižuje. Toto snížení mohou ovlivňovat různé faktory, těch je ale v tomto případě velmi mnoho. Pro určení toho, které faktory mají na toto snížení zásadní vliv by bylo žádoucí výsledky porovnat s jinými statistickými šetřeními, které se přímo a nepřímo podílejí na počtu nahlášených trestných činů v ČR. Jako jedno z témat pro další analýzu by bylo zajímavé určit jakým způsobem se v grafu projevila nebo ještě projeví nedávná amnestie z roku 2013. Jelikož z grafu je možné vypozorovat, že v tom roce byl zaznamenán nárůst trestné činnosti. Další statistiky týkající se kriminality v ČR je možno mimo jiné naleznout na stránkách Českého statistického úřadu, stránkách policie ČR, a také například v projektu mapa kriminality, kde je kriminalita znázorněna na interaktivní mapě ČR. Projekt lze nalézt na stránkách www.mapakriminality.cz. 11