Vysoká škola báňská Technická univerzita Ostrava Hornicko geologická fakulta Institut geoinformatiky DIPLOMOVÁ PRÁCE

Transkript

1 Vysoká škola báňská Technická univerzita Ostrava Hornicko geologická fakulta Institut geoinformatiky DIPLOMOVÁ PRÁCE Ostrava 2007 Jaroslav Kunc

2 VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA Hornicko-geologická fakulta Institut geoinformatiky TVORBA MULTIDIMENZIONÁLNÍ DATABÁZE PRO GIS STATISTIKY Diplomová práce Autor: Vedoucí diplomové práce: Jaroslav Kunc Doc. Dr. Ing. Jiří Horák Ostrava 2007

3 Prohlašuji, že Celou diplomovou práci včetně příloh, jsem vypracoval samostatně a uvedl jsem všechny použité podklady a literaturu. Jsem byl seznámen s tím, že na moji diplomovou (resp. bakalářskou) práci se plně vztahuje zákon č.121/2000 Sb. - autorský zákon, zejména 35 využití díla v rámci občanských a náboženských obřadů, v rámci školních představení a využití díla školního a 60 školní dílo. Beru na vědomí, že Vysoká škola báňská Technická univerzita Ostrava (dále jen VŠB- TUO) má právo nevýdělečně, ke své vnitřní potřebě, diplomovou práci užít ( 35 odst. 3). Souhlasím s tím, že jeden výtisk diplomové práce bude uložen v Ústřední knihovně VŠB- TUO k prezenčnímu nahlédnutí a jeden výtisk bude uložen u vedoucího diplomové práce. Souhlasím s tím, že údaje o diplomové práci, obsažené v Záznamu o závěrečné práci, umístěném v příloze mé diplomové práce, budou zveřejněny v informačním systému VŠB- TUO. Rovněž souhlasím s tím, že kompletní text diplomové práce bude publikován v materiálech zajišťujících propagaci VŠB-TUO, vč. příloh časopisů, sborníků z konferencí, seminářů apod. Publikování textu práce bude provedeno v omezeném rozlišení, které bude vhodné pouze pro čtení a neumožní tedy případnou transformaci textu a dalších součástí práce do podoby potřebné pro jejich další elektronické zpracování. Bylo sjednáno, že s VŠB-TUO, v případě zájmu z její strany, uzavřu licenční smlouvu s oprávněním užít dílo v rozsahu 12 odst.4 autorského zákona. Bylo sjednáno, že užít své dílo diplomovou práci nebo poskytnout licenci k jejímu využití mohu jen se souhlasem VŠB-TUO, která je oprávněna v takovém případě ode mne požadovat přiměřený příspěvek na úhradu nákladů, které byly VŠB-TUO na vytvoření díla vynaloženy (až do jejich skutečné výše). V Ostravě dne Jaroslav Kunc plné jméno autora podpis autora Adresa trvalého pobytu diplomanta Brumov okr. Zlín

4 Anotace Cílem práce bylo sestrojit multidimenzionální databázi pro GIS statistiky a ukázat možnosti, které poskytuje pro analýzu dat s využitím programu SPSS. V teoretické části je popsána struktura multidimenzionální databáze a typy datových modelů, vhodných pro multidimenzionální databázi. Je zde vysvětlen pojem datová kostka a její využití. V další části následuje pojednání o datových skladech a systémech OLAP a OLPT. V praktické části je ukázán návrh datové struktury databáze, její tvorba v programu MS Access a naplnění statistickými daty. Poslední část práce se zabývá importem dat do programu SPSS a tvorbou OLAP reportů a statistických map, pomocí programu SPSS. Klíčová slova: GIS, Multidimenzionální databáze, OLAP, SPSS

5 Annotation The purpose of this thesis was to create a multidimensional database for GIS statistics and to demonstrate possibilities, which are provided for data analysis with use of the SPSS program. In theoretical part is described the structure of a multidimensional database and the types of data models, suitable for multidimensional database. It is explained here the term data cube and its application. Next part follows with a treatise about data warehouses and about OLAP and OLPT systems. In practical part is showed the design of data structure of the database, its creation in a MS Access program and filling up with statistical data. The last part of this study is concerning with import of data to SPSS program and with creation of OLAP reports and statistical maps, by SPSS program. Keywords: GIS, Multidimensional database, OLAP, SPSS

6 Na tomto místě chci poděkovat p. Doc. Dr. Ing. Jiřímu Horákovi za cenné rady a ochotu podělit se o své zkušenosti. Děkuji také své rodině a nejbližším, bez kterých by tato práce nikdy nevznikla, za jejich trpělivost a podporu.

7 OBSAH OBSAH SEZNAM ZKRATEK 1 ÚVOD Současný stav Evidence dat na ÚP a MPSV GIS statistiky Uložení GIS statistik Popis dat Data Popis agregovaných dat z evidence uchazečů o zaměstnání List OKpráce List Ukazatele List Popis Geografická data z MPSV CO JE TO MULTIDIMENZIONALITA? Základy multidimenzionality Princip multidimenzionality Multidimenzionální datový model Normalizace Hierarchie dimenzí Datový sklad OLTP vs. OLAP Charakteristika OLAP Použitý SW MS Access SPSS POSTUP PRACÍ Návrh datové struktury multidimenionální databáze Vytvoření tabulek dimenzí Export struktury do MS Access Vytvoření databáze Naplnění databáze Ruční naplnění dat Tabulka DTAB_CAS Tabulka DTAB_EKONOMPROM Tabulka DTAB_OBEC Tabulka FTAB_HODNOTA Automatizovaný import dat Do tabulky FTAB_HODNOTA Do tabulky DTAB_EKONOMPROM Import dat z MDD do SPSS Nastavení vah Vytvoření základního souboru s daty Vytvoření souboru s váhami Definování váhy Spuštění OLAP kostek Ukázka DRILL-DOWN Ukázka vývoje míry nezaměstnanosti TVORBA STATISTICKÝCH MAP Syntaxe pro tvorbu mapových výstupů v SPSS Spouštění syntaxe Popis syntaxe Popis základní části syntaxe Kartodiagramy Bar chart - Sloupcový strukturní kartodiagram Pie chart - Kruhový strukturní kartodiagram...49

8 7.4.3 Graduated symbol - Kartodiagram odstupňovaných (gradujících) symbolů Kartogramy Individual values Kartogram individuálních hodnot Range of Values Kartogram zařazení do tříd Dot density (Tečkový kartogram) Spojení více typů grafů (Multiple themes) Automatizace generování mapových výstupů v SPSS ZÁVĚR...58 LITERATURA:...60 SEZNAM TABULEK A OBRÁZKŮ...61 Seznam tabulek...61 Seznam obrázků...62 Seznam příloh...64

9 SEZNAM ZKRATEK DWH Data Warehouse ČR Česká republika ČSÚ Český statistický úřad GIS Geografický informační systém IS Informační systém IS SZ Informačního systému služeb zaměstnanosti JTSK Jednotná trigonometrická síť katastrální OLAP On Line Analytical Processing OLTP On Line Transaction Processing System transakční systémy MPSV Ministerstvo práce a sociálních věcí ČR MDD Multidimenzionální databáze SLDB 2001 Sčítání lidu, domů a bytů 2001 UIR-ADR Územně identifikační registr objektů a adres UIR-ZSJ Územně identifikační registr základních sídelních jednotek ÚP Úřad práce VŠB TUO Vysoká škola báňská Technická univerzita Ostrava ČUZK Český ústav zeměměřický a katastrální ISVS Informační systémy veřejné správy ISDP Informační systém o datových prvcích

10 1 ÚVOD Tato diplomová práce pojednává o tvorbě multidimenzionální databáze, kterou by mohly využívat úřady práce pro vkládání, skladování a výběry dat z evidencí úřadů práce a pro tvorbu statistických analýz a mapových výstupů. Práce je rozdělena na několik částí. V úvodu se zabývá teoretickým popisem tvorby datových skladů, multidimenzionální databází a systémem OLAP. V dalších částí práce je popsán postup tvorby multidimenzionální databáze, tvorba OLAP reportů a mapových výstupů v produktu SPSS. Dále práce pojednává o GIS statistikách, jejich struktuře a možnosti využití multidimenzionální databáze pro jejich ukládání. Z evidence uchazečů o zaměstnání, která je vedena na úřadech práce se vybrané primární údaje a ukazatele agregují do statistik, které jsou nazývány GIS statistiky. Tato data jsou pořizována pro popis a sledování stavu trhu práce a můžeme je využívat pro analytické účely, statistické zpracování a také tvorbu statistických map a jejich interpretaci. V současné době jsou údaje z GIS statistik na úřadech práce zpracovávány pomocí programu MicroSoft Map, který je součástí MS Excel 97 a Agregovaná data se ukládají do sešitů MS Excel, pomocí předem nadefinovaných šablon. Pro jeden měsíc se mohou vygenerovat až 4 soubory s daty. S narůstajícím počtem takto ukládaných souborů je stále složitější provádět výběry potřebných dat. Hlavním problémem při zpracovávání těchto dat je časový faktor, konkrétně sledování vývoje určitého jevu mezi dvěma daty. Tento problém lze řešit uložením dat do multidimenzionální databáze, pomocí které lze snadno sledovat vývoj jevu pro libovolný časový interval. Cílem práce je tedy vytvořit multidimenzionální databáze pro evidenci vybraných ukazatelů situace na trhu práce s návrhem řešení zvlášť pro MPSV (s využitím programového prostředí SPSS) a zvlášť pro úřady práce (s využitím MS Access). Poslední část práce se zabývá studiem možností programu SPSS, pomocí kterého lze vytvářet statistické mapy a automatizací jejich generování s využitím psaného kódu syntaxe. 1

11 2 Současný stav 2.1 Evidence dat na ÚP a MPSV V současnosti jsou data vytvářena a ukládána na úřadech práce pomocí programového vybavení OKpráce od společnosti Oksystem s.r.o., které tvoří základní část Informačního systému služeb zaměstnanosti (IS SZ). Systém byl postupně budován již od roku 1993 a je určen pro pracovníky úřadů práce a MPSV (architektura klient/server) a pro veřejnost (portál MPSV). Tento IS je provozován a využíván Správou služeb zaměstnanosti Ministerstva práce a sociálních věcí (MPSV) v Praze, na 77 úřadech práce (ÚP) a na dalších 163 pobočkách úřadů práce [9]. Data exportovaná z tohoto systému se označují jako GIS statistiky. 2.2 GIS statistiky Základním účelem GIS statistik je poskytování vybraných dat k jistému datu z evidence úřadu práce, agregovaných na úroveň územních jednotek (obce, případně obvody a městské části), zahrnující počty volných míst, uchazečů o zaměstnání rozdělených do skupin, například podle věku, doby evidence nebo dosaženého vzdělání. Údaje z GIS statistik slouží pro konstrukci kartogramů a kartodiagramů mapující situaci na trhu práce na území příslušného úřadu práce. GIS statistika se pravidelně připravuje počátkem měsíce a obsahuje údaje k poslednímu dni předchozího měsíce [1]. Exportovaná data mohou být uložena až ve čtyřech souborech XLS. Soubory obsahují primární údaje (např. počty osob) a ukazatele, které se vypočítávají z primárních hodnot pro každou obec v okrese. 2.3 Uložení GIS statistik Agregovaná data z GIS statistik se ukládají do sešitů MS Excel. Z důvodů narůstajícího počtu takto ukládaných dat, jejich výběrů a sledování vývoje dat v čase, je nutné najít nový a vhodnější způsob jejich uložení a zpracování. Do roku 2005 bylo možné provádět export pouze jednoho souboru, který obsahoval 34 primárních údajů. Po roce 2005 bylo možné využít k exportu další 3 typy šablon, což vedlo k nárůstu počtu dat. Tudíž pro jeden měsíc se mohou vytvořit až 4 soubory s daty. Zpracovávání takto odděleně uložených dat je při výběru údajů z jednotlivých souborů a sledování vývoje ukazatelů v čase komplikované. S využitím multidimenzionální databáze a jejich vlastností, lze snadno sledovat vývoj ukazatele v čase. 2

12 3 Popis dat 3.1 Data Data, která jsou při tvorbě pilotní databáze zpracovávána, byla poskytnuta z Úřadu práce v Bruntále, Mladé Boleslavi a z MPSV. K dispozici jsou data pro období od roku 1995 do roku Data pro část roku 2005 a pro počátek roku 2006 jsou z MPSV a je v nich zahrnuta celá Česká republika. 3.2 Popis agregovaných dat z evidence uchazečů o zaměstnání Data se exportují pomocí aplikace PAexport nebo pomocí exportu zabudovaného přímo v systému OKpráce a ukládají se do tabulky formátu MS Excel, s využitím předem definovaných šablon. Jedná se o primární údaje, které jsou agregovány z dat uložených v systému OKpráce a jsou vztaženy k základním územním jednotkám. Tato primární data jsou zapotřebí pro výpočet jednotlivých ukazatelů. Při exportu lze data uložit až do 4 souborů. Struktura těchto souborů je definována pomocí šablon ve formátu MS Excel. Níže v tabulce je uveden účel každé šablony. Všechny šablony jsou určeny pro ukládání dat exportovaných ze systému OKpráce. Liší se zaměřením primárních dat a skupinou vypočtených ukazatelů. ŠablonaGIS0 Tabulka č. 1 Popis šablon pro export z OKpráce Určena pro ukládání dat exportovaných ze systému OKpráce a pro výpočet ukazatelů (původní). ŠablonaGIS1 Ukazatele rizikových skupin, věková struktura. ŠablonaGIS2 ŠablonaGIS3 Ukazatele vzdělání a KZAM (klasifikace zaměstnání). Ukazatele doby evidence, volných pracovních míst vzdělání a KZAM. Každý exportovaný soubor obsahuje celkově 4 listy. První list pro uložení primárních dat z OKpráce, druhý pro výpočet ukazatelů, třetí pro definování hranic tříd, a poslední pro popis dat. Ukázky dat uvedené níže jsou pro okres Bruntál. 3

13 3.2.1 List OKpráce V listu jsou jako první uvedeny informace o původu dat a měsíc vyhotovení. Ve druhém řádku (záhlaví) jsou zkrácené názvy primárních údajů. Celkový počet primárních údajů, které můžou být exportovány ze systému OKpráce, je kolem 150. Počet ukazatelů, který byl vyexportován pro okres Bruntál je 83, protože byla použita pouze šablona ŠablonaGIS0. V tomto listu jsou zaznamenávány pouze primární data (počty osob), nikoliv statistické ukazatele, které přísluší daným konkrétním obcím. Celkový počet obcí, který je platný k je v okrese Bruntál 68 a ke každé obci je přiřazen její kód. Níže na tabulce č. 1 je vidět způsob uložení dat v listu. Tabulka č.2: Obsah listu OKpráce List Ukazatele I v tomto listu jsou taktéž uvedeny informace o původu dat a měsíc vyhotovení. Ve druhém řádku jsou zkrácené názvy ukazatelů. V tomto listu je v jednotlivých buňkách definován způsob výpočtu ukazatele. Ukazatele jsou vypočítány z primárních dat listu OKpráce. Na obrázku č. 1 je znázorněna ukázka výpočtu ukazatele míry nezaměstnanosti. Vzorec v hlavičce provádí výpočet ukazatele pro obec Bruntál. Nejprve kontroluje, zda se neprovádí dělení nulou a poté z nadefinovaných buněk listu OKpráce provede výpočet a výsledek zaokrouhlí na 1 desetinné místo. Obrázek č.1: Výpočet ukazatelů 4

14 Tabulka č.3: Obsah listu Ukazatelé List Popis Zde jsou uvedeny metadata, tj. popisy dat a ukazatelů. Pro každý ukazatel je zde uveden jeho název, způsob výpočtu a zkrácený název. 3.3 Geografická data z MPSV Pomocí geografických dat jsou zobrazeny ukazatele, které popisují situaci na trhu práce. Vektorová data, která jsou v projektu použita, jsou ve formátu MapInfo. Jedná se o data pro celou Českou republiku. Základem jsou data získaná z ČUZK, vzniklá digitalizací map v měřítku 1: Data jsou aktuální k datu byly provedeny změny v územní struktuře a obec Sosnová, která spadala do územního členění okresu Bruntál, od tohoto data spadá pod uzemní členění okresu Opava. Tato změna není v datech provedena. V mapě jsou znázorněny hranice administrativních jednotek obcí každého okresu. Na obrázku č. 2 je ukázána struktura atributů. Atributová tabulka obsahuje popisné atributy geografických objektů, jako je název obce, kód obce a kód okresu. Obrázek č.2: Ukázka geografických dat Na obrázku č.3 je uvedena ukázka načtených dat pro okres Bruntál v programu MapInfo. 5

15 Obrázek č.3: Ukázka geografických dat v prostředí MapInfo 6

16 4 CO JE TO MULTIDIMENZIONALITA? Co je to vlastně multidimenzionální databáze (MDD)? MMD je softwarový systém, který je navržen pro výhodné a pružné uložení a vybírání velkých objemů dat, která jsou navzájem vztažena, nahlížena a analyzována z různých perspektiv. Tyto perspektivy nazýváme dimenze [11]. 4.1 Základy multidimenzionality Multidimenzionální databáze slouží jako podklad pro získávání sumarizovaných a agregovaných informací. Hlavními prvky takovéto databáze je několik dimenzionálních tabulek, umožňujících velmi rychle a pružně měnit jednotlivé pohledy uživatele na modelovanou realitu. Díváme se na zkoumanou věc z několika pohledů či stran (dimenzí). Čím více dimenzí máme k dispozici, tím je náhled detailnější a jeho vypovídající hodnota pravdivější. Mezi výhody multidim. modelování patří hlavně návaznost na OLAP aplikace, přidávání jednotlivých dimenzí a editace atributů v těchto dimenzích. Multidimenzionalita umožňuje: Nové pohledy na data Vyhledávání zákonitostí Vyhledávání trendových charakteristik Rychlý přístup k velkým objemům dat Dobré schopnosti pro modelování a prognózy Analýzy dat Dále je třeba zmínit i nevýhody, což je například vysoký nárok na kapacitu úložiště nebo problémy při změně dimenzí. Je to jeden z typů databázové technologie, který slouží především jako datová základna pro dotazy. 4.2 Princip multidimenzionality Na obrázku č.4 je znázorněn princip multidimenzionality. Ve žluté buňce může být uložena hodnota (cena, počet kusů, ). Jsou to takzvaná souhrnná data a obvykle jsou numerická a měřitelná. Atributy, které je reprezentují se tudíž nazývají numerické atributy. Faktory, na základě kterých se může provádět analýza sumarizovaných dat, se nazývají dimenze, které jsou reprezentovány dimenzionálními atributy. Výběrem specifických dimenzí 7

17 získává uživatel náhled na sumarizovaná data. Pro každou dimenzi je definován stav, ze kterého se díváme na hodnotu. Například dimenze Čas a Geografie je možné definovat jako víceúrovňové hierarchie s úrovněmi dny, týdny, měsíce, čtvrtletí, roky a města, státy. Například na prodej konkrétního výrobku se díváme z určitého období daného roku, který je určen lokalizací. Další dimenzí může být typ kupujícího (student, důchodce ). Obrázek č.4: Multidimenzionalita [ Multidimenzionální datový model Podstatou přístupu k reprezentaci dat v MDD je multidimenzionální model dat. Data se v něm místo v tabulce zobrazují pomocí vícerozměrných polí. V terminologii OLAP se také hovoří o datových kostkách nebo multidimenzionálních kostkách [11]. Převážná většina údajů je organizovaná v relační databázi v dvojrozměrných relačních tabulkách. Všechny řádky tabulek mají vztah k nějakému předmětu nebo události. Základním prvkem je datová kostka krychle. Datové modely jsou nejčastěji vyjádřené graficky pomocí schématických vztahů. Existuje několik druhů datových modelů, vhodných pro tvorbu multidimenzionální databáze: 1. hvězdy 2. vločky 3. krychle 8

18 Nejvíce používané schéma datového modelu je hvězdicové schéma. Obrázek č.5: Hvězdicové schéma [10] Hvězdicové schéma obsahuje tabulky dimenzí pro každou dimenzionální oblast ve schématu. Jedna tabulka dimenze popisuje vlastnosti jedné a to jí příslušné dimenze. Všechny multidimenzionální modely, které obsahují tabulky faktů a dimenzí, jsou varianty hvězdicového schématu. V rámci tohoto schématu se tabulka, která se skládá z dimenzí a číselných atributů, nazývá tabulka faktů. Sloupce tabulky faktů jsou pouze buď klíčové položky nebo hodnoty. Všechny cizí klíče od odpovídajících tabulek dimenzí tvoří složený primární klíč tabulky faktů. Parciální vztah faktorové tabulky je N:1. Co je to granularita v tabulce faktů a tabulkách dimenzí? Granularita určuje úroveň podrobnosti údajů faktů, uložených ve fakt. tabulce. Je přímo závislá na úrovni podrobnosti dimenzí [2]. Nízká granularita, nízká úroveň detailu, znamená nemožnost pracovat s detailními daty, tj. podle dnů, jednotlivých produktů, prodejců apod. Naopak je to u vysoké granularity, tedy vysoké úrovně detailu dat. Má také vyšší nároky na diskový prostor datového skladu. Data by měla být uložena s nejvyšší možnou granularitou. Datové kostky obsahují souhrnná data. Datová kostka se skládá jenom z těch dimenzionálních atributů, které sdílejí všechny její číselné atributy. To znamená, že dimenzionální atributy tvoří základ datové kostky. Pokud chceme získat informace z několika datových kostek, mohou být tyto atributy propojeny na úrovni jedné nebo více společných dimenzí, kdy vzniká souhvězdí [11]. Na obrázku č.6 je znázorněna tabulka faktů a z ní vytvořená (multi)dimenzionální kostka, která má pouze dvě dimenze. První je výrobekid, druhá obchodid. 9

19 Obrázek č.6: Dimenzionální krychle 2 dimenze Přidáním časové informace vznikne kostka se třemi dimenzemi a to tak, že do tabulky faktů se přidá atribut datum. Viz. obrázek č.7. Obrázek č.7: Multi - Dimenzionální krychle 3 dimenze Počet dimenzí je teoreticky libovolný. Některá programová prostředí dovolují až přes 70 dimenzí. Protože MDD slouží především pro účely analýz, jsou s tímto modelem a navazujícími systémy (především OLAP) spojeny specifické analytické postupy: 1. Drill-down je jedna z metod analýzy informací. Používá se pro pronikání do hloubky, pro získání většího detailu. Proniká od vyšších celků až na jednotlivé položky, ze kterých se tyto celky skládají. Jedná se o pohyb v hierarchii dimenze dolů [11]. V praxi se metoda projevuje přidáním atributu z dimenze do výstupu. 2. Roll - Up - Jde o protiklad metody Drill Down. Pohybujeme se strukturou dimenze vertikálně zdola nahoru k vyšším úrovním agregace. 10

20 4.3.1 Normalizace 3. Pivoting umožňuje otáčet datovou krychlí, tj. měnit úhel pohledu na data na úrovni prezentace obsahu datového skladu [16]. 4. Drill-across je spojení dvou a více faktorových tabulek se stejnou granularitou [10]. Hvězdicové schéma nemá normalizované tabulky. Jedna z hlavních vlastností multidimenzionálního modelování je ta, že se používají normalizované tabulky s fakty spolu s nenormalizovanými tabulkami dimenzí [7]. V podstatě jde o to, že všechny tabulky dimenzí jsou napojeny k jedné tabulce faktů. Úplně normalizovaná dimenze je znázorněna níže na obrázku č. 8. Normalizace usnadňuje pochopení vzájemných vazeb (relací) mezi objekty, snižuje redundanci a zlepšuje dodržení konzistence a integrity dat. Nejdříve byly definovány 3 normální formy, nyní existuje i čtvrtá a pátá normální forma Hierarchie dimenzí Obrázek č.8: Normalizovaná tabulka produkt Obvykle každá dimenze má svoji vlastní hierarchii, pomocí níž můžeme uskutečňovat seskupování a členění. Příkladem může být časová dimenze, která má hierarchii Měsíc- Kvartál-Pololetí-Rok. Čím jsme na nižší úrovni hierarchie dimenzí, tak získáváme více podrobnější informace, a naopak, pokud jsme na vyšších úrovních [2]. 4.4 Datový sklad Datový sklad (Data Warehouse, dále DWH ) slouží k zajištění rychlé dostupnosti dat z různých oblastí (např. z rozsáhlé firmy) a k zjednodušení a zrychlení analytické či statistické práce s daty. Výstupy z DWH podporují rovněž rozhodování na všech úrovních řízení. Velmi známá definice datového skladu pochází od Billa Inmona [2]: Datový sklad je podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnných, historických dat použitých na získávání informací a podporu rozhodování. V datovém skladu jsou uložena atomická a sumární data. Subjektovou orientací se rozumí orientace na takový subjekt, podle kterého jsou data v datovém skladu kategorizována [2]. Subjektem může být zákazník, dodavatel, zaměstnanec, výrobek a podobně. Integrovanost nám představuje jednotnost a integrovanost datového 11

21 skladu. Je třeba zavést jednotnou terminologii, jednotné jednotky veličin. Ukládané údaje by měla být konzistentní a důvěryhodné. Časovou variabilitu můžeme chápat jako sérii snímků, z nichž každý reprezentuje určitý časový úsek [2]. DWH integruje data z provozních systémů a dalších externích zdrojů do datové struktury a je zpravidla fyzicky i logicky oddělen od provozních systémů [5]. Data z provozních systémů se převádějí do DWH, kde se po transformaci ukládají způsobem, který vyhovuje analytickému a prezentačnímu zpracování výstupů. DWH by měl být složen ze dvou vrstev. Nultá vrstva obsahuje nevyčištěná data, která se ve stanovených intervalech načítají z různých zdrojů. Následně se data čistí, integrují, sumarizují a ověřuje se jejich správnost. Takto ověřená data se ukládají do první vrstvy, která je základem pro všechny typy výstupů z DWH [5]. 4.5 OLTP vs. OLAP Co je OLTP (On Line Transaction Processing)? Jsou to systémy, které automatizují a sbírají transakce prostřednictvím výpočetních systémů [2]. Tyto systémy uchovávají záznamy o jednotlivých uskutečněných transakcích a jsou nejčastěji realizovány pomocí v dnešní době nejběžnější, tj. relační databázové technologie. Obvykle bývají tyto databáze menší a pracují s daty řádek po řádku (přístupy po indexu, malý objem zpracovávaných dat). OLTP systémy slouží především k plnění datových skladů v pravidelných intervalech (denně, týdně, měsíčně). Existují takzvané OLTP aplikace, což jsou aplikace, které se snaží sbírat transakce a umožňují manipulaci s rozsáhlým počtem datových záznamů ve stejném čase. Pod názvem OLAP (On Line Analytical Processing) jsou zahrnuté technologie, metody a prostředky, které umožňují ad-hoc analýzu multidimenzionálních informací. OLAP umožňuje flexibilní práci s údaji a analyzuje data z mnohých hledisek. Je to tedy technologie pro zpracování dat z datového skladu, s využitím velkého množství kladených dotazů. OLAP zpravidla pracuje s velkým množstvím dat, řádově se objemy dat pohybují v Gb až Tb. OLAP systémy většinou pracují na základě relačních databází. Obrázek č.9: Multi OLTP Vs. OLAP[15] 12

22 4.6 Charakteristika OLAP Smyslem OLAP systémů je co nejrychleji poskytnout uživateli požadované agregace dat, popřípadě výsledky analýz provedených právě nad těmito agregacemi.[15]. Mezi standardní funkce OLAP, které může koncový uživatel využívat patří: Kalkulace a modelování napříč dimenzemi, skrz hierarchie. Analýza trendů během postupných časových period. Sestupování do nižších úrovní hierarchie (drill-down) zvětšení detailu. Stoupání do vyšších úrovní hierarchie (drill-up) zmenšení detailu. Spojení dvou a více faktorových tabulek se stejnou granularitou (drill-across) [10]. Rotace pro porovnání v nových dimenzích příslušné oblasti (pivoting). Umožňuje otáčet datovou krychlí, tj. měnit úhel pohledu na data na úrovni presentace obsahu datového skladu [16]. V jednu chvíli se na data můžeme dívat z pohledu počtu prodaných kusů daného typu výrobku, a pomocí rotace datové kostky (změny dimenzí) se na data můžeme dívat z hlediska celkové tržby stejného typu výrobku v určitých lokalitách. OLAP je implementovaný v prostředí klient/server a měl by poskytovat poměrně rychlou odezvu na dotazy [4]. Základní pravidla pro OLAP: 1. Multidimenzionální konceptuální model 2. Transparentnost 3. Dostupnost dat 4. Stabilní výkonnost 5. Architektura klient/server 6. Podpora více uživatelů 7. Neomezené operace napříč dimenzemi 8. Flexibilní výstupy 9. Neomezené dimenze a úrovně agregací 13

23 5 Použitý SW Pro zpracování jednotlivých kroků byla použita různá programová prostředí. Mezi hlavní programy například patří MS Access, MS Excel, MapInfo, CASE Studio2, VBA a SPSS. Pro návrh datové struktury byl použit program CASE Studio2, pro vytvoření kódu automatického importu dat do prostředí Visual Basic for Application, který je součástí MS Access. K realizaci datové struktury a OLAP lze využít různých nástrojů a prostředí. Jedním z programů, který obsahuje možnost vytvářet OLAP reporty je také program SPSS MS Access Toto prostředí bylo vybráno pro realizaci multidimenzionální databáze. Databáze vytvořená v tomto prostředí slouží pro ukládání dat a pro import vstupních dat do systému SPSS, ve kterém probíhá statistické vyhodnocování SPSS Toto programové prostředí má MPSV k dispozici a používá ho pro statistické zpracování dat (i z GIS Statistik) a tvorbu statistických map. Z tohoto důvodu byl tento program vybrán pro první vyzkoušení tvorby a práce s OLAP a mutlidimenzionální databází. SPSS je statistický systém doporučovaný pro aplikace ve vědě, marketingu, personalistice a výzkumu, pro zpracování laboratorních měření a pro sumarizace dat z velkých i menších databází různého typu. Používá se pro: - finanční analýzy - tvorbu rozhodovacích modelů a analýzu i predikci časových řad. - data mining - manažerské analýzy. Program se skládá celkem z jedenácti modulů. Mezi nejpoužívanější moduly patří: Modul Base: Je základním modulem. Pomocí tohoto modulu lze nad importovanými daty vytvářet grafy, provádět analýzy (OLAP, popisné statistiky), atd. Modul Tables: Je zaměřen na tvorbu tabulek a obsahuje nástroje pro jejich editaci. Modul Regression models: Slouží pro pokročilé vícerozměrné statistické metody. 14

24 Modul Exact tests: Tento modul je rozšířením standardních testů, např. Pearsonovým testem nezávislosti, Fischerovým neparametrickým testem, Kolmogorov - Smirnovovým testem atd. Modul Maps: Slouží pro vytváření statistických map (resp. náhledů), jako jsou kartogramy a kartodiagramy, s využitím základních statistických charakteristik [14]. Data byla zpracována ve verzi programu č.14. Poslední vydaná verze programu je verze č.15, ale příliš se neliší od své předchozí verze. Prostředí programu je na první pohled podobné aplikaci Microsoft Excelale nepracuje s jednotlivými datovými listy, jako MS Excel. SPSS se skládá z několika hlavních pracovních prostředí: - DATA Prostředí, ve kterém jsou vytvářena nebo zobrazována data, načtená z různých datových zdrojů. V tomto prostředí jsou dvě záložky. Datový editor (Data View) a editor proměnných (Variable View). V datovém editoru se zobrazují načtená data a lze je zde editovat. Každý sloupec představuje jeden typ proměnné, pro kterou se definuje jméno, datový typ, velikost pole, počet desetinných míst, podrobnější popis, atd.. Buňky obsahují hodnoty dané proměnné. Obrázek č.10: Editor dat - Data view Pomocí záložky Variable view se zobrazí popis atributů a zde lze měnit vlastnosti proměnných a definovat nové proměnné. Jsou zde uvedeny definice proměnných, jako je název, datový typ, velikost pole atd.. Každý řádek reprezentuje jednu proměnnou a každý sloupec vlastnosti atributů. Obrázek č.11: Definice dat - Variable view 15

25 - SYNTAX V tomto prostředí lze pomocí příkazů data zpracovávat. - OUTPUT Prostředí pro zobrazování, modifikaci grafických výstupů a informativních hlášení při procesech zpracovávání dat. - SCRIPT Pomocí tohoto prostředí se dají vytvářet skripty pro zpracování některých úloh. 16

26 6 POSTUP PRACÍ Pomocí principu a postupů vysvětlených v kapitole 3.3, byla vytvořena databáze a posléze byla naplněna daty. Ze všeho nejdřív je nutné vytvořit návrh datové struktury databáze. Pro vytvoření tohoto návrhu byl použit programový prostředek CASE Studio 2. Následně byla databáze vygenerována v databázovém prostředí, v tomto případě MS Access a naplněna daty. K naplnění tabulky faktů a dimenzionální tabulky ekonomických proměnných byl vytvořen formulář pomocí programovém prostředí VBA for Application. Takto vytvořená databáze byla dále využita prostředím SPSS pro tvorbu OLAP kostek a grafických výstupů. 6.1 Návrh datové struktury multidimenionální databáze Pomocí programu CASE Studio 2 byl vytvořen návrh datové struktury. Jako schéma datového modelu multidimenzionální databáze bylo použito hvězdicové schéma. Vzhledem k dostupným prostředím, bylo schéma aplikováno pro relační SŘBD Vytvoření tabulek dimenzí Bylo vytvořeno 5 dimenzionálních tabulek, mezi něž patří tabulka DTAB_CAS (časová dimenze), DTAB_EKONOMPROM (dimenze ekonomické proměnné), DTAB_OBEC (prostorová dimenze), DTAB_STRUKTURA (změny v územní struktuře), DTAB_VYHOTOVIL (zadavatel dat) a tabulka s fakty FTAB_HODNOTA. Pomocí časové dimenze se definuje časová osa, každý záznam v tabulce faktů (fakt) tak nese časovou informaci. Pomocí dimenze ekonomické proměnné každému faktu přiřazujeme typ ekonomické proměnné, který chceme sledovat. Prostorová dimenze zajišťuje každému faktu lokalizaci k určitému území, tj. georeferencování. Pomocí tabulky DTAB_STRUKTURA se zaznamenávají změny v územní struktuře. V tabulce DTAB_VYHOTOVIL jsou informace o osobě, která provedla import dat. Tabulka DTAB_CAS Tabulka DTAB_CAS představuje časovou dimenzi. Každý záznam v časové dimenzi reprezentuje jeden časový úsek, v tomto případě měsíc (nejnižší granularita). Měřítko časové dimenze závisí na požadované přesnosti pohledu na data. Pro možnost podrobnějšího a detailnějšího pohledu na data byla zvolena hierarchická struktura Rok Pololetí Kvartál - Měsíc. 17

27 Dimenzionální tabulku čas tvoří pět atributů, ze kterých atribut ID_CAS je stanoven jako primární klíč. Níže na obrázku jsou ukázány atributy tabulky s příslušnými datovými typy. Datový typ každého atributu, mimo atribut Rok, byl nastaven na bajt. To proto, že každé pole tabulky bude nabývat jen celočíselných hodnot. Obrázek č.12: Tabulka čas Jelikož se při importu dat do tabulky faktů neukládá identifikátor, který přísluší konkrétnímu datu ale ukládá se rovnou datum (např. prosinec 2004), je nutná existence převodní tabulky. Tato tabulka se jmenuje TAB_IDCAS a má dva atributy. Obrázek č.13: Převodní tabulka TAB_IDCAS Tabulka DTAB_EKONOMPROM Tabulka dimenze ekonomických ukazatelů DTAB_EKONOMPROM se skládá z osmi atributů. Prvním atributem je ID_EKONOMPROM a postupně pak NAZEVPROM, ZPUSVYPOCTU, ZKRACNAZEV a VZDELANI. Obrázek č.14: Tabulka ekonomických proměnných Na tuto tabulku je dále napojena tabulka VZDELANI, která má tři atributy. Prvním atributem je identifikátor, druhou označení vzdělání a třetím atributem je popis typu vzdělání. Obrázek č.15: Tabulka vzdělání 18

28 Tabulka DTAB_OBEC Typ této tabulky je opět dimenzionální. Na obrázku č. 16 jsou zobrazeny atributy této tabulky. Datový typ identifikátoru IDKRAJE, ID_OKRESU a ID_OBCE byl nastaven jako text. Podle Standardu ISVS Katalogu jednoduchých datových prvků je datový typ kódu okresu stanoven jako číslicové znaky, datový typ obce je definován jako číslicové znaky a datový typ kódu kraje je definován jako celé číslo. Od je Katalog datových prvků ISVS nahrazen Informačním systémem o datových prvcích (ISDP) [8]. Obrázek č.16: Tabulka obce Při návrhu této dimenze a struktury tabulek je nutné vyřešit zaznamenávání změn v územní struktuře, která není statická a dochází k její změnám. Tento problém lze vyřešit atributem STRUKTURA, pomocí něhož jsou definovány jednotlivé typy územních struktur. Pomocí atributů PLATNOST_OD a PLATNOST_DO je stanovena platnost územní struktury. Jelikož k jednomu stavu územní struktury přísluší více obcí a jedna obec může spadat do několika verzí územní struktury, je nutné realizovat vazbu M:N mezi tabulkou FTAB_HODNOTA a tabulkou DTAB_OBEC. Je nutné vytvořit tabulku M:N, Která má jeden atribut a to IDOBCE. Obrázek č.17: Tabulka M:N Tabulka FTAB_HODNOTA Další tabulkou je tabulka faktů. Jak již bylo psáno v kapitole 2.3, tato tabulka obsahuje identifikátory připojených dimenzionálních tabulek. Ke každé kombinaci těchto identifikátorů může existovat údaj, který se zaznamenává do atributu HODNOTA (decimal). 19

29 Na obrázku č. 18 je znázorněna tabulka faktů, která obsahuje identifikátory dimenzí času, lokality, ekonomická proměnné, pracovníka a dále obsahuje hodnoty ukazatelů. Další proměnnou v tabulce faktů je POZNAMKA, sloužící pro záznam data vložení. Poslední proměnnou je identifikátor pracovníka ID_PRAC, který provedl vložení nových dat nebo editaci dat stávajících. Obrázek č.18: Faktorová tabulka Tabulka DTAB_VYHOTOVIL Tato tabulka je složena ze čtyř atributů. Z atributu ID_PRAC, jejíž datový typ byl nastaven na string z toho důvodu, že identifikátor osoby se může skládat jak z číslic, tak z písmen. Dalšími atributy jsou JMENO, PRIJMENI a PRACOVISTE. Obrázek č.19: Tabulka DTAB_VYHOTOVIL Celkové navržené schéma je uvedeno na obr. č.20 Obrázek č.20: Schéma navržené databáze 20

30 6.1.2 Export struktury do MS Access Navržená struktura v programu CASE Studio 2 se pomocí funkce Generování Skriptu převede na skript, který lze spustit v programu Access. Skript obsahuje stručný popis postupu, jak jej lze v MS Access spustit. Na obrázku č. 21 jsou v záložce Co generovat zobrazeny možnosti pro generovaný skript s volbou výběru prvků, které si přejeme vygenerovat. Při zaškrtnutí možnosti Tabulky bude výsledný skript zahrnovat generování tabulek. Jestliže je zaškrtnuta položka Primární klíče, provede se jejich generace. V opačném případě se negeneruje žádný primární klíč. Dále budou generovány Indexy, Referenční integrita (pokud ji podporuje cílová databáze) a Pohledy. V záložce Jak generovat se volí způsob generování referenční integrity. V záložce Rozšířené jsou např. volby pro generování komentářů k tabulkám či atributům. V poslední záložce Seznam entit je možné vybrat tabulky, které mají být vygenerovány. 6.2 Vytvoření databáze Obrázek č.21: Nastavení exportu skriptu Vytvoření samotné databáze v MS Access se velmi ulehčilo pomocí skriptu, generovaného v programu CASE Studio 2. Po založení prázdné databáze byl vytvořen nový modul, do kterého byl načten vygenerovaný skript a posléze modul spuštěn. Po jeho spuštění a proběhnutí se vytvoří namodelované tabulky a relace tak, jak se připravily v CASE Studiu. Výsledná relace je ukázána na obr. č

31 6.3 Naplnění databáze Naplnění databáze se provádělo daty z Úřadu práce v Bruntále a daty z Mladé Boleslavi. 6.4 Ruční naplnění dat Data pro roky byla vložena ručně, pomocí funkce Vložit a Kopírovat do schránky. Systém vkládání dat byl po sloupcích a po měsících. Nejdříve do sloupce HODNOTA byly vloženy hodnoty ukazatelů za jeden měsíc. Počet vkládaných záznamů pro jeden měsíc je 71, což se rovná počtu obcí okresu Bruntál ke dni Ke každému záznamu byl do sloupce ID_CAS přiřazen příslušný identifikátor času. To znamená, že pro jeden měsíc byl vložen stejný identifikátor. Pro první měsíc bylo ID 1, pro druhá měsíc ID 2 atd. Do sloupce ID_HODNOTA bylo doplněno automatické číslo. Obrázek č.22: Vkládání dat Poté se do sloupce ID_EKONOMPROM vložily identifikátory ekonomických proměnných v takovém pořadí, jak byly vyexportovány pro daný měsíc. Tím se zajistilo, že ke každé hodnotě ekonomické proměnné byl přiřazen ten správný identifikátor ukazatele. Posléze se stejným způsobem pro každý měsíc do sloupce ID_OBCE vložily identifikátory obcí. 22

32 6.4.1 Tabulka DTAB_CAS Do této tabulky byly vloženy časové údaje pro rok, pololetí, kvartál a měsíc. Jelikož tato tabulka neobsahuje příliš rozsáhlá data, nejdříve byly v programu Excel vytvořeny všechny sloupce zastupující prvky v časové hierarchii a jednorázově vloženy do tabulky DTAB_CAS. Celkový počet záznamů je 168, což představuje data v rozmezí od roku 1995 do Obrázek č.23: Naplnění tabulky DTAB_CAS Tabulka DTAB_EKONOMPROM Do této tabulky se vložily názvy ukazatelů, způsob jejich výpočtu, identifikátory a zkrácené názvy ukazatelů. Pomocí atributu POHLAVÍ se zaznamenávají údaje o pohlaví (muž+žena, žena, muž), pro které se daný ukazatel vztahuje. Do proměnné VZDĚLÁNÍ jsou opět k vybraným ukazatelům vloženy identifikátory nejvyššího dosaženého vzdělání uchazečů. Celkový počet vložených záznamů je 74. Při vložení primárních dat a ukazatelů ze zbylých tří šablon, vzroste počet záznamů přibližně na

33 Obrázek č.24: Naplnění tabulky DTAB_EKONOMPROM Na tuto tabulku je napojena tabulka VZDELANI, ve které jsou uloženy jednotlivé typy dosaženého vzdělání a jejich popis. Níže v tabulce č. 4. je uveden přehled typů dosaženého vzdělání a způsob, jakým jsou v databázi jednotlivé typy sloučeny. Pomocí této tabulky je možné agregovat data podle stupně dosaženého vzdělání. ID Označení vzdělání Tabulka č.4: Typy vzdělání Vzdělání Popis 0 A,B,C bez vzdělání(a), neúplné základní vzdělání(b), základní vzdělání, praktická škola jednoletá(c) 1 D,E,H,J nižší střední vzdělání(d), nižší střední odborné vzdělání (E), střední odborné vzdělání a výučním listem(h), střední nebo střední odborné vzdělání bez maturity(j) 2 K,L,M,N střední všeobecné (gymnázia K), úplné střední odborné vzdělání s vyučením i maturitou(l), úplné střední odborné vzdělání s maturitou (bez vyučení - M), vyšší odborné vzdělání(n) 3 R,T,V vysokoškolské bakalářské vzdělání(r), vysokoškolské magisterské vzdělání(t), vysokoškolské doktorské vzdělání(v) Tabulka DTAB_OBEC V této tabulce jsou uloženy všechny obce okresu Bruntál pro roky a Mladé Boleslavi k datu Ke každé obci je přiřazen okres a kraj, pod jehož územní 24

34 vymezení daná obec spadá. Dále ke každé obci je přiřazen název obce s rozšířenou působností a název obce s pověřeným úřadem, pod které daná obec rovněž spadá. Celkový počet vložených záznamů je 329. Územní členění okresu Bruntál se v průběhu let měnilo. Od obce Huzová, Moravský Beroun a Norberčany nepatří do územního vymezení Moravskoslezského kraje a okresu Bruntál [13]. Při geografických změnách územní struktury okresu, například k odloučení obce nebo ke sloučení obcí, se do tabulky vloží všechny obce okresu, které spadají pod jeho působnost a pomocí atributu STRUKTURA se zajistí odlišení od předchozího stavu. V atributech PLATNOST_OD a PLATNOST_DO je uveden interval platnosti dané územní struktury. V tabulce jsou uloženy tři verze územní struktury pro okres Bruntál. První bruntal_1, platná od do , druhá bruntal_2, platná od do (Odloučení obcí Huzová, Moravský Beroun a Norberčany), třetí bruntal_3, platná od do (odloučení obce Sosnová). Dále je do tabulky vložena jedna struktura pro okres Mladá Boleslav ml_boleslav1, jejíž platnost je od do V případě, že obec zanikne, její záznamy zůstanou v tabulce faktů. Jestliže vznikne obec nová, např. připojením ze sousedního okresu, je nutné provést import dat do tabulky faktů pro tuto obec z předešlých let, protože po zařazení obce do nového okresu spadá i její minulost do nového okresu. Obrázek č.25: Naplnění tabulky DTAB_OBEC 25

35 6.4.4 Tabulka FTAB_HODNOTA Jak již bylo uvedeno výše, do této tabulky se vkládají hodnoty primárních klíčů dimenzí a k nim příslušící hodnoty. Do proměnné POZNAMKA je uloženo systémové datum, kdy byl vklad dat proveden. Data byla vkládána pomocí vytvořeného kódu v jazyce VBA a formuláře Import. Obrázek č.26: Naplnění tabulky FTAB_HODNOTA 6.5 Automatizovaný import dat Pomocí vytvořených formulářů v prostředí MS Access je možné provést automatizovaný import dat do tabulky faktů a dimenzionální tabulky DTAB_EKONOMPROM. Obrázek č.27: Formuláře pro import dat 26

36 6.5.1 Do tabulky FTAB_HODNOTA Pomocí aplikace VBA v prostředí MS Access byl vytvořen kód importu souborů formátu xls GIS statistika pro naplnění tabulky faktů. Kód je optimalizován pro strukturu souborů xls, která je ukázána na obrázku č. 28. Obrázek č.28: Struktura importovaného souboru Po spuštění modulu se zobrazí dialogové okno pro výběr souboru pro import. Vybírá se jeden soubor pro import. Filtr výběru je nastaven na zobrazení souborů s koncovkou *.xls. Obrázek č.29: Dialogové okno pro import 27

37 Poté je nutné zadat identifikátor osoby, která vkládání provádí. Obrázek č.30: Okno pro zadávání ID pracovníka Po výběru jednoho ze souborů se zobrazí okno s informací o počtu importovaných hodnot (řádků * sloupců). Obrázek č.31: Informace o počtu vkládaných dat Po potvrzení se provede import dat pro zvolený měsíc. Naplněná faktorová tabulka je ukázána na obrázku č.26. Importovaná data se pro každý měsíc ukládají postupně za sebou. Struktura kódu je taková, že nejdříve jsou deklarovány proměnné a poté se v kódu zpracovává dialogové okno pro výběr importovaného souboru. V dalším kroku zavede ovladač pro připojení souborů formátu Excel a provede se připojení k vybranému souboru. Do definovaných polí se načtou data z listů Okpráce, Ukazatelé a Popis. Následně se zjistí počty řádků a sloupců v každém poli a počet ukazatelů v listu Popis. Dále se zjistí z hlavičky prvního listu časový údaj a pomocí příkazu SQL INSERT INTO se vloží nejdříve hodnoty z listu OKpráce a následně z listu Ukazatelé Do tabulky DTAB_EKONOMPROM Jako v předešlém importu se pomocí dialogového okna vybere soubor, jehož ukazatele se mají importovat. Při importu se do tabulky nenačtou dva stejné ukazatele. 6.6 Import dat z MDD do SPSS Import dat z databáze do programu SPSS se provádí pomocí menu FILE/Open Database. Pomocí nabídky se vybere požadovaná databáze a připojí se požadovaný datový zdroj. 28

38 Obrázek č.32: Import databáze do SPSS importovat. Po načtení databáze program umožní výběr tabulek a atributů, které chceme Obrázek č.33: Výběr tabulek pro import V následujícím okně se nastavují a specifikují vztahy mezi tabulkami. Propojení vzniká tak, že ukazatelem myši uchopíme atribut jedné tabulky a přetáhneme jej na atribut jiné tabulky. Pokud již nějaké relace (vztahy) existují v importované databázi, automaticky se přenesou i zde. 29

39 Obrázek č.34: Stanovení vztahů tabulek Nyní je zde možnost výběru kritérií importu pro jakékoliv atributy. Budeme-li například chtít, aby se provedl pouze import hodnot pro rok 1995, nastavíme kritéria podle obrázku č. 35. Obrázek č.35: Stanovení kritérií importu Po nastavení všech kritérií se požadovaná data naimportují do prostředí SPSS. Ukázka naimportovaných dat je vidět na obrázku č. 36. Pomocí stanovených kritérií se načetly vybrané proměnné a záznamy s hodnotami ekonomicky aktivních v obcích okresu Bruntál. Proměnná HODNOTA obsahuje hodnoty ukazatele pro jeden měsíc, konkrétního roku, pro danou obec. 30

40 Obrázek č.36: Ukázka naimportovaných dat Datové typy importovaných proměnných jsou shodné s příslušnými datovými typy v multidimenzionální databázi. Na obrázku č. 37 je ukázka importovaných dat z MDD bez stanovení kritérií. Struktura importovaných dat je taková, že postupně za sebou se ukládají záznamy s hodnotami jednotlivých ukazatelů. Jeden záznam představuje jeden měsíc. Obrázek č.37: Ukázka naimportovaných dat 31

41 Ukázka importu dat z MDD pro územní strukturu platnou k Stejně jako v předchozí kapitole se pomocí menu FILE/Open Database vybere požadovaná databáze a připojí se požadovaný datový zdroj. Po výběru tabulek a atributů, zvolených pro import je nutné nastavit kritéria importu. Pokud chceme provést import hodnot ukazatele VMC (počet volných míst) pro územní strukturu platnou k , kritérium STRUKTURA se musí rovnat identifikátoru bruntal_2 a identifikátor ukazatele se musí rovnat hodnotě VMC. Obrázek č.38: Ukázka naimportovaných dat Po importu se do SPSS Data editoru načtou hodnoty daného ukazatele pro zvolenou datovou strukturu. Jelikož nebylo zadáno omezení z hlediska času, načetli se všechny hodnoty ukazatele VMC pro zvolenou územní strukturu, včetně struktury území, která je platná po V tomto případě je nutné záznamy z novější datové struktury odstranit. To je možné provést pomocí nabídky Select Cases, která ukázána na obrázku č. 39. Pomocí této nabídky se nastaví záznamy, které chceme zachovat. V případě, že se budou importovat data pro poslední platnou územní strukturu, není nutné provádět výběr záznamů, protože veškeré importované záznamy odpovídají poslední platné územní struktuře. 32

42 Obrázek č.39: Nabídka Celest Cases Výsledná importovaná data, pro zvolenou územní strukturu (bez odloučených obcí Huzová, Moravský Beroun a Norberčany) je ukázána na obrázku č. 40. Obrázek č.40: Výsledný import zvolené územní struktury 33

43 6.7 Nastavení vah Při výpočtu průměrných hodnot ukazatelů pro větší územní celky (okresy), je potřeba použít vážený průměr. Vážený průměr poskytuje charakteristiku souboru dat v případě, že hodnoty v tomto souboru mají různou důležitost (váhu). Pro výpočet váženého průměru potřebujeme hodnoty, jejichž průměr se má spočítat, a zároveň jejich příslušné váhy. Například při určování průměrné hodnoty míry nezaměstnanosti okresu Bruntál je nutné, aby hodnoty míry nezaměstnaností jednotlivých obcí byly ohodnoceny vahami.v tomto případě budou jako váhy brány počty ekonomicky aktivních obyvatel. Pro přiřazení váhy hodnotám proměnných je tedy nutné vytvořit 2 soubory s daty (formát SPSS). První, základní soubor s hodnotami proměnné, jejíž vážený průměr se má vypočítat a druhý soubor s vahami, který bude k základnímu připojen. V prostředí SPSS se váhy definují výběrem proměnné (sloupce), jejíž hodnoty představují váhy pro jednotlivé záznamy Vytvoření základního souboru s daty Tento soubor se vytvoří pomocí importu dat z databáze MS Access (FILE/Open Database). Po výběru zdrojové databáze se zvolí tabulky a proměnné, které chceme naimportovat. Obrázek č.41: Vytvoření základního souboru s daty Při výběru proměnné je nutné přidat i tu proměnnou, která bude sloužit jako propojovací klíč. V tomto případě se bude jednat o proměnnou ID_OBCE. V dalším kroku se nastaví kritéria importu. Pokud se má spočítat vážený průměr míry nezaměstnanosti, vyberou 34

44 se z tabulky FTAB_HODNOTA pouze ty záznamy, které obsahují hodnoty ukazatele MN. Nebo jestliže se má jednat o vážený průměr podílu absolventů, vyberou se pouze záznamy s hodnotami ukazatele PCABS_U. Na obrázku č je ukázáno nastavení kritérií importu. Při zadávání kritérií se v poli Expression1 zadá proměnná ID_EKONOMPROM, v poli Relation se vybere vztah = a v poli Expression se zadá název ID ekonomického ukazatele, jehož hodnoty je potřeba importovat. Obrázek č.42: Nastavení kritérií pro import základní soubor Výsledný importovaný soubor bude vypadat takto: Obrázek č.43: Vytvořený základní soubor 35

45 Nyní je nutné provést nastavení třídění záznamů. Kliknutím pravým tlačítkem myši na název proměnné, podle níž se mají záznamy třídit se vybere možnost Sort Ascending. Záznamy se setřídí vzestupně podle proměnné ID_OBCE. Obrázek č.44: Ukázka třídění Sort Ascending Vytvoření souboru s váhami Postup je obdobný jako u vytváření základního soubor s tím rozdílem, že do nabídky kritérií se zadá název ukazatele, jehož hodnoty mají reprezentovat jednotlivé váhy. Opět se ze zdrojové databáze zvolí tabulky a proměnné, které chceme naimportovat. I tento soubor musí obsahovat klíčovou proměnnou ID_OBCE, pomocí níž se připojí k základnímu souboru. Níže na obrázku č.. je ukázáno nastavení kritérií importu. Vybrány budou pouze ty záznamy, které odpovídají názvu zvoleného ukazatele (UC). Obrázek č.45: Nastavení kritérií pro import základní soubor 36

46 Výsledný naimportovaný soubor je opět nutné setřídit vzestupně podle proměnné ID_OBCE Definování váhy Pro přiřazení vah se používá menu Weight Cases". Obrázek č.46: Nastavení vah V první řadě musíme načíst základní soubor, ke kterému se mají váhy připojit. Přiřazení vah k jednotlivým záznamům konkrétní proměnné se provede přidáním nové proměnné pomocí nabídky Data/Merge Files/Add Variables Obrázek č.47: Menu Add Variables Z nabídky se vybere externí soubor (ve formátu SPSS), který chceme připojit. Tento externí zdroj dat musí obsahovat klíčovou proměnnou, pomocí které se má provést připojení dat. Stejný klíč musí být také v datech, do kterých se mají nová data přidat (ID_OBCE). Úspěšné přidání dat se provede tehdy, pokud oba dva soubory s daty, jak externí (soubor s vahami), tak stávající mají stejné seřazení dat - vzestupné seřazení dat. Na obrázku č. 48 je vidět nastavení parametrů pro připojení dat. Do pole Excluded Variables se načtou proměnné z externího souboru (soubor s vahami). V tomto případě to byly proměnné 37

47 ID_OBCE (vybrána jako klíčová proměnná), ID_CAS_DTAB, NAZEVOBCE, ROK HODNOTA (přejmenována na VAHA) a ID_EKONOMPROM. Jelikož v nově vytvořeném datovém souboru se nemůžou vyskytovat proměnné se stejným názvem, je nutné název přidávané proměnné přejmenovat ( Rename ). Do pole New Working Data File se přidávají proměnné, které mají být připojeny. V poli Key Variables se definují klíčové proměnné. Obrázek č.48: Nastavení přidávání nové proměnné Takto vypadají data po připojení externího souboru: Obrázek č.49: Ukázka připojených vah 38

48 Z takto připravených dat je možné generovat OLAP reporty, pro libovolné časové a územní umístění. V OLAP kostce bude možnost výběru pouze z toho ekonomického ukazatele, pro který se vytvořil základní a externí soubor s váhami. Pomocí funkce ADD CASES lze za jeden typ ukazatele (doplněného o váhu) připojit další typ ukazatele, který byl například také doplněn o další proměnnou (váhu). U OLAP kostky vytvořené z těchto ukazatelů by bylo možné vybírat mezi těmito ukazateli. 6.8 Spuštění OLAP kostek Realizace OLAP kostek se provádí tak, že se z menu (analyze/reports/olap Cubes) spustí formulář, kde v poli Summary Variables (HODNOTA) se zadávají sloupce s daty a v poli Grouping Variables se zadávají sloupce, které definují dimenze (obr.50). Dále je zde možnost výběru statistik, které chceme spočítat (průměr, šikmost, špičatost ). Obrázek č.50: Výběr dimenzí a faktů Po zvolení potřebných statistik a potvrzení výběrů a nastavení se vygeneruje report OLAP kostky. Obrázek č.51: Report OLAP kostky 39

49 V SPSS Vieweru lze pomocí menu Edit/SPSS Pivot Table Object/Open vyvolat nabídku k editaci vzniklých OLAP kostek. Tento nástroj se jmenuje Pivoting Trays a s jeho pomocí lze měnit pohledy na zpracovaná data, upravovat řádky, sloupce, barvy, měnit pozice dimenzí a ostatní vlastnosti celé tabulky. Obrázek č.52: Pivoting Trays Nyní lze pozorovat změny například pro proměnnou míra nezaměstnanosti. Jak lze vidět na obrázku č. 53, v rozbalovacím menu je vybrána obec Bruntál a kód ekonomické proměnné MN (Míra nezaměstnanosti). Na obrázku č. lze vidět vývoj této proměnné po dobu tří let. Tabulku tvoří statistiky, které byly vybrány na začátku při definování vlastností OLAP kostek. Obrázek č.53: Ukázka report OLAP I. Na obrázku č. 54 byla vybrána agregace podle měsíců a ne podle let. Hodnoty jsou počítány pro stejný měsíc po dobu tří let. (proto N = 3). Pomocí rozbalovacích oken lze opět měnit obce a ekonomické proměnné. 40

50 Obrázek č.54: Ukázka reportu OLAP II. Na obrázku č. 55 lze vidět vygenerované OLAP kostky pro ukazatel PCABS_U (Podíl absolventů v obci Bruntál pro uvedené roky). V pravé části obrázku je OLAP report bez využití vah. Na reportu umístěném vlevo jsou již váhy zahrnuty ve výpočtu. Obrázek č.55: Ukázka reportu OLAP III. 41

51 Při generování OLAP reportů pro více let a větší počet ukazatelů má počítač problémy se zpracováním dat. Po určité době ukončí proces a napíše varování s možným řešením. Tímto řešením je zvětšení počtu možných buněk pomocí příkazu set mxcells = automatic. I po provedení tohoto příkazu se generování OLAP reportů nedokončí. Řešením je redukce počtu importovaných ukazatelů na ty, které nás zajímají a tím tak snížit počet zpracovávaných dat. Obrázek č.56: Chybové hlášení Ukázka DRILL-DOWN Na obrázku č. 57 je ukázán princip funkce Drill-down. Na levém obrázku je zobrazena průměrná hodnota míry nezaměstnanosti v obci Bruntál pro roky 1995 až Na prostředním obrázku je znázorněn posun po ose hierarchie směrem dolů, zvětšení detailu na hodnoty míry nezaměstnanosti v prvních pololetích pro roky 1995 až Na pravém obrázku jsme se posunuli na úroveň čtvrtletí. Obrázek č.57: Ukázka funkce Drill-down Ukázka vývoje míry nezaměstnanosti Na obrázku č. 58 je znázorněna ukázka vývoje ukazatele míry nezaměstnanosti pro obec Bruntál v letech Pro srovnání je uveden případ s využitím váženého průměru a bez zavedení vah do výpočtu. 42

52 Obrázek č.58: Ukázka vývoje míry nezaměstnanosti Pokud jsou všechny váhy stejné, je vážený průměr totožný s aritmetickým průměrem. Při výpočtu váženého průměru míry nezaměstnanosti (MN), jsou jako váhy vstupující do výpočtu brány počty ekonomicky aktivních obyvatel (EAC01). Počty aktivních obyvatel v obci Bruntál se v letech od roku 1995 do roku 2005 příliš nemění. Od roku 1995 do konce roku 2003 je jejich počet Od roku 2003 se jejich počet zvýšil na U malých obcí se počty ekonomicky aktivních nemění téměř vůbec. Příkladem může být obec Krasov, kde se počet ekonomicky aktivních v průběhu let 1995 až 2005 zvýšil ze 162 na 163. Z tohoto důvodu, vypočítané vážené průměry pro jednotlivé roky se téměř neliší od průměrů obyčejných. Malá změna se projeví v případě, že je vážený průměr počítán pro větší počet let. 43

53 7 TVORBA STATISTICKÝCH MAP Modul Maps slouží pro vytváření statistických map. Lze využít šest typů tématických map, rozdělených do dvou kategorií: a) Kartodiagramy - Sloupcový strukturní kartodiagram - Kruhový strukturní kartodiagram - Kartodiagram odstupňovaných (gradujících) symbolů b) Kartogramy - Kartogram individuálních hodnot - Kartogram zařazení do tříd - Tečkový kartogram s náhodným umístěním teček Dále modul Maps nabízí kombinaci těchto šesti typů map v jednom výstupu. 7.1 Syntaxe pro tvorbu mapových výstupů v SPSS V programu SPSS lze téměř každou operaci prováděnou pomocí grafického prostředí převést do psaného kódu syntaxe. Po spuštění SPSS se pomocí menu FILE/NEW/Syntax spustí editor syntaxe. Editor je prostředí, v němž se pomocí příkazů můžou zpracovávat data. Syntaxe se ukládají do souborů, které mají příponu.sps. Syntaxe může být spuštěna na datový soubor, jež je aktivní v datovém editoru, nebo na soubor, který je neaktivní a je dán svou cestou. Tento soubor se po zadání cesty stane aktivním. V editoru, který je ukázán na obrázku č. 59, se zadávají pomocí příkazů operace, které mají být vykonány na datech (proměnných). Každý příkaz pro jeho úspěšné vykonání musí být ukončen tečkou. 44

54 7.2 Spouštění syntaxe Obrázek č.59: Editor syntaxe V SPSS existují 2 typy příkazů: 1) Příkazy, které vyžadují ukončení operace. Operace se zakončuje pomocí příkazu EXECUTE, který se zapisuje za konec syntaxe. Mezi operace vyžadující ukončení syntaxe patří například práce s proměnnýma a jejich hodnotami (Statistické výpočty, vytváření nových proměnných, výběry záznamů atd.). 2) Příkazy, které nevyžadují ukončení operace. Tyto příkazy nemusí být ukončeny značkou EXECUTE. Patří sem příkazy pro nastavení výpočtů, popisovací příkazy, informační příkazy atd.. Spuštění syntaxe je možné provést čtyřmi způsoby: 1. All Spustí se všechny příkazy v editoru. 2. Selection Spustí se vybrané příkazy, může jich být v jednom výběru několik. 3. Current Spustí se příkaz, který je na řádku, kde je kurzor. 4. To End Spustí se všechny příkazy, které jsou od aktuální polohy kurzoru až po konec syntaxe. 45

55 Obrázek č.60: Spuštění syntaxe 7.3 Popis syntaxe Celá syntaxe je složena z řady příkazů, pomocí nichž jsou definovány vlastnosti mapového výstupu. Syntaxe je složena ze dvou základních částí. V první části syntaxe se definují parametry pro napojení (bindování) geografických dat s hodnotami proměnných. Ve druhé části syntaxe se definují typy mapových výstupů a jejich parametry. Modul Maps se v kódu spouští pomocí příkazu MAPS. Lomítka v syntaxi oddělují jednotlivé příkazy Popis základní části syntaxe Modul MAPS nabízí tři možné typy spojení geografických dat a statistických dat podle toho, jaká data a proměnné máme k dispozici. První možností je využití příkazu GVAR. Příkaz GVAR vyžaduje jméno proměnné, která bude identifikovat geografické území. Hodnoty této proměnné musí odpovídat hodnotám v tabulce Geosetu. /GVAR = VAR(varname) [VAR(varname)] Druhou možností je využití příkazu XY. Propojení se bude realizovat pomocí souřadnic X a Y. Statistická data musí obsahovat proměnné se souřadnicemi k lokalizaci záznamů v mapě. Tento způsob se práci realizovat nedá, jelikož statistické data neobsahují atributy se souřadnicemi X a Y. /XY(varname)(varname) Poslední možností jak připojit data k mapě je pomocí příkazu LOOKUP, který rozšiřuje možnosti příkazu XY. Tento způsob připojení se používá v případě, kdy statistická data obsahují například proměnnou s kódy obcí, ale zároveň chybí proměnné se souřadnicemi X a Y, které reprezentují polohu kódů v mapě a dále použitý geoset neobsahuje údaje o kódech obcí. Využívá se tabulka Lookup formátu MapInfo, která obsahuje souřadnice X, Y nebo nás odkazuje na název proměnné (je i součástí geosetu), pomocí které lze propojení realizovat. U geografických dat z MPSV je pro každý okres za referenční tabulku považován soubor, který je pojmenován zkráceným názvem příslušného okresu a má koncovku.tab. /LOOKUP(varname)(filename) 46

56 V dalším kroku se zapisuje syntaxe pro vývěr vhodného Geosetu. Dále se zadává název layeru, který se má z geosetu vybrat. /GSET = "filename" [LAYER = "layer name"] Pomocí příkazu /SHOWLABEL = AS_IS NO YES se zobrazují popisky mapy jako jsou například názvy okresů. Poté následuje příkaz /TITLE = {(DEFAULT) }, pomocí kterého se nastavuje hlavní titul mapy. Příkaz GVMISMATCH dovoluje specifikovat maximální počet neshod, které budou zobrazeny do chybové tabulky (parametr MAX). Parametr SKIP určuje počet chyb, v propojení s mapou, přes které se ještě provede vykreslení mapy. Parametr CANCEL zruší vykreslování mapy při první nalezené chybě. /GVMISMATCH = (CANCEL) (MAX = {n}) (SKIP{n}) Obrázek č.61: Základní část syntaxe 47

57 7.4 Kartodiagramy Jsou mapy s dílčími územními celky, do kterých jsou diagramy znázorněna statistická data (absolutní hodnoty) [3] Bar chart - Sloupcový strukturní kartodiagram Sloupcový strukturní kartodiagram se definuje pomocí základního příkazu BARMAP. Umožňuje zobrazovat sloupce pro několik proměnných nebo pro kategorie rozdělené podle určité proměnné. Pomocí sekvence příkazů popsaných níže, se definuje vzhled a vlastnosti mapového výstupu. VAR(V1) VAR(V2) Proměnná pro individuální sloupce. VAR(V1) BY VAR(V2) Proměnná V1 bude rozdělena pomocí hodnot proměnné V2. V2 může mít číslicový nebo znakový datový typ (Kategorizace veličiny V1 veličinou V2). SUM = functions Funkce, pomocí které mají být data reprezentována v grafu. HEIGHT Tímto příkazem se definuje výška grafu. Defaultně je nastavena výška 0,64 cm. INDSCALE příkaz, který nabývá hodnot YES nebo NO. Pokud se zvolí YES, každý další sloupec je odstupňován nezávisle na ostatních sloupcích. Jako defaultní je nastavena hodnota NO. LEGENDTITLE Příkaz pro nastavení názvu legendy. VISIBLE Příkaz, pomocí něhož se dá zapnout či vypnout zobrazení celého grafu. Tento příkaz spolu s příkazem LEGENDTITLE se vyskytuje u všech typů map, proto nebudou dále uváděny. Zde je ukázka mapového výstupu a syntaxe pro generování sloupcového kartodiagramu. MAPS /GVAR = VAR(ID_OBCE) /GSET = 'Okres Bruntál' LAYER='BR' /SHOWLABEL = YES /TITLE ='PODÍL ABSOLVENTŮ V OKRESE BRUNTÁL, pro roky ' MAX = 100 /BARMAP= VAR(HODNOTA) BY VAR(ROK) SUM=(MEAN) HEIGHT=0.7 INDSCALE=NO LEGENDTITLE ='Podil absolventu v okresu Bruntal pro roky:' EXE. 48

58 Obrázek č.62: Mapový výstup vygenerovaný pomocí syntaxe a upraven v editoru Sloupcový strukturní kartodiagram Pie chart - Kruhový strukturní kartodiagram Kruhový strukturní kartodiagram se definuje pomocí příkazu PIEMAP. /PIEMAP = VAR(V1) BY VAR(V2) V1 je proměnná, která bude roztříděna podle proměnné V2. Datový typ proměnné V1 musí být numerický. Proměnná V2 může být numerického nebo řetězcového charakteru. SUM = (function name) Funkce, pomocí které mají být data reprezentována v grafu. [DIAMETER = {0.25}] Příkaz, pomocí něhož se nastavuje průměr koláčů. Defaultně je nastavena hodnota 0,25 palce (0,64cm). [GRADUATED = YES NO] Pokud je hodnota příkazu nastavena na YES, průměry koláčů jsou odstupňovány podle celkové hodnoty, která reprezentuje konkrétní koláč. 49

59 Obrázek č.63: Kruhový strukturální kartodiagram GRADUATED = YES Zde je ukázka mapového výstupu a syntaxe pro generování kruhového strukturního kartodiagramu. MAPS /GVAR = VAR(ID_OBCE) /GSET = 'Okres Bruntál' LAYER='BR' /SHOWLABEL = YES /TITLE ='PODÍL ABSOLVENTŮ V OKRESE BRUNTÁL, pro roky ' MAX = 100 /PIEMAP=VAR(HODNOTA) BY VAR(ROK) SUM=(SUM) GRADUATED = NO LEGENDTITLE ='Podíl absolventů v okrese Bruntál pro roky:'. EXE. Obrázek č.64: Mapový výstup vygenerovaný pomocí syntaxe a upraven v editoru Kruhový strukturní kartodiagram 50

60 7.4.3 Graduated symbol - Kartodiagram odstupňovaných (gradujících) symbolů Kartodiagram stupňovaných symbolů umísťuje symboly dovnitř každého regionu. Velikost symbolu je úměrná vypočtené hodnotě pro daný region. /SYMBOLMAP = Var(varname) Proměnná, jejíž hodnoty stanovují velikost symbolu pro každý region. SUM = (function name) Funkce, pomocí které mají být data reprezentována v grafu. Zde je ukázka mapového výstupu a syntaxe pro generování kartodiagramu stupňovaných symbolů. MAPS /GVAR = VAR(ID_OBCE) /GSET = 'Okres Bruntál' LAYER='BR' /SHOWLABEL = YES /TITLE = 'PODÍL ABSOLVENTŮ V OKRESE BRUNTÁL, pro rok 1995' MAX = 100 /SYMBOLMAP=VAR(HODNOTA) SUM=(MEAN) LEGENDTITLE = 'Podíl absolventů v okrese Bruntál'. EXE. Obrázek č.65: Mapový výstup vygenerovaný pomocí syntaxe a upraven v editoru Kartodiagram stupňovaných symbolů 51

61 7.5 Kartogramy Jsou mapy s dílčími územními celky, do kterých jsou plošným způsobem znázorněna statistická data (relativní hodnoty) [3] Individual values Kartogram individuálních hodnot Tento typ mapového výstupu používá pro každou individuální hodnotu různou barvu. Regiony v mapě jsou znázorněny barvou, odpovídající průměru nebo modu z hodnot pro daný region. IVMAP = Var(varname) Proměnná, která na základě svých hodnot přiřadí každému regionu jedinečnou barvu. Pokud jsou si hodnoty rovny, přiřadí se regionům tatáž barva a do legendy se napíše počet regionů, které jsou reprezentovány stejnou barvou.. SUM = (function name) Pomocí tohoto příkazu se nastavuje způsob výpočtu hodnoty proměnné, které má být přiřazena jedinečná barva. Pomocí parametru MODE bude konečnou hodnotu reprezentovat modus z hodnot proměnné, pomocí parametru MEAN, pak průměr z hodnot proměnné. hodnot. Zde je ukázka mapového výstupu a syntaxe pro generování kartogramu individuálních MAPS /GVAR = VAR(ID_OBCE) /GSET = 'Okres Bruntál' LAYER='BR' /SHOWLABEL = YES /TITLE = 'PODÍL ABSOLVENTŮ V OKRESE BRUNTÁL, pro rok 1995' MAX = 100 /IVMAP=VAR(HODNOTA) SUM=(MODE) LEGENDTITLE = 'Podíl absolventů v okrese Bruntál'. EXE. 52

62 Obrázek č.66: Mapový výstup vygenerovaný pomocí syntaxe a upraven v editoru Kartogram individuálních hodnot Range of Values Kartogram zařazení do tříd Kartogram zařazení do tříd rozděluje hodnoty proměnné do tříd a každý region podle jeho hodnoty přiřadí do příslušné třídy. Na mapě jsou třídy reprezentovány gradujícím barevným odstínem jedné barvy (od nižších hodnot po vyšší). /ROVMAP = Var(varname) Proměnná jejíž třídy jsou zobrazeny na mapě. SUM = (function name) Funkce, pomocí které se provede výpočet hodnot pro každý region. Defaultně je nastavený parametr COUNT. [DISTRIBUTION] = - Metoda použitá pro zařazení záznamů do tříd. EQSIZE Přiřazuje záznamy do tříd se stejným rozsahem. EQCOUNT Počet záznamů v jednotlivých třídách si je rovný. NATBREAK Stanovení tříd s využitím Janksovy optimalizační metody. SD Rozdělení do tříd na základě standardní odchylky. CUSTOM Dovoluje uživateli specifikovat vlastní rozsahy tříd. [ALLOWEMPTY = YES NO] Příkaz, který dovoluje prázdné třídy. [NUMRANGES = n] Příkaz, který definuje počet tříd, které se mají vytvořit. 53

63 [XRANGE = (n,n) ["string value"]] Příkaz, pomocí kterého uživatel definuje vlastní třídy. Například XRANGE=(15,18) Mladiství. Zde je ukázka mapového výstupu a syntaxe pro generování kartogramu zařazení do tříd. MAPS /GVAR = VAR(ID_OBCE) /GSET = 'Okres Bruntál' LAYER='BR' /SHOWLABEL = YES /TITLE = 'PODÍL ABSOLVENTŮ V OKRESE BRUNTÁL, pro rok 1997' MAX = 100 /ROVMAP=VAR(HODNOTA) SUM=(MEAN) NUMRANGES = 5 DISTRIBUTION = NATBREAK LEGENDTITLE = 'Podíl absolventů v okrese Bruntál [%]'. EXE. Obrázek č.67: Mapový výstup vygenerovaný pomocí syntaxe a upraven v editoru Kartogram zařazení do tříd Dot density (Tečkový kartogram) V tečkovém kartogramu tečka představuje určitý počet jednotek. Tečky jsou zobrazeny náhodně pro každý region. /DOTMAP = Var(varname) Proměnná jejíž hodnoty zatupují hustotu teček pro každý region. SUM = (function name) Funkce, pomocí které se provede výpočet hodnot pro každý region. Defaultně je nastavený parametr COUNT. [VALUE1DOT = n] Pomocí tohoto příkazu se nastavuje hodnota, která je reprezentována jednou tečkou. 54

64 Zde je ukázka mapového výstupu a syntaxe pro generování tečkového kartogramu. MAPS /GVAR = VAR(ID_OBCE) /GSET = 'Okres Bruntál' LAYER='BR' /SHOWLABEL = YES /TITLE ='PODÍL ABSOLVENTŮ V OKRESE BRUNTÁL, pro rok 1997' MAX = 100 /DOTMAP=VAR(HODNOTA) SUM=(MEAN) LEGENDTITLE ='Podíl absolventů v okrese Bruntál [%]'. EXE. Obrázek č.68: Mapový výstup vygenerovaný pomocí syntaxe a upraven v editoru Tečkový kartogram s náhodným umístěním teček Spojení více typů grafů (Multiple themes) V SPSS lze vytvořit také multi mapový výstup kombinaci typů kartogramů a kartodiagramů. První část syntaxe se nemění, stejně jako u jednotlivých typů grafů se zde definuje způsob spojení dat s mapou a název mapy. Druhá část je složena ze dvou nebo více typů map, bez oddělení tečkou nebo příkazem EXE, který se umístí až na konec celé syntaxe. Jako v předchozích výstupech se ve druhé části syntaxe definují proměnné se vstupními daty jednotlivých typů kartogramů, jejich vlastnosti a popisky legend. Níže je ukázka syntaxe pro tvorbu kartogramu zařazení do tříd v kombinaci se sloupcovým kartodiagramem. MAPS /GVAR = VAR(ID_OBCE) /GSET = 'Okres Bruntál' LAYER='Default' /SHOWLABEL = YES 55

65 /TITLE = 'MÍRA NEZAMĚSTNANOSTI A VOLNÁ MÍSTA, pro okres Bruntál, 1997' /BARMAP=VAR(VOLNA_MISTA) BY VAR(ROK) SUM=(SUM) INDSCALE=NO LEGENDTITLE = 'Počet volných míst:' /ROVMAP=VAR(HODNOTA)SUM=(MEAN) DISTRIBUTION = NATBREAK LEGENDTITLE = 'Míra nezaměstnanosti v obcích [%]' EXE. Po spuštění syntaxe je opět nutné výsledný mapový výstup upravit. Upravený mapový výstup je ukázán na obrázku č. 69. Obrázek č.69: Mapový výstup vygenerovaný pomocí syntaxe a upraven v editoru Kartogram zařazení do tříd se sloupcovým kartodiagramem Automatizace generování mapových výstupů v SPSS Pomocí syntaxe je možné vytvořit šablony pro automatizovanou tvorbu mapových výstupů. Lze vytvořit: A) Jeden soubor formátu.sps pro několik typů mapových výstupů. V tomto souboru budou uloženy syntaxe pro určité typy kartogramů a kartodiagramů. Po spuštění tohoto souboru se postupně vygenerují všechny mapové výstupy. Níže je uveden příklad syntaxe, pro tento způsob tvorby statistických map. Po spuštění syntaxe pomocí menu Run All se v SPSS Vieweru vygenerují nadefinované typy mapových výstupů. MAPS /GVAR = VAR(ID_OBCE) /GSET = 'Okres Bruntál' LAYER='BR' 56

Zobrazit více