NEURČITOST V GEOINFORMATICE

Rozměr: px
Začít zobrazení ze stránky:

Download "NEURČITOST V GEOINFORMATICE"

Transkript

1 Vysoká škola báňská Technická univerzita Ostrava Hornicko-geologická fakulta NEURČITOST V GEOINFORMATICE (E-learningová podpora) Doc. Dr. Ing. Jiří Horák (2.vydání) Ostrava, 2018

2 Vysoká škola báňská Technická univerzita Ostrava Hornicko-geologická fakulta NEURČITOST V GEOINFORMATICE (E-learningová podpora) Doc. Dr. Ing. Jiří Horák (2.vydání) Ostrava, 2018

3 Obsah Seznam obrázků... iv 1 Úvod Neurčitost základní vymezení a rozdělení Základní rozdělení Nepřesnost a přesnost Vágnost Nejednoznačnost Chyba Spolehlivost Ocenění chyb Velikost potřebného vzorku Výsledné hodnocení chyb u kvantitativních údajů Výsledné ocenění chyb pro kvalitativní údaje Šíření chyb Monte Carlo simulace Kvalita dat a jejich popis Prvky kvality dat Polohová přesnost Rozlišení Přesnost atributů Logická konzistence Sémantická konzistence Úplnost dat Aktuálnost dat Rodokmen dat Jednoduchost dat Dostupnost dat Cena dat Metakvalita Standardizace kvality dat Ukládání popisu kvality dat Organizace sběru dat Implementace Zdroje neurčitosti a způsob popisu Analýza citlivosti a problém agregace dílčích jednotek Analýza citlivosti Problém agregace dat do polygonů Měření mlhavosti a hrubé množiny Fuzzy množiny Fuzzy číslo Operace s fuzzy množinami Fuzzy region Prostorově neurčité objekty Topologické operace Jiné prostorové operace Kritika fuzzy množin Hrubé množiny Kvalitativní hodnocení neurčitosti Revize důvěry Revize a aktualizace i

4 9.1.3 Tříhodnotová a vícehodnotová logika Schvalovací teorie Kvantitativní přístupy k neurčitosti Podmíněná pravděpodobnost Bayesova teorie pravděpodobnosti Dempster-Shaferova teorie Dempster-Shaferovy agregační operátory Implementace v IDRISI Validita a objektivnost Objektivita měření Vizualizace neurčitosti Obecné kartografické metody vizualizace nejistoty Kartografické vyjadřovací prostředky a grafické proměnné pro vizualizaci nejistoty Přístupy založené na vnitřních grafických proměnných Přístupy založené na vnějších grafických proměnných Aplikační využití základních metod vizualizace nejistoty Návrh taxonomie vizualizace nejistoty Vizualizace nejistoty v přírodních hazardech Analýza a hodnocení vizualizace Kognitivní aspekty vizualizace nejistoty a vizualizace reprezentace nejistoty Obecný rámec pro podporu vizualizace nejistoty Empirické studie vizualizace nejistoty testování polohové nejistoty Empirické testování tematické nejistoty Interaktivní prostředí pro vizualizaci nejistoty Principy testování vizualizace nejistoty Seznam literatury Příloha 1 Kvalita dat a její míry podle norem ISO Termíny použité v normách řady ISO 191xx Prvky kvality podle ISO Struktura měr kvality dat podle ISO Základní míry kvality dat související s neurčitostí podle ISO Jednorozměrná náhodná proměnná Z(one-dimensional random variable) Dvojrozměrná náhodná proměnná X a Y (two-dimensional random variable) Trojrozměrná náhodná proměnná X, Y, Z(three-dimensional random variable) Přehled jednotlivých měr kvality dat dle ISO úplnost (completeness) Přidání (Commission) Vynechání (Omission) Logická konzistence (Logical consistency) Konceptuální konzistence (Conceptual consistency) Doménová konzistence (Domain consistency) Formátová konzistence (Format consistency) Topologická konzistence (Topological consistency) Polohová přesnost (Positional accuracy) Absolutní nebo vnější přesnost (Absolute or external accuracy) Výškové polohové chyby (Vertical positional uncertainties) Dvourozměrné (horizontální) polohové chyby (Horizontal positional uncertainties) Relativní nebo vnitřní přesnost (Relative or internal accuracy) Časová přesnost (Temporal accuracy) Přesnost měření času (Accuracy of a time measurement) Časová konzistence (Temporal consistency) Časová platnost (Temporal validity) ii

5 6.5 Tematická přesnost (Thematic accuracy) Správnost klasifikace (Classification correctness) Správnost nekvantitativních atributů (Non-quantitative attribute correctness) Přesnost kvantitativních atributů (Quantitative attribute accuracy) iii

6 Seznam obrázků Obrázek 1 Rozdělení typů neurčitosti a způsobů řešení dle Murgante et al. (2009) Obrázek 2 Rozdělení typů neurčitosti a způsobů řešení dle Fisher et al. (2006) Obrázek 3 Srovnání přesnosti p a přesnosti a (precision and accuracy) (Fisher et al., 2006) Obrázek 4 Taxonomie objektů typu fiat a bona fide (bf=bona fide, f=fiat, o=objekt, p=proces, sb=spatial boundary, tb=temporal boundary, Earth surface = zemský povrch, Equator = rovník, your life = tvůj život, century = století, summer solstice = letní slunovrat). Kubíček (2013), podle Smith (1995) Obrázek 5 Minimální fyzické požadavky pro definování lesa v jednotlivých zemích (Comber et al., 2004, in Fisher et al., 2006) (tree height výška stromů, canopy cover pokrytí klenbou korun) Obrázek 6 Tatáž oblast mapovaná rozdílně jednotlivými zkušenými interpretátory jako problém umístění hranice Fisher et al. (2006, s.53) Obrázek 7 Tloušťka koncové měrky v řezu (Schovánek, Havránek, 2012) Obrázek 8 Geometrický nárůst nákladů při rostoucích požadavcích na kvalitu Obrázek 9 Srovnání nákladů na 3 stupně kvality polohové přesnosti a aktuálnosti (Bernhardsen, 1993) Obrázek 10 Polohová přesnost vyjádřená pomocí velikosti chyby (vlevo) nebo pomocí pravděpodobnosti shody poloh obou křížků (vpravo) Obrázek 11 příklad polohové nepřesnosti (positional inaccuracy) (Servigne et al., 2006) Obrázek 12 Prostorové rozlišení pro rastrový datový model Obrázek 13 elementární mapovací jednotka (minimum mapping unit) jako velikost nejmenšího reprezentovatelného objektu Obrázek 14 příklad sémantické nepřesnosti (semantic inaccuracy) (Servigne et al., 2006) Obrázek 15 Ukázky chyb v atributech v názvu objektů a jeho klasifikaci Obrázek 16 Mapovaný (vlevo) a skutečný (vpravo) pokryv území Obrázek 17 Ověřování logické konzistence (uzavření polygonu, topologické spojení linií) (Servigne et al., 2006) Obrázek 18 Příklad sémantické nekonzistence (Servigne et al., 2006) Obrázek 19 Příklady vynechání pravých a přidání klamných objektů (B omissions, C commissions) (Servigne et al., 2006) Obrázek 20 Neúplné pokrytí listu mapy Obrázek 21 Neúplnost atributů (druhý sloupec obsahuje řadu prázdných hodnot) Obrázek 22 Situace pro klasifikaci případů chyb (Servigne et al., 2006) (dům a ruiny u řeky) Obrázek 23 Ukázka metadat uložených v systému MIDAS (Horáková et al., 2003) Obrázek 24 Příklad latinského čtverce pro testování 4 různých druhů (Swoboda, 1977) Obrázek 25 Pravděpodobnost zaplavení území (Eastmann, 2001) Obrázek 26 Zaplavené území s 5% rizikem chyby (vlevo) a s 25% rizikem chyby (vpravo) (Eastmann, 2001).. 74 Obrázek 27 Srovnání vlivu agregační jednotky na výsledný vzor distribuce hodnot lokalizačního koeficientu pro počet uchazečů s nanejvýš základním vzděláním v Ostravě (stav k ) (upraveno z Inspektor, 2011).. 78 Obrázek 28 Fuzzy funkce příslušnosti versus ostré funkce pro určení adjektiva příkrý svah (Eastmann, 2001) Obrázek 29 Proměnlivé (vágní) hranice řek Tejo a Zêzere v závislosti na výšce vodní hladiny a stupeň příslušnosti místa k řekám (Fonte, Lodwick, 2005) Obrázek 30 Hodnoty členství pixelu ve vymezeném polygonu (Worboys, Duckham, 2004) Obrázek 31 Stupně příslušnosti pro jednotlivé půdní kategorie a-c v území a výsledná kombinace Obrázek 32 Časová interpolace založená na změně fuzzy množiny (Dragievič 2005) Obrázek 33 Fuzzy funkce příslušnosti pro vágní prostorové operátory blízký a daleký ve vztahu místa k lyžařskému horskému středisku (Morris, Jankowski, 2005) Obrázek 34 Fuzzy funkce typu s (Eastmann, 2001) Obrázek 35 Fuzzy funkce typu j (Eastmann, 2001) Obrázek 36 Lineární fuzzy funkce (Eastmann, 2001) Obrázek 37 Uživatelem definovaná fuzzy funkce (Eastmann, 2001) Obrázek 38. Funkce příslušnosti pro jádro, nosič, alfa-řez a výška (Škrabánek, 2014) iv

7 Obrázek 39 Fuzzy čísla ( a)trojúhelníkové, b)trapezoidální, c) po částech lineární, d) po částech lineární aproximující gaussovské) (Caha, 2018) Obrázek 40 Ukázky řešení základních aritmetických operací pro 2 fuzzy čísla A a B (Caha, 2018) Obrázek 41 Problém nerozlišitelnosti 2 překrývajících se fuzzy čísel (Caha, 2018) Obrázek 42 Reprezentace fuzzy povrchu. (Caha, 2018) Obrázek 43 Fuzzy semivariogram (Caha et al., 2015) Obrázek 44 Hodnocení fuzzy povrchu koncentrace PM10 pomocí 4 dílčích charakteristik v každém místě (min, max, min-střed, max- střed) (Caha et al., 2015) Obrázek 45 Uměle vygenerovaný DMR a minimální a maximální hodnota v každém místě (Caha, 2014) Obrázek 46 Fuzzy sklon povrchu a minimální a maximální hodnota sklonu v každém místě (Caha, 2014) Obrázek 47 Výsledek klasického výpočtu viditelnosti a pravděpodobná varianta řešení fuzzy viditelnosti (upraveno z Caha, 2014) Obrázek 48 Demonstrace průniku, sjednocení, součinu a doplňku (Novák, 1989) Obrázek 49 Znázornění nejběžnějších t-norem pomocí stupně příslušnosti obou prvků na horizontální ploše a výsledku operace ve formě grafu (Ďuračiová et al., 2013) Obrázek 50 Vizualizace 6 t-norem (Caha, 2011) Obrázek 51 Vizualizace 6 t-konorem (Caha, 2011) Obrázek 52 Fuzzy vrstvy použité pro hodnocení výskytu archeologických lokalit na Slovensku vážená vzdálenost k hranici říčních sedimentů (vlevo) a vhodný typ půdy (vpravo) (Ďuračiová et al., 2013) Obrázek 53 Výsledek volby 4 běžných t-norem při agregaci vrstev do výsledné predikce arccheologické lokality (Ďuračiová et al., 2013) Obrázek 54 Průběh funkce členství pro vybraná adjektiva (Adamčík, 2009) Obrázek 55 Porovnání výpočtu oslunění klasickým způsobem a fuzzy (Paclíková, 2012) Obrázek 56 Vektorová reprezentace geografického regionu: vlevo - ostrého regionu, vpravo - koncept širšího okolí (Verstraete et al., 2006, in Caha, 2011) Obrázek 57 Reprezentace geografického regionu jako fuzzy objektu (Verstraete et al., 2006, in Caha, 2011) Obrázek 58 Fuzzy region definovaný pomocí jádra a nosiče a jeho jednotlivé části (Tang, 2004, in Caha, 2011) Obrázek 59 Reprezentace fuzzy bodu (A), fuzzy linie (B), fuzzy polygon (C) a fuzzy polygony v mapě (D) (převzato z Dragicevič, 2005, in Caha, 2011) Obrázek 60 Výpočet hustoty stromů a podle toho přiřazení příslušnosti zalesnění (Worboys, Duckham, 2004) Obrázek 61 Ukázka několika základních topologických vztahů dvou fuzzy regionů a jejich reprezentací vztahovými maticemi 3*3 a 4*4 (Tang, 2004, in Caha, 2011) Obrázek 43 Příklad ohraničení polygonu a vymezení hrubé množiny v rastrovém modelu. Výsledek v části d ukazuje černé buňky jako dolní hranici a sadu černých a bílých buněk jako horní hranici (Worboys, Duckham, 2004) Obrázek 63 Rozdíl mezi revizí a aktualizací (Worboys, Duckham, 2004) Obrázek 64 Poloha jednotlivých budov (Worboys, Duckham, 2004) Obrázek 65 Výsledné hodnocení blízkosti objektů pro knihovnu (Worboys, Duckham, 2004) Obrázek 66 Dva regiony, ve kterých se hodnotí pravděpodobnost výskyt sesuvu (Worboys, Duckham, 2004) 126 Obrázek 67 Hierarchická struktura podmnožin v celé množině [A,B,C] Obrázek 68 Pravděpodobnostní obrazy: hypotéza [lokalita] založená na vzdálenosti od známého místa, hypotéza [lokalita] založená na četnosti povrchových artefaktů, hypotéza [nelokalita] založená na vzdálenosti od stálé vody a hypotéza [nelokalita] založená na sklonu svahu. (Eastmann, 2001) Obrázek 69 Důvěra (vlevo), uvěřitelnost (uprostřed) a interval důvěry (vpravo) pro přítomnost archeologických lokalit z D-S kombinace důkazů. (Eastmann, 2001) Obrázek 70 Odhad obsahu Zn pomocí krigování a doprovodná mapa neurčitosti způsobené interpolací (krigovací rozptyl) Obrázek 71 Kombinovaná mapy hloubky půdy a nejistoty vizualizovaná pomocí metody vybělení whitening (vlevo) a odpovídající legenda (vpravo) (Kubíček, 2012, upravil podle Hengel et al.,2004) Obrázek 72 Interaktivní vizualizační nástroj pro posouzení nejistoty pomocí střídající se sekvence indexu rizika a jeho nejistoty (Kubíček, 2012, upravil podle MacEachren 1992) v

8 Obrázek 73 Přehled základních grafických proměnných podle Bertiny doplněných o návrhy MacEachrena (1994) a Wilkinsona (1999). (Kubíček, 2012, upravil podle Kunz, 2011) Obrázek 74 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty (Kubíček, 2012, podle MacEachrena 1992) Obrázek 75 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty - rozlišení (Kubíček, 2012, podle MacEachrena 1992) Obrázek 76 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty - průhlednost (Kubíček, 2012, podle MacEachrena 1992) Obrázek 77 Bodové znaky znázorňující nejistotu pomocí (a) sytost barvy, (b) ostrost hranic, (c) průhlednost (Kubíček, 2012, upravil podle Drecki, 2002) Obrázek 78 Diagram spolehlivosti ukazující zdrojová data a datum jejich vzniku (stáří). (Kubíček, 2012, upravil podle Drecki,2009) Obrázek 79 Vizualizace nejistých geologických hranic a zlomových linií. (Kubíček, 2012, upravil podle Drecki, 2009) Obrázek 80 Dnešní rozšíření a hlavní sedimentační prostory žacléřského souvrství (Tásler et al.) Obrázek 81 Vizualizace nejistoty lavinového nebezpečí, která využívá pro intenzitu tlaku na podloží odstíny modře a pro vyjádření nejistoty velikost znaku (a), hustotu bodů (b) a izolinie (c) (Kubíček, 2012, upravil podle Kunz, 2011) Obrázek 82 Bertinův systém vizuálních proměnných modifikovaný podle Buttenfield (2000) (Kubíček, 2012) Obrázek 83 Příklady experimentálních vizualizací a jejich zařazení do klasifikační matice (Kubíček, 2012, upravil podle Aipperspach, 2006) Obrázek 84 Ukázka využití vizualizačního prostoru - původní vizualizace využívající umístění znaku a jeho rozostření (pro nejistotu) lze modifikovat pomocí proměnných umístění (a), odstín (b), směr (c), velikost (c) (Kubíček, 2012, upravil podle Aipperspach, 2006) Obrázek 85 Ukázka kvalitativní škály pro vyjádření jednotlivých prvků kvality datových sad (Kubíček, 2012) Obrázek 86 Ukázka vizualizace nejistoty metadat pro jednotlivé ukazatele kvality na úrovni mapových listů (Kubíček, 2012, upravil podle Drecki a Maciejewska, 2005) Obrázek 87 Příklady vizualizace celkové nejistoty pomocí globální vizuální indikátor nejistoty (G-VisUl). Vlevo konzervativní přístup, vpravo liberální přístup (Kubíček, 2012, upravil podle Drecki a Maciejewska, 2005) Obrázek 88 Ukázka vizualizace Limity a Měřítko (Kubíček, 2012, upravil podle Hope a Hunter, 2007) Obrázek 89 Ukázka vizualizace Pravděpodobnost a Postupná vizualizace (Kubíček, 2012, upravil podle Hope a Hunter, 2007) Obrázek 90 Ukázka postupné vizualizace s očekávanou odpovědí c)stejná možnost výskytu v obou zónách (Kubíček, 2012, upravil podle Hope a Hunter, 2007) Obrázek 91 Dvě metody vizualizace nejistoty (vlevo hranicí s měřítkem, vpravo kořenovou zeleninu (Kubíček, 2012) Obrázek 92 Dva typy vizualizace hranic parcel při 2. pokusu (Kubíček, 2012) Obrázek 93 Aplikovaná vizualizace nejistoty: a) srovnávací mapy, b) kombinované mapy za využití vnějších grafických proměnných (hustota bodů), c) kombinované mapy za využití vnitřních grafických proměnných (barevný odstín) (Kubíček, 2012, upravil podle Kunz, 2011) vi

9 1 Úvod Cílem kapitoly je vysvětlit nezbytnost přítomnosti neurčitosti v reprezentaci reálného světa a při rozhodování a motivovat čtenáře pro studium výskytu, forem a chování neurčitosti, zejména v geoinformatice. Stručný obsah kapitoly: Vysvětlení nepostižitelnosti reálného světa a významu modelování Nutnost zjednodušování a tím i růst neurčitosti Význam neurčitosti Získáte znalosti o: východiscích modelování základním principu rozhodování významu neurčitosti Budete umět: vnímat existenci a všudypřítomnost neurčitosti. Chápat omezenost reprezentace světa, modelování a rozhodování Budete schopni: Vyhnout se chybným závěrům při rozhodování Času potřebný na nastudování kapitoly 30 minut. Imagination is more important than knowledge: for knowledge is limited to what we know and understand while imagination embraces the entire world and all that ever will be known and understood. Albert Einstein (Caers, 2011).

10 Předmětem zájmu geoinformatiky je reálný svět, prostředí, ve kterém žijeme, které se snažíme pochopit a ovlivňovat ke svému prospěchu. Reálný svět je pro nás jako celek komplexní, ovlivňovaný a formovaný řadou procesů, které dosud chápeme jen částečně nebo o jejich existenci dosud vůbec nevíme. Je ovlivňovaný existencí a činností organismů-jedinců, které působí nejen na prostředí, ale i na sebe navzájem a tím komplikují pochopitelnost jejich vlivu. Navíc je svět dynamický, současný stav je výsledkem minulých jevů, takže je svým způsobem jedinečný a neopakovatelný. Dynamičnost světa také způsobuje, že ve chvíli, kdy zjistíme nějakou informaci o něm, se tato informace stává zastaralou, protože ve světě dochází k neustálým změnám. Dudek (1999) to charakterizuje následovně: Dosavadní vědecký výzkum, který si kladl za cíl podat přesný obraz okolního světa, ukázal, že takový cíl je nedosažitelný a absolutní poznání neexistuje. Všechny informace jsou neúplné a hranice poznání před námi jakoby ustupuje a vyzývá k dalšímu hledání a zkoumání, poznávání nových zákonitostí. Protože svět není možno chápat jako neměnný a naše poznání určité reality či zákonitosti ztrácí svou absolutní platnost v tom okamžiku, kdy k tomuto poznání dochází. Tato poznaná realita či zákonitost tedy nemůže být popsána s naprostou jistotou, tedy s nulovou tolerancí. Princip tolerance neurčitosti, původně definovaný v oblasti kvantové fyziky, kde vymezil oblast neurčitosti kvantem, přinesl poznání, že veškeré vědění má své meze a že se naše poznání pohybuje v mezích určité tolerance. Je možné shrnout, že reálný svět je pro nás poznatelný a pochopitelný jen zčásti a informace, které jsme schopni o něm získat, nejsou dokonalé. Informace o prostředí člověk získává prostřednictvím svých senzorů (smyslů) a ty se pochopitelně vytvářely podle jeho potřeb a s důrazem na ty jevy reálného světa, které jsou pro člověka důležité. Jako příklad nám může posloužit zrakový orgán. Z celého spektra elektromagnetického záření vnímáme prostřednictvím zraku úzkou část o vlnových délkách μm, která se v důsledku toho označuje jako viditelné záření. Proč tomu tak je? Právě v této části spektra Slunce vysílá nejvíce energie a současně dochází k minimální absorpci v atmosféře, takže je tato část záření na zemském povrchu nejlépe organismy využitelná, proto se světlocitlivé skvrny a později zrakové orgány specializovaly na ni. Pokud v našem světě organismy běžně neohrožuje mikrovlnné nebo radioaktivní záření (protože se vyskytuje zpravidla jen v malém množství), nebyl důvod k tomu, aby se pro jejich registraci vyvinul potřebný senzorický systém. Každý senzor, pomocí kterého získáváme informace, má jistá omezení. Na základě teorie signálů víme, že k základním charakteristikám patří kvantifikace a vzorkování signálu. Kvantifikaci můžeme chápat jako schopnost rozlišit jednotlivé úrovně signálu ( hodnoty signálu), zatímco vzorkování nám vyjadřuje jeho časové rozlišení, tedy frekvenci odečítání hodnot. To je však jen pro případ jednorozměrného signálu (dimenzí je čas); v případě prostorových signálů potřebujeme specifikovat vzorkování v prostoru, tj. prostorové rozlišení.

11 V případě lidského zraku kvantifikací můžeme rozumět např. počet odstínů, které jsme schopni v obraze rozlišit, vzorkováním pak běžně udávaný interval 0.1 sekundy, po které zůstává obraz v našem mozku zafixován (setrvačnost lidského zraku). Senzorické možnosti člověka jsou v moderním světě výrazně rozšiřovány pomocí umělých prostředků (např. pro registraci jiných vlnových délek, či podrobnější registraci viditelného záření). Přesto se nemůžeme domnívat, že jsme schopni i v této jediné oblasti dokonale poznat prostředí. Vlastnosti jednotlivých senzorů (obecněji informačních kanálů), pomocí kterých získáváme informace, jsou proto důležité a při zpracovávání informací o světě s nimi musíme umět pracovat. Informace, které získáváme, se snažíme vnímat, pochopit a často také ukládat (pro pozdější chápání). I zde pochopitelně platí podpora přirozených nástrojů a procesů pomocí umělých doplňků, které označujeme jako informační technologie. Všechny tyto procesy (ať již přírodní či umělé) mají svá omezení a své význačné charakteristiky. Z toho všeho vyplývá, že naše možnosti poznání jsou velmi omezené a ovlivňované řadou faktorů. Svět je proto pro nás převážně neurčitý, pouze malé části jsou pro nás určité (resp. se o nich domníváme, že jsou určité), tj. pochopitelné (ne nutně pochopené). Jednou z možností, jak racionálně porozumět reálnému světu, je vytváření modelů (proces modelování). Model může být odrazem reality, může zachytit vybrané rysy světa, resp. jevů, které jsme dokázali zjistit a pochopit na takové úrovni, že informaci o nich dokážeme sdílet a ukládat. Pokud model reprezentuje část reality, je nutně jeho zjednodušením. Model je také nutně subjektivní, protože my sami rozhodujeme o jeho formě a poznatcích, které v něm jsou využity. Navíc, každý člověk vnímá realitu jinak, proto je obtížně postihnout realitu jedním, všeobecně akceptovatelným způsobem (Longley et al. 2005). Model také vzniká pro určitý účel, podle něj se volí metody a sledované jevy, proto je účelový. Není možné vytvořit univerzální model. Každý model a každé modelování by proto nutně mělo být doprovázeno informací o uplatněných formách zjednodušení, subjektivismu a účelovosti. Je nemožné dosáhnout perfektní reprezentace světa, neurčitost ve vnímání a pochopení světa je nevyhnutelná. Absolutně přesné mohou být pouze abstraktní matematické poznatky odvozené z jednoznačných axionů a definic (Brus, 2013). Zpravidla je vnitřní komplexnost a podrobnost světa taková, že je nemožné zachytit každý jednotlivý detail (každou plošku) v každém možném měřítku ve formě digitální reprezentace (Longley et al. 2005). K vysvětlení principu vnitřní komplexnosti světa a jeho nelineárního charakteru se používají fraktály, resp. teorie dynamického chaosu (Lampart et al., 2013). Informace o světě formalizujeme do podoby geodat. Nemůžeme si být jisti, zda jsou geodata kompletní, aktuální, dostatečně přesná. Neurčitost je ve všech složkách popisu geoprvků, tj. geometrické, atributové, časové, funkční, vztahové. Je nezbytné si uvědomit, že pracujeme s neurčitými geodaty, dokázat tuto neurčitost měřit a hodnotit, naučit se vyjádřit, nakolik jsou získané výsledky práce s geodaty správné a důvěryhodné.

12 Stejně tak se neurčitost projevuje i v procesu zpracování geodat, jejich prezentaci a interpretaci. Pokud je tedy cílem příslušného informačního systému podpora rozhodování, je nutné zvažovat, jak neurčitost ovlivní výsledek, informační produkt, který bude použit pro rozhodování, a jaký dopad může mít toto rozhodnutí (ekonomický, společenský, zdravotní, environmentální atd.). Tradiční modely rozhodování vycházejí z principů dokonalých znalostí (poznání) a jistoty a předpokládají optimální množství informací, tedy ani nedostatek, ani nadbytek informací (Dudek, 1999). Za těchto předpokladů má každé rozhodnutí pouze jeden důsledek a ten je předem znám. Můžeme usuzovat, že kdybychom znali všechny podněty, vlivy, příčiny působící na daný jev nebo proces a jejich sílu, směr působení a jejich vzájemné interakce, dokázali bychom predikovat jistý výsledek jako následek jejich působení. Tento předpoklad je však nesplnitelný. Ve skutečnosti většina rozhodnutí probíhá v podmínkách nejistoty a nedokonalých znalostí, kdy má rozhodnutí více možných důsledků a není předem známo, který z těchto důsledků nastane. Tato nejistota je důsledkem, jak již bylo řečeno, naší částečnou nebo úplnou neznalostí procesů (vlivů), které podmiňují určité události a jejich náhodný charakter (Dudek, 1999). K lepšímu poznání oblasti neurčitosti velkého množství informací získaných cestou výběrového šetření a ocenění jejich spolehlivosti, slouží pak statistická inference, umožňující transformovat výsledky výběrových šetření zpět do základního souboru (Dudek, 1999). Není, a ani nemůže být, jediným nástrojem pro poznání neurčitosti. V geografických informačních systémech (GIS) se stále více prosazuje tzv. měkké (soft) rozhodování na rozdíl od tradičního booleovského (hard) rozhodování. Např. na místo rozhodnutí, zda oblast je či není ohrožena půdní erozí, poskytujeme pravděpodobnost, s jakou je celá oblast (či její části) ohrožena. To umožňuje přijmout finální rozhodnutí na základě úrovně rizika, kterou jsme ochotni akceptovat. Např. rozhodneme o vyslání týmu zemědělských odborníků na návštěvu oblastí, kde je pravděpodobnost půdní eroze větší než 70%. Nebo se úroveň akceptovatelného rizika upraví podle finanční částky, kterou jsme na řešení ochotni vynaložit. Zavádění měkkých rozhodovacích pravidel vyžaduje rozvoj schopnosti řídit neurčitost v GIS. Vyžaduje datové struktury vhodné k nesení informací o neurčitosti a revizi existujících postupů pro ocenění a šíření chyb či jiných forem neurčitosti, a pro jejich vizualizaci. Dalším novým fenoménem spojeným s neurčitostí, jsou podle Kubíčka (2012) nové zdroje dat, vytvářené společně veřejností (participativní mapování, volunteered geographic information VGI). Goodchild (2008, in Kubíček 2012) parafrázoval termín Web 2.0 a zavedl název Spatial Accuracy 2.0. Poukazuje na koncept vzniku mash up a zapojení široké veřejnosti nejenom do využití, ale také do samotné tvorby geografických dat a s tím související potřebou popsat kvalitu a nejistotu takto vzniklých dat. Taková data často umožňují opětovné změny dat založené na kolektivní inteligenci (crowdsourcing), která vychází z principu, že informace získaná pomocí skupinového konsensu má vyšší kvalitu, než informace poskytnutá jednotlivcem.

13 Význam neurčitosti spočívá především v: 1. Lepší pochopení reality, jejího skutečného významu, pravdy ve vědeckém bádání 2. Umožňuje ochranu při sporech. Nejisté výsledky mají být prezentovány jako nejisté s vyjádřením míry nejistoty. Tím se předejde špatnému použití a interpretaci, následně i možným sporům. 3. Podpora rozhodování - rozhodování provedené nad výsledkem modelování nějakého jevu. Kromě toho ale také rozhodování, zda nepotřebujeme další, či detailnější data pro model, nebo přesnější popis modelu (v důsledku přesnější podklad pro rozhodování). Rozhodování nad výsledkem modelování s popsanou nejistotou vede ke zvýšení pravděpodobnosti správného rozhodnutí. Závěrem je nutné zdůraznit, že problematika neurčitosti v geoinformatice se dotýká všech: producentů dat, výrobců a prodejců programového i technického vybavení, a v neposlední řadě uživatelů. Shrnutí: Reálný svět je pro nás jako celek komplexní, je pro nás poznatelný a pochopitelný jen zčásti. Informace o něm nejsou dokonalé. Model je zjednodušenou, subjektivní a účelovou reprezentací světa. Rozhodování vždy obsahuje neurčitost, proto je výhodné soft rozhodování. Význam neurčitosti je v lepším pochopení reality, podpoře rozhodování a ochraně při sporech. Kontrolní otázky: 1) Proč není možné vytvořit dokonalou reprezentaci světa, jeho digitální kopii? 2) Co znamená soft rozhodování? 3) V čem spočívá význam neurčitosti?

14 2 Neurčitost základní vymezení a rozdělení Cílem kapitoly je vysvětlit různé pohledy na neurčitosti, její příčiny a projevy zejména v oblasti geoinformatiky, provést základní rozdělení neurčitosti a podrobně popsat a vysvětlit její základní typy, zejména forem spojených s daty. Stručný obsah kapitoly: Definice a různé pojetí neurčitosti Zdroje neurčitosti Základní rozdělení neurčitosti na nepřesnost, nejednoznačnost a vágnost Vysvětlení jiných přístupů a klasifikací neurčitosti Vysvětlení precision, accuracy, vágnosti, nejednoznačnosti Získáte znalosti o: základních typech neurčitosti a jejich projevech principiálních příčinách neurčitosti různorodosti vědeckých přístupů k této problematice a odlišnostech pojetí Budete umět: rozlišovat formy neurčitosti chápat příčiny neurčitosti vztahy a podmíněnost mezi jednotlivými formami a třídami neurčitosti Budete schopni: rozpoznat přítomnost různých forem neurčitosti ve vámi řešeném problému navrhnout vhodná protiopatření ocenit dopad neurčitosti na výsledek Času potřebný na nastudování kapitoly 2 hodiny

15 Je příznačné, že koncept neurčitosti, její definice a strukturování (rozklad) na složky je přinejmenším tak neurčitý, jako neurčitost sama. Různí autoři používají odlišné přístupy i ve vymezení základních pojmů, které se týkají neurčitosti či nejistoty. Neurčitost je intuitivně vnímána jako širší koncept než nejistota. Pokud hovoříme o nějakém tvrzení, že je neurčité/určité, poskytuje to širší prostor pro interpretaci, než prohlášení, že tvrzení je nejisté/jisté. Podle Bruse (2013) je neurčitost převážně spojována s nepoznáním, zatímco nejistota spíše s náhodností podmínek či výsledků určitých procesů a jevů. Přesto v tomto textu budou používány oba pojmy jako synonyma. Caers (2011) vysvětluje, že neurčitost (uncertainty) je způsobena neúplným porozuměním toho, co chceme kvantifikovat. Upozorňuje, že kvantifikace neurčitosti není triviální. Neexistuje žádná správná neurčitost, jinými slovy nikdy nebudeme vědět, zda námi použitá kvantifikace neurčitosti je nejlepší možná, ba dokonce ani to, zda je korektní. Existence správné neurčitosti by totiž znamenala perfektně poznat daný jev, což byla ale automaticky zrušilo naši potřebu hodnocení (kvantifikace) neurčitosti, protože by byl jev dokonale poznán bez neurčitosti. Neurčitost nemůže být objektivně měřena. Důvodem je to, že ji zkoumáme prostřednictvím modelu, o kterém jsme již prohlásili, že je subjektivní. Každé hodnocení neurčitosti je založeno na určitém modelu a každý model vyžaduje implicitní nebo explicitní předpoklady, výběry dat, kalibraci modelu apod., které jsou nutně subjektivní (Caers, 2011). Za kvalitní informaci lze považovat pouze takovou, která užitečná a použitelná pro svého spotřebitele, tj. je přesná, důvěryhodná a dostatečná pro rozhodování uživatele. Do procesu tak vstupují tacitní a explicitní znalosti a zkušenosti původce a příjemce informace, proto je zajímavé uvažovat také o efektivní kvalitě informací skutečné užitečnosti, kdy důležitým faktorem jsou samotné schopnosti uživatele. Pro uživatele, kteří nemají dostatečné schopnosti, nebude informace kvalitní (užitečná), ale naopak může kvalita prezentované informace dokonce poklesnout. Tuto skutečnost také odráží běžně používané definice kvality vhodnost pro použití (Beard et al., 1991, Hunter 1999, Chrisman, 1984, in Brus, 2013). Nejistotu lze definovat podle Kubíčka (2012) jako skepticizmus, nedůvěra, podezření či nedostatek jistoty o něčem. Může také vyjadřovat chybějící jistoty či chybějící ucelenou znalost o výsledku (Abbaspour a kol. 2003) či nekompletní znalost, která neumožňuje exaktní vyjádření (Foody a Atkinson, 2002, in Caha, 2013). To však ukazuje na význam nejistoty jen při kritickém přístupu k hodnocení, navíc má vyjádření negativní charakter, přestože neurčitost by měla mít neutrální vyjádření. Nejistota ve vědeckém vyjádření se používá k vyjádření faktu, že jistá míra variability, neurčitosti, nejasnosti či náhodnosti dat a procesů je zcela přirozená (Drosg, 2007, in Caha, 2013). Jaké jsou zdroje neurčitosti? Podle Caers (2011):

16 Náhodnost procesů. Jednotlivé procesy mohou být vnitřně náhodné, mohou vykazovat chaotické chování. Poměrně populární je obrazné vyjádření tzv. efektu motýlích křídel, kdy mírné mávnutí křídel motýla nad pobřežím západní Afriky může způsobit velký hurikán, který zasáhne USA. To ukazuje na možnou extrémní podobu chaotického chování a zejména vlivu drobných faktorů na následující rozvoj nelineárních systémů, které způsobuje jejich omezenou predikovatelnost. Týká se to jak přírodních, tak i společenských jevů (např. při studiu lidského chování, sociální či kulturních tendencí nebo technologických pokroků). Omezení porozumění. Problém se týká jak tvůrce modelu, tak uživatele jeho výsledků. Přibližně víme (we roughly know). Typicky zde řadíme chyby měření. Každé měření či zjištění je zatíženo určitou chybou (nejistotou). Principiálně je tu možné vidět vazbu na problém kvantifikace signálu. Mohli bychom vědět (we could have known). Málokdy jsme schopni jev proměřit v celém rozsahu prostorovém i časovém. Používáme měření/zjištění na vybraných místech a ve vybraném čase, což odpovídá vzorkování. Použité vzorkování vede k neurčitosti tohoto druhu. Mohli bychom vědět více pokud zvýšíme frekvenci vzorkování (v případě náhodnosti procesů to ale nepomůže). Nevíme, co víme (we do not know what we know). Různé datové sady či pozorování mohou být interpretovány odlišně jinými lidmi a to poskytuje široké spektrum závěrů. Nevíme, co nevíme (we do not know what we do not know). Tato neurčitost se váže ke skutečnosti, že o některých existujících či možných jevech a procesech nevíme, ani si je neumíme představit. Logicky proto o nich nemůžeme nic zjišťovat. Tato neurčitost se označuje jako epistémická neurčitost. Nemůžeme vědět (we cannot know). Neurčitost spojená s faktem, že některé jevy nemůžeme měřit z důvodu jejich podstaty či vzdálenosti. Jako příklad se uvádí vlastnosti vnitřního jádra Země. K lepšímu pochopení je možné uvést příklady. Při práci s geodaty je možno se setkat s následujícími informacemi (Růžičková, 2013): 1. Zobrazený objekt je budova, obsah dusíku v půdě je xxx g/m 3, koncentrace NO x ve vzduchu nad xxx způsobuje xxx. 2. Budova je vysoká, kontaminace půdy dusičnany není kritická, zvýšený obsah dusičnanů v ovzduší při dlouhodobém působení na lidský organismus způsobuje respirační problémy. 3. Budova má výšku asi 10 m, obsah dusíku v půdě se pohybuje okolo xxx g/m 3, koncentrace NO x ve vzduchu nad cca xxx je škodlivá.

17 4. Budova je asi vysoká, kontaminace půdy dusičnany nejspíš není vysoká, vyšší kontaminace vzduchu NO x je pravděpodobně škodlivá. První tvrzení žádnou neurčitost zdánlivě neobsahuje. Přesto se zde skrývá nejednoznačnost v tom, co chápeme pod pojmem budova, půda, vzduch. Druhé tvrzení používá vágní pojem vysoká. Není specifikováno, od jaké výšky jsou už budovy vysoké a jaké ještě jsou nízké. Podobně vágní jsou pojmy zvýšený, dlouhodobý. Ve třetím tvrzení se objevuje nejistota vyjádřená slovy asi, okolo. Neznáme přesnou výšku budovy a odhadujeme, že je přibližně 10 m. Ve čtvrtém tvrzení se pak objevuje kombinace všech výše uvedených neurčitostí. Dodejme, že každá z neurčitostí je ovlivňována i subjektivním posouzením toho, kdo příslušný výrok a jeho části posuzuje - tedy jaký je jeho názor na to, co je vysoká budova, jaký rozptyl mají mít hodnoty okolo určité hodnoty, jak on chápe objekt půda. Je zřejmé, že některá označení mají mnohem menší neurčitost než jiná. Výrok nadmořská výška Sněžky je 1603 m.n.m ponechává výrazně menší prostor pro různorodou interpretaci (a je tedy mnohem méně neurčitý) než výrok lidé v Horní Lhotě jsou šťastní. Další příklad zkoumá neurčitost vymezení hranice přírodní rezervace. Vyhláška, která hranici definuje, stanovuje, že např. hranice rezervace sleduje silnici č. 222 až k železnici a dále sleduje železnici až k mostu přes řeku Odru. Jenže kde přesně vede hranice na silnici či na kolejovém tělese? Lze to vůbec určit správně? S jakou přesností, ±5 m? Tento typ hranice není geometricky vymezen, ale je typem logického a topologického vymezení. Logického ve smyslu navázání hranice na reálné objekty, které skutečně omezují (ve smyslu fyzické bariéry) chráněné území, protože brání migraci a do určité míry chrání před některými vnějšími vlivy a omezují v pohybu. Silniční těleso, železniční těleso či řeka budou jistým způsobem omezovat migraci organismů, zejména některých nižších živočichů. Topologického ve smyslu charakteru této hranice pokud se změní průběh řeky (v důsledku vodní eroze či regulace koryta), musí se změnit i hranice rezervace, nelze ji posunout na druhou stranu řeky, i když se tím změní výměra, tvar a další geometrické atributy. Současně se tím mohou měnit i vlastnické vztahy, protože parcely nejsou vymezovány topologicky vůči přírodním prvkům. Podle Longley et al. (2005) se liší geoinformatika (GIscience) od ostatních oborů tím, že zpravidla chybí přirozené jednotky analýzy. Jaký je prostorový rozsah akumulace vysoké nezaměstnanosti? Nebo shluku případů rakoviny? Vnímáme problém, jak vymezit hranice takové akumulace a rovněž, jak hodnotit intenzitu uvnitř této akumulace. Pokud máme více proměnných než jen jednu, je problém o to složitější.

18 Další typ problému se týká vztahů mezi jednotkami, resp. měřítka zkoumání tohoto vztahu. V jakém měřítku zkoumat vztah mezi radiací pozadí a výskytem leukémie? Určitě je to individuální charakteristika, proto by měla být zjišťována pro konkrétní osoby, aby se zabránilo ekologické chybě. Následně ji ale musíme agregovat z důvodu ochrany údajů a rovněž pro eliminaci nahodilostí v projevu vztahu a získání statisticky významných údajů. Podobně se můžeme ptát, při jakém měřítku (resp. pro jaké územní jednotky) ocenit vztah mezi kvalifikací pracovní síly a mírou nezaměstnanosti. Longley et al. (2005) upozorňuje, že biologické organismy mají více zjevné přirozené jednotky analýzy, protože přirozeně seskupují jedince do rodin, do smeček. Typické otázky spojené s neurčitostí v GIS jsou podle Longley et al. (2005): Jsou hranice zóny ostré a dobře definované? Je zařazení příslušného území do zvolené třídy dostatečně robustní a zdůvodněné? Tyto otázky mají své implikace (dopady): statistické implikace - jaké konfidenční intervaly zvolit pro stanovené hranice resp. pro přiřazenou hodnotu třídy? kartografické implikace - jak vyjádřit neurčitost průběhu hranic nebo přidělených označení pomocí vhodných symbolů na mapách či v elektronické reprezentaci? kognitivní implikace - musíme skutečně vše třídit, abychom více zjednodušili a lépe pochopili svět? Jedním ze zásadních důvodů, proč je jednodušší zahrnout nejistotu dat do modelu, než se ji snažit odstranit, je tzv. princip inkompatability (Zadeh 1975, in Caha, 2011). Ten říká, že roste-li složitost systému, klesá schopnost formulovat přesné a významné soudy o jeho chování, až do takového bodu, kdy jsou přesnost a relevantnost vzájemně se vylučující charakteristiky. Na základě toho principu lze vyvodit tvrzení: Abychom mohli s relevantním objemem dat vymezit prostorový objekt, musíme připustit jistou nepřesnost v jeho vymezení. Míra této nepřesnosti bude záviset na množství dat, které o daném objektu máme a dále také na tom, jak je daný objekt vágní ze svojí podstaty (Caha, 2011). 2.1 Základní rozdělení Variant rozdělení neurčitosti je celá řada a výrazně to souvisí s definicí jednotlivých typů neurčitosti. Pro základní rozdělení použijeme klasifikaci podle Shi (2010), kde se neurčitost (uncertainty) dělí na nepřesnost (imprecision), nejednoznačnost (ambiguity) a vágnost (vagueness): nepřesnost (imprecision) je nedostatek specifičnosti nebo nedostatek detailu při pozorování (Worboys, Duckham 2004). Týká se úrovně variací, spojených se sadou měření nebo s nedostatkem přesnosti kvality (quality precision) (Shi 2010). Pro její hodnocení se užívá teorie pravděpodobnosti a statistika. Nepřesnost je měřitelná. Je to

19 něco, co vzdaluje naměřenou hodnotu od hodnoty správné. Je třeba odlišit vnitřní (aleatorní) nepřesnost a nepřesnost poznání (epistémickou). Epistemická nepřesnost je způsobena limitami měřícího zařízení nebo lidské schopnosti percepce, zpracování či nedostatkem dat k posouzení (Kubíček 2012). Většinou zde řadíme chyby (nepřesnosti) v datech, jako jsou např.: Chyby v poloze objektu chyby měření polohy. Chyby v kvantitativních atributech chyby změřené teploty, srážek, průtoku, obsahu ozónu apod. Chyby v kvalitativních atributech chyby určení vlastníka parcely, určení typu budovy, druhu pozorovaného zvířete apod. Méně často můžeme vyjádřit i nepřesnosti ve vztazích. Např. přesnost vztahu popisovaného regresní závislostí, který byl získán proložením regresní funkce body, závisí na počtu bodů a míře korelace (či asociace); čím vyšší je počet bodů (promítá se do významnosti vztahu) a čím vyšší je míra korelace, tím přesnější je uvedený vztah. nejednoznačnost (ambiguity) týká se buď 1 nebo více vztahů nebo nedostatku jasnosti, který implikuje 1 nebo více významů. Např. problém, do které třídy zařadit objekt (u družicových snímků). Podle Fisher et al. (2006) lze rozlišit 2 základní typy nejednoznačnosti konflikt a nespecifičnost (viz dále). Popisuje se pomocí např. měr konfliktu (discordance measures), měr zmatení (confusion measures), měr nespecifičnosti (nonspecifity measures). Můžeme rovněž rozlišit lingvistickou (sémantickou) nejednoznačnost a ontologickou (konceptuální) nejednoznačnost. vágnost (vagueness) neurčitost ve vymezení objektů (jejich ohraničení i v klasifikaci) podle Longley et al. (2005) nebo nedostatek jasnosti ve významu (Shi 2010). Běžně je spojen s obtížemi udělat ostrou hranici (rozlišení) u objektu reálného světa. Pro řešení se používá teorie fuzzy množin. Protikladem k vágně vymezeným množinám jsou ostré množiny (crisp), které mají ostré hranice, resp. její prvek buď jasně patří do množiny nebo nepatří (Worboys, Duckham 2004). Je možné rozlišit ontologickou vágnost, epistemickou vágnost a sémantickou (lingvistickou) vágnost. S trochou nadsázky lze tedy říci, že pravděpodobnost nám odpovídá na otázku, zda něco nastane, zda je něco správně, či nakolik je správný vztah příčina-důsledek, zatímco teorie fuzzy množin nám odpovídá na otázku co vlastně nastalo. Podle Nováka (2000) má neurčitost (nejméně) dvě vzájemně komplementární stránky - vágnost a nejistotu. Ne všichni ale vymezují neurčitost a zpravidla vágnost je řazena až jako jeden z aspektů nejistoty. To ovšem souvisí s jejich definicemi. Podle Murgante et al. (2009) a Fishera et al. (2006) je třeba rozlišit dobře definované (welldefined) a slabě definované (poor-defined) geografické objekty a jejich data.

20 Podle Murgante et al. (2009) se prostorová data dobře definovaných objektů zpracovávají s využitím teorie pravděpodobnosti a/nebo pomocí multikriteriální analýzy (MCE). U slabě definovaných objektů rozlišuje: nejednoznačnost (ambiguity), u nichž uvádí jako podtyp pouze konflikt (diskordanci, discordance) (srovnej dělení Fishera), nepřesnost (inaccuracy), jejímž podtypem je chyba (error), a vágnost (vagueness), kterou je možné řešit pomocí 3 přístupů: o funkce členství a s tím spojená teorie fuzzy množin o teorie vaječného žloutku (egg-yolk theory) o nerozlišitelnost (indiscernibility) řešenou pomocí teorie hrubých množin (rough set theory) Obrázek 1 Rozdělení typů neurčitosti a způsobů řešení dle Murgante et al. (2009) Vysvětlivky: spatial information prostorová informace, under uncertainty za neurčitostí, well-defined data dobře definovaná data, probability pravděpodobnost, M.C.E. multikriteriální hodnocení, poorly defined data špatně definovaná data, ambiguity nejednoznačnost, diskordance nesoulad, innacuracy nepřesnost, error chyba, vagueness vágnost, membership function funkce příslušnosti, fuziness mlhavost, egg-yolk theory teorie vaječného žloutku, indiscernibility nerozlišitelnost, rough set hrubé množiny

21 Je třeba podotknout, že v obr. 1 vyznačené rozhodování za určitosti je spíše hypotetické, protože jde zpravidla jen o projev zanedbání všech vlivů ve zjednodušeném modelu. Dokonce lze říci, že konkrétní data vždy zpravidla trpí všemi typy neurčitosti. Další dělení popisují Fisher et al. (2006) (obr. 2). V případě dobře definovaných objektů (jak třída objektů, tak i jednotlivý výskyt objektu) a současně v situaci, kdy pozorování jsou považována za objektivní, jsou zdrojem neurčitosti chyby a povaha neurčitosti je pravděpodobnostní. Pokud je třída objektů nebo samotný objekt slabě definován (poorly defined), potom je možné rozlišit následující typy neurčitosti (Fisher et al., 2006): Pokud je neurčitost způsobena slabou definicí třídy objektů nebo instance objektu, potom je definice třídy nebo množiny v univerzu diskurzu předmětem vágnosti (vagueness). Tu je možné řešit s pomocí teorie množin nebo jiných formalismů jako je např. super-hodnocení (super-valuation). Neurčitost může být dále způsobena nejednoznačností (ambiguity), kterou se rozumí zmatení (confusion) v definici množiny v univerzu diskurzu. Podle Klir, Yuan (1995, in Fisher et al., 2006) má 2 formy: o Konflikt (discord) v případě, kdy je sice objekt či jedinec jasně definován, ale ukazuje se, že může být členem více než 1 třídy podle různých klasifikačních schémat či interpretace důkazů. Mluvíme o konfliktu klasifikačního schématu informace. S konfliktem se pracuje pomocí sémantiky a ontologií, řešení se získává na základě porozumění sémantice klasifikačních schémat (expertní řešení) a může být formalizováno pomocí metod umělé inteligence, včetně Dempster-Shaferovy teorie. o Nespecifičnost (non-specificity) v situaci, kdy je proces přiřazení objektu do třídy závislý na interpretaci. I v tomto případě se pro řešení používá řada metod umělé inteligence, včetně schvalovací teorie (endorsement theory), ale lze použít i teorii fuzzy množin.

22 Obrázek 2 Rozdělení typů neurčitosti a způsobů řešení dle Fisher et al. (2006). Vysvětlivky: uncertainty neurčitost, well-defined object dobře definovaný objekt, error chyba, probability pravděpodobnost, poorly defined object špatně definovaný objekt, vagueness vágnost, fuzzy set theory teorie mlhavých množin, ambiguity nejednoznačnost, discord rozpor, expert opinion expertní názor, Dempster-Schafer - Dempster-Schaferova teorie, non-specifity nespecifičnost, endorsement theory schvalovací teorie V souvislosti s krizovými jevy člení Říha a kol. (2005, in Kubíček 2012) nejistotu do dvou základních kategorií: Inherentní nejistota (aleatorní) termín inherence označuje vnitřní příslušnost, sounáležitost vlastností a jejich nositele. Inherentní má pak významy jako obsažený v něčem, lpící v něčem. Slovo aleatorní, které se často vyskytuje v zahraniční anglicky psané literatuře, pak vyjadřuje spojitost s náhodou. Inherentní nejistotu nejsme schopni do budoucna ovlivňovat, protože je plně spjata s nahodilostí okolního reálného světa. Inherentní nejistoty se mohou vyskytovat v prostoru, v čase, případně v obojím (Kubíček 2012). Jde o vnitřní variabilitu, vnitřní nejistotu. Jejím důsledkem je, že ani zvýšení množství pozorování (dodatečná měření) nevedou k přesnější reprezentaci. Tato nejistota se nejvíce promítá do nepřesnosti. Nahodilost objektů a jevů se projeví především v chybě při opakování měření (či při měření v těsné blízkosti, kde se projevuje efekt zbytkového rozptylu, nugget effect, viz Horák, 2013b), tedy musí dojít ke zvýšení nepřesnosti. Tato nejistota často souvisí i s ontologickou vágností, tedy s problémy konceptuálně vymezit objekty a jevy, kdy vzniká více různorodých tříd, s vyšší vnitřní heterogenitou.

23 Nejistota poznání (epistémická) pochází z nedostatku znalostí událostí nebo jevů, nebo z nedostatku dat, ze kterých jsou vyvozovány závěry. Lze předpokládat, že tato nejistota se bude v budoucnu snižovat na základě kvalitnějších podkladů nebo nových poznatků (Kubíček 2012). Lze ji chápat jako nejistotu reprezentace. Očekává se monotónní charakter poznání, kdy dalším přidáním dat se snižuje nejistota. Zdrojem nejistoty poznání může být nejistota modelu (numerická či věcná), případně nejistota ve stanovení vstupních parametrů (Kubíček 2012) Nepřesnost a přesnost Přesnost má v angličtině dva významy, precision a accuracy, mezi kterými je nutné rozlišovat. Precision má blízko k rozlišitelnosti, zatímco accuracy ke správnosti (viz podrobně další výklad). Rovněž byla zvažována možnost pojmenování relativní přesnost pro precision a absolutní přesnost pro accuracy. Avšak accuracy se v jistém kontextu dále dělí na absolutní a relativní, což znemožňuje použití takového pojmenování. Protože autor nenašel vhodný výraz, rozlišuje nadále oba typy přesnosti pomocí indexu p a a. Jak už bylo uvedeno, nepřesnost p (imprecision) je chápána jako nedostatek specifičnosti nebo nedostatek detailu při pozorování (Worboys, Duckham 2004). Přesnost p (precision) je tedy chápána jako míra podrobnosti, detailu, schopnosti změřit podrobnější údaje. Přesnost a (accuracy) je podle Longley et al. (2005) vyjádřena rozdílem mezi realitou a naší reprezentací reality. Tento rozdíl může vyjádřen různými matematickými vztahy, ale slůvko naši naznačuje rozdílnost pohledů, které vznikají jako odraz komplexního, mnohaměřítkového a vnitřně neurčitého světa. Termín říká, jak odpovídající je popis reality. Pro lepší pochopení lze uvést, že precision popisuje de facto potenciál přesnosti, to, jak přesně můžeme měřit, jak přesná je naše metoda měření, jak přesný je přístroj. Oproti tomu accuracy určuje, jak přesně jsme provedli konkrétní zjištění (vůči realitě), jak přesný je náš zásah. Přesnost a se dříve spojovala s pravděpodobností správného určení (polohy), v zásadě jako míra korelace mezi realitou a reprezentací. Worboys, Duckham (2004) vymezuje inaccuracy jako nedostatek korelace mezi pozorováním a realitou. Upozorňuje, že nepřesnost p (imprecision) a nepřesnost a (inaccuracy) jsou na sobě nezávislé (ortogonální vlastnosti). Např. tato kapitola je psána v Evropě je akurátní (bezchybné) prohlášení, ale málo detailní, tedy nepřesné. Mezi přesnostmi ve smyslu precision a accuracy je zásadní rozdíl (Fisher et al., 2006). Přesnost p indikuje rozlišení, se kterým můžeme měřit jev s určitým nástrojem nebo metodou. Současně ale také znamená schopnost získat tutéž hodnotu při opakování daného měření. Dobrá přesnost p (precision) se projeví nízkou variabilitou hodnot.

24 Přesnost p může být omezena schopností ukládat podrobnější údaje (data jsou ukládána s datovým typem, který neumožňuje záznam dat vyšší přesnosti), z toho potom vyplývá chyba v rozmezí daném hodnotovým rozlišením. Dobrý příkladem vyjádření přesnosti p je běžně používané empirické pravidlo, podle kterého je přesnost p (precision) akceptovatelná, pokud způsobí chybu menší než 0,1 mm na výsledné mapě. Naopak přesnost a (accuracy) souvisí s pravdou (střed na obr. 3) a tím, jak přesně data reprezentují sledovaný reálný jev (Fisher et al., 2006). Nepřesnost a (inaccuracy) vzniká mimo jiné chybami měření, a může být spojena se systematickými metodickými problémy, těmi, které jsou způsobeny nedokonalou povahou metody používané k získání dat, a použitím nevhodných procedur zpracování digitálních dat (např. použitý číselný rozsah je příliš úzký pro prováděnou řadu výpočtů, což vede k automatickému ořezávání dat v každém kroku). Tyto systematické chyby by měly být popsány co nejúplněji v popisu rodokmenu (lineage) dat, i když je jejich vliv také pozorován v doméně geometrické přesnosti (tj. v jiném prvku kvality dat) (Fisher et al., 2006). Přesnost a (accuracy) se dříve popisovala jako pravděpodobnost správného vyjádření (polohy), odpovídá jí míra korelace mezi realitou a reprezentací. Připojovací měření polygonem ze známého bodu může mít velkou přesnost p (precision), ale malou přesnost a (accuracy) - pokud není výchozí bod správně určen, bude i výsledná poloha bodů připojených polygonem určena vůči realitě nepřesně. Rozdíl mezi oběma typy přesnosti lze dobře vysvětlit na příkladu střeleckého terče. Pokud jsou zásahy málo rozptýlené, ale celý shluk posunut výrazně ze středu terče, je to doklad situace, kdy mluvíme o nízké vnitřní variabilitě a malých náhodných chybách, ale současně velké absolutní systematické chybě. Výsledné umístění rány získáme skládáním obou chyb (určitá analogie skládání rozptylu). Obrázek 3 Srovnání přesnosti p a přesnosti a (precision and accuracy) (Fisher et al., 2006)

25 Označení údaje za přesný je třeba chápat jako relativní vyjádření spokojenosti s jeho určením, v reálném světě zřejmě neexistuje nic absolutně přesného. Přesnost je měřitelná vlastnost. Pro hodnocení přesnosti se užívá teorie pravděpodobnosti a statistika. Je třeba odlišit vnitřní (inherentní) nepřesnost a nepřesnost poznání (epistémickou). S nepřesností p je spojen problém vzorkování (viz teorie signálů). S nepřesností p je rovněž těsně spjata granularita (Worboys, Duckham 2004, s. 333). Vztahuje se k existenci shluků (clumps) nebo zrn v pozorování nebo reprezentaci, uvnitř kterých nemůžeme rozlišit individuální detaily. Granularita má vazbu na nerozlišitelnost (indiscernibility). Nerozlištitelnost říká, že konečná množina prvků je nerozlišitelná, pokud libovolný pár prvků nelze rozlišit od sebe pomocí pozorování. Je to vlastnost reflexivní, symetrická a tranzitivní. Granularitu lze uplatnit i pro tematický prostor nejenom pro fyzický prostor. Příkladem je rozlišitelnost tříd klasifikace. Zpravidla s nepřesností jako typem neurčitosti je spojen pojem chyby Vágnost Podle (Worboys, Duckham 2004, s. 335) je epistemická (epistemic) vágnost vyjádřením toho, že naše reprezentace objektu světa je vágní, nevnímáme ho úplně a dokonale. Ontologická (ontic) vágnost popisuje, že sám objekt světa či svět je vágní (jeho koncept). Pojem hora je vágní v realitě, v důsledku toho je vágní i koncept a tudíž je ontologicky vágní, a vágní je výraz hora i z hlediska lingvistického. Problémem je především podstata vymezení hory pokud bych ji chtěl kvantifikovat, musel bych zřejmě udat minimální plochu podstavy, minimální výšku či minimální objem. Vágnost vymezení je dosti častá stačí porovnat definice i relativně jednoduchých objektů jako je třeba budova v jednotlivých zákonech. Příkladem vágního označení je jižní Evropa? Malta jistě leží v jižní Evropě, ale když budeme postupovat k severu, která oblast už nepatří do jižní Evropy? Tyrolsko? Worboys, Duckham (2004) upozorňuje, že ne každá nepřesnost je vágní (např. tvrzení osoba je lokalizována v USA není vágní, ale je to nepřesné p ). Ale každá vágnost musí být také nepřesná (vést k nepřesnosti), protože hranice nejsou vymezené. Lze změřit přesně šířku silnice? Jak je definován okraj silnice, je to jednoznačné? V kterém místě se má šířka měřit? Jiným častým příkladem je vymezení okolí města, např. Olomoucko (Caha, 2011). Přesné prostorové vymezení není možné, ale lidskému myšlení a chápání je takové určení blízké. Ještě hůře se kvantifikují vlastnosti přírodních objektů. Zkuste změřit šířku údolí.

26 Klasické formy vágnosti hranic popisují paradox hromady (sorites paradox) nebo paradox plešatosti: Mějme hromadu kamení. Postupně z ní odebírejme kameny. Ve kterém okamžiku přestane hromada existovat? Mějme plešatého muže. Pokud mu vyroste na hlavě jeden vlas, jistě zůstává nadále plešatý. Pokud budeme postupně přidávat vlasy, ve kterém okamžiku přestane být plešatý? Jedním z projevů vágnosti je neurčitost v určení hranic hranic území, ale také hranic tematických tříd či časových určení. Smith (1995, in Kubíček 2012) navrhnul možnou klasifikaci hranic (On drawing Lines on a Map). Prezentuje zde obecnou typologii prostorových hranic založenou především na základním rozdílu mezi bona fide neboli fyzickými hranicemi na straně jedné a fiat neboli lidmi podmíněnými hranicemi na straně druhé. S daným rozdílem jsou spojeny další problémy v oblasti vymezování hranic například mezi ostrými a nejasnými hranicemi (crisp and indeterminate), úplnými a neúplnými (complete and incomplete), symetrickými a nesymetrickými (symmetrical and asymmetrical) (Kubíček 2012). Příkladem přirozených (bona fide) hranic jsou např. hranice ostrova nebo hranice vymezené řekou. Příkladem umělé (fiat) hranice bývá domluvená hranice státu. Dobře definovanými fiat objekty jsou podle Fisher et al. (2006) např. sčítací obvody (přesně vymezené hranice určené statistickým úřadem, postupně se seskupují a tvoří úplnou a neměnnou hierarchii) nebo parcely v západních společnostech (které považují koncept vlastnictví za důležitý, jejich hranice jsou často vyznačeny v terénu a ukazují ostrou a úplnou změnu vlastnictví). Často tedy jde o politické, administrativní nebo vlastnické hranice a jednotky). Obrázek 4 Taxonomie objektů typu fiat a bona fide (bf=bona fide, f=fiat, o=objekt, p=proces, sb=spatial boundary, tb=temporal boundary, Earth surface = zemský povrch, Equator = rovník, your life = tvůj život, century = století, summer solstice = letní slunovrat). Kubíček (2013), podle Smith (1995)

27 Klasifikace prostorových a časových hranic objektů a procesů je na obr. 4. Ke každému typu jsou uvedeny příklady ohraničení: John je objekt přirozeně ohraničený (bfo). Stát Utah je objekt uměle vymezený (fo). Hranice zemského tělesa je přirozená prostorová hranice (bfsb). Rovník je uměle vymezenou prostorovou hranicí. Váš život je přirozeně ohraničeným procesem. Dvacáté století je uměle ohraničeným procesem. Big Bang (velký třesk) je přirozenou časovou hranicí. Letní slunovrat je uměle určenou časovou hranicí. Podle Kubíčka (2012) má pobřeží Severního ledového oceánu bona fide hranice, ale přesto vnímáme tento oceán jako fiat objekt, protože jeho spojení s Atlantským oceánem je tvořeno hranicí, která neodpovídá typu bona fide a navíc není zcela zřejmé, kde přesně leží. Tento případ je typický pro řadu dalších geografických hranic kvalitativního typu, jakými jsou například hranice mezi geomorfologickými tvary reliéfu (svah a údolí). Z tohoto příkladu vyplývá, že je třeba vymezit další rozdíl mezi ostrými (crisp) a nejasnými (indeterminate) hranicemi, protože řada geografických objektů (pouště, údolí, duny,..) je vymezena hraniční přechodnou zónou (oblastí=region), která je do určité míry nejasná. Většina fiat objektů má ostré hranice, protože je člověk sám definuje. Přírodní objekty (bona fide) jsou zpravidla slabě definované a mají spíše přechodné (interdeterminate) hranice. Typickým příkladem je třeba mapování hranic jistého typu lesa. Pro jeho vymezení musíme použít uměle domluvenou hranici třídy, odpovídající požadovanému výskytu typického druhu. V realitě však existují různé mezistupně a jistě není pravda, že by při malém snížení sledovaného výskytu pod daný limit musel být nutně porost přeřazen do jiné třídy. Kromě vymezení tříd jsou problémy i s vymezením hranic lesa, která je typicky tvořena přechodovými zónami, jak mezi jednotlivým kategoriemi lesa, tak i na jeho vnější hranici. Bohužel se stále pravidelně mapuje les pomocí kvalitativních ostrých kategorií, namísto používání mezistupňů (Fisher et al., 2006) (obr. 5). Obojí typ neurčitých hranic směřuje k použití fuzzy objektů. Obrázek 5 Minimální fyzické požadavky pro definování lesa v jednotlivých zemích (Comber et al., 2004, in Fisher et al., 2006) (tree height výška stromů, canopy cover pokrytí klenbou korun)

28 2.1.3 Nejednoznačnost Nejednoznačnost (ambiguity) (nejasnost, dvojznačnost) vyplývá zejména z různého označení geografických objektů a jejich vztahů. Takový aspekt můžeme označit za sémantickou nejednoznačnost. Podle Fisher et al. (2006) se nejednoznačnost vyskytuje tam, kde jsou pochybnosti, jak má být jev klasifikován z důvodu rozdílné percepce tohoto jevu. Jednoduchým příkladem může být nejednoznačnost pojmenování obce, kdy stejný název používá několik obcí (Mikulov na jižní Moravě a také v Krušných horách, Kladno ve Středočeském kraji a také v Pardubickém kraji; podrobný seznam viz tab. 1), či dochází k záměně názvu obce s částí obce (Vítkov ve Slezsku a Vítkov jako část Prahy) nebo s jiným typem geografického objektu (Opava jako město nebo jako řeka). Tabulka 1 Opakování názvů obcí v ČR (stav k ) Nejednoznačné názvy obcí Nová Ves Němčice, Petrovice Slatina Dolany, Pavlov, Sedlec, Vrbice. Babice, Březina, Březová, Hrádek, Chlum, Lhotka, Osek, Ostrov, Střítež, Újezd. Bohuslavice, Borek, Borovnice, Bukovany, Hradiště, Chrášťany, Janov, Javorník, Kladruby, Ledce, Lipová, Olešná, Olešnice, Podolí, Radkov, Staré Město, Újezdec, Žďár. Bělá, Bernartice, Bezděkov, Biskupice, Březí, Čejkovice, Černovice, Dlouhá Lhota, Kamenná, Kněževes, Komárov, Kostelec, Kozojedy, Krchleby, Lesná, Lhota, Lukavice, Lukov, Lužice, Markvartice, Mikulovice, Morašice, Nové Dvory, Obora, Okrouhlá, Olšany, Ořechov, Přestavlky, Račice, Sedliště, Studnice, Uhřice, Veselá, Vilémov, Vinařice, Vlkov, Vojkovice, Vysoká, Záhoří, Zhoř, Ždírec. Adamov, Běleč, Březnice, Břežany, Bystřice, Čistá, Dobšice, Doubravice, Drnovice, Dřínov, Hartmanice, Heřmanice, Hodonín, Horní Újezd, Hradčany, Hranice, Hvozd, Hvozdec, Chlístov, Chodov, Choteč, Chrást, Jankov, Jankovice, Jesenice, Jestřebí, Jindřichov, Kadov, Kaliště, Kámen, Karlovice, Kluky, Kněžice, Kobylnice, Kouty, Kozlov, Křenovice, Kyjov, Lány, Lažany, Líšná, Líšnice, Lom, Lomnice, Loučka, Lubná, Lužany, Mirošov, Mnichov, Moravany, Nasavrky, Němčičky, Opatov, Pěnčín, Petrov, Písečná, Písek, Podhradí, Police, Popovice, Radošovice, Rataje, Rovná, Sázava, Seč, Sedlice, Skalice, Skryje, Skuhrov, Slavětín, Smilovice, Staňkovice, Střelice, Střížovice, Sudice, Sušice, Svojšice, Šanov, Trstěnice, Počet opakování každého názvu v ČR 14x 9x 8x 7x 6x 5x 4x 3x

29 Tučapy, Ústí, Vážany, Vestec, Višňová, Voděrady, Vranov, Vysoký Újezd, Záblatí, Zbýšov, Zvole, Ždánice. Albrechtice, Andělská Hora,..., Žiželice, Županovice. - celkem 421 obcí 2x Každá skupina lidí vnímá svět odlišně a proto i pojmenovává tytéž objekty různě. Rovněž geografické předložky jako nad, v, před atd. nejsou chápány stejně a ještě více se různí jejich význam v jiných jazycích. GIS nemůže reprezentovat neutrální pohled na svět, může pouze poskytnout prostředí pro sjednocení různých pojetí světa. Dokonce můžeme zkoumat geografický charakter této nejednoznačnosti a identifikovat různé regiony, které se liší pohledem na svět. Názvy objektů a jejich topologických vztahů jsou vnitřně nejednoznačné. Vnímání, chování, jazyk nebo poznání lidí hrají významnou roli při konceptualizaci (tj. při tvorbě modelu). Kromě výše uvedených příkladů spíše sémantické nejednoznačnosti uvedeme ještě příklady ontologické, konceptuální nejednoznačnosti. Velmi blízko k tomu má i ontologická vágnost. Ontologickou nejednoznačností rozumíme např. existenci variant postupu výpočtu různými cestami s využitím různých konceptů; přitom není jasné, který z nich je správný. Ontologickou vágností chápeme problém ve vymezení pojmů, pochopení indikátorů, ohraničení. Podle Fisher et al. (2006) jsou rozlišovány následující 2 typy nejednoznačnosti: 1. konflikt (discord) Typickým příkladem geografického konfliktu je označení příslušnosti území z důvodu sporu dvou národů o jeho vlastnictví. Které zemi patří Krym? Ukrajině nebo Rusku? Kašmír je území mezi Indií a Pakistánem, na které si obě země dělají nárok. Jak potom území zobrazit na politických mapách? Jaký vážný dopad to může mít, poznal pozdě Microsoft, když indická vláda zastavila prodej OS Windows 95 na svém území. Doposud asi nejdražší chyba se přihodila Microsoftu při lokalizaci Windows 95 pro indický subkontinent, kdy při výběru časového pásma nebyl Kašmír v severozápadní Indii označen jako část Indie. Indická vláda považovala barevné odlišení této oblasti za neakceptovatelné a donutila Microsoft software stáhnout (PCWorld, 2005). Podobný problém se stal ve stejné době Microsoftu s příručkou Encarta 95, která ukazovala mapu Turecka s oddělenou oblastí Kurdistánu. Po protestech turecké vlády odstranil Microsoft Kurdistán ze všech map, což zase připadalo jako provokace Kurdům (PCWorld, 2005). Spory ale nemusí být vždy tak zjevné jako v těchto politicky ožehavých případech.

30 Jak již bylo zdůrazněno, většina přírodních jevů je špatně definovatelná. Je zřejmé, že i při jejich vymezení vznikají a přetrvávají spory. Příkladem může být definice půdy, která je vnitřně komplexní a to vede k odlišnostem v definici v literatuře i mezi jednotlivými zeměmi. Může se stát, že dvě národní klasifikace mají stejně pojmenovanou třídu půdy s různou definicí, nebo naopak různě pojmenované třídy se stejnou definicí. To může vést k tomu, že řada půdních profilů je přidělena do různých tříd v různých schématech (Fisher et al., 2006). Avšak ani když jsou zajištěna stejná data, stejná metodika (definice) a stejný formální popis tříd, mohou vznikat konflikty mezi jednotlivými lidmi při interpretaci. I zkušení interpretátoři za stejných podmínek mohou území rozdělit odlišně (obr. 6). Obrázek 6 Tatáž oblast mapovaná rozdílně jednotlivými zkušenými interpretátory jako problém umístění hranice Fisher et al. (2006, s.53) Obdobné (a možná ještě horší) problémy v nekompatibilitě definic a klasifikací existují u socioekonomických jevů. Typickým příkladem je vymezení nezaměstnanosti nebo dlouhodobé nemocnosti, které omezují použitelnost mezinárodních statistik. Pro řešení konfliktů se používají expertní odhady, posuzující kompatibilitu mezi klasifikacemi. Mohou to být expertní mapovací tabulky (look-up table), metadata, ale také použití umělé inteligence, hrubých množin i fuzzy množin. Pro řešení se používá také Dempster-Shaferova teorie.

31 2. Nespecifičnost (non-specificity) Příkladem může být vztah A je severně od B. Koncept severně od má přinejmenším 3 významy (Fisher et al., 2006): A leží přesně na stejném poledníku jako B a od něho směrem k severnímu pólu A leží někde na sever od linie, která prochází B od západu na východ A leží někde v sektoru mezi SZ a SV, pravděpodobně mezi SSZ a SSV Všimněme si, že první 2 významy jsou přesné a specifické, třetí je sám o sobě vágní. Jiným příkladem nespecifičnosti, který uvádí (Fisher et al., 2006), je v případu, kdy není jasné měřítko analýzy či může být různě interpretováno. Nejednoznačnost zpravidla ve smyslu nespecifikačnosti také vzniká při konstrukci indikátorů. Přímé indikátory nesou jasnou korespondenci se sledovaným fenoménem. Např. podrobné hodnoty rodinných příjmů poskytují dobrý indikátor pro geografii bohatosti. Jinak je tomu u nepřímých indikátorů, kdy nelze najít přímo vhodnou míru sledovaného ukazatele. Např. odvozování bohatosti z vlastnictví více aut je nepřímým indikátorem. Selhává např. u sběratelů, majitelů opraven, bazaru, dále vadí fakt, že zpravidla na vesnici mají lidé na dvoře více aut, jejichž oficiální znalecká cena bývá nízká. Vztah mezi nepřímým indikátorem a zájmovým jevem je subjektivní, tedy nejednoznačný. Pokud je jejich vztah nedokonalý, vytváří měření nepřímého indikátoru zpravidla systematickou chybu. Nejednoznačnost tedy vzniká i z důvodu použití nedokonalých indikátorů fenoménu namísto měření samotného fenoménu. V UK studovali klasifikační systémy pro mokřady a zjistili, že tentýž fenomén ve stejném území mapuje přinejmenším 6 agentur a každá z nich používá svůj vlastní klasifikační systém (Longley et al., 2005). Je zřejmé, že v takovém případě se těžko uplatní společná regulační pravidla. Podobně jen obtížně lze srovnávat klasifikaci půd UK s celoevropským systémem. Rovněž v definici ekonomických či sociálních proměnných jsou zřejmé velké rozdíly. Rozdíly v definicích (v sémantice) tedy představují hlavní problém harmonizace a integrace dat. Nejednoznačnost ve smyslu nespecifičnosti vzniká při spojování dat pomocí nejistého přiřazení do společných kategorií. Při řešení nespecifičnosti se používá schvalovací teorie (endorsement theory) nebo teorie fuzzy množin (fuzzy set theory).

32 Shrnutí: Jedno z vymezení říká, že neurčitost je způsobena neúplným porozuměním toho, co chceme kvantifikovat. Neurčitost je subjektivní a je způsobena různými vlivy, které se zpravidla kombinují. Geoinformatika má svá specifika. Nepřesnost (imprecision) je nedostatek specifičnosti nebo nedostatek detailu při pozorování, řadíme k nim i klasické chyby. Nejednoznačnosti zahrnuje konflikty (ve významu či přiřazení) a nespecifičnost. Častá je především sémantická nejednoznačnost. Vágnost (vagueness) je neurčitost ve vymezení objektů nebo nedostatek jasnosti ve významu. Rozlišujeme také dobře definované a slabě definované geografické objekty a data, dále inherentní (přibližně vnitřní) nejistotu, nejistotu poznání. Je nutné rozlišit 2 významy přesnosti accuracy reprezentuje rozdíl mezi realitou a naší reprezentací reality, zatímco precision odpovídá míře podrobnosti či detailu. Epistemická vágnost odráží skutečnost, že naše poznání světa je nedokonalé, zatímco ontologická vágnost popisuje, že samotný sledovaný objekt světa je vágní. Hranice geografických objektů mohou být fyzické (reálné) nebo umělé. Kontrolní otázky: 1) Jak lze definovat neurčitost a nejistotu? 2) Je neurčitost objektivní? Proč? 3) Co je tzv. efekt motýlích křídel? 4) Má na výslednou neurčitost vliv vzorkování? 5) Co znamená prohlášení Nevíme, co víme? 6) Co znamená prohlášení Nevíme, co nevíme? 7) Co znamená prohlášení Nemůžeme vědět? 8) Uveďte příklad neurčitého popisu a vymezení geografického objektu a vysvětlete příslušné typy neurčitosti. 9) V čem spočívají specifika neurčitosti geografických objektů a jevů? 10) Vysvětlete, co je nepřesnost (imprecision). 11) Vysvětlete, co je nejednoznačnost (ambiguity). 12) Vysvětlete, co je vágnost (vagueness). 13) Uveďte příklad dobře definovaného geografického objektu. 14) Uveďte příklad slabě definovaného geografického objektu. 15) K jakému typu neurčitosti přiřadíte polohovou chybu měření souřadnic? 16) Jaké metody používáme pro zpracování vágně vymezených objektů? 17) V čem spočívá neurčitost prostorových jevů, která se projeví existencí efektu zbytkového rozptylu (nugget effect) při strukturální analýze v geostatistice? 18) Vysvětlete rozdíl mezi precision a accuracy. 19) Jak lze odlišit vnitřní nepřesnost a nepřesnost poznání? 20) Co je granularita? 21) Vysvětlete rozdíl mezi epistemickou a ontologickou vágností. 22) Musí být každá nepřesnost současně vágní? 23) Uveďte příklady bona fide a fiat hranic u států. 24) Jakého typu jsou hranice běžných geomorfologických útvarů jako je hřeben či údolí? 25) Jak označíte vlastnost, že podle pojmenování obce často nelze určit konkrétní administrativní jednotku? 26) Uveďte příklad konfliktu v rámci nejednoznačnosti. 27) V čem spočívá problém interpretace výroku geoprvek A je východně od

33 geoprvku B? 28) Uveďte příklady nepřímých indikátorů určitých vlastností a vysvětlete u nich problém nespecifičnosti.

34 3 Chyba Cílem kapitoly je vysvětlit pojem chyby, rozlišit jednotlivé druhy chyb, vymezit pojem spolehlivosti a seznámit se s testy, kterými se prověřuje, naučit se stanovit minimální velikost potřebného vzorku dat, vyhodnocování systematických chyb, kvalitativních chyb a hodnocení vlivu šíření chyb. Stručný obsah kapitoly: Vysvětlení pojmu chyba a jednotlivých druhů a forem chyb Spolehlivost, konzistence a opakovatelnost Relativní a absolutní reliabilita a jejich měření Oceňování chyb, stanovování minimální velikosti potřebného vzorku Hodnocení chyb u kvantitativních dat Hodnocení chyb u kvalitativních dat Šíření chyb Monte Carlo simulace pro šíření chyb Specifikace potřebných vstupních znalostí: Pro praktické využití většiny uvedených nástrojů jsou nutné alespoň základní znalosti statistiky a pravděpodobnosti. Získáte znalosti o: Druzích a příčinách chyb Spolehlivosti, jejím měření a významu Metodách oceňování a hodnocení chyb Možnostech vyjádření šíření chyb Vlivech systematických a hrubých chyb Budete umět: Vypočítat jednotlivé charakteristiky chyb. Kvantifikovat spolehlivost vašich měření či pokusů. Vyhodnotit dopady šíření chyb Budete schopni: Zvážit vliv chyb na vaše výsledky a rozhodování Správně navrhnout měření či pozorování, aby se minimalizovaly vznikající chyby, zejména hrubé a systematické Posoudit vhodnost datových zdrojů a způsobů zpracování pro sledovaný účel

35 Času potřebný na nastudování kapitoly 2 hodiny. Chyby vznikají v důsledku nejistoty, zejména nepřesnosti, ale důvodem může být i špatná definice dat či objektů. Chyba (error) je podle Longley et al. (2005) rozdíl mezi pozorováními nebo měřeními prováděným pomocí nástrojů. Také může vzniknout v důsledku zanedbání nějakého faktoru v rámci složeného indikátoru (např. vynechání dopravní dostupnosti z hodnocení pozemku). Všimněme si, že není definován rozdíl mezi realitou a měřením. Ten v jiných definicích často figuruje jako vysvětlení pojmu chyba. Jenže skutečnou (reálnou) hodnotu neznáme a nejsme schopni ji poznat. Proto i definice chyby s pomocí reálné hodnoty nemá praktický význam. Skutečná (pravá, reálná) hodnota veličiny je hodnota ideální, hodnota zjištěná s nekonečnou přesností a proto ji nelze žádným reálným způsobem poznat ( Správná hodnota je hodnota považovaná za skutečnou, je to nejlepší dosažené zjištění skutečné hodnoty (nejpřesnější dostupné měření apod.). Chyba měření je rozdíl mezi správnou hodnotou měřené veličiny a hodnotou zjištěnou měřením. Podle klasické teorie měření (Hendl, 2006, s. 263) se naměřená (pozorovaná) hodnota X skládá ze skutečné (ve smyslu správné) hodnoty T a chyby E. X=T+E Do chybové komponenty započítáváme průměrnou intraindividuální variabilitu hodnoty T u měřených jedinců a další vlivy. Klasický model vychází z následujících předpokladů (Hendl, 2006): 1. chyba E nekoreluje s hodnotou T: ρ ET =0 2. chyba E neobsahuje systematické vychýlení: μ E =0 3. při různých měřeních jsou chyby E nekorelované: ρ E1E2 =0 4. nekoreluje správná hodnota jednoho měření a stejného konstruktu s chybou druhého měření stejného konstruktu: ρ T1E2 =0

36 Chyba je užší termín než nejistota. Nejistota je neutrální termín. Nejistota může být způsobena omylem, ale také neúplnou informací. Chyba má tradičně pejorativní jazykové zabarvení. Chyby v měření prostorových dat mohou být kvantifikovány pomocí statistických odchylek, střední chybou měření a jinými mírami. Projevuje se nestabilita pozorovatele, omezení měřícího zařízení nebo nevhodné pozorovací podmínky. Hlavním zdrojem chyb je získávání dat (data capturing). Je nutné ještě připomenout mnoho různých jiných výkladů pojmu chyba. Např. chyba v počítačovém systému znamená selhání příslušné služby (např. vracení chybového hlášení programu či webového serveru). Chybovostí pak rozumíme počet chyb za časovou jednotku. Rozlišujeme 3 typy chyb: 1. Náhodné chyby Náhodné chyby vznikají náhodnými rušivými vlivy (během měření: otřesy, změny teplot, tlaku vzduchu; při digitalizaci: otřesy, chvění, chyby odečtu atd.) a nedokonalostí našich smyslů. Náhodná chyba mění náhodně směr a velikost (Hendl, 2006). Náhodnou chybu nelze úplně odstranit, lze ji pouze minimalizovat. Náhodnou chybu lze odhadnout na základě statistického zpracování sady opakovaných měření. Označujeme ji také jako chyba typu A u měření. Náhodné chyby zahrnují (Hendl, 2006): chyby hodnotitele (např. špatně odečetl měřenou hodnotu na stupnici, špatně pochopil či rozuměl odpovědi dotazované osoby), intraindividuální variabilitu (opakované měření ukáže jinou hodnotu projev inherentní nejistoty, způsobující vnitřní variabilitu, případně časové nestálosti, změna názoru jedince apod.) přepisy (opisování údajů) chyby přístroje (náhodné selhání, momentální špatné fyzikální podmínky). 2. Systematické chyby velikost a typ chyb v měření ukazuje pravidelný vzor. Běžně je jejich vliv na výsledky měření větší než náhodných chyb. Při opakovaném měření za stejných podmínek nabývá systematická chyba vždy přibližně stejné hodnoty. Označujeme ji také jako chyba typu B u měření. Na systematickou chybu lze usuzovat pomocí průměrné chyby (viz polohová přesnost). Zdrojem systematické chyby může být (upraveno podle nedokonalá či neúplná definice měřené veličiny nevhodný výběr přístroje

37 nedokonalost měřících přístrojů nevhodný výběr vzorků měření nevhodný postup při měření nevhodná metoda měření zaokrouhlování linearizace, aproximace, interpolace a extrapolace neznámé nebo nekompenzované vlivy prostředí nedodržení shodných podmínek při opakovaných měřeních subjektivní vlivy obsluhy, vliv operátora nepřesnost etalonů a referenčních materiálů V případě měřících přístrojů lze systematickou chybu opravit na základě rozboru známých chyb nebo nestatistickými metodami (např. z dokumentace výrobce či odhadem). Pokud není u měřicích přístrojů specifikována, odhaduje se jako jedna polovina nejmenšího dílku u mechanických měřidel. Běžné postupy na eliminaci systematické chyby: kalibrace měřícího zařízení přidání korekčního čísla k hodnotám měření při zpracování použití jiné, vhodnější procedury 3. Hrubé chyby (gross error) omyly, způsobené člověkem. Vznikají nepozorností nebo přehlédnutím, poruchou měřicího přístroje, nevhodnou metodou měření, zaměřením nesprávného cíle při geodetickém měření, lidskou chybou ve výpočtu. Zpravidla je větší než náhodná chyba. V případě primárního měření není oprava takové chyby možná nebo je neekonomická, pak je vždy třeba opakovat měření. Tabulka 2 Běžné důvody chyb v databázi (Fisher et al, 2006) Typ chyby Měření Přidělení (assignement) Generalizace třídy Příčina chyby Měření vlastnosti je chybové Objekt je klasifikován do špatné třídy kvůli chybě měření provedené specialistou v terénu či laboratoři nebo provedené měřičem (geodetem) Po měření v terénu se kvůli zjednodušení provede seskupení objektů do tříd, které mají podobné vlastnosti

38 Prostorová generalizace Vstup Časová Zpracování Generalizace kartografické reprezentace objektu před digitalizací, včetně posunutí, zjednodušení apod. Data jsou špatně kódována během vstupu (digitálního či ručního) do GIS Objekt změnil charakter mezi časem sběru dat a časem využití databáze Při transformaci dat vznikají chyby v důsledku zaokrouhlení či chyb algoritmu. Výsledné chyby je možné složit kombinovanou nejistotu podle vztahu: u C u 2 A u 2 B Při měření přístroji se někdy rozlišuje základní chyba měření a pracovní chyba měření ( Základní chyby měření je přístrojem dosahováno za předpokladu, že měřicí přístroj je provozován v předepsaných referenčních podmínkách. To znamená, že veškeré veličiny, které mohou nepříznivě ovlivnit přesnost měření, musí mít předepsanou konstantní velikost, popř. je povolen rozptyl jen ve velmi úzkých mezích. Mezi hlavní ovlivňující veličiny obvykle patří okolní teplota, kolísání napájecího napětí přístroje atd. Zjednodušeně lze říci, že základní chyby měření daným přístrojem je dosahováno v laboratorních, přesně definovaných podmínkách. Pracovní chyba měření platí pro měření prováděná v pracovních podmínkách, oproti základní chybě se pracuje v širším rozsahu pracovních teplot, při větším kolísání napájecího napětí apod. Proto pracovní chyba bývá vyšší než chyba základní. Podle ČSN může být relativní pracovní chyba měření maximálně 30%. Základní statistické charakteristiky náhodné chyby jsou nepřesnost, opakovatelnost a reliabilita (spolehlivost) (Hendl, 2006). Nepřesnost již byla vysvětlena, opakovatelnost a spolehlivost se částečně překrývají a jsou vysvětleny dále. 3.1 Spolehlivost Spolehlivost je možné chápat jako výsledek 2 faktorů - z konzistence a opakovatelnosti. Spolehlivost (reliabilita) (Hendl, 2006, s. 48) znamená stupeň shody výsledků měření jednoho objektu provedeného za stejných podmínek (opakovatelnost). U testů složených z mnoha položek odpovídá konzistenci hodnot různých podmnožin položek mezi sebou. Nespolehlivost (nízká reliabilita) měření má různý původ. Jeden zdroj nespolehlivosti obvykle nazýváme subjektivní chybou. Zapříčiňuje ji individuální variabilita měřeného subjektu (únava, klesání zájmu apod.). Pozorovací chyba je jiným zdrojem chyb. Závisí na provedení měření hodnotitelem. Také uvažujeme přístrojové chyby (např. selhání hardwaru). Postupy k určení spolehlivosti:

39 opakovaná měření (test-retest reliabilita) označujeme tak konzistenci neboli shodu opakovaných měření, která jsou oddělena určitým časovým intervalem měření paralelních testů znamená shodu měření s jiným ekvivalentním měřením stejného konstruktu (pokud existují dvě verze A a B téhož testu apod.) půlení intervalu (split-half reliabilita) vyjadřuje, do jaké míry jsou konzistentní jednotlivé části instrumentu měření (nejčastěji se týká různých položek jednoho testu). Jde o metodu internální konzistence, která nevyžaduje u jedince opakované použití měřící procedury. Spolehlivost (reliabilitu), zahrnující konzistenci a opakovatelnost měření, zachycujeme obecně dvěma způsoby - relativně a absolutně. Relativní reliabilita se odhaduje bezrozměrnými hodnotami, absolutní reliabilita se udává v jednotkách měření. Relativní reliabilita se posuzuje pomocí koeficientu reliability Rel(X). Koeficient reliability Rel(X) pro měřící metodu je definován poměrem Var(T)/Var(X), tj. (rozptyl pravdivého skóru)/(rozptyl pravdivého skóru + chybový rozptyl), kde Var() označuje teoretický rozptyl náhodné proměnné. To lze zapsat následovně (Hendl, 2006): Var ( X ) Var ( E) Rel( X ) Var ( X ) 2 TX Koeficient reliability je tedy 2.mocninou koeficientu korelace mezi T a X. Varianty měření Rel(X) jsou: Test-retest reliabilita odhadujeme Rel(X) Pearsonovým koeficientem korelace dvou měření n-objektů danou metodou ve dvou časových okamžicích. Reliabilita paralelních měření provedeme měření n-objektů dvěma nezávislými metodami, vyhodnotíme Rel(X) Pearsonovým koeficientem korelace. Reliabilita zjištěná půlením testu použijeme, pokud měření X získáváme jako součet parciálních hodnot, které např. obdržíme jako odpovědi na různé položky dotazníku, jež měří stejnou charakteristiku. Počítáme korelační koeficient r 1/2 mezi dvěma polovinami položek dotazníku zadaného n osobám. Rel(X) se pak spočítá následovně: 2r Rel( X ) (1 r 1/ 2 1/ 2 ) Korelace položky s celkovým skórem při korelování každé položky testu, resp. navrhované škály s celkovým skórem (hodnotou testu) dostáváme další míru internální konzistence ukazující, jak každá položka souhlasí se sumou odpovědí na ostatní položky (tj. ze sumy vyloučíme hodnocenou položku).

40 Absolutní reliabilita (Hendl, 2006, s.265) je koncept, jímž se posuzují změny hodnot na jejich škále. Jinak řečeno, tento typ konzistence vyjadřuje velikost variability, která se očekává u naměřené hodnoty. Její určení vychází ze směrodatné odchylky měření s, kterou lze odhadnout: s sx ( 1 Rel( X )) kde s x označuje rozptýlenost dat ve skupině. Hodnota 3s označuje kritickou diferenci. Její význam je následující: jestliže máme dvě měření x 1 a x 2 u stejné osoby, pak pouze v 5 % případů bude jejich rozdíl (x 1 - x 2 ) v absolutní hodnotě větší než 3s, pokud mezi měřeními a při měření nedošlo k nějaké změně. Kritickou mez diference lze aplikovat i na měření 2 osob. Pokud je jejich rozdíl větší než kritická diference, můžeme tvrdit, že správné hodnoty obou osob se skutečně liší. Tabulka 3 Využití Pearsonova koeficientu korelace rxy při hodnocení metod měření (Hendl, 2006, s. 266) korelační koeficient r xy Aplikace/intepretace x y měření v čase I měření v čase II odhad reliability první polovina testu druhá polovina testu odhad reliability paralelní forma testu I paralelní forma testu II odhad reliability hodnocený test cílové kritérium souběžná validita hodnocený test měření kritéria v budoucnu prediktivní validita hodnotitel I hodnotitel II odhad objektivity 3.2 Ocenění chyb Ocenění chyb měření běžně zahrnuje 3 kroky: Výběr části dat (sady míst), opakování měření - jejich přeměřením (znovu určení v daných místech) přesnějšími nástroji či postupy, srovnání nových měření s původními, ocenění odchylek, statistické vyhodnocení Velikost potřebného vzorku Velikost potřebného vzorku (n) je určována vynásobením odhadu standardizované chyby měření čtvercem standardizovaného skóre (z) vyžadovaného pro požadovanou úroveň spolehlivosti (např pro 95 % interval) a dělením výsledku čtvercem požadovaného intervalu spolehlivosti (e) (např pro 10 %). V případě odhadu n při znalosti střední chyby (RMSE) se vzorec zjednoduší: z s n 2e 2 2 2

41 kde s je odhadnutá střední chyba. Pro odhad proporcionální chyby u kategorizovaných dat se používá vztah: n 2 z pq 2 e kde p je odhadovaná proporcionální chyba a platí, že: q = (1-p) Podrobnější hodnocení je k dispozici v (Eastman et al. 1993) Výsledné hodnocení chyb u kvantitativních údajů Výsledné ocenění pro kvantitativní údaje se udává pomocí střední chyby, která se vypočte: RMSE ( xi ti ) n 1 2 x i t i zjištěná hodnota v místě i správná hodnota v místě i Střední chyba nerozlišuje mezi systematickou a náhodnou chybou. Použití střední chyby je vhodné pro data s normálním rozdělením. V případě distribuce dat s výraznou asymetrií je vhodnější použití robustních technik založených např. na kvantilech Vyhodnocení náhodných chyb (nejistoty typu A) Provádí se na základě statistické analýzy opakované série měření. Je způsobena mnoha malými náhodnými vlivy. Výsledná hodnota měření je dána aritmetickým průměrem ze série výsledků měření. Nejistota typu A se vypočte jako výběrová směrodatná odchylka série dat u A. V případě malého počtu měření (n < 10), je však tento výpočet málo spolehlivý, a musí se provést korekce zjištěné nejistoty pomocí vynásobení rozšiřujícím koeficientem k A z tabulky 4. Se zmenšujícím se n totiž klesá věrohodnost nejistoty, což koeficient kompenzuje. Tabulka 4 Rozšiřující koeficient (Schovánek, Havránek 2012) n k A Vynásobením získáváme tzv. rozšířenou nejistotu u S. Pro k A = 2 do něj spadá 95 % hodnot z n měření a pro k A = 3 celých 99.7 % (pro k A = 1 je to 68 %). Čili je to kolik směrodatných odchylek má být použito místo 1.

42 Vyhodnocení systematických chyb (nejistoty typu B) Nejistota B typu nemá náhodný charakter. Při opakovaných měřeních na sebe upozorní trvalým výskytem. Vyhodnocení se provádí jinými než statistickými přístupy. Nejistota typu B se odhaduje na základě všech dostupných informací. Například údaje výrobce měřící techniky, vlivy techniky měření, metod, konstant, podmínek, za kterých měření probíhá, zkušenosti z předchozích sérií měření, z poznatků o chování materiálů, údaje získané při kalibraci a třeba nejistoty referenčních údajů v příručkách. Vychází se z dílčích nejistot jednotlivých zdrojů. Je-li známá maximální odchylka j-tého zdroje, pak se nejistota j-tého zdroje určí podle vztahu (Schovánek, Havránek 2012): u Bzj z j max k kde hodnota k je součinitel vycházející ze zákona rozdělení (viz tab. 4). Při jejím určení tedy odhadujeme maximální rozsah odchylek od naměřené hodnoty tak, aby v něm skutečná hodnota s velkou pravděpodobností ležela. V případě, že máme stanoveno více nejistot v měřicím řetězci, výslednou nejistotu dostaneme jejich geometrickým součtem. Korelace mezi jednotlivými zdroji nejistot typu B se nebere v úvahu (Schovánek, Havránek 2012). Výsledná nejistota se pro m zdrojů určí s využitím zákona o aditivitě rozptylů (U 2 B je rozptylem příslušné položky) a vážením jednotlivých vlivů pomocí součinitele citlivosti (Schovánek, Havránek 2012): u Bx m j1 A u 2 j 2 Bzj kde A je součinitel citlivosti jednotlivých zdrojů Příklad součtu nejistot Měříme komparačně středovou tloušťku čočky, tj. porovnáváme její tloušťku s koncovými (Johansonovými) měrkami pomocí číslicového úchylkoměru (Schovánek, Havránek 2012). Jde o přesné (přesnější než posuvným měřítkem nebo mikrometrem) komparační měření mechanických součástí mezi dvěma hroty, z nichž jeden je pevný a druhý, posuvný, náleží k úchylkoměru. Dvě měrky jsou položeny na sebe a mají každá nepřesnost u b1 = ±0.5 μm. Úchylkoměr má u b2 = ±1 μm a deformaci hrotů během měření odhadneme na u b3 = ±0.3 μm. Výsledná nejistota měření u b je (Schovánek, Havránek, 2012): u b 2u u u b1 b2 b3 1.3 Výsledná nejistota měření je u b = ±1.3 μm.

43 Obrázek 7 Tloušťka koncové měrky v řezu (Schovánek, Havránek, 2012) Výpočet použijeme pro orientaci před vlastním měřením, případně pokud máme měření jen jedno. Pokud je statistická chyba typu A (náhodná chyba) výrazně nižší než vypočtená chyba, musíme zvážit, zda nejsou hodnoty zatíženy systematickou chybou a dle toho stanovit nejistotu výsledku Výsledné ocenění chyb pro kvalitativní údaje Pro celkové hodnocení se doporučuje použít chybovou matici. Chybová matice obsahuje tabulku s počty vzorkových bodů nalezených v každé možné kombinaci správných a mapovaných (klasifikovaných) kategorií. Tabulka 5 Chybová matice (kontingenční tabulka pro hodnocení přesnosti klasifikace) mapováno realita Jehličnatý Smíšený listnatý voda celkem Chyba I.druhu Jehličnatý Smíšený listnatý voda celkem Chyba II.druhu Chyby nadbytečného přijetí (commision) - mapované vzorky byly ve skutečnosti něco jiného. Je to chyba I.druhu. Snižování chyby nadbytečného přijetí je prostředkem zvýšení přesnost mapování. Chyby vynechání (omission) - vzorky dané kategorie byly mapovány jako jiná kategorie. Je to chyba II.druhu. Podle ní se hodnotí adekvátnost mapování. Celková proporcionální chyba je 0.19 (v 19% případů bylo mapováno něco jiného, než je ve skutečnosti). Podrobnější popis hodnocení klasifikační přesnosti je uveden v kapitole Přesnost atributů. Hodnocení klasifikace pomocí proporcionální chyby není zcela objektivní, proto se používá kappa index (KIA, kappa index of agreement). KIA je podobný ukazateli proporcionální přesnosti (doplněk proporcionální chyby).

44 Kappa index hodnotí provedenou klasifikaci s klasifikací čistě náhodnou. Vypočte se jako: PP PO 1 PO kde PP je pozorovaná přesnost (z kontingenční tabulky, resp. chybové matice) a PO je přesnost dosažitelná náhodným zařazením pixelů do jednotlivých tříd. Výpočet v IDRISI provádí modul ERRMAT, který vyžaduje 2 vstupní soubory: původní kategorizovaný obraz (vrstvu) a druhou vrstvu se správnými hodnotami. Tato správná mapa je typicky ve formě vrstvy s převažující hodnotou 0 (pozadí) s izolovanými ostrůvky, kde byla zjištěna správná hodnota. Výsledkem je chybová matice a sumární statistika. ERRMAT udává pro každou kategorii rovněž kappa index shody KIA. 3.3 Šíření chyb Pokud neurčitost existuje v datových vrstvách, chyby se šíří jakýmikoliv analýzami a kombinují se s chybami z jiných zdrojů. Specifické vzorce pro očekávané šíření chyb vznikly z typických GIS matematických operací. Jako příklad je možné uvést několik aritmetických operací dle (Eastmann, 2001), kde S odpovídá směrodatné odchylce (resp. střední chybě RMS): Součet/rozdíl 2 překrývajících se vrstev (např. Z=X+Y nebo Z=X-Y): S z S 2 x S 2 y Násobení/dělení 2 překrývajících se vrstev (např. Z=X*Y nebo Z=X/Y): S z ( S 2 x Y 2 ) ( S 2 y X Přidání či odečtení konstanty (např. Z=X+k nebo Z=X-k): S z S x Násobení konstantou (např. Z=X*k): S z S x k Dělení konstantou (např. Z=X/k): S S z x / k 2 ) Umocnění konstantou (např. Z=X k ): S z k 2 X (2( k1)) S 2 x Obecně představuje výpočet šíření chyb pomocí vzorců problém, protože: a) šíření je silně ovlivněno vzájemnou korelací mezi proměnnými a tato korelace není vždy známá

45 b) je nyní k dispozici jen omezený počet vzorečků a řada GIS operací má neznámé charakteristiky šíření chyb K řešení se používá obecný přístup označovaný jako Monte Carlo simulace. IDRISI obsahuje 2 moduly, které za určitých okolností šíří chybovou informaci automaticky s těmito procedurami - modul MCE a SURFACE. Jestliže všechny vstupní faktory pro MCE modul mají chybovou informaci (RMSE) zapsanou v poli value error v jejich dokumentačních souborech, MCE vypočte výslednou chybu a zapíše ji do dokumentačního souboru výsledného souboru. Výpočet je možné akceptovat v případě splnění 2 základních předpokladů: a) mezi faktory není žádná korelace, b) nesmí být neurčitost ve vahách. Nejsouli tyto předpoklady platné, je možné využít procedury Monte Carlo. V případě modulu SURFACE se chybová informace šíří při odvozování sklonu z digitálního modelu terénu, který má opět v poli value error zapsánu střední chybu RMSE Monte Carlo simulace Často se setkáváme se situací, kdy každá vstupní proměnná může být charakterizována pomocí statistické distribuce hodnot. Současně můžeme jistým způsobem charakterizovat prostorové vlastnosti proměnných, např. pomocí jádrového odhadu, topologického popisu sousedství či pomocí prostorové autokorelace. V těchto případech lze pro ocenění šíření chyb a neurčitosti spojené se zpracování využít Monte Carlo simulace. V analýze šíření chyb pomocí Monte Carlo simulace simulujeme efekt chyb v každé datové vrstvě, abychom ocenili, jak se šíří chyby při analýze. Prakticky to znamená, že všechny analýzy běží 2x - jednou normálně a podruhé s datovými vrstvami, které obsahují simulované chyby. Srovnáním obou výsledků může být odhadnut efekt (vliv) chyb - jediným důvodem k rozdílu jsou zde totiž ony simulované chyby. Odečtením obou vrstev (překryvná operace) získáme rozdílový obraz, který ukazuje plošnou distribuci chyb. Pokud má výsledek normální distribuci, můžeme vypočítat směrodatnou odchylku s rozdílového obrazu a použít ji jako dobrý indikátor finální střední chyby RMSE. Např. v IDRISI se k vytvoření simulované chyby používá procedura RANDOM, která vytváří datový soubor s náhodnými hodnotami podle přímkového (rectlinear), normálního (N) nebo lognormálního (LN) modelu. Pro N a LN distribuci může být střední chyba buď konstantní pro celý obraz, nebo může být definována chyba pomocí obrazu (mapy), který má prostorově variabilní hodnoty. Pro kategorizovaná data dává přímkový (rectlinear) model celočíselné hodnoty, které mohou být použity jako kódy kategorií. Pro kvantitativní data generují všechny modely reálná čísla. Např. chcete-li přidat simulovanou chybu k DEM se střední chybou RMS = 3 m, RANDOM by měl být použit ke generování povrchu podle N modelu s průměrem 0 a směrodatnou odchylkou = 3. Tento obraz bude přidán k DEM. Výsledek nemá žádný speciální význam vzhledem k realitě - prostě obsahuje chyby stejné povahy, jaké předpokládáme, že existují v originále.

46 Maguire et al. (2005, s. 78) uvádí příklad využití Monte Carlo simulace pro ověření korelace mezi 2 proměnnými (teplota půdy a vlhkost půdy). Obě veličiny byly krigovány, jenže krigování jako nejlepší lokální odhad potlačí variabilitu a vyhladí výsledky. Koeficient korelace mezi oběma rastrovými mapami vyšel r=-0,54. Geostatistická simulace umožňuje realizovat 1000 možných realizací map obou proměnných na základě statistické distribuce příslušných hodnot, prostorové autokorelace a vzájemné korelace (cross-correlation). Pro každý pár map byl spočítán koeficient korelace. Výsledkem je 1000 hodnot korelace r. Výsledné hodnoty r se pohybovaly od -0,58 do 0,28. 95% interval spolehlivosti byl v rozsahu 0,53 až 0,36. Původní odhad 0,54 byl tedy díky vyhlazení velmi optimistickým odhadem korelace. Velkou výhodou Monte Carlo simulace je její flexibilita. Můžete simulovat různé distribuce, za různých předpokladů, s rozdílným výběrem klíčových parametrů. Pro různá data mohou být použity rozdílné modely variability. Shrnutí: Skutečná (pravá, reálná) hodnota veličiny je hodnota ideální, hodnota zjištěná s nekonečnou přesností. Správná hodnota je hodnota považovaná za skutečnou, je to nejlepší dosažené zjištění skutečné hodnoty. Chyba měření je rozdíl mezi správnou hodnotou měřené veličiny a hodnotou zjištěnou měřením pomocí nástrojů nebo pozorováním. Náhodné chyby vznikají náhodnými rušivými vlivy a lze je pouze minimalizovat (chyba typu A). Systematické chyby se projevují pravidelným vzorem ve výsledcích, měří se průměrnou chybou. Hrubé chyby jsou omyly způsobené člověkem. Pracovní chyba měření zohledňuje vyšší toleranci nezbytnou při měření v pracovních (neideálních) podmínkách. Spolehlivost zahrnuje konzistenci a opakovatelnost. Konzistence hodnotí shodu hodnot různých podmnožin položek mezi sebou či za různých podmínek, zatímco opakovatelnost stupeň shody výsledků měření jednoho objektu provedeného za stejných podmínek. Rozlišuje se absolutní a relativní spolehlivost (reliabilita); každá má své postupy měření. Ocenění chyb měření běžně zahrnuje výběr části dat, opakování měření a srovnání výsledků. Velikost potřebného vzorku se určuje ze střední chyby u kvantitativních dat nebo z proporcionální chyby u kvalitativních dat. V případě malého počtu dat je nutné chybu korigovat (navýšit) pomocí rozšiřujícího koeficientu. V případě hodnocení kvalitativních chyb je nutné rozlišit chyby nadbytečného přijetí (chyba I.druhu) a chyby vynechání (chyba II.druhu). K popisu šíření chyb se používají známé vzorce nebo Monte Carlo simulační metoda.

47 Kontrolní otázky: 1) Co je chyba? 2) Lze zjistit skutečnou hodnotu veličiny? 3) Jaké předpoklady mají být splněny u náhodných chyb? 4) Jak vznikají náhodné chyby? 5) Co jsou systematické chyby? 6) Lze měřit systematické chyby? 7) Co může být zdrojem systematické chyby? 8) Jak vznikají hrubé chyby? 9) Jaký je rozdíl mezi základní a pracovní chybou měření? 10) Co je spolehlivost? 11) Co je konzistence? 12) Co je opakovatelnost? 13) Jak se zjišťuje spolehlivost? 14) Jak se zjišťuje koeficient reliability? 15) Jak se měří relativní reliabilita? 16) Co je absolutní reliabilita? 17) Jak se běžně postupuje při oceňování chyb? 18) Jak se určí velikost potřebného vzorku u kvantitativních dat? 19) Jak se určí velikost potřebného vzorku u kvalitativních dat?

48 4 Kvalita dat a jejich popis Cílem kapitoly je seznámit čtenáře s jednotlivými aspekty kvality dat, které jsou vyjádřeny jako složky metadat, tj. jako položky, které je nutné u každého datového díla či služby specifikovat. Stručný obsah kapitoly: Význam metadat Základní rozdělení prvků kvality Popis jednotlivých prvků kvality dat Metakvalita Standardizace popisu kvality dat Získáte: Důležitosti a přístupech k popisu metadat Přehled a srovnání jednotlivých prvků kvality dat Znalosti o vlivech jednotlivých prvků na výslednou kvalitu a použití dat Vědomosti o popisu metakvality Budete umět: Navrhnout odpovídající strukturu metadat pro datovou sadu/službu Správně popsat požadované prvky kvality dat. Identifikovat zdroj chyb u datového souboru či služby Budete schopni: Správně využívat metadata Vyhnout se chybnému zpracování a interpretaci prostorových dat Času potřebný na nastudování kapitoly 3 hodiny.

49 Popis neurčitosti dat musí být uveden v metadatech, které obecně popisují kvalitu dat. Různé formy neurčitosti se promítají do různých složek popisu kvality dat, zpravidla ale nejen do jedné. Znalost kvality dat je velmi důležitá pro posouzení možného použití dat. Zvláštního významu nabývá, jestliže se data předávají mezi organizacemi nebo se šíří veřejně. S příchodem budování geoinformačních infrastruktur se stala problematika kvality dat mimořádně aktuální a naléhavou. Jakmile použití dat překračuje prvoplánový účel či dochází k jejich sdílení více uživateli, musí být popisu a reprezentaci kvality dat (a tedy i interní nejistoty) věnována zvláštní pozornost. Je třeba si uvědomit, že základní definice kvality hovoří o míře uspokojení uživatelských potřeb. Je tedy logické, že ve chvíli ztráty přesného vymezení uživatele a jeho potřeb, musí být tato otázka dobře řešena. Otázky správného posouzení kvality dat jsou důležité i proto, že budovaný GIS může sloužit různým účelům, které je někdy v počátcích jeho budování těžké správně odhadnout. Kvalita geografických dat je však často zkoušena až poté, co nesprávné rozhodnutí vede k nějakým ztrátám. Srovnejte životnost dat a současnou požadovanou funkcionalitu GIS. Je zřejmé, že nároky na data se s vývojem požadavků budou měnit. Znalost kvality geografických dat je pro aplikaci těchto dat často rozhodující, neboť různí uživatelé a různé aplikace mají mnohdy odlišné požadavky na kvalitu (ISO 19138). Vhodnost použití se podle Fisher et al. (2006) označuje často jako externí kvalita. Data plní specifické požadavky uživatele. Tím automaticky vyjadřujeme, že jde o obtížně hodnotitelné kritérium. Nicméně je to zcela zásadní kritérium. Pro hodnocení se používá např. testování odchylek nebo doplňkové anotace uživatelů (Fisher et al., 2006). Náklady na ocenění kvality dat jsou přímo úměrné naší náročnosti a možným ztrátám. Čím důkladněji chceme testovat kvalitu dat, tím vyšší je cena jak vlastních testů, tak i ztrát způsobených zdržením prací při provádění testů a opravě nedostatků (přitom růst nákladů je nelineární vůči rostoucí kvalitě (obr. 8). Proto by úroveň testování měla odpovídat požadované úrovni přesnosti. Navíc rozdílné složky kvality dat se liší nákladností zvyšování své kvality (obr. 9).

50 Obrázek 8 Geometrický nárůst nákladů při rostoucích požadavcích na kvalitu Obrázek 9 Srovnání nákladů na 3 stupně kvality polohové přesnosti a aktuálnosti (Bernhardsen, 1993) 4.1 Prvky kvality dat Kvalitu dat (a tedy i užitečnost dat) popisuje základní složky kvality dat. Podle Aronoffa (1989) mohou být tyto složky sdruženy do 3 kategorií: mikrosložky, makrosložky a uživatelské složky (usage components). Mikrosložky jsou faktory kvality dat, které přísluší k jednotlivým prvkům dat. Zpravidla se oceňují statistickým testováním datového produktu vůči nezávislému zdroji s vyšší kvalitou informace ( správné hodnoty). Patří sem polohová přesnost (positional accuracy), rozlišení, přesnost atributů a logická konzistence. Makrosložky kvality dat příslušejí k datům jako celku. Nepodrobují se testování, ale jsou oceňovány posouzením (např. úplnost dat) nebo výpisem informací o datech (např. datum pořízení). Mezi hlavní makrosložky patří úplnost dat, aktuálnost dat a rodokmen dat (lineage).

51 K makrosložkám kvality dat patří i metanejistota, kterou rozumíme nejistotu v určení všech aspektů kvality dat. Viz metakvalita a její dokumentace. Uživatelské složky kvality dat se vztahují k podmínkám organizace. Např. vliv ceny dat závisí na finanční situaci organizace - pro některé organizace jsou určitá data příliš drahá a musí se omezit na jiná, levnější data. Jiným faktorem je dostupnost dat. Podrobnější seznam prvků kvality dat uvádí Worboys, Duckham (2004, s.336): Accuracy blízkost shody mezi daty a věcmi, které jsou jimi popisovány Bias systematická odchylka dat Completness úplnost dat Consistency úroveň logických kontradikcí uvnitř dat Currency aktuálnost dat Format struktura a syntaxe použitá ke kódování dat Granularita granularita, rozlišení Lineage historie, rodokmen Precision úroveň detailu nebo specifičnosti dat Reliability trustworthiness (důvěryhodnost, spolehlivost) stupně důvěry, který má uživatel k datům Timeliness určuje, jak relevantní jsou data pro aktuální potřeby uživatele Nekonzistence porušení logických vazeb. Nekonzistenci zjistíme, např. pokud mohu odvodit protiklad z dat či pravidel. V českých překladech ISO norem řady 191xx se objevil termín bezespornost. Příklad nekonzistentní sady výroků: Opava má obyvatel. Všechna města nad jsou velká. Opava je velké město. Relevance a vhodnost použití (relevance and fitness for use) Relevance popisuje vztah mezi informací a jejím kontextem. V případě datové sady relevance znamená (míru) propojení datové sady na určitou aplikaci Polohová přesnost Polohovou přesností se rozumí geometrická přesnost a (positional accuracy or geometric accuracy). Poloha objektů je v databázi zaznamenána jako sada souřadnic. Jediným způsobem, jak měřit polohou přesnost je srovnat datovou sadu s jinou datovou sadou lepší kvality (označovanou

52 jako kontrolní či referenční údaje), nebo s daty odvozenými z měření a vzorkování (např. GPS senzory). Geometrická přesnost, neboli přesnost souřadnic, přímo závisí na metodě pořízení dat a zpracování měření (Servigne et al., 2006). Polohová přesnost a je očekávaná odchylka geografické lokalizace objektu v datovém souboru od jeho správné polohy. V některých případech se může polohová přesnost a charakterizovat pravděpodobností, že předpověď bude správná - tedy např. pravděpodobnost, že pozice bodu určená z mapy bude na "správném" místě, tj. na místě zjištěném přesnějším měřením např. geodeticky. Tj. pravděpodobnost, že lokalizace uvedená v datech odpovídá skutečné pozici. Obrázek 10 Polohová přesnost vyjádřená pomocí velikosti chyby (vlevo) nebo pomocí pravděpodobnosti shody poloh obou křížků (vpravo) Polohová přesnost (positional accuracy) může být definována jako stupeň, do kterého digitální reprezentace entit reálného světa souhlasí se správnou polohou na zemském povrchu (Harding, 2006). Podle Ordenance Survey má polohová přesnost 2 komponenty - geometrickou věrnost (geometric fidelity) a relativní přesnost (relative accuracy). Relativní přesnost označuje polohovou konzistenci bodu ve vztahu k lokálním bodům. Pro její měření se používá porovnání přepočítaných (scaled) vzdáleností dobře definovaných bodů (např. rohy budov) se vzdálenostmi změřenými mezi těmito body v terénu. Výsledky jsou vyjádřeny pomocí očekávaného směrodatného chybového vektoru (expected standard error vector) pro danou mapovou oblast (Harding, 2006). Geometrická věrnost je správnost geoprvků v datech vůči tvarům a spojení (alignment) bodů entit reálného světa, které reprezentují. Připojení (propojení), která jsou přímková v reálném světě, musí být reprezentována jako přímková i v datech. Hodnocení se provádělo vizuálním posouzením v měřítku odpovídajícímu měřítku provedeného měření (Harding, 2006). Podobný význam má dělení polohové přesnosti (positional accuracy) na absolutní (absolute) přesnost a relativní (relative) přesnost (Servigne et al., 2006). Rovněž je třeba rozlišit mezi horizontální (planimetric) přesností (accuracy) a výškovou (altimetric) přesností (pro 3D data). Výšková přesnost se často chápe jako problém sémantické přesnosti (semantic accuracy), protože výška bodů je zpravidla zaznamenána jako alfanumerický atribut (Servigne et al., 2006).

53 Obrázek 11 příklad polohové nepřesnosti (positional inaccuracy) (Servigne et al., 2006) Vysvětlivky: nominal ground modelová realita, dataset to qualify datová sada určená pro kvalifikaci Již před výběrem zdroje dat (a i způsobu zpracování dat) by měl mít uživatel jasnou představu o požadované polohové přesnosti. Nejčastějším zdrojem dat byly analogové mapy. Polohová přesnost map většinou vyhovuje při práci v určitém měřítku. Pochopitelně na analogové mapě se používají pro záznam objektů symboly v jiném měřítku, než je měřítko mapy. Linie jsou vyznačovány určitou tloušťkou, body jako symboly o určité velikosti. Snímání těchto objektů vede a priori k nepřesnostem. Vedle polohové přesnosti ovlivňuje volba měřítka zdroje i úplnost dat (viz úplnost dat). Přesnost se zpravidla testuje výběrem určitého vzorku bodů předepsaným způsobem a porovnání jejich souřadnic s kontrolní sadou zdrojem informací. Je třeba sledovat, aby vzorky pro ocenění přesnosti byly vybrány náhodně a aby reprezentovaly celou plochu Podrobněji viz kapitola organizace sběru dat. Polohová přesnost má 2 složky: průměrnou odchylku (bias) a rozptyl přesnosti. Odchylka představuje systematickou chybu mezi reprezentovanou a správnou polohou. Ideálně by měla být odchylka rovna 0, aby zde nebyla žádná systematická chyba. Průměrná odchylka je měřena jako průměrná polohová chyba ze vzorků bodů. Rozptyl přesnosti se obecně odhaduje výpočtem směrodatné odchylky vybraných testovaných bodů. Nízká odchylka odpovídá nízkému rozptylu chyb v poloze a tedy pravděpodobně nízké náhodné chybě. Nejčastější způsobem vyjádření polohové přesnosti zvláště v geodézii a fotogrammetrii je střední (souřadnicová) chyba (RMSE, root mean square error) (viz kapitola 3). Tento výpočet však nerozlišuje mezi systematickou odchylkou (průměrnou odchylkou) a náhodnou odchylkou (rozptyl přesnosti). Vztah mezi střední chybou a měřítkem mapy ukazuje např. tab. 6. Střední chyba udávaná u map 1:10000 (např. ZABAGED) je 3 až 10 m. Mapa 1: (DMU200) má střední chybu 40 až 80 m. ČSN Mapy velkých měřítek. Kreslení a značky udávala požadované třídy přesnosti, z nich první pět bylo definováno střední souřadnicovou chybou (viz tab. 7), další třídy přesnosti pak měřítkem mapy. Tyto požadavky přesnosti se promítly následně do dalších

54 předpisů, např. předpis ČUZK Struktura a výměnný formát digitální katastrální mapy a souboru popisných informací katastru nemovitostí České republiky a dat BPEJ verze 1.3 č.j. 5270/ Tabulka 6 Absolutní přesnost vektorových dat Ordnance Survey (Harding, 2006) Typ měření Střední chyba (RMSE) 95% konfidenční interval 99 % konfidenční interval 1:1250 (urbánní ± 0.42 m ± 0.73 m ± 0.90 m území) 1:2500 (přeměření) ± 1.10 m ± 1.90 m ± 2.40 m 1:2500 (důkladná ± 2.70 m ± 4.67 m ± 5.79 m revize) 1:10000 (horské území a planiny) ± 4.09 m ± 7.08 m ± 8.78 m Třída přesnosti Tabulka 7 Třídy přesnosti dle ČSN Střední souřadnicová chyba 1 ± 0,04 m 2 ± 0,08 m 3 ± 0,14 m 4 ± 0,26 m 5 ± 0,50 m Pro zlepšení polohové přesnosti jsou v jednotlivých zemích (Rakousko, Bavorsko, Irsko, Severní Irsko) realizovány programy, které zajistí převod regionálních i národních mapových dat do nových zobrazovacích mapových systémů, případně pro provádění lokální adjustace na kontrolní body. Podobně i UK řeší problém zlepšení přesnosti vektorových dat velkého měřítka v rurálních oblastech. Topografické mapování v rurálních oblastech bylo založeno na transformacích v 50tých letech, kdy se transformovaly mapování z lokálních souřadnicových systémů v každém okrese (county )do britského národního souřadnicového systému (British National Grid system). Zatímco původní polohová přesnost byla dobrá (±1.2 m RMSE), omezení při transformaci vedly k přesnosti a na úrovni ±2.7 m RMSE. Nový program využívá zpřesnění GPS měření (Harding, 2006) Rozlišení Rozlišení dat představuje velikost nejmenší rozlišitelné jednotky nebo nejmenší reprezentovatelné jednotky. V případě snímků - leteckých, družicových - odpovídá rozlišení nejmenšímu objektu, který lze rozlišit. Někdy se také používá termín prostorové rozlišení (spatial resolution). Pro kamerové systémy se obyčejně udává rozlišení v řádcích na mm (lines/mm). Typickou hodnotou pro letecké mapovací kamery je 80 l/mm.

55 U digitálních skenovacích systémů jako jsou senzory družic, se prostorové rozlišení definuje jako velikost území, které je zachyceno na 1 pixelu. Příklady prostorového rozlišení u družicových skenerů - např. TM 30m a 120 m, ETM 15 m, Ikonos PAN 1 m, QuickBird PAN cm. Obrázek 12 Prostorové rozlišení pro rastrový datový model V případě tematických map jako jsou půdní mapy, mapy využití území (land use) či mapy jiných kategorizovaných dat je potřebné nedefinovat rozlišení pomocí rozměru pixelu, ale jako elementární mapovací jednotka (minimum mapping unit), která vyjadřuje velikost nejmenšího reprezentovaného objektu. Proces rozhodování o velikosti elementární mapovací jednotky (tedy nejmenším zahrnutém objektu) probíhá při tvorbě tematické mapy. Závisí na účelu mapy, přesnosti dat apod. Obrázek 13 elementární mapovací jednotka (minimum mapping unit) jako velikost nejmenšího reprezentovatelného objektu Ukládání dat a prezentace informací probíhá v GIS odděleně. Uložená geografická data mohou být principiálně zobrazena v libovolném měřítku. Popisy a další části mapové kompozice se připojují až při tvorbě výstupu a jejich velikost se přizpůsobuje měřítku výstupu. Pokud bychom přijali tezi, že geografická data nejsou vázána na žádné měřítko, bylo by možné zvolit velmi malou elementární mapovací jednotku a to i pro velké oblasti. Uvedený přístup možného zobrazování geografických dat lze přijímat pouze teoreticky. Reálně je nutné vycházet z měřítka, ve kterém byla data pořízena (např. měřítko mapy, která byla digitalizována), protože nám udává úroveň přesnosti a rozlišení získaných dat. Za data existující v GIS reálně v měřítku 1:1 lze považovat data získaná z měřických terénních přístrojů (včetně GNSS). Vykreslování map v měřítku větším než je měřítko, ve kterém byla data pořízena, nelze doporučit. Výjimečně se provádí např. v případě, že chceme použít v tematické mapě jako podklad hrubou generalizovanou topografickou skutečnost a využívá se faktu, že mapy malých měřítek jsou více generalizované (Aronoff, 1989).

56 Řada programových systémů umožňuje definovat rozmezí zvětšení, ve kterém budou příslušnou vrstvu zobrazovat, a tím respektovat měřítko pořízení dat Přesnost atributů Atributová přesnost se také označuje jako sémantická přesnost. Atributová přesnost (attribute accuracy) je přesnost záznamu informací reálného světa pomocí atributů (Harding, 2006). Zahrnuje hodnocení přesnosti atributů jako klasifikace geoprvků, jejich názvy, popis nebo popis změn v historii. Hodnota atributu je výsledkem měření nebo interpretace, pocházející z různých přímých lidských pozorování (Servigne et al., 2006). Sémantická přesnost je definována jako rozdíl mezi měřením a jiným srovnatelným měřením vyšší kvality (přesnosti) (obr. 14). Protože zpravidla neznáme pravé hodnoty, srovnáváme s referenčními údaji ( správné hodnoty) (Servigne et al., 2006). Jak známo, v atributech se mohou objevit hodnoty výčtové (nominální), pořadové, intervalové nebo poměrové. Viz měření u nich (Horák, 2013). Výčtové a pořadové odpovídají diskrétním proměnným, zatímco intervalové a pořadové spojitým. Obrázek 14 příklad sémantické nepřesnosti (semantic inaccuracy) (Servigne et al., 2006) Vysvětlivky: nominal ground modelová realita, dataset to qualify datová sada určená pro kvalifikaci Diskrétní proměnná nabývá konečného počtu hodnot, zatímco spojitá proměnná libovolných hodnot (např. teplota, hustota populace, nadmořská výška) v rámci určitého intervalu. Pro posouzení přesnosti spojitých atributů se používá stejných metod jako u polohové přesnosti. Jinak je tomu o diskrétních proměnných, kde se aplikují metody posouzení klasifikační přesnosti, tedy proporcionální přesnost. Obrázek 15 Ukázky chyb v atributech v názvu objektů a jeho klasifikaci.

57 Klasifikační přesnost je pravděpodobnost, že třída přidělená místu odpovídá třídě, která by mohla být nalezena v reálném světě. Posuzování klasifikační přesnosti je dobře známo z hodnocení dat DPZ, kdy je prováděná interpretace ověřována terénní rekognoskací. Chyby v klasifikaci mohou být prezentovány ve formě kontingenční tabulky. Chybná klasifikace leží mimo hlavní diagonálu. Nutné je i expertní posouzení, které z chyb jsou závažné pro další interpretaci (některé chyby v určení nejsou závažné, protože nevedou v dané aplikaci k chybnému rozhodnutí). Obrázek 16 Mapovaný (vlevo) a skutečný (vpravo) pokryv území Tabulka 8 Kontingenční tabulka pro hodnocení přesnosti klasifikace DPZ Skutečnost Mapováno V posledním sloupci jsou proporcionální chyby z nesprávného zařazení, kdy jsou jako chyby označeny případy, kdy mapované objekty (pixely) byly ve skutečnosti (ve vzorku) něco jiného. Např. u smíšeného lesa bylo celkem 19 chyb (3 pixely byly ve skutečnosti jehličnatým lesem a 16 listnatým lesem). V posledním řádku jsou proporcionální chyby z opomenutí - vzorky byly mapovány jako jiná kategorie. Proti realitě bylo např. 5 pixelů jehličnatého lesa špatně klasifikováno. Celková proporcionální chyba je 0.19 (19%). Problematika klasifikační přesnosti je dosti komplexní a není zcela objektivní, což vyplývá mimo jiné z ovlivnění přesnosti faktory jako je: počet tříd, tvar a velikost jednotlivých oblastí (čím větší a čím kulatější oblast, tím je identifikace spolehlivější), způsob výběru testovacích bodů. Např. pokud provedeme náhodný nebo pravidelný výběr bodů v celé oblasti a získáme

58 jen velmi málo vzorků pro třídu např. mokřiny (tvoří-li např. jen 1% plochy území), těžko budeme posuzovat správnost klasifikace pro tuto třídu. U takových případů můžeme mít problémy i s vlastním ověřením správnosti klasifikace v terénu, je-li sledované místo příliš malé. Současně jsou problémy i se splněním předpokladu nezávislosti vzorků, protože jednotlivé třídy spolu souvisí. Ideálně by měla být každá třída na mapě testována zvlášť. Je třeba připomenout, že v přesnosti atributů se projevuje řada problémů. Nejednoznačnost definice třídy může mít charakter konfliktu, kdy různé zdroje, různé autority udávají různou definici tříd, nebo nespecifičnosti, kdy není jednoznačné zařazení prvků do tříd. Máme-li k dispozici více variant interpretace, můžeme si nechat vykreslit nejpravděpodobnější výslednou interpretaci (modus hodnoty např. operace LocalMajority) a současně vykreslit mapy věrohodnosti identifikace (nejvyšší spolehlivost je v místě shody klasifikace ze všech variant, nejnižší spolehlivost v místě nejvyšší variability identifikace). Dalším problémem je vágnost ve vymezení tříd, v neexistenci ostrých hranic, tvorbě přechodů. V přírodě např. neexistuje tak ostrá hranice jako na mapě, ale např. přechodná zóna "okraj mokřiny" šířky 10m (navíc závislá na čase podle vývoje hladiny spodní vody). Aronoff (1989) proto mluví vedle klasifikační přesnosti i o identifikační přesnosti (jak často byl přidělen správný atribut) a diskriminační přesnosti (přesnost v oddělení sousedních typů) Logická konzistence Logická konzistence vypovídá o tom, jak dobře jsou udržovány logické vztahy mezi objekty. Logická konzistence kontroluje míru rozporů vůči deklarovaným logickým pravidlům. Trochu užší pojetí říká, že se vztahuje ke všem logickým pravidlům, které řídí struktury a atributy geografických dat a popisuje kompatibilitu mezi datovými sadami (Servigne et al., 2006). Ještě užší vymezení používá Harding (2006), podle kterého je logická konzistence měřením stupně, do jakého datová logika a syntaxe souhlasí (complies) s datovou strukturou definovanou v datové specifikaci. Např. kontrola kvality pro logickou konzistenci používaná v OS pro vektorová data velkého měřítka zahrnují kontrolu topologické konzistence (např. kontrola volných konců linií, počáteční a koncový bod polygonu musí mít stejné souřadnice atd.), validitu datové struktury a validitu hodnot. Datová sada je považována za konzistentní na logické úrovni, pokud respektuje strukturní charakteristiky vybraného datového modelu a pokud je kompatibilní s omezeními atributů definovaných v datech. Devillers, Jeansoulin (2006) k tomu přidává i požadavek na dodržení logických vztahů. Existuje několik úrovní logické konzistence, od jednoduchého logického ověření rozsahu hodnot atributů až po specifická pravidla konzistence, založená na geometrii (např. je obvod polygonu správně uzavřen?) nebo na logickém prostorovém vztahu (omezení topologické integrity příklad: každá linie sítě musí být připojena přes vrchol k další linii) (Servigne et al., 2006).

59 Konzistence nám umožňuje mimo jiným verifikovat (Servigne et al., 2006), zda: Objekty popsané v geografické databázi přesně respektují realitu. Topologie a prostorové vztahy jsou reprezentovány a respektovány. Použité proměnné se blíží vhodným hodnotám (limitní hodnoty, typy atd.) Datový soubor je konzistentní. Tento aspekt může být rozšířen na spolehlivost média, na kterém je soubor uložen. Obrázek 17 Ověřování logické konzistence (uzavření polygonu, topologické spojení linií) (Servigne et al., 2006) Vysvětlivky: nominal terrain realita, dataset to qualify datová sada určená pro kvalifikaci Nezajištění logické konzistence objektů vede k problémům při zpracování (např. nedokonalý překryv). Porušení logické konzistence se může objevit v důsledku těchto faktorů: různá měřítka originálních map různé rozlišení různé stáří jednotlivých datových vrstev rozdílný klasifikační systém různé metodické postupy při tvorbě mapy. I malé odchylky v polohové přesnosti (zcela v mezích požadované přesnosti) se při překryvu vrstev mohou jevit jako logická nekonzistence vznikem překryvů nebo naopak tenkých "prázdných" štěrbin mezi 2 objekty (odštěpek = sliver). Některé programy pro GIS jsou schopny tyto problémy řešit vytvořením pásu neurčitosti mezi objekty, který jejich okraje překrývá (tzv. fuzzy boundary).

60 Logickou konzistenci je vhodné zajišťovat již před vlastním vstupem dat, kdy např. při překreslení podkladů je možno stav kontrolovat a provádět úpravy (tento proces se někdy označuje jako konflace) Sémantická konzistence Významově blízká logické konzistenci je také sémantická konzistence (semantic consistency). Někteří autoři chápou sémantickou konzistenci jako nadřazený pojem (zahrnuje i logickou konzistenci) část z těchto sémantických problémů je možné označit za porušení logických pravidel a tedy porušení logické konzistence. Koncept sémantické konzistence vyjadřuje kvalitu, se kterou jsou popsány geografické objekty ve srovnání s použitým modelem (Servigne et al., 2006). Tento aspekt kvality se více vztahuje k relevanci významnosti geografických objektů než k jejich reprezentaci (Salgé, 1995, in Servigne et al., 2006). Sémantická konzistence má proto velký význam pro určení vhodnosti použití. Cílem ověřování sémantické konzistence se provádí pomocí měření sémantické vzdálenosti mezi geografickými objekty a nominal ground (modelová realita) (Servigne et al., 2006). Musíme rozlišit mezi pohledem producenta a uživatele. Producent má poskytnout specifikaci sémantického obsahu databáze (zejména specifikace, které definují modelovou realitu (nominal ground), model, podmínky výběru apod.) a současně poskytnout informaci o sémantické kompatibilitě (semantic performance), tj. o úrovni shody s výše definovanými sémantickými omezeními). Pro uživatele je cílem definovat vhodnost těchto dat pro své požadavky. Znalost specifikací je důležitá zejména ze sémantického pohledu (Servigne et al., 2006) shodují se uživatel a producent na vymezení jevu (např. obsahuje třída nemocnice také kliniky)? Podle Puricelli (2000, in Servigne et al., 2006) mohou být rozlišeny 2 úrovně specifikace: Geometrická, která definuje tvar a polohu objektů (přitom platí jak pro rastrový tak pro vektorový model) Sémantická, která popisuje objekty. Při tvorbě sémanticky konzistentních dat se uplatňují výběrová kritéria, která definují např. vstupní podmínky (minimální velikost entity), agregační operace a jejich parametry (všechny pole s plodinami budou uloženy a sloučeny do zemědělských zón) (Servigne et al., 2006). Extrakce představuje transformaci entit reálného světa do objektů, atributů, polí v rámci vybraného modelu a data (Servigne et al., 2006). Při hodnocení sémantické konzistence narážíme na problémy vágnosti a nejednoznačnosti. Sémantická konzistence zahrnuje oblast logické konzistence (datová omezení), časové konzistence (nekonzistentní datumy), a sémantické přesnosti (sémantické nekonzistence ve formě např. klasifikační chyby) (Servigne et al., 2006). Sémantická konzistence je složena z několika parametrů, které nelze jednoduše rozlišit. Flagrantní chyba (např. dům v jezeře) je sémantickou nekonzistencí, ale může být způsobena časovou chybou (změnily se břehy

61 jezera), logickou nekonzistencí (nebyly vztahy v úvahu domy na pilotech) nebo chyba úplnosti (zapomnělo se na ostrov) (Servigne et al., 2006). Obrázek 18 Příklad sémantické nekonzistence (Servigne et al., 2006) Vysvětlivky: nominal ground modelová realita, dataset to qualify datová sada určená pro kvalifikaci Úplnost dat Z hlediska dodavatele dat je úplnost měřením stupně, do jakého obsah dat koresponduje s reálným světem podle specifikace pořizování (capture) dat, pokrytí datové sady a úrovně aktuálnosti požadované dle aktualizační politiky (Harding, 2006). Nesoulad může být měřen kvantifikací počtu vynechání (omission, chyba II.druhu), kdy některé entity reálného světa odpovídají specifikaci pro záznam do digitálního modelu, ale přitom v něm chybějí, a nadbytečnosti (comission, chyba I.druhu), kdy naopak některé geoprvky existují v datech, ale neodpovídají specifikaci pořizování dat (obr. 19). Srovnání objektů v databázi se všemi objekty univerzu diskurzu (ideální stav transformace a zápisu všech reálných objektů do modelu, tedy úplný model) vyžaduje formální popis obou těchto datových sad (Servigne et al., 2006). Je třeba zdůraznit, že úplnost databáze (či mapy) může být vyhovující pro jeden účel, ale ne pro jiný, závisí tedy na vymezené doméně. Proto je tento prvek kvality ve vztahu k vhodnosti použití. Navíc je tu ještě jeden rozpor. Zatímco informace o kvalitě dat (úplnosti dat) je poskytována zpravidla producentem dat, informace o vhodnosti použití je běžně charakterizována dobou nutnou k přípravě pro užití datové sady. Navíc během životního cyklu datové sady je zpravidla informace o kvalitě (vč. úplnosti) poskytována pouze jednou, na začátku producentem, zatímco hodnocení vhodnosti použití je prováděno pro každou aplikaci (Servigne et al., 2006).

62 Obrázek 19 Příklady vynechání pravých a přidání klamných objektů (B omissions, C commissions) (Servigne et al., 2006) Vysvětlivky: nominal ground modelová realita, dataset to qualify datová sada určená pro kvalifikaci Úplnost je možné zkoumat následujícími otázkami (Servigne et al., 2006): Je pokrytí zóny úplné? Je počet modelovaných objektů stejný jako počet objektů definovaných v modelu? Mají modelované objekty správný počet atributů a jsou všechny hodnoty přítomny? Jsou všechny entity v realitě reprezentované v modelu? Je všechno, co je zahrnuté v konceptuálním modelu, také přítomno v databázi? Můžeme rozlišit 2 typy úplnosti (Servigne et al., 2006): úplnost dat (data completeness), která se určuje na základě hodnocení výskytu vynechání správných a přidání klamných objektů vůči modelu (tj. srovnává se mezi datovou sadou a ideálním modelem, tj. univerzem diskurzu) a která je měřitelná a nezávislá na aplikaci. úplnost modelu (model completeness) je hodnocení rozdílů mezi abstrakcí světa odpovídající datové sadě a abstrakcí světa odpovídající cílové aplikaci, preferovaně z hlediska vhodnosti použití (je model dostatečně bohatý, aby vyhověl požadavkům aplikace?). Nedá se měřit, zpravidla se jen slovně vyhodnotí. Aronoff (1989) ji označoval jako úplnost klasifikace s poněkud užším vymezením, kdy určoval, jak dobře lze pomocí zvolené klasifikace reprezentovat data. Vymezení tříd by mělo pokrývat celý možný rozsah. Např. pokud rozčleníme "dobytek" na třídy "krávy", "býci", "ovce", nebudeme schopni nikde začlenit "koně". Pokud zde zařadíme třídu "ostatní", je opět na našem posouzení, zda je vyhovující zařazení koní do "ostatních". Jiný problém představuje vágnost hranic, např. situace, kdy vymezené třídy tvoří spolu postupné přechody. Např. rozdělení lesního porostu na třídy "jehličnatý", "listnatý" a "smíšený" vede k problémům definice rozhraní mezi třídami -

63 les, který je z 35% jehličnatý, bude řazen do třídy listnatý nebo smíšený? Při detailnějším vymezení (např. třídy po 10 % jehličnanů v lese) budou problémy s nekonzistencí, protože např. tak detailně nejsme schopni les z letecké fotografie klasifikovat. Samozřejmě i zde se objevuje problém nejednoznačnosti. Definice tříd se může lišit mezi jednotlivými mapovými listy v důsledku práce rozdílného interpretátora. Výsledná mapa může mít výbornou polohovou přesnost a klasifikaci, ale hranice sousedních listů budou poznamenány závažnými nesrovnalostmi. Pokud známe přesně způsob provedení klasifikace, můžeme teoreticky provést reklasifikaci a sjednotit listy map. Datovou úplnost dále dělí na (Servigne et al., 2006): formální úplnost (formal completeness) týkající se datové struktury, tedy syntaxe, kompatibility se standardy a používanými formáty, přítomnost povinných metadat) objektová úplnost (object completeness), která zahrnuje úplnost atributů (attribute completeness), geografickou úplnost (pokrytí) a úplnost vztahů (completeness of relationships). Někdy může být vhodné použít nejnovější data, která jsou ale dostupná jen v části území (a použijí-li se zbytkem starého podkladu, pak jsou vůči němu nekonzistentní), a někdy naopak lepší použít data starší, dobře vykrývající celou oblast, která jsou konzistentní. Obrázek 20 Neúplné pokrytí listu mapy

64 Obrázek 21 Neúplnost atributů (druhý sloupec obsahuje řadu prázdných hodnot) Úplnost geografického pokryvu úzce souvisí i s problémem generalizace map. Je jasné, že použijeme-li jako zdroj mapu měřítka 1:50000, bude obsahovat jen některé objekty (díky generalizaci) ve srovnání s mapou 1:5000. Např. shluk domů může být reprezentován v malém měřítku jako 1 dům (blok zástavby). Aronoff (1989) ještě vyznačoval v rámci úplnosti stupeň verifikace, ale ten je třeba řadit do metakvality (viz příslušná kapitola) Aktuálnost dat Aktuálnost dat (currency) popisuje, jak aktuální jsou data. Podle Harding (2006) je to parametr udávající, jak dobře je objekt reálného světa aktuálně popsán v datech. Aktuálnost pak může být vyjádřena pomocí sémantické přesnosti, atributové přesnosti, úplnosti či konzistence (Harding, 2006). Podle Servigne et al. (2006) reprezentuje aktuálnost (timeliness) časový posun (offset) mezi vytvořenou datovou sadou a modelovou realitou (nominal ground) určenou k referenčnímu datu T. Může být charakterizována intervalem validity pro datovou sadu. Zpravidla se ale časový aspekt kvality dat se nejčastěji vyjadřuje uvedením datumu pořízení dat (např. snímku). Mezi časovým aspektem a jinými prvky kvality existuje celá řada vazeb (Servigne et al., 2006): Rodokmen obsahuje řadu časových informací (společně s popisem změn) Geometrická přesnost a časová informace někdy vysvětlí chyby Sémantická přesnost a pro detekci nekonzistencí Úplnost je posuzována jen pro entity časově konzistentní Logická konzistence - je posuzována jen pro entity časově konzistentní Sémantická konzistence měření sémantické konzistence časového aspektu v databázi dovoluje hodnocení citlivosti (responsiveness) aktualizace databáze ve vztahu ke změnám reálných jevů.

65 Aktuálnost dat je kritickým faktorem pro mnoho druhů geografické informace. Příkladem mohou být demografická data nebo data o využití země, která se mohou výrazně v průběhu roku změnit. Data mohou být také výrazně závislá na časovém intervalu (např. sezóna), ve které byly sbírány. Způsob řešení časových aspektů závisí na typu jevu. Některé třídy entit se znovu vkládají do databáze ve víceméně pravidelném intervalu (např. letecké snímkování), jiné vyžadují sledování celé historie (katastrální mapy) a některé mají smíšený charakter např. fixní jev (fixní poloha) s pravidelně se měnícími atributy (teplotní čidlo), nebo se jeho hranice mění (politické hranice, linie pobřeží) (Servigne et al., 2006). Perioda aktualizace závisí na oboru a na požadavcích. Např. v lesním hospodářství může být dostačující perioda aktualizace 5-10 let. Zemědělské podmínky se mění rychleji, a proto vyžadují podstatně častější aktualizaci. Jiná je situace v oborech, kde dochází k rychlým změnám v čase a je nutná "průběžná" aktualizace (např. městské systémy 2-3 týdny). Pak je výhodné použít systémů, které aktualizaci provádějí automaticky a rovněž i automaticky provádí ukládání data aktualizace. Podle Ordnance Survey jsou objekty rozděleny do 2 kategorií podle časové periody aktualizace významné geoprvky jsou aktualizovány do 6 měsíců od jejich vzniku v rámci kontinuální revize, zatímco málo významné geoprvky jsou aktualizovány v pětiletém (v případě hor či planin desetiletém) cyklu (Harding, 2006). Časový faktor se také může výrazně projevit v nekonzistenci dat. Časová konzistence (temporal consistency) může být součástí sémantické konzistence. Časová konzistence se týká datumu získání dat, datumu aktualizace dat a obdobími validity (validity periods) (Servigne et al., 2006). Různorodost zaznamenávaného času souvisí se 3 základními časy, které se v souvislosti s informačními systémy vyskytují: Logický čas (čas v realitě), kdy jev nastal v realitě (světový čas dle Rapant, 2002) Čas pozorování tohoto jevu (indikační čas dle Rapant, 2002) Transakční čas, kdy byl jev zaznamenán v databázi (systémový čas dle Rapant, 2002) Určení správného časového intervalu pro potvrzení validity databáze (intervalu aktualizace) závisí především na sledovaném jevu. Podobně i časová konzistence mezi objekty závisí na typu jevu. Komplexní jevy nebo jevy, které mají vnitřní vztahy, vyžadují velmi dobrou časovou konzistenci (zejména topologické struktury, např. silniční síť), zatímco nezávislé entity ji nevyžadují (např. typicky individuální geoprvky jako jsou rozcestníky) (Servigne et al., 2006).

66 Udržování požadované časové informace vyžaduje přidání jednoho či více atributů pro objekty a vztahy. Udržování časové konzistence však vyžaduje více zpravidla verzování dat. Modifikace nemůže být omezena na přepsání novou částí dat, ale měl by se změnit pouze příznak validity starých dat (na neplatný, předchozí segment uliční sítě) a nová data by měla obsahovat odkaz na stará data (např. který silniční segment byl dříve platný) (Servigne et al., 2006) Rodokmen dat Pod pojmem rodokmen dat (historie, původ dat) (lineage) rozumíme historii dat, tedy popis zdroje dat a postupu při jejich sběru a základních úpravách před jejich uložením do databáze GIS, až po reprezentaci digitálních dat. Clarke, Clark (1995, in Servigne et al., 2006) identifikuje následující požadované informace pro rodokmen: Zdroj dat, původ, oblast (reference domain, např. geologie), charakteristiky prostorových dat, souřadnicové a zobrazovací systémy, a odpovídající korekce a kalibrace. Pořizování, kompilace a odvozování: hlavní hypotézy použité pro pozorování, kalibraci a korekce. Např. georeferencování nebo aplikace na určitou doménu, popis metod použitých pro interpretaci, interpolaci nebo agregaci dat. Konverze dat: definice konverzních procesů, např. kroky při vektorizaci rastrových dat, při digitalizaci, při fotogrammetrickém vyhodnocení. Zpracování dat: údaje o jednotlivých krocích zpracování dat. Transformace nebo analýzy: transformace souřadnic, generalizace, posuny, reklasifikace a všechny definované, pokud možno, pomocí přesných matematických výrazů. Všechny použité parametry by měly být jasně definované, protože tyto transformace mají zásadní dopad na vytvářená data. Parametr je často popisován formou volného textu, kde jsou postupně popsány potřebné informace (Servigne et al., 2006). Jejich pořizování je pracné a často velmi obtížné, přesto tento typ informací je nejužitečnější, ne-li nepostradatelný (Servigne et al., 2006). Např. u topografické mapy může taková dokumentace zahrnovat datum použitých leteckých snímků, fotogrammetrické metody pro vykreslování izolinií a zákres objektů, použití kontrolních bodů, metodu tvorby finální mapy. Každý zdroj dat a každý způsob jejich sběru zavádí do dat určitou úroveň chyb. V některých případech může znalost rodokmenu dat významně ovlivnit rozhodování o použití dat. Někdy jsou považovány zvláště údaje o postupu při zpracování dat za důvěrné a nesdělují se. V ideálním případě by měla být určitá informace o rodokmenu dat včleněna přímo do datového souboru a být zcela veřejná.

67 4.1.9 Jednoduchost dat Jednoduchost a transparentnost dat ovlivňuje zejména dostupnost z pohledu snadnosti využití dat a nepřímé náklady. Na rozdíl od dostupnosti, která je typicky uživatelskou složkou (závisí na účelu uživatele) je jednoduchost objektivní vlastností datové sady bez ohledu na účel. Jednoduché struktury dat a jednoduchý obsah dat posilují porozumění datům, urychlují jejich využití a zmenšují rizika špatné interpretace. Transparentnost je spojena se snadností čtení dat (např. textové formáty či jiné snadno čitelné formáty napomáhají využití). Transparentnost je spojena i s interoperabilitou data splňující požadavky interoperability jsou snadno použitelná Dostupnost dat Dostupnost (přístupnost) (accessibility) odpovídá snadnosti získání a využití dat. V některých případech je vhodnější hovořit o přístupnosti dat, jako obecnějším faktoru. Dostupnost dat je omezována z řady důvodů od majetkových vztahů, utajení skutečností, ochrany osob a jejich majetku (individuálních svobod) až po politické embargo. Dostupnost a přístupnost jsou typické uživatelské složky závisí na konkrétní organizaci a účelu použití. Data mohou být veřejně přístupná a přesto pro danou organizaci nedostupná díky jejím nedostatečným vnitřním lidským a technickým zdrojům (např. nemá smysl kupovat družicový snímek, není-li člověk, který je schopen provést jeho interpretaci) Cena dat Přímé náklady odpovídají hodnotě nákupu dat u jiné organizace. Na ceně dat (přímých nákladech) závisí možnosti použití dat v organizaci. Jestliže byla data pořizována uvnitř organizace, jejich reálná cena může být zastíněna. Oceňování takto pořízených dat může být velmi problematické (lidé i zařízení pracuje současně i na jiných úkolech apod.). Nepřímé náklady zahrnují časové a materiálové náklady nutné k plnému využití dat. Po nákupu dat se mohou zaměstnanci dlouho učit, jak s nimi zacházet a jak je využít, data mohou být nekompatibilní s jinými používanými daty nebo se zakoupeným programovým vybavením. Tyto dodatečné nepřímé náklady mohou být podstatně vyšší než přímé náklady a mohou determinovat využitelnost dat Metakvalita Vedle hodnocení kvality dat je přirozené, že se provede i hodnocení kvality informace, s jakou jsou prvky kvality dat popsány (Servigne et al, 2006, s ). Mluvíme o metakvalitě (meta-quality). Již Aronoff (1989) popisoval v rámci úplnosti dat tzv. stupeň verifikace, který odpovídá věrohodnosti dat, ověřované množstvím a distribucí polních měření nebo jiných nezávislých zdrojů informace. Geologové tento aspekt kvality vyjadřují na geologických mapách formou zákresu např. u linií - ověřené linie (polními pracemi, důlní činností, tedy maximálně věrohodné) vyznačují plnou čarou, méně ověřené (např. z vrtů nebo jiných bodových měření)

68 čárkovanou čarou a neověřené, tj. předpokládané linie se zakreslují tečkovaně. Podobné vyjádření stupně spolehlivosti dat však není obecně zavedeno, proto se doporučuje doplňovat alespoň jako atributovou hodnotu k jednotlivým geografickým prvkům. Nejdůležitější z indikátorů metakvality jsou (Servigne et al, 2006): Datum zpracování popisu kvality dat Hodnocení použité metody (testovaná, vypočítaná, odhadovaná) Velikost populace (vzorku), ze kterého byla charakteristika určena Datum zpracování popisu kvality dat může být řešeno ad hoc (např. při provedení auditu) nebo může být ověřování kvality dat kontinuální (např. u systémů, které mají zabudovaný mechanismus ověřování integrity dat pomocí triggerů). K běžným problémům při určování kvality dat patří problematická spolehlivost použit metody z důvodů (Servigne et al, 2006) používání limitních hodnot, kvalita algoritmu, metoda propagace apod. Populace použitá v metodě hodnocení může záviset na metodě hodnocení. Někdy se hodnotí celá populace (všechny prvky v datové sadě), jindy se aplikuje jistý typ vzorkování. Celá populace může být dělena (partition) podle času (např. hodnocení kvality nových entit během posledních dvou měsíců, hodnocení kvality entit, které jsou 3 až 5 let staré) nebo podle území (např. zpracování určité administrativní jednotky). CEN ISO identifikuje 3 hlavní prvky metakvality metadat: jistota (confidence) popisuje správnost (accuracy) informace o kvalitě (prvcích kvality dat). Vztahuje se především k použitým metodám a jejich spolehlivosti, v menší míře k velikosti a typu použité populace. homogenita (homogeneity) textový nebo kvalitativní popis očekávané nebo testované jednotnosti (uniformity) kvalitativních parametrů v sadě geografických dat. Datová sada může být výsledkem jednorázového procesu pořízení nebo výsledkem kombinace různých technik (letecké snímky, digitalizace z map, GPS měření atd.). Homogenita závisí hlavně na populaci, použité při hodnocení. Homogenita nemůže být ověřena, pokud se hodnotí celá populace. Pro hodnocení homogenity je nutné populaci rozdělit do několika částí a srovnat výsledky hodnocení kvality dat v jednotlivých částech (při použití stejné metody) mezi sebou. Testy homogenity se používají zejména v situaci, kdy jsou data pořizovány různými operátory, v závislosti na zóně a datu pořízení. spolehlivost (reliability) popisuje pravděpodobnost, s jakou vzorkování dat použité pro hodnocení kvality je reprezentativní pro celou datovou sadu. Statistická metoda, založená na vzorkování, může být považována za spolehlivou globální metodu, pokud

69 jsou pokryty všechny geografické zóny a všechny dotčené časové období a populace je dostatečně velká. 4.2 Standardizace kvality dat Parametry kvality se částečně překrývají, což stěžuje určení původu chyb. Např. na obr. 22 dvě datové sady reprezentují totéž území. Ve druhé chybí jeden geoprvek, k čemuž mohlo dojít v důsledku 3 různých typů chyb (Servigne et al., 2006): Chyba geometrické přesnosti a (ruiny jsou příliš vlevo) spojená s chybou úplnosti (dům chybí) Klasifikační chyba, konkrétně sémantická přesnost a (dům byl klasifikován jako ruina) společně s chybou úplnosti (ruina chybí) Dvojitá chyba časové přesnosti a ruina zmizela a dům se změnil na ruinu. Obrázek 22 Situace pro klasifikaci případů chyb (Servigne et al., 2006) (dům a ruiny u řeky) Hodnocení kvalitativních parametrů je pro uživatele užitečné, ale mělo by být snadno dosažitelné (Servigne et al., 2006). K tomu směřuje standardizace parametrů kvality a jejich měření. Standardizace kvality dat, vhodně definovaná, testovaná a certifikovaná může chránit jak uživatele geografických informací, tak jejich producenty. Producenti geografických informací se totiž potřebují bránit nesprávnému (v rozporu s předpokládaným účelem používání) používání jejich produktů. FGDC definuje 5 základních komponent kvality: atributovou přesnost, polohou přesnost, logickou konzistenci, úplnost a

70 rodokmen dat. Otázkami standardizace kvality dat se zabývá rovněž Evropská komise standardizace (CEN) a ISO. Technická komise CEN definovala následující aspekty kvality: rodokmen dat (lineage) - popisuje historii dat včetně popisu zdroje, použitých transformací a zodpovědné (autorské) organizace přesnost a (accuracy) - pravděpodobnost správného přiřazení hodnoty schopnost abstrakce (ability for abstraction) - měření, jak dobře může být reálný objekt světa definován v abstraktním obraze světa úplnost (completeness) - rozdíl mezi abstraktním obrazem světa a datovým souborem v daný čas spolehlivost (reliability) - kvalitativní měření kvality parametrů a pravděpodobnost detekce hrubých chyb aktuálnost (currency) - aktuálnost aspektů kvality pro celý datový soubor Standardy kvality, vyžadované pro data v databázi GIS, a metody pro její měření musí být definovány před začátkem pořizování dat. Standardy kvality dat musí sloužit potřebám uživatelů, proto se uživatelé musí podílet na jejich konstituování tak, aby byly v korelaci s praktickými omezeními, jako jsou náklady, technické možnosti, množství produkce apod. Podrobnější popis standardizace metadat je uveden v příloze A. 4.3 Ukládání popisu kvality dat Informace o kvalitě dat by měly být připojeny ke každé datové sadě, každému souboru. Z hlediska formy můžeme prvky kvality prostorových dat zapisovat ve formě metadat nebo doprovodných datových sad. Metadata mohou být uložena v databázi ve formě systémových atributů, v textových souborech, v XML apod. Typický obsah metadat je uveden např. u popisu ZABAGED. Jiná data vyžadují uložení podstatně většího množství informací. Např. u geochemických dat by mělo být v metadatech detailně uvedeno datum sběru, kdo sbíral vzorky, popis vzorkovací metody, příprava dat, popis analytických prací, název laboratoře, kde byly vzorky zpracovány.

71 Obrázek 23 Ukázka metadat uložených v systému MIDAS (Horáková et al., 2003) Shrnutí: Kvalita dat se prakticky popisuje metadaty. Metadata je možné rozdělit na mikrosložky, makrosložky a uživatelské složky. Polohová přesnost a je očekávaná odchylka geografické lokalizace objektu v datovém souboru od jeho správné polohy. Zpravidla se vyjadřuje pomocí střední souřadnicové chyby RMSE. Rozlišení dat představuje velikost nejmenší rozlišitelné jednotky nebo nejmenší reprezentovatelné jednotky, často se jednoduše udává rozměrem pixelu. Atributová přesnost je přesnost záznamu informací reálného světa pomocí atributů (někdy sémantická přesnost). Kvalitativní atributy se hodnotí pomocí proporcionální chyby (resp. klasifikační přesnosti). Logická konzistence udává míru shody s deklarovanými logickými vztahy mezi objekty. Sémantická konzistence vyjadřuje kvalitu, se kterou jsou popsány geografické objekty ve srovnání s použitým modelem, resp. modelové reality. Úplnost je měřením stupně, do jakého obsah dat koresponduje s reálným světem podle dané specifikace, a je úzce vázaná na účel. Hodnotí se počet případů nadbytečnosti (chyba I.druhu) a vynechání (chyba II.druhu). Aktuálnost dat popisuje, jak aktuální jsou data. Rodokmen dat představuje popis celé historie dat, od zdroje až do daného stavu popisovaných dat. Jednoduchost a transparentnost dat ovlivňuje zejména dostupnost z pohledu snadnosti využití dat a nepřímé náklady. Cena dat zahrnuje přímé i nepřímé náklady. Metakvalita hodnotí kvalitu informace, s jakou jsou prvky kvality dat popsány. Patří se zejména jistota, homogenita a spolehlivost určení prvků kvality.

72 Kontrolní otázky: 1) Má být popis kvality dat co nejdokonalejší? 2) Co to jsou mikrosložky kvality dat? 3) Co jsou uživatelské složky kvality dat? 4) Co je geometrická přesnost? 5) Co je geometrická věrnost? 6) Co je relativní přesnost? 7) Jak rozlišuje střední chyba mezi systematickou a náhodnou chybou? 8) Jaká je povolená střední souřadnicová chyba pro 3.třídu přesnosti dle ČSN ? 9) Jak se udává rozlišení u leteckých kamer? 10) Uveďte typická prostorová rozlišení pro družicové systémy. 11) Co popisuje sémantická přesnost? 12) Co je proporcionální přesnost? 13) Jak vznikají chyby z nesprávného zařazení a jak z opomenutí? 14) Závisí klasifikační přesnost na počtu tříd? 15) Jak pojmenujete skutečnost, že datová sada respektuje určenou datovou strukturu (datový model) a je kompatibilní s omezeními atributů definovaných v datech? 16) Co sleduje sémantická konzistence? 17) Co znamená chyba I. a II. druhu z hlediska sledování úplnosti dat? 18) Jaký je rozdíl mezi úplností dat a úplností modelu? 19) Jaký je rozdíl mezi formální úplností a objektovou úplností? 20) Jak vyjadřujeme aktuálnost dat? 21) Proč dělíme geoprvky podle periody aktualizace? 22) Co musí obsahovat rodokmen dat? 23) Proč mají být data jednoduchá a transparentní? 24) Co zahrnují nepřímé náklady u dat? 25) Co je metakvalita a jak se popisuje? 26) Vysvětlete 3 hlavní složky popisu metakvality dat. 27) Jaké aspekty kvality dat vyžaduje popisovat CEN?

73 5 Organizace sběru dat Cílem kapitoly je vysvětlit metody sběru dat a jejich dopady na kvalitu výběru dat. Stručný obsah kapitoly: Hlavní metody výběru dat při výběrovém šetření Získáte znalosti o: Způsobech organizace sběru dat a tvorby vzorku Vlivu organizace sběru dat na kvalitu dat Budete umět: Posoudit vliv organizace sběru dat na kvalitu dat Budete schopni: Správně navrhnout organizaci sběru dat Času potřebný na nastudování kapitoly 30 minut. Prvním a zásadním krokem při pořizování dat je zvážení organizace jejich sběru. V některých případech je to jednoduché, protože je to dáno metodikou příslušného zdroje - např. snímání družicových dat. Pokud sami organizujeme sběr dat, je zpravidla tento krok velmi důležitý pro hodnotu získaných dat a systematické chyby, které vzniknou špatnou organizací sběru dat prakticky nelze následně zpracováním odstranit. K běžným technikám patří výběrové šetření. Výběrové šetření (survey) znamená shromažďování dat od určitého počtu jednotek, obyčejně v jednom časovém okamžiku, s cílem získat systematicky množinu kvantifikovatelných údajů

74 o určitém počtu proměnných, které se pak analyzují, aby se nalezly vztahy mezi nimi (Hendl, 2006). Hlavní metody výběru dat: 1) Výběr na základě dobrovolnosti používá se např. v průzkumech veřejného mínění. Jedinci z populace se sami rozhodují, zda odpoví nebo ne. Pravděpodobně na výzvu reagují jen vysoce motivovaní jedinci. Dobrovolníci mají často více extrémní názory (Hendl, 2006). 2) Výběr na základě dostupnosti jedinci jsou vybráni na základě dostupnosti a výhodnosti. Např. provádíme průzkum o nákupních zvycích ve sportovní prodejně a vybereme 100 jedinců na základě jejich dostupnosti v této prodejně v sobotu dopoledne. Nebo výzkum pacientů, kteří leží v dané nemocnici. Je ale možné, že se svými zvyklostmi a jinými charakteristikami liší od ostatní části populace (Hendl, 2006). 3) Kvótní výběr při tomto výběru mají tazatelé za úkol provést rozhovor s určitým počtem jedinců v několika různých kategoriích obyvatelstva. Za kategorie se volí např. věk, pohlaví nebo ekonomický status. Vychází se zpravidla z demografických informací o obyvatelstvu. Nedostatkem je subjektivní výběr jedince z dané kategorie tazatelem nevíme, zda nebyl něčím ovlivněn, zda některé typy nepreferuje (Hendl, 2006). 4) Náhodný výběr nejlepší pro statistické šetření, protože řada technik ho přímo vyžaduje. Představuje ideál, který je v praxi často neuskutečnitelný nebo obtížně uskutečnitelný. Měly by při něm být splněny následující podmínky (Hendl, 2006): a. každý prvek populace má známou pravděpodobnost, že bude do výběru zařazen. b. výběr je proveden pomocí metody, jež tuto pravděpodobnost výběru realizuje. c. pravděpodobnosti výběru prvků se uvažují při zpracování získaných dat. 5) Stratifikovaný náhodný výběr - pokud víme, že populace obsahuje různorodé subpopulace, je možné provést prostý náhodný výběr pro každou skupinu zvlášť. Podskupiny se označují strata neboli vrstvy. Podskupiny jsou voleny tak, že jsou více homogenní. Výsledky pro všechny skupiny pak tvoří výběr (Hendl, 2006). V případě GIS může být stratifikovaný náhodný výběr realizován na základě systematického rozdělení oblasti do pravoúhlých částí. V případě jiného požadovaného dělení nebo pokud nemá vzorkovaná oblast obdélníkový tvar, se používá následující procedura: a. určení plochy jednotlivých nepravidelných oblastí, výpočet jejich relativní, neboli proporcionální, plochy (daná oblast / celá plocha),

75 b. dělit požadovanou velikost vzorku proporcionální plochou. Dostaneme novou (větší) velikost vzorku tak, abychom se ujistili, že požadovaný počet bodů spadne do oblasti zájmu, c. necháme náhodně vygenerovat body v celém území (pro novou velikost vzorku) a použijeme jen ty body, které spadnou do oblasti zájmu. d. Spojíme všechny dílčí výběry bodů 6) Vícestupňový shlukový výběr - používá se pro získání informací o veřejném mínění, když např. chceme zjistit názory lidí z panelových sídlišť měst určité velikosti. Postupuje se např. takto (Hendl, 2006): a. vybere se náhodně vzorek okresů b. z takto vybraných okresů se v každém okrese náhodně vybere určitý počet měst o dané velikosti c. pro takto vybraná města se vybere náhodně vzorek jejich sídlišť d. z vybraných sídlišť se náhodně vyberou domácnosti, ve kterých se provede dotazování. V každé vrstvě shluků se provádí náhodný výběr. Je to velmi efektivní a méně nákladné, než klasický prostý náhodný výběr domácností ze sídlišť. Pro zpracování dat se někdy používají speciální techniky (Hendl, 2006). 7) Systematický výběr - začíná se soupisem a očíslováním prvků populace. Pak se provede rozhodnutí, jak z tohoto seznamu systematicky vybírat prvky. Např. vždy 1 prvek z 50. Zvolí se náhodně prvek z první padesátky a další pro výběr se určí připočtením 50. Musíme ovšem zajistit, aby primární přidělování čísel prvkům nebylo závislé na těch charakteristikách, které se mají zkoumat (Hendl, 2006). 8) Randomizace, strukturní homogenita - randomizace znamená proces přiřazování jedinců do experimentální a kontrolní skupiny či skupin. Tím se zajistí, že homogenní rozložení matoucích (rušivých) proměnných je ve skupinách podobné a bude se tím jejich vliv rušit (Hendl, 2006, s.62). 9) Latinské čtverce - latinské čtverce tvoří schéma pokusného zařízení, jehož se používá zejména při zemědělských experimentech a které umožňuje zcela zřetelně vyřadit náhodné výkyvy (Swoboda, 1977, s ). Při pokusech s novými druhy rostlin, s novými hnojivy apod. je vždy nebezpečí, že výsledky sklizní nedovolí spolehlivé závěry, protože i nepatrné rozdíly v jakosti půdy ovlivnily výsledky více než jakost nového druhu nebo nového hnojiva (obr. 24). Proto se používá takové uspořádání pokusu, které podobné nahodilosti vyřadí tím, že při pokusech např. se třemi druhy se veliké pole rozdělí na devět čtverců a dané tři druhy se vysadí tak, že v každé řadě a v každém sloupci je každý ze tří druhů. Jestliže druhy označíme písmeny A, B a C, vypadá schéma latinského čtverce takto (Swoboda, 1977):

76 A B C B C A C A B Obrázek 24 Příklad latinského čtverce pro testování 4 různých druhů (Swoboda, 1977) Pro čtyři druhy by muselo být k dispozici 42 = 16 čtverců, pro 6 druhů 36 čtverců atd. Pak se porovnají rozdíly mezi řádky, sloupci a druhy, a tím se může dalekosáhle rozlišit vliv půdních podmínek od vlivu druhů. Mimoto dává rozdíl z celkového rozptylu a mezi ještě jako zbytek rozdíly uvnitř, které vyjadřují náhodné faktory, k nimž se nepřihlíželo nebo které nebyly poznány (Swoboda, 1977). Schéma latinského čtverce není ovšem omezeno jen na zemědělství. Podobným způsobem lze mimo jiné provádět analýzu odchylek při výrobě, např. tak, že se nový výrobní postup porovná s dosavadním na třech různých strojích, které jsou střídavě obsluhovány třemi více nebo méně schopnými dělníky. Na základě tohoto pokusného schématu probíhají často také lékařské, biologické a psychologické experimenty a pomocí analýzy odchylek jako pak vyhodnoceny (Swoboda, 1977). Rozřesení (jittering), částečné roztřesení (semi-jittering), nezávislé roztřesení (uncorrelated jitter) a další metody vzorkování jsou uvedeny v Rapant (2006). První 3 techniky nejsou ideální, protože získaná data mohou být zkreslena. Projevuje se systematická chyba, pokud se data získají od jedinců, patřících do stejné subpopulace se specifickými znaky. Viz u nich uvedená kritika (Hendl, 2006).

77 5.1 Implementace IDRISI nabízí moduly SAMPLE a ERRMAT. SAMPLE vybírá sadu bodů (ve vektorovém formátu) podle libovolného náhodného, systematického nebo stratifikovaného náhodného schématu. Poslední alternativa je nejvíce preferována, protože kombinuje výhody obou předchozích - nevychýlený charakter náhodného vzorkovacího schématu s dobrým geografickým pokrytím u systematického schématu. Shrnutí: Výběru na základě dobrovolnosti nebo na základě dostupnosti je vhodné se vyhnout. Kvótní výběr patří ke standardním technikám u dotazníkového šetření, ale je ovlivněn subjektivností výběr konkrétního jedince. Stratifikovaný náhodný výběr zajišťuje rovnoměrné vzorkování ve všech třídách klasifikace. Vícestupňový shlukový výběr vybírá postupně v jednotlivých hierarchických vrstvách náhodně. Systematický výběr je další vhodnou technikou. Randomizace či Latinské čtverce představují techniky zajišťující eliminaci nežádoucích systematických vlivů. Kontrolní otázky: 1) Proč se provádí výběrové šetření? 2) Jaké jsou nevýhody výběru na základě dobrovolnosti? 3) Jak se organizuje výběr na základě dostupnosti? 4) Vysvětlete realizaci kvótního výběru. 5) Popište postup pro stratifikovaný náhodný výběr. 6) Jak se provádí výběr v jednotlivých vrstvách (úrovních) u vícestupňového shlukového výběru? 7) Popište možnou organizaci systematického výběru. 8) Vysvětlete metodu Latinských čtverců.

78 6 Zdroje neurčitosti a způsob popisu Cílem kapitoly je vysvětlit komplexnost projevů neurčitosti při realizaci prostorových úloh ve zdrojích, ve způsobu zpracování i ve způsobu rozhodování. Stručný obsah kapitoly: Rámec rozhodování a důkazy Neurčitost ve vstupních datech Neurčitost ve vztazích Neurčitost přijímaného rizika rozhodování Pro studium kapitoly jsou potřebné znalosti o základním rozdělení neurčitosti. Získáte znalosti o: Základním konceptu vymezení rámce rozhodování Projevech a formách neurčitosti ve vstupních datech Projevech a formách neurčitosti ve vztazích Projevech a formách neurčitosti přijímaného rizika rozhodování Budete umět: vnímat projevy neurčitosti v jejich komplexním působení v celém procesu zpracování a rozhodování správně vymezit zdroje a příčiny chyb Budete schopni: Vyhnout se chybným závěrům při rozhodování Času potřebný na nastudování kapitoly 45 minut.

79 Z hlediska přístupu Eastmann et al. (2001) byl předchozí popis zaměřen především na chyby ve zdroji a její příčiny. Přitom neurčitost zahrnuje všechny známé i neznámé chyby, nejasnosti nebo variace jak v databázi, tak v rozhodovacích pravidlech. Za hlavní zdroje neurčitosti jsou považovány: neurčitost ve volbě koncepce modelu, způsobu popisu objektů a jevů (koncept) neurčitosti ve vstupních datech neurčitost ve vztazích neurčitost přijímaného rizika rozhodování Jde o praktické vyjádření zdrojů nejistoty s určením způsobu, jak ji měřit a jak ji metodicky zahrnovat do problematiky zpracování dat. Z hlediska porozumění původu a roli neurčitosti v rozhodovacím procesu je užitečné považovat proces rozhodování za problém příslušnosti k množině cílových členů. Je možné vymezit tzv. rámce rozhodování (decision frame), které obsahují všechny uvažované alternativy (nebo hypotézy). Chápeme ji jako množinu přípustných řešení (v podstatě obor funkce, ze kterého vybíráme výsledek). Např. 4 varianty zalesnění, z nichž musím vybrat právě jednu. Pro podporu rozhodování hledáme důkazy. Důkaz (evidence) je informace, na jejímž základě můžeme ocenit příslušnost varianty (např. lokality) do cílové množiny (decision set). V klasické logice platí, že čím více máme důkazů, tím významnější závěry můžeme udělat. Tuto vlastnost označujeme jako monotónní logiku. Toto nemusí vždy platit existují sporné případy (nejednoznačnost), chaotické jevy. Worboys, Duckham (2004) ještě uvádí 2 důležité principy, které se běžně uplatňují při tvorbě báze znalostí na podporu rozhodování: Báze znalostí je bezchybná (sound) pokud všechny deduktivní konsekvence jsou pravdivé. Tedy nikdy nemůžeme odvodit nepravdu (falsehood). Mohou ale existovat věci, které jsou pravdivé, ale nejsou z naší báze znalostí odvoditelné. Báze znalostí je úplná, pokud všechny pravdivé výroky (propositions) které mohou být konstruovány pomocí jazyka termínů a vztahů jsou prokazatelné (provable) ze svých předpokladů. 1. Neurčitost ve vstupních datech Tento druh neurčitosti odpovídá klasické nepřesnosti. Zjednodušeně se týká chyb měření a je běžně reprezentován střední chybou (root mean square error RMSE) v případě kvantitativních dat a proporcionální chybou v případě kvalitativních dat. Spadá pod klasickou teorii pravděpodobnosti a statistické odvození jejich ocenění a šíření.

80 Svým způsobem jde o statickou nejistotu (nemyšleno časově, ale jako zachycení určitého stavu dat, na rozdíl od procesů, kterými se mění nejistota dat při zpracování). Neurčitosti se objevují ve všech složkách geodat, zejména polohové (geometrické), tematické (atributové) a časové, případně ve vztahové a funkční. Neurčitost v polohové složce je spojena s problémem umístění (přesnosti lokalizace), vymezení objektů (ostrých hranic) apod. Neurčitost v atributové složce dat zahrnuje chyby v atributech, nejasnost určení apod. Neurčitosti v datech odpovídají zejména nepřesnosti (inaccuracy a imprecision). Silně ji ovlivňuje nejednoznačnost (ambiguity) a vágnost. Zjednodušená reprezentace reality nutně vede k neurčitosti v datech (např. zjednodušení tvaru), ovlivňuje formu uložení (vektorový, rastrový datový model). 2. Neurčitost ve vztazích Neurčitost ve vztazích je neurčitost ve vztahu mezi vstupními daty a cílovou, tj. vybranou sadou objektů. Má vztah k charakteru důkazu, resp. vztahu mezi důkazem a cílovou sadou. Svým způsobem jde o dynamickou nejistotu (nemyšleno pouze časově - jde zachycení vztahů, souslednosti, příčina-důsledek, časový vývoj apod.). Neurčitost zde vzniká minimálně ze 3 zdrojů: 1) Neurčitost v definici rozhodovacího kritéria (vágnost rozhodovacího kritéria) Některá kritéria mají nízkou míru neurčitosti. V případě podmínky zaplavení území mořem do kóty 310 m.n.m. je zřejmé, že pokud neuvažujeme chyby měření (viz typ neurčitosti ve vstupních datech), pak všechny propojené plochy, které jsou níže než uvedená výška budou nepochybně zaplaveny. Definice kritéria, která není tak jednoznačně (matematicky) interpretovatelná, je nutně spojena s vyšší mírou neurčitosti. Jde tedy o problém vágnosti. Např. je požadován výběr příkrých svahů. Co je to příkrý svah? Jak ho budeme definovat? Budou to svahy se sklonem větším než 10%? Znamená to snad, že svah se sklonem % není příkrý? Takové množiny označujeme jako fuzzy množiny a jsou typicky definovány funkcí členství (příslušnosti). 2) Neurčitost v průkaznosti vztahu Neurčitost v průkaznosti vztahu je dána různou mírou průkaznosti existence vztahu mezi zjištěnou situací (vstupní data) a sledovanou charakteristikou. Hodnotíme tedy přímost vztahu, zda je funkční (jednoznačná) nebo neurčitá. Existuje zde analogie s interpolací rozlišuje se přesná interpolace (numerické řešení s dodržením naměřených hodnot accuracy v daném místě) a aproximací, tedy přibližným, prokládajícím řešením. V případě zaplavené půdy i příkrých svahů existuje přímý vztah mezi daty (výška, sklon) a sledovanou charakteristikou (zatopení, příkrost svahu). Jindy však není důkaz vztahu tak

81 přímočarý a jistý. Skutečná podoba vztahu může být neznámá nebo může být postavena jen na expertním odhadu. Např. identifikace vodních ploch na základě nízké odrazivosti v infračervené oblasti v datech DPZ. Zjištění, že dané místo má nízkou odrazivost, neznamená zcela jistě, že jde o vodní hladinu, je to pouze domněnka, protože ostatní materiály také absorbují infračervené záření. Dobrým příkladem je také prostorová interpolace máme celou řadu metod výpočtu, ale expert rozhodne, která se hodí v konkrétní aplikaci. Tento typ neurčitosti je podobný svým charakterem funkcím členství u fuzzy množin. Avšak není to definice vlastní množiny, je to pouze jednoduché vyjádření stupně, do kterého důkaz prokazuje přítomnost množiny. Nepoužívá se zde tedy logika fuzzy množin, ale spíše Bayesova nebo Dempster-Shaferova teorie. 3) Chyba ve specifikaci modelu Chybu ve specifikaci modelu (model specification error) popisuje již Alonso (1968, in Eastmann, 2001). Někdy je rozhodování založeno na jednom kritériu. Běžnější je použití několika kritérií k definování vybrané sady. Např. vhodná oblast je vybrána na základě mírného svahu a blízkosti cesty. Vznikají 2 problémy: a) jsou tato kritéria dostatečná k nalezení vhodné oblasti? b) Agregujeme správně evidenci z těchto kritérií? Je-li pravděpodobnost označení tohoto svahu za vhodný 0.6 a blízkost cest jako vhodného 0.7, jaká bude výsledná pravděpodobnost příslušnosti místa ke skupině vhodných oblastí? Je to 0.42 podle teorie pravděpodobnosti, 0.6 podle fuzzy množin, 0.78 podle Bayese, 0.88 podle Dempster-Shaffera, nebo 0.65 podle lineární kombinace? Jak dobře tyto agregované hodnoty vyjadřují stupeň členství ve vybrané sadě? 3. Neurčitost přijímaného rizika rozhodování Při rozhodování musíme zpravidla zvolit jistou míru rizika či hladiny pravděpodobnosti, s jakou chceme získat výsledek. To logicky znamená přijetí určitého rizika chybného rozhodnutí - rozhodovací riziko (decision risk). Např. máme soustavu míst spolu s pravděpodobností jejich zaplavení při určité úrovni hladiny. Finální rozhodnutí, která místa budou zaplavena, je provedeno na základě zvoleného limitu pravděpodobnosti.

82 Obrázek 25 Pravděpodobnost zaplavení území (Eastmann, 2001) Obrázek 26 Zaplavené území s 5% rizikem chyby (vlevo) a s 25% rizikem chyby (vpravo) (Eastmann, 2001) Při hodnocení rozhodovacího rizika se ukazuje, že je jednoduššího ho interpretovat u jednodušších forem neurčitosti, jako je třeba měření chyb. Pokud se posuneme k více nepřímým vztahům Bayesovské pravděpodobnosti a D-S teorie důvěry až do dosti nezávisle založeného konceptu fuzzy množin, vzdalujeme se dál a dál od schopnosti posoudit riziko v absolutním smyslu (Eastman 1996). Rozhodování založené na fuzzy množinách umožňuje

83 posoudit, že přijetí jedné alternativy je méně riskantní než druhé, ale ne kolik je aktuální riziko. Namísto výpočtu absolutního rizika musíme posuzovat relativní riziko. Např. ocenění skupiny kandidátů na zaměstnání - můžeme zkoušet řadu kvantifikovatelných kritérií (stupeň vzdělání, počet let praxe,...), které dovolí zařadit kandidáty do kategorií (tříd). Pak máme snahu vzít nejlepší skupinu individuí na základě předpokladu, že nám budou nejlépe vyhovovat. Přesto bude chybět nějaká absolutní stupnice odpovídající pravděpodobnosti, s jakou splníme cíl. V praxi se výsledek relativizuje např. dělením maximální hodnotou. Následně se může aplikovat limitní hodnota pro získání určitého procenta nejlepších (tj. nejméně riskantních) dostupných řešení. Výhodou tohoto postupu je jeho univerzálnost. Shrnutí: Pro dobré řešení rozhodování je vhodné vymezit rámec rozhodování, který obsahují všechny uvažované alternativy. Pro ně hledáme důkazy. Neurčitost ve vstupních datech zahrnuje typicky chyby měření, je jak v polohové tak i atributové složce. Neurčitost ve vztazích vzniká z důvodu neurčitosti v definici rozhodovacího kritéria, v průkaznosti vztahu nebo ve specifikaci modelu. Neurčitost přijímaného rizika rozhodování je spojeno s volbou limitu pravděpodobnosti přijímaného řešení. Kontrolní otázky: 1) Co je rámec rozhodování? 2) Uveďte příklad neurčitosti ve vstupních datech 3) Jak souvisí neurčitost v definici rozhodovacího kritéria a vágnost kritéria? 4) Vysvětlete problémy vznikající v důsledku neurčitosti v průkaznosti vztahu. 5) Jaké jsou možnosti kombinace pravděpodobností jednotlivých kritérií? 6) Jak se nastavuje rozhodovací riziko?

84 7 Analýza citlivosti a problém agregace dílčích jednotek Cílem kapitoly je vysvětlit 2 běžné problémy a jejich řešení nejasné vlivy jednotlivých faktorů na výsledek a problém agregace dat. Stručný obsah kapitoly: Analýza citlivosti Problém agregace dat do polygonů Měřítkový efekt Zónový efekt Získáte znalosti o: Problémech rozdílného vlivu jednotlivých faktorů Základním principu analýzy citlivosti Problémech agregace dat do polygonů Budete umět: Připravit analýzu citlivosti Připravit zpracování geodat s eliminací vlivu MAUP Budete schopni: Optimalizovat svůj model vzhledem ke skutečně významným faktorům Vyhnout se zkreslení výsledků v důsledku MAUP problému Času potřebný na nastudování kapitoly 30 minut. 7.1 Analýza citlivosti Analýza citlivosti zkoumá, jak model (numerický či koncepční) reaguje na změny informací poskytovaných na vstupu (Krivoruchko, Crawford 2005). Vstupní informace zahrnuje data použitá ke kalibraci modelu, předpokládané parametry nebo odhadované parametry z dat

85 použité k řízení modelu a základní předpoklady pro vytvoření modelu. Hlavním cílem analýzy citlivosti je identifikovat ty části modelu, které jsou kritické a které ne. Proč provádět analýzu citlivosti? Malá změna klíčového parametru může způsobit podstatnou změnu výsledku modelu a mít velký dopad na závěry, které odvozujeme z modelu. Analýza citlivosti je proto důležitá pro stanovení spolehlivosti výstupů modelu. Stejně tak může být důležitá i pro určení komponent, které nejsou tak důležité. Např. výstupy modelu mohou být necitlivé na neurčitost ve vstupních informacích. Nebo tak mohou různé vstupní informace vést ke zcela stejným závěrům. Obecně analýza citlivosti může být významným analytickým nástrojem, který může vést k efektivnější alokaci zdrojů. Může usměrnit úsilí při sběru dat, snížit výpočetní nároky, osvětlit nutnost zlepšení modelu a poskytovat indikaci spolehlivosti výstupů modelu. Analýza citlivosti může být užitečným nástrojem pro hodnocení modelu, plánování a rozhodování. Vytvořený model lze testovat tak, že jednotlivé vstupy jsou měněny v určitých krocích a sleduje se reakce na výstupu modelu. Krivoruchko, Crawford (2005) uvádí příklad hledání optimálního prostředí pro jeden druh kalifornského hmyzožravého ptáčka v blízkosti San Diego. Maximální povolený sklon svahu se mění ze 40 až na 20%, změní se šířka obalové zóny kolem silnic atd. Změna povoleného sklonu ze 40 na 25% vede k poklesu velikosti plochy optimálního prostředí o 24%, další pokles na 20% sklonu vede ke snížení plochy až o 40%. Z toho vyplývá velká závislost výsledků na přesnosti stanovení sklonu. Je tedy nutné zjistit podrobnější informace o preferenci sklonů svahů ptactvem a zajistit lepší digitální model reliéfu. 7.2 Problém agregace dat do polygonů Problematiku MAUP (Modifiable areal unit problem) podrobněji popsal Openshaw už v roce Stěžoval si, že volba reálných jednotek plošných objektů používaných v mnoha geografických studiích je libovolná, je individuálně upravitelná a zcela podléhá rozmarům uživatelů, kteří s geodaty pracují. Už v této době bylo zřejmé, že tato proměnlivost měřítek prvků vede odchylkám ve výsledcích studií. Tento problém má zásadní vliv především u agregovaných dat, která jsou použita pro shlukování (cluster analysis), pro prostorovou epidemiologii, prostorovou statistiku, či při tvorbě kartogramů, kde může snadno dojít k nesprávné interpretaci výsledků. Geodata jsou často agregována pro prezentaci výsledků studií ve vhodném kontextu. Příkladem agregačních zón mohou být třeba sčítací okrsky nebo obvodní oddělení policie. Jsou to libovolně stanovené zóny (areály) v prostoru a pro zobrazení různých dat mohou být použity variantně pro různé účely. Sčítací okrsky mohou být vymezeny tak, aby obsahovaly zhruba stejný počet domů, což je například pro prezentaci počtu vloupání do domů vhodnější než vymezení policejních okrsků (daných v UK historickým správním vývojem).

86 Mnoho zdrojových geodat vyžaduje pečlivou volbu agregačních zón pro prezentaci prostorové variability geodat srozumitelným způsobem. Existují různé možnosti vymezení vhodných areálů. Např. volba areálů pro lokalizaci a agregaci kriminálních činů má téměř nekonečné množství variant řešení. Mohou být využity existující administrativní hranice (městské obvody, obce, okresy, ), sčítací obvody, hranice hygienických okrsků atd. V GIS lze jednoduchým dotazem automatizovaně vygenerovat velké množství různých nepřekrývajících se buněk např. pravidelné, často čtvercové (gridy). Počet různých kombinací vymezení zájmových ploch je velký. Openshaw (1984) vypočítal, že jestliže je potřeba agregovat 1000 objektů do 20 skupin je možné vytvořit až různých kombinací jejich shluků. Ačkoliv je tolik různých možností, často je vybírána ta nejsnáze dostupná místo té kontextově nejvhodnější. Problém MAUP je úzce spjat s ekologickou chybou, resp. s ekologickou odchylkou (Bailey and Gatrell, 1995). Ekologická odchylka způsobená proměnlivým měřítkem prvků byla popsána 2 samostatnými efekty, které obvykle nastanou souběžně během analýz agregovaných dat. Měřítkový efekt způsobuje, že pro různé úrovně agregace produkují statistické výpočty odchylky ve výsledcích. Je to dáno tím, že vazba mezi proměnnými závisí na velikosti prostorových jednotek, ke kterým jsou vztaženy. Tato závislost obecně vzrůstá se zmenšujícím se měřítkem (tj. se zvětšením plochy jednotek). Například vzniká, pokud jsou data ze sčítacích okrsků přepočítávána na vyšší administrativně-správní jednotky. Zónový efekt popisuje proměnlivost ve statistické závislosti způsobené přeskupováním dat do jiných sestav/uspořádání ve stejném měřítku. Tento agregační problém je méně známý a je patrný až tehdy, když jsou data zobrazována variantně pro různě stanovené agregační prostorové jednotky (stejného měřítka). Měřítkový efekt lze doložit na změně lokalizačního koeficientu (v některých částech jsou dobře patrné) (obr. 27) a nárůstu Gini koeficientu pro menší jednotky (tab. 9). Obrázek 27 Srovnání vlivu agregační jednotky na výsledný vzor distribuce hodnot lokalizačního koeficientu pro počet uchazečů s nanejvýš základním vzděláním v Ostravě (stav k ) (upraveno z Inspektor, 2011)

87 Tabulka 9 Gini koeficient pro počet uchazečů o zaměstnání (UC), s nejvýše základním vzděláním (UCVABC) a dlouhodobě nezaměstnaných (UCE12) v závislosti na agregační úrovni (podle Inspektor, 2011) městské obvody Základní sídelní jednotky sčítací obvody UC 0,12 0,22 0,31 UCVABC 0,28 0,44 0,55 UCE12 0,19 0,33 0,46 Shrnutí: Hlavním cílem analýzy citlivosti je identifikovat ty části modelu, které jsou kritické a které ne. Je důležitá pro stanovení spolehlivosti výstupů modelu. Způsob agregace geodat do výpočetních jednotek má významný vliv na výsledky. Měřítkový efekt způsobuje, že pro různé úrovně agregace produkují statistické výpočty odchylky ve výsledcích. Zónový efekt popisuje proměnlivost ve statistické závislosti způsobené přeskupováním dat do jiných sestav/uspořádání ve stejném měřítku. Kontrolní otázky: 1) Co je cílem analýzy citlivosti? 2) Jak se provádí analýza citlivosti? 3) Co je problém MAUP? 4) Vysvětlete měřítkový efekt. 5) Vysvětlete zónový efekt.

88 8 Měření mlhavosti a hrubé množiny Cílem kapitoly je vysvětlit teoretické přístupy k měření mlhavosti, zejména teorie fuzzy množin. Důraz je klade i na vysvětlení relevantních prostorových konceptů, zejména prostorově neurčitých objektů, topologických operací pro ně. V závěru je vysvětlen odlišný přístup hrubých množin. Stručný obsah kapitoly: Koncept měření mlhavosti De Morganovy zákony, trojúhelníkové normy a konormy Teoretické základy fuzzy množin Operace s fuzzy množinami Fuzzy region prostorově neurčité objekty topologické operace Jiné prostorové operace Implementace měření mlhavosti Hrubé množiny Pro studium jsou nezbytné znalosti teorie pravděpodobnosti a teorie množin. Získáte znalosti o: Významu měření mlhavosti Teoretických principech a východiscích Teorii a operacích pro fuzzy množiny Definici, vymezování a operacích s vágními prostorovými objekty Teoretických principech topologických operací pro klasický a pro fuzzy prostor O implementaci v prostředí IDRISI Koncept hrubých množin pro omezenou rozlišitelnost Budete umět: Aplikovat teorii fuzzy množin pro vaši aplikaci Vymezit prostorově vágní objekty a pracovat s nimi Využít koncepce hrubých množin Budete schopni: Využít teorie fuzzy množin pro korektní řešení problému vágnosti, případně i dalších forem neurčitosti Čas potřebný na nastudování kapitoly 4 hodiny.

89 Jedním z významných zdrojů neurčitosti je neurčitost ve vztazích, tedy aspekt běžně označovaný jako neurčitost rozhodovacích pravidel. Používané nástroje se zabývají neurčitostí, zda entita patří k finální vybrané (cílové) sadě. Tyto nástroje spadají do obecné kategorie neurčitých výrazů příslušnosti k množině, známé jako měření mlhavosti FM (fuzzy measure). Termín FM (nezaměňovat s jiným možným vyjádřením v podobě fuzzy množin) odpovídá jakékoliv množinové funkci, která je monotónní vzhledem k množině příslušností (Dubois and Prade 1982, in Eastmann, 2001). Významnými příklady fuzzy měření jsou Bayesovská pravděpodobnost, důvěra a věrohodnost z Dempster-Shaferovy teorie, a funkce příslušnosti fuzzy množin. Základním rysem fuzzy měření jsou charakteristiky, které sledují De Morganovy zákony při konstrukci operátorů průniku a sjednocení a tedy základní pravidla šíření neurčitosti při agregaci důkazů (evidence). De Morganovy zákony definují trojúhelníkové vztahy mezi operátory průniku, sjednocení a negace (Eastmann, 2001): T(a,b) = ~S (~a,~b) kde T = průnik (AND) = T-Norm S = sjednocení (OR) = T-CoNorm ~ = negace (NOT) Průnikové operátory v tomto kontextu jsou známy jako trojúhelníkové normy (zjednodušeně T-normy, T-norms), zatímco sjednocovací operátory jsou známé jako trojúhelníkové konormy (T-CoNorms). T-norma je definována (upraveno z Yager 1988 in Eastmann, 2001): mapování T: [0,1]*[0,1] [0,1] tak, že platí: T(a,b) = T(b,a) T(a,b)>=T(c,d) jestliže (a>=c) a (b>=d) T(a,(T(b,c)) = T (T(a,b),c) komutativní zákon monotónní asociativní zákon T(1,a) = a Příklady využití průniku (tj. které funkce se chovají stejně): min (a,b) a*b průnikový operátor pro fuzzy množiny průnikový operátor pro pravděpodobnosti 1-min(1,((1-a)^p + (1-b)^p)^(1/p) pro p>=1 max(0,a+b-1) T-konorma je definována (upraveno z Eastmann, 2001): mapování S: [0,1]*[0,1] [0,1] tak, že platí:

90 S(a,b) = S(b,a) S(a,b)>=S(c,d) jestliže (a>=c) a (b>=d) S(a,(S(b,c)) = S (S(a,b),c) komutativní zákon monotónní asociativní zákon T(0,a) = a Příklady využití sjednocení (tj. které funkce se chovají stejně): max (a,b) a + b - a*b min(1,(a^p + b^p)^(1/p) sjednocovací operátor pro fuzzy množiny průnikový operátor pro pravděpodobnosti pro p>=1 min(1,a+b) Tyto příklady naznačují široké rozmezí operací, které jsou k dispozici pro agregaci pomocí fuzzy měření, a tedy agregace kritérií v rozhodovacím procesu. Mezi různými operátory je nejvíce extrémním (ve smyslu poskytování nejextrémnějších numerických výsledků po agregaci) operátor minimum T-norma a maximum T-konorma. Tyto operátory mají zvláštní význam, protože jsou nejčastěji používanými agregačními operátory pro fuzzy množiny. Navíc, Yager (1988, in Eastmann, 2001) ukázal, že reprezentují extrémní konce kontinua příbuzných agregačních funkcí vytvořených operacemi OWA (uspořádaného váhového průměru). Problém není v posouzení, zda je jedna skupina operátorů lepší než druhá, ale v tom, že rozdílné vyjádření rozhodovacích pravidel vyžaduje rozdílné agregační procedury. Zpravidla se používají 3 základní logiky při vyjádření neurčitosti rozhodovacích pravidel (Eastmann, 2001): teorie fuzzy množin, Bayesovská statistika, Dempster-Shaferova teorie. Každá má svou velmi rozdílnou sadu T-norem a T-konorem operátorů. Není však vždy jasné, co použít. Tento výsledek vychází také ze skutečnosti, že rozhodovací pravidla zahrnují více než jednu formu neurčitosti. Také to ale pramení z nedostatku výzkumu, zjišťujícího kdy by měly být jednotlivé metody používány. Obecnější pravidla: rozhodovací problémy, které mohou být řešeny v rámci mapování vhodnosti, mohou efektivně využívat logiku fuzzy množin (např. multikriteriální ocenění). Pokud např. definujeme vhodnost jako soustavu kontinuálních faktorů (vzdálenost od cest, sklon, atd.), je vyjádření vhodnosti kontinuální. Neexistuje jasné rozlišení mezi oblastmi, které jsou vhodné a které ne. Mnoho (ne-li většina) problémů alokace zdrojů v GIS spadá do této kategorie.

91 přítomnost mlhavosti ve smyslu pochybností neznamená vždy, že problém bude vhodné řešit pomocí fuzzy množin. Např. měření neurčitosti spojené s ostře ohraničeným souborem může vést k funkci příslušnosti, které jsou v podstatě identické svým charakterem s těmi u fuzzy množin. Rozlišující charakteristikou je spíše to, že soubor je sám vnitřně nejasný, nejednoznačný. Např. pokud uvažujeme o zaplavení oblasti v důsledku postavení přehrady, určitá neurčitost existuje díky chybám v DMT. Pokud předpokládáme náhodné rozložení chyb a prostorovou nezávislost chyb, potom graf pravděpodobnosti zaplavení proti výšce uváděné v databázi bude mít velmi pravděpodobně kumulativní N křivku tvaru S a ne nějakou jinou typickou členskou funkci fuzzy množin. Množina sama není nejasná - je pouze ostře ohraničená. Pochybnosti jsou jen u měření výšek. Vztah je totiž jasný (pokud zanedbáme dynamiku hydrologického jevu). přítomnost mlhavosti ve smyslu neprůkaznosti, nepřesvědčivosti (inconclusiveness) běžně spadá k Bayesově pravděpodobnosti nebo k Dempster-Shaferově teorii. Problém je u nepřímých důkazů - důkaz nedovoluje přímo ocenit členskou množinu, ale spíše ovlivnit ji s určitou mírou neurčitosti. Primárně se obě logiky zabývají ostře ohraničenými sadami pochybnosti jsou tedy o průkaznosti vztahů, nikoliv v datech. Klasickým případem je procedura řízené klasifikace při analýze dat DPZ. Pomocí tréninkové množiny zakládá Bayesovský klasifikátor (tj. rozhodovací stroj) statistický vztah mezi důkazem a vybranou sadou (ve formě podmíněné funkce hustoty pravděpodobnosti). Tímto způsobem jsou založeny neurčité vztahy, které dovolují ovlivnit stupeň členství pixelu ve vybrané sadě. nehledě na jejich společné základy může agregace pravděpodobností pomocí Bayese a Dempster-Shafera (D-S) podávat značně rozdílné výsledky. Primární rozdíl mezi nimi se týká role absence důkazu. Bayes považuje nepřítomnost důkazu v podpoře určité hypotézy za vznik důkazu na podporu alternativní hypotézy, zatímco Dempster-Shafer teorie ne. Tedy, nehledě na fakt, že oba považují hypotézy v rozhodovacím rámci za vyčerpávající, D-S umí pracovat s neznalostí, zatímco Bayes nikoliv. Dalším rozdílem je, že Bayesovský přístup kombinuje důkazy, které jsou podmíněny hypotézami ve vybrané sadě (je založena na trénovacích datech), zatímco D-S teorie agreguje důkazy odvozené z nezávislých zdrojů. Nehledě na tyto obecnější pravidla je úplná implementace uvedených principů složitá díky dosavadnímu omezení teoretického rozvoje na určité prototypové kontexty. Např. teorie fuzzy množin vyjadřuje pochybnosti v množině členství ve formě funkcí příslušnosti. Avšak to nezachycuje zdroj neurčitosti přímo ve tvaru členské funkce. Např. můžeme agregovat nepřímý důkaz a pochybnosti ve vybrané sadě? Zde se otevírá další pole pro výzkum. Soft computing jsou metody, které umožňují nalézat řešení vágně a neúplně popsaných problémů. I když toto řešení nemusí být zcela optimální, alespoň je reálně dosažitelné. Soft computing zahrnuje metody umělé inteligence jako je fuzzy logika, neuronové algoritmy, genetické algoritmy a dále pravděpodobnostní metody, či teorii chaosu. Tyto metody se

92 většinou používají kombinovaně např. jako neuro-fuzzy, fuzzy-genetické algoritmy (Růžičková, 2012). 8.1 Fuzzy množiny Mocným nástrojem pro popis bohatosti reality (i když ne zcela přesně) je přirozený jazyk. A to nejen kvůli bohatosti vyjadřování, ale i díky používání vágních pojmů. Ty mohou označovat objekty, které jen těžce přesně definujeme nebo ohraničíme (židle, chytrý člověk, velký strom, červená barva) (Novák, 1989). Namísto jednoznačného rozhodnutí, zda je daný člověk chytrý nebo ne, můžeme raději určit míru našeho souhlasu s výrokem, že tento člověk je chytrý. Pozor, nejde o pravděpodobnost. Nezkoumáme, zda nastal či nenastal nějaký jev, tedy v tomto případě zda nastal jev chytrosti, nebo v případě vymezení velkého stromu jev, zda strom, který pozorujeme, má výšku 30 m. Zaměřujeme se na popis vágnosti, nikoliv na pravděpodobnost výskytu. Důvodem rostoucí obliby teorie fuzzy množin a fuzzy logiky mohou být zejména čtyři hlavní myšlenky (Caha, 2011): částečná příslušnost prvku do množiny (např. město, může být částečně malé i středně velké současně) popis kategorií bez jasných a ostrých hranic (např. sklony svahů, nelze stanovit exaktní hranici, kdy se sklon stává velkým) (obr ) modelování jevů a objektů, které prochází postupnou změnou z jednoho stavu do jiného stavu (např. půdní typy, jsou charakterizovány vlastnostmi, které se mění postupně) (viz obr ) využití aproximačních výrazů (např. nedaleko vodního zdroje, blízko města atd.) umožňuje modelovat vztahy a procesy podobným procesem, jako je lidské uvažování (obr. 33). Definice fuzzy množiny Mějme X jako prostor všech prvků a obecný prvek x z toho prostoru. Pak fuzzy množina A na X je charakterizována funkcí příslušnosti f A (x) (fuzzy membership grade or possibility), která asociuje (mapuje) každé x z X s hodnotou z intervalu [0,1], kterou označujeme jako stupeň příslušnosti. Čím jsou hodnoty stupně příslušnosti prvku x bližší hodnotě 1, tím více je prvek x prvkem množiny A specifikován prostřednictvím funkce f A (x) (Caha, 2011). Klasická (ostrá) množina je potom pouze speciálním případem fuzzy množiny, kde stupeň příslušnosti se skokem mění z hodnoty 0 na 1. Např. na obr. 28 pro příkrý svah můžeme definovat fuzzy funkci příslušnosti takovou, že svah 10% má členství = 0, svah 25% má členství 1. Mezi 10% a 25% sklonu svahu funkce příslušnosti postupně narůstá od 0 do 1.

93 Obrázek 28 Fuzzy funkce příslušnosti versus ostré funkce pro určení adjektiva příkrý svah (Eastmann, 2001) Vysvětlivky: fuzzy set mlhavá množina, crisp set ostrá množina, possibility možnost, slope gradient sklon svahu Obrázek 29 Proměnlivé (vágní) hranice řek Tejo a Zêzere v závislosti na výšce vodní hladiny a stupeň příslušnosti místa k řekám (Fonte, Lodwick, 2005) Objekt nemusí mít pouze vektorovou reprezentaci. Na obr. 30 jsou pro příklad uvedeny v matici hodnoty členství pixelu v regionu (Worboys, Duckham, 2004). Obrázek 30 Hodnoty členství pixelu ve vymezeném polygonu (Worboys, Duckham, 2004) Na dalším obrázku jsou uvedeny stupně příslušnosti pro jednotlivé základní půdní kategorie v území a výsledná kombinace dominujících půdních typů.

94 Obrázek 31 Stupně příslušnosti pro jednotlivé půdní kategorie a-c v území a výsledná kombinace Vysvětlivky: a mollic Bori-Udic Cambosoils, b typic Bori-Udic Cambosoils, c lithic Udi-Orthic Primosoils Pomocí fuzzy množin lze řešit i postupnou časovou změnu příslušnosti objektu z 1. do 2.třídy (viz následující obr), např. postupné zarůstání louky lesem. Obrázek 32 Časová interpolace založená na změně fuzzy množiny (Dragievič 2005)

95 Ukázka modelování vágního prostorového operátoru blízký a daleký je na dalším obrázku. Obrázek 33 Fuzzy funkce příslušnosti pro vágní prostorové operátory blízký a daleký ve vztahu místa k lyžařskému horskému středisku (Morris, Jankowski, 2005) Funkce příslušnosti Typické tvary funkcí příslušnosti jsou vysvětleny na implementaci v IDRISI: 1) sigmoidální (tvaru s ) je vytvářena na základě funkce kosinus. Modul FUZZY vyžaduje pozici 4 bodů podél osy X, které ovlivňují tvar křivky. Je třeba dodržovat logiku umístění kontrolních bodů (a, b, c, d) tak, jak je znázorněna v obrázcích. Obrázek 34 Fuzzy funkce typu s (Eastmann, 2001) 2) funkce tvaru J - jsou také běžné, i když sigmoidální jsou častější. Je nutné zdůraznit, že funkce inklinuje k 0, ale dosáhne ji až v nekonečnu. Tedy inflexní body a a d indikují body, kde funkce dosahuje spíše 0.5 než 0.

96 Obrázek 35 Fuzzy funkce typu j (Eastmann, 2001) 3) lineární funkce - tento typ funkcí je široce využíván v elektronických zařízeních, které využívají fuzzy logiku. Uplatňuje se dobře kvůli své jednoduchosti, ale také i díky potřebě monitorovat výstup z lineárních senzorů, které se běžně používají. Obrázek 36 Lineární fuzzy funkce (Eastmann, 2001) 4) uživatelem definovaná funkce - pokud vztahy mezi hodnotou a fuzzy příslušností neodpovídají žádnému ze tří výše uvedených typů, aplikuje se uživatelem definovaná funkce. Kontrolních bodů může být tolik, kolik je potřebné k definici křivky funkce příslušnosti. Funkce příslušnosti mezi 2 sousedními kontrolními body je lineárně interpolována.

97 Obrázek 37 Uživatelem definovaná fuzzy funkce (Eastmann, 2001) Základní pojmy fuzzy množin Několik důležitých pojmů týkajících se fuzzy množin (Caha, 2011): jádro (core, kernel) je množina všech x, kde stupně příslušnosti ( x) 1 nosič (support) je množina všech x, kde ( x) 0 α-řez (α-cut) je množina všech x, kde A pro 0,1 A (x) výška (height) je maximální hodnota f A (x) pro všechny x z X. Pokud neexistuje jádro, není výška rovna 1. Podstatnou myšlenkou je, že všechny α-řezy (jejichž speciálními případy je jak jádro, tak i nosič) jsou klasickými (ostrými) množinami (Caha, 2011). A Obrázek 38. Funkce příslušnosti pro jádro, nosič, alfa-řez a výška (Škrabánek, 2014) Fuzzy množiny mohou být spojité i diskrétní. U diskrétních se někdy používá jednoduchý výpis jejích prvků ve formě sady zlomků, kde v čitateli je stupeň příslušnosti a ve jmenovateli označení příslušné třídy.

98 Někdy se také vyjadřuje mohutnost fuzzy množiny (card), což odpovídá počtu prvků množiny. U diskrétních se použije suma stupně příslušnosti přes celý nosič (což je suma všech nenulových stupňů příslušnosti) či integrál. Mohutnost lze definovat i jako fuzzy číslo (fcard), což má význam vágního vyjádření např. asi 2 (Novák, 1989). Princip rozšíření Jednou z nejdůležitějších vět fuzzy teorie množin je tzv. princip rozšíření. Mějme funkci f představující mapování univerza X na Y a fuzzy množinu A na X definovanou následovně (Caha, 2011): A { A( x ) / x1 A( x2) / x2... ( x ) / x 1 A n n Pak obrazem A skrze mapování f(.) je fuzzy množina B na Y definovaná následovně (Caha, 2011): } B f A ( x )/ y ( x )/ y... ( x )/ y } { A 1 1 A 2 2 A n n kde y = f(x i ). Tedy fuzzy množina v X indukuje fuzzy množinu ve Y, s funkcí příslušnosti s hodnotou 0, pokud pro dané y neexistuje x, nebo supremum funkce příslušnosti odpovídajícího x. Je zřejmé, že aplikací funkce f na prvky univerza X se jejich stupně příslušnosti přenášejí beze změny na jejich obrazy. Princip rozšíření umožňuje definovat všechny potřebné matematické operace nad fuzzy množinami, stejně jako fuzzy čísla. Jeho prostřednictvím lze například definovat algebru fuzzy čísel Fuzzy číslo Zvláštním případem fuzzy množiny je fuzzy číslo. Fuzzy číslo je fuzzy množina v univerzu reálných čísel reprezentující určitou hodnotu spolu s vyjádřením možné nepřesnosti v hodnotě obsažené. Pomocí toho lze modelovat pojmy jako asi 10 nebo kolem 4. Je vyžadováno, aby fuzzy čísla měly alespoň po částech spojitou funkci příslušnosti. Typicky se používají jednoduché lineární tvary (obr. 39).

99 Obrázek 39 Fuzzy čísla ( a)trojúhelníkové, b)trapezoidální, c) po částech lineární, d) po částech lineární aproximující gaussovské) (Caha, 2018) S fuzzy čísly je možné provádět běžné aritmetické operace sčítání, odečítání, násobení a dělení. Formálně to lze zobecnit jako (Caha, 2018): Z = X Y kde značí některou z operací +,,, / Jejich jednoduché řešení využívá rozdělení na rostoucí, stagnující a klesající část funkcí příslušností, ty se řeší zvlášť a výsledek se sjednotí. V intervalové aritmetice se provede rozklad fuzzy čísel na jednotlivé alfa řezy a provedou se výpočty samostatně pro každý alfa řez. Pro každý interval pak určíme (Caha, 2018): [z, z ] = [x, x ] [y, y ] = [min(g), max (G)] kde G = {x y, x y, x y, x y, } Pokud použijeme operátor dělení, musí být samozřejmě Y neprázdná množina, jinak operace nemá smysl.

100 Obrázek 40 Ukázky řešení základních aritmetických operací pro 2 fuzzy čísla A a B (Caha, 2018) Nad fuzzy čísly lze při použití principu rozšíření definovat všechny algebraické operace jako u klasických čísel (Kaufmann, Gupta, 1985 in Caha, 2011). Provede se diskrétní reprezentace (rozdělením po úsecích) a na nich se provede operace. Výsledek se interpoluje. V případě funkcí je třeba rozlišovat, zda je monotónní nebo ne. Pokud ano, provede se rozklad na α řezy a propagují se pouze limitní body intervalů. Pokud funkce není monotónní, je třeba použít jiné techniky např. tzv. vertexevou metodu nebo princip rozšíření s pravidelným vzorkováním (získáme pak aproximaci výsledku, ne přesný výsledek) (Caha, 2018). Vzájemné porovnávání fuzzy čísel není na rozdíl od klasických čísel triviální problém (obr. 41). Existuje řada postupů, jak lze fuzzy čísla porovnávat jak mezi s sebou, tak i společně s klasickými čísly. Problematický případ s nerozlišitelností 2 fuzzy čísel je na následujícím obrázku. Mohli bychom ho formulovat jako dotaz, zda je asi 1.2 vždy menší než asi 1.8, když víme, že rozsah možných hodnot pro 1. fuzzy číslo je od 0.2 do 2.8 a pro 2.číslo je od 0 do 2.2. Obrázek 41 Problém nerozlišitelnosti 2 překrývajících se fuzzy čísel (Caha, 2018) Možným řešením je simulace hodnot podle hodnot příslušnosti. Pro ~ X např. série náhodně vygenerovaných čísel 0.5, 1, 1.2, 1, a pro ~ Y série náhodných čísel 1.8, 2, 1, 1.7, 0.1, Nad nimi se pak již stačí ptát, kolik realizací X je menších než realizací Y. Praktické využití nabízí R package FuzzyNumbers ( Jednou z možností využití fuzzy čísel je reprezentace povrchu reliéfu.

101 Jde o povrch, jehož z souřadnice jsou vyjádřeny fuzzy číslem Z, zatímco souřadnice x,y se zde považují za přesné (např. se prováděla interpolace v přesně definované síti). Reprezentuje možný rozsah dat buď s ohledem na neurčitost v datech využitých pro tvorbu tohoto povrchu, nebo na neurčitost ve vztazích, konkrétně použité interpolační metody a jejího nastavení (obr. 42). Obrázek 42 Reprezentace fuzzy povrchu. (Caha, 2018) Vysvětlivky: Trojúhelníky odpovídají vertikálnímu zobrazení fuzzy čísel, kde přepona reprezentuje maximální rozsah hodnot výšky v daném bodě a poloha odlehlého vrcholu označuje nejpravděpodobnější hodnotu. Existují vhodná fuzzy rozšíření pro všechny běžné interpolační metody pro tvorbu fuzzy povrchů (např. IDW, spline, kriging). Vyžadují však velmi intenzivní výpočty (Caha et al., 2015). Obrázek 43 Fuzzy semivariogram (Caha et al., 2015). Z jednoho výsledného fuzzy povrchu lze pak odvozovat řadu informací, např. minimální a maximální hodnotu v daném místě, rozdíl mezi minimem a střední hodnotou, rozdíl mezi maximem a střední hodnotou (obr. 44).

102 Obrázek 44 Hodnocení fuzzy povrchu koncentrace PM10 pomocí 4 dílčích charakteristik v každém místě (min, max, minstřed, max- střed) (Caha et al., 2015). Nad fuzzy povrchy pak lze provádět běžné topografické analýzy, jejímiž výsledky jsou opět fuzzy čísla. Např. výpočty sklonu, orientace (obr. 46) a viditelnosti (obr. 47).

103 Obrázek 45 Uměle vygenerovaný DMR a minimální a maximální hodnota v každém místě (Caha, 2014) Obrázek 46 Fuzzy sklon povrchu a minimální a maximální hodnota sklonu v každém místě (Caha, 2014)

104 Obrázek 47 Výsledek klasického výpočtu viditelnosti a pravděpodobná varianta řešení fuzzy viditelnosti (upraveno z Caha, 2014) Pokud se pracuje při určování viditelné oblasti s neurčitostí, je třeba odlišit 2 jevy (Worboys, Duckham, 2004): Pravděpodobná oblast viditelnosti: u ní se předpokládá dokonalá viditelnost, jasně ohraničený terén a žádný vliv vegetace. Neurčitost vzniká pouze v důsledku chyb a nepřesností měření výšek. Pravděpodobná oblast viditelnosti je vypočtena na základě určitého modelu neurčitosti. Hranice oblasti budou ostré, ale její poloha je neurčitá kvůli chybám měření. V podstatě říkáme, že přesnost p (precision) bude vysoká, ale přesnost a (accuracy) nízká. Fuzzy oblast viditelnosti: předpokládá se naopak dokonalá měření výšek a neurčitost vzniká díky atmosférickým podmínkám, odrazu světla, sezónním a vegetačním efektům. Hranice nebude ostrá, ale široká a odstupňovaná. Vytváří se fuzzy region, při kterém se nepoužívá klasická pravděpodobnost. Je zřejmé, že komplexní hodnocení viditelnosti by mělo zahrnout obě složky Operace s fuzzy množinami Většina operací s fuzzy množinami je pouhým rozšířením operací nad klasickými množinami. Fuzzy množina je prázdná pouze pokud ( x) 0 pro všechna x z X. Doplněk fuzzy f 1 f f A množiny je definován A' A. Rovnost (shoda) fuzzy množin A = B nastává pouze když f A (x) = f B (x) pro všechna x v X. Základní operace s množinami zahrnuje průnik, sjednocení, součin a doplněk (Novák, 1989) (obr. X). Součin se používá místo průniku v situaci, kdy víme, že obě množiny spolu vzájemně korelují (je mezi nimi vnitřní souvislost). Součin je totiž nižší než průnik.

105 Obrázek 48 Demonstrace průniku, sjednocení, součinu a doplňku (Novák, 1989) K dalším operacím patří (Novák, 1989): omezený rozdíl (om-) (A součin negace B), rozdíl (A průnik negace B), (silně) symetrický rozdíl (A om- B or B om- A), slabě symetrický rozdíl (A - B or B - A) Omezený rozdíl je množina, jejíž prvky patří více do A než do B. Naopak rozdíl je množina, jejíž prvky více méně patří do A a ne do B (Novák, 1989). Operace sjednocení a průniku fuzzy množin jsou definovány pomocí tzv. t-norm a t-konorm (fuzzy konjukce, fuzzy disjunkce). Binární operace t-normy T:<0,1> 2 <0,1> musí splňovat vlastnosti komutativnost, asociativitu, monotónnost a ohraničenost. Stejné vlastnosti musí splňovat i binární operace t-konormy S:<0,1> 2 <0,1>. T-normy a T-konormy vytváří obvykle vzájemně duální dvojice. Za duální dvojici operací lze označit t-normu a t-konormu, pokud splňují pro všechna α,β <0,1> (Caha, 2011): α S β = 1 - [(1 - α) T (1 - β)] což je pouze upravená forma zápisu De Morganových zákonů, které mají následující podobu a platí jak pro klasické tak i pro fuzzy množiny (Caha, 2011): (A B)`=A` B` (A B)`=A` B` Využití různých t-norem a t-konorem poskytuje různé výsledky. Mezi nejdůležitější t-normy patří (Caha, 2011): minimum T min (a,b) = min(a,b)

106 součin - T prod (a,b) = a b Lukasiewiczova t-norma T Luk (a,b) = max{0, a + b - 1} Radikální (drastická) t-norma o T D (a,b) = a pokud b=1 o T D (a,b) = b pokud a=1 o T D (a,b) = 0 v ostatních případech Nilpotentovo minimum o T NM (a,b) = min(a,b) pokud a+b>1 o T NM (a,b) = 0 v ostatních případech Hamacherův součin o T H (a,b) = 0 pokud a=b=0 o T H a b ( a, b) v ostatních případech a b a b K těmto t-normám tvoří duální dvojici následující t-konormy: maximum S max (a,b) = max(a,b) pravděpodobnostní součin Ssum(a,b) = a + b - a b ohraničený (omezený) součet S Luk (a,b) = min{ a+b,1} radikální (drastická) t-konorma o S D (a,b) = a pokud b=0 o S D (a,b) = b pokud a=0 o S D (a,b) = 1 v ostatních případech Nilpotentovo maximum o S NM (a,b) = max(a,b) pokud a+b<1 o S NM (a,b) = 1 v ostatních případech Einsteinův součet o S H a b ( a, b) 1 ab

107 Příklad: Mějme 1 prvek, který patří do fuzzy množiny A se stupněm příslušnosti 0,3 a do fuzzy množiny B se stupněm příslušnosti 0,7. Jednotlivé varianty průniku a sjednocení dávají následující hodnoty (Škrabánek, 2014): t-norma t-konorma Klasická t-norma (min) 0.3 Klasická t-konorma (max) 0.7 Hamacherovův součin Hamacherovův součet Algebraický součin Algebraický součet Einsteinova t-norma Einsteinův součet Omezený rozdíl 0 Omezený součet 1 Drastický součin 0 Drastický součet 1 Obrázek 49 Znázornění nejběžnějších t-norem pomocí stupně příslušnosti obou prvků na horizontální ploše a výsledku operace ve formě grafu (Ďuračiová et al., 2013)

108 Obrázek 50 Vizualizace 6 t-norem (Caha, 2011)

109 Obrázek 51 Vizualizace 6 t-konorem (Caha, 2011)

110 Obrázek 52 Fuzzy vrstvy použité pro hodnocení výskytu archeologických lokalit na Slovensku vážená vzdálenost k hranici říčních sedimentů (vlevo) a vhodný typ půdy (vpravo) (Ďuračiová et al., 2013) Obrázek 53 Výsledek volby 4 běžných t-norem při agregaci vrstev do výsledné predikce arccheologické lokality (Ďuračiová et al., 2013) Fuzzy funkce Novák (1989) popisuje základní možnosti pro fuzzy funkce, které mohou nastat: 1. Dané fuzzy množině je přiřazena jiná fuzzy množina. 2. Funkce z fuzzy množiny do fuzzy množiny. 3. Fuzzy funkce jako fuzzy relace pro situace, kdy není možné rozhodnout, zda mezi 2 objekty existuje vztah nebo ne. Vyjadřujeme výrazy jako mnohem větší než. Případ 1 je nejčastější. Např. velké auto má vysokou cenu, za dobré výsledky dostáváme větší odměnu. V případě 2 není definiční obor ani obor hodnot funkce přesně definován. Např.

111 chceme definovat funkci z množiny velkých lidí do množiny velkých obleků. Problémem však je, že množiny malých a velkých obleků mají neprázdný průnik. Příklad (Novák, 1989): Máme množinu lidí (Petr, Josef, Jana, Marie,..). Pokud u nich budeme odhadovat výšku, budeme říkat asi metr sedmdesát apod. Zapíšeme pomocí fuzzy množiny v x s významem asi výška y pro danou osobu x s funkcí příslušnosti: v x y =0 pokud y<= x-d; v x y = (y-x+d)/d pokud je x-d<=y<=x; v x y = (x-y+d)/d pokud je x<=y<=x+d d je tolerance odhadu výšky, např. 5 cm. Poslední dva případy zajistí, aby odchylka byla kladná. Je možné také definovat fuzzy podobnost. Pro její vyjádření pro diskrétní množinu se vytváří čtvercová matice a v ní se zapíše, nakolik se objekt A podobá objektu B pomocí stupně příslušnosti. V některých případech se zabýváme i pravděpodobností fuzzy jevů. Příklady vhodného využití uvádí Novák (1989). Např. máme vyjádřit pravděpodobnost následujících vágních výrazů: odpoledne se vyjasní, padne velké číslo, preparát zapůsobí v krátké době. Velký význam mají fuzzy množiny pro modelování sémantiky. Vyjadřujeme výrazy jako malý a tlustý atd. Podobně lze fuzzy operace použít i pro kvantifikaci vágních adjektiv. Např. t-normy lze použít pro popis stupňů pravdivostí pravidel ( velmi, zhruba, ) následovně (Adamčík, 2009): velmi(x)=x x=t(x x) super(x)=velmi(velmi(x)) zhruba(x): x L:velmi(zhruba(x))=x Obrázek 54 Průběh funkce členství pro vybraná adjektiva (Adamčík, 2009) Fuzzy logika

112 Pod tímto pojmem se podle Nováka (1989) může chápat vícehodnotová logika nebo lingvistická logika, jejíž pravděpodobnostní hodnoty jsou jazykově vyjádřeny; v současnosti se význam koncentruje na druhou variantu. Místo stupně příslušnosti používáme stupeň pravdivosti, který vyjadřuje míru souhlasu s tvrzením. Základními operátory jsou AND a OR, ale jejich definice není shodná s klasickou (binární) logikou. Zpravidla zde mají význam: minimum (AND) a maximum (OR). Existují i jiné varianty fuzzy operátorů. Doporučené zpracování je fuzzifikace vstupních hodnot, jejich zpracování a výstup buď v podobě fuzzy množin nebo přímo výsledných hodnot (Caha, 2018). Pro řešení úloh s fuzzy logikou se používají fuzzy interferenční systémy, který zahrnuje fuzzifikaci proměnných, vyhodnocení výsledné fuzzy množiny, řízení aplikace vhodným regulátorem a nakonec zpětnou defuzzifikaci. Implementace se zajišťuje např. pomocí jfuzzylogic (Java), ale existují verze pro většinu programovacích jazyků jako Matlab, Octave, R, Python (Caha, 2018). Následující příklad počítá míru oslunění ze vstupní proměnné - orientace a sklon svahu. Výpočet proveden pomocí jfuzzylogic Obrázek 55 Porovnání výpočtu oslunění klasickým způsobem a fuzzy (Paclíková, 2012)

113 8.1.3 Fuzzy region Fuzzy region v dvourozměrném prostoru je definován jako (Verstaete et al., 2006 in Caha, 2011): A {( p, ( p))} A kde : U [0,1] a p A p A( p). U představuje univerzum všech lokací p a A( p) vyjadřuje míru, s jakou je p součástí objektu A. Na těchto základech lze definovat fuzzy prostorové objekty a všechny základní topologické operace nad těmito objekty Prostorově neurčité objekty Neexistuje sice jednotná definice prostorově neurčitých objektů, ale kombinací různých přístupů je možné vymezit jejich definici přibližně následovně. Za prostorově neurčité (přesněji geometricky vágní) lze označit takové objekty, které nemají ostrou hranici mezi objektem samým a jeho okolím (Dragicevic 2005 in Caha, 2011). Z toho vyplývá, že existují body v prostoru, u nichž nelze jednoznačně určit, zda-li jsou či nejsou součástí daného prvku. To může být důsledkem toho, že objekt nemá jasně definované hranice nebo že jeho hranice jsou časově proměnlivé. Pro potřeby modelu může být podstatné zachytit i tuto proměnlivost (Dragicevic 2005 in Caha, 2011). Prvotním přístupem k vymezení prostorových objektů v GIS byla reprezentace pomocí ostrých objektů, mající naprosto jasně definovanou hranici, jak v rastrovém tak i vektorovém datovém modelu. Mimo definice objektů s ostrými hranicemi a fuzzy objektů, existoval v 90. letech ještě koncept tzv. širšího okolí. Ten definoval objekt pomocí dvou hranic - vnitřní a vnější. Prostor mezi těmito hranicemi potom určoval nejistotu v prostorovém vymezení objektu (Clementini, Felice, 1996, in Caha, 2011). Tento koncept byl sice jistým posunem proti klasickému vymezování objektů, ale postrádal možnost jak klasifikovat míru nejistoty ve vymezení prvku v přechodné zóně mezi vnitřní a vnější hranicí (obr. 56). Obrázek 56 Vektorová reprezentace geografického regionu: vlevo - ostrého regionu, vpravo - koncept širšího okolí (Verstraete et al., 2006, in Caha, 2011) Naproti tomu využití fuzzy pro definování prostorových objektů umožňuje vymezit míru nejistoty pro body ležící v přechodové zóně, protože pro každý z těchto bodů lze přesně určit stupeň příslušnosti k danému fuzzy objektu (obr. 57). Zásadním je rozdíl týkající se bodů p 1 a p 2 (obr ) (Caha, 2011). Zatím co u konceptu širšího okolí lze o těchto bodech prohlásit pouze to, že spadají do prostoru, v němž je určení příslušnosti bodu ke geografickému objektu

114 problematické, u fuzzy přístupu můžeme pomocí funkce příslušnosti určit, s jakou mírou tyto prvky k danému geografickému objektu patří (p 1 mnohem více než p 2 ). Obrázek 57 Reprezentace geografického regionu jako fuzzy objektu (Verstraete et al., 2006, in Caha, 2011) Fuzzy přístup lze použít pro modelování všech tří základních reprezentací geografických objektů: bodu, linie i polygonu (Dragicevič 2005 in Caha, 2011). Základem je vyjádření polohy bodu v prostoru pomocí dvou fuzzy čísel. Tím jsme schopni reprezentovat nepřesnost v souřadnicích tohoto bodu. Linie a polygon jsou analogických rozšířením tohoto konceptu o vyjádření polohy jednotlivých bodů pomocí fuzzy čísel (obr. 59). Celou myšlenku lze rozšířit až na koncept fuzzy souřadnicového systému (Brimicimbe, 1998, in Caha, 2011), kde myšlenka fuzzifikace polohy je vložena už do samotného souřadnicového systému a každá polohová hodnota je ve svém vyjádření přirozeně vágní. Další možností jak reprezentovat fuzzy region je pomocí ostrého vymezení jeho jádra, nosiče a funkce, která popisuje přechod z jádra do nosiče (Tang, 2004, in Caha, 2011) (obr. 34). V některých situacích není nezbytně nutné, aby všechny vlastnosti (prostorové i atributové) byly modelovány s využitím fuzzy. Je vhodné využít je pouze tam, kde využití toho přístupu přinese přidanou hodnotu, umožní nám získat více informací, nebo získanou či přenášenou informaci nějakým způsobem zpřesnit (Caha, 2011). Obrázek 58 Fuzzy region definovaný pomocí jádra a nosiče a jeho jednotlivé části (Tang, 2004, in Caha, 2011)

115 Vysvětlivky: a simple fuzzy region in reality jednoduchá fuzzy region v realitě, closure: definition of a a simple fuzzy region uzavření: definice jednoduchého fuzzy regionu, interior vnitřní, boundary hranice, interior of boundary vnitřek hranice, boundary of the boundary hranice hranice. Obrázek 59 Reprezentace fuzzy bodu (A), fuzzy linie (B), fuzzy polygon (C) a fuzzy polygony v mapě (D) (převzato z Dragicevič, 2005, in Caha, 2011) Jiný příklad prostorově neurčitého objektu je na následujícím obrázku. Obrázek 60 Výpočet hustoty stromů a podle toho přiřazení příslušnosti zalesnění (Worboys, Duckham, 2004) Topologické operace 1. Operace v klasickém topologickém prostoru V topologickém prostoru lze pro dva polygony A a B definovat jejich vzájemné vztahy pomocí matice mající 4 nebo 9 prvků (Egenhofer et al., 1994, in Caha, 2011). Matice 4 prvků

116 řeší pouze vztah hranice δa a vnitřního prostoru objektu A 0 s B 0 a δb. Matice 9 prvků přidává k těmto vztahům ještě vztah A c a B c značící doplněk objektu, jako A - se značí prostor mimo objekt (u ostrých reprezentací je shodný s doplňkem, u fuzzy prostorových objektů už ale nikoliv). V tomto ostrém R 2 (dvourozměrný prostor) platí, že A c A 0 = Ø, A c A 0 = X (kde X je univerzum diskurzu) a všechny tři části A 0, δa, A c jsou vzájemně nespojité. Výsledná matice vypadá následovně (Egenhofer et al., 1994, Tang, 2004, in Caha, 2011): 2. Operace ve fuzzy topologickém prostoru Pro klasickou reprezentaci v GIS je matice vztahů s 9 prvky dostačující, protože pokrývají standardní topologické vztahy. Je ale nedostačující pro topologické vztahy fuzzy objektů. Důvodem je to, že tvrzení A c A 0 = Ø, A c A 0 = X nejsou ve fuzzy teorii množin obecně platná. Stejně tak A 0, δa, A c nejsou nespojité a jejich sjednocení nemusí být rovno celému univerzu X. Tyto odchylky znemožňují použití stejného přístupu jako u klasického topologického prostoru pro řešení topologických vztahů. Tento fakt lze obejít konstrukcí ostrého fuzzy topologického prostoru (crisp fuzzy topological space) (Tang, 2004, in Caha, 2011). Hlavním požadavkem na takovýto topologický prostor aby je, aby všechny otevřené množiny byly zároveň množinami ostrými. Tím je zajištěno, že jak hranice fuzzy objektu, tak jeho vnitřní prostor jsou ostrými množinami, a současně všechny 3 části fuzzy objektu jsou vzájemně nespojité (Caha, 2011). Pro určení vztahů mezi fuzzy objekty lze použít vztahovou maticí 3*3 prvky, ale lze také použít matice o větších rozměrech. Složitou matematickou dedukcí lze dokázat, že ve fuzzy topologickém prostoru se fuzzy objekt dělí na celkem 5 částí. Těmi jsou: plocha vně prvku, hranice hranice prvku, vnitřní prostor hranice prvku, hranice vnitřního prostoru a samotný vnitřní prostor prvku. Na tomto základě lze vymezit matici 5*5 pro topologické vztahy fuzzy prostorových objektů. Ta umožňuje 2 25 = možných vztahů mezi objekty (Caha, 2011). Situaci lze generalizovat do 12 případů topologických vztahů dvou fuzzy regionů. Pro zjednodušení se zavádí pojmy topoarea pro vnitřní plochu objektu, vnitřní plochu hranice a vnější plochu objektu, a topoline pro hranici hranice prvku (Tang, 2004, in Caha, 2011).

117 Obrázek 61 Ukázka několika základních topologických vztahů dvou fuzzy regionů a jejich reprezentací vztahovými maticemi 3*3 a 4*4 (Tang, 2004, in Caha, 2011). Mimo tento přístup lze na vztah dvou fuzzy objektů nahlížet jako na vztah dvou souborů α- řezů. Vzhledem k faktu, že každý α-řez fuzzy množiny A je ostrá množina, pak lze vztahy těchto řezů dvou množin řešit pomocí jednoduché vztahové matice o 9 prvcích. Jedná se sice o zjednodušení celé konceptu, ale složitost definování fuzzy topologického prostoru v GIS se může ukázat jako příliš náročná, než aby mohla být realizována. Je také nutné si uvědomit, že se jedná pouze o topologické vztahy těchto objektů. Následné operace sjednocení či průniku takovýchto množin lze řešit za využití různých t-konorem a t-norem. Tím se celá situace dále komplikuje, protože využitím různých t-norem a t-konorem získáváme odlišné výsledky (Caha, 2011) Jiné prostorové operace Vedle topologických operací mohou být definovány i jiné fuzzy prostorové operace. Jde např. o fuzzy konektivitu, fuzzy konvexitu, fuzzy plochu, fuzzy obvod atd. Např. fuzzy plocha se vypočítá jako součet hodnot členství v jednotlivých pixelech (Worboys, Duckham, 2004). Při multikriteriálním oceňování jsou fuzzy množiny používány ke standardizaci kritérií. Výběr typu funkce závisí na porozumění vztahu mezi kritériem a vybranou sadou a na přístupnosti informací o ovlivnění příslušnosti k fuzzy množině. Ve většině případů je dostačující sigmoidální nebo lineární funkce Kritika fuzzy množin S využíváním fuzzy množin a příslušných fuzzy operací jsou ale spojeny určité problémy, z nichž některé můžeme dokumentovat na následujícím příkladu (Worboys, Duckham, 2004). Mějme oblast lesa a oblast mokřin, obě definované fuzzy množinami. Obě oblasti se částečně překrývají. Aplikujeme fuzzy průnik (minimum z obou hodnot) a vytvoříme nový region.

118 Bohužel ale nemůžeme očekávat, že tento region bude ekvivalentní regionu, který by byl přímo odvozen z indikátoru mokřadní les. Tyto problémy mohou vést ke skepsi při aplikaci teorie fuzzy množin. Rovněž pozor na problémy, jak se definují a chápou jednotlivé třídy často je další nejednoznačnost skryta v definici třídy a ne jen v míře příslušnosti k dané třídě (viz kapitola o nejednoznačnosti dat). 8.2 Hrubé množiny Hrubé množiny (rough sets) se primárně používají pro reprezentaci a zdůvodnění granularity a nerozlišitelnosti informace (Worboys, Duckham, 2004, s. 348). Odpovídají na otázku, jak reprezentovat podmnožinu X na úrovni granularity vynucené nerozlišitelností vztahu ρ. Pro vymezení hrubých množin se definují 2 konstrukty (Worboys, Duckham, 2004): A b X / b A A b X / b A A je horní aproximace množiny A, A je dolní aproximace množiny A. Pár < A, A > se nazývá hrubá množina (s ohledem na vztah nerozlišitelnosti ρ na množině X). A je vždy podmnožinou množiny A v X/ρ (Worboys, Duckham, 2004). Vymezení hrubé množiny je možné vysvětlit na následujícím obrázku (obr. 43). Sada bodů představuje X. Podmnožina A je vymezena polygonem obecného tvaru. Překryjeme mřížkou, která reprezentuje vztah nerozlišitelnosti ρ (mřížka určuje rozlišení, které nemůžeme zlepšit). Buňky mřížky, které obsahují všechny body uvnitř polygonu A (přitom ale celá buňka nemusí ležet v A), reprezentují dolní aproximaci. Buňky, které obsahují část bodů uvnitř a část vně polygonu, reprezentují horní aproximaci (Worboys, Duckham, 2004).

119 Obrázek 62 Příklad ohraničení polygonu a vymezení hrubé množiny v rastrovém modelu. Výsledek v části d ukazuje černé buňky jako dolní hranici a sadu černých a bílých buněk jako horní hranici (Worboys, Duckham, 2004). Pro práci s hrubými množinami se používá zvláštní algebra např. hrubý průnik či hrubé sjednocení. Teorie hrubých množin nám poskytuje dolní a horní aproximaci regionu (co určitě (minimálně) do ní patří a co maximálně by do ní mohlo patřit). Je vhodná zejména pro změnu granularity (např. při generalizaci) (Worboys, Duckham, 2004). Analýza hrubých množin umožňuje zjišťovat funkční závislosti v informačním systému příkladem jsou základní techniky data miningu. Shrnutí: Měření mlhavosti řeší problém neurčitosti ve vztazích, zejména vágnosti. Teoretický základ pro operace s neurčitě vymezenými objekty poskytují de Morganovy zákony. K nejdůležitějším formám patří fuzzy množiny, využívajících funkci příslušnosti, jádro, nosič, alfa-řezy, fuzzy čísla. Jsou definovány základní operace nad fuzzy množinami. Velký přínosem je fuzzy vymezení (vágních) prostorových objektů, včetně specifikace topologických operací nad nimi. Fuzzy přístup se používá ale i pro využití vágních adjektiv, resp. vztahů. Implementace umožňuje definici různých tvarů funkce příslušnosti. Hrubé množiny se používají

120 pro reprezentaci prostorových objektů, u kterých zdůrazňujeme omezenou prostorovou rozlišitelnost. Využívá zvláštní algebry. Kontrolní otázky: 1) Kdy se používá měření mlhavosti? 2) Uveďte příklad využití průniku pomocí trojúhelníkových norem. 3) Uveďte příklad využití spojení pomocí trojúhelníkových konorem. 4) Co je stupeň příslušnosti u fuzzy množin? 5) Specifikujte funkci příslušnosti u fuzzy množin. 6) Co je jádro u fuzzy množin? 7) Co je nosič u fuzzy množin? 8) Co je α-řez u fuzzy množin? 9) Vysvětlete některé operace aplikace t-norem a t-konorem. 10) Co je princip rozšíření? 11) Jak se vymezuje prostorově vágní objekt pomocí fuzzy množin? 12) Popište rozdíly mezi operacemi v klasickém a fuzzy topologickém prostoru. 13) Jak aplikovat fuzzy principy na úlohu viditelnosti? 14) K čemu se používají hrubé množiny? 15) Vysvětlete dolní a horní hranici aproximace regionu podle teorie hrubých množin.

121 9 Kvalitativní hodnocení neurčitosti Cílem kapitoly je vysvětlit způsob práce s kvalitativním hodnocením neurčitosti, především s vágností v určení jednotlivých tvrzení, klasifikací v území, jak sestavit rámec rozhodování, jak provádět revizi důkazů k vytvoření konzistentní báze znalostí, představit možnosti uplatnění vícehodnotové logiky, vysvětlit schvalovací teorii. Stručný obsah kapitoly: Tvorba rámce rozhodování Důvěra, znalost a jejich vztahy Revize důvěry Aktualizace znalostí Tříhodnotová a vícehodnotová logika Schvalovací teorie Pro studium jsou nezbytné základní znalosti teorie pravděpodobnosti. Získáte znalosti o: Výstavbě variant výroků na základě znalostí o daném problému Rozlišení důvěry a znalostí Způsobech řešení revize důvěry Odlišení revize a aktualizace důvěry systému tříhodnotové logiky a jejím praktickém uplatnění pro řešení prostorových vztahů schvalovací teorii Budete umět: Pracovat s důvěrou a znalostí Vytvářet a prověřovat jednotlivé výroky o kvalitativním hodnocení příslušného území jak řešit kolize znalostí pomocí revize důvěry uplatnit hodnocení pomocí tříhodnotové logiky využít schvalovací teorii pro řešení prostorových úloh Budete schopni: provést kvalitativní hodnocení posuzovaných variant s využitím několika přístupů

122 Času potřebný na nastudování kapitoly 3 hodiny. Mějme území rozdělené na 2 plochy, A a B. Zajímáme se, zda jsou zalesněné nebo ne. Předpokládejme, že vlastnost zalesněný není vágní. Potom každá plocha je nebo není zalesněna, jiná alternativa není dovolena (Worboys, Duckham, 2004, s. 340). Výroky: p: plocha A je zalesněna q: plocha B je zalesněna Množina možných řešení (4 možné světy) jsou (Worboys, Duckham, 2004): World W1: p je pravdivé, q je pravdivé World W2: p je pravdivé, q je nepravdivé World W3: p je nepravdivé, q je pravdivé World W4: p je nepravdivé, q je nepravdivé V realitě je možný v daný čas právě jeden svět. Náš stav znalostí je reprezentován množinou (reprezentace) světů, do které patří ty světy, které jsou uskutečnitelné (feasible) (Worboys, Duckham, 2004). Úplná neznalost znamená, že všechny světy jsou možné, dostáváme množinu {W1,W2, W3, W4} (Worboys, Duckham, 2004). Úplnou znalost v tomto případě zastupuje jednoprvková množina (množina přípustných řešení se zredukovala na pouhou 1 variantu), např. {W4} (Worboys, Duckham, 2004). Čím větší je množina možných světů, tím větší nepřesnost existuje v našich znalostech. Prázdná množina vzniká jako výsledek nekonzistentní informace (Worboys, Duckham, 2004). Nepřímá informace může vést ke snížení neurčitosti (zvýšení přesnosti naší báze znalostí) (Worboys, Duckham, 2004). Např. pokud víme, že obě plochy mají stejný typ pokryvu, dostáváme množinu {W1, W4}. Zatím předpokládáme, že vlastnosti obou ploch jsou na sobě nezávislé. To však nemusí být vždy pravda.

123 Do plochy A vložíme menší plochu C. Přidáme výrok: r: plocha C je zalesněna. Předpokládejme existenci omezení, že pokud je plocha A zalesněna, musí být plocha C také zalesněna, protože leží uvnitř. Ale naopak to nemusí platit. To nám umožňuje rozšířit doménu možných světů (Worboys, Duckham, 2004): - World W1: p je pravdivé, q je pravdivé, r je pravdivé - World W2: p je pravdivé, q je nepravdivé, r je pravdivé - World W3: p je nepravdivé, q je pravdivé, r je pravdivé - World W4: p je nepravdivé, q je nepravdivé, r je pravdivé - World W5: p je nepravdivé, q je pravdivé, r je nepravdivé - World W6: p je nepravdivé, q je nepravdivé, r je nepravdivé Nejsou zde zařazeny varianty vyloučené novým omezením, tj. nemůže nastat situace, že by současně p bylo pravdivé a r nepravdivé (Worboys, Duckham, 2004). Důvěra (belief) je jistota (přesvědčení) (conviction) agenta o pravdivosti tvrzení (Worboys, Duckham, 2004). Znalost je oprávněná správná důvěra (justified true belief) (Worboys, Duckham, 2004). Např. mohu věřit, že prase létá, ale nemohu to vědět, protože je to ve skutečnosti nepravdivé. Zatímco veškeré znalosti jsou pravdivou důvěrou, ne všechna pravdivá důvěra je znalostí. Např. mohu věřit, že existuje život na vzdálených hvězdách, což skutečně náhodně může nastat, ale není to dostatečné pro znalost musí mít alespoň nějaké ospravedlnění ve formě důkazů nebo inference (Worboys, Duckham, 2004). Je proto potřebné rozlišovat mezi důvěrou a znalostí. Pro tento účel se používá modální operátor (modal opeator) před příslušným výrokem (Worboys, Duckham, 2004). Proto místo výroku: p: plocha A je zalesněna použijeme Kp (knowledge p): Vím, že plocha A je zalesněna nebo Bp (belief p): Věřím, že plocha A je zalesněna Důvěra a znalost mohou být propojeny vztahy, např. (Worboys, Duckham, 2004): K p Bp

124 znamená, že pokud nevím, zda situace p není pravdivá, mohu věřit v p. Jinak řečeno, pokud nevím o tom, že by nastala negace výroku p, mohu věřit v p. Např. pokud nemám důkaz o tom, že by plocha A nebyla zalesněná, mohu věřit, že je zalesněná. Z výše uvedené diskuse lze odvodit, že (Worboys, Duckham, 2004): Kp p tedy pokud vím, že p je pravdivé, musí být p pravdivé. Např. pokud mám důkaz o tom, že plocha A je zalesněná, musí být zalesněná. a Kp p tj. pokud nevím, že p je pravdivé, musí být p nepravdivé. Tento axiom označují jako předpoklad uzavřeného světa v databázové teorii pokud db neobsahuje příslušné tvrzení, pak platí negace tvrzení. Podle Pokorného platí: Kdykoliv tvrzení R(a 1,..,a k ) není odvoditelné z EDB a pravidel, pak R(a 1,..,a k ). Pozor, není to důkaz ( vyjadrovaci-sila/img0.html). Platí i další vztahy (Worboys, Duckham, 2004). axiom pozitivního sebepoznání (positive introspection): Kp KKp (pokud vím, že p je pravdivé, potom vím, že vím, že p je pravdivé) axiom negativní sebepoznání (negative introspection): Kp K Kp (pokud nevím, že p je pravdivé, potom vím, že nevím, že p je pravdivé) Modální formalismus může být rozšířen pro více agentů (Worboys, Duckham, 2004). Pak je zvykem indexem označit toho, komu patří znalost či důvěra. Např. výrazem K a p se vyjadřuje fakt, že agent A zná tvrzení p Revize důvěry Pokud získáme novou informaci, která protivořečí (kontraindikuje) naši aktuální důvěru, musíme ji revidovat (Worboys, Duckham, 2004, s. 343). Typicky není systém revize důvěry monotónní, protože důvěra může růst i klesat v závislosti na povaze nově přidávané informace. Klíčovou otázkou v libovolném nemonotónním systému revize důvěry je, kterou stávající důvěru zrušit a kterou ponechat. Naneštěstí je systém často provázaný a jedna důvěra staví na druhé, takže odebrání 1 důvěry může způsobit kaskádový efekt napříč bází znalostí, který lze jen těžko predikovat (Worboys, Duckham, 2004).

125 Příklad Gärdenfors (Worboys, Duckham, 2004): Pták chycený v pasti je labuť. Pták chycený v pasti pochází ze Švédska. Švédsko je součástí Evropy. Všechny evropské labutě jsou bílé. Nově naučená informace: Pták chycený v pasti je černý. Tato nová informace je implicitně nekonzistentní se stávající bází znalostí, protože ta vede k výroku, že Pták chycený v pasti je bílý. Otázka je, kde měnit důvěru, abychom obnovili konzistenci systému. Vypuštění 1 z 5 výroků nahoře povede k obnovení konzistence. Ale kterého? Techniky pro rozhodnutí, kterou část vypustit, zpravidla hodnotí sílu důvěry (strength of belief held) pomocí vztahu preference (preference relation), často v částečném pořadí (partial order) (Worboys, Duckham, 2004). Např. se snažíme ponechat významnější či obecnější části informace (např. Švédsko je součástí Evropy. ) než údaj o aktuální situaci ( Pták chycený v pasti je labuť. ). Také příliš paušální výroky jsou vhodnými kandidáty na změnu důvěry (zde Všechny evropské labutě jsou bílé ). Obecně se doporučuje revidovat důvěru tam, kde je množství změny nejmenší tedy uplatnit princip minimální změny (principle of minimal change) (Worboys, Duckham, 2004). Jiný možný princip, princip blízkosti, upřednostňuje důvěru, která vzešla z důkazů získaných časově nebo prostorově blízko ke studovanému fenoménu. Např. pokud máme 2 nekonzistentní informace, upřednostníme tu novější (bližší k přítomnosti) (Worboys, Duckham, 2004). Dalším doporučeným principem je možnost ověření. Výše uvedené první 3 výroky je potenciálně možné ověřit. Avšak 4.pravidlo ( Všechny evropské labutě jsou bílé ) je obtížné nebo nemožné ověřit bez pochybností, protože bychom museli kontrolovat každou labuť v Evropě. Univerzální prohlášení mohou tvořit silná pravidla, ale mohou být předmětem občasných protipříkladů, jako byla švédská černá labuť. Namísto nepodmíněného univerzálního pravidla je lepší říci (Worboys, Duckham, 2004): Všechny evropské labutě jsou bílé (kromě těch, u kterých máme důkaz o opaku v případě konkrétní labutě). Uplatňuje se tedy tzv. implicitní (výchozí) zdůvodnění (default reasoning) (Worboys, Duckham, 2004). Výchozí zdůvodnění v tomto případě bude, že všechny evropské labutě jsou bílé, avšak připouští se existence odchylek. Výchozí zdůvodnění se dodržuje až do doby, kdy je nějaký důkaz v protikladu, pak se stáhne (Worboys, Duckham, 2004). Výchozí zdůvodnění je opět příkladem nemonotónního rozhodování Revize a aktualizace Mezi revizí a aktualizací je třeba jasně rozlišovat (Worboys, Duckham, 2004, s. 344). Informační systém prochází aktualizací, pokud nově přicházející informace indikuje změnu v aplikační doméně (v realitě). Informační systém prochází revizí, pokud nově přicházející

126 informace mění jeho chování, ale nedochází ke změnám v aplikační doméně (Worboys, Duckham, 2004). Následující obrázek ukazuje oba případy. Obrázek 63 Rozdíl mezi revizí a aktualizací (Worboys, Duckham, 2004) Vysvětlivky: application domain aplikační doména, pastoral land pastvina, forest les, arable crops orná půda Tříhodnotová a vícehodnotová logika V klasické logice se připouští pouze možnost, že výrok je pravdivý nebo nepravdivý. Ale co když nevíme, nebo nemá smysl mu přiřadit hodnotu nebo je výrok příliš vágní (Worboys, Duckham, 2004). Plocha A je zalesněna nemusíme mít důkazy o tom, zda je či není, ale také může být koncept zalesněn příliš vágní, pokud se v ploše nachází několik stromů a nejsme si jisti, zda to stačí na prohlášení, že je plocha zalesněna. V tříhodnotové logice se doplňuje stav nevím, zpravidla označený U nebo?. Kleenův systém poskytuje tabulky, ve kterých jsou uvedeny výsledky tříhodnotové logiky pro běžné logické operace negace, průnik, sjednocení, implikace a ekvivalence (tab. 10). Tabulka 10 Kleenův systém pravdivostních tabulek výsledků tříhodnotové logiky pro logické operace průnik, sjednocení, negace, implikace a ekvivalence (podle Worboys, Duckham (2004, s. 346) ^ T? F V T? F T T? F T? F

127 T T? F T T T T T F T T? F T T? F??? F? T????? T?????? F F F F F T? F F T F T T T F F? T Rozšířením tříhodnotové logiky je pak mnohahodnotová logika. Takový logický systém se nazývá stupňovaná teorie (degree theory), protože hodnoty jsou interpretovány jako stupně pravdy. Příkladem jsou třeba fuzzy množiny (Worboys, Duckham, 2004). Příklad uplatnění tříhodnotové logiky pro vytvoření regionů vznikajících z vágních prostorových vztahů V příkladu byl hodnocen prostor univerzity v Keele a pozice jednotlivých budov. Autoři se dotazovali studentů ve 2 skupinách na vzájemnost blízkost objektů (Worboys, Duckham, 2004). Obrázek 64 Poloha jednotlivých budov (Worboys, Duckham, 2004) Kladná skupina odpovídala, zda si myslí, že je pravdivý výrok, že objekt X je blízko objektu Y. Záporná skupina odpovídala, zda si myslí, že je nepravdivý výrok, že objekt X je blízko objektu Y. Hodnocení museli provádět jen na základě svých představ (mentálních mapy) nenahlíželi do map (Worboys, Duckham, 2004). Pro každý pár objektů pak posuzovali počet kladných a záporných tvrzení o blízkosti. U některých objektů vzniklo jasné hodnocení, u jiných ne. Nakonec autoři spočítali významnost a ukázali výsledky v mapě s využitím tříhodnotové logiky (obr. 65) (Worboys, Duckham, 2004).

128 Obrázek 65 Výsledné hodnocení blízkosti objektů pro knihovnu (Worboys, Duckham, 2004) Vysvětlivky: significantly near významně blízko, neither significantly near or not near ani významně blízko ani významně neblízko, significantly not near významně neblízko Dobrým příkladem konfliktu v případě klasifikace je rozdíl mezi definicemi močálu ve dvou klasifikačních systémech 1990 LCMGB a LCM2000. Pro jeho řešení se použije následující postup (Fisher et al., 2006). Expert popisuje vztahy mezi prvky dvou klasifikací, založené na popisu jeho expertních názorů. Vztahy jsou vyjádřeny v tříhodnotové logice, která popisuje párové vztahy. Mohou být Anticipated (A, předpokládané), Uncertain (U, nejisté) a Improbable (I, nepravděpodobné). Párové vztahy mohou být vizualizovány v tabulce 11 a ve skutečnosti reprezentují vztahy M:N, třída v systému je vztažena ke všem třídám ve druhém systému. Tabulka 11 Expertní hodnocení vztahů mezi klasifikačními třídami v obou mapách jako příklad využití tříhodnotové logiky (upraveno podle Fisher et al., 2006) Mapa 2 Mapa 1 A B C D X předpokládané nepravděpodobné nepravděpodobné nejisté Y nejisté nepravděpodobné předpokládané nejisté Z nepravděpodobné předpokládané nejisté předpokládané Předpokládejme, že parcela X ze systému LCM2000 byla překryta s LCMGB a vygenerovala následující sadu pixelů (Fisher et al., 2006): Třída A, 53 pixelů; Třída B, 7 pixelů; Třída C, 11 pixelů; Třída D, 24 pixelů Pokud použijeme definici vztahů dle tabulky 11, je možné vygenerovat hodnoty pro množinu (A, U, I) sečtením počtu pixelů odpovídajících jednotlivým typům vztahů a získáme (53, 18, 24) (Fisher et al., 2006). Expert vyjádřil neurčité, pozitivní i negativní, vztahy v tabulce. To vede k použití Dempster-Shafer teorie.

129 9.1.4 Schvalovací teorie O nespecifičnost mluvíme, když je přidělení objektu do třídy závislé na interpretaci. Za takových okolností je potřebný expertní názor, který určí sadu pravidel nebo tvrzení, které dovolí rozhodnout o zařazení do třídy. Schvalovací teorie (endorsment theory) je nenumerický přístup vyvinutý Cohenem (1985, in Comber et al., 2006), který byl využit v některých automatizovaných mapovacích aplikacích, kde se kombinovaly různé typy důkazů. Alokace geografických objektů do tříd může být subjektivním procesem. Kvalitativní zdůvodňovací formalismus vyžaduje definici 4 aspektů Comber et al., 2006): 1) Musí být identifikována a pojmenována rozdílná síla expertových tvrzení (důvěry) 2) Musí být specifikována interakce mezi tvrzeními, pokud se kombinují s cílem dosažení celkového schválení. 3) Musí být určen systém hodnocení stupně schválení 4) Musí být definovány kvalitativní limity důvěry, aby bylo možné rozhodnout, kdy už důkazy narostly tak, aby byla dostatečně důvěryhodná. Uvažujme např. o územní parcele, která byla dříve klasifikována (vymapována) jako třída X a existuje podezření, že se změnila. Síla důvěry různých typů tvrzení může být definována následovně (Comber et al., 2006): Definitivní (definite) pokud jeden důkaz indikuje, že hypotéza je pravdivá (takový typ důkazů je vzácný) Pozitivní (positive) pokud důkaz podporuje hypotézu, ale může být rozporován Průměrný (average) - pokud důkaz přináší jistou podporu hypotéze Žádný (none) - pokud důkaz nepřináší žádnou podporu hypotéze Podobně může být specifikována interakce mezi tvrzeními, která generuje schválení hypotézy (Comber et al., 2006): Určitá (certain) - pokud důkaz poskytuje definitivní důvěru a žádnou definitivní nedůvěru Přesvědčující, pravděpodobná (believed) pokud kombinovaný důkaz poskytuje pozitivní důvěru a žádnou pozitivní nedůvěru Uvěřitelná (plausible) pokud je průměrná důvěra větší než průměrná nedůvěra Sporná (conflicting) pokud jsou váhy pro důvěru a nedůvěru stejné Na základě expertního hodnocení je k dispozici řada možných variant územní změn a důvěra v různé typy důkazů pro každý hypotetický směr změny (tab.). Expert také popíše, jak

130 důležité jsou rozdílné typy důkazů, relativně pro každý pár důkaz-změna (všimněte si, že žádný z důkazů pro hypotetickou změnu není definitivní). Např. pro změnu ze stavu X na stav A jsou informace o kvalitě půdy mnohem významnější než pro změnu ze stavu X na stav D. Reálné příklady jsou převzaty z Skelsey (1997, in Comber et al., 2006), kde bylo uvedeno, že pro detekci kácení lesa je nejdůležitější informací změna spektrálního chování kombinovaná s prostorovými pravidly, a Comber at al. (2004, in Comber at al., 2006), kde se zvažuje možnost polopřirozené změny územního pokryvu a kombinace mnoha typů důkazů. Tabulka 12 Důkazy pro rozdílné směry změny krajinného pokryvu z třídy X, síla důvěry a charakteristika změněné plochy. Souhlas v charakteristikách je vyžlucen. Možný směr změny ze stavu X na nový stav: Důkazy A B C D Změna ve spektrálním signálu je.. půdní typ je.. Sklon je..silná (průměrná)..chudý (pozitivní)..příkrý (průměrná)..slabá (pozitivní)..bohatý (pozitivní)..mírný (žádná)..slabá (pozitivní)..bohatý (průměrná)..příkrý (průměrná)..velmi silná (průměrná)..dobrý (žádná)..velmi příkrý (pozitivní) Změněná plocha (co bylo zjištěno) Slabá Bohatý Příkrý V hodnoceném území je změna spektrálního signálu slabá, půdní typ je bohatý a sklon území je příkrý. Pro hypotézu A poskytují data průměrnou podporu pro jedno kritérium (sklon území). Podobně jsou ohodnoceny ostatní hypotézy. Následně je možné ohodnotit každou hypotézu podle schématu pro kombinaci důvěry: Hypotéza A má jen jednu sadu průměrné důvěry z důkazů, proto je uvěřitelná (plausible). Hypotéza B má dvě sady pozitivní důvěry, proto je pravděpodobná (believed). Hypotéza C má dvě sady průměrné důvěry a jednu s pozitivní důvěrou, proto je pravděpodobná (believed). Hypotéza D nemá žádnou důvěru na základě důkazů. V tomto případu jsou 2 hypotézy pravděpodobné (believed), ale zatímco více důkazů podporuje C, váha důkazů je větší pro B, protože má 2 sady positivní důvěry. Ačkoliv příklad poskytuje jen omezené množství typů důkazů, směrů změn a schvalování důvěry, ilustruje základní aplikaci schvalovací teorie. Schvalovací model používá mnohem více heuristický přístup ke zdůvodnění neurčitosti než jiné přístupy. Umožňuje specifikovat definici prvků důvěry a jejich interakce podle uvažovaného problému. Adresuje otázku, co je zdrojem neurčitosti ve zdůvodňovacím

131 procesu a kde neurčitost do procesu vstupuje. Význam odpovědi je pak interpretován pomocí metody, která kombinuje jednotlivá schválení (endorsements) podle jejich ocenění (Comber et al., 2006). Metoda má řadu výhod (Comber et al., 2006): Umožňuje reprezentovat obecnou znalost (např. expertní mapovací pravidla) přirozeným způsobem Symbolický přístup metody umožňuje reprezentovat situaci a provádět zdůvodnění na základě znalostí o problémech reálného světa. Tento typ zdůvodňování dovoluje odvodit interference z dílčích znalostí. Výsledky schvalovacího přístupu obsahují explicitní informaci o tom, proč se něčemu důvěřuje nebo nedůvěřuje. Následně je možné to patřičně zohlednit a rozhodnout, jak reagovat - a to je velmi užitečná vlastnost vzhledem k subjektivitě mapování. Přístupy založené na schvalování jsou nejvhodnější pro situace, kdy subjektivní stupně důvěry se obecně nechovají jako pravděpodobnosti nebo nejsou matematicky vyjádřeny. Fáze vyvozování (elicitation) znalostí při konstrukci expertního systému je jednou z možných aplikační oblastí: experti často nejsou ochotni vyjadřovat své názory číselně. Naopak metoda může být nevhodná pro oblasti, ve kterých má číselný stupeň důvěry jasnou sémantiku a existují adekvátní výrazy pro všechny informace o neurčitosti (Comber et al., 2006). Shrnutí: Z možných stavů kvalitativního hodnocení je možné vybudovat množinu možných stavů světa. Pomocí dalších výroků ji modifikujeme, přitom je nutné rozlišovat mezi důvěrou (vírou) a znalostí (tj. oprávněnou správnou důvěrou). V případě nového výroku, který odporuje stávajícímu stavu, je nutné provést revizi důvěry, často s uplatněním principu minimální změny (minimalizace dopadů změny důvěry), principu blízkosti (upřednostnění důkazů časově a prostorově blízkých) nebo možnosti ověření. Vedle revize důvěry probíhá v systému rovněž aktualizace informací. Klasickou práci s výroky v binární logice je možné rozlišit do tříhodnotové logiky (nově stav nevím ), což je spojeno s rozšířením základních logických operací pomocí Kleenova systému. Pro řešení problému nespecifičnosti se používá schvalovací teorie. Hodnotí se do 4 úrovní síla důvěry daného tvrzení, klasifikuje se i varianta interkace mezi tvrzeními. Expertní hodnocení se provádí pro všechny přípustné varianty. Každá varianta je nakonec oceněna (schválena) pomocí schématu pro kombinaci důvěry.

132 Kontrolní otázky: 1) Pro daný příklad výroku sestavte množinu přípustných řešení (světů) a vysvětlete na nich pojmy úplná neznalost a úplná znalost. 2) Vysvětlete rozdíl mezi důvěrou a znalostí. 3) K čemu se používá axiom uzavřeného světa? 4) Vysvětlete uplatnění vztahu preference pro rozhodnutí o revizi důvěry. 5) Vysvětlete uplatnění principu minimální změny pro rozhodnutí o revizi důvěry. 6) Vysvětlete uplatnění principu blízkosti pro rozhodnutí o revizi důvěry. 7) Vysvětlete uplatnění principu možnosti ověření pro rozhodnutí o revizi důvěry. 8) Jaký je rozdíl mezi aktualizací a revizí důvěry? 9) Nakreslete pravdivostní tabulku pro průnik v tříhodnotové logice. 10) Nakreslete pravdivostní tabulku pro sjednocení v tříhodnotové logice. 11) Nakreslete pravdivostní tabulku pro negaci v tříhodnotové logice. 12) Nakreslete pravdivostní tabulku pro implikaci v tříhodnotové logice. 13) Nakreslete pravdivostní tabulku pro ekvivalenci v tříhodnotové logice. 14) Jaké jsou základní požadavky pro schvalovací teorii? 15) Jak se hodnotí síla důvěry tvrzení ve schvalovací teorii? 16) Jak se specifikují různé interakce mezi tvrzeními ve schvalovací teorii? 17) Pro jaké situace je schvalovací teorii nejvhodnější?

133 10 Kvantitativní přístupy k neurčitosti Cílem kapitoly je vysvětlit vybrané kvantitativní přístupy k hodnocení neurčitosti, zejména podmíněnou pravděpodobnost, Bayesovu teorii a Dempter-Shafer teorii pro hodnocení prostorových problémů. Stručný obsah kapitoly: Podmíněná pravděpodobnost Baeysova teorie pravděpodobnosti Dempster-Shafer teorie Důvěryhodnost, uvěřitelnost a operace Pro studium kapitoly jsou nezbytné základní znalosti z teorie pravděpodobnosti. Získáte znalosti o: 3 základních konceptech používaných pro kvantitativní hodnocení neurčitosti pro vymezení a ověřování hypotéz Teoretické i praktické uplatnění Dempster-Shafer teorie Budete umět: Porovnat možnosti použití teoretických přístupů k hodnocení neurčitosti v případech práce s kvantifikovatelnými hypotézami Uplatnit rozšířené vnímaní práce s výroky a hypotézami, postavené na konceptech Dempster-Shafer teorie Budete schopni: Využít Dempster-Shafer teorie, případně Baesovy teorie či podmíněné pravděpodobnosti pro řešení praktických příkladů rozhodování o pravděpodobném řešení Času potřebný na nastudování kapitoly 4 hodiny

134 Dále jsou uvedeny vybrané kvantitativní přístupy k hodnocení neurčitosti Podmíněná pravděpodobnost Z oblasti pravděpodobnosti je koncept podmíněné pravděpodobnosti nejdůležitější a nejvíce používaný pro kvantitativní hodnocení neurčitosti. Výpočet podmíněné pravděpodobnosti (Worboys, Duckham, 2004): p( U V ) p( U V ) p( V ) Příklad pro výpočet podmíněné pravděpodobnosti zkoumá výskyt právě jednoho sesuvu v území. Sesuv je menší než plocha 1 buňky a spadá přesně dovnitř buňky (Worboys, Duckham, 2004). Úvodní odhad byl, že sesuv je v oblasti A. p(sesuv v A) = 4/9 Nový důkaz tvrdí, že sesuv může být pouze v regionu B. Jaká je pravděpodobnost, že sesuv je v regionu A, za podmínky že je v regionu B? 2 p( U V ) p ( U V ) 9 p( V ) Obrázek 66 Dva regiony, ve kterých se hodnotí pravděpodobnost výskyt sesuvu (Worboys, Duckham, 2004) Vysvětlivky: dotted boundary tečkovaná hranice, dashed boundary čárkovaná hranice Výše uvedená pravděpodobnost je objektivní, protože nezáleží na stavu našeho poznání, ale na vnějších podmínkách (Worboys, Duckham, 2004) Bayesova teorie pravděpodobnosti Bayesova teorie pravděpodobnosti se používá pro ocenění vztahu, u kterého je dostupná (nebo se předpokládá) úplná informace. Bayesova teorie pravděpodobnosti je rozšířením klasické teorie pravděpodobnosti a dovoluje kombinovat primární znalosti s novou pravděpodobností

135 (důkazy) ve výsledný odhad pravděpodobnosti, že je hypotéza pravdivá (Worboys, Duckham, 2004). p( h e) i p( e h) p( h) p( e hi) p( hi) p(h e) posteriorní pravděpodobnost p(e h) pravděpodobnost nového zjištění, že je hypotéza pravdivá p(h) pravděpodobnost pravdivosti hypotézy bez ohledu na nový důkaz (apriorní p.) Jednoduchý příklad (Worboys, Duckham, 2004): Máme jen 2 hypotézy - h a její doplněk h (tedy h není pravda), jejichž pravděpodobnosti jsou p(h) a p( h). Např. je oblast zaplavena nebo ne? První otázka zní - máme nějakou apriorní pravděpodobnost? Jestliže ne, pak p(h) = 0.5 (stejně pravděpodobné jsou obě odpovědi). Pravděpodobnost nového zjištění p(e h) vyjadřuje pravděpodobnost dodatečně zjištěného důkazu ve prospěch hypotézy. Termín p(h e) je posteriorní pravděpodobnost. Zahrnutím další vnější informace k hypotéze je modifikována pravděpodobnost každé hypotézy vzhledem k nové informaci. Pokud je k dispozici kompletní informace, může být jediným problémem při přesném stanovení pravděpodobnosti nedostatek důkazů. Přidáním dalších důkazů můžeme teoreticky získat správné pravděpodobnostní ocenění každé hypotézy. Důvěra, stupeň důvěry (degree of belief) je definován podobně jako pravděpodobnost (Worboys, Duckham 2004, s. 351). Podobné jsou i 3 hlavní zákony, definujeme i Bayesovu funkci důvěry podobnou podmíněné pravděpodobnosti (Worboys, Duckham, 2004). BEL( U V ) BEL( V U) BEL( U V ) BEL( V ) BEL( U V ) BEL( U) z těchto 2 rovnic můžeme vyloučit člen průniku a získat vztah: BEL( V U) BEL( U V ) BEL( U)* BEL( V )

136 Je zřejmé, že je to Bayesův vztah posteriorní důvěra BEL(U V) je získána násobením apriorní důvěry BEL(U) a pravděpodobnosti (věrohodnosti), že V nastane, pokud nastalo U. BEL(V) funguje jako standardizační konstanta, která zajistí, aby BEL(U V) bylo mezi 0 a Dempster-Shaferova teorie Dempster-Shaferova teorie (D-S) představuje rozšíření Bayesovy teorie pravděpodobnosti. Dovoluje vyjádření nevědomosti při řízení neurčitosti. Základním předpokladem D-S teorie je, že nevědomost existuje přímo ve znalostech a že důvěra (belief) v hypotézu nemusí být nutně doplňkem důvěry v negaci této hypotézy (Eastmann, 2001). Jinými slovy Důvěra v hypotézu A + Důvěra v negaci hypotézy A se nemusí rovnat 1 (díky neurčitosti našich znalostí), tedy platí že: D(A)+D( A) <> 1 Uvažujme následující příklad (Worboys, Duckham 2004, s. 352): b1: existuje život v soustavě Sírius b2: neexistuje život v soustavě Sírius Podle rovnic o pravděpodobnosti, musí být b 1 +b 2 =1, ačkoliv máme velmi málo důkazů pro každý z výroků. Pokud nemáme žádný důkaz, přidělíme oběma stavům stejnou pravděpodobnost (resp. úroveň důvěry), tj. b 1 =b 2 =0,5. Takto jsme ale přidělili vysokou úroveň důvěry na základě nedostatku důkazů. Takový model odporuje naší intuici. D-S teorie se zaměřuje na kombinaci stupně důvěry či podpory poskytované jednotlivými důkazy. Poskytuje metodu vhodnou pro změnu důvěry ve výrok ve světle nového důkazu. Uvažujme 2 krajní situace: Case 1 (informační chudost, information scarcity): existuje zhruba stejně malé množství důkazů na obou stranách. Case 2 (informační přebytek, information glut): existuje zhruba stejně velké množství důkazů na obou stranách. Bayesova analýza tyto 2 případy neumí rozlišit, vždy přidělí 0,5. Dempster-Shafer zavádí nové koncepty a rozlišuje mezi důvěryhodností (credibility) a uvěřitelností (věrohodnost, plausibility), a v negativním vyjádření mezi nedůvěrou a nedostatkem důvěry (Worboys, Duckham 2004). Důvěryhodnost (credibility) je množství důkazů, které máme ve prospěch věci. Uvěřitelnost (plausibility) je nedostatek důkazů, které máme proti věci.

137 credibility(p)=bel(p) plausibility(p)= 1-Bel( p) V případě informační chudosti je důvěryhodnost (credibilita) p i důvěryhodnost negace p malá, ale uvěřitelnost (plausibilita) a uvěřitelnost negace p jsou velké. V případě informačního přebytku je důvěryhodnost p a důvěryhodnost negace p větší, ale uvěřitelnost (plausibility) pro p i uvěřitelnost negace p jsou malé. Následující jednoduchý příklad ukazuje, jak se kombinují pravděpodobnosti s vědomostí (podle Mám subjektivní mínění o spolehlivosti kamaráda Josefa. Moje pravděpodobnost, že je spolehlivý, je 0,9, a moje pravděpodobnost, že je nespolehlivý = 0,1. Kamarád přiběhl a prohlásil, že mi spadla větev na auto. Toto prohlášení, které musí být pravdivé, pokud je spolehlivý, neznamená nutně, že pokud o něm vím, že je nespolehlivý, bude prohlášení falešné. Tedy jeho svědectví samotné ospravedlňuje 0,9 (90%) důvěru v to, že mi spadla větev na auto, ale 0 důvěry v to, že mi nespadla větev na auto (ne 0,1 stupně důvěry!). Tato 0 neznamená, že jsem si jistý, že žádná větev nespadla na moje auto; prostě to znamená, že Pepovo svědectví mi nedává žádný důvod věřit, že nic (žádná větev) nespadlo na moje auto. 0,9 a 0 dohromady vytvářejí funkci důvěry (belief function). Předpokládejme, že znám také nějakého Karla, kterému věřím úplně stejně (moje pravděpodobnost, že je spolehlivý, je 0,9; a moje pravděpodobnost, že je nespolehlivý, se rovná 0,1). Také on přišel a nezávisle na Josefovi mi oznámil, že mi spadla větev na auto. Jev, že je Karel spolehlivý, je nezávislý od jevu, že je Josef spolehlivý. Tedy mohu tyto jevy násobit pravděpodobnost, že jsou oba spolehliví = 0,9*0,9=0,81. Pravděpodobnost jevu, že ani jeden není spolehlivý = 0,1* 0,1=0,01. Pravděpodobnost jevu, že aspoň jeden je spolehlivý je 1-0,01=0,99. Protože oba prohlásili totéž, takže pokud aspoň jeden z nich je spolehlivý, tak to znamená, že určitě větev spadla na auto. Proto mohu přidělit stupeň důvěry 0,99. Předpokládejme nyní, že si oba odporují. Josef řekl, že spadla, Karel že nespadla. V tomto případě nemohou mít oba pravdu, a tedy nemohou být oba spolehliví jenom jeden je spolehlivý nebo ani jeden není spolehlivý. Apriorní pravděpodobnost jevu, že Josef je spolehlivý a Karel je nespolehlivý je 0,09 (0,9*0,1). To samé platí pro jev, že jenom Karel je spolehlivý (a Josef je nespolehlivý). Apriorní pravděpodobnost jevu, že ani jeden není spolehlivý je 0,01 (0,1*0,1). Suma těchto pravděpodobností (celý prostor pro hypotézy) je 0,19. Posteriorní pravděpodobnosti (de facto přepočet do součtu 1) jsou 9/19 pro Josef je spolehlivý, ale Karel ne, 9/19 pro Karel je spolehlivý, ale Josef ne a 1/19 pro jev, že ani jeden není spolehlivý. Takže teď máme 9/19 stupně důvěry, že větev spadla na auto (protože

138 Josef je spolehlivý) a 9/19 stupně důvěry, že větev nespadla na auto (protože Karel je spolehlivý). Všimněme si, že důvěra v určitou hypotézu (spadla větev na auto?) je získána na základě pravděpodobnosti odpovědi na jinou otázku (je svědek spolehlivý?). Postup při uplatnění D-S teorie Nejdříve Dempster-Shaferova teorie definuje hypotézy v hierarchické struktuře odvozené ze základní sady hypotéz, které tvoří rámec posuzování (frame of discernment) (Eastmann, 2001). Rámec posuzování má podobný význam jako rámec pro rozhodování, tj. je to sada alternativních hypotéz nebo tříd, které mohou být přiřazeny entitám. D-S t. považuje tuto sadu za vyčerpávající. Avšak v praxi D-S zachází s hierarchickými kombinacemi jako s dodatečnými hypotézami. Navíc v kontextu GIS a DPZ mohou existovat dobré důvody, aby se některé neřešitelné vazby zpracovávali jako hierarchická kombinace a pracovalo se s nimi jako s každou jinou evidencí nezávislé třídy/hypotézy, do které může být entita přidělena. Např. rámec posuzování může zahrnovat [les] a [mokřiny] a pak přítomnost vazby na [zalesněné mokřiny] může de facto reprezentovat přítomnost třídy zalesněné mokřiny, která nemůže být řešena bez použití lepšího důkazu (Eastmann, 2001). Mějme rámec posuzování, který zahrnuje 3 základní hypotézy {A,B,C}. Struktura hypotéz, pro které D-S přijímá důkazy (evidence), zahrnuje všechny možné kombinace [A], [B], [C], [A,B], [A,C], [B,C], [A,B,C]. První 3 se označují jako prosté (sigleton) hypotézy, protože obsahují jen jeden základní prvek. Zbytek jsou neprosté hypotézy (non-singleton), které obsahují více než jeden základní prvek. D-S rozeznává tyto hierarchické kombinace, protože se často stává, že důkazy, které máme, podporují jen určité kombinace hypotéz bez možnosti dalšího rozlišení submnožin. Např. chceme identifikovat třídy [listnatý] a [jehličnatý] v rámci klasifikace krajinného pokryvu a nalezneme důkaz z černobílé letecké fotografie, která rozlišuje pouze zalesněné a nezalesněné oblasti, ale ne typ lesa. V tomto případě musíme použít tento důkaz na podporu výskytu hierarchické kombinace [listnatý, jehličnatý]. Jasně to ukazuje stav neurčitosti. Současně to ale poskytuje cennou informaci, kterou je možné výhodně využít pomocí D-S procedury v libovolném výroku o důvěře v předložené hypotézy (Eastmann, 2001). [A,B,C] [A,B] [A,C] [B,C] [A] [B] [C] Obrázek 67 Hierarchická struktura podmnožin v celé množině [A,B,C] D-S teorie rozeznává 6 důležitých konceptů, které využívá při vyjadřování vazeb některé z těchto hypotéz (Eastmann, 2001): přímá statistická pravděpodobnost (basic probability assignement, BPA),

139 neznalost (ignorance, IGN), důvěra (belief, BEL), nedůvěra (disbelief, DIS), uvěřitelnost (plausibility, PLS), interval důvěry (interval of belief). BPA představuje podporu, že část důkazu je poskytována pro jednu z těchto hypotéz a ne pro jejich podmnožiny. Tedy BPA pro [A,B] reprezentuje množství podpory pro [A,B], ale ne pro [A] nebo [B], tj. je to stupeň podpory pro nějakou nerozeznatelnou kombinaci [A] a [B] (Eastmann, 2001). m(a,b) = BPA pro [A,B] BPA pro danou hypotézu může být odvozena pomocí odhadu nebo z empirických dat. BPA je mírou mlhavosti (fuzzy měření). BPA i 1 Tedy BPA pro konečnou nadmnožinu ([A,B,C] v tomto případě) se rovná doplňku sumy všech ostatních BPA. Toto množství tedy reprezentuje nevědomost (ignorance) - neschopnost potvrdit jakýkoliv stupeň rozlišení mezi prvky v rámci posuzování (Eastmann, 2001). Důvěra (belief) reprezentuje celkovou podporu hypotézy a je odvozována z BPA pro všechny podmnožiny této hypotézy (Eastmann, 2001): BEL(X) ( m ( Y)) kde Y je prvkem X Tedy důvěra v [A,B] bude vypočtena jako ΣBPA pro [A,B], [A], [B]. V tomto příkladu důvěra reprezentuje pravděpodobnost, že entita je A nebo B. Všimněte si, že v případě prostých hypotéz jsou BPA a důvěra totožné. Nedůvěra (disbelief, DIS) - na rozdíl od Bayesovské teorie pravděpodobnosti není nedůvěra automaticky doplňkem k důvěře, ale reprezentuje stupeň podpory všech hypotéz, které nemají průnik s danou hypotézou (Eastmann, 2001). DIS(X) = BEL ( X) kde X=not(X) DIS([A,B]) = BPA[C] = 0,1 Jako protiklad k důvěře vyjadřuje uvěřitelnost (plauzibility, PLS) stupeň, do kterého se až hypotéze může důvěřovat (přesněji nemůže nedůvěřovat). PLS(X) = 1 - BEL ( X) kde X=not(X)

140 PLS(X) = 1 DIS(X) BEL( X) = Σ(m(Y)) tedy PLS(X) = Σ(m(Y)) kde Y X je prázdná množina kde Y X není prázdná množina Důvěra reprezentuje stupeň přímých důkazů na podporu hypotézy, uvěřitelnost indikuje stupeň, do kterého se podmínky zdají být správné pro tuto hypotézu, i když je nedostatek přímých důkazů. Pro každou hypotézu je tedy důvěra spodní hranicí pro naše přijetí této hypotézy, zatímco uvěřitelnost reprezentuje horní hranici. Rozdíl mezi nimi je označován jako interval důvěry (belief interval) a reprezentuje stupeň neurčitosti v přijetí nebo nepřijetí hypotézy. Platí, že pro plochy s velkým intervalem důvěry každý nový důkaz přispívá největším stupněm informace, zde má tedy informace největší hodnotu. D-S teorie je proto velmi užitečná z hlediska porozumění informační hodnotě a v návrhu strategie sběru dat, tak, aby byla co nejefektivnější při snižování neurčitosti. Při srovnání s Bayesovou teorií pravděpodobnosti je zjevné, že D-S teorie lépe zachází s neurčitostí obsaženou v datech. V Bayesově teorii pravděpodobnosti pracujeme jen s tzv. prostými hypotézami a předpokládá se, že jsou vyčerpávající (tj. jejich součet je 1). Není odlišena nevědomost. Nedostatek důkazů pro hypotézu tedy vytváří evidenci (důkazy) proti dané hypotéze. Tyto požadavky a předpoklady však často nejsou v reálných rozhodovacích situacích garantovány. Např. pro sledování výskytu určitého ptačího druhu bude používána evidence ve formě zaznamenaných hnízd. Absence hnízda v daném místě však neznamená, že by se zde sledovaný druh nevyskytoval. Může to znamenat, že zde prostě nebylo provedeno pozorování nebo že se pozorovatel spletl při určování přítomných druhů. Právě pro takové případy je D-S teorie vhodná (Gordon and Shortliffe 1985, Srinivasan and Richards 1990, in Eastmann, 2001) Dempster-Shaferovy agregační operátory D-S kombinační pravidla poskytuje důležité nástroje pro agregaci nepřímých důkazů a neúplné informace. Výchozí stav znalostí je reprezentován ve formě plné hierarchizace hypotéz a jim přidělených BPA. Z nich je možné skládáním odvozovat další informace (Eastmann, 2001). m( z) 1 Jestliže m1( X ) m2( Y)... kde. X Y Z m1( X ) m2( Y)... kde. X Y m X ) m ( Y) prox Y 1 ( 2 pak se z rovnice stává: m Z) m ( X ) m ( Y) prox Y Z ( 1 2

141 Celková důvěra, uvěřitelnost a interval důvěry se pro každou hypotézu vypočítá na základě BPA odvozené z výše uvedené rovnice. Ve většině případů je nevědomost redukována po přidání nové informace (Eastmann, 2001) Implementace v IDRISI Modul BELIEF tvoří a ukládá stav znalostí pro plnou hierarchii hypotéz. Navíc dovede agregovat novou evidenci s existující znalostí a vytvářet nový stav znalostí, který může být reprezentován ve výstupní mapě důvěry, uvěřitelnost nebo intervalu důvěry spojenou s libovolnou hypotézou (Eastmann, 2001). BELIEF nejdříve vyžaduje definice základních hypotéz. Po jejich zadání jsou vytvořeny všechny hypotézy v hierarchické struktuře (seznam hypotéz). Pro každý zadávaný důkaz jsou vyžadovány datové vrstvy BPA (rastr s reálnými čísly 0 až 1) spolu s indikací podporované hypotézy. Položka BUILD KNOWLEDGE BASE v menu ANALYSIS začlení novou evidenci do systému přepočítáním stavu znalostí pomocí D-S kombinačních pravidel. Výsledek může být prezentován jako výsledný obrázek ve formě důvěry, uvěřitelnosti nebo intervalu důvěry pro libovolnou hypotézu. Všechny získané informace jsou uloženy do znalostní báze pro pozdější využití (Eastmann, 2001). Používání BELIEF (Eastmann, 2001): 1. Může být obtížné rozhodnout, zda určitou část důkazů použít na podporu důvěry (belief) v hypotézu nebo naopak doplněk tohoto obrazu použít na podporu nedůvěry (disbelief). Pokud použijeme zjištění na podporu nedůvěry, neovlivňujeme důvěru v danou hypotézu, ale její věrohodnost (uvěřitelnost). Např. v příkladu je blízkost ke stálé vodě používána jako obraz vzdáleností na podporu nedůvěry pro možnost existence archeologické lokality. Důvodem je to, že v blízkosti vody není žádný důvod věřit, že by tam lokalita mohla či nemohla být, avšak u míst vzdálených od vody je výborný důvod předpokládat, že by tam lokalita neměla existovat. Vždy opatrně uvažujte, zda data poskytují pravdivý důkaz na podporu hypotézy nebo pouze podporují uvěřitelnost (tedy nemožnost popřít danou možnost). 2. Při zadávání nedůvěry indikujete, že důkaz podporuje kolekci všech hypotéz, které nezahrnují sledovanou hypotézu. Podle příkladu - jestliže budeme podporovat nedůvěru pro A, znamená to, že podporujeme důvěru pro [B,C]. 3. Pro každou linii důkazů začleněných v BELIEF si ověřte, že jste zadali všechny hypotézy, v nichž působí určitá část důkazu. Důvod - BELIEF potřebuje provést vnitřní výpočty ve vztahu k neznalosti a tedy potřebuje vědět také o hypotézách, pro které důkaz nepřidává podporu. Potřebuje zadat pouze BPA obrazy, jestliže důkaz podporuje hypotézu se stupněm vyšším než 0. Pro hypotézy, které důkaz nepodporuje, modul přiřazuje nulovou pravděpodobnost.

142 4. Pro každou linii evidence BPA obraz musí obsahovat hodnoty z oboru reálných čísel mezi 0 a 1. Příklad (Eastmann, 2001): Máme odhadnout, kde se mohou nacházet archeologická místa určité kultury. Rozhodovací rámec zahrnuje 2 základní prvky: [lokalita] a [nelokalita]. Celkový počet hypotéz, které generuje D-S teorie v plné hierarchii je 2 n -1. Implicitně je zde přítomna vnější hypotéza, která je pravdivá pro nulovou množinu a kterou D-S považuje automaticky za nepravdivou. Tedy v tomto případě [nelokalita] není prázdnou množinou, ani to není automaticky předpokládáno D-S. V tomto případě je uvedena jako pozitivní hypotéza a člen rámce rozlišitelnosti. Jsou použity čtyři důkazy: lokalizace známých míst, četnost povrchových artefaktů (např. střepy keramiky), blízkost k stálé vodě, sklon svahu. První důkaz je považován za přímý důkaz existence archeologické lokality, protože v blízkosti nebo přímo na známém místě se vyskytují často i další archeologické lokality. Pokud se v daném místě lokalita nevyskytuje, nemáme žádnou přímou podporu pro hypotézu je zde nelokalita. Tedy důkaz je většinou nepřímý. Pro oblasti, které jsou blíže k existujícím archeologickým místům, můžeme předpokládat vyšší pravděpodobnosti hypotézy [lokalita]. Pro transformaci mapy vzdálenosti od existujících archeologických lokalit na mapu pravděpodobností (BPA obraz pro podporu hypotézy [lokalita]) může být použita fuzzy funkce příslušnosti. Četnost povrchových artefaktů je také používána jako další důkaz v podpoře hypotézy [lokalita]. Vzdálenost od stálé vody a svažitost (ve formě datových vrstev) jsou však použity pro obraz nedůvěry (disbelief). Důvody jsou zřejmé. Je pravděpodobné, že lokalita nemohla mít příliš daleko zdroj vody. Nemáme však důvod se domnívat, že každé místo v blízkosti vody má vyšší pravděpodobnost lokality, naopak místa, která jsou velmi vzdálená od vody, mají vysokou pravděpodobnost nelokality. Obdobně u sklonu svahu. Čím příkřejší svah, tím vyšší pravděpodobnost, že je to nelokalita. Obě datové vrstvy jsou proto přepočteny do rozsahu 0-1 pomocí fuzzy funkce příslušnosti, aby poskytly podporu hypotézy [nelokalita].

143 Obrázek 68 Pravděpodobnostní obrazy: hypotéza [lokalita] založená na vzdálenosti od známého místa, hypotéza [lokalita] založená na četnosti povrchových artefaktů, hypotéza [nelokalita] založená na vzdálenosti od stálé vody a hypotéza [nelokalita] založená na sklonu svahu. (Eastmann, 2001) Modul BELIEF kombinuje informace ze všech 4 zdrojů a je použit k vytvoření obrazů důvěry, uvěřitelnosti a intervalu důvěry pro hypotézu [lokalita]. Obrázek 69 Důvěra (vlevo), uvěřitelnost (uprostřed) a interval důvěry (vpravo) pro přítomnost archeologických lokalit z D-S kombinace důkazů. (Eastmann, 2001) Shrnutí: Podmíněná pravděpodobnost je nejjednodušším způsobem hodnocení kombinace výroků, což v případě prostorových objektů může být zjištěno z geometrických pravděpodobností. Bayesova teorie pravděpodobnosti kombinuje primární znalosti s novou pravděpodobností. Dempster-Shaferova teorie definuje rámec posuzování jako množinu všech možných řešení a zavádí nové koncepty (přímá statistická pravděpodobnost, neznalost, důvěra, nedůvěra, uvěřitelnost, interval důvěry), které se používají pro přesnější popis situace, zejména zohledňují nevědomost a typ vztahu důkazu k prověřované hypotéze. Pro práci s novými koncepty se používají speciální agregační operátory.

144 Kontrolní otázky: 1) Vysvětlete výpočet podmíněné pravděpodobnosti na geometrickém příkladu 2 tvrzení, které se částečně prostorově překrývají. 2) Vysvětlete princip Bayesova přístupu k výpočtu pravděpodobnosti. 3) Co je hlavní výhodou Dempster-Shafer teorie vůči Bayesově teorii? 4) Co je důvěryhodnost? 5) Co je uvěřitelnost? 6) Co je rámec rozhodování? 7) Jak je konstruována důvěra v určitou hypotézu? 8) Jak se vyjádří nedůvěra v určitou hypotézu? 9) Popište způsob odvození uvěřitelnosti. 10) Jaká je interpretace intervalu důvěry?

145 11 Validita a objektivnost Cílem kapitoly je vysvětlit koncept validity a objektivnosti a ukázat druhovou pestrost typů validity, kterou zpracovatel dat musí zohlednit při práci. Stručný obsah kapitoly: Vnitřní a vnější validita Validizace Různé typy validity Dopady ohrožení validity Objektivnost Získáte znalosti o: Konceptu validity a objektivnosti Typech validity Přístupech k zajištění validity Budete umět: Vnímat problémy způsobené omezenou validitou Navrhnout způsob zpracování se zajištěním objektivní validity celého procesu Budete schopni: Zabránit nedůvěryhodnému a zkreslenému zpracování a vyhodnocení Času potřebný na nastudování kapitoly 30 minut.

146 Validitou rozumíme ověření výsledků z hlediska jejich platnosti. Validita se zkoumá při procesu měření, zpracování dat, modelování obecně jakýkoliv proces může být posuzován z hlediska validity. Validitou procesu rozumíme jeho shodu s reálnou podstatou jevu, se vzorem, který má reprezentovat, nahrazovat, či formulovat. Rozlišujeme vnitřní a vnější validitu. Typicky vnitřní validita znamená prověření pomocí dat, která byla součástí sady dat, použité pro výpočet. Např. křížová validace u krigování, pokud byla data součástí datové sady použité pro odvozování parametrů interpolace. Ve výsledku se projevuje např. prostorová konfigurace známých bodů. Proto výsledky interní validace nelze považovat za zcela objektivní. Vnější validita je pak ověření výsledků pomocí nezávislých dat, která nebyla použita ve výpočtu (ani pro odvození parametrů či konfigurace výpočtu). Podrobněji se zaměříme na validitu měření: Starší definice validity měření vyžadovala, aby procedura měření skutečně měřila to, co předpokládáme, že měří. V současnosti se vychází z požadavku, že uživatel má z výsledků měření odvodit správná rozhodnutí. Validita odkazuje na přiměřenost, smysluplnost a užitečnost specifických závěrů, jež se provádějí na základě výsledku měření. Validizace měřící metody je procesem k podpoře takového přesvědčení. Posuzují se provedená rozhodnutí, ne měřící instrument jako takový (Hendl, 2006). Bez spolehlivosti (reliability) nelze dosáhnout validity. Avšak ani velká spolehlivost (reliabilita) není zárukou validity. Hendl (2006) tvrdí, že malá reliabilita zakrývá, nedostatečná validita znetvořuje. Koncept validity je triviální, když se jedná o měření znaků jako délka těla. Stává se však komplikovanou záležitostí, jestliže se jedná o osobní charakteristiky (např. v psychologii) nebo jiné konstruktury sociálních věd. Při přezkušování validity rozlišujeme obsahovou, kriteriální a konstruktovou validitu (Hendl, 2006). Obsahová validita zjišťujeme, do jaké míry měření skutečně reprezentuje dané vlastnosti nebo kvality. Např. při konstrukci vědomostních testů si všímáme, zda otázky pokrývají celou problematiku zkoušené látky (Hendl, 2006). Kriteriální validita posuzuje se shodou výsledků zaváděné procedury s nějakou jinou kriteriální proměnnou nebo s jiným měřením, které je již ověřené. Ověřená procedura měření se někdy nazývá zlatý standard. Zahrnuje následující 2 typy, kde hlavním rozdílem mezi nimi je čas provedení měření (Hendl, 2006). 1. Souběžná kriteriální validita - hodnota kriteriální proměnné existuje v současnosti. 2. Prediktivní kriteriální validita - hodnota kriteriální proměnné se realizuje v budoucnu. Např. mnoho přijímacích (vstupních) testů škol či personálních agentur musí být vyhodnoceno ve vztahu k prediktivní validitě.

147 Kriteriální validita měřícího testu se také měří pomocí korelačního koeficientu. Při hodnocení kriteriální validity korelujeme hodnoty posuzovaného měření s hodnotami měření standardem. Při hodnocení prediktivní variability korelujeme hodnoty testových výsledků s kriteriálními hodnotami získanými po uplynutí určité doby a odhadujeme tak schopnost predikovat tyto hodnoty hodnoceným testem (Hendl, 2006). Konstruktová validita se zabývá teoretickými aspekty měřeného konstruktu (proměnné). Důkazy o konstruktové validitě musí mít konvergentní charakter (test prokazuje vztahy k těm proměnným, jež podle teorie očekáváme) nebo diskriminační charakter (naopak nemá vztah k proměnným, když tento vztah neočekáváme). V této etapě přezkušování nové procedury je důležité, zda výsledky predikují stavy, které podle teorie očekáváme. Např. test výkonnosti by měl nabývat nízké hodnoty, pokud sportovec nedosahuje dobrých výsledků v soutěžích. Jedna z konstruktových validit se nazývá zjevná validita (face validity), jež se zjišťuje na základě prostého úsudku expertů o validitě měření. Konstruktová validita se má vždy ověřovat v rámci daného teoretického kontextu (Hendl, 2006). Kromě toho se rozlišuje externí a interní validita. Externí validita se týká možnosti zobecnit naše výsledky mimo rámec naší studie (Hendl, 2006). Interní validita znamená stupeň průkaznosti studie z hlediska působení nezávisle proměnných na závisle proměnné, jež sledujeme. Zabývá se tím, do jaké míry můžeme usuzovat o příčinných vztazích mezi oběma typy proměnných (Hendl, 2006). Např. při posuzování účinnosti intervence (např. terapie) chceme vědět, zda zlepšení výsledků testů u pokusné skupiny jedinců skutečně způsobila intervence, a ne nějaké jiné příčiny. Externí validita znamená, že se podobný efekt projeví i u jiné skupiny jedinců, u které uplatníme stejnou intervenci. Obecně platí, že větší interní validitu mají dobře provedené experimenty, avšak na rozdíl od výběrových studií založených na náhodném výběru mají menší externí validitu (Hendl, 2006). Při praktickém uplatňování těchto konceptů se využívá Pearsonův koeficient korelace (Hendl, 2006). To je ovšem jen jeden z faktorů ovlivňujících interní validitu. Další možnosti uvádí Hendl (2006, s. 69) ve vztahu k validitě závěrů experimentálních studií. Efekty interní validity zkreslující výsledky (podle Hendl, 2006): selekce jedinců do studovaných skupin (použití nevhodného výběru) maturace jedna skupina může prodělat změny ve vztahu k předmětu zkoumání rychleji než druhá historie vnější vliv zásah zvenčí, co změní podmínky 1 skupiny mortalita odchod některých jedinců ze skupiny

148 regrese k průměru při učení testování opakované testy vedou k tréninku a dosahování lepších výsledků změna procedury měření Externí validita prověřuje, zda platí závěry i pro jiné situace a pro realitu (Hendl, 2006). Rozlišuje se populační validita a ekologická validita. Ekologická validita se zabývá tím, zda platí závěry i pro použití jiného testu, realizace v jiném prostředí nebo např. v kratším čase na vyplnění testu (Hendl, 2006). Ohrožení externí validity může nastat z hlediska populační validity nebo z hlediska ekologické validity (Hendl, 2006). Ohrožení populační validity (Hendl, 2006): populace v experimentu a cílová populace se liší (desetiletí školáci x všichni školáci) interakce mezi ošetřením (programem) a osobnostní charakteristikou. Jedinci v experimentu mohou mít zvláštní vlastnosti, které v interakci s ošetřením mohou ovlivnit výsledek testu. Ohrožení ekologické validity (Hendl, 2006): definice konstruktorů interference více ošetření hawthornský efekt (efekt novosti, rivality, očekávání experimentátora) senzitivita mezi pre- a posttestem interakce mezi historií a ošetřením interakce mezi dobou měření a ošetřením 11.1 Objektivita měření Objektivita měření znamená stupeň toho, jak jsou výsledky nezávislé na výzkumníkovi nebo měřeném jedinci ve smyslu subjektivního úmyslného či neúmyslného zkreslení (Hendl, 2006). Při měření fyzikálních veličin v laboratoři se tento problém objevuje zřídka, ale při hodnocení měření v sociologii nebo psychologii se musí objektivita pečlivě přezkušovat. Objektivitu měřícího prostředku někdy hodnotíme tak, že korelujeme výsledky vyhodnocení dvěma hodnotiteli (Hendl, 2006, s. 265). Tím dostáváme relativní míru objektivity. Dnes je tendence používat spíše absolutní míry shody, jako je kappa koeficient.

149 Shrnutí: Validitou procesu rozumíme jeho shodu s reálnou podstatou jevu. Uživatel má z výsledků měření odvodit správná rozhodnutí. Vnitřní validita se ověřuje pomocí dat, která byla součástí sady dat, použité pro výpočet. Vnější validita používá nezávislá data, která nebyla použita ve výpočtu. Obsahová validita prověřuje, do jaké míry měření skutečně reprezentuje dané vlastnosti nebo kvality. Kriteriální validita ověřuje shodu výsledků zaváděné procedury s nějakou jinou kriteriální proměnnou nebo s jiným měřením. Konstruktová validita se zabývá teoretickými aspekty měřeného konstruktu. Kromě toho se rozlišuje externí a interní validita. Je sledovat ohrožení externí validity, populační validity a ekologické validity. Objektivitu je možné hodnotit pomocí kappa koeficientu nebo pomocí korelace výsledků hodnocení dvou hodnotitelů. Kontrolní otázky: 1) Co rozumíme validitou? 2) Jaký je rozdíl mezi vnitřní a vnější validitou? 3) Co je validizace? 4) Vysvětlete obsahovou validitu? 5) Co je kriteriální validita a jaké typy obsahuje? 6) Co je prediktivní kriteriální validita? 7) Co je konstruktorová validita a jaké typy obsahuje? 8) Proč je důležitá externí validita? 9) V čem spočívá ohrožení populační validity? 10) V čem spočívá ohrožení ekologické validity? 11) Co je hawthornský efekt?

150 12 Vizualizace neurčitosti Cílem kapitoly je vysvětlit možnosti vizualizace neurčitosti prostorových dat nebo vizualizace neurčitých prostorových dat. Stručný obsah kapitoly: Obecné kartografické metody vizualizace neurčitosti Kartografické vyjadřovací prostředky a grafické proměnné pro vizualizaci neurčitosti Aplikační využití kartografických prostředků Analýza a hodnocení vizualizace Empirické studie vizualizace neurčitosti Ke studiu kapitoly jsou potřebné znalosti základů tematické kartografie a základní principy a rozdělení neurčitosti. Získáte znalosti o: 3 základních metodách používaných pro vizualizaci neurčitosti Vlastnostech vnitřních a vnějších grafických proměnných Způsobech hodnocení vizualizace neurčitosti Konkrétních příkladech uplatnění Budete umět: Vybrat a aplikovat správnou kartografickou metodu a vhodné konkrétní grafické prvky pro vizualizaci neurčitosti. Navrhnout způsob hodnocení vhodnosti použitého zobrazení neurčitosti Budete schopni: Navrhnout a aplikovat správnou metodu, která usnadní vnímání a interpretaci neurčitosti obsažené v prezentaci prostorového problému Času potřebný na nastudování kapitoly 4 hodiny.

151 Většina této kapitoly byla upravena z habilitační práce P. Kubíčka (Kubíček, 2012). Zhang a Goodchild (2002, in Kubíček, 2012) zdůrazňují význam kartografie pro zvýšení obecného povědomí o nejistotě. Bylo prokázáno, že vizualizace může být použita pro zlepšení komunikace o nejistotě dat v rámci prostorových analýz a rozhodovacích procesů a napomůže také k lepšímu pochopení modelovaného reálného světa. Nejistota může vykazovat určité prostorové vzory a vizualizace je může odhalit a sloužit nejenom jako prostředek prezentace prostorových dat, ale především jako nástroj explorace a vizuální analýzy. Okasnen (2006, in Kubíček, 2012) si v souladu s názorem Heuvelinka a kol. (2006, in Kubíček, 2012) klade otázku, jak je možné, že po 20 letech výzkumu prostorové nejistoty není daná problematika prakticky implementována v jednotlivých GIS programových produktech. Příčinu vidí ve 4 hlavních oblastech: 1. Chyby ve vstupních datech a použitých modelech je potřeba charakterizovat, což je záležitost obtížná a často také finančně a časově náročná. 2. Propagace chyb je drahá a není jednoduché ji finančně zdůvodnit (zejména pro velké tvůrce prostorových dat). 3. Komplexnost modelování chyb vyžaduje specifickou expertízu. 4. Uživatelé geografických dat a informací nemají o vyjádření nejistoty pro své analýzy zájem, protože jejich výsledkem jsou obvykle jednoznačná vyjádření a vysvětlovat vliv nejistoty představuje nejenom výzvu, ale zároveň komunikační a argumentační zátěž Obecné kartografické metody vizualizace nejistoty MacEachren (1992, in Kubíček, 2012) se systematicky zabýval možnostmi kartografické vizualizace nejistoty a navrhnul 3 základní metody finální prezentace (Kubíček, 2012): 1. Srovnávací mapy (maps compared, side-by-side images) jak pro zvolený atribut, tak pro vyjádření jeho nejistoty jsou vytvořeny samostatné mapy. Vedle sebe jsou zobrazeny 2 mapová okna stejného rozsahu a měřítka, kde v jednom je zobrazen hlavní jev a ve druhém jeho neurčitost. Doprovodná mapa může hodnotit vyjádření kvality stanovení dat v ploše. Patří sem např. mapa neurčitosti vyvozené interpolací (jako je třeba krigovací rozptyl), která doprovází vlastní mapu hodnot (obr. 70).

152 Obrázek 70 Odhad obsahu Zn pomocí krigování a doprovodná mapa neurčitosti způsobené interpolací (krigovací rozptyl) 2. Kombinované mapy (maps combined, mergedóverlayed images) jak zvolený atribut, tak jeho neurčitost jsou znázorněny na jedné mapě (v 1 mapovém okně) za využití vhodných grafických proměnných. Jedná se vlastně o bivariační mapy využívající kombinace dvou proměnných (Ware, 2004, in Brus, 2013). Používá se např. vybělení míst s vysokou neurčitostí. Obrázek 71 Kombinovaná mapy hloubky půdy a nejistoty vizualizovaná pomocí metody vybělení whitening (vlevo) a odpovídající legenda (vpravo) (Kubíček, 2012, upravil podle Hengel et al.,2004). 3. Využití interaktivního exploračního nástroje, který umožní snadnou manipulaci způsobů vizualizace jak pro atribut, tak pro jeho neurčitost. Sekvenční mapy (sequenced images podle MacEachren 1992, 1995 in Kubíček, 2012.), kde se v případě dynamické

153 vizualizace lze použít sérií obrazů. V sérii se pravidelně střídají mapa jevu a mapa jeho neurčitosti. K dalším metodám podle Brus (2013) patří: 4. Animace: pro vizualizaci je využito standardních parametrů počet změn, změna polohy, průhlednost, pořadí, datum zobrazení, frekvence, synchronizace (Gerharz a Pebesma, 2009, in Brus, 2013). 5. Interaktivní reprezentace: nejistotu lze například zobrazovat pomocí interakce myši (Van der Wel et al., 1998, in Brus, 2013) 6. Sonifikace a psycho-vizuální vizualizace: vnesení akustických proměnných pro vizualizaci nejistoty (změna rytmu, hlasitosti, vibrací nebo pomocí blikajících textových zpráv. Zásadní problém při využití zvuku je skutečnost, že zvuk je většinou spojen pouze s konkrétními body, zatímco grafické metody umožňují globální pohled na danou situaci. Obrázek 72 Interaktivní vizualizační nástroj pro posouzení nejistoty pomocí střídající se sekvence indexu rizika a jeho nejistoty (Kubíček, 2012, upravil podle MacEachren 1992) Kartografické vyjadřovací prostředky a grafické proměnné pro vizualizaci nejistoty Vyjadřovací prostředky jsou základním elementem znázorňovacích metod (Kubíček, 2012). Koncepce vyjadřovacích prostředků vychází z teorie kartografických znaků, jejímž rozvojem a užíváním se zabývá kartografická sémiologie. Za jejího zakladatele je považován francouzský kartograf Bertin (1967, in Kubíček, 2012), který při studiu grafické sémiologie dospěl k názoru, že kartografické znaky tvoří specifický grafický systém. Za základní grafický prostředek považuje skvrnu, u které definoval šest proměnných (základních optických vlastností tvar, velikost, barvu, intenzitu, hustotu, orientaci) a přiřadil jim pět charakteristik asociaci, disasociaci, selekci, ordinalitu a proporcionalitu. Jeho návrh byl rozšířen o návrhy MacEachrena (1994, in Kubíček, 2012) a Wilkinsona (1999, in Kubíček,

154 2012). Kombinací grafických proměnných a jejich charakteristik lze dosáhnout až šedesáti devíti variant grafických prostředků, které je možné uplatnit při kartografickém vyjadřování (Voženílek a kol 2010, in Kubíček, 2012). Z konceptuálního hlediska MacEachren (1992, in Kubíček, 2012) upozornil na skutečnost, že způsob vizualizace nejistoty a využité kartografické metody pro její vizualizaci jsou proměnlivé v závislosti na účelu a funkci mapy podle DiBiaseho (1990, in Kubíček, 2012) křivky. Pro kombinované mapy se používají 2 skupiny grafických proměnných pro vizualizaci nejistoty (Gershon, 1998, in Kubíček, 2012): Vnitřní (intrinsic) grafické proměnné mění svoji hodnotu v souvislosti s měnící se nejistotou například sytost barvy (colour saturation). V tomto případě se jedná o použití barev v podstatě stejným způsobem, jako u konvenčních tematických map (Tyner 2010, in Brus, 2013). Běžné vnitřní metody při tomto postupu kombinují data a nejistotu společně pomocí dvojrozměrné reprezentace (MacEachren et al., 2005, in Brus, 2013). Vnější (extrinsic) grafické proměnné znamenají, že k standardnímu kartografickému vyjádření jsou přidány další objekty, jako jsou šipky, sloupcové grafy a další objekty různých tvarů. Z analýzy literatury je zřejmé, že většina volených přístupů spadá to kategorie vnitřních grafických proměnných (Slocum et al., 2005, in Kubíček, 2012) Přístupy založené na vnitřních grafických proměnných Podle Kubíčka (2012) je třeba si položit otázku, jak jednotlivé grafické proměnné (s možnými doplňky a modifikacemi) lze logicky provázat s různými druhy datové nejistoty. Mezi nejdůležitější přístupy patří využití vizuálních proměnných jako barvy, velikosti, pozice, ostrosti, jasnosti, fuzziness, saturace, průhlednosti a ostrosti hran. Lze také nalézt případy využití jiných barevných modelů nebo aplikaci různých textur nebo Perlínova šumu (Conninx et al., 2011, in Brus, 2013). Vhodnost využití jednotlivých proměnných navrhnul a utřídil MacEachren (1992, in Kubíček, 2012) a zároveň upozornil na možná úskalí při nesprávném použití grafické proměnné. Hlavní rozdíl tkví zejména v logické asociaci vhodných grafických proměnných s odpovídající kvantitativním a kvalitativním typem vizualizovaných datových proměnných. Velikost a odstín jsou nejvhodnější pro vizualizaci nejistoty kvantitativních proměnných. Na druhé straně barva, tvar a částečně orientace je využitelná pro nejistotu v kvalitativních proměnných. Textura, navzdory tomu, že ji lze kvantifikovat, je nejvhodnější pro binární klasifikaci jistý x nejistý, jíž lze použít pro ve zvláštních případech pro oba typy dat (Kubíček, 2012).

155 Obrázek 73 Přehled základních grafických proměnných podle Bertiny doplněných o návrhy MacEachrena (1994) a Wilkinsona (1999). (Kubíček, 2012, upravil podle Kunz, 2011). Vysvětlivky: color hue barevný odstín, color value intenzita, color saturation nasycení, shape tvar, size velikost, orientation orientace, texture textura, transparency průhlednost, clarity - zřetelnost Ačkoliv měla Bertinova typologie obrovský vliv na kartografické myšlení, nelze ji přijímat jako dogma (Kubíček, 2012). Bertinovy závěry o vhodnosti či nevhodnosti grafických proměnných pro konstrukce mapy jsou zde prezentovány jako fakt. Řada autorů se přitom shoduje, že se jedná o konceptuální teorii, jak by mapy a grafické znaky měly být vytvářeny, avšak ta je podepřena pouze omezenými empirickými zkušenostmi a prakticky žádnými testy. Mezi hlavní kritické připomínky také patří fakt, že typologie není kompletní a objevila se řada možných rozšíření. Mezi hlavními lze uvést (Kubíček, 2012): Morrison (1974) přidává uspořádání prvků (arrangement) a třetí potenciální rozměr barvy nasycení (saturation). Caivano (1990) rozšířil pojem textura o další rozměry, kdy rozlišuje v rámci textury samotné také směr (směrování), velikost vzorku a jeho hustotu. Dokumentuje tak složitost celého konceptu a také vztah mezi základními proměnnými a složenými, k nimž patří právě textura. MacEachren (2004) navrhuje použití termínu vzor (pattern) pro vizuální proměnnou vyšší úrovně, která představuje jednotku s určitým tvarem, velikostí, orientací, texturou (v Bertinově smyslu) a uspořádáním. MacEachren (1992) doporučoval zejména sytost barvy (saturation) jako ideální pro vyjádření míry nejistoty, a to zejména jako syté barvy pro velmi jistou informaci a méně syté pro nejistou informaci. MacEachren (1992 navrhnul dokonce další grafickou proměnnou s názvem zaostření (focus), kterou lze dělit na 3 další grafické proměnné ostrost hranic (contour crispness), rozlišení (resolution) a průhlednost (fog transparency).

156 Obrázek 74 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty (Kubíček, 2012, podle MacEachrena 1992). Obrázek 75 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty - rozlišení (Kubíček, 2012, podle MacEachrena 1992). Obrázek 76 Ukázky přidaných grafických proměnných pro vizualizaci nejistoty - průhlednost (Kubíček, 2012, podle MacEachrena 1992). Při zkoumání jednotlivých znaků a jejich vizualizace hovoří MacEachren (2004, in Kubíček, 2012) zejména o barevném nasycení a zaostření (clarity), jako o vhodných kandidátech pro vizualizaci nejistoty. Proměnnou zaostření lze dělit na 3 další grafické proměnné (Kubíček, 2012) ostrost hranic (contour crispness), rozlišení (resolution) a průhlednost (fog transparency). Ostrost má vztah ke způsobu vymezení hranic datového prvku zatímco ostré hranice vymezují jistá data, neostré přechody signalizují nejistá data. Rozlišení se vztahuje k úrovni detailu prostorových

157 dat s daným atributem s úrovní nejistoty klesá prostorové rozlišení (velikost gridu) rastrové databáze. Průhlednost znamená, jak snadno jsou daná data viditelná přes vrstvu mlhy umístěné jako krycí vrstva. Čím je vyšší nejistota, tím je krycí vrstva hustší a méně průhledná. Zatímco první dvě subkategorie jsou vhodné k reprezentaci primární informace o znázorněných jevech, je průhlednost, respektive využití mlhy, vhodná k propojení na metadata tedy data o mírách kvality a s ní související nejistoty datové sady. Může být například použita k omezení přístupu (rozuměj vizuálního využití při čtení mapy) k více nejistým datům (Kubíček, 2012). V tabulce 13 jsou dokumentovány rozšíření grafických proměnných podle MacEachrena pro výběr a zhodnocení vhodnosti grafické proměnné ve vztahu k mapovaným jevům a jejich podstatě (Kubíček, 2012). Tradiční tištěné mapy mají pouze omezené možnosti, jak informovat uživatele o měřítcích jejich pravdivosti. MacEachren předpokládá, že užití barevného nasycení, stejně jako zaostření, budou komplikovat celkovou čitelnost mapy a poukazuje na nutnost využití dynamických mapových výstupů (Kubíček, 2012). Schweizer a Goodchild (1992, in Kubíček, 2012) doporučují pro mapování jevu využít barevné škály (value) zatímco pro kategorie nejistoty využít sytost barvy. Autoři při testování komplexní škály 15 kategorií hodnot jevu a 15 kategorií nejistoty prokázali, že uvedený přístup je příliš komplexní pro intuitivní čtení mapy bez užití legendy. MacEachren (2004, in Kubíček, 2012) doporučuje maximálně 3 kategorie pro úrovně obou proměnných pro efektivní čtení, případně využití dynamického prostředí s možností změny úrovně zobrazené nejistoty pomocí interaktivní legendy. Tabulka 13 Přehled statických vizuálních proměnných a jejich vhodnost pro reprezentaci různých typů geografických dat (upraveno podle MacEachren 2004, in Kubíček, 2012). Poměrové (ratio) Pořadové (ordinální) Výčtové (nominální) Pozice vhodné vhodné Vhodné Velikost vhodné vhodné vhodné Jas barvy málo vhodné vhodné nevhodné Sytost barvy málo vhodné vhodné nevhodné Barevný odstín málo vhodné málo vhodné vhodné Ostrost nevhodné vhodné nevhodné Rozlišení nevhodné vhodné nevhodné Průhlednost nevhodné vhodné málo vhodné Textura málo vhodné málo vhodné vhodné Orientace málo vhodné málo vhodné vhodné Uspořádání nevhodné nevhodné málo vhodné tvar nevhodné nevhodné vhodné Davis a Keller (1997, in Kubíček, 2012) doporučili barevný odstín, barvu a texturu jako nejvhodnější kandidáty pro vyjádření nejisté informace při použití statických metod. Jiang a kol. (1995, in Kubíček, 2012) a následně Hengel (2003, in Kubíček, 2012) pracovali

158 s pojmem světlost (lightness) a doporučili pro vyjádření nejistoty právě intenzitu zesvětlení. Metodu nazvali vybělení (whitening). Dalšího vývoje se dočkala také vizualizace pomocí průhlednosti (transparency) (Kubíček, 2012). Původní návrh od MacEachrena předpokládal, že průhledné popředí sdělí uživateli mapy, že danou oblast lze považovat za jistou, zatímco zatažené popředí, ve kterém je obtížné vidět data reprezentovaná na pozadí, bude indikovat nejistou informaci. Drecki (2002, in Kubíček, 2012) používá termín neprůhlednost (opacity), kdy pro klasifikace družicových snímků doporučil používat neprůhledné objekty za jisté. Uvedená alternativa může být vhodná ve spojení s izolovanými znaky. V případě bodového symbolu můžeme tak vysoce průhledný objekt považovat za nejistý, zatímco neprůhledný objekt za jistý. V tomto případě vysoká průhlednost ponechává skutečnou podstatu objektu na představě uživatele mapy. Oba případy jsou dokumentovány na obrázku 58. Zatímco pro první (průhlednost) lze považovat za jistý spodní symbol ve sloupci c), tak pro druhou metodu (neprůhlednost) je jistý horní symbol, který dává vnitřnímu kruhu jasnou podobu (Kubíček, 2012) Přístupy založené na vnějších grafických proměnných Pro vnější grafické proměnné je klíčovou prací publikace PANG (2001, in Kubíček, 2012), který popisuje využití glyfů (glyph) v podobě složených bodových symbolů pro vyjádření nejistoty. Glyfy jsou grafické objekty, které pomocí více grafických proměnných (velikost, barva, tvar, směr ) mohou vyjadřovat současně více aspektů dat včetně jejich nejistoty. Autor navrhoval užití glyfů s ohledem na možnost vyjádření více druhů nejistoty současně, ale také upozornil na jejich vizuální komplikovanost. Problém většiny technik založených na glyfech je, že vnímání velikosti glyfů uživatelem může být také ovlivněno okolní scénou, která může vytvářet iluzi změny velikosti (Sterzer, Rees, 2006, in Brus 2013). Drecki (2002, in Kubíček, 2012) zkoumal metody vyjádření nejistoty pro klasifikované družicové snímky a navrhnul pět odlišným metod pro vyjádření výsledků a jejich nejistoty. Zajímavá je metoda nazývaná čtverce (squares), při níž je pomocí velikosti čtvercového glyfu v mřížce reprezentována nejistota klasifikace, zatímco hodnota klasifikace je vyjádřena barvou na pozadí). Na základě testů byla tato metoda vyhodnocena jako nejvíce efektivní a překonala výsledky metody neprůhlednosti, či barevného nasycení. Zajímavý je fakt, že objektivní výsledky nejsou zcela v souladu se subjektivním hodnocením uživatelů, kteří sice považovali metodu čtverců za dobrou, ale měli také silné preference pro vyjádření pomocí barevné sytosti. Právě vizualizace pomocí sytosti barvy skončila v objektivním hodnocení na posledním místě a vykázala nejhorší výsledky (Kubíček, 2012).

159 Obrázek 77 Bodové znaky znázorňující nejistotu pomocí (a) sytost barvy, (b) ostrost hranic, (c) průhlednost (Kubíček, 2012, upravil podle Drecki, 2002). Drecki (2009, in Kubíček, 2012) se ve své rozsáhlé studii o kartografických metodách vizualizace a současných výzvách v oblasti vizualizace nejistoty vrátil také k tradičním metodám vyjadřování kvality dat a s nimi související nejistoty. Zmiňuje zejména diagramy spolehlivosti, popisy znaků a využití specifických znaků pro vyjádření nejistoty. Diagramy spolehlivosti (obr. 59) byly obvykle umístěny jako mimorámový údaj a obsahovaly informace o období sběru data a původního mapování, použitých postupech, podkladových datech a případně o procesu revize mapy, či rozdílných zdrojích využitých k tvorbě mapy samotné (Kubíček, 2012). Diagramy spolehlivosti mohou vyjadřovat různé typy nejistoty geografických dat a obvykle souvisí pouze s polohovou nejistotou. McGranaghan (1993, in Kubíček, 2012) dokumentoval příklad komplexních diagramů spolehlivosti, na nichž byla uvedena také historie mapy (lineage) a tematická nejistota (Kubíček, 2012). Diagram spolehlivosti ukazuje dělení celého sledovaného území do dílčích celků, které se liší některými prvky kvality dat. Např. mapový list obsahuje území s různými zdroji dat, s různým autorským kolektivem apod.

160 Obrázek 78 Diagram spolehlivosti ukazující zdrojová data a datum jejich vzniku (stáří). (Kubíček, 2012, upravil podle Drecki,2009). Nejistota spojená s jednotlivými prvky mapy v podobě bodů, linií a ploch může být také vyjádřena pomocí popisu, a to jak na úrovni polohové nejistoty, tak případně i pro nejistotu tematickou (Kubíček, 2012). Obrázek 79 Vizualizace nejistých geologických hranic a zlomových linií. (Kubíček, 2012, upravil podle Drecki, 2009). V případě vizualizace neurčitého (nejistého) jevu areálového typu chápe Voženílek a kol (2010, in Kubíček, 2012) jeho zákres jako přibližný a neurčitý, přičemž obrysem lze naznačit míru přibližnosti či neurčitosti, např. čárkovanou nebo tečkovanou linií. Pro obrys areálu samotného tedy jeho hranici pak doporučují hierarchická pravidla, která souvisí s mírou nejistoty areálu. Míra neurčitosti výskytu jevu v areálu se vyjadřuje strukturou obrysové linie, a to následovně (Kubíček, 2012):

161 plná linie vyjadřuje nejvyšší jistotu výskytu jevu a určuje rozsah území definovaný podle přesného výskytu, např. průběh hranice katastrálního území čárkovaná linie vyjadřuje přibližný výskyt jevu, nebo slouží k vymezení území, které nelze s velkou jistotou přesně určit, např. oblast černozemě, rozšíření rostlinného druhu, bramborářská oblast, jezero s nestálým břehem aj. tečkovaná linie vymezuje areál s nejistým či velmi přibližným až neurčitým výskytem jevu, např. předpokládaný dosah pevninského ledovce, nejzazší hranice plujícího ledu, rozšíření živočišného druhu aj. Ukázka aplikace různě jistých hranic a areálů je na obr. 61. Pro případné varianty bodových či liniových znaků nejsou uvedena žádná explicitní doporučení (Kubíček, 2012). Obrázek 80 Dnešní rozšíření a hlavní sedimentační prostory žacléřského souvrství (Tásler et al.) Vysvětlivky: 1.. hranice dnešního rozšíření žacléřského souvrství: a zjištěná, b předpokládaná; 2.. tektonická hranice: a zjištěná, b předpokládaná; 3.. hlavní sedimentační deprese lampertických vrstev (předpokládaná)

162 4... optimální uhlonosnost lampertických vrstev: a zjištěná, b předpokládaná; 5..elevace v době ukládání dolsko-žďáreckých vrstev: a zjištěné, b předpokládané; 6.. předpokládaný hlavní sedimentační prostor petrovických vrstev v české části pánve 7.. zjištěná maximální mocnost petrovických vrstev 8..zjištěné směry přínosu lampertické vrstvy 9..zjištěné směry přínosu petrovické vrstvy 10..státní hranice 12.3 Aplikační využití základních metod vizualizace nejistoty V oblasti přírodních hazardů jsou podle Kunz (2011, in Kubíček, 2012) nejčastěji využívaným přístupem srovnávací mapy, kterým říká bivariate representations, ve kterých jsou na jedné mapě znázorněny tematická mapa odpovídajícího přírodního hazardu a na druhé s nimi spojená nejistota (Trau a Hurni, 2007, in Kubíček, 2012). Vizuální proměnné a vizualizační techniky vhodné pro vyjádření nejistoty v přírodních hazardech jsou vyjádřeny v tabulce 14. Tabulka 14 Grafické proměnné a vizualizační techniky vhodné pro vyjádření nejistoty při hodnocení přírodních hazardů podle Trau a Hurni (2007, in Kubíček, 2012)) a Pang (2008 in Kubíček, 2012). Vizualizační techniky Šipky, glyfy, sloupce a další izolinie Rozlišení, šum Alternativní pokrytí základní mřížky (gridu) 3D stínování Ozdobné prvky (např. měnící se jas nebo přerušení izolinií) osvícení Rozdělení na řezy Animace (blikání, pohyb, zvětšování, posun) Grafické proměnné barva jas sytost průhlednost textura/vzor rozostření Kunz (2011, in Kubíček, 2012) aplikovala vybrané metody vizualizace nejistoty na konkrétní data lavinového nebezpečí v oblasti Stampach (Švýcarsko) s cílem konkrétně posoudit vhodnost jejich využití. Rozlišuje přitom základní přístupy odpovídající kombinovaným a srovnávacím mapám a v rámci kombinovaných map dále používá jak vnitřní (intrinsic), tak vnější (extrinsic) vyjadřovací prostředky. Její komentáře k užití vnitřních grafických proměnných pro vizualizaci nejistoty jsou v tab. 15. Tabulka 15 Komentáře k užití vnitřních grafických proměnných pro vizualizaci nejistoty (Kubíček, 2012, upravil podle Kunz, 2011). Grafické proměnné Barva Sytost Komentáře Zatímco jev je mapován v jedné barvě, pro vyjádření nejistoty je použito jiné. Vzniká tak kombinace dvou barevných schémat (škál). Je vhodné pro 2D a 3D mapy. Vhodné pro vyjádření kvalitativních dat. Vyšší nejistota je zvýrazněna vyšší sytostí. Alternativně je možný i opačný přístup. Vhodné pro vyjádření kvantitativních dat.

163 Jas Průhlednost Textura Rozostření (nejasnost) Nejistota je zdůrazněna tmavším odstínem (jako tmavší oblast přitahuje pozornost uživatelů). Je vhodné užít, pokud vysoká nejistota je důležitá. Alternativní řešení přitáhne pozornost naopak k jistým oblastem. Vhodné pro vyjádření kvantitativních dat. Data s malou nejistotou jsou zvýrazněna. Vhodné pouze pro 2D mapy Pro data s velkou variabilitou může být problém příliš velké krytí podkladu. Velmi intuitivní a široce používané. Nevhodné pro datové sady obsahující malé plochy a data s vysokou variabilitou. Přístupy zahrnující vnitřní proměnné mají společnou nevýhodu, a to že malé změny nejistoty je obtížné identifikovat, zejména pokud se jedná o datové sady s velkou proměnlivostí (Kubíček, 2012). Pro vnější proměnné využila Kunz (2011, in Kubíček, 2012) tři odlišné přístupy velikost bodu, hustotu bodů a vyjádření pomocí izolinií (obr.81 a-c). Obrázek 81 Vizualizace nejistoty lavinového nebezpečí, která využívá pro intenzitu tlaku na podloží odstíny modře a pro vyjádření nejistoty velikost znaku (a), hustotu bodů (b) a izolinie (c) (Kubíček, 2012, upravil podle Kunz, 2011). Zatímco vizualizace nejistoty pomocí vnitřních proměnných je realizována pomocí variace jedné grafické proměnné, vizuální techniky pro vnější proměnné zahrnují kombinace více proměnných. V tabulce 16 je uveden přehled vizualizačních technik a komentovány hlavní výhody a nevýhody. Návaznost vizualizací vytvořených Kunz (2011, in Kubíček, 2012) na teoretické koncepce vizualizace (kombinované mapy a využití konkrétního typu vnitřních a vnějších grafických proměnných) je zde uváděna záměrně. Tabulka 16 Komentáře k metodám vizualizace za využití vnější grafické proměnné (Kubíček, 2012, upravil podle Kunz, 2011). Vizualizační techniky Komentář

164 Šipky, glyfy, sloupce a další Izolinie Rozlišení, šum Alternativní pokrytí základní mřížky (gridu) 3D Vhodné pro 2D a 3D mapy Nevhodné pro data s velkou proměnlivostí. Může dojít k nadměrnému krytí podkladu. Nevhodné pro data s velkou proměnlivostí (krytí). Kvantitativní analýza je problematická. Mohou být zaměněny s vrstevnicemi a přiřazeny k hodnotám nadmořské výšky. Data s vysokou mírou nejistoty mohou vytvářet matoucí a nečitelné mapy. Vhodné pro 2D a 3D. Nebezpečí nadměrného krytí podkladu. Může dojít k překrytu. Ve 3D zobrazení může být problematické vyjádření výšky (například při umístění sloupců vyjadřujících nejistotu na 3D terénní model). Stínování Může dojít k překrytu. Ozdobné prvky (např. měnící se jas nebo přerušení izoliní) Nevhodné pro datové sady obsahující malé plochy a data s velkou variabilitou. Osvícení Může způsobit matoucí obraz a ztížit interpretaci. Rozdělení na řezy Nejistota je vyjádřena pouze relativně k určitému prahu (větší než/menší než). Animace (blikání, pohyb, zvětšování, posun) Efektivní pro velké datové sady. Vhodné pro spojitě se měnící data; netříděná data mohou vytvářet chaotické vzory. Blikání přitahuje pozornost, může však být únavné a dokonce rušivé. Je vhodné jej využít pouze občasně a po časové omezenou dobu (například pro upozornění na určitou úroveň nejistoty) Návrh taxonomie vizualizace nejistoty Podle Kubíčka (2012) se na Bertinova odkazuje ve své práci také Buttenfield (2000, in Kubíček, 2012), která se zabývala specifiky mapování ekologické nejistoty (mapping ecological uncertainty) a navrhla taxonomii pro řízení vizualizace nejistoty v ekologických datech. Systém základních znakových (grafických) proměnných, který byl původně vytvořený Bertinem, je v návrhu prezentováno pouze 6 typy proměnných (tvar, barva, orientace, odstín, textura a velikost) v kombinaci s možným vyjádřením pro body, linie a plochy (obr. 63). Bertinův druhý argument, že existuje hierarchie vizuálních rozdílů, byl potvrzen řadou empirických studií (viz MacEachren, 1995, in Kubíček, 2012). Vizuálně slabé jsou symboly v horní části obr. 63. Většina uživatelů není schopna rozlišit symboly s měnícím se tvarem a orientací. Barva (včetně sytosti) společně s texturou představují silnější grafické proměnné a poskytuje nominální i kategorické vizuální odlišení. Tyto proměnné nejsou obecně spojovány s rozdíly ve velikosti. Nárůst a datové sekvence je nejlépe ilustrovat pomocí nejsilnějších grafických

165 proměnných odstín (tmavost) a velikost. Využití sekvence světlý tmavý a postupně se zvětšující znaky (graduated symbols) bylo potvrzeno empirickými studiemi (viz MacEachern 1995, in Kubíček, 2012). Obrázek 82 Bertinův systém vizuálních proměnných modifikovaný podle Buttenfield (2000) (Kubíček, 2012) Navržená taxonomie je modifikací práce Buttenfield a Weibel (1988, in Kubíček, 2012) a používá kombinaci kartografických vyjádření nejistoty a statistických datových typů. Buňky tabulky obsahují návrh grafické syntaxe pro mapování nejistoty ve všech možných kombinacích. Jednotlivé vizualizační techniky jsou popsány a dokumentovány v tabulce 17 společně se způsobem ekologického mapování nejistoty. Buňky psané kurzívou představují problematické oblasti, v nichž není metrika nejistoty smysluplně definována, nebo kde se grafická syntaxe rozpadá. Tabulka 17 Taxonomie pro mapování ekologické nejistoty (Kubíček, 2012, upravil podle Buttenfield a Weibel 1988 a Buttenfield 2001).

166 Typ dat/typ nejistoty Diskrétní Kategorické (celoplošné) Kategorické (částečné) Souvislé Polohová nejistota Tematická nejistota Aktuálnost (currentness) Velikost Textura Barevné tvar Barevné nasycení (ne)nasycení Barevné vyblednutí Textura Barevné míchání Texturní kryt Barevné nasycení Nemá smysl textura Textová informace Není rozdíl mezi polohovou a tematickou nejistotou Není jasný rozdíl Barevné nasycení Bodové gradienty (mimorámové údaje) Barevné nasycení Plošné gradienty Davis a Kelner (1997, in Kubíček, 2012) pracovali s Bertinovou teorií a navrhli sadu nejvhodnějších proměnných pro vizualizaci nejistoty složenou z odstínu, barvy a textury (hue, value, and texture). Stejně jako většina ostatních se však jedná pouze o jednorozměrnou klasifikaci, která bere do úvahy pouze vizuální vlastnosti pro samotné vyjádření nejistoty (Kubíček, 2012). Aipperspach (2006, in Kubíček, 2012) navrhnul obecný systém pro vizualizaci nejistoty založený na Bertinově přístupu, který zohledňoval kódování jak proměnných, jejichž nejistotu vyjadřujeme, tak proměnných, které pomáhají nejistotu vyjádřit ( the encoding both of variables about which there is uncertainty and of variables that represent uncertainty ). Systém napomáhá klasifikovat existující vizualizace a vytvářet nové. Pro klasifikaci vizualizace nejistoty využívá celkem 7 grafických proměnných 6 základních a umístění podotýká však, že systém lze rozšířit (Kubíček, 2012). Základem přístupu je vizualizační prostor definovaný základními parametry tedy proměnnými, jejichž nejistotu vyjadřujeme a proměnnými, které jsou pro vyjádření použity (Kubíček, 2012). Prostor dovoluje, aby kterákoliv z obou typů proměnných byl znázorněn libovolným typem ze 7 výše jmenovaných proměnných. Vzniká tak potenciální matice proměnných o rozměrech 7x7 (obr. 83) s příklady experimentálních vizualizací a jejich zařazení do klasifikační matice. Matice ukazuje, že takto vymezený prostor není stejnoměrně zaplněn, ale jsou oblasti, které jsou pro vizualizaci nejistoty používány častěji (první řádek matice využívající pozici - umístění) a naproti tomu jsou oblasti využívané pouze výjimečně (řádky 6 a 7 využívající k vizualizaci texturu, respektive orientaci) (Kubíček, 2012).

167 Obrázek 83 Příklady experimentálních vizualizací a jejich zařazení do klasifikační matice (Kubíček, 2012, upravil podle Aipperspach, 2006). Vysvětlivky: variable whose value is uncertain proměnná jejíž hodnota je neurčitá, variable encoding uncertainty proměnná kódující neurčitost, position - pozice, color. barva, shape tvar, size velikost, value hodnota, texture textura, orientation - orientace Příkladem užití navrhovaného systému je obr. 65, kde proměnná využití země (v tomto případě les) je zobrazena pomocí tvaru (strom) a pravděpodobnost jejího výskytu (nejistota) je zobrazena pomocí 5 různých metod (výchozí je rozostření obrazu blurring) (Kubíček, 2012). Navrhovaný vizualizační prostor má svá omezení. Jak uvádí autor, jedním z problémů je například oddělená vizualizace proměnných na dvou mapách. Z pohledu původní klasifikace vizualizace nejistoty (MacEachren 1992, in Kubíček, 2012) se vlastně jedná o rozšířenou modifikaci kombinovaných map (maps combined) s využitím původních rozšíření grafických proměnných například o rozostření (Kubíček, 2012).

168 Thomson a kol. (2005, in Kubíček, 2012) navrhují typologii pro geografická data, respektive pro vizualizaci jejich nejistoty, která by měla poskytnout uživatelům přehled o vizuálních i výpočetních reprezentacích odlišných typu nejistoty. Přichází také s názorem, že určité reprezentační techniky, jak výpočetní, tak vizuální, by měly fungovat obzvláště efektně pro reprezentaci specifického typu nejistoty. Typologie může sloužit pro výběr vhodné vizuální strategie, a to jak pro samotnou informaci, tak s ní spojenou nejistotu (Kubíček, 2012). Tvůrci typologie považují za významné dva hlavní rozdíly oproti předchozím iniciativám v typologii nejistoty (Kubíček, 2012): 1. Typologie se zaměřuje na konkrétní úkol, aby byl analytik schopen se zaměřit na konkrétní typ nejistoty, se kterým musí pracovat. 2. Jedná se o obecnou typologii, kterou je potřeba přizpůsobit konkrétním podmínkám (úloze), aby bylo možné definovat konkrétní typy vizualizace. Obrázek 84 Ukázka využití vizualizačního prostoru - původní vizualizace využívající umístění znaku a jeho rozostření (pro nejistotu) lze modifikovat pomocí proměnných umístění (a), odstín (b), směr (c), velikost (c) (Kubíček, 2012, upravil podle Aipperspach, 2006). Drecki a Maciejewska (2005, in Kubíček, 2012) využili tuto topologii a pokusili se o praktický přístup k vizualizaci nejistoty pomocí propojení typologie vizualizace nejistoty s kategoriemi jakosti (kvality dat) na příkladu map velkých měřítek. Autoři se snaží prakticky přiřadit ke všem výše uvedeným kategoriím odpovídající způsob vizualizace. Jako základ experimentu sloužila vybraná oblast mapovaná v měřítku 1: Vzhledem k tomu, že vizualizace nejistoty byla primárně určena novým uživatelům z prostředí veřejné správy, bylo rozhodnuto použít snadno pochopitelnou, kompaktní a relevantní vizualizaci. Ze stejného důvodu se autoři rozhodli použít srovnávací mapy, kdy mapy nejistoty jsou doplňkové k základním mapám jevu, které zůstávají v původní podobě. Pro vizualizaci nejistoty byla zvolena pěti stupňová kvalitativní škála používající modifikovanou barevnou škálu dopravního semaforu (obr. 85) (Kubíček, 2012).

169 Obrázek 85 Ukázka kvalitativní škály pro vyjádření jednotlivých prvků kvality datových sad (Kubíček, 2012) Škála pak nabývá hodnot od zelené pro velmi dobrou kvalitu dat, přes žluto-zelenou pro dobrou kvalitu, žlutou pro průměrnou kvalitu, oranžovou pro špatnou kvalitu a konečně červenou pro velmi špatnou kvalitu. Uvedená klasifikace včetně odpovídajícího popisu klasifikace je potom přiřazena všem kategoriím kvality na úrovni jednotlivých mapových listů. Vizuálně dostupná informace tak vlastně odpovídá metadatovému popisu kvality na úrovni mapových listů, či datových souborů které jsou k dispozici pro jednotlivé mapové listy (Kubíček, 2012). Obrázek 86 Ukázka vizualizace nejistoty metadat pro jednotlivé ukazatele kvality na úrovni mapových listů (Kubíček, 2012, upravil podle Drecki a Maciejewska, 2005). Jako nadstavbu nad jednotlivými kategoriemi kvality navrhují autoři globální vizuální indikátor nejistoty (global visual uncertainity indicator G-VisUl), který uživatele informuje o celkové úrovni nejistoty dané datové sady a upozorňuje je na možné problematické oblasti (hot spots).

170 Obrázek 87 Příklady vizualizace celkové nejistoty pomocí globální vizuální indikátor nejistoty (G-VisUl). Vlevo konzervativní přístup, vpravo liberální přístup (Kubíček, 2012, upravil podle Drecki a Maciejewska, 2005). Konzervativní přístup určení G-VisUl bere za základ indikátoru tu kategorii kvality, která má nejnižší kategorii (tedy největší nejistotu) (obr. 87 vlevo). Více liberální přístup volí jako kategorii kvality průměrnou hodnotu všech kategorií, kterým je přiřazena stejná váha (obr. 87 vpravo). V případě specifických nároků na vybrané kategorie kvality s ohledem na užití dat lze odpovídajícím kategoriím přiřadit odpovídající váhu a výslednou vizualizaci upravit (Kubíček, 2012). Zvolený přístup je důležitý zejména svou relativní jednoduchostí, rychlou pochopitelností a tím pádem využitelností i pro nové uživatele a dále návazností na existující kategorie kvality (Kubíček, 2012). Přes existující omezení se jeví jako potenciálně přínosný s ohledem na zavádění metadatových popisů kvality v souvislosti se směrnicí INSPIRE (Kubíček, 2012) Vizualizace nejistoty v přírodních hazardech Podle Kubíčka (2012) je oblast vizualizace nejistoty v přírodních hazardech případem aplikační oblasti, která se zaměřuje pouze na efektivitu vizualizace samotné, za předpokladu, že samotné zavedení a šíření nejistoty je již vyřešeno. Klíčovou oblastí je následná komunikace s koncovým uživatelem (rozhodovatelem), který musí dostat správné informace ve srozumitelné formě (čitelnost mapových výstupů) na správném místě a ve správný čas. Pang (2008, in Kubíček, 2012) zdůrazňuje nutnost nejenom percepčního pohledu na vizualizovaná data, ale také kognitivních aspektů ve smyslu toho, jak uživatelé rozumí

171 vizualizaci a jak vizualizace ovlivňuje jejich rozhodování a činnosti. Poukazuje na úzkou vazbu na výzkumy v oblasti kognitivní psychologie, od níž se kartografická, respektive obecně vizualizační komunita může učit správné a špatné způsoby prezentace informací. Rozhodovatelé jsou především schopni zpracovat pouze omezený počet grafických proměnných, a to zejména tehdy, pokud jsou pod časovým tlakem. Je proto nezbytné, aby vizualizace byly zachovány v co nejjednodušší podobě a obsahovaly pouze kritické informace nutné pro proces rozhodování. Selektivní předzpracování grafické informace může snížit kognitivní nápor tím, že umožní uživateli se soustředit důležité aspekty dat (=důležité pro danou úlohu). Způsob, jakým jsou informace prezentovány, může ovlivnit výsledné rozhodnutí (Kubíček, 2012). V oblasti krizového managementu (řízení) je řada osob vstupujících do celého cyklu řízení v různých okamžicích což má za důsledek, že se výrazně liší typ informací a forma jejich prezentace, kterou potřebují pro své rozhodování. Způsob jedna velikost stačí pro všechny není zjevně v takovém případě správným řešením. Jako alternativa se nabízí identifikovat (Kubíček, 2012): třídy uživatelů, typy úkolů, typy a komplexnost dat (datové typy, rozměry dat, typy dat ordinální, kardinální, kategorické ) a pokusit se vytvořit rámec, který odpovídá jedné nebo více vizualizačním metodám a je nejefektivnější z hlediska best practices. Koncepce, kterou PANG (2001, 2008, in Kubíček, 2012) naznačuje, odpovídá zásadám kontextové kartografické vizualizace Analýza a hodnocení vizualizace Následující část textu se zabývá využitím teorie kognice pro analýzu vizualizace nejistoty. Poskytuje základní rámec pro analýzu vizualizačních metod a následně také pohled na silné a slabé stránky odlišných aspektů vizualizace Kognitivní aspekty vizualizace nejistoty a vizualizace reprezentace nejistoty Zuk (2008, in Kubíček, 2012) analyzuje odlišné teoretické přístupy k percepci na základě prací Bertin (1973, in Kubíček, 2012), Tufte (2001, in Kubíček, 2012) a Ware (2004, in Kubíček, 2012), které jsou nejčastěji citovány v odlišných vědeckých komunitách a představují dobrý výchozí bod pro následující srovnání metod vizualizace nejistoty. Každý z uvedeného tria vědců (Bertin, Tufte, Ware) založil své teoretické přístupy na rozsáhlé sadě principů, avšak pro další srovnání byly vybrány pouze principy se vztahem k percepci (Kubíček, 2012). Asociativní grafické proměnné jak jsou definovány Bertinem hrají důležitou roli při vizualizaci nejistoty (Kubíček, 2012). Jak uvádí Ware (2004, in Kubíček, 2012) jedná se zejména o charakteristiku oddělených (separable) a integrovaných grafických proměnných s ohledem na to, zda uživatel potřebuje brát do úvahy data a nejistoty samostatně (pro

172 separované proměnné), nebo je musí uvažovat v jednotném kontextu (pro integrální proměnné). Mac Eachren a kol. (1998, in Kubíček, 2012) uvádí, že společné (integrální) kódování dat a nejistoty mělo negativní vliv na výkon testovaných osob při odhalování shluků v datech (Kubíček, 2012). Podle Kubíčka (2012) se s příchodem digitálního zobrazení ocitají původní Bertinovy grafického proměnné v odlišném prostředí. Zuk (2008, in Kubíček, 2012) navrhuje pro digitální prostředí nahradit stránkou a srovnávat ji v případě digitálního prostředí s rozsahem označeným jako obrazovka. První rozdíl je v rozsahu informací současný plošný rozsah obrazovky (i přes značný rozvoj právě v této oblasti) je menší, než původní rozsah stránky, takže je potřeba počítat s omezenou možností prezentací původní informace. V samotném důsledku to znamená, že pro percepci stejného množství informací na obrazovce musí oko vykonat více pohybů, aby pokrylo větší oblast. Velké tištěné mapy obsahují více informací, než většina velkých elektronických displejů, které vyžadují pro zobrazení stejné informace například interakci s uživatelem v podobě posunu stránky (scrolling). Také další Bertinovy proměnné jsou podobně ovlivněny výše uvedenou redukcí jejich rozsahu (velikosti). Zvláštním případem je barva (value) obrazovky prozatím nedosahují ani rozsahu, ani rozlišení původní tištěné stránky. Leitner a Buttenfield (2000, in Kubíček, 2012) navíc upozornili na fakt, že světlé a tmavé odstíny barev se mohou chovat odlišně v digitálním a analogovém prostředí díky odlišnému způsobu vytváření barev (odrazivost x vyzařování). Hlavním přínosem (změnou) digitálního prostředí je vznik nových vizuálních proměnných, jak uvádí MacEachren (1995, in Kubíček, 2012) a Ware (2004, in Kubíček, 2012). V analogovém prostředí není možné například uvažovat o tak silných proměnných, jakými jsou pohyb a blikání. Naopak některé nově uvedené (rozostření blur, stín), které původně Bertin neuvažoval, lze zpětně převést do analogového prostředí a vyjádřit je na nejenom na obrazovce, ale také v podobě stránky. Bertinovy proměnné jsou relevantní jako sada pro dvourozměrné vizualizace. Pokud překročíme uvedený limit dvou rozměrů tištěné stránky, pak lze uvažovat o dalších vizuálních proměnných v souvislosti s hloubkou (3D) a časem (4D). Zuk (2008, in Kubíček, 2012) poukazuje na fakt, že pokud je 3D vizualizace zobrazena v 2D, tak lze k její implementaci přistupovat jako k plošné a tím pádem ji analyzovat pomocí původního Bertinova rámce. Vizuální reprezentace nejistoty zesiluje kognitivní procesy (Card a kol. 1999, in Kubíček, 2012) a lze tedy předpokládat, že vizuální reprezentace bude přínosem pro rozhodování s přítomností nejistoty. V oblasti geoinformatiky, která stojí na špici vizualizace nejistoty, byl navržen rámec doporučující určitou vizuální reprezentaci s ohledem na typ geografických data a typ nejistoty (MacEachren a kol. 2005, in Kubíček, 2012). Přestože tento rámec definoval obecné problémy, nebyly prozatím vytvořeny a především přijaty žádné obecné standardy. Pro obecnou vizualizaci zahrnující rozhodování je potřeba vždy brát do úvahy konkrétní uživatele a úlohu, kterou je potřeba řešit. Některé typy vizualizace mohou být vhodné a vypadat přirozeně pro vyjádření nejistoty na metaúrovni například průhlednost, fuzziness, barevná sytost (MacEachren a kol., 2005, in Kubíček, 2012), avšak pro rozlišení různých typů nejistoty či pro integraci s více proměnnými nebudou vhodné.

173 V ideálním případě by měla vizualizace umožnit celou sadu metod a případně činností umožňujících uživateli dospět k řešení. Možnost interakce s uživatelem při výběru reprezentace automaticky sděluje koncovému uživateli, že i v optimální vizualizaci je přítomna určitá míra nejistoty (viz KUNZ, 2011, in Kubíček, 2012) Obecný rámec pro podporu vizualizace nejistoty Zuk (2008, in Kubíček, 2012) vytvořila kategorizaci kognitivní nejistoty a jednoduchý a snadno aplikovatelný rámec redukující komplexnost kognitivních úkolů souvisejících s nejistotou. Nejdříve rozdělila rozhodnutí podle vyjádření nejistoty na (Kubíček, 2012): 1. rozhodnutí, pro které není určen limit nejistoty pro konečné rozhodnutí 2. rozhodnutí, která jsou založena na jednom limitu (prahu) nejistoty) 3. rozhodnutí založená na více limitních hodnotách, případně na souvislé škále nejistoty (funkce). Rozhodnutí, která využívají nějaký typ limitu (typ 2 a 3) jsou z pohledu kognice jednodušší. Příkladem jednotné hranice je například 95% interval spolehlivosti (typ 2), pro souvislou změnu je uváděn příklad pravděpodobnostní distribuční funkce (Kubíček, 2012). Zuk a Carpendale (2006, in Kubíček, 2012) formulovali sedm doporučení zaměřujících se na různé fáze rozhodovacího procesu. Vybraná doporučení nejsou rozhodně vyčerpávajícím návodem pro tvorbu a ohodnocení vizualizace, ale lze je považovat za důležité body, kterými je potřeba se zabývat pro kategorizaci kognitivní nejistoty a vizualizaci nejistoty obecně (Kubíček, 2012): 1. Podporujte zjednodušení kognitivních úkolů zjednodušení je důležité pro redukci množství informací a tím pádem zvýšení efektivity. Nejistota potenciálně dodává řešeným úlohám komplexitu, a tak jejich celkové zjednodušení může být důležité. 2. Zajistěte zvýraznění či potlačení nejisté informace pro rozhodování založené na jednom limitu nejistoty mohou být důležité obě strany limitu. V případě kognitivního úkolu, kdy chceme vyloučit určitá data z rozhodnutí, může být kritériem vysoká nejistota, kterou je potřeba graficky zvýraznit. V případě opačném, kdy je potřeba přijmout data, je potřeba oblasti vysoké nejistoty vizualizovat tak, aby nepřitahovaly pozornost. V případě interaktivní vizualizace lze brát do úvahy jeden či více limitů nejistoty a zvýraznit (potlačit) data s nejistotou nad (pod) limit. 3. Umožněte vizualizaci nejistoty na úrovni metadat i na úrovni dat. 4. Dovolte uživatelům si vybrat vlastní výsledek výpočtu nejistoty pro vizualizaci - souvisí s pravděpodobnostním výpočtem nejistoty, respektive odpovídající reprezentativností daného výpočtu. Pro interaktivní nástroje je možné implementovat výslednou vizualizaci v podobě animace možných výsledků (realizací), případně jako uživatelský dotaz na možné výsledky.

174 5. Zjednodušte kognitivní heuristiku jedná se o způsoby uvažování, které lidé k interpretaci reality využívají. Se zavedením nejistoty je doporučeno využít rozšířeného vizuálního vyhledávání - extrakce vybraných dat, detailní pohledy, interaktivní prohlížení (brushing). 6. Pro vytváření znalostí je potřeba poskytnout interakci všechny předchozí faktory počítají s alternativním návrhem a realizací vizualizace. Interaktivní vizualizace je klíčem k vytvoření vizualizace podle požadavků uživatelů a specifických úloh. Howard a MacEachren (1996, in Kubíček, 2012) diskutovali tvorbu rozhraní pro interakci s vizualizací geografické nejistoty a doporučili analyzovat rozhraní na konceptuální, operativní a implementační úrovni. 7. Zhodnoťte následky špatně interpretované nejistoty ne vždy přidání nejistoty přinese lepší výsledky, než původní data bez vyjádření nejistoty. Tento bod má úzký vztah k jedné z výzkumných výzev v oblasti nejistoty, jak je definovali MacEachren a kol. (2005, in Kubíček, 2012): understanding how (or whether) uncertainty visualization aids exploratory analysis. Porozumění jak a zda vůbec vizualizace nejistoty napomůže vizuální analýze dat, je klíčovým problémem, kterému se budeme věnovat i v dalších částech práce. Uvedené kroky mohou sloužit jako obecný návod pro vytváření vizuálních reprezentaci nejistoty, ale opět nejsou ověřeny rozsáhlejším empirickým výzkumem (Kubíček, 2012) Empirické studie vizualizace nejistoty testování polohové nejistoty Mezi ojedinělé práce v dané problematice patří studie HOPE A HUNTER, (2007, in Kubíček, 2012), která se zabývá statickým a dynamickým testováním polohové nejistoty. Testování polohové nejistoty bylo rozděleno na dvě části (Kubíček, 2012): 1. Testování dynamické reprezentace polohové nejistoty testovány byly celkem čtyři odlišné způsoby vizualizace (reprezentace) a jejich partikulární vliv na rozhodování. 2. Testování statické reprezentace polohové nejistoty celkové pochopení vizualizace nejistoty koncovými uživateli a jejich preference jednotlivých vizualizací (reprezentací). Dynamické testování požadovalo od účastníků testování reakce na plavidlo pohybující se ze zóny A do zóny B. Animaci simulovala rozhraní mobilního zařízení a změna polohy byla pravidelně obnovována. Uživatelé měli za úkol, jako kapitán lodi, otočit loď tak, aby nevstoupila do zóny B, která je zakázána (Kubíček, 2012). Subjektům byly nabídnuty 4 odlišné vizualizace znázorňující polohovou nejistota pracovně nazvané jako Limity, Měřítko, Pravděpodobnost a Postupná vizualizace (obr ) (Kubíček, 2012).

175 Limity používají tečkované linie pro znázornění oblasti s 99% pravděpodobností výskytu hranic mezi zónami A a B a lokalizací plavidla (obr. 88) (Kubíček, 2012). Obrázek 88 Ukázka vizualizace Limity a Měřítko (Kubíček, 2012, upravil podle Hope a Hunter, 2007) Měřítko obsahuje pouze písemnou informaci o polohové nejistoty umístěnou v legendě, což do určité míry odpovídá informaci obsažené potenciálně již v metadatech, kterou si v konečném důsledku musí uživatelé graficky (vizuálně) interpretovat (Kubíček, 2012). Pravděpodobnost obsahuje na obrazovce informaci o tom, s jakou pravděpodobností (v %) je plavidlo v zóně B. Hodnota je aktualizována v reálném čase tak, jak se plavidlo pohybuje směrem k hranicím mezi zónami (Kubíček, 2012). Obrázek 89 Ukázka vizualizace Pravděpodobnost a Postupná vizualizace (Kubíček, 2012, upravil podle Hope a Hunter, 2007)

176 Postupná vizualizace zobrazuje poziční (polohovou) nejistotu hranice mezi zónami pomocí postupné změny odstínu, směrem k zóně B barva postupně tmavne (Kubíček, 2012). Pro každé ze 4 možných typů vizualizace bylo vytvořeno při statickém testu 5 odlišných reprezentací zobrazujících plavidlo v následujících typických situacích (Kubíček, 2012): a) Jistě v zóně A b) Pravděpodobně v zóně A c) Stejná možnost výskytu v obou zónách d) Pravděpodobně v zóně B e) Jistě v zóně B Pro všechny varianty byla také možná odpověď f) nerozumím vizualizaci. Účastníci testu měli následně vybrat, jaké tvrzení odpovídá obrázku nejlépe. Testy byly sestavené tak, aby umožnily maximálně objektivizovat výsledky a odstranit potenciální zvykové zatížení či rychlejší naučení metody a ovlivnění předchozím snímkem (Kubíček, 2012). Žádná odpověď neobsahovala měření rychlosti. Na základě testu byly vyhodnoceny celkem 3 typy výsledků (Kubíček, 2012): 1. Identifikace okamžiku, kdy se loď otočila, pro dynamické testy 2. odpověď pro umístění na statickém testu 3. odpověď na osobní preference konkrétního typu vizualizace

177 Obrázek 90 Ukázka postupné vizualizace s očekávanou odpovědí c)stejná možnost výskytu v obou zónách (Kubíček, 2012, upravil podle Hope a Hunter, 2007) Testování vizualizace polohové nejistoty Testování vizualizace polohové nejistoty prováděl také Kubíček se svým kolektivem (2012). Při testování byla použita mapa katastrálního území, kde jsou hranice parcel vyjádřeny pomocí dvou barev indikujících odlišnou kvalitu dat (polohovou nejistotu): Zelená hranice (přesná hranice) - Kód charakteristiky kvality bodu 1, 2 a 3 (body určené se střední souřadnicovou chybou lepší než 0.14 m). Červená hranice (méně přesná) - Kód charakteristiky kvality bodu 4, 5, 6, 7 a 8 (bod určený se střední souřadnicovou chybou 0.26 m, bod určený se střední souřadnicovou chybou 0.50 m, bod digitalizovaný z mapy měřítka 1:1000 se střední souřadnicovou chybou 0.21 m, bod digitalizovaný z mapy měřítka 1:2000 se střední souřadnicovou chybou 0.42 m a bod digitalizovaný z mapy měřítka 1:2880 a jiné (kromě 1000 a 2000). Parcelní číslo Kódem charakteristiky kvality bodu (třída přesnosti bodu): 1-8 Kód kvality výměry - Kód kvality výměry je číselný kód, který v SPI (Soubor Popisných Informací) označuje způsob určení výměry parcely. Kód 2 reprezentuje výměru parcely určenou ze souřadnic S-JTSK. Kód 1 reprezentuje výměru parcely určenou jiným číselným systémem a kód 0 reprezentuje výměru parcely určenou graficky. Zelená hranice spojuje body s třídou přesnosti <1,3>. Navíc k těmto bodům jsou řazeny body s třídou přesnosti 8, pokud jsou tyto body též součástí parcely s kódem kvality výměry 2 a body s přesností <4,8> ležící na přímce mezi dvěma body <1,3> (bod je pak součástí zelené hranice jen ve směru této přímky, nikoliv ve všech směrech). Červená hranice spojuje navzájem body o přesnosti <4,8> a tyto body s body s přesností <1,3> Takovýto přístup k vizualizaci katastrálních hranic v závislosti na jejich kvalitě přímo souvisí s vizualizací nejistoty a v konkrétním případě také s případnou schopností uživatelů dat katastru s takto odlišně zobrazenou informací efektivně pracovat. Následně byly zvoleny 2 typy vizualizace nejistoty (Kubíček, 2012) první podával informaci o nejistotě textovou informací o nejistotě a byl vybaven měřítkem pro zjištění rozsahu nejistoty hranice (kódové označení Hranice), druhý typ byl vizuálně výraznější (pomocí barevného přechodu hranice, kódové označení Přechod) a přímo graficky vymezoval rozsah nejistoty s klesající sytostí barvy od hranice směrem do parcel na obou jejich stranách. Obě metody mají oporu v práci Hope a Hunter (2007) a odpovídají metodám označeným jako

178 měřítko respektive přechodná vizualizace. Volba byla provedena s ohledem na obvykle používanou reprezentaci katastrálních dat, jejichž jakost respektive nejistota není explicitně graficky odlišována a lze na ni tudíž usuzovat pouze na základě známého měřítka. Pro každý jednotlivý typ vizualizace byla vytvořena vizualizace znázorňující 2 sousední parcely (A a B) a v nich zobrazený zákres budovy (obr. 91), jejíž roh bude postupně ležet (Kubíček, 2012): A. Jistě v parcele A B. Spíše v parcele A C. Stejně v parcele A i v parcele B D. Spíše v parcele B E. Jistě v parcele B Obrázek 91 Dvě metody vizualizace nejistoty (vlevo hranicí s měřítkem, vpravo kořenovou zeleninu (Kubíček, 2012) Porovnání reakčních časů uživatelů ukázalo, že ve většině případů respondenti potřebovali k označení odpovědi více času v případě vizualizace přechod než v případě vizualizace hranice. Uvedená skutečnost se projevila u obou testovaných skupin a v obou případech byl čas potřebný k nalezení (správné) odpovědi téměř dvojnásobný (Kubíček, 2012) Odborníci dosahují lepších časů než laici v obou případech vizualizace. Stejně tak se rychleji zlepšuje jejich reakční doba při opakované vizualizaci a změně polohy budovy (obr. 91). Na základě testování významnosti (párový t-test), kdy byl testován průměrný čas jednotlivých respondentů obou skupin, byl prokázán významný rozdíl (p=0,0497) s výrazně lepším průměrným časem odborníků. Rozdíl byl významný pouze pro celkové průměry, pro samostatné porovnání vizualizace hranice či vizualizace přechod nebylo významnosti dosaženo, ačkoliv v obou případech si skupina odborníci počínala lépe. Vzhledem k tomu, že testy probíhaly u skupiny laiků individuálně, nelze však tuto informaci přeceňovat (Kubíček, 2012).

179 Testování vizualizace polohové nejistoty II V dalším příkladu Kubíček a kolektiv testovali vizualizaci polohové nejistoty na příkladu katastrální mapy. Na obrázcích jsou katastrální parcely s budovami a katastrální hranice zobrazeny pomocí dvou odlišných metod s určitou mírou přesnosti resp. nejistoty, která se pohybuje v rozsahu vyznačeným dvěma odlišnými typy vizualizace (Kubíček, 2012). První z nich je barevný přechod, kde jistota hranice narůstá od okrajů přechodu směrem ke středu (čím tmavší barva, tím větší jistota hranice mezi parcelami). V druhém případě měřítko je hranice vyznačená linií s určitou přesností resp. nejistotou, která pohybuje v rozsahu ± 2metry (délka 2 metrů je graficky označena měřítkem v pravém dolním rohu obrázku). Obrázek 92 Dva typy vizualizace hranic parcel při 2. pokusu (Kubíček, 2012) Změnil se také způsob sestavení a provedení testu, a to ze statického na dynamický interaktivní. Jednotlivé úlohy byly konstruovány tak, že účastníci testu byli nuceni aktivně zakreslit linii končící v definovaných částech parcely. Tato lomená čára měla být ukončena co nejblíže hranici parcel, ale zároveň má splnit jednu z níže uvedených podmínek (Kubíček, 2012): Čára je ukončena jistě (na 100%) v parcele A Čára je ukončena spíše (na 50%)v parcele A Čára je ukončena stejně jistě (na 50%) v parcele A či v parcele B Čára je ukončena spíše (na 50%) v parcele B Čára je ukončena jistě (na 100%) v parcele B

180 Kromě samotné vizualizace nejistoty v reálných podmínkách byla změněna i grafická náplň mapy. Pro jednotlivé případy byly na rozdíl od prvního testu zvoleny reálné ukázky parcelní kresby z katastrálního území Prahy, kterým byly pozměněny katastrální čísla pro zachování anonymity. Všechny vystavené scény tak navozovaly dojem skutečné katastrální mapy zahrnující zjednodušenou parcelní kresbu, parcelní číslo a obrysy budov v případě základního pozadí a navíc také barvu a texturu podle využití v případě komplexního pozadí (Kubíček, 2012). Po provedení cvičných úloh byli účastníci upozorněni, že začíná ostrá část testu a zopakováno obecné zadání. Testovací mapové podklady se následně pravidelně střídaly v typu vizualizace tedy všechny liché (1,3,5,7,9) byly reprezentovány typem vizualizace hranice a všechny sudé (2,4,6,8,10) pak typem vizualizace přechod. Nejdříve byly testovány vizualizace pro jednoduchou podkladovou kresbu, které zahrnovala pouze katastrální hranice, budovy podbarvené hnědou barvou a parcelní čísla. Následně byla změněna podkladová mapa a na jednotlivé parcely byla přidána textura v podobě barevné výplně a značky vyjadřující druh využití dané plochy (Kubíček, 2012). Do vyhodnocení rozdílů přesnosti ukončení linií pro jednotlivé úlohy byly uvažovány pouze správné odpovědi. Z výsledných grafů je zřejmé, že mezi jednotlivými typy vizualizace existují jenom malé rozdíly a nelze určit nějaký jednoznačný trend. V případě vizualizace přechod měli účastníci testu při ukončování v zónách spíše A, spíše B tendenci končit linii blíže fyzicky vyznačené hranice (Kubíček, 2012). Pro zbývající typy úloh (jistě A i B, 50:50) se oba typy vizualizace významně neliší. V případě vizualizace 50:50 (obr. 100) došlo k zajímavému efektu, kdy pro vizualizaci hranice dochází spíše k překročení středové linie, zatímco u vizualizace přechod byla tažená linie ukončována ještě před hranicí obou parcel (Kubíček, 2012) Empirické testování tematické nejistoty Leitner a Buttenfield (2000, in Kubíček, 2012)) specificky zkoumali, jak je ovlivněno rozhodování uživatelů, pokud do mapy je přidána informace o nejistotě. Testovali jak samotnou přítomnost či nepřítomnost informace o nejistotě, tak odlišné způsoby vyjádření nejistoty prostřednictvím vnitřních grafických proměnných tmavší vs. světlejší barva, hrubší vs. jemnější textura (výplň) a sytá vs. světlá barva. Zároveň testovali jak správnost výsledku, tak rychlost jeho dosažení (Kubíček, 2012). Významného zlepšení bylo dosaženo při znázornění nejistoty pomocí světlejší barvy a jemnější textury, což sami autoři označili za překvapivé, protože obvykle tmavší barvy jsou považovány za více graficky dominantní (Leitner a Buttenfield, 2000, s.13, in Kubíček, 2012). Je třeba také brát do úvahy vliv znázornění kartografické vizualizace na počítačovém monitoru namísto tradičního tištěného formátu. Z hlediska rychlost dosažení cíle vykazovaly mapy s vyjádřením nejistoty lepší výsledky, což bylo z určitého hlediska překvapující, protože měly větší grafické naplnění a tím pádem i vyšší informační obsah. Samotní autoři to

181 přisuzovali faktu, že informace o nejistotě je uživateli vnímána spíše jako upřesnění, než jako zvýšení komplexnosti (= složitosti) mapy (Kubíček, 2012). Práce samotná poukazuje na nedostatečný empirický výzkum v dané oblasti zejména v souvislosti s nutností testování, avšak neobsahuje žádné ukázky mapových výstupů (Kubíček, 2012). Autoři poukazují na nejčastější způsoby vizualizace a existující doporučení ohledně využití Bertinových grafických proměnných pro vizualizaci nejistoty a mimo jiné zmiňují sytost barvy od čisté barvy pro velmi jisté informace až po nenasycenou šedou pro nejisté informace (Kubíček, 2012). Experiment byl zaměřen na podporu rozhodování a užití vizualizace nejistoty při této podpoře. Účastníci testu byli požádáni, aby umístili park a následně letiště a bylo sledováno, jak obě rozhodnutí provedli, z hlediska 3 různých pohledů (Kubíček, 2012): 1. Jak správně bylo rozhodnutí učiněno? 2. Jak rychle bylo rozhodnutí učiněno? 3. Jak jistě bylo rozhodnutí učiněno? Využito bylo celkem 8 map (Kubíček, 2012). Zatímco první dvě neobsahovaly žádnou nejistotu a lišily se pouze počtem tematických kategorií pro znázorněnou problematiku, dalších 6 map zobrazovalo tematickou nejistotu pomocí dvou tříd (více a méně jisté) a prostřednictvím odlišných grafických proměnných. Jeden pár map použil odlišnou texturu, druhý pár odlišnou barvu a třetí pár odlišné barevné nasycení pro vyjádření nejistoty jevu. Jisté oblasti byly přitom vyjádřeny jemnější texturou, tmavší barvou a více nasycenou barvou v jednom případě, zatímco v druhém případě byly vytvoření obrácené typy vizualizace. Testu se zúčastnilo celkem 68 uživatelů (Kubíček, 2012) Pro každou oblast byly provedeny testy statistické významnosti. Hlavní závěry lze shrnout do tří oblastí podle výše uvedených pohledů (Kubíček, 2012) Pro správnost rozhodnutí (výsledky jsou statisticky významné na hladině 0,05): Jsou-li k dispozici data pro rozdělení výsledků do více tříd, je potřeba je na mapě znázornit; Barva (value) se jeví jako nejvhodnější pro vyjádření nejistoty; Jisté informace by měly být reprezentovány světlejší barvou; Při použití textury je pro nejisté informace lepší použít hrubší texturu. Pro rychlé rozhodnutí (symbolizační schéma výsledky nejsou statisticky významné): Při větším počtu tematických tříd potřebují subjekty delší čas k rozhodnutí;

182 Pokud další tematické třídy obsahují informaci o nejistotě, pak je doba odezvy stejná, nebo dokonce kratší, než u mapy s jedinou tematickou třídou; Zdá se, že informace o nejistotě je chápána spíše jako vysvětlující, než jako komplikující; Pro urychlení rozhodování je nejlepší použít sytost, nebo texturu pro vyjádření nejistoty; V případě použití nasycení barvy je potřeba využít pastelových tónů pro více jisté informace. Pro jistotu rozhodnutí (symbolizační schéma výsledky nejsou statisticky významné): Rozhodnutí byla učiněna se stejnou jistotou bez ohledu na počet tematických tříd; Srovnání mezi užitím barvy a textury prokázalo rozdíly v jistotě rozhodnutí sledovaných subjektů. Subjekty jsou si mnohem více jisté, pokud je použito světlé či tmavé barvy pro nejistotu, než tomu je pro vizualizaci pomocí textury. Na závěr doporučují zavedení testovaných symbolizačních schémat do oblasti geografických informačních systémů a systémů podporujících rozhodování Testování vizualizace tematické nejistoty na příkladu mapování půd Kubíček a kol. (2012) se zabývali pro tento účel dvěma statickými přístupy vizualizace nejistoty interpolovaných hodnot, a to srovnávacími a kombinovanými mapami. Pro srovnávací mapy byla zvolena kombinace interpolovaného povrchu vzniklého krigováním (zřejmě krigovací chyba) pro hodnotu hloubky půdy a vypočtená hodnota směrodatné odchylky v jednotlivých místech povrchu posloužila jako mapa nejistoty. Obě proměnné (hloubka půdy a její nejistota) byly vizualizovány do samostatných map za pomocí stejné grafické proměnné, a to sytosti barvy. Světlejší tóny byly využity pro vyšší nejistotu (Kubíček, 2012). Vedle srovnání byla vytvořena i kombinovaná mapa. U ní byla vytvořena speciální legenda, která napomáhá čtení a porozumění použitého HSI modelu (Kubíček, 2012). Obě výše zmíněné metody vizualizace byly testovány na dvou odlišných úrovních (Kubíček, 2012). Na první úrovni byla zjišťována zmíněná intuitivnost metody vybělení v podobě kombinované mapy, o které hovoří řada autorů (např. Jiang 1996 in Kubíček, 2012), avšak bez odpovídajících důkazů. Uživatelé byli při testu požádáni, aby označili oblast, která má podle nich nejvyšší nejistotu. V legendě byl proto vyznačen pouze typ zobrazované proměnné (hloubka půdy a nejistota), ale nikoliv způsob změny (nárůst x pokles) (Kubíček, 2012). V testu tematické nejistoty byly díky použitému postupu ověřovány zejména následující schopnosti uživatelů pro obě základní metody vizualizace nejistoty (Kubíček, 2012): schopnost dekódovat hodnotu jevu (hloubka půdy) a jejího prostorového vývoje

183 schopnost dekódovat nejistotu jevu (krigovací chyby) a její prostorový vývoj dekódování a srovnání obou hodnot ve stejném prostoru Pro oba typy vizualizace byly zvoleny shodné hodnoty obou jevů pro dekódování, avšak umístění cvičných polygonů se měnilo, aby se zamezilo efektu zaučení uživatelů. Na základě výsledků bylo možné konstatovat, že existují významné rozdíly mezi metodami v případě, že chceme dekódovat úroveň nejistoty a hodnotu s nejistotou dohromady. Hlavní závěry lze shrnout následovně (Kubíček, 2012): Testování intuitivnosti vizualizace nejistoty prokázalo, že nejisté informace by měly být znázorněny světlejšími odstíny. Více účastníků testu (63%) označilo světlejší hodnotu jako více nejistou a zároveň ke svému rozhodnutí potřebovali méně času a dosáhli výrazně menšího skupinového časového rozptylu. Výsledky však nebyly potvrzeny jako statisticky významné, a to ani pro homogenní, ani pro heterogenní skupinu. Výsledky na druhé úrovni testování lze rozdělit podle testovaných proměnných, respektive jejich kombinace. Pro zjednodušení a statistické vyhodnocení rychlosti byly brány do úvahy pouze správné odpovědi tak, aby bylo možné párové srovnání obou metod. Pro dekódování míry nejistoty bylo významně lepších výsledků dosaženo pomocí kombinovaných map, než pro mapy srovnávací. Uvedený výsledek platí jako pro homogenní skupiny (studenti), tak pro heterogenní skupinu (odborná veřejnost). Pro dekódování hodnoty jevu (hloubka půdy) byly výsledky pro kombinované mapy jenom lepší bez statistické významnosti. Opět toto tvrzení platí pro všechny skupiny účastníků testu. Je otázka, zda v tomto případě nebyl výsledek ovlivněn faktem, že uživatelé měli možnost se seznámit s metodou kombinované mapy, respektive vybělení, již na první úrovni testu. Správnost odpovědí je nižší při komplexnějších úkolech tedy při dekódovaní obou proměnných (hodnota a nejistota) společně. Srovnávací mapy dosáhly v tomto případě signifikantně lepších výsledků, než kombinované mapy. Uvedená část patřila mezi nejvíce kontroverzní, protože zde byla dosažena pouze 43% správnost odpovědí pro obě metody zároveň. 64% správných odpovědí bylo pro metodu srovnávacích map, 56% správných odpovědí pro metodu map kombinovaných. V případě kombinovaných map byli účastníci nejenom rychlejší, ale také jejich směrodatná odchylka v dosažených časech byla pouze poloviční ve srovnání s druhým typem vizualizace Interaktivní prostředí pro vizualizaci nejistoty Kunz (2011 in Kubíček, 2012) nabízí interaktivní nástroj pro vizualizaci nejistoty s volitelnou formou vizualizace v podobě srovnávacích i kombinovaných map a využitím více vnějších vyjadřovacích prostředků (obr. 93). Alternativně je dokonce nabízen 3D pohled a užití tzv. prizmatických map, které nejsou dále diskutovány.

184 Na základě dotazníku konstatuje Kunz (2011 in Kubíček, 2012) následující závěry: Všechny navržené metody vizualizace nejistoty jsou interpretovatelné pochopitelné koncovými uživateli. Za pochopitelné jsou považovány i kombinované mapy využívající vnitřní grafické proměnné, a to s následujícími preferencemi: o o Pokud je potřeba nejistotu zdůraznit, pak dávají přednost narůstajícímu barevnému nasycení, které přitahuje vizuální pozornost k nejistým oblastem, v nichž jsou jednotlivé buňky rastru tmavší. Zvýšení světlosti (průsvitnosti) naopak přitahuje pozornost k jistým hodnotám a vede k ignoraci (přehlížení) nejistých buněk rastru. Jinými slovy v závislosti na tom, co chceme zdůraznit (zda jsou k rozhodování důležitější jisté/nejisté oblasti), tak je vhodné volit odlišné metody vizualizace. Zatímco některé metody vizualizace jsou vhodné pro kvantitativní analýzu míry nejistoty (srovnávací mapy, vnitřní vyjadřovací metody a užití proporciálních kruhů), jiné jsou vhodnější pro vyjádření celkového prostorového rozmístění nejistoty (hustota teček, texturní překryv). Uvedené závěry nejsou podloženy konkrétní kvantifikací odpovědí, jedná se o kvalitativní závěry získané pomocí interview (Kubíček, 2012). Výsledky lze využít obecně pro vizualizaci nejistoty libovolných skalárních veličin.

185 Obrázek 93 Aplikovaná vizualizace nejistoty: a) srovnávací mapy, b) kombinované mapy za využití vnějších grafických proměnných (hustota bodů), c) kombinované mapy za využití vnitřních grafických proměnných (barevný odstín) (Kubíček, 2012, upravil podle Kunz, 2011). Vysvětlivky: impact pressure tlak při dopadu, uncertainty neurčitost, increasing intensity rostoucí intenzita, increasing uncertainty rostoucí neurčitost Výsledky získané Kunz (2011 in Kubíček, 2012) byly dále testovány a rozvíjeny Kubíčkem a kolektivem. Ten s využitím stejných map sledoval následující cíle: Zjistit intuitivnost konstrukce stupnic pro zvolené vnitřní a vnější grafické proměnné. Srovnat schopnost uživatelů efektivně pracovat s vizualizace jevu a nejistoty přírodního rizika pomocí vnitřních a vnějších grafických proměnných. Zjistit schopnost uživatelů rozhodnout se na základě přítomné nejistoty jevu.

186 První mapový podklad využívá vytvoření tematické vrstvy lavinového nebezpečí modré barvy a její sytosti a pro vyjádření nejistoty pak velikost teček ve třech odlišných kvalitativních kategoriích. Druhý typ mapového výstupu byl vytvořen za využití vnitřní proměnné odstín, kdy jednotlivé kategorie tematického jevu jsou odlišeny barvou a jejich nejistota světlostí odstínu, vše opět v podobě 3 kategorií. U tohoto příkladu byly na rozdíl od jiných testů na MU připraveny dva oddělené testy pro každou metodu vizualizace zvlášť, aby se zabránilo případnému efektu zácviku při opakovaném čtení stejné vizualizace a přechodu na jinou vizualizaci. V obr. 74 byla zkoumána intuitivnost legendy pro vizualizaci nejistoty. Byly zde uvedeny jak vnější grafické proměnné (velikost bodů), tak vnitřní grafické proměnné (odstín) a uživatelé byli dotázáni na směr, kterým nejistota narůstá či klesá. Vzhledem ke statisticky významným výsledkům, které podporovaly nárůst nejistoty s narůstající světlostí při metodě vybělení, byl opětovně zařazen tento krátký test pro případné potvrzení či vyvrácení závěrů. Teprve potom byla vysvětlena použitá legenda a ukázány příklady, jak číst odpovídající mapy nejistoty. Následně byla testována schopnost uživatelů dekódovat nejprve jev, následně nejistotu a konečně nejistotu a jev dohromady. Po každé scéně byla navíc zařazena samostatná negrafická scéna s otázkou, nakolik si byli uživatelé jisti správností své odpovědi na dekódování hodnoty jevu, nejistoty a obojího dohromady. Odpověď bylo třeba následně označit na stupnici 1-5 (1=zcela jistí 5=zcela nejistí). Tímto způsobem byla zároveň sledována subjektivní jistota testovaných osob s jejich odpovědí. V další části testu uživatelé řešili praktickou úlohu, kdy na základě zhodnocení nejistoty lavinového nebezpečí měli označit část komunikace, která bude nejméně pravděpodobně zasažena lavinou. Jednalo se o praktické dekódování hodnoty jevu a nejistoty, ale s konkrétním aplikačním podtextem, kdy se uživatel musí rozhodnout mezi třemi možnostmi. V tomto závěrečném případě navíc nebyla k dispozici legenda a účastníci testu byli nuceni prokázat nejenom schopnost řešit konkrétní úlohu, ale také míru pochopení konkrétní vizualizační metody a hlubší kognici nutnou pro vyřešení úlohy (Kubíček, 2012). Pro závěrečný test použili kombinaci experimentu s korelační studií v podobě psychologického testu (Kubíček, 2012). V případě experimentu se obvykle obě zkoumané skupiny (znaků, proměnných, výstupů) liší pouze v jednom aspektu (velikost bodu, odstín barev). Zkoumané kartografické výstupy jsou však v tomto ohledu zvláštní v tom, že mapa představuje komplexní výstup a nelze měnit pouze její části bez ohledu na celek. Obě zvolené metody (vnitřní x vnější grafické proměnné) se tudíž liší nejenom vyjadřovacími prostředky, ale také například legendou (3x3 vs. 3x2) a zároveň hodnotami vyjádřenými přímo na mapovém podkladu. Je tedy obtížně odlišitelné, zda jsou naměřené rozdíly ve výkonu účastníků testu způsobeny právě odlišnou legendou, nebo rozdíly způsobenými mapovým vyjádřením. Z tohoto důvodu byly srovnávány obě metody jako celek, tedy o úroveň výše. Výsledky jsou následně interpretovány o úroveň níže, kde se pokoušíme vyvodit závěry vycházející s uvedených kognitivních předpokladů (Kubíček, 2012).

187 První výsledky poskytnul test intuitivnosti legendy vizualizace nejistoty, kde většina dotázaných upřednostnila v obou případech škálu A, tedy od malého k velkému bodu, respektive od světlejšího odstínu k sytějšímu pro nárůst nejistoty. V prvním případě tuto škálu upřednostnilo 74% (55 případů) z dotázaných, ve druhém případě 66% (49 případů) (Kubíček, 2012). V obou případech se osoby, které zvolily odpověď A, rozhodovaly významně rychleji a také jejich časy potřebné k rozhodnutí vykázaly menší celkový rozptyl (Kubíček, 2012). Pro vyhodnocení rozdílů obou typů vizualizací byly srovnány percepční schopnosti účastníků v podobě průměrné rychlosti dekódování jedné proměnné (jev, nejistota) a dvou proměnných (jev+nejistota) a celkové průměrné časy pro oba typy úloh. Výsledky byly poté testovány pomocí t-testu pro nezávislé proměnné. Ve všech třech případech se ukázaly jako rychlejší výsledky pro vizualizaci pomocí vnitřních proměnných, tedy kombinace barvy a barevného odstínu. Osoby testující tento typ vizualizace byly nejenom rychlejší, ale také prokázaly schopnost se celkově rozhodovat v kratším časovém intervalu (Kubíček, 2012). Rozdíly mezi metodami však nebyly významné. V závěrečné praktické úloze měli účastníci testu za úkol označit část komunikace, která bude nejméně pravděpodobně zasažena lavinou. Jednalo se o složitější úlohu, kde se očekávala nutnost zapojení vědomého vnímání. Zjišťovány byly jak správnosti odpovědí, tak časy potřebné k dokončení úlohy. Pro obě úlohy se liší počty správných odpovědí. V případě užití vnitřních proměnných bylo pouze 14 ze 36 odpovědí správných (39%), zatímco při vizualizaci pomocí vnějších proměnných bylo správných 30 z 37 možných odpovědí (81%), tedy více, jak dvakrát tolik (Kubíček, 2012). Časy správných odpovědí v obou případech vykázaly v testu nevýznamné rozdíly (p=0,0704), avšak pro vnější proměnnou byly dosažené časy rychlejší, všechny se vešly do rozmezí 4 vteřin. Poslední sledovaný jev bylo zařazení druhého typu vizualizace, se kterým neměli uživatelé žádnou zkušenost. V úloze měli za úkol dekódovat dvojici proměnných (jev+nejistota). Dosažené časy pro správné úlohy byly srovnány s průměrným časem, pro stejný typ úlohy, který byl dosažen při znalosti dané vizualizace. Vždy byly porovnány průměrné časy pro stejné typy vizualizace, avšak jednou bez dřívější znalosti a podruhé po zácviku a praktické zkušenosti. Výsledky byly podle očekávání vždy významně odlišné. V případě, kdy test byl zaměřen na vnější proměnnou, dosahovali účastníci testu při přechodu na novou vizualizaci třikrát pomalejšího času. Správně se podařilo odpovědět v 26 případech z 37 (70%). U testu využívajícího vnitřní proměnnou byli při přechodu na novou vizualizaci uživatelé pouze dvakrát pomalejší a dosáhli úspěšnosti 81 % (31 správných odpovědí z 36). Uvedené výsledky podporují názor, že je snazší a intuitivnější se u jednoduchých percepčních úloh zvyknout na vizualizaci pomocí vnitřní proměnné, konkrétně na kombinaci barva a odstín (Kubíček, 2012).

188 Principy testování vizualizace nejistoty Z výše uvedených empirických studií vyplývá, že v současnosti neexistuje ustálená metodika pro empirické testování kartografických výstupů obecně a tím méně pro specifickou oblast vizualizace nejistoty (Kubíček, 2012). Přesto je možné se odkázat na existující návrhy či obecné metodiky využitelné i v případě vizualizace nejistoty. Olson (2009 in Kubíček, 2012) se zabývala aspekty testování uživatelů v kartografii a upozornila na hlavní úskalí, které je nutné brát do úvahy při přípravě, realizaci, hodnocení a prezentaci takovýchto testů: přístupnost testovacího prostředí i pro čtenáře a další vědecké pracovníky bez možnosti si prohlédnout testovací prostředí je toto zdrojem možných chyb a nedokonalostí. dostupnost testovacích materiálů a výsledků je důležité jak pro posouzení testů samotných, tak pro případné opakování testů v odlišném kulturním či socioekonomickém prostředí, hraje také důležitou roli pro opakovatelnost a tím pádem i potvrditelnost experimentu. Tvorba dotazníku a struktura otázek představuje klíčový problém při testování uživatelů. Zatímco psychologové mají k dispozici celou řadu standardizovaných dotazníků či dokonce testů pro výzkum kognitivních vlastností jedince, kartografové nedisponují ani návodem pro objektivní kognitivní testování a nezbývá, než hledat inspiraci právě v oblasti psychologie. Vytváření více variantních metod (kvalitativních i kvantitativních) pro srovnatelnost může významně napomoci objektivitě výsledků testu (Kubíček, 2012). Shrnutí: Hlavními kartografickými metodami vizualizace nejistoty jsou srovnávací mapy, kombinované mapy a využití interaktivního exploračního nástroje. Pro kombinované mapy se používají vnitřní grafické proměnné, které mění svoji hodnotu podle nejistoty, a vnější grafické proměnné, kdy jsou do mapy přidány další objekty jako šipky, sloupcové grafy apod. Mezi vnitřními se nejvíce uplatňují změna barvy, velikosti, pozice, ostrosti, jasnosti, fuzziness, saturace, průhlednosti a ostrosti hran (obecněji zaostření). Z vnějších se uplatňují zejména glyfy. Hodnocení vizualizace je založeno na teorii kognice (percepce). Základní doporučení zaměřující se na různé fáze rozhodovacího procesu jsou zjednodušení kognitivních úkolů, zvýraznění či potlačení nejisté informace, vizualizace nejistoty na úrovni metadat i na úrovni dat, umožnit vybrat vlastní výsledek výpočtu nejistoty, zjednodušte kognitivní heuristiku, využívejte interakci a zhodnoťte následky špatně interpretované nejistoty.

189 Kontrolní otázky: 1) Proč se v GIS produktech zatím neprosazují nástroje vizualizace neurčitosti? 2) Co to jsou srovnávací mapy? 3) Co jsou kombinované mapy? 4) Popište využití interaktivního exploračního nástroje. 5) Vysvětlete význam sonifikace a psycho-vizuální vizualizace pro neurčitost. 6) Vysvětlete vnitřní a vnější grafické proměnné pro vizualizaci neurčitosti. 7) Vyjmenujte nejdůležitější vizuální grafické proměnné pro vizualizaci neurčitosti. 8) Jak lze realizovat zaostření? 9) Které z vnitřních proměnných se nejvíce doporučují? 10) Jaké jsou zkušenosti s vybělením? 11) Jak se realizuje metoda glyfů? 12) Seřaďte podle klesající jistoty určení geologické hranice vykreslené jako čárkovaná, plná a tečkovaná čára. 13) Jaké nové vizuální proměnné vznikly s příchodem digitálního prostředí? 14) Proč se má podpořit zjednodušení kognitivních úkolů? 15) Proč je důležité hodnotit následky špatně interpretované nejistoty? 16) Uveďte příklad zobrazení a možného testování polohové nejistoty linie.

NEURČITOST V GEOINFORMATICE

NEURČITOST V GEOINFORMATICE Vysoká škola báňská Technická univerzita Ostrava Hornicko-geologická fakulta NEURČITOST V GEOINFORMATICE (E-learningová podpora) Doc. Dr. Ing. Jiří Horák Ostrava, 2014 Vysoká škola báňská Technická univerzita

Více

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje: KVALITA DAT Správnost výsledku použití GIS ovlivňuje: POUŽITÁ APLIKACE Kvalita dat v databázi Kvalita modelu, tj. teoretického popisu krajinných objektů a jevů Způsob použití funkcí GIS při přepisu modelu

Více

GIS Geografické informační systémy

GIS Geografické informační systémy GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Převody geometrií Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu

Více

Usuzování za neurčitosti

Usuzování za neurčitosti Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích

Více

GIS Geografické informační systémy

GIS Geografické informační systémy GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Převody geometrií Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu

Více

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů

Více

Vybrané přístupy řešení neurčitosti

Vybrané přístupy řešení neurčitosti Vybrané přístupy řešení neurčitosti Úvod do znalostního inženýrství, ZS 2015/16 8-1 Faktory jistoty Jedná se o přístup založený na ad hoc modelech Hlavním důvodem vzniku tohoto přístupu je omezení slabin

Více

2. přednáška z předmětu GIS1 Data a datové modely

2. přednáška z předmětu GIS1 Data a datové modely 2. přednáška z předmětu GIS1 Data a datové modely Vyučující: Ing. Jan Pacina, Ph.D. e-mail: jan.pacina@ujep.cz Pro přednášku byly použity texty a obrázky z www.gis.zcu.cz Předmět KMA/UGI, autor Ing. K.

Více

Karta předmětu prezenční studium

Karta předmětu prezenční studium Karta předmětu prezenční studium Název předmětu: Neurčitost v geoinformatice (NEGI) Číslo předmětu: 548- Garantující institut: Garant předmětu: geoinformatiky doc. Dr. Ing. Jiří Horák Kredity: 5 Povinnost:

Více

1. Statistická analýza dat Jak vznikají informace Rozložení dat

1. Statistická analýza dat Jak vznikají informace Rozložení dat 1. Statistická analýza dat Jak vznikají informace Rozložení dat J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Význam statistické analýzy dat Sběr a vyhodnocování dat je způsobem k uchopení a pochopení

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti. Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je

Více

VYUŽITÍ FUZZY MODELŮ PŘI HODNOCENÍ OBTÍŽNOSTI CYKLOTRAS

VYUŽITÍ FUZZY MODELŮ PŘI HODNOCENÍ OBTÍŽNOSTI CYKLOTRAS VYUŽITÍ FUZZY MODELŮ PŘI HODNOCENÍ OBTÍŽNOSTI CYKLOTRAS ArcGIS ModelBuilder, Python Pavel Kolisko Cíle motivace zastaralost, neúplnost a nepřesnost dat obtížnosti cyklotras na portálu cykloturistiky JMK

Více

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti ZÁKLADNÍ STATISTICKÉ POJMY HROMADNÝ JEV Statistika pracuje s tzv. HROMADNÝMI JEVY cílem statistického zpracování dat je podání informace o vlastnostech a zákonitostech hromadných jevů: velkého počtu jedinců

Více

10. Předpovídání - aplikace regresní úlohy

10. Předpovídání - aplikace regresní úlohy 10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu

Více

Úvod do problematiky měření

Úvod do problematiky měření 1/18 Lord Kelvin: "Když to, o čem mluvíte, můžete změřit, a vyjádřit to pomocí čísel, něco o tom víte. Ale když to nemůžete vyjádřit číselně, je vaše znalost hubená a nedostatečná. Může to být začátek

Více

Pearsonův korelační koeficient

Pearsonův korelační koeficient I I.I Pearsonův korelační koeficient Úvod Předpokládejme, že náhodně vybereme n objektů (nebo osob) ze zkoumané populace. Často se stává, že na každém z objektů měříme ne pouze jednu, ale několik kvantitativních

Více

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce

Více

Kartografické modelování V Topologické překrytí - Overlay

Kartografické modelování V Topologické překrytí - Overlay Kartografické modelování V Topologické překrytí - Overlay jaro 2017 Petr Kubíček kubicek@geogr.muni.cz Laboratory on Geoinformatics and Cartography (LGC) Institute of Geography Masaryk University Czech

Více

T- MaR. Ústav technologie, mechanizace a řízení staveb. Teorie měření a regulace. Podmínky názvy. 1.c-pod. ZS 2015/ Ing. Václav Rada, CSc.

T- MaR. Ústav technologie, mechanizace a řízení staveb. Teorie měření a regulace. Podmínky názvy. 1.c-pod. ZS 2015/ Ing. Václav Rada, CSc. Ústav technologie, mechanizace a řízení staveb Teorie měření a regulace Podmínky názvy 1.c-pod. ZS 2015/2016 2015 - Ing. Václav Rada, CSc. MĚŘENÍ praktická část OBECNÝ ÚVOD Veškerá měření mohou probíhat

Více

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Zdeněk Karpíšek Jsou tři druhy lží: lži, odsouzeníhodné lži a statistiky. Statistika je logická a přesná metoda, jak nepřesně

Více

Hodnocení kvality logistických procesů

Hodnocení kvality logistických procesů Téma 5. Hodnocení kvality logistických procesů Kvalitu logistických procesů nelze vyjádřit absolutně (nelze ji měřit přímo), nýbrž relativně porovnáním Hodnoty těchto znaků někdo buď předem stanovil (norma,

Více

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření Jan Krystek 9. května 2019 CHYBY A NEJISTOTY MĚŘENÍ Každé měření je zatíženo určitou nepřesností způsobenou nejrůznějšími negativními vlivy,

Více

U Úvod do modelování a simulace systémů

U Úvod do modelování a simulace systémů U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení

Více

7. Tematická kartografie

7. Tematická kartografie 7. Tematická kartografie Zabývá se tvorbou tematických map, které na topografickém podkladě přebíraném z vhodné podkladové mapy podrobně zobrazují zájmové přírodní, socioekonomické a technické objekty

Více

Kartogramy. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita

Kartogramy. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita Kartogramy Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita Datum vytvoření dokumentu: 20. 9. 2004 Datum poslední aktualizace: 17. 10. 2011 Definice Kartogram je

Více

Posouzení přesnosti měření

Posouzení přesnosti měření Přesnost měření Posouzení přesnosti měření Hodnotu kvantitativně popsaného parametru jakéhokoliv objektu zjistíme jedině měřením. Reálné měření má vždy omezenou přesnost V minulosti sloužila k posouzení

Více

Ing. Alena Šafrová Drášilová, Ph.D.

Ing. Alena Šafrová Drášilová, Ph.D. Rozhodování Ing. Alena Šafrová Drášilová, Ph.D. Rozhodování??? video Obsah typy rozhodování principy rozhodování rozhodovací fáze základní pojmy hodnotícího procesu rozhodovací podmínky rozhodování v podmínkách

Více

geotym.geogr.muni.cz K čemu jsou datové specifikace Možnosti elektronického vzdělávání v oblasti směrnice INSPIRE II. Co Vás čeká dnes?

geotym.geogr.muni.cz K čemu jsou datové specifikace Možnosti elektronického vzdělávání v oblasti směrnice INSPIRE II. Co Vás čeká dnes? Co Vás čeká dnes? Možnosti elektronického vzdělávání v oblasti směrnice INSPIRE II. Lidský potenciál pro informační společnost využívající prostorová data (GEOTÝM) Průhonice, 30.11. 2011 Blok 1: Jak číst

Více

PRAVDĚPODOBNOST A STATISTIKA 1 Metodický list č 1.

PRAVDĚPODOBNOST A STATISTIKA 1 Metodický list č 1. Metodický list č 1. Název tématického celku: Elementární statistické zpracování 1 - Kolekce a interpretace statistických dat, základní pojmy deskriptivní statistiky. Cíl: Základním cílem tohoto tematického

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik

Více

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce

Více

Teorie měření a regulace

Teorie měření a regulace Ústav technologie, mechanizace a řízení staveb CW01 Teorie měření a regulace Praxe názvy 1. ZS 2015/2016 2015 - Ing. Václav Rada, CSc. OBECNÝ ÚVOD - praxe Elektrotechnická měření mohou probíhat pouze při

Více

Technický experiment, příprava, provedení, hodnocení výsledků

Technický experiment, příprava, provedení, hodnocení výsledků Technický experiment, příprava, provedení, hodnocení výsledků 1 Katedra stavebních hmot a hornického stavitelství VŠB - Technická univerzita Ostrava 8. 3. 2012 Experiment Experiment se snaží získat potřebné

Více

Teorie systémů TES 5. Znalostní systémy KMS

Teorie systémů TES 5. Znalostní systémy KMS Evropský sociální fond. Praha & EU: Investujeme do vaší budoucnosti. Teorie systémů TES 5. Znalostní systémy KMS ZS 2011/2012 prof. Ing. Petr Moos, CSc. Ústav informatiky a telekomunikací Fakulta dopravní

Více

Teorie pravěpodobnosti 1

Teorie pravěpodobnosti 1 Teorie pravěpodobnosti 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Náhodný jev a pravděpodobnost Každou zákonitost sledovanou v přírodě lze zjednodušeně charakterizovat jako

Více

Rastrová reprezentace geoprvků model polí Porovnání rastrové a vektorové reprezentace geoprvků Digitální model terénu GIS 1 153GS01 / 153GIS1

Rastrová reprezentace geoprvků model polí Porovnání rastrové a vektorové reprezentace geoprvků Digitální model terénu GIS 1 153GS01 / 153GIS1 GIS 1 153GS01 / 153GIS1 Martin Landa Katedra geomatiky ČVUT v Praze, Fakulta stavební 14.11.2013 Copyright c 2013 Martin Landa Permission is granted to copy, distribute and/or modify this document under

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule

Více

aktivita A0705 Metodická a faktografická příprava řešení regionálních disparit ve fyzické dostupnosti bydlení v ČR

aktivita A0705 Metodická a faktografická příprava řešení regionálních disparit ve fyzické dostupnosti bydlení v ČR aktivita A0705 Metodická a faktografická příprava řešení regionálních disparit ve fyzické dostupnosti bydlení v ČR 1 aktivita A0705 Metodická a faktografická příprava řešení regionálních disparit ve fyzické

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

Náhodné (statistické) chyby přímých měření

Náhodné (statistické) chyby přímých měření Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně

Více

Zpracování neurčitosti

Zpracování neurčitosti Zpracování neurčitosti Úvod do znalostního inženýrství, ZS 2015/16 7-1 Usuzování za neurčitosti Neurčitost: Při vytváření ZS obvykle nejsou všechny informace naprosto korektní mohou být víceznačné, vágní,

Více

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291 Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených

Více

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.) Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik

Více

Rozhodovací procesy 3

Rozhodovací procesy 3 Rozhodovací procesy 3 Informace a riziko Příprava předmětu byla podpořena projektem OPPA č. CZ.2.17/3.1.00/33253 III rozhodování 1 Rozhodovací procesy Cíl přednášky 1-3: Význam rozhodování Rozhodování

Více

Úvod do zpracování signálů

Úvod do zpracování signálů 1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

Vyjadřování přesnosti v metrologii

Vyjadřování přesnosti v metrologii Vyjadřování přesnosti v metrologii Měření soubor činností, jejichž cílem je stanovit hodnotu veličiny. Výsledek měření hodnota získaná měřením přisouzená měřené veličině. Chyba měření výsledek měření mínus

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

ČESKÁ TECHNICKÁ NORMA

ČESKÁ TECHNICKÁ NORMA ČESKÁ TECHNICKÁ NORMA ICS 35.240.70 2003 Geografická informace - Časové schéma ČSN ISO 19108 97 9827 Prosinec Geographic information - Temporal schema Information géographique - Schéma temporel Tato norma

Více

KORELACE. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy Ekonometrická analýza proces, skládající se z následujících fází: a) specifikace b) kvantifikace c) verifikace d) aplikace Postupné zpřesňování jednotlivých

Více

Metody analýzy modelů. Radek Pelánek

Metody analýzy modelů. Radek Pelánek Metody analýzy modelů Radek Pelánek Fáze modelování 1 Formulace problému 2 Základní návrh modelu 3 Budování modelu 4 Verifikace a validace 5 Simulace a analýza 6 Sumarizace výsledků Simulace a analýza

Více

OSA. maximalizace minimalizace 1/22

OSA. maximalizace minimalizace 1/22 OSA Systémová analýza metodika používaná k navrhování a racionalizaci systémů v podmínkách neurčitosti vyšší stupeň operační analýzy Operační analýza (výzkum) soubor metod umožňující řešit rozhodovací,

Více

Cíle vyučování zeměpisu

Cíle vyučování zeměpisu Cíle vyučování zeměpisu stanovení si jasných, jednoznačných a dosažitelných cílů by mělo určovat základní obsahové prvky učiva teprve poté je vhodné se ptát na prostředky cíle obsah prostředky základní

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

HYPOTÉZY. Kvantitativní výzkum není nic jiného než testování hypotéz. (Disman 2002, s. 76) DEDUKCE (kvantitativní přístup)

HYPOTÉZY. Kvantitativní výzkum není nic jiného než testování hypotéz. (Disman 2002, s. 76) DEDUKCE (kvantitativní přístup) HYPOTÉZY Hypotéza není ničím jiným než podmíněným výrokem o vztazích mezi dvěma nebo více proměnnými. Na rozdíl od problému, který je formulován v podobě otázky explicitně, nebo implicitně vyjádřené, hypotéza

Více

Projektově orientované studium. Kompetence

Projektově orientované studium. Kompetence Pojem kompetence Současný pojetí pojmu kompetence je vágní a neuchopitelné, každý si pod ním může představit cokoliv a kdykoliv to změnit. Současné pojetí pojmu kompetence logicky neumožňuje zlepšení protože

Více

Hodnocení map. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita

Hodnocení map. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita Hodnocení map Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita poslední aktualizace: 9.10.2007 Cíle a způsoby hodnocení Zjištění vlastností, kvality a vhodnosti

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Negativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1

Negativní informace. Petr Štěpánek. S použitím materiálu M.Gelfonda a V. Lifschitze. Logické programování 15 1 Negativní informace Petr Štěpánek S použitím materiálu M.Gelfonda a V. Lifschitze 2009 Logické programování 15 1 Negace jako neúspěch Motivace: Tvrzení p (atomická formule) neplatí, jestliže nelze odvodit

Více

Měření závislosti statistických dat

Měření závislosti statistických dat 5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě

Více

Obecné schéma řízení rizik, stanovení rozsahu a cíle analýzy rizik, metody sběru a interpretace vstupních dat

Obecné schéma řízení rizik, stanovení rozsahu a cíle analýzy rizik, metody sběru a interpretace vstupních dat Obecné schéma řízení rizik, stanovení rozsahu a cíle analýzy rizik, metody sběru a interpretace vstupních dat doc. Ing. Alena Oulehlová, Ph.D. Univerzita obrany Fakulta vojenského leadershipu Katedra krizového

Více

Hodnocení životního prostředí. Přístupy, prostředky, postupy

Hodnocení životního prostředí. Přístupy, prostředky, postupy Hodnocení životního prostředí Přístupy, prostředky, postupy úvod zabývat se hodnocením ŽP znamená zabývat se komplexností našich činností a jejich vzájemných interakcí jak mezi sebou, tak i s přírodním

Více

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13. Grafy doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 13. března 2017 Jiří Dvorský (VŠB TUO) Grafy 104 / 309 Osnova přednášky Grafy

Více

3/8.4 PRAKTICKÉ APLIKACE PŘI POUŽÍVÁNÍ NEJISTOT

3/8.4 PRAKTICKÉ APLIKACE PŘI POUŽÍVÁNÍ NEJISTOT PROKAZOVÁNÍ SHODY VÝROBKŮ část 3, díl 8, kapitola 4, str. 1 3/8.4 PRAKTICKÉ APLIKACE PŘI POUŽÍVÁNÍ NEJISTOT Vyjadřování standardní kombinované nejistoty výsledku zkoušky Výsledek zkoušky se vyjadřuje v

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

+ 1. doc. Ing. Jan Skrbek, Dr. - KIN. Konzultace: pondělí nebo dle dohody. Spojení:

+ 1. doc. Ing. Jan Skrbek, Dr. - KIN. Konzultace: pondělí nebo dle dohody. Spojení: Informatika I - 5 Sémiotický model informací Sémantická a pragmatická pravidla zpracování informací, znalosti, kompetence, hodnota informace, rozhodování. Přednáší: doc. Ing. Jan Skrbek, Dr. - KIN Konzultace:

Více

Základy teorie pravděpodobnosti Kapitola: Numerické výpočty příklad 2. Stránka v kapitole 1. Příklad 2. Modifikace M systému k=6p.

Základy teorie pravděpodobnosti Kapitola: Numerické výpočty příklad 2. Stránka v kapitole 1. Příklad 2. Modifikace M systému k=6p. Základy teorie pravděpodobnosti Kapitola: Numerické výpočty příklad 2. Stránka v kapitole 1 Příklad 2. Výpočet pomocí rozšířeného Bernoulliho schematu. Příklad řeší výpočtem rozložení prvků losovaných

Více

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc. Big Data a oficiální statistika Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc. Obsah příspěvku Charakteristiky Big Data Výzvy a úskalí z perspektivy statistiky Výzvy z perspektivy computing

Více

Teorie systémů TES 1. Úvod

Teorie systémů TES 1. Úvod Evropský sociální fond. Praha & EU: Investujeme do vaší budoucnosti. Teorie systémů TES 1. Úvod ZS 2011/2012 prof. Ing. Petr Moos, CSc. Ústav informatiky a telekomunikací Fakulta dopravní ČVUT v Praze

Více

Fakulta elektrotechniky a komunikačních technologíı Ústav automatizace a měřicí techniky v Brně

Fakulta elektrotechniky a komunikačních technologíı Ústav automatizace a měřicí techniky v Brně Vysoké učení technické v Brně Fakulta elektrotechniky a komunikačních technologíı Ústav automatizace a měřicí techniky Algoritmy řízení topného článku tepelného hmotnostního průtokoměru Autor práce: Vedoucí

Více

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ Má-li analytický výsledek objektivně vypovídat o chemickém složení vzorku, musí splňovat určitá kriteria: Mezinárodní metrologický slovník (VIM 3),

Více

Informační a znalostní systémy jako podpora rozhodování

Informační a znalostní systémy jako podpora rozhodování Informační systémy a technologie Informační a znalostní systémy jako podpora rozhodování Petr Moos - ČVUT VŠL Přerov listopad 2015 Analýza a syntéza systému Definici systému můžeme zapsat ve tvaru: S =

Více

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI Elektronická sbírka příkladů k předmětům zaměřeným na aplikovanou statistiku

Více

SIGNÁLY A LINEÁRNÍ SYSTÉMY

SIGNÁLY A LINEÁRNÍ SYSTÉMY SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz VII. SYSTÉMY ZÁKLADNÍ POJMY SYSTÉM - DEFINICE SYSTÉM (řec.) složené, seskupené (v

Více

Obsah. Zpracoval:

Obsah. Zpracoval: Zpracoval: houzvjir@fel.cvut.cz 03. Modelem řízený vývoj. Doménový (business), konceptuální (analytický) a logický (návrhový) model. Vize projektu. (A7B36SIN) Obsah Modelem řízený vývoj... 2 Cíl MDD, proč

Více

POPIS STANDARDU CEN TC278/WG7. 1 z 5. draft prenv Geografická silniční databáze. Oblast: ZEMĚPISNÁ DATA V SILNIČNÍ DOPRAVĚ ( GRD)

POPIS STANDARDU CEN TC278/WG7. 1 z 5. draft prenv Geografická silniční databáze. Oblast: ZEMĚPISNÁ DATA V SILNIČNÍ DOPRAVĚ ( GRD) POPIS STANDARDU CEN TC278/WG7 Oblast: ZEMĚPISNÁ DATA V SILNIČNÍ DOPRAVĚ ( GRD) Zkrácený název: GEOGRAFICKÁ DATABÁZE Norma číslo: 14825 Norma název (en): GDF GEOGRAPHIC DATA FILES VERSION 4.0 Norma název

Více

Kartografické stupnice. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita

Kartografické stupnice. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita Kartografické stupnice Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita Datum vytvoření dokumentu: 20. 9. 2004 Datum poslední aktualizace: 16. 10. 2012 Stupnice

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Korelace. Komentované řešení pomocí MS Excel

Korelace. Komentované řešení pomocí MS Excel Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne

Více

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu

Více

Metody přírodních věd aplikované na vědy sociální: předpoklad, že lidské chování můžeme do jisté míry měřit a předpovídat.

Metody přírodních věd aplikované na vědy sociální: předpoklad, že lidské chování můžeme do jisté míry měřit a předpovídat. 3. Kvalitativní vs kvantitativní výzkum Kvantitativní výzkum Metody přírodních věd aplikované na vědy sociální: předpoklad, že lidské chování můžeme do jisté míry měřit a předpovídat. Kvantitativní výzkum

Více

*Jihočeská univerzita v Českých Budějovicích, Zemědělská fakulta České Budějovice ** IDS Praha

*Jihočeská univerzita v Českých Budějovicích, Zemědělská fakulta České Budějovice ** IDS Praha Jan Těšitel* Drahomíra Kušová* Karel Matějka** Martin Kuš* *Jihočeská univerzita v Českých Budějovicích, Zemědělská fakulta České Budějovice ** IDS Praha České Budějovice, září 2013 CÍL Cílem dotazníkového

Více

Úvod do GIS. Prostorová data I. část. Pouze podkladová prezentace k přednáškám, nejedná se o studijní materiál pro samostatné studium.

Úvod do GIS. Prostorová data I. část. Pouze podkladová prezentace k přednáškám, nejedná se o studijní materiál pro samostatné studium. Úvod do GIS Prostorová data I. část Pouze podkladová prezentace k přednáškám, nejedná se o studijní materiál pro samostatné studium. Karel Jedlička Prostorová data Analogová prostorová data Digitální prostorová

Více

Diagnostika regrese pomocí grafu 7krát jinak

Diagnostika regrese pomocí grafu 7krát jinak StatSoft Diagnostika regrese pomocí grafu 7krát jinak V tomto článečku si uděláme exkurzi do teorie regresní analýzy a detailně se podíváme na jeden jediný diagnostický graf. Jedná se o graf Předpovědi

Více

Bayesovská klasifikace digitálních obrazů

Bayesovská klasifikace digitálních obrazů Výzkumný ústav geodetický, topografický a kartografický Bayesovská klasifikace digitálních obrazů Výzkumná zpráva č. 1168/2010 Lubomír Soukup prosinec 2010 1 Úvod V průběhu nedlouhého historického vývoje

Více

Kritérium relevance v hodnocení udržitelného rozvoje. Doc. PaedDr. Tomáš Hák, PhD. Doc. RNDr. Svatava Janoušková, PhD.

Kritérium relevance v hodnocení udržitelného rozvoje. Doc. PaedDr. Tomáš Hák, PhD. Doc. RNDr. Svatava Janoušková, PhD. Kritérium relevance v hodnocení udržitelného rozvoje Doc. PaedDr. Tomáš Hák, PhD. Doc. RNDr. Svatava Janoušková, PhD. ČZU Praha, 30. května 2017 Hodnocení Evaluation Assessment Evaluace je proces systematického

Více

Mgr. Ladislav Zemánek Maturitní okruhy Matematika 2013-2014. 1. Obor reálných čísel

Mgr. Ladislav Zemánek Maturitní okruhy Matematika 2013-2014. 1. Obor reálných čísel Mgr. Ladislav Zemánek Maturitní okruhy Matematika 2013-2014 1. Obor reálných čísel - obor přirozených, celých, racionálních a reálných čísel - vlastnosti operací (sčítání, odčítání, násobení, dělení) -

Více

Fuzzy regulátory Mamdaniho a Takagi-Sugenova typu. Návrh fuzzy regulátorů: F-I-A-D v regulátorech Mamdaniho typu. Fuzzifikace. Inference. Viz. obr.

Fuzzy regulátory Mamdaniho a Takagi-Sugenova typu. Návrh fuzzy regulátorů: F-I-A-D v regulátorech Mamdaniho typu. Fuzzifikace. Inference. Viz. obr. Fuzzy regulátory Mamdaniho a Takagi-Sugenova typu Návrh fuzzy regulátorů: Fuzzifikace, (fuzzyfikace), (F) Inference, (I), Agregace, (A), Defuzzifikace (defuzzyfikace) (D). F-I-A-D v regulátorech Mamdaniho

Více

Metodická příručka k uplatnění některých metod při hodnocení dopadů regulace (RIA)

Metodická příručka k uplatnění některých metod při hodnocení dopadů regulace (RIA) 1 Metodická příručka k uplatnění některých metod při hodnocení dopadů regulace (RIA) 2 OBSAH 1. Alternativní formy řešení problému... 3 2. Metody porovnávání dopadů... 4 3 1. ALTERNATIVNÍ FORMY ŘEŠENÍ

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti

Více

GIS Geografické informační systémy

GIS Geografické informační systémy GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu geoprvků. Geometrická

Více

Nejistota měření. Thomas Hesse HBM Darmstadt

Nejistota měření. Thomas Hesse HBM Darmstadt Nejistota měření Thomas Hesse HBM Darmstadt Prof. Werner Richter: Výsledek měření bez určení nejistoty měření je nejistý, takový výsledek je lépe ignorovat" V podstatě je výsledek měření aproximací nebo

Více

2. Účel a cíl koncepce, zdroje dat

2. Účel a cíl koncepce, zdroje dat 2. Účel a cíl koncepce, zdroje dat 2.1. Účel a cíl koncepce Koncepce vychází s principů a cílů Státního programu ochrany přírody a krajiny, který byl schválen usnesením vlády č.415 ze dne 17. června 1998.

Více

Charakterizují kvantitativně vlastnosti předmětů a jevů.

Charakterizují kvantitativně vlastnosti předmětů a jevů. Měřicí aparatura 1 / 34 Fyzikální veličiny Charakterizují kvantitativně vlastnosti předmětů a jevů. Můžeme je dělit: Podle rozměrů: Bezrozměrné (index lomu, poměry) S rozměrem fyzikální veličiny velikost

Více