DETEKCE, PROKAZATELNOST A VIZUALIZACE EXTRÉMŮ DAT VE STATISTICKÝCH SOUBORECH
|
|
- Filip Vaněk
- před 5 lety
- Počet zobrazení:
Transkript
1 Kartografické listy, 2008, 16. Vít VOŽENÍLEK, Jaromír KAŇOK, Pavel TUČEK DETEKCE, PROKAZATELNOST A VIZUALIZACE EXTRÉMŮ DAT VE STATISTICKÝCH SOUBORECH Voženílek, V., Kaňok, J., Tuček, P.: Extreme detection, provableness and visualization of statistical data files. Kartografické listy 2008, 16, 9 figs., 17 refs. Abstract: The aim of the article is to make one known, that the extreme values of the observed geographical variable could be visualized in many ways. Authors introduce the optimal procedures for visualization of the extreme values in demographic datasets. The methodology is based on the statistical preprocessing of the data. The detection of the extreme values must be performed as first. The visualization of these values could be drawn after the significant prove. There is presented boundary which could be computed from the dataset and could serve as a signal point for the extreme values in the datasets. The extreme values are divided into two groups according to the point of occurrence. The first group is reserved for the extreme values in the frequency area. The second group describes the extreme values in the data area. The conclusion is dedicated to the measuring of the entropy in order to obtain the significant number of intervals for the creating of the maps with the respect to the occurrence of the extreme values. Keywords: map, errors, outliers, extremes, visualization Úvod Matematizace se v geografii začala výrazněji projevovat v 60. letech minulého století. Tento proces představoval sblížení geografie a matematiky (Voženílek 2001), což vyústilo ve vytváření metodických postupů s přesnější argumentací a vyšší spolehlivostí. Začal se uplatňovat exaktnější a zobecněný výklad řady geografických teorií s důrazem na objasnění obecných vlastností prostorových struktur u vzhledově a předmětově různých jevů v krajině. Hlavním důsledkem však byla metodologická spojení s jinými vědními disciplínami pomocí formulací postupů a závěrů v obecně vědeckém jazyce matematiky. Statistické metody (též kvantitativní metody výzkumu) jsou dnes již nezbytnou součástí geografického výzkumu. Příspěvek se zabývá rozborem problematiky extrémních hodnot, zejména jejich detekce, prokazatelnost a nalezení vhodné metody kartografické vizualizace extrémů demografických dat ve statistických souborech. Téma vizualizace extrémů v mapách je jedním ze stěžejních otázek při kvantitativním popisu a následné interpretaci vlastností zkoumaných jevů. Chybné určení extrémů a jejich následná vizualizace vede k chybným úsudkům o tvrzeních, která jsou uživatelům map sdělována. Korektní přístup matematického zpracování dat a využití odpovídajících metod vizualizace je vhodné u šetření statistických souborů, při kterých se upozorňuje především na ty hodnoty, jež jsou nějakým způsoben neobvyklé. Prof. RNDr. Vít VOŽENÍLEK, CSc., Doc. RNDr. Jaromír KAŇOK, CSc., Mgr. Pavel TUČEK, Katedra geoinformatiky, Přírodovědecká fakulta, Univerzita Palackého v Olomouci, tř. Svobody 26, Olomouc, Česká republika, vit.vozenilek@upol.cz, jaromir.kanok@upol.cz, pavel.tucek@upol.cz 113
2 Pojem extrém Extrémní hodnoty jsou součástí standardního popisu zkoumaného jevu, avšak při jejich nevhodné interpretaci mohou vést k podání zkreslené informace, která je obsažena v pojmu extrém 1. Pojem extrém může v běžné řeči nabývat nejrůznějších významů. Většinou se jedná o hovorově označovaný jev, který dosáhl nějaké neočekávané hodnoty nebo nějakého neočekávaného stavu. Toto pojetí souvisí spíše s označováním hodnot extrémně vysokých, nežli jakkoli nápadně vybočujících. Pod pojem přírodní extrémy jsou zpravidla zahrnuty přírodní jevy vyznačující se významnými dopady na přírodu a lidskou společnost (Brázdil a kol. 2007). Zahrnují širokou škálu druhově pestrých jevů, spadajících tematicky do oblasti geofyziky (např. zemětřesení), geologie a geomorfologie (např. skalní řícení, sesuvy), meteorologie (např. vichřice, krupobití), hydrologie (např. povodně) či oceánografie (např. tsunami). Z hlediska jejich projevu lze rozlišovat mezi přírodním nebezpečím, přírodním rizikem a přírodní katastrofou (Glade a Dikau, 2001). V matematice a dalších exaktně pracujících oborech existuje pro pojem extrém přesné vymezení, které jasně stanovuje význam extrému jako hodnoty, která je pro celý jev největší, resp. nejmenší na dané oblasti. Z hlediska statistického je však zkoumání extrému daleko složitější a rozsáhlejší, neboť doposud nebyla posuzována a plně implementována komplexní znalost o chování zkoumaného jevu. Uvažuje-li se zkoumaný jev jako statistická náhodná veličina, pak je studium extrémů složitější. Nejprve se rozhodování o extrémních hodnotách musí rozdělit na několik fází, a to na detekci extrémů, jejich prokazování, interpretaci a v případě kartografie i na jejich následnou vizualizaci. Detekce extrémů Při detekci (vymezování) extrémů je nejprve nutné stanovit, které hodnoty se za extrémy považují, a rozlišovat extrémy datové sady ve frekvenční oblasti a datové oblasti. Extrémní hodnoty ve frekvenční oblasti (frekvenční extrémy) jsou takové hodnoty zkoumaného jevu, které svým výskytem, resp. četností výskytu, převyšují prokazatelně četnost výskytu ostatních hodnot zkoumaného jevu. Jedná se tedy výhradně o hodnoty s extrémním četnostním výskytem v datové sadě. Frekvenční extrémy lze graficky znázornit pomocí libovolného vyobrazení četností, popř. procentuálním vyjádřením podílu jednotlivých skupin na celkovém datovém souboru (obr. 1). Toto se týká i případů, kdy četnost této hodnoty je malá popř. procentuální podíl je malý. Obr. 1 Frekvenční extrémy zobrazené pomocí grafu hustoty pravděpodobností (vlevo) a procentuálního podílu (vpravo) 1 Definice: Nechť je dán zkoumaný jev J(t), reprezentovaný datovou sadou D(t) s hodnotami, které odpovídají pozorováním x 1 (t) x n (t), popř. x(t 1 ) x(t n ), kde t reprezentuje čas. Potom extrémem jsou hodnoty x i, popř. x(t i ), které z hlediska výskytu nereprezentují přirozené chování zkoumaného jevu. 114
3 Extrémní hodnoty v datové oblasti (datové extrémy) jsou takové hodnoty zkoumaného jevu, které prokazatelně převyšují (nebo nedosahují) charakter zkoumaného jevu, což lze definitoricky zavést jako body ležící mimo majoritní část datového souboru. Při zavádění datového extrému je však třeba brát v úvahu, že datovou oblastí se rozumí obor hodnot, kterých může jev (zkoumaná náhodná veličina) nabývat. Extrémní hodnota v datové oblasti nemusí jednoznačně znamenat extrémní hodnotu zkoumaného a následné prokazování a následně i vizualizace jsou zavádějící a matoucí. Fáze detekce extrémů se v datové sadě, kde se bere v úvahu frekvenční i datová oblast, provádí rozborem dat a statistickým zpracováním. Vlastní detekce extrémů je zaměřena na získání numerických hodnot extrémů z datové sady, respektive z modelu reprezentujícího zkoumaná data, čímž se rozumí výpočet extrémů pomocí aparátu matematické analýzy aplikovaného na numerický model zkoumaného jevu (Jarník 1984a). Takové extrémy se graficky vizualizují rovněž pomocí tzv. scatterplotu (obr. 2) nebo libovolného zobrazení outlierů boxplot (obr. 3). Obr. 2 Scatterplot pro znázornění extrémů v datové oblasti Nelze obecně říci, že největší či nejmenší hodnoty jsou automaticky hodnotami extrémními. V této fázi studia extrémů je důležitá rozvaha o tom, zdali je pro posuzovatele důležitá extrémní hodnota v frekvenční oblasti nebo v datové oblasti (čili rozhodnutí zkoumají-li se frekvenční nebo datové extrémy) a souvisí-li tato hodnota se zkoumanou náhodnou veličinou nebo se jedná o hodnotu prokazatelně nesouvisející. Prokázání extremity Druhou fází studia extrémů je prokazování pravdivosti tvrzení o extremitě detekované hodnoty. Takové tvrzení však musí být podloženo sofistikovanou metodou, která na určité hladině významnosti zaručí, že se jedná o extrémní hodnotu zkoumaného jevu, nikoli o nápadně vybočující hodnotu, tzv. outlier 2. Extrémy jsou přirozenou součástí chování jevu a mají k němu patřičný vztah, zatímco outliers žádný vztah k chování zkoumanému jevu nemají. Outliers vznikají chybami v měření, špatným zápisem do počítačových systémů či pouhým nedopatřením. Pokud se soubory dat vyhodnocují včetně outliers, jsou získané výsledky zcela zkresleny. Proto musejí být outliers ze statistických souborů odstraněny. Metod k detekci a vyloučení outlierů ze statistických souborů a následnému odhalení skrytých extrémů je celá řada (např. Rousseeuw a Leroy 1987). Avšak některé metody jsou vzhledem ke své propracovanosti a nume- 2 Definice 1: Nechť je dán zkoumaný jev J(t), reprezentovaný datovou sadou D(t) s hodnotami, které odpovídají pozorováním x1(t) xn(t), t reprezentuje čas. Hodnota pozorování xi se nazývá outlier, jestliže se jedná o nápadně vybočující pozorování způsobené chybným měřením, chybným zápisem nebo o signifikantně vybočující a nesouvisející datový údaj. 115
4 rické složitosti pro zpracování demografických souborů dat nevhodné (např. Rousseeuw a Van Driessen 1998). Ovšem jiné velice sofistikované a přitom numericky nenáročné metody (např. Filzmoser 2004) plně vyhovují jejich nasazení v demografii, čímž mnohonásobně zvyšují informativní hodnotu výsledných poznatků o zkoumaných jevech. Výjimečně může být po zhodnocení expertem outlier považován za extremní hodnotu. Postup při analýze datových sad za účelem prokázání extrémů probíhá ve dvou krocích. Nejprve se identifikují body podezřelé z extrému, čímž se vymezí množina těch bodů, které se budou dále analyzovat. Ve druhém kroku se tato množina rozdělí na množinu extrémů a množinu outlierů. Jednoduché metody zaměřené na detekci outlierů jsou založeny na rozložení pravděpodobností zkoumané náhodné veličiny a dělí se na grafické a numerické (Filzmoser 2004, 2005). Do grafických metod zaměřených na rozpoznávání outlierů se řadí jednoduché vizualizační metody boxplot a histogram. Boxplot je vizualizační metoda, která zkoumá rozložení hodnot kolem vypočteného mediánu (Rousseeuw a Leroy 1987). Tato metoda se neváže na aritmetický průměr, tedy není ani vázaná na tabulkové normální rozdělení. Podstatným faktem je stanovení tzv. mezikvartilového rozpětí (IQR), což je vzdálenost prvního a třetího kvartilu. Po stanovení IQR se snadno určuje hodnota podezřelých údajů. Tato hodnota (mezní hranice) se nachází ve vzdálenosti 1,5 násobku od prvního, resp. třetího kvartilu. Graficky je nejvhodnější tyto extrémy zobrazovat v boxplotu pomocí izolovaných bodů za hranicí 1,5 násobku IQR. Obr. 3 Boxplot se zobrazenými hranicemi pro výskyt outlierů u normálního rozdělení U metody histogramu je důležité dobře interpretovat rozložení hodnot. Histogram, který vykazuje na začátku nebo na konci výrazné výstupky (peaky), poukazuje na výskyty outlierů. Tyto outliery je ale nutno dobře identifikovat a zdůvodnit. Jedná-li se o několik málo hodnot, pak se zcela nepochybně interpretují jako outlier. V případě, že je hodnot více a jedná-li se o vícevrcholové rozdělení, pak se dané údaje nedají reprezentovat jako outliery a jedná se o extrémy. Bezprostředně potom je nutné podrobit dané hodnoty dalšímu zkoumání za účelem expertního vyhodnocování. 116
5 Obr.4 Ukázka tradičního histogramu Stanovení počtu intervalů, jejich hranic a jejich pojmenování Tradiční metody pro stanovení počtu intervalů založené na znalosti střední hodnoty a rozptylu náhodné veličiny jsou sice z pohledu statistiky vhodnou metodou, ale z pohledu kartografie většinou nezohledňují a detailně nepopisují zkoumaný jev. Metoda stanovení počtu intervalů při řešení extremity vychází ze znalosti možných výsledků náhodné veličiny. Tato oblast se postupně dělí na snižující se počet intervalů tak dlouho, dokud není poměr entropie a počtu intervalů maximální. Tato metoda je propojením statistického pohledu na data a kartografické vizualizace. Tímto postupem se stanoví optimální počet intervalů, který zaručí nejvyšší míru zachované informace a tím i vhodnou výchozí pozici pro kartografickou vizualizaci. Při zpracování demografických dat se ve většině případů pracuje s diskrétní náhodnou veličinou, která nabývá hodnot z nějaké množiny. Tato množina je množinou možných realizací náhodné veličiny. Pro stanovení počtu intervalů se při řešení extremity používá zcela unikátní přístup založený na míře entropie, kterou daný počet intervalů ve výsledné kartografické vizualizaci vyjadřuje. Entropie je pojem vycházející z teorií pravděpodobnosti a informace a je součástí kybernetiky. Entropií 3 se rozumí míra informační vydatnosti, nebo také neurčitosti pokusu. Informační entropie je také nazývána Shannonovou entropií, a to po Claude E. Shannonovi, který zformuloval mnoho klíčových poznatků teoretické informatiky a které se touto aplikací stávají klíčové také v oblasti geoinformatiky. Obecně pro systém (také demografický jev) S { s, s,, sn }, 1 2 K n s konečným počtem možných stavů a pravděpodobnostní distribucí P(s i ) je informační entropie definována jako střední hodnota: ( S ) = P( s ) log P( ) i = 1 Entropie je maximální pro rovnoměrné rozložení H H n 1 = n = n 1 P i n ( s ) = pro i i 2 s i log n n ( S ) log = log = n i 1 2 (1) (2) (3) 3 Definice: Entropie je střední hodnota míry informace potřebné k odstranění neurčitosti, která je dána konečným počtem vzájemně se vylučujících jevů. 117
6 a minimální pro zcela deterministický systém H P ( s ) = 1a P( s ) = 0 pro i k k n Analogicky pro případ informací v mapě lze zformulovat, že informační entropie mapy je střední hodnota prostorové informace nesená v mapě. Z tohoto postupu je tedy patrné, že optimální počet intervalů je stanoven takovým způsobem, že: H i max, N () i kde N(i) je počet intervalů, H(i) je entropie napočítaná na tomto dělení. i ( S ) P( s ) P( ) = log 1 0 = = i 1 i log2 s i 2 = ( ) (4) (5) (6) Obr. 5 Tři různé hodnoty relativní (v %) entropie (vlevo 32,3; vpravo 74,5; dole 78,08) Dalším krokem při prokazování extremity jevu je stanovení nejnižší hodnoty extrému. Při tomto postupu je nutné brát v úvahu postupnou hierarchii hodnot náhodného jevu. Mezi hodnoty jevu patří všechny možné hodnoty, které lze při zkoumání náhodného jevu naměřit. Extrémem jevu je hodnota nevyhovující výše uvedené definici. Při určení hodnoty extrému se lze setkat se situací, kdy extrémem může být více hodnot v souboru. Proto je třeba stanovit nejnižší hodnotu, popř. nejvyšší hodnotu extrému. Nelze však za extrém vždy považovat pouze nejvyšší a nejnižší hodnoty náhodné veličiny. Tato situace může být dobře ilustrována na modelu získaného odhadem z dat. Model je vždy odhadem náhodného jevu a popisuje jej jako celek, tudíž můžeme získat i data, která jsou jinak neměřitelná. Při zkoumání modelu pomocí metod matematické analýzy (Jarník 1984a,b) lze dojít k poznání, že extrém se nachází nad, popř. pod, nejvyšší, popř. nejnižší naměřenou hodnotou. 118
7 Interpretace studia extrémů Interpretací výsledků studia extrémů se rozumí sémantická interpretace, tedy slovní vyjádření extrémů zahrnující jejich formulaci ve vztahu ke zkoumanému jevu. Kartografická vizualizace je pak sdělení této formulace kartografickými prostředky/metodami tak, že interpretace kartografického vyjádření významu je identické s interpretací sémantickou. Při hledání extrému je nutné si uvědomit podstatnou skutečnost. Extrémní hodnotu lze chápat dvojím způsobem. Prvně jako hodnotu danou určitým předpisem, normou nebo zákonem. Za druhé jako hodnotu určenou statistickými metodami. Pokud jsou obě hodnoty identické nebo leží ve stejném intervalu odvozeném metodou postupného dělení, pak lze jejich kartografickou vizualizace provést stejným způsobem. Je-li ovšem každá z hodnot z jiného intervalu, pak je nezbytné použít různé kartografické přístupy. Názorně lze tuto situaci ukázat na ilustrativním příkladu, kdy náhodná veličina nabývá svých hodnot v intervalu <-1, 1>, kde extrémní hodnoty se nacházejí v intervalech <-1, -0,7> a <0,7, 1>. Tomuto faktu se podřídí i intervaly při tvorbě mezí intervalů stupnice pro vyjádření jevu v mapě. Pokud se ale při detekci outlierů zjistí, že extrémem muže být i hodnota 0,6, popř. -0,6 potom je potřeba zvážit, jak tuto situaci v mapě vyjádřit. Kartografická vizualizace Posledním krokem ve statistickém řešení extremity je její signifikantní vizualizace. Je více než zřejmé, že správná vizualizace je velmi citlivou částí celého postupu, kterou bez předchozích fází nelze realizovat. I v tomto kroku však vznikají problémy, a to jak z pohledu statistiky, tak z pohledu norem a zavedených postupů. Nalezení optimální kartografické metody, která je schopna zachytit tuto obohacenou informaci, je úkolem tematických kartografů. Nejpoužívanější kartografické metody zanechávají informaci pouze o jedné předem definované hranici. Zahrnutí dlouhodobého vývoje nebo širšího statistického souboru může vést k posunu této definované hranice do jiných hodnot a znemožnění zjištění, zdali se jedná o skutečnou extremitu z pohledu statistiky nebo o stanovenou extremitu normami. Obr. 6 Grafické vyjádření extrémních hodnot ve stupnici pro kartogram, ve kterém nebyly zkoumány extrémní hodnoty Obr. 7 Grafické vyjádření extrémních hodnot ve stupnici pro kartogram, ve kterém byly zkoumány extrémní hodnoty Legenda k obrázkům 6 a 7: 1 Oblast minimálních naměřených nebo zjištěných hodnot; 2 Oblast maximálních naměřených nebo zjištěných hodnot; 3 Oblast minimálních extrémních hodnot; 4 Oblast maximálních extrémních hodnot; 5 Teoreticky nejnižší dosažitelná hodnota; 6 Teoreticky nejvyšší dosažitelná hodnota (příklad pro hodnotu v nekonečnu); 7 Extrémní minimální hodnota (musí ležet v oblasti 3; příklad: kdy nebyla naměřena nebo zjištěna); 8 Extrémní maximální hodnota (musí ležet v oblasti 4); 9 Naměřená nebo zjištěna nejmenší hodnota (musí ležet v oblasti 1); 10 Naměřená nebo zjištěna největší hodnota (musí ležet v oblasti 2; příklad: kdy leží i v oblasti 4 a shoduje se s hodnotou 8). 119
8 Extrémních hodnoty lze kartograficky vyjádřit následovně: A. Oblast minimálních (obr. 6, 7 legenda: 1), resp. maximálních (obr. 6, 7 legenda: 2) naměřených nebo zjištěných hodnot Oblast minimálních, resp. maximálních naměřených nebo zjištěných hodnot se doposud vymezuje převážně empirickými nebo i elementárními statistickými postupy. Vždy se jedná o vytvoření takové intervalové stupnice, ve které se vymezí mimo jiné i intervaly s minimálními a maximálními hodnotami. Postup ve vytváření takové intervalové stupnice je buď empirický, nebo s použitím základních rozptylových statistických metod. Nad naměřenými daty se například vytváří stupnice intervalová s pravidelnou, s pravidelně rostoucí nebo s pravidelně klesající šířkou intervalu. Pokud v určité části spektra dat hodnoty chybějí, vytváří se intervalová stupnice skoková s hiátem stejným způsobem. V lepším případě se zkoumá rozdělení četností hodnot a pak se šířka intervalů volí nepravidelně, obvykle podle nejlépe přiléhajícího teoretického rozdělení četností (normální, exponenciální, Pearsonova křivka III. typu apod.). Volí se například meze intervalů podle velikosti směrodatné odchylky (s) ve vztahu k průměru (x prům. ): (- ;x prům. s ; (x prům. s;x prům. ; (x prům.; x prům. + s (x prům. + s ; + ), nebo méně častěji ve vztahu k jiné střední hodnotě, např. k mediánu, k průměrné odchylce od průměru apod. Meze intervalů se též určují pomocí kvartilů, pentilů, decilů. Pokud je rozdělení četností vícevrcholové, používají se ke stanovení šířky intervalů sedla a vznikají intervaly o nepravidelné šířce (Kaňok 1999b). Nicméně k takto vytvářeným intervalům mohou být výhrady. Pokud se například vymezí intervaly ve vztahu ke střední hodnotě (např. u normálního rozdělení), rozdělí se oblast největší hustoty výskytu zkoumaného jevu. Pokud se vloží hranice intervalů právě do průměru, oblast homogenity se symetricky rozdělí. V tomto případě zpracovatel dat musí vybrat stupnici podle povahy řešeného problému a musí vědět, zda chce zobrazit homogenitu v oblasti průměru nebo rozložení podprůměrných, resp. nadprůměrných hodnot. Kartografická znázornění minimálních, resp. maximálních naměřených nebo zjištěných hodnot se nejčastěji realizuje metodami pseudokartogramu a kartogramu (např. jednoduchý, kvalifikační, selektivní, tečkový, pseudokorelační atd.), metody kartodiagramu, metoda teček-topografický způsob (Kaňok 1999a). B. Oblast minimálních (obr. 9 legenda: 3), resp. maximálních (obr. 9 legenda: 4) extrémních hodnot. Na rozdíl od výše uvedených případů (viz A.) jsou oblasti minimálních, resp. maximálních extrémních hodnot vymezitelné mnohem přesněji, objektivněji viz výše uvedený text o detekci a prokazatelnosti extremity. Předtím běžně používané metody byly založeny na použití výběrových charakteristik datového souboru. Vytváření hranic intervalů: a) x prům. s ; x prům. + s b) x prům. 2s ; x prům. + 2s Tyto intervaly slouží pro vymezení hranic v případě, že je pro zkoumaný jev podstatných 68% dat, resp. 99% dat, což odpovídá a), resp. b). Ke znázornění se používají stejné kartografické metody (pseudokartogram a kartogram jednoduchý, kvalifikační, selektivní, tečkový, pseudokorelační atd.; metodu kartodiagramu, metodu teček - topografický způsob). Na rozdíl od předcházející skupiny se kromě oblastí nejnižších a nejvyšších naměřených hodnot navíc barevně odlišují oblasti, kde se vyskytují hodnoty extrémní. Doporučuje se významněji zvýraznit odstíny použité barvy nebo je lépe doplnit stávající odstíny barev v příslušných intervalech rastrem, nejlépe liniovým. (Kaňok 1999a). 120
9 C. Nejnižší, resp. nejvyšší teoreticky dosažitelná hodnota (obr. 9 legenda: 5, 6) Křivka rozložení četností hodnot sledovaného jevu a následně zpracované teoretické rozdělení četností ukáže možnosti dosažitelnosti extrémních hodnot. U normálního rozdělení to mohou být například hodnoty - ; +. V konečných výběrových souborech lze určit nejnižší i nejvyšší možnou hodnotu. V některých sledovaných jevech určily nejnižší nebo nejvyšší teoretickou hodnotu výsledky bádání jiných věd (např. fyzika: minimální teplota -273,15 C). V kartografickém vyjadřování se upřednostňují výrazné barvy, např. purpurové, které jasně upozorní na minimální, resp. maximální, teoreticky dosažitelnou, hodnotu jevu. D. Naměřená nebo zjištěná extrémní minimální, resp. extrémní maximální hodnota (obr. 9 legenda: 7, 8) Reálně naměřené nebo zjištěné extrémní hodnoty musí ležet za teoretickými mezemi, které extrémy vymezují (viz B.). Je však nutno vnímat dvě teoretické meze, a to jednak pro vymezení minimálních extrémních hodnot a jednak pro vymezení maximálních extrémních hodnot. Teprve jedna z nich je nejmenší v oblasti minimálních extrémních hodnot a jedna z nich je největší v oblasti maximálních extrémních hodnot. Jsou to obvykle jiné hodnoty než hodnoty v předchozích případech (viz C.). Při kartografickém zpracování reálně naměřených extrémních hodnot se upřednostňují méně výrazné barvy než pro označení minimální, resp. maximální teoretické hodnoty sledovaného jevu. Do kartogramu se pak, do příslušné dílčí územní jednotky, bodovým znakem vyznačí, kde se vyskytly reálně naměřené nebo zjištěné extrémní hodnoty (minimální i maximální). E. Naměřená nebo zjištěná nejmenší, resp. největší hodnota přičemž to nemusí být extrémy (obr. 8, 9 legenda: 9, 10) Hodnoty vyskytující se za mezemi extrémů se stávají hodnotami extrémními. Avšak za těmito mezemi se mohou, ale také nemusí vyskytovat reálně naměřené nebo zjištěné hodnoty. Tyto hodnoty se do intervalové stupnice označí ještě méně výraznou barvou než v předchozím případě. Do kartogramu se pak, do příslušné dílčí územní jednotky, bodovým znakem vyznačí, kde se vyskytly reálně naměřené nebo zjištěné nejnižší či nejvyšší hodnota. Pro znázornění hodnot uvedených v C, D, E, lze též použít grafy a diagramy rozličných druhů. Znázornění či barevné zvýraznění nejmenší a největší naměřené či zjištěné hodnoty nebo znázornění nejmenšího a největšího extrému by neměl být problém. Doporučujeme provádět kontrolu správnosti metodiky získávání dat a hned v počátku vylučovat data, která metodicky správně zjištěna nebyla. S touto kontrolou je spojeno vyloučení nápadně vybočujících dat (outlier). Teprve poté lze přikročit ke statistickému a následně ke kartografickému vyjádření dat. Pokud se řeší znázornění hodnot ve skupině A, musí mu předcházet statistická zpracování, vymezení oblastí extrémů a následné stanovení šířky intervalů stupnic. Podobným způsobem při zpracování dat (detekce extrémů, vytváření stupnic, kartografické znázornění) se postupuje i při vytváření kartodiagramu. Je nutno dodat, že jednotlivé datové hodnoty všech typů se v současných kartografických výstupech bohužel běžně neuvádějí. (obr. 8). Bohužel se stává, že na některých mapách se v prostorovém vyjádření uvádějí extrémy, které buď nejsou definovány vůbec, nebo jsou definovány vágně. Příkladem může být Pól zimy a Pól nedostupnosti na mapě Antarktidy (obr. 9). 121
10 Obr. 8 Příklad pseudokartogramu a kartodiagramu, kde nebyly zkoumány a následně graficky vyjádřeny extrémní hodnoty. (Atlas obyvatelstva Slovenska 2006) Obr. 9 Příklad znázornění neurčitě definovaných extrémních hodnot (Pól zimy. Pól nedostupnosti). (Atlas světa 1970) 122
11 Závěr Nalezení optimálních prostředků vhodných pro detekci, prokázání, interpretaci a vizualizaci extrémů v datových sadách je náročnou úlohou. Výše uvedenou metodikou se opírají autoři o statistický přístup vycházející z předzpracování dat, ve kterém se nejprve detekují extrémy (a odlišují od tzv. outlier) a pak se prokáže jejich pravdivost, která vyúsťuje v signifikantní vizualizace. Kartografický přístup se opírá současné metody tematické kartografie, které dále rozvíjí. Navržený přístup je založen na nalezení hranic, které budou prokazatelně určovat meze výskytu extrémů, za kterými se budou již extrémy nacházet. Autoři vyčleňují dvě kategorie extrémů, a to extrémy datové a frekvenční. Způsoby jejich rozpoznání a následné vizualizace jsou podrobně popsány a graficky dokumentovány. V neposlední řadě je zmíněna míra entropie v mapách, která může rovněž posloužit k lepší kartografické vizualizaci extrémů. Příspěvek je součástí výstupů projektu GA ČR 205/06/0965 Vizualizace, interpretace a percepce prostorových informací v tematických mapách. Literatura Atlas krajiny Slovenskej republiky. (2002). Bratislava (Ministerstvo životného prostredia SR a Esprit). Atlas obyvateľstva Slovenska. (2006). Eds. Mládek, J. et al. Bratislava (Univerzita Komenského). Atlas světa. (1970). Eds. Koláčný, A. et al. Praha (Kartografické nakladatelství). BRÁZDIL, R., KIRCHNER, K. a kol. (2007). Vybrané přírodní extrémy a jejich dopady na Moravě a ve Slezsku. Brno (Masarykova univerzita). FILZMOSER. P. (2005). Identification of Multivariate Outliers: A Performance Study". Austrian Journal of Statistics, 34, 2, s FILZMOSER. P. (2004). A multivariate outlier detection method; "Proceedings of the Seventh International Conference on Computer Data Analysis and Modeling", S. Aivazian, P. Filzmoser, Y. Kharin (ed.); Belarusian State University, s FOTHERINGHAM, A.S., BRUNSDON, CH., CHARLTON, M. (2000). Quantitative Geography. Perspectives on Spatial Data Anaylsis. London (Sage Publications). GLADE, T., DIKAU, R. (2001). Gravitative Massenbewegung vom Naturereignis zur Naturkatastrophe. Petermanns Geographische Mitteilungen, 145, 6, s JARNÍK V. (1984a). Diferenciální počet I. Praha (Academia). JARNÍK V. (1984b). Diferenciální počet II. Praha (Academia). KAŇOK, J. (1999a). Tematická kartografie. Vročeno Ostrava (Ostravská univerzita v Ostravě). KAŇOK, J. (1999b). Klasifikace stupnic a zásady jejich tvorby pro kartogram a kartodiagram. Kartografické listy, 7, s PRAVDA, J. (2006). Metódy mapového vyjadrovania. Klasifikácia a ukážky. Geographia Slovaca, 21. Bratislava (Slovenská akadémia vied, Geografický ústav). ROUSSEEUW, P.J., LEROY, A.M. (1987). Robust Regression and Outlier Detection. Series in Applied Probability and Statistics, New York (Wiley-Interscience). ROUSEEUW, P.J., VAN DRIESSEN, K. (1998). Computing LTS Regression for Large Data Sets, Technical Report, Antverp (University of Antverp). VOŽENÍLEK, V. (2001). Aplikovaná kartografie I. Tematické mapy. 2. vydání. Olomouc (Univerzita Palackého v Olomouci). VOŽENÍLEK, V. (2005). Cartography for GIS. Geovizualization and Map Communication..Olomouc (Univerzita Palackého v Olomouci). S u m m a r y Extreme detection, provableness and visualization of statistical data files The aim of the article was to show, that the extreme values need to be visualized with the special attention. It is not necessary to call the highest value of the measured data as a extreme value. We have designed the methodology to recognize the extreme values in the frequency and data area of the dataset with the help of the statistical data processing. The fundamentals of this methodology are based on the estimation of the significant boundary for the extreme values. As we have said before, the extreme values were classified into two categories. The first category is defined as a extreme values in the frequency area and the second area is defined as a extreme values in the data area of the dataset. The end of the statistical processing of the dataset is dedicated to the computation of the entropy. This method could serve for the computation of the significant 123
12 number of intervals for the drawing of the map. The end of the article deals with the interpretation of the obtained results. Some examples are also shown. Fig. 1 Frequency extremes displayed by graph of probability density (left) and percentage ratio (right) Fig. 2 Scatterplot for extreme presentation within data area Fig. 3 Dispalying of outlier boudary in normal distribution by boxplot Fig. 4 Example of conventional histogram Fig. 5 Three different values of relative (in %) entropy (left 32.3, right 74.5, down 78.08) Fig. 6 Graphical visualization of extreme values in cartogram scale where extremes were not investigated Fig. 7 Graphical visualization of extreme values for cartogram where extremes were investigated Fig. 8 Examples of pseducartogram and cartodiagram where extremes were investigated and then displayed (Atlas obyvatelstva Slovenska, 2006) Fig. 9 Example of displaying of uncertainly defined extreme values (Pole of Winter, Pole of inaccessibility (Atlas světa, 1970) Lektoroval: Prof. Ing. Bohuslav VEVERKA, DrSc., České vysoké učení technické, Fakulta stavební, Praha, Česká republika 124
Kartogramy. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita
Kartogramy Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita Datum vytvoření dokumentu: 20. 9. 2004 Datum poslední aktualizace: 17. 10. 2011 Definice Kartogram je
Kartografické stupnice. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita
Kartografické stupnice Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita Datum vytvoření dokumentu: 20. 9. 2004 Datum poslední aktualizace: 16. 10. 2012 Stupnice
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická
7. Tematická kartografie
7. Tematická kartografie Zabývá se tvorbou tematických map, které na topografickém podkladě přebíraném z vhodné podkladové mapy podrobně zobrazují zájmové přírodní, socioekonomické a technické objekty
Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní
VYUŽITÍ MAPOVÉ TVORBY V METEOROLOGII A KLIMATOLOGII
Kartografické listy, 2008, 16. Radim TOLASZ VYUŽITÍ MAPOVÉ TVORBY V METEOROLOGII A KLIMATOLOGII Tolasz, R.: Using of map products for meteorology and climatology. Kartografické listy 2008, 16, 16 figs.,
Chyby měření 210DPSM
Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů
Definice měřítka. Měřítka mapy, velikostní stupnice. Typy měřítka. Grafické měřítko Tvorba tematických map podzim 2010
Definice měřítka Měřítka mapy, velikostní stupnice Tvorba tematických map podzim 2010 Lauermann 1975: Měřítko mapy udává poměr zmenšení délky měřené na mapě k délce ve skutečnosti (na elipsoidu). d : D
7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1
Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1 1 ČHMÚ, OPZV, Na Šabatce 17, 143 06 Praha 4 - Komořany sosna@chmi.cz, tel. 377 256 617 Abstrakt: Referát
Téma 2: Pravděpodobnostní vyjádření náhodných veličin
0.025 0.02 0.015 0.01 0.005 Nominální napětí v pásnici Std Mean 140 160 180 200 220 240 260 Std Téma 2: Pravděpodobnostní vyjádření náhodných veličin Přednáška z předmětu: Pravděpodobnostní posuzování
Pojem a úkoly statistiky
Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby
Č. 1/2008 2. kartografický den
Č. 1/2008 2. kartografický den Dne 29.února 2008 se na Přírodovědecké fakultě Palackého univerzity v Olomouci uskutečnil 2.kartografický den seminář o moderním pojetí tématického mapování v geovědních
Téma 2: Pravděpodobnostní vyjádření náhodných veličin
0.05 0.0 0.05 0.0 0.005 Nominální napětí v pásnici Std Mean 40 60 80 00 0 40 60 Std Téma : Pravděpodobnostní vyjádření náhodných veličin Přednáška z předmětu: Spolehlivost a bezpečnost staveb 4. ročník
Mnohorozměrná statistická data
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém
Úvod do problematiky měření
1/18 Lord Kelvin: "Když to, o čem mluvíte, můžete změřit, a vyjádřit to pomocí čísel, něco o tom víte. Ale když to nemůžete vyjádřit číselně, je vaše znalost hubená a nedostatečná. Může to být začátek
Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,
23. Matematická statistika
Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti
Náhodné (statistické) chyby přímých měření
Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně
Zápočtová práce STATISTIKA I
Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým
INFORMAČNÍ ZISK A ENTROPIE V KARTOGRAFICKÉ TVORBĚ
Kartografické listy, 2009, 17 Vít PÁSZTO, Pavel TUČEK INFORMAČNÍ ZISK A ENTROPIE V KARTOGRAFICKÉ TVORBĚ Pászto, V., Tuček, P.: Information Gain and Entropy in Cartographic Production. Kartografické listy
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
Uni- and multi-dimensional parametric tests for comparison of sample results
Uni- and multi-dimensional parametric tests for comparison of sample results Jedno- a více-rozměrné parametrické testy k porovnání výsledků Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Universita
Popisná statistika. Jaroslav MAREK. Univerzita Palackého
Popisná statistika Jaroslav MAREK Univerzita Palackého Přírodovědecká fakulta Katedra matematické analýzy a aplikací matematiky Tomkova 40, 779 00 Olomouc Hejčín tel. 585634606 marek@inf.upol.cz pondělí
Kartodiagramy. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita
Kartodiagramy Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita Datum vztvoření dokumentu: 29. 10. 2007 Poslední aktualizace: 24. 10. 2011 Obsah přednášky Úvodní
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním
Základy popisné statistiky
Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2
P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.
P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod. Matematický přístup k výsledkům únavových zkoušek Náhodnost výsledků únavových zkoušek. Únavové
Popisná statistika. Statistika pro sociology
Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky
Základy teorie pravděpodobnosti
Základy teorie pravděpodobnosti Náhodná veličina Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Základy teorie
Charakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
Metodologie pro ISK II
Metodologie pro ISK II Všechny hodnoty z daného intervalu Zjišťujeme: Centrální míry Variabilitu Šikmost, špičatost Percentily (decily, kvantily ) Zobrazení: histogram MODUS je hodnota, která se v datech
Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží
Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Zdeněk Karpíšek Jsou tři druhy lží: lži, odsouzeníhodné lži a statistiky. Statistika je logická a přesná metoda, jak nepřesně
Karta předmětu prezenční studium
Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 545-0250 Garantující institut: Garant předmětu: Ekonomická statistika Institut ekonomiky a systémů řízení RNDr. Radmila Sousedíková, Ph.D.
Popisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
Analýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
Náhodná veličina a rozdělení pravděpodobnosti
3.2 Náhodná veličina a rozdělení pravděpodobnosti Bůh hraje se světem hru v kostky. Jsou to ale falešné kostky. Naším hlavním úkolem je zjistit, podle jakých pravidel byly označeny, a pak toho využít pro
Kartografické vyjadřovací
KARTOGRAFICKÁ VIZUALIZACE Kartografické vyjadřovací prostředky - Kvantitativní údaje 2 Dr. Lucie Friedmannová 2012 Obrázky s popisy typu: Obr. 6.2. Viz Kaňok (1999): Tématická kartografie Znázorňování
2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení
2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) Reprezentativní náhodný výběr: 1. Prvky výběru x i jsou vzájemně nezávislé. 2. Výběr je homogenní, tj. všechna x i jsou ze stejného
Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů
Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů Design and implementation of algorithms for adaptive control of stationary robots Marcel Vytečka 1, Karel Zídek 2 Abstrakt Článek
Základy pravděpodobnosti a statistiky. Popisná statistika
Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace v úterý 14.10 až 15.40 hod. Příklad ze života Cimrman, Smoljak/Svěrák,
UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
RNDr. Jaroslav BURIAN Mgr. Vít PÁSZTO. Katedra geoinformatiky Univerzita Palackého v Olomouci
GEOGRAFIE A MAPOVÁNÍ PROSTORU MOŽNOSTI SPOLUPRÁCE SE SEKTOREM VENKOVA RNDr. Jaroslav BURIAN Mgr. Vít PÁSZTO Katedra geoinformatiky Univerzita Palackého v Olomouci Katedra geoinformatiky http://www.geoinformatics.upol.cz
ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK
ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní
Návrh a vyhodnocení experimentu
Návrh a vyhodnocení experimentu Návrh a vyhodnocení experimentů v procesech vývoje a řízení kvality vozidel Ing. Bohumil Kovář, Ph.D. FD ČVUT Ústav aplikované matematiky kovar@utia.cas.cz Mladá Boleslav
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
MODERNÍ TRENDY V KARTOGRAFICKÉM DESIGNU Z HLEDISKA UŽIVATELSKÝCH ASPETŮ ALENA VONDRÁKOVÁ KATEDRA GEOINFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI
Z HLEDISKA UŽIVATELSKÝCH ASPETŮ ALENA VONDRÁKOVÁ KATEDRA GEOINFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI DESIGN JE JAKO KOŘENÍ MŮŽE UDĚLAT VÝBORNOU SLUŽBU NEBO VŠECHNO HODNOTA UŽITEČNOST PŘÍNOSNOST - Morville,
ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 2. POPISNÉ STATISTIKY Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz CO SE SKRÝVÁ V DATECH data sbíráme proto, abychom porozuměli
STATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
Průzkumová analýza dat
Průzkumová analýza dat Proč zkoumat data? Základ průzkumové analýzy dat položil John Tukey ve svém díle Exploratory Data Analysis (odtud zkratka EDA). Často se stává, že data, se kterými pracujeme, se
Náhodné chyby přímých měření
Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.
Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011
Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe
10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar
Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1
Náhodná proměnná Náhodná proměnná může mít rozdělení diskrétní (x 1, x 2,,x n ) spojité () Poznámky: 1. Fyzikální veličiny jsou zpravidla spojité, ale změřené hodnoty jsou diskrétní. 2. Pokud
veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.
Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího
Návrh a vyhodnocení experimentu
Návrh a vyhodnocení experimentu Návrh a vyhodnocení experimentů v procesech vývoje a řízení kvality vozidel Ing. Bohumil Kovář, Ph.D. FD ČVUT Ústav aplikované matematiky kovar@utia.cas.cz Mladá Boleslav
Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku
Obsah Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
1. Statistická analýza dat Jak vznikají informace Rozložení dat
1. Statistická analýza dat Jak vznikají informace Rozložení dat J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Význam statistické analýzy dat Sběr a vyhodnocování dat je způsobem k uchopení a pochopení
Číselné charakteristiky
. Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch
KALIBRACE. Definice kalibrace: mezinárodní metrologický slovník (VIM 3)
KALIBRACE Chemometrie I, David MILDE Definice kalibrace: mezinárodní metrologický slovník (VIM 3) Činnost, která za specifikovaných podmínek v prvním kroku stanoví vztah mezi hodnotami veličiny s nejistotami
Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Interpolace, aproximace a spline 2007 Jindřich Freisleben Obsah
Testování statistických hypotéz
Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné
UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE
UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT V OSTRAVĚ 20.3.2006 MAREK MOČKOŘ PŘÍKLAD Č.1 : ANALÝZA VELKÝCH VÝBĚRŮ Zadání: Pro kontrolu
STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti
ZÁKLADNÍ STATISTICKÉ POJMY HROMADNÝ JEV Statistika pracuje s tzv. HROMADNÝMI JEVY cílem statistického zpracování dat je podání informace o vlastnostech a zákonitostech hromadných jevů: velkého počtu jedinců
Detekce interakčních sil v proudu vozidel
Detekce interakčních sil v proudu vozidel (ANEB OBECNĚJŠÍ POHLED NA POJEM VZDÁLENOSTI V MATEMATICE) Doc. Mgr. Milan Krbálek, Ph.D. Katedra matematiky Fakulta jaderná a fyzikálně inženýrská České vysoké
Statistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr
StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule
MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ
MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ Má-li analytický výsledek objektivně vypovídat o chemickém složení vzorku, musí splňovat určitá kriteria: Mezinárodní metrologický slovník (VIM 3),
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,
Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která
Náhodná veličina a její charakteristiky Náhodná veličina a její charakteristiky Představte si, že provádíte náhodný pokus, jehož výsledek jste schopni ohodnotit nějakým číslem. Před provedením pokusu jeho
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení
KORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Algoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
I. D i s k r é t n í r o z d ě l e n í
6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme
Mnohorozměrná statistická data
Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná
Praktická statistika. Petr Ponížil Eva Kutálková
Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo
MATEMATIKA III V PŘÍKLADECH
VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ MATEMATIKA III V PŘÍKLADECH Cvičení 8 Statistický soubor s jedním argumentem Mgr. Petr Otipka Ostrava 2013 Mgr. Petr Otipka Vysoká škola
p(x) = P (X = x), x R,
6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme
GIS ANALÝZA VLIVU DÁLNIČNÍ SÍTĚ NA OKOLNÍ KRAJINU. Veronika Berková 1
GIS ANALÝZA VLIVU DÁLNIČNÍ SÍTĚ NA OKOLNÍ KRAJINU Veronika Berková 1 1 Katedra mapování a kartografie, Fakulta stavební, ČVUT, Thákurova 7, 166 29, Praha, ČR veronika.berkova@fsv.cvut.cz Abstrakt. Metody
PARAMETRICKÁ STUDIE VÝPOČTU KOMBINACE JEDNOKOMPONENTNÍCH ÚČINKŮ ZATÍŽENÍ
PARAMETRICKÁ STUDIE VÝPOČTU KOMBINACE JEDNOKOMPONENTNÍCH ÚČINKŮ ZATÍŽENÍ Ing. David KUDLÁČEK, Katedra stavební mechaniky, Fakulta stavební, VŠB TUO, Ludvíka Podéště 1875, 708 33 Ostrava Poruba, tel.: 59
ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY
zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické
Téma 10: Spolehlivost a bezpečnost stavebních nosných konstrukcí
Téma 10: Spolehlivost a bezpečnost stavebních nosných konstrukcí Přednáška z předmětu: Pravděpodobnostní posuzování konstrukcí 4. ročník bakalářského studia Katedra stavební mechaniky Fakulta stavební
VYUŽITÍ MATLAB WEB SERVERU PRO INTERNETOVOU VÝUKU ANALÝZY DAT A ŘÍZENÍ JAKOSTI
VYUŽITÍ MATLAB WEB SERVERU PRO INTERNETOVOU VÝUKU ANALÝZY DAT A ŘÍZENÍ JAKOSTI Aleš Linka 1, Petr Volf 2 1 Katedra textilních materiálů, FT TUL, 2 Katedra aplikované matematiky, FP TUL ABSTRAKT. Internetové
CW01 - Teorie měření a regulace
Ústav technologie, mechanizace a řízení staveb CW01 - Teorie měření a regulace ZS 2010/2011 SPEC. 2.p 2010 - Ing. Václav Rada, CSc. Ústav technologie, mechanizace a řízení staveb Teorie měření a regulace
Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability
I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky PRAVDĚPODOBNOST A STATISTIKA Zadání 1 JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL
OHROŽENÍ PŘENOSOVÝCH SOUSTAV PŘÍRODNÍMI VLIVY THREAT OF THE ELECTRICAL TRANSMISSION SYSTEMS BY THE NATURAL
Ž I L I N S K Á U N I V E R Z I T A V Ž I L I N E F A K U L T A Š P E C I Á L N E H O I N Ž I N I E R S T V A KRÍZOVÝ MANAŽMENT - 1/2013 OHROŽENÍ PŘENOSOVÝCH SOUSTAV PŘÍRODNÍMI VLIVY THREAT OF THE ELECTRICAL
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství
1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Seminární práce 1 Brno, 2002 Ing. Pavel
odlehlých hodnot pomocí algoritmu k-means
Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování