Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis

Rozměr: px
Začít zobrazení ze stránky:

Download "Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis"

Transkript

1 Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis Ing. Jitka Svobodová Ing. Jana Pružinová Abstrakt Příspěvek diskutuje možnosti zpracování velkých datových souborů pomocí klasifikačních metod s využitím statistického programu IBM SPSS. Cílem tohoto příspěvku je popsat metody analýzy shluků a jejich aplikace v praxi ve vzájemné souvztažnosti se statistickým programem IBM SPSS. Pomocí shlukové analýzy lze neuspořádanou skupinu objektů uspořádat do několika vnitřně sourodých tříd či shluků. Statistický program IBM SPSS nabízí například pro klasifikaci metodu k-průměrů, hierarchické seskupování či dvoustupňové seskupování. Klíčová slova Klasifikace, podobnost, vzdálenost, analýza, shlukování, SPSS Abstract This paper discusses possibilities of multidimensional data processing by cluster analysis and using statistical software. The aim of this paper is to describe methods of cluster analysis, their practical application using statistical software IBM SPSS. By using cluster analysis, order less objects can be classified into several internally homogeneous classes or clusters. The statistical software SPSS offers methods to classify objects such as k-means for classification clustering, hierarchical clustering or Two Step analysis. Key Words Classification, similarity, distance, analysis, cluster, SPSS

2 1 ÚVOD Cílem příspěvku je popis možností zpracování velkých datových souborů pomocí klasifikačních metod s využitím statistického programu IBM SPSS s ohledem na jeho novinky, které přicházejí spolu s rozvíjejícími se technologiemi. Pro nalezení vazeb mezi objekty se využívají klasifikační metody vícerozměrné statistiky. Tyto metody jsou postupy, kdy se buď jeden objekt zařadí do jedné třídy, pro to se používá například diskriminační analýza DA, nebo díky nimž se uspořádá neuspořádaná skupina objektů do několika sourodých shluků a pro tento účel se používá analýza shluků. (Meloun 2002) Tento příspěvek je zaměřen přímo na shlukovou analýzu. Shluková analýza se vzhledem k náročnosti výpočtů provádí prakticky výlučně pomocí statistického softwaru, neboť statistické softwary nabízejí nové možnosti algoritmů. Každá z metod, které budou v příspěvku popsané, má svá specifika. Metoda dvoustupňového seskupování se od ostatních tradičních technik seskupování odlišuje škálovatelností, manipulací s kategorizovanými a číselnými proměnnými a automatickou volbou počtu shluků. Pomocí seskupování metodou k-means lze zpracovat poměrně rychle a jednoduše velké množství případů, avšak je třeba předem určit počet skupin. Postup této metody samozřejmě předpokládá, že byl vybrán správný počet skupin a že byly zahrnuty všechny relevantní proměnné. Pokud ne, mohou být výsledky zavádějící. Algoritmus hierarchického seskupování začíná v jednotlivých skupinách a kombinuje je, dokud nezbývá pouze jedna skupina. Pomocí hierarchického seskupování lze analyzovat hrubá data. Metoda zobrazuje statistiky v každé fázi, aby mohlo být vybráno vždy to nejlepší řešení. (IBM Corporation 2011) 2 METODA ANALÝZY SHLUKŮ Shluková analýza (Cluster analysis, CLU) je jedním z nástrojů vícerozměrných statistických metod, pomocí kterého je možné klasifikovat množiny objektů do několika shluků, a to na základě podobnosti (nepodobnosti, vzdálenosti). Užití shlukové analýzy lze využít tam, kde se objekty či proměnné rozpadají do tříd. Jinými slovy, množina objektů má sklon se seskupovat do tak zvaných shluků. Po nalezení těchto podobných shluků mohou být jednotlivé skupiny charakterizovány a popsány. Uplatnění metod této analýzy je poměrně široké. Nemusí nutně sloužit pouze pro klasifikaci objektů či proměnných, lze jí také využít pouze jako pomocný postup pro výběr objektů při analýze velkých datových souborů a následně lze analyzovat jen data zástupců těchto zjištěných shluků. (Hebák 2007) Základním problémem shlukové analýzy je kvantitativní vyjádření podobnosti či vzdálenosti objektů. V jednotlivých krocích algoritmů posuzujeme podobnost, respektive vzdálenost dvou objektů, dvou shluků nebo objektu a shluku. V některých případech je způsob hodnocení podobnosti dán přímo shlukovací metodou, avšak obvykle tomu tak není. Proto nejvhodnější míru podobnosti vybíráme, a sice z hlediska shlukovaných objektů a z hlediska použité metody shlukování. Řada shlukovacích metod vychází z duálního pojmu k míře podobnosti, a to z míry nepodobnosti, která se v mnoha případech jeví jako výhodnější. Pro

3 tyto míry nepodobnosti jsou typické funkce založené na vzdálenosti objektů. (Kubanová 2003) O způsobu hodnocení vzdálenosti či podobnosti objektů se rozhoduje po provedení výběru proměnných, které mají charakterizovat vlastnosti shlukovaných objektů, a po zjištění jejich hodnot. První etapou realizace shlukovacího algoritmu bývá právě výpočet příslušných měr pro všechny páry objektů. Vzniká tak symetrická čtvercová matice typu n x n, která má na diagonále nuly, v případě, že jde o matici měr vzdálenosti D, nebo jedničky, pokud jde o matici měr podobností A. Problém může nastat při ukládání matice v paměti počítače, pokud je počet objektů příliš velký. Tento problém pak ovlivní volbu algoritmu. (Hebák 2007) Existuje celá řada definic míry podobnosti, podle Melouna (2004) může být podobnost měřena způsoby, které se dají zařadit do jedné ze tří následujících skupin: Korelační míry Základní mírou podobnosti dvou objektů či znaků xi a xj může být Pearsonův párový korelační koeficient r. Objekty jsou si tím podobnější, čím je jejich párový korelační koeficient větší a bližší hodnotě 1. To se týče objektů či znaků vyjádřených v kardinální škále. V případě ordinální škály (pořadová čísla) je analogickou mírou podobností Spearmanův korelační koeficient. Míry vzdálenosti Představují nejčastěji užívané míry, které jsou založené na prezentaci objektů v prostoru, jehož souřadnice tvoří jednotlivé znaky. Nejčastější vzdálenostní mírou je Eukleidovská vzdálenost zvaná také geometrická metrika, která představuje délku přepony pravoúhlého trojúhelníka. Její výpočet je založen na Pythagorově větě. Kromě toho se užívá také čtverec Eukleidovské vzdálenosti, který tvoří základ Wardovy metody shlukování. Pokud jsou použita nestandardizovaná data, vzniká u vzdálenostních měr problém, kdy mezi shluky mohou být velké rozdíly, díky často veliké odlišnosti jednotek měření. Největší rozptýlení mezi shluky bude u čtverce Eukleidovské vzdálenosti. Se změnou měřítka nebo změnou jednotek jednoho ze znaků se významně změní pořadí podobností. Pokud se do vztahu pro vzdálenost zahrnou také vazby mezi znaky, vyjádřené kovarianční maticí C, vznikne nová statistická míra, zvaná Mahalanobisova metrika. (Meloun 2004) Nevýhody měr vzdáleností spočívají v jejich závislosti na použitých měřících jednotkách, což někdy brání smysluplnému pořízení jakéhokoli součtu pro různé proměnné. Jsou-li proměnné uvažovány v součtu se stejnými vahami, silně korelované proměnné mají nepřiměřeně velký vliv na výsledek. Východiskem může být transformace proměnných. Nežádoucí vliv měřících jednotek lze odstranit tak, že se všechny hodnoty j-té proměnné vydělí vyrovnávacím faktorem, kterým může být například aritmetický průměr nebo směrodatná odchylka. (Hebák 2007)

4 Míry asociace Míry asociace podobnosti se používají k porovnání objektů v případě, že jsou jejich znaky nemetrického charakteru (např. binární proměnné). Příkladem může být situace, kdy respondent odpověděl na řadu otázek odpovědí ano nebo ne. Míra asociace pak vyjadřuje stupeň souhlasu každého páru respondentů. Nejjednodušší mírou asociace bude procento souhlasu, kdy oba respondenti odpověděli na danou otázku ano nebo ne, tedy 1 nebo 0. (Meloun 2004) Po posouzení podobnosti následuje spojování podobných kategorií. Jednou z možností, jak lze spojit podobné kategorie, je pomocí grafického znázornění vztahů. Tento způsob je vhodný především pokud je kategorií více. Pravděpodobně nejčastěji se používá dendrogram, v němž se nejprve graficky spojí dva nejbližší (nejpodobnější) objekty (kategorie). V dalších krocích se vychází vždy z rozměrově menší matice vzdáleností, která vzniká vynecháním příslušných dvou řádků a dvou sloupců a doplněním řádku a sloupce, obsahujících vzdálenosti ostatních objektů či shluků od právě vytvořeného shluku. V této matici se opět najde nejnižší hodnota a spojí se odpovídající shluky. Postup se opakuje do té doby, než jsou všechny shluky spojeny do jediného. (Řezanková 2007) Podle Melouna (2004) lze pomocí shlukové analýzy hodnotit jednak podobnost objektů, analyzovanou pomocí dendrogramu objektů, a jednak podobnost znaků, analyzovanou pomocí dendrogramu znaků. Dendrogram shluků nebo jinak vývojový strom, se konstruuje pouze v případě, kdy je k dispozici matice původních znaků. Dendrogram podobnosti znaků ukazuje rozlišení znaků ve shlucích. Znaky blízko sebe jsou propojeny spojovací úsečkou hodně nízko, mají malou vzdálenost čili značnou vzájemnou podobnost. Naopak znaky propojené hodně vysoko mají malou podobnost a mezi sebou vykazují velkou vzdálenost. Dendrogram podobnosti objektů je standardní výstup hierarchických shlukovačích metod, ze kterého je patrná struktura objektů ve shlucích. Dendrogram podobnosti znaků odhaluje nejčastěji dvojice či trojice znaků, které jsou si velmi podobné a silně spolu korelují. Znaky, které jsou ve společném shluku, si jsou značně podobné a jsou také vzájemně nahraditelné. (Meloun 2004) Existuje mnoho různých typů shlukové analýzy, které se liší postupem měření vzdálenosti mezi jednotlivými shluky. Dle Melouna (2002) je možné shlukovou analýzu dělit na hierarchické a nehierarchické shlukování. Přičemž metody hierarchického shlukování se člení dle podobnosti či nepodobnosti na aglomerativní a divizní postupy shlukování. (Meloun 2002)

5 2.1 Hierarchické shlukování Metoda si klade za cíl spojování objektů a jejich shluků do dalších, větších shluků. Výhodou této metody je, že není potřeba znát optimální počet shluků. Tento počet se určuje dodatečně. (Meloun 2002) Aglomerativní metody hierarchického shlukování Aglomerativní hierarchický postup patří k nejužívanějším postupům ve shlukovací analýze. Je možné ho také nazývat jako AGNES (AGlomerative NESting). V případě aglomerativního shlukování je výchozím stavem takový, kdy každý objekt představuje samostatný shluk. Dále se dva objekty, jejichž vzdálenost je minimální, spojí do prvního shluku a vypočítá se úplně nová matice vzdálenosti. V té jsou pak vynechány objekty prvního shluku a naopak tento shluk je zařazen jako celek. Celý proces se opakuje do té doby, dokud všechny objekty netvoří jeden shluk. Grafickým výstupem je tak zvaný dendogram, jinými slovy stromový diagram, ze kterého jsou zřejmé jednotlivé kroky vytváření shluků a postupné shluky objektů. Metod aglomerativního postupu existuje celá řada, odlišují se od sebe pouze přístupem k definici podobnosti. (Meloun 2002) Dle Hebáka (2007) lze postup hierarchické posloupnosti této metody rozkladů popsat následovně: 1. Vypočteme matici D vhodných měr vzdáleností. 2. Začneme proces od rozkladu S (n), tj. od n shluků, z nichž každý obsahuje jeden objekt. 3. Prohledáme matici D a nalezneme dva shluky (h-tý a h -tý), jejichž vzdálenost Dhh je minimální. 4. Spojíme tyto dva shluky do nového g-tého shluku. V matici D odstraníme h-tý a h -tý řádek i sloupec a nahradíme je řádkem i sloupcem pro nový shluk, řád matice D se snažil o jedničku. 5. Poznamenáme pořadí cyklu v = 1,2,, n 1, identifikaci spojených objektů h, h a hladinu pro spojení di = Dhh. 6. Pokud proces vytváření rozkladů již neskončil spojením všech objektů do jediného shluku S (1), pokračujeme krokem číslo 3. (Hebák 2007) Metoda nejbližšího souseda (Single, Nearest) U této metody se určí vzdálenost shluků u dvou nejbližších objektů, které jsou z odlišných shluků. Předpokladem je minimum z možných mezishlukových vzdáleností objektů. Nevýhodou této metody je, že může docházet ke stavu, kdy dochází k tvorbě řetězců, což může vést ke zcela milným výstupům. Dalším problém je, že vždy tvoří nový shluk pomocí nejkratší vzdálenosti mezi objekty či shluky a tím pádem neumí rozpoznat špatně separované shluky. Metoda tak nedokáže rozpoznat špatně separované shluky. Výhodou ovšem je, že je to jedna z metod, která dokáže roztřídit i neeliptické shluky.

6 Metoda nejvzdálenějšího souseda (Complete, Futhest) Metoda nejvzdálenějšího souseda se od první metody liší tím, že je vzdálenost shluků stanovena přesně naopak, a to vzdáleností dvou nejvzdálenějších objektů z rozdílných shluků. Objekty ve shluku jsou rozčleněny na základě maximální vzdálenosti nebo minimální podobnosti k objektům druhého shluku. Metoda velice dobře funguje v případě, kdy objekty vytváření přirozeně oddělené shluky. Centroidní metoda (Centroid) Postup při centroidní metodě vychází přímo z názvu, neboť vzdálenost shluků je dána vzdáleností jejich center (těžišť). Nejbližší jsou tedy shluky s nejnižší vzdáleností mezi centry. Tato metoda vyžaduje vyjádření této vzdálenosti pomocí čtvercové Eukleidovské vzdálenosti. Metoda mediánová (Median) Metoda je založena na centroidní metodě, protože se snaží o odstranění rozdílné váhy, jež centroidní metoda dává rozdílně velkým shlukům. Takže představuje takové vylepšením metody centroidní. Metoda průměrová (Average) Při této metodě vychází výstupy v dendogramech často podobné těm jako u metody nejvzdálenějšího souseda. Objekty ze dvou shluků se spojují do jednoho společného shluku a poté se vypočte aritmetický průměr vzdáleností. Nejbližší jsou shluky s nejmenší průměrnou vzdáleností mezi objekty jednoho a objekty druhého shluku. Wardova metoda Při postupu dle Wardovovy metody se vybírají takové shluky na sloučení, ve kterých vychází minimální součet čtverců. Zakládá se tedy na minimalizaci ztráty informace při spojení dvou tříd. Výhodou této metody je, že má sklon odstranit malé shluky, a tím tak vytvářet shluky podobné velikosti. (Meloun 2002) Dvojstupňové seskupování (Two Step Cluster) Výsledné řešení dvojstupňového seskupování může záviset na pořadí případů v souboru, je tedy vhodné, aby se tento dopad minimalizoval. Proto by měly být případy uspořádány v náhodném pořadí. V opačném případě by totiž mohlo dojít ke zkreslení výsledného řešení. Prvním krokem tohoto dvoustupňového postupu je tvorba velkého počtu malých shluků. Cílem je snížit velikost matice, která obsahuje vzdálenosti mezi všemi možnými dvojicemi případů. Malé shluky jsou pouze shluky původních případů, které se používají místo nezpracovaných dat v hierarchickém shlukování. Na základě měření algoritmus rozhoduje, zda má být určitý případ sloučený s již vytvořeným malým shlukem nebo má vytvořit nový malý shluk. Když je tento proces dokončen, jsou všechny případy ve stejném shluku považovány za jeden subjekt. Velikost vzdálenosti matic již není závislá na počtu případů, ale na počtu malých shluků. V druhém kroku dvoustupňového seskupování se využívá

7 standardní algoritmus hierarchického shlukování. Hierarchické formování skupin umožní prozkoumat celou řadu řešení s různými počty shluků. (Norušis 2011) Dvoukroková shluková analýza je obzvláště vhodná pro velké výběry, kdy předem nepředpokládáme určitý počet shluků a jsou k dispozici metrická nebo kategoriální data nebo obojí. (Košťál 2013) Divizní metody hierarchického shlukování Divizní hierarchický postup je v praxi méně používaný. Taktéž ho lze nazývat jako DIANA (DIvisive ANAlysis). U tohoto postupu se vychází z jednoho shluku S (1) a v každém kroku se jeden ze shluků rozštěpí na dva, takže na konci procesu dostáváme S (n). Má tedy opačný postup oproti aglomerativnímu postupu. (Hebák 2007) 2.2 Nehierarchické shlukování U těchto postupů je předem stanoven počet shluků, který se může v průběhu výpočtu měnit. V případě, kdy se počet shluků nemění, nazýváme tyto metody jako metody s konstantním počtem shluků. Naopak, pokud dochází v průběhu ke změnám v počtu shluků, nazýváme tyto postupy jako metody s optimalizovaným počtem shluků. Nehierarchické shlukování řeší opět řada metod. Tyto metody se člení na dvě základní skupiny, a to na optimalizační metody a analýzu modů, medoidů. Při použití optimalizačních nehierarchických metod se hledá optimální rozklad za pomocí přeřazování objektů ze shluku do shluku, kdy se snažíme minimalizovat nebo maximalizovat nějakou charakteristiku rozkladu. Metody analýzy modů, medoidů hledají rozklad do shluků, kdy shluky představují místa se zvýšenou koncentrací objektů v m-rozměrném prostoru proměnných. Namísto výchozí matice vzdáleností může být použita v určitých případech korelační matice. Při jednoznačném přiřazení ke shlukům se používají metody k-průměrů, k-medoidů, k-modů či k-histogramů a nebo se vypočte míra příslušnosti jednotlivých objektů ke shlukům pomocí fuzzy shlukové analýzy. (Meloun 2002) Metoda k-průměrů (k-means) Tato metoda je jinak nazývána jako metoda nejbližších středů. Princip této metody je založen na rozdělení objektů do shluků takovým způsobem, aby byla mezishluková suma čtverců co nejmenší. Předpokladem je rozdělení n objektů o m proměnných do k shluků. Metodu lze použít i v případě, kdy máme k disposici velký počet případů a chceme vytvořit malý počet shluků. (Meloun 2002) Algoritmus této metody představuje proces přesouvání objektů mezi shluky, který jde popsat těmito kroky: 1. Zvolíme počáteční rozklad do k shluků, nejčastěji náhodně, podkladem však může být nějaká vnější informace, někdy taktéž výsledek již provedeného shlukování, který chceme vylepšit. 2. Určíme centroidy pro všechny shluky v aktuálním rozkladu. 3. Probereme po řadě všechny objekty. V případě, kdy má právě zkoumaný objekt nejblíže k vlastnímu centroidu, ponecháme jej na místě. Jinak jej přesouváme do shluku, k jehož centroidu má nejblíže. Nedojde-li v tomto kroku k žádným přesunům, považujeme aktuální rozklad za definitivní řešení. (Hebák 2007)

8 Výhodou této metody je jednoduchost, rychlost a především se dá použít pro velké množství dat. Nevýhodou je pak fakt, že výsledky jsou znovu ovlivněny výběrem počátečních shluků, a protože po přiřazení bodu dojde k přepočítání těžiště, výsledek je také ovlivněn původním pořadím objektů. Izolované objekty, které leží mimo ostatní, mají velmi negativní vliv na výsledek. (Kučera 2008) Metoda k-medoidů Medoid představuje střed shluku, je to střední objekt, jehož vzdálenost k ostatním objektům v tomto shluku by měla být minimální. Tato metoda také vychází z předem stanoveného počtu shluků. Pro každý vytvořený shluk je určen medoid, který představuje konkrétní objekt ze shluku. Počáteční medoid je dán takovým způsobem, aby součet vzdáleností jednotlivých objektů ve shluku od tohoto daného objektu byl co nejmenší. (Meloun 2002) Metoda k-modů a k- histogramů Tyto metody jsou určeny pro datové soubory, které jsou charakterizovány pomocí nominálních proměnných. Metoda k-modů je analogická s metodou k-means. Tato metoda je neparametrická, vzhledem k tomu, že nemá žádné distribuční předpoklady o datech. Je stejně rychlá jako k-means, zvládne zpracovat velké datové soubory, které se obvykle vyskytují v průzkumu výzkumných aplikací. V případě použití k-modů není nutné pro seskupení kategorizovaných dat provádět měření vzdáleností. (Chaturvedi 2001) Metoda k-histogramů rozšiřuje k-means. Používá se pro shlukování objektů popsaných pomocí nominálních proměnných. Experimentální výsledky na reálných datových souborech ukazují, že metoda k-histogramů může dosahovat lepších výsledků, než seskupování pomocí k-modů. (He 2005) Fuzzy metoda Tato metoda zobecňuje všechny shlukovací metody, neboť dává možnost shlukování jednoho objektu do více než jednoho shluku. Přičemž u běžného shlukování je každý objekt členem jen jednoho shluku. Proces metody má tedy výhodu v tom, že nenutí zařazení objektu jen do jednoho specifického shluku. Naopak nevýhodou je fakt, že se zde objevuje mnohem více informací, které musí být vysvětleny. (Meloun 2002) 3 APLIKACE METOD V PRAXI Jak již bylo uvedeno, analýza shluků se používá pro uspořádání neuspořádané skupiny objektů do několika vnitřně sourodých tříd či shluků. Ve statistických programech můžeme využít hned několika metod. V této kapitole se zaměříme na vybrané metody, které nabízí program IBM SPSS výše popsané metody k-průměrů, hierarchické seskupování a dvoustupňové seskupování. Metoda k-průměrů (k-means) Metodu k-means využila například Sobotková (2012) ve své výzkumné studii, která se zabývá antisociálním chováním adolescentů ve vztahu ke školní šikaně a expozici násilí. Pro

9 identifikaci typů chování adolescentů podle míry projevů antisociálního chování byla provedena nehierarchická shluková analýza na položkách škály antisociálního chování. Na základě této metody byly identifikovány 4 typy osob, které se lišily v míře a projevech antisociálního chování (bezproblémoví, projevující vyšší míru fyzických soubojů, vysoce skórující na všech položkách škály antisociálního chování a s mírně problémovým chováním). (Sobotková 2012) V případě projektu Kshirsagara (2013) pojednávajícím o identifikaci mozkového tumoru byl použit algoritmus metody k-means k provedení identifikace snímku mozku z magnetické rezonance. Pomocí algoritmu byly seskupeny snímky mozku a dále byly rozděleny buňky do dvou skupin dle toho, zda již byly zasažené či ne. Díky tomu byl v konečné fázi vytvořen funkční systém, který vede záznamy o pacientech a zjednodušuje proces identifikace mozkového nádoru. (Kshirsagar 2013) Při použití metody k-means se v programu IBM SPSS Statistics 22.0 nejdříve navolí počet skupin v poli Number of Clusters, do kterých se jednotky zařadí dle zvolených charakteristik. Jde o tak zvaný iterační proces, neboť jednotka, která je na začátku zařazena v nějaké skupině, může být ke konci procesu ve skupině úplně jiné. Po každém kroku dojde k přehodnocení a jednotky se tak zařadí do příslušných skupin, tento proces je u konce, když nenastane žádný přesun. Číselné proměnné se nahrají do sekce Variables a proměnné, které případy popisují, se převedou do pole Label CASE by. K zobrazení statistik, např. analýzy rozptylu, centroidy skupin, informace o příslušnosti ke klastrům či volbě způsobu práce s chybějícími hodnotami slouží pole Options. (Centrum výuky SPSS 2008) Obrázek č. 1: Metoda K-means

10 Hierarchické seskupování Hierarchické seskupování využil Aria (2012) při zkoumání složení a přípravy Thepla, indické nekvašené chlebové placky z celozrnné mouky s přídavkem koření a zeleniny. Nejprve byla provedena senzorická analýza za použití devítibodové hedonické stupnice. Údaje získané pomocí senzorické analýzy byly zpracovány, aby mohly být použity ve vícerozměrné analýze dat, konkrétně hierarchické shlukové analýze. Pro tvorbu skupin byla zvolena Wardova metoda hierarchického seskupování, která vychází z analýzy rozptylu. Vzdálenosti mezi objekty byly vypočteny pomocí čtvercové Eukleidovské vzdálenosti, jak Wardova metoda vyžaduje. Tato metoda je obecně velmi účinná, avšak má tendenci tvořit poměrně malé shluky. Objekty v jednotlivých skupinách byly hodnoceny na základě minimálního součtu čtverců odchylek od průměru skupiny. Pro znázornění jednotlivých kroků shlukové analýzy a vzdáleností mezi výslednými skupinami byl pomocí programu SPSS vytvořen také dendrogram, z něhož jasně vyplynulo, že smyslové skóre, získané u skupiny bez přídavku soli, bylo výrazně odlišné od ostatních skupin, které tuto přísadu zahrnovali. Metoda hierarchického seskupování se, na základě této studie, ukázala jako velmi užitečný nástroj pro studium vlivu koncentrace přísad na celkové hodnocení při optimalizaci potravinářských výrobků. (Aria 2012) S pomocí hierarchické shlukové analýzy by bylo například možné třídit televizní pořady do homogenních skupin dle charakteru diváků, což může být využito v marketingu k identifikaci segmentů. Podobně lze také seskupovat do homogenních skupin například města tak, aby mohla být dále vybírána k testování různých marketingových strategií. (IBM Corporation 2011) Při použití hierarchické metody se v programu proměnné převedou do sekce Variable(s) a do pole Label CASE by lze nahrát proměnnou popisující případy. Pomocí tlačítka Method je možné zobrazit seskupování, míru vzdálenosti, transformaci hodnot a transformaci míry vzdálenosti. (Centrum výuky SPSS 2008) Obrázek č. 2: Hierarchické seskupování

11 Dvojstupňové seskupování (Two Step Cluster) Metodu dvoustupňového seskupování (Two Steps Cluster) využil například Mason (2009) ve studii zabývající se analýzou běžných lokalit, v nichž se nejčastěji vyskytují mladiství užívající návykové látky. Mezi kategorizované proměnné byly zařazeny rizikové lokality, dále pohlaví, duševní stres, úzkost a psychické problémy. Číselné proměnné zahrnovaly věk a počet dní, ve kterých jedinec požil alkohol či drogu během uplynulých 90 dní. Vzhledem k výhodné manipulaci s kategorizovanými a číselnými proměnnými a automatickému výběru počtu shluků byla provedena dvoustupňová analýza. Za použití Schwartz-Bayesova kritéria byli mladiství rozdělení do dvou uzavřených skupin. Počet skupin nebyl předem zvolen, ale byl použit odhad procedury TwoStep. První skupina zahrnovala chlapce i dívky v průměrném věku 16,6 let, zatímco druhá skupina zahrnovala pouze chlapce, a to v průměrném věku 16,3 let. Věkový rozdíl u daných skupin se ukázal jako statisticky nevýznamný. První skupina mladistvých prokazovala častější užívání alkoholu a návykových látek než skupina druhá. U rozdílu v užívání drog a alkoholu byla prokázána statistická významnost. (Mason 2009) Maloobchodní prodejci a prodejci spotřebního zboží pravidelně aplikují metodu dvoustupňového seskupování na data, která popisují nákupní zvyklosti jejich zákazníků, jejich věk, pohlaví, úroveň příjmů a podobně. Tyto společnosti pak přizpůsobí svůj marketing a strategii vývoje produktů pro každou skupinu spotřebitelů tak, aby zvýšili prodej a budovali loajalitu ke značce. (IBM Corporation 2011) Při dvoustupňovém seskupování lze počet skupin shluků, ve kterých jsou jednotky rozděleny, navolit předem v sekci Number of Clusters nebo můžeme použít odhad procedury TwoStep. U této metody dokáže program IBM SPSS zpracovat číselné i kategorizované proměnné. Tyto kategorizované proměnné se nahrávají do sekce Categorical Variables a číselné proměnné do Continous Variables, ovšem jeden z těchto seznamů lze ponechat prázdný. V poli Distance Measure je možnost volby míru vzdálenosti. V případě, že předpokládáme šum, používáme možnost Options. Klasifikační metoda TwoStep Cluster se v nové verzi programu zadává obdobným způsobem jako tomu je u předchozích verzí. V programu je možná volba různých pohledů na model ve výstupovém okně, ty obsahují dialogy menšího počtu voleb upřesňujících výstupy. Dialogové okno Output je obohaceno s porovnání se staršími verzemi o Model Viewer Output, kam je možné zadat další doplňující proměnné, které se budou podílet na popisu klastrů tzv. Evaluation Fields. (Centrum výuky SPSS 2008)

12 Obrázek č. 3: TwoStep Cluster Výstup této metody se aktivuje v Model Viewer, jež podává informace pomocí interaktivního náhledu. Toto okno náhledu je seskupené ze dvou částí, kde je k dispozici hlavní panel, který nabízí přehled základních informací o modelu či vlastnosti klastrů. Tabulku vlastností klastrů je možné dále interaktivně upravovat. Po označení několika sloupců nebo buněk lze zobrazit detailní popis vlastností v pravém okně panelu. Pravá část panelu vyobrazuje detailní informace o modelu a prvcích, jež jsou vybrané v hlavním panelu. Nabízí se tu možnost různého zobrazení náhledů, mezi kterými lze pohodlně přecházet pomocí rolovací nabídky umístěné ve spodní části každého okna. (Centrum výuky SPSS 2008)

13 Obrázek č. 4: Výstup TwoStep Cluster Nové technologie přináší nové možnosti práce se statistickými programy. Nejnovější verze programu IBM SPSS Statistics 22.0 umožňuje zobrazení výstupů na tak zvaných chytrých zařízeních bez jakékoli aplikace či jiného SmartReaderu. Tyto výstupy lze zobrazit jak na klasickém počítači s operačním systémem Windows Mac a Linux, ipod, iphone, ipad, tak i telefony a tablety s operačním systémem Aneroid. (Centrum výuky SPSS 2008) Obrázek č. 5: Výstup z IBM SPSS Statistics 22.0 v chytrém telefonu

14 6 ZÁVĚR Příspěvek byl zpracován na téma shluková analýza vícerozměrných dat se zaměřením na využití programu IBM SPSS a jeho nové možnosti. Byly zde diskutovány postupy metod shlukové analýzy a jejich výhody či nevýhody. Porovnáním těchto metod lze dospět k závěru, že dvou kroková shluková analýza je obzvláště vhodná pro velké výběry, kdy předem nepředpokládáme určitý počet shluků a jsou k dispozici metrická nebo kategoriální data nebo obojí. Metodu k-means lze použít také v případě, kdy máme k disposici větší počet případů. Výhodou této metody je jednoduchost a rychlost. Nevýhodou je pak to, že výsledky jsou znovu ovlivněny výběrem počátečních shluků, a protože po přiřazení bodu dojde k přepočítání těžiště, je výsledek také ovlivněn původním pořadím objektů. Izolované objekty, které leží mimo ostatní, mají velmi negativní vliv na výsledek. Proces Fuzzy metody má výhodu v tom, že nenutí zařazení objektu jen do jednoho specifického shluku. U metody nejbližších sousedů je nevýhodou fakt, že může docházek ke stavu, kdy dochází k tvorbě řetězců, což může vést ke zcela mylným výstupům. Dalším problém je, že vždy tvoří nový shluk pomocí nejkratší vzdálenosti mezi objekty či shluky, a tím pádem neumí rozpoznat špatně separované shluky. Metoda tak nedokáže rozpoznat špatně separované shluky. Výhodou však je, že je to jedna z metod, která dokáže roztřídit i neeliptické shluky. Metoda nejvzdálenějšího souseda velice dobře funguje v případě, kdy objekty vytváření přirozeně oddělené shluky. Výhodou hierarchické metody je, že není potřeba znát optimální počet shluků, protože se jejich počet určuje dodatečně. Z uvedeného textu mimo jiné vyplývá, že nové technologie stále přináší nové možnosti práce s daty a výstupy ze statistických programů. Nejnovější verze programu IBM SPSS Statistics 22.0 se od předchozí verze v zaměření na shlukovou analýzu příliš neliší. Ovšem velkým přínosem je možnost zobrazení výstupů na chytrých telefonech bez jakékoli aplikace či jiného SmartReaderu. Výstupy z programu lze zobrazit na zařízeních jako je ipod, iphone, ipad, telefony a tablety s operačním systémem Android.

15 LITERATURA Arya S. S., Patil S. (2012): Ingredients and Process Standardization of Thepla: An Indian Unleavened Vegetable Flatbread using Hierarchical Cluster Analysis. Advance Journal of Food Science and Technology 4(5): Centrum výuky SPSS. (2008): SPSS Base 16.0: Statistické procedury. [CD-ROM] Praha: SPSS ČR. Chaturvedi A., Green P. E., Carroll J. D. (2001): K-modes Clustering. Journal of Classification 18: He Z., Xu X., Deng S., Dong B. (2005): K-Histograms: An Efficient Clustering Algorithm for Categorical Dataset. Artifical Intelligence 08. Available at (accessed January 2014). Hebák, P., Hustopecký, J., Pecáková, I. (2007): Vícerozměrné statistické metody (3). Praha: Informatorium, 271 s. ISBN: IBM Corporation (2011): Statistics Base Option. Available at (accessed January 2014). Košťál, J. (2013): Vybrané metody vícerozměrné statistiky. Praha: Institut pro kriminologii a sociální prevenci, 113 s. ISBN Kshirsagar P., Patil M., Prabhu S., Patil S., Patil S. (2013): Brain Tumor Identification Using K- Means Clustering. International Journal of Engineering Trends and Technology, 4: Kubanová J. (2003): Statistické metody pro ekonomickou a technickou praxi. 1. vyd. Bratislava: Statis, s. ISBN X. Kučera J. (2008): Metody kategorizace dat. Available at (accessed January 2014). Mason M. J., Korpela K. (2009): Activity spaces and urban adolescent substance use and emotional health. Journal of Adolescence, 32: Meloun M., Freisleben J. (2009): Klasifikace podzemních vod diskriminační analýzou. Vodní hospodářství 59: Meloun M., Militký J. (2004): Statistická analýza experimentálních dat. Praha: Academia, 980 s. ISBN Meloun M., Militký, J. (2002): Kompendium statistického zpracování dat. Praha: Academia, 766 s. ISBN Norušis M. J. (2011): IBM SPSS Statistics 19 Statistical Procedures Companion. Available at (accessed January 2014).

16 Sobotková V., Osecká T., Jelínek M., Blatný M., Hrdlička M. (2012): Expozice komunitnímu násilí a školní šikana a jejich vztah k antisociálnímu chování v rané adolescenci. Československá psychologie 2012, 56:

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o

Více

Shluková analýza dat a stanovení počtu shluků

Shluková analýza dat a stanovení počtu shluků Shluková analýza dat a stanovení počtu shluků Autor: Tomáš Löster Vysoká škola ekonomická v Praze Ostrava, červen 2017 Osnova prezentace Úvod a teorie shlukové analýzy Podrobný popis shlukování na příkladu

Více

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny

Více

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Shluková analýza Jiří Militky Analýza experimentálních dat V Klasifikace objektů Rozdělení objektů do shluků dle jejich podobnosti

Více

Státnice odborné č. 20

Státnice odborné č. 20 Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA CLUSTER ANALYSIS OF REGIONS OF CZECH REPUBLIC BY SELECTED CHARACTERISTICS OF AGRICULTURE IN PROGRAM

Více

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT 4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

Popisná statistika. Statistika pro sociology

Popisná statistika. Statistika pro sociology Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky

Více

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ Ing. Dana Trávníčková, PaedDr. Jana Isteníková Funkční gramotnost je používání čtení a psaní v životních situacích. Nejde jen o elementární

Více

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan. meloun@upce.

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem

Více

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

3.4 Určení vnitřní struktury analýzou vícerozměrných dat 3. Určení vnitřní struktury analýzou vícerozměrných dat. Metoda hlavních komponent PCA Zadání: Byly provedeny analýzy chladící vody pro odběrové místa. Byly stanoveny parametry - ph, vodivost, celková

Více

Univerzita Pardubice 8. licenční studium chemometrie

Univerzita Pardubice 8. licenční studium chemometrie Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí

Více

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program: Příklad 2: Obsah PCB v játrech zemřelých lidí Zadání: V rámci Monitoringu zdraví byly měřeny koncentrace polychlorovaných bifenylů vjátrech lidí zemřelých náhodnou smrtí ve věku 40 let a více. Sedm vybraných

Více

4EK213 Lineární modely. 12. Dopravní problém výchozí řešení

4EK213 Lineární modely. 12. Dopravní problém výchozí řešení 4EK213 Lineární modely 12. Dopravní problém výchozí řešení 12. Distribuční úlohy LP Úlohy výrobního plánování (alokace zdrojů) Úlohy finančního plánování (optimalizace portfolia) Úlohy reklamního plánování

Více

Renáta Bednárová STATISTIKA PRO EKONOMY

Renáta Bednárová STATISTIKA PRO EKONOMY Renáta Bednárová STATISTIKA PRO EKONOMY ZÁKLADNÍ STATISTICKÉ POJMY Statistika Statistický soubor Statistická jednotky Statistický znak STATISTIKA Vědní obor, který se zabývá hromadnými jevy Hromadné jevy

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal

Více

NADSTAVBOVÝ MODUL MOHSA V1

NADSTAVBOVÝ MODUL MOHSA V1 NADSTAVBOVÝ MODUL MOHSA V1 Nadstavbový modul pro hierarchické shlukování se jmenuje Mod_Sh_Hier (MOHSA V1) je součástí souboru Shluk_Hier.xls. Tento soubor je přístupný na http://jonasova.upce.cz, a je

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis nekategorizovaných dat Co se dozvíte v tomto modulu? Kdy používat modus, průměr a medián. Co je to směrodatná odchylka. Jak popsat distribuci

Více

Číselné charakteristiky

Číselné charakteristiky . Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch

Více

Cvičná bakalářská zkouška, 1. varianta

Cvičná bakalářská zkouška, 1. varianta jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární

Více

VÍCEKRITERIÁLNÍ ROZHODOVANÍ

VÍCEKRITERIÁLNÍ ROZHODOVANÍ VÍCEKRITERIÁLNÍ ROZHODOVANÍ 1 Obsah Typy modelů vícekriteriálního rozhodování Základní pojmy Typy informací Cíl modelů Užitek, funkce užitku Grafické zobrazení Metody vícekriteriální analýzy variant 2

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

9. listopadu Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

9. listopadu Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/ 9. listopadu 212 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.7/2.4./17.117 Používané postupy Lord D., Mannering F.: The Statistical Analysis of Crash-Frequency Data: A Review and Assessment of Methodological

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÉHO ŠETŘENÍ ANALÝZA VÝSLEDKŮ VYUŢITÍ PROJEKTOVÉHO ŘÍZENÍ V ESN Příjmení a jméno: Hrdá Sabina, Kovalčíková

Více

Škály podle informace v datech:

Škály podle informace v datech: Škály podle informace v datech: Různé typy dat znamenají různou informaci, resp. různé množství informace Data nominální Rovná se? x 1 = x 2 Data ordinální Větší, menší? x 1 < x 2 Data intervalová O kolik?

Více

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul V: Nekategorizovaná data Metodologie pro ISK 2, jaro 2014. Ladislava Z. Suchá Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis

Více

23. Matematická statistika

23. Matematická statistika Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti

Více

Fakulta chemicko technologická Katedra analytické chemie

Fakulta chemicko technologická Katedra analytické chemie Fakulta chemicko technologická Katedra analytické chemie Licenční studium statistické zpracování dat Analýza vícerozměrných dat Ing. Pavel Valášek Školní rok OBSAH ÚVOD DATA EDA EXPLORATORÍ AALÝZA 4 PCA

Více

Kontingenční tabulky v MS Excel 2010

Kontingenční tabulky v MS Excel 2010 Kontingenční tabulky v MS Excel 2010 Autor: RNDr. Milan Myšák e-mail: milan.mysak@konero.cz Obsah 1 Vytvoření KT... 3 1.1 Data pro KT... 3 1.2 Tvorba KT... 3 2 Tvorba KT z dalších zdrojů dat... 5 2.1 Data

Více

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent ) Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent ) Zadání : Titanová běloba (TiO ) se vyrábí ve dvou základních krystalových modifikacích - rutilové a anatasové.

Více

Multivariátní porovnání dat - klastrová (shluková) analýza

Multivariátní porovnání dat - klastrová (shluková) analýza Multivariátní porovnání dat - klastrová (shluková) analýza - bez apriorních předpokladů Shluková analýza Shluková analýza - cluster analysis úvod - definice princip algoritmy výsledky Shluková analýza

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické

Více

odlehlých hodnot pomocí algoritmu k-means

odlehlých hodnot pomocí algoritmu k-means Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování

Více

II. Úlohy na vložené cykly a podprogramy

II. Úlohy na vložené cykly a podprogramy II. Úlohy na vložené cykly a podprogramy Společné zadání pro příklady 1. - 10. začíná jednou ze dvou možností popisu vstupních dat. Je dána posloupnost (neboli řada) N reálných (resp. celočíselných) hodnot.

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém

Více

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2015 Ing. Petra Hlaváčková, Ph.D.

Více

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací! Statistika aneb známe tři druhy lži: úmyslná neúmyslná statistika Statistika je metoda, jak vyjádřit nejistá data s přesností na setinu procenta. den..00..00 3..00..00..00..00..00..00..00..00..00..00 3..00..00..00..00..00..00..00

Více

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi

Více

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou

Více

ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY Knowledge and skills of Czech men in the field of information security - the results of statistical analysis

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

Simulace. Simulace dat. Parametry

Simulace. Simulace dat. Parametry Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

MOŽNOSTI VYUŽITÍ SHLUKOVÉ ANALÝZY V Q-METODOLOGII

MOŽNOSTI VYUŽITÍ SHLUKOVÉ ANALÝZY V Q-METODOLOGII MOŽNOSTI VYUŽITÍ SHLUKOVÉ ANALÝZY V Q-METODOLOGII CHRÁSKA Miroslav, CZ Resumé Příspěvek seznamuje s možnostmi využití shlukové analýzy při zpracování výzkumu provedeného pomocí Q-metodologie. Ve výzkumu

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU vyučující doc. RNDr. Jiří Zháněl, Dr. M I 4 Metodologie I 7. ANALÝZA DAT (KVANTITATIVNÍ VÝZKUM) (MATEMATICKÁ) STATISTIKA DESKRIPTIVNÍ (popisná) ANALYTICKÁ

Více

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Interpolace, aproximace a spline 2007 Jindřich Freisleben Obsah

Více

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Zadání: Deponie nadložních jílových sedimentů SHP byla testována za účelem využití v cihlářské výrobě. Z deponie bylo odebráno

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná

Více

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako

Více

StatSoft Shlukování podobných

StatSoft Shlukování podobných StatSoft Shlukování podobných v softwaru STATISTICA Tímto článkem nakoukneme do oblasti statistiky zabývající se shlukováním. Tedy situací, kdy chcete data/objekty nějak seskupit na základě jejich podobnosti.

Více

Shluková analýza příklad

Shluková analýza příklad Shluková analýza příklad K dispozici jsou údaje o složení vybraných přírodních a minerálních vod. Pracujeme s následujícím seznamem proměnných: Dané hodnoty vznikly tak, že byl zjištěn u všech vod celkový

Více

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme

Více

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy Výrobní produkce divizí Ice Cream Polo ha planet Rozložený výsečový 3D graf Bublinový graf Ice Cream 1 15% Ice Cream 2 12% Ice Cream 3 18% Ice Cream 4 20% Statistika 40 30 20 Ice Cream 6 19% Ice Cream

Více

UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ. Předzpracování ekonomických dat pomocí metod shlukové analýzy. Pavel Novák

UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ. Předzpracování ekonomických dat pomocí metod shlukové analýzy. Pavel Novák UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ Předzpracování ekonomických dat pomocí metod shlukové analýzy Pavel Novák Bakalářská práce 2009 Prohlašuji: Tuto práci jsem vypracoval samostatně. Všechny

Více

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan.

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Využití shlukové analýzy při vytváření typologie studentů

Využití shlukové analýzy při vytváření typologie studentů Miroslav CHRÁSKA, Milan KLEMENT Univerzita Palackého v Olomouci, Česká republika Využití shlukové analýzy při vytváření typologie studentů 1. Cíl výzkumu Cílem výzkumu bylo rozdělit české a polské vysokoškolské

Více

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,

Více

STATISTICA Téma 7. Testy na základě více než 2 výběrů

STATISTICA Téma 7. Testy na základě více než 2 výběrů STATISTICA Téma 7. Testy na základě více než 2 výběrů 1) Test na homoskedasticitu Nalezneme jej v několika submenu. Omezme se na submenu Základní statistiky a tabulky základního menu Statistika. V něm

Více

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION Anna Čermáková Michael Rost Abstrakt Cílem příspěvku bylo

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

Informační technologie a statistika 1

Informační technologie a statistika 1 Informační technologie a statistika 1 přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 21. září 2015, 1/33 Požadavek

Více

Aplikovaná statistika v R - cvičení 3

Aplikovaná statistika v R - cvičení 3 Aplikovaná statistika v R - cvičení 3 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.8.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 1 / 10 Lineární

Více

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE LICENČNÍ STUDIUM - STATISTICKÉ ZPRACOVÁNÍ DAT SEMESTRÁLNÍ PRÁCE Ing. Věra Fialová BIOPHARM VÝZKUMNÝ ÚSTAV BIOFARMACIE A VETERINÁRNÍCH

Více

Miroslav Čepek

Miroslav Čepek Vytěžování Dat Přednáška 4 Shluková analýza Miroslav Čepek Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti 14.10.2014 Miroslav Čepek

Více

PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ

PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ Jiří HORÁK 1, Igor IVAN 1, Tomáš INSPEKTOR 1 1 Institut geoinformatiky, Hornicko-geologická fakulta, VŠB-TUO, 17. listopadu 15/2172, 708 33, Ostrava- Poruba, ČR Abstrakt

Více

ZNALOSTI A DOVEDNOSTI ČESKÝCH ŽEN V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

ZNALOSTI A DOVEDNOSTI ČESKÝCH ŽEN V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY ZNALOSTI A DOVEDNOSTI ČESKÝCH ŽEN V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY Knowledge and skills of Czech women in the field of information security - the results of statistical analysis

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Návod pro práci s SPSS

Návod pro práci s SPSS Návod pro práci s SPSS Návody pro práci s programem SPSS pro kurz Metodologie pro Informační studia a knihovnictví 2 (jaro 2013) Ladislava Zbiejczuk Suchá Instalace programu SPSS najdete v INETu. Po přihlášení

Více

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR Data Obce ČR 2011 (Veřejná databáze ČSÚ) SPSS IBM, ArcGIS Proměnné: intenzita migračního

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic

Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic 2 nd Central European Conference in Regional Science CERS, 2007 862 Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic PETR ŘEHOŘ, DARJA HOLÁTOVÁ Jihočeská

Více

Deskriptivní statistika (kategorizované proměnné)

Deskriptivní statistika (kategorizované proměnné) Deskriptivní statistika (kategorizované proměnné) Nejprve malé opakování: - Deskriptivní statistika se zabývá popisem dat, jejich sumarizaci a prezentací. - Kategorizované proměnné jsou všechny proměnné,

Více

STATISTICKÉ CHARAKTERISTIKY

STATISTICKÉ CHARAKTERISTIKY STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

Tiskové sestavy. Zdroj záznamu pro tiskovou sestavu. Průvodce sestavou. Použití databází

Tiskové sestavy. Zdroj záznamu pro tiskovou sestavu. Průvodce sestavou. Použití databází Tiskové sestavy Tiskové sestavy se v aplikaci Access používají na finální tisk informací z databáze. Tisknout se dají všechny objekty, které jsme si vytvořili, ale tiskové sestavy slouží k tisku záznamů

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními

Více

Základní pojmy a cíle statistiky 1

Základní pojmy a cíle statistiky 1 Základní pojmy a cíle statistiky 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Předmět zkoumání Statistiky Definice statistiky Statistika zasahuje do mnoha oblastí našeho moderního

Více

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření Jan Krystek 9. května 2019 CHYBY A NEJISTOTY MĚŘENÍ Každé měření je zatíženo určitou nepřesností způsobenou nejrůznějšími negativními vlivy,

Více