Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis
|
|
- Vladimír Matoušek
- před 8 lety
- Počet zobrazení:
Transkript
1 Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis Ing. Jitka Svobodová Ing. Jana Pružinová Abstrakt Příspěvek diskutuje možnosti zpracování velkých datových souborů pomocí klasifikačních metod s využitím statistického programu IBM SPSS. Cílem tohoto příspěvku je popsat metody analýzy shluků a jejich aplikace v praxi ve vzájemné souvztažnosti se statistickým programem IBM SPSS. Pomocí shlukové analýzy lze neuspořádanou skupinu objektů uspořádat do několika vnitřně sourodých tříd či shluků. Statistický program IBM SPSS nabízí například pro klasifikaci metodu k-průměrů, hierarchické seskupování či dvoustupňové seskupování. Klíčová slova Klasifikace, podobnost, vzdálenost, analýza, shlukování, SPSS Abstract This paper discusses possibilities of multidimensional data processing by cluster analysis and using statistical software. The aim of this paper is to describe methods of cluster analysis, their practical application using statistical software IBM SPSS. By using cluster analysis, order less objects can be classified into several internally homogeneous classes or clusters. The statistical software SPSS offers methods to classify objects such as k-means for classification clustering, hierarchical clustering or Two Step analysis. Key Words Classification, similarity, distance, analysis, cluster, SPSS
2 1 ÚVOD Cílem příspěvku je popis možností zpracování velkých datových souborů pomocí klasifikačních metod s využitím statistického programu IBM SPSS s ohledem na jeho novinky, které přicházejí spolu s rozvíjejícími se technologiemi. Pro nalezení vazeb mezi objekty se využívají klasifikační metody vícerozměrné statistiky. Tyto metody jsou postupy, kdy se buď jeden objekt zařadí do jedné třídy, pro to se používá například diskriminační analýza DA, nebo díky nimž se uspořádá neuspořádaná skupina objektů do několika sourodých shluků a pro tento účel se používá analýza shluků. (Meloun 2002) Tento příspěvek je zaměřen přímo na shlukovou analýzu. Shluková analýza se vzhledem k náročnosti výpočtů provádí prakticky výlučně pomocí statistického softwaru, neboť statistické softwary nabízejí nové možnosti algoritmů. Každá z metod, které budou v příspěvku popsané, má svá specifika. Metoda dvoustupňového seskupování se od ostatních tradičních technik seskupování odlišuje škálovatelností, manipulací s kategorizovanými a číselnými proměnnými a automatickou volbou počtu shluků. Pomocí seskupování metodou k-means lze zpracovat poměrně rychle a jednoduše velké množství případů, avšak je třeba předem určit počet skupin. Postup této metody samozřejmě předpokládá, že byl vybrán správný počet skupin a že byly zahrnuty všechny relevantní proměnné. Pokud ne, mohou být výsledky zavádějící. Algoritmus hierarchického seskupování začíná v jednotlivých skupinách a kombinuje je, dokud nezbývá pouze jedna skupina. Pomocí hierarchického seskupování lze analyzovat hrubá data. Metoda zobrazuje statistiky v každé fázi, aby mohlo být vybráno vždy to nejlepší řešení. (IBM Corporation 2011) 2 METODA ANALÝZY SHLUKŮ Shluková analýza (Cluster analysis, CLU) je jedním z nástrojů vícerozměrných statistických metod, pomocí kterého je možné klasifikovat množiny objektů do několika shluků, a to na základě podobnosti (nepodobnosti, vzdálenosti). Užití shlukové analýzy lze využít tam, kde se objekty či proměnné rozpadají do tříd. Jinými slovy, množina objektů má sklon se seskupovat do tak zvaných shluků. Po nalezení těchto podobných shluků mohou být jednotlivé skupiny charakterizovány a popsány. Uplatnění metod této analýzy je poměrně široké. Nemusí nutně sloužit pouze pro klasifikaci objektů či proměnných, lze jí také využít pouze jako pomocný postup pro výběr objektů při analýze velkých datových souborů a následně lze analyzovat jen data zástupců těchto zjištěných shluků. (Hebák 2007) Základním problémem shlukové analýzy je kvantitativní vyjádření podobnosti či vzdálenosti objektů. V jednotlivých krocích algoritmů posuzujeme podobnost, respektive vzdálenost dvou objektů, dvou shluků nebo objektu a shluku. V některých případech je způsob hodnocení podobnosti dán přímo shlukovací metodou, avšak obvykle tomu tak není. Proto nejvhodnější míru podobnosti vybíráme, a sice z hlediska shlukovaných objektů a z hlediska použité metody shlukování. Řada shlukovacích metod vychází z duálního pojmu k míře podobnosti, a to z míry nepodobnosti, která se v mnoha případech jeví jako výhodnější. Pro
3 tyto míry nepodobnosti jsou typické funkce založené na vzdálenosti objektů. (Kubanová 2003) O způsobu hodnocení vzdálenosti či podobnosti objektů se rozhoduje po provedení výběru proměnných, které mají charakterizovat vlastnosti shlukovaných objektů, a po zjištění jejich hodnot. První etapou realizace shlukovacího algoritmu bývá právě výpočet příslušných měr pro všechny páry objektů. Vzniká tak symetrická čtvercová matice typu n x n, která má na diagonále nuly, v případě, že jde o matici měr vzdálenosti D, nebo jedničky, pokud jde o matici měr podobností A. Problém může nastat při ukládání matice v paměti počítače, pokud je počet objektů příliš velký. Tento problém pak ovlivní volbu algoritmu. (Hebák 2007) Existuje celá řada definic míry podobnosti, podle Melouna (2004) může být podobnost měřena způsoby, které se dají zařadit do jedné ze tří následujících skupin: Korelační míry Základní mírou podobnosti dvou objektů či znaků xi a xj může být Pearsonův párový korelační koeficient r. Objekty jsou si tím podobnější, čím je jejich párový korelační koeficient větší a bližší hodnotě 1. To se týče objektů či znaků vyjádřených v kardinální škále. V případě ordinální škály (pořadová čísla) je analogickou mírou podobností Spearmanův korelační koeficient. Míry vzdálenosti Představují nejčastěji užívané míry, které jsou založené na prezentaci objektů v prostoru, jehož souřadnice tvoří jednotlivé znaky. Nejčastější vzdálenostní mírou je Eukleidovská vzdálenost zvaná také geometrická metrika, která představuje délku přepony pravoúhlého trojúhelníka. Její výpočet je založen na Pythagorově větě. Kromě toho se užívá také čtverec Eukleidovské vzdálenosti, který tvoří základ Wardovy metody shlukování. Pokud jsou použita nestandardizovaná data, vzniká u vzdálenostních měr problém, kdy mezi shluky mohou být velké rozdíly, díky často veliké odlišnosti jednotek měření. Největší rozptýlení mezi shluky bude u čtverce Eukleidovské vzdálenosti. Se změnou měřítka nebo změnou jednotek jednoho ze znaků se významně změní pořadí podobností. Pokud se do vztahu pro vzdálenost zahrnou také vazby mezi znaky, vyjádřené kovarianční maticí C, vznikne nová statistická míra, zvaná Mahalanobisova metrika. (Meloun 2004) Nevýhody měr vzdáleností spočívají v jejich závislosti na použitých měřících jednotkách, což někdy brání smysluplnému pořízení jakéhokoli součtu pro různé proměnné. Jsou-li proměnné uvažovány v součtu se stejnými vahami, silně korelované proměnné mají nepřiměřeně velký vliv na výsledek. Východiskem může být transformace proměnných. Nežádoucí vliv měřících jednotek lze odstranit tak, že se všechny hodnoty j-té proměnné vydělí vyrovnávacím faktorem, kterým může být například aritmetický průměr nebo směrodatná odchylka. (Hebák 2007)
4 Míry asociace Míry asociace podobnosti se používají k porovnání objektů v případě, že jsou jejich znaky nemetrického charakteru (např. binární proměnné). Příkladem může být situace, kdy respondent odpověděl na řadu otázek odpovědí ano nebo ne. Míra asociace pak vyjadřuje stupeň souhlasu každého páru respondentů. Nejjednodušší mírou asociace bude procento souhlasu, kdy oba respondenti odpověděli na danou otázku ano nebo ne, tedy 1 nebo 0. (Meloun 2004) Po posouzení podobnosti následuje spojování podobných kategorií. Jednou z možností, jak lze spojit podobné kategorie, je pomocí grafického znázornění vztahů. Tento způsob je vhodný především pokud je kategorií více. Pravděpodobně nejčastěji se používá dendrogram, v němž se nejprve graficky spojí dva nejbližší (nejpodobnější) objekty (kategorie). V dalších krocích se vychází vždy z rozměrově menší matice vzdáleností, která vzniká vynecháním příslušných dvou řádků a dvou sloupců a doplněním řádku a sloupce, obsahujících vzdálenosti ostatních objektů či shluků od právě vytvořeného shluku. V této matici se opět najde nejnižší hodnota a spojí se odpovídající shluky. Postup se opakuje do té doby, než jsou všechny shluky spojeny do jediného. (Řezanková 2007) Podle Melouna (2004) lze pomocí shlukové analýzy hodnotit jednak podobnost objektů, analyzovanou pomocí dendrogramu objektů, a jednak podobnost znaků, analyzovanou pomocí dendrogramu znaků. Dendrogram shluků nebo jinak vývojový strom, se konstruuje pouze v případě, kdy je k dispozici matice původních znaků. Dendrogram podobnosti znaků ukazuje rozlišení znaků ve shlucích. Znaky blízko sebe jsou propojeny spojovací úsečkou hodně nízko, mají malou vzdálenost čili značnou vzájemnou podobnost. Naopak znaky propojené hodně vysoko mají malou podobnost a mezi sebou vykazují velkou vzdálenost. Dendrogram podobnosti objektů je standardní výstup hierarchických shlukovačích metod, ze kterého je patrná struktura objektů ve shlucích. Dendrogram podobnosti znaků odhaluje nejčastěji dvojice či trojice znaků, které jsou si velmi podobné a silně spolu korelují. Znaky, které jsou ve společném shluku, si jsou značně podobné a jsou také vzájemně nahraditelné. (Meloun 2004) Existuje mnoho různých typů shlukové analýzy, které se liší postupem měření vzdálenosti mezi jednotlivými shluky. Dle Melouna (2002) je možné shlukovou analýzu dělit na hierarchické a nehierarchické shlukování. Přičemž metody hierarchického shlukování se člení dle podobnosti či nepodobnosti na aglomerativní a divizní postupy shlukování. (Meloun 2002)
5 2.1 Hierarchické shlukování Metoda si klade za cíl spojování objektů a jejich shluků do dalších, větších shluků. Výhodou této metody je, že není potřeba znát optimální počet shluků. Tento počet se určuje dodatečně. (Meloun 2002) Aglomerativní metody hierarchického shlukování Aglomerativní hierarchický postup patří k nejužívanějším postupům ve shlukovací analýze. Je možné ho také nazývat jako AGNES (AGlomerative NESting). V případě aglomerativního shlukování je výchozím stavem takový, kdy každý objekt představuje samostatný shluk. Dále se dva objekty, jejichž vzdálenost je minimální, spojí do prvního shluku a vypočítá se úplně nová matice vzdálenosti. V té jsou pak vynechány objekty prvního shluku a naopak tento shluk je zařazen jako celek. Celý proces se opakuje do té doby, dokud všechny objekty netvoří jeden shluk. Grafickým výstupem je tak zvaný dendogram, jinými slovy stromový diagram, ze kterého jsou zřejmé jednotlivé kroky vytváření shluků a postupné shluky objektů. Metod aglomerativního postupu existuje celá řada, odlišují se od sebe pouze přístupem k definici podobnosti. (Meloun 2002) Dle Hebáka (2007) lze postup hierarchické posloupnosti této metody rozkladů popsat následovně: 1. Vypočteme matici D vhodných měr vzdáleností. 2. Začneme proces od rozkladu S (n), tj. od n shluků, z nichž každý obsahuje jeden objekt. 3. Prohledáme matici D a nalezneme dva shluky (h-tý a h -tý), jejichž vzdálenost Dhh je minimální. 4. Spojíme tyto dva shluky do nového g-tého shluku. V matici D odstraníme h-tý a h -tý řádek i sloupec a nahradíme je řádkem i sloupcem pro nový shluk, řád matice D se snažil o jedničku. 5. Poznamenáme pořadí cyklu v = 1,2,, n 1, identifikaci spojených objektů h, h a hladinu pro spojení di = Dhh. 6. Pokud proces vytváření rozkladů již neskončil spojením všech objektů do jediného shluku S (1), pokračujeme krokem číslo 3. (Hebák 2007) Metoda nejbližšího souseda (Single, Nearest) U této metody se určí vzdálenost shluků u dvou nejbližších objektů, které jsou z odlišných shluků. Předpokladem je minimum z možných mezishlukových vzdáleností objektů. Nevýhodou této metody je, že může docházet ke stavu, kdy dochází k tvorbě řetězců, což může vést ke zcela milným výstupům. Dalším problém je, že vždy tvoří nový shluk pomocí nejkratší vzdálenosti mezi objekty či shluky a tím pádem neumí rozpoznat špatně separované shluky. Metoda tak nedokáže rozpoznat špatně separované shluky. Výhodou ovšem je, že je to jedna z metod, která dokáže roztřídit i neeliptické shluky.
6 Metoda nejvzdálenějšího souseda (Complete, Futhest) Metoda nejvzdálenějšího souseda se od první metody liší tím, že je vzdálenost shluků stanovena přesně naopak, a to vzdáleností dvou nejvzdálenějších objektů z rozdílných shluků. Objekty ve shluku jsou rozčleněny na základě maximální vzdálenosti nebo minimální podobnosti k objektům druhého shluku. Metoda velice dobře funguje v případě, kdy objekty vytváření přirozeně oddělené shluky. Centroidní metoda (Centroid) Postup při centroidní metodě vychází přímo z názvu, neboť vzdálenost shluků je dána vzdáleností jejich center (těžišť). Nejbližší jsou tedy shluky s nejnižší vzdáleností mezi centry. Tato metoda vyžaduje vyjádření této vzdálenosti pomocí čtvercové Eukleidovské vzdálenosti. Metoda mediánová (Median) Metoda je založena na centroidní metodě, protože se snaží o odstranění rozdílné váhy, jež centroidní metoda dává rozdílně velkým shlukům. Takže představuje takové vylepšením metody centroidní. Metoda průměrová (Average) Při této metodě vychází výstupy v dendogramech často podobné těm jako u metody nejvzdálenějšího souseda. Objekty ze dvou shluků se spojují do jednoho společného shluku a poté se vypočte aritmetický průměr vzdáleností. Nejbližší jsou shluky s nejmenší průměrnou vzdáleností mezi objekty jednoho a objekty druhého shluku. Wardova metoda Při postupu dle Wardovovy metody se vybírají takové shluky na sloučení, ve kterých vychází minimální součet čtverců. Zakládá se tedy na minimalizaci ztráty informace při spojení dvou tříd. Výhodou této metody je, že má sklon odstranit malé shluky, a tím tak vytvářet shluky podobné velikosti. (Meloun 2002) Dvojstupňové seskupování (Two Step Cluster) Výsledné řešení dvojstupňového seskupování může záviset na pořadí případů v souboru, je tedy vhodné, aby se tento dopad minimalizoval. Proto by měly být případy uspořádány v náhodném pořadí. V opačném případě by totiž mohlo dojít ke zkreslení výsledného řešení. Prvním krokem tohoto dvoustupňového postupu je tvorba velkého počtu malých shluků. Cílem je snížit velikost matice, která obsahuje vzdálenosti mezi všemi možnými dvojicemi případů. Malé shluky jsou pouze shluky původních případů, které se používají místo nezpracovaných dat v hierarchickém shlukování. Na základě měření algoritmus rozhoduje, zda má být určitý případ sloučený s již vytvořeným malým shlukem nebo má vytvořit nový malý shluk. Když je tento proces dokončen, jsou všechny případy ve stejném shluku považovány za jeden subjekt. Velikost vzdálenosti matic již není závislá na počtu případů, ale na počtu malých shluků. V druhém kroku dvoustupňového seskupování se využívá
7 standardní algoritmus hierarchického shlukování. Hierarchické formování skupin umožní prozkoumat celou řadu řešení s různými počty shluků. (Norušis 2011) Dvoukroková shluková analýza je obzvláště vhodná pro velké výběry, kdy předem nepředpokládáme určitý počet shluků a jsou k dispozici metrická nebo kategoriální data nebo obojí. (Košťál 2013) Divizní metody hierarchického shlukování Divizní hierarchický postup je v praxi méně používaný. Taktéž ho lze nazývat jako DIANA (DIvisive ANAlysis). U tohoto postupu se vychází z jednoho shluku S (1) a v každém kroku se jeden ze shluků rozštěpí na dva, takže na konci procesu dostáváme S (n). Má tedy opačný postup oproti aglomerativnímu postupu. (Hebák 2007) 2.2 Nehierarchické shlukování U těchto postupů je předem stanoven počet shluků, který se může v průběhu výpočtu měnit. V případě, kdy se počet shluků nemění, nazýváme tyto metody jako metody s konstantním počtem shluků. Naopak, pokud dochází v průběhu ke změnám v počtu shluků, nazýváme tyto postupy jako metody s optimalizovaným počtem shluků. Nehierarchické shlukování řeší opět řada metod. Tyto metody se člení na dvě základní skupiny, a to na optimalizační metody a analýzu modů, medoidů. Při použití optimalizačních nehierarchických metod se hledá optimální rozklad za pomocí přeřazování objektů ze shluku do shluku, kdy se snažíme minimalizovat nebo maximalizovat nějakou charakteristiku rozkladu. Metody analýzy modů, medoidů hledají rozklad do shluků, kdy shluky představují místa se zvýšenou koncentrací objektů v m-rozměrném prostoru proměnných. Namísto výchozí matice vzdáleností může být použita v určitých případech korelační matice. Při jednoznačném přiřazení ke shlukům se používají metody k-průměrů, k-medoidů, k-modů či k-histogramů a nebo se vypočte míra příslušnosti jednotlivých objektů ke shlukům pomocí fuzzy shlukové analýzy. (Meloun 2002) Metoda k-průměrů (k-means) Tato metoda je jinak nazývána jako metoda nejbližších středů. Princip této metody je založen na rozdělení objektů do shluků takovým způsobem, aby byla mezishluková suma čtverců co nejmenší. Předpokladem je rozdělení n objektů o m proměnných do k shluků. Metodu lze použít i v případě, kdy máme k disposici velký počet případů a chceme vytvořit malý počet shluků. (Meloun 2002) Algoritmus této metody představuje proces přesouvání objektů mezi shluky, který jde popsat těmito kroky: 1. Zvolíme počáteční rozklad do k shluků, nejčastěji náhodně, podkladem však může být nějaká vnější informace, někdy taktéž výsledek již provedeného shlukování, který chceme vylepšit. 2. Určíme centroidy pro všechny shluky v aktuálním rozkladu. 3. Probereme po řadě všechny objekty. V případě, kdy má právě zkoumaný objekt nejblíže k vlastnímu centroidu, ponecháme jej na místě. Jinak jej přesouváme do shluku, k jehož centroidu má nejblíže. Nedojde-li v tomto kroku k žádným přesunům, považujeme aktuální rozklad za definitivní řešení. (Hebák 2007)
8 Výhodou této metody je jednoduchost, rychlost a především se dá použít pro velké množství dat. Nevýhodou je pak fakt, že výsledky jsou znovu ovlivněny výběrem počátečních shluků, a protože po přiřazení bodu dojde k přepočítání těžiště, výsledek je také ovlivněn původním pořadím objektů. Izolované objekty, které leží mimo ostatní, mají velmi negativní vliv na výsledek. (Kučera 2008) Metoda k-medoidů Medoid představuje střed shluku, je to střední objekt, jehož vzdálenost k ostatním objektům v tomto shluku by měla být minimální. Tato metoda také vychází z předem stanoveného počtu shluků. Pro každý vytvořený shluk je určen medoid, který představuje konkrétní objekt ze shluku. Počáteční medoid je dán takovým způsobem, aby součet vzdáleností jednotlivých objektů ve shluku od tohoto daného objektu byl co nejmenší. (Meloun 2002) Metoda k-modů a k- histogramů Tyto metody jsou určeny pro datové soubory, které jsou charakterizovány pomocí nominálních proměnných. Metoda k-modů je analogická s metodou k-means. Tato metoda je neparametrická, vzhledem k tomu, že nemá žádné distribuční předpoklady o datech. Je stejně rychlá jako k-means, zvládne zpracovat velké datové soubory, které se obvykle vyskytují v průzkumu výzkumných aplikací. V případě použití k-modů není nutné pro seskupení kategorizovaných dat provádět měření vzdáleností. (Chaturvedi 2001) Metoda k-histogramů rozšiřuje k-means. Používá se pro shlukování objektů popsaných pomocí nominálních proměnných. Experimentální výsledky na reálných datových souborech ukazují, že metoda k-histogramů může dosahovat lepších výsledků, než seskupování pomocí k-modů. (He 2005) Fuzzy metoda Tato metoda zobecňuje všechny shlukovací metody, neboť dává možnost shlukování jednoho objektu do více než jednoho shluku. Přičemž u běžného shlukování je každý objekt členem jen jednoho shluku. Proces metody má tedy výhodu v tom, že nenutí zařazení objektu jen do jednoho specifického shluku. Naopak nevýhodou je fakt, že se zde objevuje mnohem více informací, které musí být vysvětleny. (Meloun 2002) 3 APLIKACE METOD V PRAXI Jak již bylo uvedeno, analýza shluků se používá pro uspořádání neuspořádané skupiny objektů do několika vnitřně sourodých tříd či shluků. Ve statistických programech můžeme využít hned několika metod. V této kapitole se zaměříme na vybrané metody, které nabízí program IBM SPSS výše popsané metody k-průměrů, hierarchické seskupování a dvoustupňové seskupování. Metoda k-průměrů (k-means) Metodu k-means využila například Sobotková (2012) ve své výzkumné studii, která se zabývá antisociálním chováním adolescentů ve vztahu ke školní šikaně a expozici násilí. Pro
9 identifikaci typů chování adolescentů podle míry projevů antisociálního chování byla provedena nehierarchická shluková analýza na položkách škály antisociálního chování. Na základě této metody byly identifikovány 4 typy osob, které se lišily v míře a projevech antisociálního chování (bezproblémoví, projevující vyšší míru fyzických soubojů, vysoce skórující na všech položkách škály antisociálního chování a s mírně problémovým chováním). (Sobotková 2012) V případě projektu Kshirsagara (2013) pojednávajícím o identifikaci mozkového tumoru byl použit algoritmus metody k-means k provedení identifikace snímku mozku z magnetické rezonance. Pomocí algoritmu byly seskupeny snímky mozku a dále byly rozděleny buňky do dvou skupin dle toho, zda již byly zasažené či ne. Díky tomu byl v konečné fázi vytvořen funkční systém, který vede záznamy o pacientech a zjednodušuje proces identifikace mozkového nádoru. (Kshirsagar 2013) Při použití metody k-means se v programu IBM SPSS Statistics 22.0 nejdříve navolí počet skupin v poli Number of Clusters, do kterých se jednotky zařadí dle zvolených charakteristik. Jde o tak zvaný iterační proces, neboť jednotka, která je na začátku zařazena v nějaké skupině, může být ke konci procesu ve skupině úplně jiné. Po každém kroku dojde k přehodnocení a jednotky se tak zařadí do příslušných skupin, tento proces je u konce, když nenastane žádný přesun. Číselné proměnné se nahrají do sekce Variables a proměnné, které případy popisují, se převedou do pole Label CASE by. K zobrazení statistik, např. analýzy rozptylu, centroidy skupin, informace o příslušnosti ke klastrům či volbě způsobu práce s chybějícími hodnotami slouží pole Options. (Centrum výuky SPSS 2008) Obrázek č. 1: Metoda K-means
10 Hierarchické seskupování Hierarchické seskupování využil Aria (2012) při zkoumání složení a přípravy Thepla, indické nekvašené chlebové placky z celozrnné mouky s přídavkem koření a zeleniny. Nejprve byla provedena senzorická analýza za použití devítibodové hedonické stupnice. Údaje získané pomocí senzorické analýzy byly zpracovány, aby mohly být použity ve vícerozměrné analýze dat, konkrétně hierarchické shlukové analýze. Pro tvorbu skupin byla zvolena Wardova metoda hierarchického seskupování, která vychází z analýzy rozptylu. Vzdálenosti mezi objekty byly vypočteny pomocí čtvercové Eukleidovské vzdálenosti, jak Wardova metoda vyžaduje. Tato metoda je obecně velmi účinná, avšak má tendenci tvořit poměrně malé shluky. Objekty v jednotlivých skupinách byly hodnoceny na základě minimálního součtu čtverců odchylek od průměru skupiny. Pro znázornění jednotlivých kroků shlukové analýzy a vzdáleností mezi výslednými skupinami byl pomocí programu SPSS vytvořen také dendrogram, z něhož jasně vyplynulo, že smyslové skóre, získané u skupiny bez přídavku soli, bylo výrazně odlišné od ostatních skupin, které tuto přísadu zahrnovali. Metoda hierarchického seskupování se, na základě této studie, ukázala jako velmi užitečný nástroj pro studium vlivu koncentrace přísad na celkové hodnocení při optimalizaci potravinářských výrobků. (Aria 2012) S pomocí hierarchické shlukové analýzy by bylo například možné třídit televizní pořady do homogenních skupin dle charakteru diváků, což může být využito v marketingu k identifikaci segmentů. Podobně lze také seskupovat do homogenních skupin například města tak, aby mohla být dále vybírána k testování různých marketingových strategií. (IBM Corporation 2011) Při použití hierarchické metody se v programu proměnné převedou do sekce Variable(s) a do pole Label CASE by lze nahrát proměnnou popisující případy. Pomocí tlačítka Method je možné zobrazit seskupování, míru vzdálenosti, transformaci hodnot a transformaci míry vzdálenosti. (Centrum výuky SPSS 2008) Obrázek č. 2: Hierarchické seskupování
11 Dvojstupňové seskupování (Two Step Cluster) Metodu dvoustupňového seskupování (Two Steps Cluster) využil například Mason (2009) ve studii zabývající se analýzou běžných lokalit, v nichž se nejčastěji vyskytují mladiství užívající návykové látky. Mezi kategorizované proměnné byly zařazeny rizikové lokality, dále pohlaví, duševní stres, úzkost a psychické problémy. Číselné proměnné zahrnovaly věk a počet dní, ve kterých jedinec požil alkohol či drogu během uplynulých 90 dní. Vzhledem k výhodné manipulaci s kategorizovanými a číselnými proměnnými a automatickému výběru počtu shluků byla provedena dvoustupňová analýza. Za použití Schwartz-Bayesova kritéria byli mladiství rozdělení do dvou uzavřených skupin. Počet skupin nebyl předem zvolen, ale byl použit odhad procedury TwoStep. První skupina zahrnovala chlapce i dívky v průměrném věku 16,6 let, zatímco druhá skupina zahrnovala pouze chlapce, a to v průměrném věku 16,3 let. Věkový rozdíl u daných skupin se ukázal jako statisticky nevýznamný. První skupina mladistvých prokazovala častější užívání alkoholu a návykových látek než skupina druhá. U rozdílu v užívání drog a alkoholu byla prokázána statistická významnost. (Mason 2009) Maloobchodní prodejci a prodejci spotřebního zboží pravidelně aplikují metodu dvoustupňového seskupování na data, která popisují nákupní zvyklosti jejich zákazníků, jejich věk, pohlaví, úroveň příjmů a podobně. Tyto společnosti pak přizpůsobí svůj marketing a strategii vývoje produktů pro každou skupinu spotřebitelů tak, aby zvýšili prodej a budovali loajalitu ke značce. (IBM Corporation 2011) Při dvoustupňovém seskupování lze počet skupin shluků, ve kterých jsou jednotky rozděleny, navolit předem v sekci Number of Clusters nebo můžeme použít odhad procedury TwoStep. U této metody dokáže program IBM SPSS zpracovat číselné i kategorizované proměnné. Tyto kategorizované proměnné se nahrávají do sekce Categorical Variables a číselné proměnné do Continous Variables, ovšem jeden z těchto seznamů lze ponechat prázdný. V poli Distance Measure je možnost volby míru vzdálenosti. V případě, že předpokládáme šum, používáme možnost Options. Klasifikační metoda TwoStep Cluster se v nové verzi programu zadává obdobným způsobem jako tomu je u předchozích verzí. V programu je možná volba různých pohledů na model ve výstupovém okně, ty obsahují dialogy menšího počtu voleb upřesňujících výstupy. Dialogové okno Output je obohaceno s porovnání se staršími verzemi o Model Viewer Output, kam je možné zadat další doplňující proměnné, které se budou podílet na popisu klastrů tzv. Evaluation Fields. (Centrum výuky SPSS 2008)
12 Obrázek č. 3: TwoStep Cluster Výstup této metody se aktivuje v Model Viewer, jež podává informace pomocí interaktivního náhledu. Toto okno náhledu je seskupené ze dvou částí, kde je k dispozici hlavní panel, který nabízí přehled základních informací o modelu či vlastnosti klastrů. Tabulku vlastností klastrů je možné dále interaktivně upravovat. Po označení několika sloupců nebo buněk lze zobrazit detailní popis vlastností v pravém okně panelu. Pravá část panelu vyobrazuje detailní informace o modelu a prvcích, jež jsou vybrané v hlavním panelu. Nabízí se tu možnost různého zobrazení náhledů, mezi kterými lze pohodlně přecházet pomocí rolovací nabídky umístěné ve spodní části každého okna. (Centrum výuky SPSS 2008)
13 Obrázek č. 4: Výstup TwoStep Cluster Nové technologie přináší nové možnosti práce se statistickými programy. Nejnovější verze programu IBM SPSS Statistics 22.0 umožňuje zobrazení výstupů na tak zvaných chytrých zařízeních bez jakékoli aplikace či jiného SmartReaderu. Tyto výstupy lze zobrazit jak na klasickém počítači s operačním systémem Windows Mac a Linux, ipod, iphone, ipad, tak i telefony a tablety s operačním systémem Aneroid. (Centrum výuky SPSS 2008) Obrázek č. 5: Výstup z IBM SPSS Statistics 22.0 v chytrém telefonu
14 6 ZÁVĚR Příspěvek byl zpracován na téma shluková analýza vícerozměrných dat se zaměřením na využití programu IBM SPSS a jeho nové možnosti. Byly zde diskutovány postupy metod shlukové analýzy a jejich výhody či nevýhody. Porovnáním těchto metod lze dospět k závěru, že dvou kroková shluková analýza je obzvláště vhodná pro velké výběry, kdy předem nepředpokládáme určitý počet shluků a jsou k dispozici metrická nebo kategoriální data nebo obojí. Metodu k-means lze použít také v případě, kdy máme k disposici větší počet případů. Výhodou této metody je jednoduchost a rychlost. Nevýhodou je pak to, že výsledky jsou znovu ovlivněny výběrem počátečních shluků, a protože po přiřazení bodu dojde k přepočítání těžiště, je výsledek také ovlivněn původním pořadím objektů. Izolované objekty, které leží mimo ostatní, mají velmi negativní vliv na výsledek. Proces Fuzzy metody má výhodu v tom, že nenutí zařazení objektu jen do jednoho specifického shluku. U metody nejbližších sousedů je nevýhodou fakt, že může docházek ke stavu, kdy dochází k tvorbě řetězců, což může vést ke zcela mylným výstupům. Dalším problém je, že vždy tvoří nový shluk pomocí nejkratší vzdálenosti mezi objekty či shluky, a tím pádem neumí rozpoznat špatně separované shluky. Metoda tak nedokáže rozpoznat špatně separované shluky. Výhodou však je, že je to jedna z metod, která dokáže roztřídit i neeliptické shluky. Metoda nejvzdálenějšího souseda velice dobře funguje v případě, kdy objekty vytváření přirozeně oddělené shluky. Výhodou hierarchické metody je, že není potřeba znát optimální počet shluků, protože se jejich počet určuje dodatečně. Z uvedeného textu mimo jiné vyplývá, že nové technologie stále přináší nové možnosti práce s daty a výstupy ze statistických programů. Nejnovější verze programu IBM SPSS Statistics 22.0 se od předchozí verze v zaměření na shlukovou analýzu příliš neliší. Ovšem velkým přínosem je možnost zobrazení výstupů na chytrých telefonech bez jakékoli aplikace či jiného SmartReaderu. Výstupy z programu lze zobrazit na zařízeních jako je ipod, iphone, ipad, telefony a tablety s operačním systémem Android.
15 LITERATURA Arya S. S., Patil S. (2012): Ingredients and Process Standardization of Thepla: An Indian Unleavened Vegetable Flatbread using Hierarchical Cluster Analysis. Advance Journal of Food Science and Technology 4(5): Centrum výuky SPSS. (2008): SPSS Base 16.0: Statistické procedury. [CD-ROM] Praha: SPSS ČR. Chaturvedi A., Green P. E., Carroll J. D. (2001): K-modes Clustering. Journal of Classification 18: He Z., Xu X., Deng S., Dong B. (2005): K-Histograms: An Efficient Clustering Algorithm for Categorical Dataset. Artifical Intelligence 08. Available at (accessed January 2014). Hebák, P., Hustopecký, J., Pecáková, I. (2007): Vícerozměrné statistické metody (3). Praha: Informatorium, 271 s. ISBN: IBM Corporation (2011): Statistics Base Option. Available at (accessed January 2014). Košťál, J. (2013): Vybrané metody vícerozměrné statistiky. Praha: Institut pro kriminologii a sociální prevenci, 113 s. ISBN Kshirsagar P., Patil M., Prabhu S., Patil S., Patil S. (2013): Brain Tumor Identification Using K- Means Clustering. International Journal of Engineering Trends and Technology, 4: Kubanová J. (2003): Statistické metody pro ekonomickou a technickou praxi. 1. vyd. Bratislava: Statis, s. ISBN X. Kučera J. (2008): Metody kategorizace dat. Available at (accessed January 2014). Mason M. J., Korpela K. (2009): Activity spaces and urban adolescent substance use and emotional health. Journal of Adolescence, 32: Meloun M., Freisleben J. (2009): Klasifikace podzemních vod diskriminační analýzou. Vodní hospodářství 59: Meloun M., Militký J. (2004): Statistická analýza experimentálních dat. Praha: Academia, 980 s. ISBN Meloun M., Militký, J. (2002): Kompendium statistického zpracování dat. Praha: Academia, 766 s. ISBN Norušis M. J. (2011): IBM SPSS Statistics 19 Statistical Procedures Companion. Available at (accessed January 2014).
16 Sobotková V., Osecká T., Jelínek M., Blatný M., Hrdlička M. (2012): Expozice komunitnímu násilí a školní šikana a jejich vztah k antisociálnímu chování v rané adolescenci. Československá psychologie 2012, 56:
Vícerozměrné statistické metody
Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o
VíceShluková analýza dat a stanovení počtu shluků
Shluková analýza dat a stanovení počtu shluků Autor: Tomáš Löster Vysoká škola ekonomická v Praze Ostrava, červen 2017 Osnova prezentace Úvod a teorie shlukové analýzy Podrobný popis shlukování na příkladu
VíceFakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody
Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte
VíceProfilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
VíceAVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny
VíceShluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.
Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Shluková analýza Jiří Militky Analýza experimentálních dat V Klasifikace objektů Rozdělení objektů do shluků dle jejich podobnosti
VíceStátnice odborné č. 20
Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin
VíceAlgoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
VíceVícerozměrné statistické metody
Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti
VícePopisná statistika kvantitativní veličiny
StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali
VíceÚvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
VíceObsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
VíceSHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA
SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA CLUSTER ANALYSIS OF REGIONS OF CZECH REPUBLIC BY SELECTED CHARACTERISTICS OF AGRICULTURE IN PROGRAM
Více4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT
4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami
VíceMatematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,
VíceAnalýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
VíceStatistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
VícePopisná statistika. Statistika pro sociology
Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky
VíceStatistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ
Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ Ing. Dana Trávníčková, PaedDr. Jana Isteníková Funkční gramotnost je používání čtení a psaní v životních situacích. Nejde jen o elementární
VíceOdhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy
Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan. meloun@upce.
VíceZáklady popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních
VíceStatistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem
Více3.4 Určení vnitřní struktury analýzou vícerozměrných dat
3. Určení vnitřní struktury analýzou vícerozměrných dat. Metoda hlavních komponent PCA Zadání: Byly provedeny analýzy chladící vody pro odběrové místa. Byly stanoveny parametry - ph, vodivost, celková
VíceUniverzita Pardubice 8. licenční studium chemometrie
Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí
VícePříklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:
Příklad 2: Obsah PCB v játrech zemřelých lidí Zadání: V rámci Monitoringu zdraví byly měřeny koncentrace polychlorovaných bifenylů vjátrech lidí zemřelých náhodnou smrtí ve věku 40 let a více. Sedm vybraných
Více4EK213 Lineární modely. 12. Dopravní problém výchozí řešení
4EK213 Lineární modely 12. Dopravní problém výchozí řešení 12. Distribuční úlohy LP Úlohy výrobního plánování (alokace zdrojů) Úlohy finančního plánování (optimalizace portfolia) Úlohy reklamního plánování
VíceRenáta Bednárová STATISTIKA PRO EKONOMY
Renáta Bednárová STATISTIKA PRO EKONOMY ZÁKLADNÍ STATISTICKÉ POJMY Statistika Statistický soubor Statistická jednotky Statistický znak STATISTIKA Vědní obor, který se zabývá hromadnými jevy Hromadné jevy
Víceveličin, deskriptivní statistika Ing. Michael Rost, Ph.D.
Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
VíceVícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod
PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal
VíceNADSTAVBOVÝ MODUL MOHSA V1
NADSTAVBOVÝ MODUL MOHSA V1 Nadstavbový modul pro hierarchické shlukování se jmenuje Mod_Sh_Hier (MOHSA V1) je součástí souboru Shluk_Hier.xls. Tento soubor je přístupný na http://jonasova.upce.cz, a je
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
VíceMetodologie pro Informační studia a knihovnictví 2
Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis nekategorizovaných dat Co se dozvíte v tomto modulu? Kdy používat modus, průměr a medián. Co je to směrodatná odchylka. Jak popsat distribuci
VíceČíselné charakteristiky
. Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch
VíceCvičná bakalářská zkouška, 1. varianta
jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární
VíceVÍCEKRITERIÁLNÍ ROZHODOVANÍ
VÍCEKRITERIÁLNÍ ROZHODOVANÍ 1 Obsah Typy modelů vícekriteriálního rozhodování Základní pojmy Typy informací Cíl modelů Užitek, funkce užitku Grafické zobrazení Metody vícekriteriální analýzy variant 2
VíceZpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní
VíceStatistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická
Více9. listopadu Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/
9. listopadu 212 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.7/2.4./17.117 Používané postupy Lord D., Mannering F.: The Statistical Analysis of Crash-Frequency Data: A Review and Assessment of Methodological
VíceStatistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
VíceTECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÉHO ŠETŘENÍ ANALÝZA VÝSLEDKŮ VYUŢITÍ PROJEKTOVÉHO ŘÍZENÍ V ESN Příjmení a jméno: Hrdá Sabina, Kovalčíková
VíceŠkály podle informace v datech:
Škály podle informace v datech: Různé typy dat znamenají různou informaci, resp. různé množství informace Data nominální Rovná se? x 1 = x 2 Data ordinální Větší, menší? x 1 < x 2 Data intervalová O kolik?
VíceTECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar
VíceMetodologie pro Informační studia a knihovnictví 2
Metodologie pro Informační studia a knihovnictví 2 Modul V: Nekategorizovaná data Metodologie pro ISK 2, jaro 2014. Ladislava Z. Suchá Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis
Více23. Matematická statistika
Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti
VíceFakulta chemicko technologická Katedra analytické chemie
Fakulta chemicko technologická Katedra analytické chemie Licenční studium statistické zpracování dat Analýza vícerozměrných dat Ing. Pavel Valášek Školní rok OBSAH ÚVOD DATA EDA EXPLORATORÍ AALÝZA 4 PCA
VíceKontingenční tabulky v MS Excel 2010
Kontingenční tabulky v MS Excel 2010 Autor: RNDr. Milan Myšák e-mail: milan.mysak@konero.cz Obsah 1 Vytvoření KT... 3 1.1 Data pro KT... 3 1.2 Tvorba KT... 3 2 Tvorba KT z dalších zdrojů dat... 5 2.1 Data
VíceVyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )
Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent ) Zadání : Titanová běloba (TiO ) se vyrábí ve dvou základních krystalových modifikacích - rutilové a anatasové.
VíceMultivariátní porovnání dat - klastrová (shluková) analýza
Multivariátní porovnání dat - klastrová (shluková) analýza - bez apriorních předpokladů Shluková analýza Shluková analýza - cluster analysis úvod - definice princip algoritmy výsledky Shluková analýza
Více5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
VíceZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY
zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické
Víceodlehlých hodnot pomocí algoritmu k-means
Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování
VíceII. Úlohy na vložené cykly a podprogramy
II. Úlohy na vložené cykly a podprogramy Společné zadání pro příklady 1. - 10. začíná jednou ze dvou možností popisu vstupních dat. Je dána posloupnost (neboli řada) N reálných (resp. celočíselných) hodnot.
VíceKategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze
VíceMnohorozměrná statistická data
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém
VíceANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2015 Ing. Petra Hlaváčková, Ph.D.
VíceStatistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!
Statistika aneb známe tři druhy lži: úmyslná neúmyslná statistika Statistika je metoda, jak vyjádřit nejistá data s přesností na setinu procenta. den..00..00 3..00..00..00..00..00..00..00..00..00..00 3..00..00..00..00..00..00..00
VíceVektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace
Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi
VíceMetody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.
Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou
VíceZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY
ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY Knowledge and skills of Czech men in the field of information security - the results of statistical analysis
VíceMgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu
Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech
VíceSimulace. Simulace dat. Parametry
Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,
VíceUNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
VíceMOŽNOSTI VYUŽITÍ SHLUKOVÉ ANALÝZY V Q-METODOLOGII
MOŽNOSTI VYUŽITÍ SHLUKOVÉ ANALÝZY V Q-METODOLOGII CHRÁSKA Miroslav, CZ Resumé Příspěvek seznamuje s možnostmi využití shlukové analýzy při zpracování výzkumu provedeného pomocí Q-metodologie. Ve výzkumu
Více1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
VíceMETODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU
METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU vyučující doc. RNDr. Jiří Zháněl, Dr. M I 4 Metodologie I 7. ANALÝZA DAT (KVANTITATIVNÍ VÝZKUM) (MATEMATICKÁ) STATISTIKA DESKRIPTIVNÍ (popisná) ANALYTICKÁ
VíceUniverzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Interpolace, aproximace a spline 2007 Jindřich Freisleben Obsah
VícePříklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy
Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Zadání: Deponie nadložních jílových sedimentů SHP byla testována za účelem využití v cihlářské výrobě. Z deponie bylo odebráno
VíceMnohorozměrná statistická data
Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná
VíceKorelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
VíceStatSoft Shlukování podobných
StatSoft Shlukování podobných v softwaru STATISTICA Tímto článkem nakoukneme do oblasti statistiky zabývající se shlukováním. Tedy situací, kdy chcete data/objekty nějak seskupit na základě jejich podobnosti.
VíceShluková analýza příklad
Shluková analýza příklad K dispozici jsou údaje o složení vybraných přírodních a minerálních vod. Pracujeme s následujícím seznamem proměnných: Dané hodnoty vznikly tak, že byl zjištěn u všech vod celkový
VíceDiskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky
Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme
VíceVýrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy
Výrobní produkce divizí Ice Cream Polo ha planet Rozložený výsečový 3D graf Bublinový graf Ice Cream 1 15% Ice Cream 2 12% Ice Cream 3 18% Ice Cream 4 20% Statistika 40 30 20 Ice Cream 6 19% Ice Cream
VíceUNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ. Předzpracování ekonomických dat pomocí metod shlukové analýzy. Pavel Novák
UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ Předzpracování ekonomických dat pomocí metod shlukové analýzy Pavel Novák Bakalářská práce 2009 Prohlašuji: Tuto práci jsem vypracoval samostatně. Všechny
VíceOdhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody
Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan.
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceVyužití shlukové analýzy při vytváření typologie studentů
Miroslav CHRÁSKA, Milan KLEMENT Univerzita Palackého v Olomouci, Česká republika Využití shlukové analýzy při vytváření typologie studentů 1. Cíl výzkumu Cílem výzkumu bylo rozdělit české a polské vysokoškolské
Více2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,
VíceSTATISTICA Téma 7. Testy na základě více než 2 výběrů
STATISTICA Téma 7. Testy na základě více než 2 výběrů 1) Test na homoskedasticitu Nalezneme jej v několika submenu. Omezme se na submenu Základní statistiky a tabulky základního menu Statistika. V něm
VíceSTATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION
STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION Anna Čermáková Michael Rost Abstrakt Cílem příspěvku bylo
VíceSTATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
VíceInformační technologie a statistika 1
Informační technologie a statistika 1 přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 21. září 2015, 1/33 Požadavek
VíceAplikovaná statistika v R - cvičení 3
Aplikovaná statistika v R - cvičení 3 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.8.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 1 / 10 Lineární
VíceSEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat
UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE LICENČNÍ STUDIUM - STATISTICKÉ ZPRACOVÁNÍ DAT SEMESTRÁLNÍ PRÁCE Ing. Věra Fialová BIOPHARM VÝZKUMNÝ ÚSTAV BIOFARMACIE A VETERINÁRNÍCH
VíceMiroslav Čepek
Vytěžování Dat Přednáška 4 Shluková analýza Miroslav Čepek Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti 14.10.2014 Miroslav Čepek
VícePROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ
PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ Jiří HORÁK 1, Igor IVAN 1, Tomáš INSPEKTOR 1 1 Institut geoinformatiky, Hornicko-geologická fakulta, VŠB-TUO, 17. listopadu 15/2172, 708 33, Ostrava- Poruba, ČR Abstrakt
VíceZNALOSTI A DOVEDNOSTI ČESKÝCH ŽEN V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY
ZNALOSTI A DOVEDNOSTI ČESKÝCH ŽEN V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY Knowledge and skills of Czech women in the field of information security - the results of statistical analysis
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceNávod pro práci s SPSS
Návod pro práci s SPSS Návody pro práci s programem SPSS pro kurz Metodologie pro Informační studia a knihovnictví 2 (jaro 2013) Ladislava Zbiejczuk Suchá Instalace programu SPSS najdete v INETu. Po přihlášení
VíceCíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR
Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR Data Obce ČR 2011 (Veřejná databáze ČSÚ) SPSS IBM, ArcGIS Proměnné: intenzita migračního
VícePorovnání dvou výběrů
Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů
VíceAnalýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic
2 nd Central European Conference in Regional Science CERS, 2007 862 Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic PETR ŘEHOŘ, DARJA HOLÁTOVÁ Jihočeská
VíceDeskriptivní statistika (kategorizované proměnné)
Deskriptivní statistika (kategorizované proměnné) Nejprve malé opakování: - Deskriptivní statistika se zabývá popisem dat, jejich sumarizaci a prezentací. - Kategorizované proměnné jsou všechny proměnné,
VíceSTATISTICKÉ CHARAKTERISTIKY
STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)
VíceTiskové sestavy. Zdroj záznamu pro tiskovou sestavu. Průvodce sestavou. Použití databází
Tiskové sestavy Tiskové sestavy se v aplikaci Access používají na finální tisk informací z databáze. Tisknout se dají všechny objekty, které jsme si vytvořili, ale tiskové sestavy slouží k tisku záznamů
VíceKontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními
VíceZákladní pojmy a cíle statistiky 1
Základní pojmy a cíle statistiky 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Předmět zkoumání Statistiky Definice statistiky Statistika zasahuje do mnoha oblastí našeho moderního
VíceEXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek
EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření Jan Krystek 9. května 2019 CHYBY A NEJISTOTY MĚŘENÍ Každé měření je zatíženo určitou nepřesností způsobenou nejrůznějšími negativními vlivy,
Více