StatSoft Shlukování podobných



Podobné dokumenty
Vícerozměrné statistické metody

Tvar dat a nástroj přeskupování

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Zobrazení zdrojových dat u krabicového grafu

StatSoft Jak poznat vliv faktorů vizuálně

Slučování tabulek. Sloučení dvou tabulek

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Návod na tvorbu časové přímky v programu Microsoft PowerPoint 2013

StatSoft Jak vyzrát na datum

Chernoffovy tváře (ikonové grafy)

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Cvičná bakalářská zkouška, 1. varianta

NADSTAVBOVÝ MODUL MOHSA V1

Generování dat. Generování pomocí funkcí

StatSoft Jak se pozná normalita pomocí grafů?

Zpracování chybějících dat a dat mimo rozsah

Programujeme v softwaru Statistica

Omezení funkcionalit v softwaru STATISTICA

Export tabulky výsledků

Popisná statistika kvantitativní veličiny

Shluková analýza dat a stanovení počtu shluků

Předpovídejte snadno a rychle

Státnice odborné č. 20

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Autodesk Inventor 8 - výkresová dokumentace, nastavení

STATISTICA. Vlastní menu v programu. StatSoft

Nový způsob práce s průběžnou klasifikací lze nastavit pouze tehdy, je-li průběžná klasifikace v evidenčním pololetí a školním roce prázdná.

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

MS SQL Server 2008 Management Studio Tutoriál

Úvod do problematiky ÚPRAVY TABULKY

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Programujeme v softwaru Statistica - příklady

Fakulta chemicko technologická Katedra analytické chemie

Ovládání Open Office.org Calc Ukládání dokumentu : Levým tlačítkem myši kliknete v menu na Soubor a pak na Uložit jako.

Import dat ve formátu txt

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Metodologie pro ISK 2, jaro Ladislava Z. Suchá

Hromadná korespondence

Pracovat budeme se sestavou Finanční tok. S ostatními se pracuje obdobně. Objeví se předdefinovaná sestava. Obrázek 1

Na obrázku níže je vidět jedno z možných nastavení umístění grafu Ve sloupci pro graf. Spuštění první plovoucí sady. Spuštění druhé plovoucí sady

KLIMA ŠKOLY. Zpráva z evaluačního nástroje Klima školy. Škola Testovací škola - vyzkoušení EN, Praha. Termín

Vzorce. StatSoft. Vzorce. Kde všude se dá zadat vzorec

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

Záhlaví a zápatí Tvorba obsahu

Vícerozměrné statistické metody

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

KAPITOLA 8 TABULKOVÝ PROCESOR

Kudyšel comfort. Manuál k programu

František Hudek. červenec 2012

STATISTIKY. Manuál. Statistiky

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

3. Optimalizace pomocí nástroje Řešitel

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová

Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Kateřina Raichová. Materiál je publikován pod licencí Creative Commons.

Tvorba kurzu v LMS Moodle

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

VÍCEROZMĚRNÉ STATISTICKÉ METODY

Shluková analýza příklad

Textové popisky. Typ dat

GOODWILL vyššší odborná škola, s. r. o. P. Holého 400, Frýdek-Místek

Přehledy pro Tabulky Hlavním smyslem této nové agendy je jednoduché řazení, filtrování a seskupování dle libovolných sloupců.

Po přihlášení do Osobní administrativy v Technologie a jejich správa vybereme položku Certifikáty bezdrátové sítě (Eduroam).

CZ.1.07/2.2.00/ )

KAPITOLA 12 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Formátování pomocí stylů

TESTOVÁNÍ KVALITATIVNÍCH ZNAKŮ V PROGRAMU

Manuál: Editace textů v textovém editoru SINPRO Úprava tabulek a internetových odkazů, řádkování

Gilda. Po spuštění programu v základním seznamu vidíte veřejné zakázky za Váš odbor.

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Multimediální prezentace MS PowerPoint I

Interface LPG / CNG Bluetooth. Instrukce k instalaci a konfiguraci zařízení v1.0 cz. U rozhraní bluetooth není instalace ovladače potřebná.

Funkce arcsin. Některé dosud probírané funkce můžeme spojit do dvojic: 4 - je číslo, které když dám na druhou tak vyjde 4.

Spuštění a ukončení databázové aplikace Access

Diagnostika regrese pomocí grafu 7krát jinak

Manuální kroková regrese Newsletter Statistica ACADEMY

StatSoft Odkud tak asi je?

Pracovní prostředí Excel 2010


Základní škola a Mateřská škola Mladá Boleslav, Jilemnického 1152, příspěvková organizace

Pracovní list č. 14 Microsoft Word 2010 jazykové nástroje, reference I Jazykové nástroje

1.7 WORD - hromadná korespondence

Excel 2007 praktická práce

MS Excel grafická prezentace dat

Jak vytvořit vlastní ikonu bloku a faceplate v PCS7 V6.x a 7.x

Úvodní list. Název školy Integrovaná střední škola stavební, České Budějovice, Nerudova 59 Číslo šablony/ číslo sady Poř. číslo v sadě 19 32/10

Postup: Nejprve musíme vyplnit tabulku. Pak bude vypadat takto:

aplikační software pro práci s informacemi

ÚLOHA 6. Úloha 6: Stěžejní body tohoto příkladu:

Škály podle informace v datech:

Po prvním spuštění Chrome Vás prohlížeč vyzve, aby jste zadali své přihlašovací údaje do účtu Google. Proč to udělat? Máte několik výhod:

pracovní list studenta Kombinatorika, pravděpodobnost, základy statistiky Jak jsou vysocí? Mirek Kubera

Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují

Úloha - rozpoznávání číslic

Tvorba digitálního modelu terénu

Pearsonův korelační koeficient

Přejímka jedním výběrem

Konstrukce součástky

Transkript:

StatSoft Shlukování podobných v softwaru STATISTICA Tímto článkem nakoukneme do oblasti statistiky zabývající se shlukováním. Tedy situací, kdy chcete data/objekty nějak seskupit na základě jejich podobnosti. Článek je doplněn praktickým příkladem, který Vám ukáže, jak je to jednoduché. Shluková analýza Jedná se o metodu, která shlukuje objekty do skupin tak, aby objekty náležící do jedné skupiny, byly sobě podobné. Praxe Úloh a situací, kdy potřebujete objekty shlukovat do skupin, je nepřeberné množství. Abychom ukázali, co všechno se dá dělat, uveďme několik praktických využití: Shlukování genů s podobnými vlastnostmi exprese. Tvorba skupin studentů se stejnými vlastnostmi. Shlukování otázek v dotazníku, na které respondenti odpovídají podobně. Shlukování chemických prvků, které se chovají v nějaké situaci podobně. Shlukování oblastí například podle spáchaných trestných činů. Shluková analýza je často využívaná v marketingu. Například shlukování zákazníků do skupin na základě dat z dotazníkových šetření. Shlukování uživatelů sociálních sítí může odhalit komunity lidí. Shlukování produktů podle jejich vlastností.

Hierarchické shlukování V našem článku a příkladu se zaměříme jen na jednu z metod shlukování a to na hierarchické shlukování. Hierarchické shlukování znamená, že shluky vytváříme postupně v několika krocích. Na začátku máme shluků (shluky s jedním prvkem). Ve druhém kroku máme shluků, protože jeden shluk sloučíme s nějakým jiným. Shluky, které se spojily, jsou ty, které mají mezi sebou nejmenší vzdálenost. V dalších krocích postupujeme analogicky až do vytvoření jednoho velkého shluku, který obsahuje všechny objekty (takovémuto hierarchickému shlukování se říká aglomerativní - objekty se postupně slučují). Rozvrh shlukování se v těchto modelech vyjadřuje nejčastěji pomocí grafického zobrazení nazývaného dendrogram (bude ukázán a dovysvětlen níže). Abychom toto shlukování mohli provést, potřebujeme si nadefinovat, jakou vzdálenost budeme používat a také odkud ve shluku se bude měřit vzdálenost k jinému shluku (případně jak se bude měřit vzdálenost mezi shluky). Začněme s tímto. Shluk 1 Shluk 2 Pokud se podíváte na obrázek vlevo a zkusíte se zamyslet nad tím, co by mohla být vzdálenost mezi těmito dvěma shluky, zjistíte, že to není zase tak jednoduché, jak by se na první pohled mohlo zdát. Jistě Vás napadne mnoho možností, mezi kterými místy vzdálenost měřit. Trocha teorie - Vzdálenosti mezi shluky Výčet možností definování vzdálenosti mezi shluky bychom provedli popořadě, jak je to nastaveno v softwaru STATISTICA. Pokud si otevřete dialog shlukové analýzy (Statistiky-Vícerozměrné statistiky-shluková analýza-spojování (hierarchické shlukování ) záložku detaily, nalezneme rozevírací seznam u položky Pravidla slučování: Jednoduché spojení (single linkage) - vzdáleností dvou shluků je vzdálenost dvou nejbližších objektů z různých shluků. Úplné spojení (complete linkage) toto je opačný extrém, zde vezmeme vzdálenost dvou nejvzdálenějších objektů. Nevážený průměr skupin dvojic (UPGMA) vzdálenost dvou shluků je průměrem vzdáleností všech dvojic (každý člen dvojice je z jiného shluku). Vážený průměr skupin dvojic (WPGMA) stejné jako výše, jen se jedná o vážený průměr vzdáleností všech dvojic je brána v potaz velikost shluků. Vážené metody doporučovány v případě, že se dají očekávat rozdílné velikosti shluků. Nevážený centroid skupin dvojic (UPGMC) vzdálenost dvou shluků je vzdáleností mezi centroidy shluků. Vážený centroid skupin dvojic (WPGMC) vážená vzdálenost dvou centroidů (váhy se určují podle velikosti shluků). Wardova metoda odlišný přístup oproti předešlým, založený na principu analýzy rozptylu. Počítá součet druhých mocnin odchylek případů v potenciálním sloučeném shluku od centroidu. Sloučí ty dva shluky, pro které je součet nejmenší.

Trocha teorie Typy vzdáleností Bavili jsme se o tom, jak určovat, jak měřit vzdálenost mezi shluky. Nyní se podíváme na typy vzdáleností samotných. Při vybírání typu vzdálenosti budeme mít v praxi situaci jednodušší než při určování, jak měřit vzdálenost mezi shluky, poněvadž podle povahy dat bychom typ vzdálenosti měli zvolit celkem jednoznačně. Čebyševova vzdálenost maximální rozdíl souřadnic v jednom rozměru. Euklidovské vzdálenosti, Euklidovské vzdálenosti na druhou jednoduše vzdálenost mezi body se spojitými hodnotami, klasická vzdálenost bodu od bodu, jak ji známe. Bloková vzdálenost vzdálenost, jako bychom se pohybovali po pouze vodorovně a svisle, ne šikmo (někdy se jí také říká Manhattanská vzdálenost). Procentuální neshoda podíl shodných prvků (souřadnic) mezi objekty a počtu všech prvků (tedy dimenze objektu). Používá se pro diskrétní data. Ostatní možnosti jsou jasné již z názvu možnosti. Pokud byste potřebovali výpočetní detaily, odkážeme Vás na popis v nápovědě softwaru, najdete jej v sekci: Joining (Tree Clustering) Introductory Overview - Distance Measures Příklad Máme k dispozici data Protein.sta (ta najdete v příkladech softwaru STATISTICA: Data-Otevřít příklady-datasets). Data představují odhadnutý příjem proteinů z 9 zdrojů obyvatelů ve 25 zemích Evropy. Data jsou z roku 1973. U těchto dat se můžeme ptát, které státy jsou v souvislosti s rozložením proteinů ve stravě podobné. Toto je tedy naše úloha, na kterou se přímo vybízí použití shlukové analýzy. Uvidíte, že použití metody je naprosto jednoduché. Spustíme Statistiky-Vícerozměrné statistiky-shluková analýza- Spojování (hierarchické shlukování)-ok. Vybereme všechny proměnné, dále chceme shlukovat případy (státy) obecně je možné si vybrat, jestli chceme shlukovat případy nebo proměnné (shlukování proměnných má jistě v některých příkladech svůj prokazatelný smysl). Vzdálenost necháme Euklidovskou a pravidlo slučování necháme pro začátek také tak, jak bylo přednastaveno. Klikneme na OK. Nyní si již můžeme vygenerovat dendrogram.

ostatním velký přísun proteinů z cereálií a velmi malý z ryb toto mohou být proměnné, které předurčují tyto státy být daleko od ostatních. Čtvrtá skupina jsou Portugalsko a Španělsko blízké země s podobnými stravovacími návyky. Další skupina je v zásadě západ a sever Evropy, skupina obsahující i Československo zase střed, východ a jih Evropy. Vysvětlení dendrogramu tento graf ukazuje kompletní historii spojování do shluků od jednotlivých objektů (vlevo) až to jednoho shluku se všemi objekty (vpravo). Na ose x je vzdálenost, při které se shluky spojily. Vidíme tedy, že první se spojily státy Dánsko a Švédsko, to se dá interpretovat tak, že mají tyto státy velmi podobné rozložení proteinů ve stravě. Spojily se ve vzdálenosti 4,8. Jako poslední se s ostatními spojilo Finsko, z čehož můžeme usuzovat, že je nejdále od ostatních. Takovýto graf řekne hodně, nicméně to většinou není finální výsledek, finálním výsledkem je většinou rozdělení na několik shluků. K tomu nám poslouží možnost Uložit klasifikaci na záložce Detaily. Objeví se nám nový graf s posuvnou linií, která určuje místo dělení (shluky, které byly spojeny před touto čarou, budou patřit do jednoho shluku). Naše dělení rozdělilo soubor na 6 shluků. Vidíme, že Albánie a Finsko jsou samostatně, v klastru číslo 3 jsou Jugoslávie, Rumunsko a Bulharsko, u této skupiny vidíme oproti A to je v zásadě vše. Státy jsme rozdělili do skupin a stačilo opravdu jen několik málo kliknutí myší. Navíc rozdělené skupiny, zdá se, dávají smysl. Podívejme se ještě na ikonový graf všech proměnných s kategorickým odlišením skupin v rámečcích. Použili jsme ikonový graf typu Hvězdy s označením ikon na základě výsledků shlukování (obrázek vlevo). Ikonové grafy jsou vhodné pro zobrazení vícerozměrných dat (viz článek o Chernoffových tvářích), z grafu je vidět, že Albánie má naprosto rozdílné chování než ostatní státy, proto je také identifikována jako samostatný shluk. Podobně Finsko je zvláštní ve směru mléka, atd.

Poznámka: My jsme spojovali shluky na základě jednoduchého spojování. Pokud není nějaký konkrétní důvod, proč použít právě tuto metodu, tak se doporučuje zkusit vytvořit shluky podle více metod. Pokud se struktura shluků pro různé metody opakuje, pak shlukování zachytilo strukturu dat správně. Pro kontrolu síly (kvality) shlukování se tedy doporučuje vyzkoušení více typů shlukování. V tomto příkladu další zkoušení necháme již na Vás, podle návodu výše by to pro Vás neměl být žádný problém. Závěr Ukázali jsme si, jak provést základní výpočet, co znamenají nastavení metody hierarchického shlukování v softwaru, jak číst výsledky, sepsali jsme Vám několik rad. Nicméně je potřeba upozornit, že toto je pouze úvodní článek, který Vás měl zasvětit to této tématiky a který obsahuje pouze základní teorii k tomuto tématu. Doufáme, že článek ve Vás probudil chuť shlukovou analýzu využívat. Pokud byste se chtěli dozvědět více, můžete například navštívit náš kurz Vícerozměrných statistických metod.