APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII



Podobné dokumenty
Vícerozměrné statistické metody

Cvičná bakalářská zkouška, 1. varianta

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Klasifikace obchodních partnerů s využitím metod shlukové analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Shluková analýza dat a stanovení počtu shluků

Státnice odborné č. 20

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

Fakulta chemicko technologická Katedra analytické chemie

Mnohorozměrná statistická data

Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1

Vícerozměrné statistické metody

Úvodem Dříve les než stromy 3 Operace s maticemi

Statistika pro geografy

Algoritmy pro shlukování prostorových dat

NADSTAVBOVÝ MODUL MOHSA V1

Univerzita Pardubice 8. licenční studium chemometrie

Mnohorozměrná statistická data

AVDAT Mnohorozměrné metody metody redukce dimenze

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

Miroslav Čepek

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

VĚKOVÁ STRUKTURA OBYVATEL JIHOMORAVSKÉHO KRAJE A JEJÍ ZMĚNY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY


Průzkumová analýza dat

Renáta Bednárová STATISTIKA PRO EKONOMY

Modifikace algoritmu FEKM

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností

Regresní analýza 1. Regresní analýza

Pojem a úkoly statistiky

Normální (Gaussovo) rozdělení

Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic

Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků:

Vícerozměrné statistické metody

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

LDF MENDELU. Simona Fišnarová (MENDELU) Základy lineárního programování VMAT, IMT 1 / 25

Testování hypotéz o parametrech regresního modelu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Metody analýzy dat I. Míry a metriky - pokračování

Testování hypotéz o parametrech regresního modelu

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Využití shlukové analýzy při vytváření typologie studentů

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB

Diskrétní náhodná veličina

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

6. Lineární regresní modely

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Charakteristika datového souboru

Návrh postupu pro stanovení četnosti překročení 24hodinového imisního limitu pro suspendované částice PM 10

VÝSLEDKY MĚŘENÍ ZNEČIŠTĚNÍ OVZDUŠÍ

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík

vzorek vzorek

Soustavy lineárních rovnic

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Statistická analýza jednorozměrných dat

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

Navrhování experimentů a jejich analýza. Eva Jarošová

Algoritmizace prostorových úloh

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Hydrologie (cvičení z hydrometrie)

Semestrální práce. 3.1 Matematické principy analýzy vícerozměrných dat

Generální rozptylová studie Jihomoravského Kraje. Rozptylová studie pro posouzení stávajícího imisního zatížení na území Jihomoravského kraje

7. přednáška Systémová analýza a modelování. Přiřazovací problém

MOŽNOSTI VYUŽITÍ SHLUKOVÉ ANALÝZY V Q-METODOLOGII

Index kvality ovzduší - IKO

Shluková analýza příklad

Vícerozměrná rozdělení

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

Normální (Gaussovo) rozdělení

KGG/STG Statistika pro geografy

Regresní a korelační analýza

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka

Rozdělování dat do trénovacích a testovacích množin

STATISTICKÉ ODHADY Odhady populačních charakteristik

CZ.1.07/1.2.08/ Vyhledávání talentů pro konkurenceschopnost a práce s nimi. Závislost úspěšnosti v testu TP2 na známce z matematiky

Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného)

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Číselné charakteristiky a jejich výpočet

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

=10 =80 - =

ANALÝZA OBTÍŽNOSTI TESTU STUDIJNÍCH PŘEDPOKLADŮ NA EKONOMICKO SPRÁVNÍ A PRÁVNICKÉ FAKULTĚ MASARYKOVY UNIVERZITY V ROCE 2004.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Transkript:

ROBUST 2, 2 28 c JČMF 2 APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII MARIE BUDÍKOVÁ Abstrakt. In this paper, the basic principles of hierarchical cluster analysis are described.an example of calculation and application of cluster analysis is presented.this example illustrates how the different regions in Brno can by classified by means of annual concentrations of SO 2. Rezme: ta pabota pokazyvaet glavnye principy ierarhiqesko$i gruppirovki obektob. Pokazan odin primer to$i gruppirovki. Stancii v gorode Brno vvodts v gruppy na osnovanii koncentraci$i SO 2.. Vymezení problému Na katedře geografie Přírodovědecké fakulty Masarykovy univerzity v Brně byly v rámci bakalářské práce [5] shromážděny údaje o průměrných měsíčních hodnotách oxidu siřičitého v období 984-998 na deseti monitorovacích stanicích na území města Brna. Jednalo se o stanice umístěné v lokalitách Dobrovského, Húskova, Krasová, Kroftova, Mendelova zemědělská a lesnická univerzita, Polní, Přízřenice, Skaunicové, Soběšice a Tuřany, ve zkratkách DOB, HUS, KRA, KRO, MZL, POL, PRI, SKA, SOB, TUR. Rozmístění stanic na území Brna znázorňuje obr. Obr. - Rozmístění monitorovacích stanic na území Brna 2 Mathematics Subject Classification. Primary 62H3; Secondary 62P2. Klíčová slova. Aglomerativní hierarchické shlukování, dendrogram, kofenetický koeficient korelace, fúzní koeficient. Příspěvek vznikl s podporou výzkumného záměru MŠMT MSM 43.

22 Marie Budíková Tyto údaje by měly - mimo jiné - posloužit k řešení problému optimalizace sítě monitorovacích stanic. Cílem tedy bylo najít stanice, které mají podobné rysy chování. K dosažení tohoto cíle byly použity postupy shlukové analýzy. Výpočty byly provedeny pomocí systému SPSS 8.. Uvedené stanice jsou obhospodařovány jednak brněnskou pobočkou Českého hydrometeorologického ústavu (to jsou stanice KRO, MZL, PRI, SOB, TUR) a jednak Městskou hygienickou stanicí (DOB, HUS, KRA, POL, SKA). Každá z těchto institucí však zjišťuje hodnoty SO 2 jinou metodou - ČHMÚ gravimetrickou a MHS aspiračně kolorimetrickou. Teprve od r. 993 jsou výsledky kolorimetrické metody přepočítávány tak, aby odpovídaly výsledkům metody gravimetrické. Do našeho zpracování tedy byly zahrnuty údaje až od r. 993. Zabývali jsme se průměrnými ročními koncentracemi SO 2. Podle zákona o ochraně ovzduší před znečišťujícími látkami činí nejvyšší přípustná průměrná roční koncentrace SO 2 6 µg/m 3. 2. Popis a úprava dat Tabulka obsahuje hodnoty průměrných ročních koncentrací SO 2 v µg/m 3 vletech 993-998 na sledovaných deseti stanicích. Rok pozorování Stanice 993 994 995 996 997 998 DOB 6.828 5.22 5.37.568 4.4 3.97 HUS 9.24 9.28.259.442 7.35 3.857 KRA 7.25 5.535 5.97 3.74 8.65 4.85 KRO 24.39 9.8 2.237 8.89 5.6 9.762 MZL 23.79 6.222 3.353 2.363 5.32 7.925 POL 25.5 4.568.723 5.76.68 4.96 PRI 5.874 5.25 3.24 9.435 6.943 8.8 SKA 4.297 9.49 7.29 4.434.96 8.63 SOB 9.728 3.772 2.943 2.948 7.564.39 TUR 22.524 6.78 9.52 24.44 8.377.24 Tabulka - Průměrné roční koncentrace SO 2 Prvním krokem při zpracování naměřených koncentrací bylo provedení průzkumové analýzy dat pomocí krabicových diagramů. r98 r97 Jednotlive roky r96 r95 r94 r93 5 5 2 25 Hodnoty rocnich koncentraci oxidu siry Obr. 2 - Krabicové diagramy ročních koncentrací oxidu siřičitého

Aplikace shlukové analýzy v ekologii 23 Z obr. 2 je zřejmé, že údaje v jednotlivých letech vykazují dosti rozdílnou variabilitu, největší v r. 993, nejmenší v r. 998. Přistoupili jsme tedy ke standardizaci a nadále pracovali se standardizovanými hodnotami. 3. Metoda hlavních komponent Při grafickém znázornění vícerozměrných dat se velmi často používá metoda hlavních komponent, která informace obsažené v datech dokáže vyjádřit několika málo novými proměnnými, které jsou získány jako lineární kombinace původních proměnných. Nazývají se hlavní komponenty. Z Paretova diagramu hlavních komponent sestrojeného pro naše data vyplývá, že první hlavní komponenta vyčerpává asi 83 % variability obsažené v datech, druhá asi8%atřetípouhých5%. 9 8 Procenta vysvetlene variability 7 6 5 4 3 2 2 3 Hlavni komponenty Obr. 3 - Paretův diagramhlavních komponent Rozmístění stanic na ploše prvních dvou hlavních komponent je znázorněno na obr. č. 4..5 KRA SKA KRO SOB 2. hlavni komponenta.5 DOB HUS PRI MZL TUR POL.5 4 3 2 2 3 4. hlavni komponenta Obr. 4 - Poloha stanic v novémsouřadnémsystému Z obr. 4 bychommohli usoudit, že stanice DOB, KRA, HUS, SKA tvoří jeden shluk, stanice KRO, SOB, PRI, TUR, MZL druhý shluk a stanice POL se chová poněkud atypicky.

24 Marie Budíková 4. Shluková analýza 4.. Cíl shlukové analýzy. Cílemshlukové analýzy je roztřídění n objektů, z nichž každý je popsán p-rozměrnýmvektorempozorování, do několika pokud možno homogenních shluků. Přesný počet shluků většinou není předem znám. Požadujeme, aby objekty uvnitř jednotlivých shluků si byly podobné co nejvíce, zatímco objekty z různých shluků si mají být podobné co nejméně. 4.2. Podobnost objektů. Podobnost či rozdílnost objektů posuzujeme pomocí různých měr. Pro proměnné intervalového či poměrového typu se nejčastěji používá euklidovská vzdálenost. Vzdálenosti vypočtené pro všechny dvojice objektů se uspořádají do matice vzdáleností. Je zřejmé, že je to čtvercová symetrická matice, která má na hlavní diagonále nuly. 4.3. Hierarchické shlukování. Při aplikacích shlukové analýzy se velmi často používá aglomerativní hierarchická procedura. Její princip spočívá (viz [4]) v postupném slučování objektů, a to nejprve nejbližších a v dalších krocích pak stále vzdálenějších. Algoritmus:. krok: Každý objekt považujeme za samostatný shluk. 2. krok: Najdeme dva shluky, jejichž vzdálenost je minimální. 3. krok: Tyto dva shluky spojíme v nový, větší shluk a přepočítáme matici vzdáleností. Její řád se sníží o. Vrátíme se na 2. krok. Funkce algoritmu končí, až jsou všechny objekty spojeny do jediného shluku. Vzdálenost mezi shluky se počítá různými způsoby. V našem případě jsme použili tři metody, a to metodu nejbližšího souseda, nejvzdálenějšího souseda a metodu průměrné vazby. Popis metod: Metoda nejbližšího souseda: Vzdálenost mezi dvěma shluky je minimem ze všech vzdáleností mezi jejich objekty. Metoda nejvzdálenějšího souseda: Vzdálenost mezi dvěma shluky je maximem ze všech vzdáleností mezi jejich objekty. Metoda průměrné vazby: Vzdálenost mezi dvěma shluky je průměrem ze všech vzdáleností mezi jejich objekty. Výsledky aglomerativní hierarchické procedury se zpravidla znázorňují pomocí dendrogramu, což je posloupnost dvojic {(ν,s () ),...,(ν n,s (n) )}, kde{ν i } je neklesající posloupnost úrovní spojování shluků a {S (i) } je roztřídění objektů odpovídající úrovni ν i. Na obr. 5 jsou zachyceny výsledky uvedených tří shlukovacích procedur.

Aplikace shlukové analýzy v ekologii 25 Obr. 5 - Dendrogramy pro metodu nejbližšího souseda, nejvzdálenějšího souseda a metodu průměrné vazby 4.4. Kofenetický koeficient korelace. Jak je vidět na obr. 5, mohou různé shlukovací procedury poskytovat různé výsledky. K posouzení shody mezi maticí vzdáleností objektů a dendrogramem lze použít např. kofenetický koeficient korelace (viz [3]). Je to koeficient korelace mezi n(n )/2 prvky umístěnými nad (nebo pod) hlavní diagonálou matice vzdáleností a odpovídajícími prvky kofenetické matice. Přitom(i, j)-tý prvek této matice je definován jako ta vzdálenost i-tého a j-tého objektu, při níž jsou tyto objekty poprvé spojeny do jednoho shluku. Z uvažovaných shlukovacích metod pak vybereme tu, která poskytuje nejvyšší kofenetický koeficient korelace. Hodnoty kofenetických koeficientů: metoda nejbližšího souseda:,737 metoda nejvzdálenějšího souseda:,75 metoda průměrné vazby:,783. Nejvyšší kofenetický koeficient korelace byl dosažen pro metodu průměrné vazby. Budeme ji tedy nadále používat.

26 Marie Budíková 4.5. Stanovení optimálního počtu shluků. Pro řešení tohoto problému byla vypracována celá řada postupů - od heuristických až po formální testy (viz [2]). Z heuristických metod zde uvedeme graf závislosti hodnot fúzních koeficientů na počtu shluků (viz []). Jedná se o analogii tzv. scree testu známého z faktorové analýzy. Fúznímkoeficientempro k shluků rozumíme průměr maximálních vzdáleností uvnitř těchto k shluků. Pokud se v grafu závislosti hodnot fúzních koeficientů na počtu shluků objeví určité zploštění, svědčí to o tom, že zmenšení počtu shluků již není vhodné. 4.5 4 3.5 3 2.5 2.5.5 2 3 4 5 6 7 8 9 Obr. 6 - Průběh závislosti hodnot fúzních koeficientů na počtu shluků Z obr. 6 vyplývá, že bude vhodné rozdělit stanice do dvou shluků. Při pohledu na dendrogram pro metodu průměrné vazby zjistíme, že stanice DOB, KRA, HUS a SKA tvoří jeden shluk, zbylých šest stanic druhý shluk. Přitomstanice POL, která se na ploše prvních dvou hlavních komponent poněkud vyčleňovala, se ke 2. shluku skutečně připojí nejpozději. 4.6. Metoda k-průměrů. Chceme-li porovnat výsledek dané hierarchické shlukovací metody s jiným postupem, můžeme tak učinit např. pomocí metody k-průměrů, což je nehierarchická shlukovací metoda vycházející z následujícího algoritmu popsaného např. v [4]: Algoritmus:. krok: Stanovíme počáteční rozklad množiny n objektů do k shluků. Rozklad zpravidla volíme náhodně. 2. krok: Určíme výběrové centroidy v aktuálních shlucích. (Výběrovým centroidem shluku rozumíme hypotetický objekt, jehož vektor pozorování je roven vektoru výběrových průměrů počítaných pro všechny objekty patřící do tohoto shluku.) 3. krok: Pro všechny objekty spočteme jejich vzdálenosti od všech výběrových centroidů. Objekt zařadíme do toho shluku, k jehož výběrovému centroidu má nejblíže. Pokud nedošlo v tomto kroku k žádnému přesunu, považujeme aktuální shluky za definitivní, jinak se vracíme ke 2. kroku. V našempřípadě pro k=2 dospěla metoda k-průměrů po dvou iteracích k témuž výsledku jako metoda průměrné vazby.. shluk: DOB, KRA, HUS, SKA. 2. shluk: MZL, PRI, SOB, KRO, TUR, POL. Tento rozklad vyčerpává 67 % variability obsažené v datech.

Aplikace shlukové analýzy v ekologii 27 5. Charakteristiky nalezených shluků První shluk je tvořen stanicemi, které se vyznačují poměrně nízkými průměrnými ročními koncentracemi oxidu siřičitého (od 6 µg/m 3 po µg/m 3 ) i malými směrodatnými odchylkami (od 2,5 µg/m 3 po 3,5 µg/m 3 ). S výjimkou stanice KRA jsou umístěny v centrální části města. Druhý shluk obsahuje stanice s vysokými koncentracemi oxidu siřičitého (od 3 µg/m 3 po 9 µg/m 3 ) i poměrně velkými směrodatnými odchylkami (od 3,8 µg/m 3 po 6,8 µg/m 3 ). Tři z nich se nacházejí v okrajových částech Brna (PRI, SOB, TUR), další tři jsou v centru (MZL, KRO, POL). 2 8 6 4 2 8 6 4 2 DOB HUS KRA KRO MZL POL PRI SKA SOB TUR Obr. 7 - Průměry průměrných ročních koncentrací SO 2 pro. a 2. shluk. (Černě -. shluk, bíle - 2. shluk) 7 6 5 4 3 2 DOB HUS KRA KRO MZL POL PRI SKA SOB TUR Obr. 8 - Směrodatné odchylky průměrů průměrných ročních koncentrací SO 2 pro. a 2. shluk. (Černě -. shluk, bíle - 2. shluk) Výsledek shlukovací procedury, k němuž jsme dospěli, se může jevit poněkud paradoxní. Proč tři stanice (DOB, HUS, SKA) umístěné v centru města vykazují nízké koncentrace SO 2, zatímco jiné tři stanice (MZL, KRO, POL), které se nacházejí rovněž v centru, mají vysoké koncentrace SO 2? Vysvětlení není jednoznačné. Jak bylo uvedeno v části Vymezení problému, zkoumané stanice měří koncentrace SO 2 dvěma různými metodami. Přepočet výsledků kolorimetrické metody je do jisté míry subjektivní záležitostí a velmi závisí na zkušenostech laboranta. Na stanicích DOB, HUS, KRA, POL a SKA se používá kolorimetrická metoda, na ostatních gravimetrická.

28 Marie Budíková Vysvětlení může rovněž spočívat v objektivních podmínkách, v nichž se dané stanice nacházejí - např. umístění v krajině, sklon k tvorbě inverzních situací, převládající směr větru apod. Literatura [] M.S.Aldenderfer, R.K.Blashfield: Cluster Analysis.Sage Publications, Inc.London 989. [2] B.S.Everitt: Cluster Analysis.Edward Arnold, London 998. [3] J.C.Davis: Statistics and Data Analysis in Geology.John Wiley & Sons, Inc., 973. [4] P.Hebák, J.Hustopecký: Vícerozměrné statistické metody s aplikacemi.sntl/alfa, Praha 987. [5] J.Macek: Analýza znečištění ovzduší oxidem siřičitým a polétavým prachem ve městě Brně. Katedra geografie PřF MU Brno 998. MU PřF, KAM, Janáčkovo 2a, 662 95 Brno E-mail: budikova@math.muni.cz