MĚŘENÍ PODOBNOSTI OBJEKTŮ A SHLUKŮ PŘI SHLUKOVÉ ANALÝZE S KVALITATIVNÍMI PROMĚNNÝMI A PROMĚNNÝMI RŮZNÝCH TYPŮ

Podobné dokumenty
Určení geometrických a fyzikálních parametrů čočky

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

2. Sestrojte graf závislosti prodloužení pružiny na působící síle y = i(f )

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Shluková analýza dat a stanovení počtu shluků

Mnohorozměrná statistická data

ROBUSTNÍ ŘÍZENÍ DVOUROZMĚROVÉ SOUSTAVY ROBUST CONTROL OF TWO INPUTS -TWO OUTPUTS SYSTEM

Popisná statistika kvantitativní veličiny

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Statistika pro geografy

NCCI: Zjednodušené přístupy ke stanovení ekvivalentních vodorovných sil pro globální analýzu vyztužených a nevyztužených rámů

Testování hypotéz o parametrech regresního modelu

Tomáš Karel LS 2012/2013

Vliv marketingového dotazování na identifikaci tržních segmentů

Charakteristika datového souboru

Mnohorozměrná statistická data

Číselné charakteristiky

Číselné charakteristiky a jejich výpočet

Testování hypotéz o parametrech regresního modelu

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

byly přejaty do soustavy českých technických

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Popisná statistika. Statistika pro sociology

Kapitola 9. Numerické derivování

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Finanční management. Nejefektivnější portfolio (leží na hranici) dle Markowitze: Přímka kapitálového trhu

Renáta Bednárová STATISTIKA PRO EKONOMY

, Brno Hanuš Vavrčík Základy statistiky ve vědě

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Pravděpodobnost a statistika

Pokud není uvedeno jinak, uvedený materiál je z vlastních zdrojů autora

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Požadavky na konkrétní dovednosti a znalosti z jednotlivých tematických celků

Zápočtová práce STATISTIKA I

6 Součinitel konstrukce c s c d

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

MATEMATIKA Maturitní témata společná část MZ základní úroveň (vychází z Katalogu požadavků MŠMT)

Praktikum 1. Oddělení fyzikálních praktik při Kabinetu výuky obecné fyziky MFF UK. Úloha č...xvi... Název: Studium Brownova pohybu

Popis fyzikálního chování látek

3. VÝVRTY: ODBĚR, POPIS A ZKOUŠENÍ V TLAKU

Regresní a korelační analýza

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

3. PEVNOST V TLAKU BETONU NA VÝVRTECH

1 Poznámka k termodynamice: Jednoatomový či dvouatomový plyn?

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

STATISTICKÉ CHARAKTERISTIKY

Aplikovaná statistika v R

Základní statistické charakteristiky

ČSN EN (Eurokód 1): Zatížení konstrukcí Zatížení sněhem. Praha : ČNI, 2003.

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Systémy finančních toků a jejich využití v praxi

ANALÝZA VÍCEROZMĚRNÝCH DAT

Zobecněná analýza rozptylu, více faktorů a proměnných

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Hydrologie (cvičení z hydrometrie)

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Statistická analýza jednorozměrných dat

Vícerozměrné statistické metody

Určení Planckovy konstanty pomocí fotoelektrického jevu

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

PRAVIDLA PROVOZOVÁNÍ LOKÁLNÍ DISTIBUČNÍ SOUSTAVY

FAKULTA STAVEBNÍ VUT V BRNĚ PŘIJÍMACÍ ŘÍZENÍ DO MNSP STAVEBNÍ INŽENÝRSTVÍ PRO AKADEMICKÝ ROK OBOR: GEODÉZIE A KARTOGRAFIE TEST.

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

INDUKTIVNÍ STATISTIKA

Prognóza poruchovosti vodovodních řadů pomocí aplikace Poissonova rozdělení náhodné veličiny

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Regresní analýza 1. Regresní analýza

Informační technologie a statistika 1

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

7. Rozdělení pravděpodobnosti ve statistice

Náklady výroby elektrické energie

Diskrétní náhodná veličina

UKAZATELÉ VARIABILITY

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Pravděpodobnost a aplikovaná statistika

Cvičná bakalářská zkouška, 1. varianta

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

Metodologie pro Informační studia a knihovnictví 2

Testování hypotéz a měření asociace mezi proměnnými

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA. VZOR PŘIJÍMACÍ ZKOUŠKY DO NAVAZUJÍCÍHO STUDIA Obor: Manažerská informatika

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Kubický spline. Obrázek 1 Proložení dat nezávislými kubickými polynomy bez požadavku spojitosti. T h T 2

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR

6. Lineární regresní modely

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

ANALÝZA A KLASIFIKACE DAT

Transkript:

MĚŘENÍ PODOBNOSTI OBJEKTŮ A SLUKŮ PŘI SLUKOVÉ ANALÝZE S KVALITATIVNÍMI PROMĚNNÝMI A PROMĚNNÝMI RŮZNÝC TYPŮ Toáš Löster Abstrakt Sluková analýza je vícerozěrná statistická etoda, jejíž cíle je vytvářet nožiny objektů, tzv. sluky, v ráci kterýc by si objekty (vícerozěrná pozorování carakterizovaná řadou vlastností) ěly být co nejvíce podobné z lediska vnitroslukové struktury a co nejéně podobné z lediska ezislukové struktury. Slukovat lze také proěnné, případně kategorie noinálníc proěnnýc, případně objekty i proěnné současně. Sluková analýza je využívána v řadě vědníc oborů, j. v deografii. Klíčovou úlou ve slukové analýze zaujíá stanovení podobnosti objektů, přičež je potřeba rozlišit, jakýi typy proěnnýc jsou vlastnosti jednotlivýc objektů carakterizovány. Moou to být proěnné kvantitativní, kvalitativní (noinální nebo ordinální), nebo proěnné různýc typů (kobinace kvantitativníc a kvalitativníc proěnnýc). Cíle tooto příspěvku je popsat ožnosti ěření podobnosti objektů a sluků v případě, jsou-li objekty carakterizovány proěnnýi různýc typů. Klíčová slova: Sluková analýza, podobnost objektů, podobnost sluků JEL Code: C3, C38, C40 Úvod Klíčovou úlou ve slukové analýze zaujíá stanovení podobnosti objektů a sluků, přičež je potřeba rozlišit, jakýi typy proěnnýc jsou vlastnosti jednotlivýc objektů carakterizovány. Moou to být proěnné kvantitativní, kvalitativní (noinální nebo ordinální), nebo proěnné různýc typů. Zvláštní případe jsou dicotoické proěnné, které nabývají pouze dvou odnot. Obvykle jsou to odnoty 0 a a proěnné se označují jako binární. V případě, že jsou objekty carakterizovány pouze kvantitativníi proěnnýi, v současné literatuře existuje noo koeficientů, které vycází předevší z ěr vzdáleností, viz např. []. Mezi tyto íry patří například Euklidovská či Manattanská vzdálenost.

Měření podobnosti objektů V případě, že jsou objekty carakterizovány poocí proěnnýc různýc typů, pak je při ěření podobnosti dvou objektů využíván Gowerův koeficient podobnosti, viz [4], který je definován jako w A t = AGW =, () w t = kde w nabývá odnot 0 (jestliže odnota t-té proěnné u i-téo nebo j-téo objektu cybí nebo jsou obě tyto odnoty rovny nule a t-tá proěnná je binární), nebo (v ostatníc případec). Míra podobnosti A závisí na typu t-té proěnné. V případě, že t-tá proěnná je binární nebo noinální, pak A = pro x it = x jt, () A = 0 jinak. (3) V případě, že t-tá proěnná je kvantitativní pak xit x jt A = Rt, (4) kde R t je variační rozpětí t-té proěnné určené na základě celéo souboru. Dva objekty jsou si nejpodobnější v případě, že sluk z nic vytvořený vykazuje nejenší variabilitu. K ěření variability lze použít rozptyl v kobinaci s entropií. Variabilitu -téo sluku lze stanovit podle vzorce + st ) + t, (5) kde je počet kvantitativníc (spojitýc) proěnnýc, je počet noinálníc proěnnýc, s t je vyběrový rozptyl t-té proěnné a s t je výběrový rozptyl t-té proěnné v -té sluku, kde íra variability noinální proěnné pro t-tou proěnnou v -té sluku se určí jako t = K t u= n n tu n tu ln, (6) n

kde K t je počet kategorií t-té proěnné, je n tu je počet objektů u-té kategorie, t-té proěnné v -té sluku a n je počet objektů v -té sluku. Tento postup je využit ve dvoukrokové slukové analýze v systéu SPSS. Ta je navržena pro slukování velkéo počtu objektů a je založena na algoritu BIRC, v něž jsou objekty uspořádány do podsluků, které jsou carakterizovány poocí slukovacíc vlastností, viz [5]. V případě, že jsou objekty carakterizovány poocí kobinace kvantitativníc a noinálníc proěnnýc, je ožné navrnout íru variability s využití rozptylu a odnot Ginio koeficientu, tedy podle vzorce G + st ) + Gt. (7) Dále pro případ, kdy jsou objekty carakterizovány kvantitativníi a ordinálníi proěnnýi, je navíc ožné navrnout íru variability s využití rozptylu a koeficientu dorvar. Vypočítá se podle vzorce + st ) DK + DK. (8) Pokud by objekty byly carakterizovány pouze kvalitativníi proěnnýi, ze všec výše uvedenýc vzorců by byla vypuštěna ta část, která ěří variabilitu kvantitativníc proěnnýc, tj. výběrový rozptyl. Měření podobnosti sluků t Podobnost sluků se zjišťuje například u agloerativnío ierarcickéo slukování při postupné spojování nejpodobnějšíc sluků pro vytváření enšío počtu sluků. Mezi koeficienty, které vyjadřují vzájený vzta ezi objekty a sluky v případě, že jsou objekty carakterizované proěnnýi různýc typů, je ožné zařadit věroodnostní íru. Tato íra je využívána ve spojení s dvoukrokovou slukovou analýzou v systéu SPSS. Při ěření vzdálenosti D dvou sluků C a C, které jsou carakterizovány současně poocí kvantitativníc a noinálníc proěnnýc, se v toto případě využívá entropie v kobinaci s výběrový rozptyle a postupuje se tak, že se od odnoty variability sluku vznikléo

spojení dvou sluků tj. odečte součet odnot variabilit těcto dvou saostatnýc sluků, D ( C, C ) = ( + ). (9) VM V případě, že jsou objekty carakterizovány současně poocí kvantitativníc a noinálníc proěnnýc je ožné navrnout alternativu k postupu (9), tj. ěřit variabilitu poocí kobinace Ginio koeficientu a výběrovéo rozptylu, a tedy postupovat podle vztau D ( C, C ) = G ( G + G ). (0) VMG V případě, že jsou objekty carakterizovány současně poocí kvantitativníc a ordinálníc proěnnýc je ožné analogicky navrnout ěření variability poocí kobinace koeficientu dorvar a výběrovéo rozptylu, tj. postupovat podle vztau D ( C, C ) = DK ( DK + DK ). () VDK Závěr Při vyjadřování podobnosti objektů pro případ, že jsou objekty carakterizovány pouze kvantitativníi proěnnýi existuje v současné literatuře řada ěr. Pro případ, že jsou objekty carakterizovány víceodnotovýi kvalitativníi proěnnýi, existují k ěření podobnosti pouze oezené ožnosti. Vycází se z yšlenky, že dva objekty jsou si nejpodobnější, pokud sluk z nic vytvořený á nejenší variabilitu. K jejíu ěření se v praxi využívá entropie. Nově navržený způsobe je ěřit variabilitu poocí Ginio koeficientu (v případě noinálníc proěnnýc) či poocí koeficientu dorvar, založenéo na kuulativníc relativníc četnostec (v případě ordinálníc proěnnýc). I v případě, že jsou objekty carakterizovány proěnnýi různýc typů, se vycází z yšlenky, že dva objekty jsou si nejpodobnější, pokud sluk z nic vytvořený á nejenší variabilitu. K ěření variability se v praxi používá výběrový rozptyl v kobinaci s entropií. Nový návre je použít pro ěření variability rozptyl v kobinaci s odnotou Ginio koeficientu či odnotou koeficientu dorvar. Při vyjadřování podobnosti sluků obsaující objekty, které jsou carakterizované kvalitativníi proěnnýi, se postupuje tak, že se od odnoty variability sluku vznikléo spojení dvou sluků odečte součet odnot variabilit těcto dvou saostatnýc sluků. V praxi se k tou využívá entropie. Nový návre ěření variability sluků je použití také odnot Ginio koeficientu. Při vyjadřování podobnosti sluků obsaující objekty, které jsou

carakterizované proěnnýi různýc typů, se také postupuje tak, že se od odnoty variability sluku vznikléo spojení dvou sluků odečte součet odnot variabilit těcto dvou saostatnýc sluků. V praxi je variabilita sluků odnocena poocí ěr s využití výběrovéo rozptylu a entropie. Nový návre je použít pro ěření variability sluků také kobinaci výběrovéo rozptylu a Ginio koeficientu pro noinální porěnné. Při praktickýc úloác se na vybranýc souborec ukázalo, že použití Ginnio koeficientu při slukování je vodnější, než v praxi používaná entropie, viz [4]. Literatura [] GAN, G., MA C., WU J.: Data Clustering Teory, Algorits, and Applications, ASA, Piladelpia, 007. [] ALKIDI, M., BATISTAKIS, Y., VAZIRGIANNIS, M.: Clustering algorits and validity easures. SSDBM, Atens, 00. [3] ŘEÁK, J., ŘEÁKOVÁ, B.: Analýza kategorizovanýc dat v sociologii, Acadeia, Praa, 986. [4] ŘEZANKOVÁ,., ÚSEK, D., LÖSTER, R.: Clustering wit Mixed Type Variables and Deterination of Cluster Nubers, CNAM and INRIA, Paříž, 00, s. 55-53. [5] ŘEZANKOVÁ,., ÚSEK, D., SNÁŠEL, V.: Sluková analýza dat,. vydání, Professional Publising, Praa, 009. [6] ŘEZANKOVÁ,., ÚSEK, D.: Metods for te deterination of te nuber of clusters in statistical software packages, VŠE KSTP; VŠE KMIE, Praa, 008, s. -6. [7] ŘEZANKOVÁ,., LÖSTER, T., ÚSEK, D.: Evaluation of Categorical Data Clustering. Fribourg 6.0.0 8.0.0. In: Advances in Intelligent Web Mastering 3. Berlin : Springer Verlag, 0, s. 73 8. Kontakt Toáš Löster, Ing., P. D. Katedra statistiky a pravděpodobnosti Fakulta inforatiky a statistiky Vysoká škola ekonoická v Praze Ná. W. Curcilla 4, 30 67 Praa 3 Česká republika Tel.: +40 4095 484 E-ail: toas.loster@vse.cz