STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

Podobné dokumenty
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Shluková analýza dat a stanovení počtu shluků

Vícerozměrné statistické metody

Algoritmy pro shlukování prostorových dat

Státnice odborné č. 20

Klasifikace obchodních partnerů s využitím metod shlukové analýzy

Miroslav Čepek

Metody analýzy dat I. Míry a metriky - pokračování

Uni- and multi-dimensional parametric tests for comparison of sample results

Ing. Michael Rost, Ph.D.

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

NADSTAVBOVÝ MODUL MOHSA V1

ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

Cvičná bakalářská zkouška, 1. varianta

1 Determinanty a inverzní matice

APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

Vícerozměrné statistické metody

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

Karta předmětu prezenční studium

Multivariátní porovnání dat - klastrová (shluková) analýza

ZNALOSTI A DOVEDNOSTI ČESKÝCH ŽEN V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

Univerzita Pardubice 8. licenční studium chemometrie

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka

VYHODNOCENÍ UDRŽITELNÉHO ROZVOJE V ÚZEMNÍM PLÁNOVÁNÍ EVALUATION OF SUSTAINABLE DEVELOPEMENT IN LANDSCAPE PLANNING

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Fakulta chemicko technologická Katedra analytické chemie

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

VOLBA SAMOSTATNÉHO CENTRÁLNÍHO ÚTVARU LOGISTIKY VE VÝROBNÍM PODNIKU

KULOVÝ STEREOTEPLOMĚR NOVÝ přístroj pro měření a hodnocení NEROVNOMĚRNÉ TEPELNÉ ZÁTĚŽE

PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

SHLUKOVACÍ METODY V DATA MININGU

Vybrané mzdové charakteristiky v krajích ČR členěné podle věku a pohlaví v roce 2008

12. cvičení z PST. 20. prosince 2017

Shluková analýza. shlukovací metodě

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

2D A 3D SNÍMACÍ SYSTÉMY PRŮMĚRU A DÉLKY KULATINY ROZDÍLY VE VLASTNOSTECH A VÝSLEDCÍCH MĚŘENÍ

Neparametrické metody

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

CZ.1.07/1.2.08/ Vyhledávání talentů pro konkurenceschopnost a práce s nimi. Závislost úspěšnosti v testu TP2 na známce z matematiky

Normální (Gaussovo) rozdělení

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Jednofaktorová analýza rozptylu

KLASIFIKACE OBCHODNÍCH PARTNERŮ S VYUŽITÍM MATEMATICKÝCH METOD

Metody analýzy dat II

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Regresní a korelační analýza

APROXIMACE KŘIVEK V MATLABU NEWTONŮV INTERPOLAČNÍ POLYNOM CURVE FITTING IN MATLAB NEWTON INTERPOLATION POLYNOMIAL

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Základy popisné statistiky

HEURISTICKÉ ALGORITMY PRO ŘEŠENÍ ÚLOH OBCHODNÍHO CESTUJÍCÍHO

AVDAT Mnohorozměrné metody, metody klasifikace

Porovnání předpovídané zátěže se zátěží skutečnou (podle modelu III-C BMP ČHMÚ) Martin Novák 1,2

Regresní a korelační analýza

Klasifikace a rozpoznávání

Shluková analýza příklad

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

Shluková analýza. 1 Úvod Formulace úlohy Typy metod shlukové analýzy... 2

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

VYUŽITÍ VÍCEROZMĚRNÝCH STATISTICKÝCH METOD PŘI HODNOCENÍ KRAJŮ USING OF MULTIVARIATE STATISTICAL METHODS FOR REGIONAL EVALUATION.

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1

ŽÁCI GYMNÁZIA A MÍRA JEJICH ZÁVISLOSTI NA POČÍTAČOVÝCH HRÁCH

KGG/STG Statistika pro geografy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Úvodem Dříve les než stromy 3 Operace s maticemi

VYUŽITÍ PROGRAMU DATA MINING V ANALÝZE NÁKUPNÍHO CHOVÁNÍ

POČÍTAČOVÁ SIMULACE JAKO NÁSTROJ OPTIMALIZACE SVAŘOVACÍ LINKY

Aplikovaná numerická matematika

Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic

Arnoldiho a Lanczosova metoda

Kontingenční tabulky, korelační koeficienty

Hledání optimální cesty v dopravní síti

Testování statistických hypotéz

Nehierarchické shlukování

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

MATEMATICKÁ STATISTIKA - XP01MST

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Ivana Kozlová. Modely analýzy obalu dat

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Operační výzkum. Vícekriteriální hodnocení variant. Grafická metoda. Metoda váženého součtu.

Vícerozměrné statistické metody

Jana Vránová, 3. lékařská fakulta UK

Detekce kartografického zobrazení z množiny

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Neparametrické testy

Transkript:

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION Anna Čermáková Michael Rost Abstrakt Cílem příspěvku bylo ukázat jaké možnosti skýtá využití kofenetického koeficientu korelace při testování shody dat a shlukovacím procesem. Při výpočtech byla použita aglomerativní shlukovací metoda dvě metriky (Euklidovská a Manhattan) a šest shlukovacích algoritmů. Statistické metody byly použity pro analýzu segmentu dat z marketingového výzkumu. Ukázalo se že ač metoda nejvzdálenějšího souseda při Euklidovské metrice vykazuje nejvyšší shodu CRCC=0.720 je i takto vysoká shoda neprůkazná. S tímto závěrem koresponduje i výsledek hledání optimálního počtu shluků dle Mojena (1977) který signalizuje jediný možný shluk. Abstract The aim of this contribution is to show what possibility are hidden in utilization of the cophenetic coefficient of correlation during the test of the consistency of the data with clustering algorithm. During the computation we used hierarchical agglomerative clustering method with six agglomerative rules and two metrics (Euclidean and Manhattan city block). This statistical method was used for the analysis of data from marketing survey. It was shown that although the complete linkage method based on Euclidean metric prove the best consistency the CRCC =0720 this consistency is not significant. With this conclusion correspond the result from searching for optimal number of clusters proposed by Mojena (1977). This rules show only one possible cluster. Klíčová slova: Shluková analýza kofenetický koeficient korelace optimální počet shluků Key words: Cluster analysis; cophenetic coefficient of correlation; optimal number of clusters Úvod Shluková analýza je zpravidla prováděna na množině objektů které jsou popsány vektory hodnot statistických znaků. Prostřednictvím této techniky se snažíme zjistit zda množinu objektů lze rozložit na disjunktní podmnožiny vnitřně homogenní avšak navzájem heterogenní. Kvalitní rozklad objektů - např. zákazníků - může napomoci marketingovým manažérům při tvorbě lepších marketingových rozhodnutí a tím vytvoření lepší pozice firmy v konkurenčním prostředí. Metody a materiál Jednou z nejčastěji používaných technik shlukové analýzy je aglomerativní hierarchické shlukování. Spočívá v tom že každý objekt nejprve považujeme za samostatný shluk a poté

objekty či shluky postupně spojujeme na základě propočítané vzdálenosti mezi nimi. Ve finálním stupni shlukování pak všechny objekty tvoří jeden shluk. Shlukujeme vždy ty objekty které mají v matici vzdáleností nejmenší vzdálenost. Při shlukové analýze musíme řešit tři základní problémy: 1) jakou použít metriku 2) jak spočítat podobnost nově vzniklého shluku s ostatními objekty či shluky 3) jaký je ideální počet shluků. Zabývejme se blíže druhým problémem. Symbolem D označme trojúhelníkovou matici vzdáleností. Maticí vzdáleností rozumíme a) buď matici vzdáleností mezi objekty - její prvky spočítáme např. prostřednictvím Euklidovské metriky nebo Manhattan metriky p 2 X ( ) i X = j ik jk k = 1 d x x p d = x x Xi X j ik jk k = 1 b) nebo matici vzdáleností mezi shluky. V procesu shlukování se vždy do shluku t spojují nejpodobnější shluky (označme je q p) tj. shluky s nejmenší vzdáleností. Spojením shluků vzniká nová situace. Počet shluků se sníží vzdálenost mezi nimi se musí přepočítat a opět se musí hledat nejvhodnější shluky ke spojení. Označme: d - vzdálenost mezi shluky i a j (shlukem může být i objekt) ij ni - počet objektů v i-tém shluku. Existuje řada algoritmů pro přepočet prvků nové matice D. Mezi nejznámější patří: a) metoda nejbližšího souseda kde dtr = min( dpr ; dqr ) b) metoda nejvzdálenějšího souseda kde dtr = max( dpr ; dqr ) c) metoda průměrné vazby kde np dp r + nq dq r dtr = np + nq d) centroidní metoda kde np nq np nq dtr = dpr + dqr d 2 pq np + nq np + nq ( np + nq) e) mediánová metoda kde dpr + dqr dpq dtr = 2 4 f) Wardova metoda kde ( nr + np) dr p + ( nr + nq) dr q nr dp q dtr = nt + nr Poznámka: v matici D jejíž prvky jsou na základě předchozí matice D přepočítávány je řádek a sloupec shluku q nově označen jako t a řádek i sloupec shluku p jsou vypuštěny. Vzhledem k počtu možných algoritmů (v kombinaci s různými metrikami) vzniká oprávněná otázka který z algoritmů vede ke shlukování jež nejlépe charakterizuje data.

Ačkoli vlastnosti některých shlukovacích algoritmů jsou známy (např. při shlukování prostřednictvím metody nejbližšího souseda se v jednom shluku mohou ocitnout i poměrně vzdálené objekty metoda nejvzdálenějšího souseda naopak vede k poměrně kompaktním shlukům apod.) je vhodné stupeň shody mezi vlastnostmi objektů a výsledným shlukovacím procesem vyjádřit exaktním ukazatelem. Tímto ukazatelem může být kofenetický koeficient korelace CPCC (Cophenetic Correlation Coefficient). Jedná se o koeficient korelace mezi prvky primární matice vzdáleností mezi objekty D a mezi prvky kofenetické matice C (Cophenetix matrix). Kofenetickou maticí rozumíme trojúhelníkovou matici jejíž prvky tvoří vzdálenosti mezi shlukovanými objekty v okamžiku kdy byly poprvé zařazeny do shluku. Hodnotu kofenetického koeficientu korelace spočítáme podle vztahu: CPCC cov dc = s s d c kde d jsou prvky primární matice D a c jsou prvky kofenetické matice C. Obecně platí že čím vyšší je kofenetický koeficient korelace tím nižší je ztráta informací vznikající v procesu slučování objektů do shluků. Rozdělení kofenetického koeficientu při testu hypotéz H : existuje pouze jeden shluk 0 H A : existuje systém (množina) kompaktních shluků studovali F. J. Rohlf a D. L. Fisher (1968). Ukázali že k zamítnutí H 0 je třeba vysoká hodnota CPCC CPCC 08. F. J. Rohlf ve své pozdější práci (1970) dokonce doporučuje hodnotu CPCC > 09. L. J. Hubert (1974) navrhl pro tento účel použít tzv. Goodman- Kruskalovu statistiku γ. V případě že existuje dobrá shoda mezi daty a shlukovacím procesem je třeba řešit problém uvedený pod bodem 3 tj.zabývat se určením "ideálního počtu shluků. Často lze z dendogramu intuitivně počet shluků odhadnout. Objektivnější postup navrhl R. Mojena (1977). Je založen na relativních velikostech různých shlukovacích úrovní. Označíme-li shlukovací úrovně α0 α1 K αn 1 α0 < α1 < K < αn 1 pak optimální shlukovací úrovní α j + 1 je první úroveň pro kterou je α j+ 1 > α + ks α α je průměr shlukovacích úrovní s α je jejich nevychýlená směrodatná odchylka a k je číslo z intervalu 275 350. Pokud takové α neexistuje soubor objektů tvoří jediný shluk. Problematice určování počtu shluků v hierarchickém shlukování se též věnoval G. W. Milligan (1985). Cílem příspěvku je ověřit jak lze kofenetický koeficient využít při výběru vhodného shlukovacího algoritmu a optimálního počtu shluků při zpracování dat marketingového výzkumu. Data vznikla při dotazníkovém šetření směrujícím k diagnostice nákupních zvyklostí českého zákazníka při nákupu potravin. Z rozsáhlého šetření byly vybrány pouze některé ukazatele které byly členěny do tříd - viz tab. 1.

Tab. 1: Popis objektu Třída Identifikace zákazníka Umístění prodejny Dostupnost prodejny Sortiment Personál Prodejní doba Doplňkové služby Ostatní Ukazatel Frekvence nákupu Pohlaví Věková kategorie Vzdělání Příjmová kategorie Blízkost bydliště Blízkost zaměstnání (sídla firmy) Blízkost zastávky MHD Vlastní parkoviště Výběr téhož výrobku od různých výrobců Kvalita z hlediska chuti vzhledu čerstvosti Prodej zákazníkem oblíbeného výrobku Ochota a příjemné vystupování Informovanost o novinkách v prodejně Bez polední přestávky Prodej sedm dní v týdnu Zákaznické karty Bezhotovostní platba Rychlost nákupu Byly analyzovány informace od 109 zákazníků a použity dvě metriky. Shlukování probíhalo podle šesti shlukovacích algoritmů. Metoda nejbližšího souseda vykazovala velmi nízké hodnoty CPCC není proto mezi výsledky uvedena. Výsledky Analýza dat vedla k následujícím výsledkům: 1. Wardova metoda Manhattan metrika Kofenetický korel. koeficient: 0.677 Kofenetický korel. koeficient: 0.709

2. Metoda nejvzdálenějšího souseda Manhattan metrika Kofenetický korel.koeficient: 0.665 Kofenetický korel.koeficient:0.720 3. Metoda průměrné vazby Manhattan metrika Kofenetický korel.koeficient: 0.714 Kofenetický korel.koeficient: 0.702

4. Mediánová metoda Manhattan metrika Kofenetický korel. koeficient: 0.612 Kofenetický korel. koeficient: 0.682 5. Centroidní metoda Manhattan metrika Kofenetický korel. koeficient: 0.668 Kofenetický korel. koeficient: 0.694 Nejvyšší hodnotu kofenetického koeficientu korelace vykazuje metoda nevzdálenějšího souseda (CPCC=0720). Vzhledem k tomu že ani takto vysoká hodnota nepřesahuje hodnotu 08 nelze segmentaci zákazníků odvozovat na základě příslušného dendogramu. Opticky je tento dendogram velmi ilustrativní a pokud bychom neznali hodnotu CPCC jistě bychom jej použili a snažili bychom se nalézt optimální počet shluků. Na základě dendogramu bychom mohli polemizovatzda jsou optimální dva tři či čtyři shluky. Použijeme-li opět statistické metody konkrétně metodu navrženou Mojenou získáme tyto výsledky: α 0 =0 α 1 =3..α 107 =17.378 α 108 =21.587 α =8.524 s α =3.5 α j+1 =8524+2.75.35=18.15

Optimální shlukovací úrovní je tedy α 108 =21.587 neboť to je první úroveň přesahující hodnotu 18.15.Dospěli jsme proto k závěru že zákazníci diagnostikovaní prostřednictvím 20- ti ukazateli tvoří jediný shluk. Výzkumník by si dospěje-li k takovému závěru měl mimo jiné položit otázku zda ukazatele byly vybrány správně. LITERATURA Hubert F. J.(1974): Approximate evaluation/techniques for the single-link and complete-link hierarchical clustering procedures. Journal of the American Statistical Association 69 pp. 698-704 Milligan G. W. - Cooper M. C.(1985): An examination of procedures for determining the number of clusters in a data set. Psychometrica 50 pp. 159-179 Mojena R. (1977): Hierarchical grouping methods and stopping rules an evaluation. Computer Journal 20 pp. 359-364 Rohlf F. J. (1970): Adaptive hierarchical clustering schemes. Systematic Zoology 19 pp. 58-82 Rohlf F. J. - Fisher D. L.(1968): Test for hierarchical structure in random data sets. Systematic Zoology 17 pp. 407-412 Adresa autorů Prof. RNDr. Anna Čermáková CSc. katedra aplikované matematiky a informatiky ZF JU České Budějovice Studentská 13 370 05 e-meil: annacer@zf.jcu.cz ing. Michael Rost katedra aplikované matematiky a informatiky ZF JU České Budějovice Studentská 13 370 05 e-meil: rost@zf.jcu.cz