STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION
|
|
- Jaromír Tobiška
- před 8 lety
- Počet zobrazení:
Transkript
1 STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION Anna Čermáková Michael Rost Abstrakt Cílem příspěvku bylo ukázat jaké možnosti skýtá využití kofenetického koeficientu korelace při testování shody dat a shlukovacím procesem. Při výpočtech byla použita aglomerativní shlukovací metoda dvě metriky (Euklidovská a Manhattan) a šest shlukovacích algoritmů. Statistické metody byly použity pro analýzu segmentu dat z marketingového výzkumu. Ukázalo se že ač metoda nejvzdálenějšího souseda při Euklidovské metrice vykazuje nejvyšší shodu CRCC=0.720 je i takto vysoká shoda neprůkazná. S tímto závěrem koresponduje i výsledek hledání optimálního počtu shluků dle Mojena (1977) který signalizuje jediný možný shluk. Abstract The aim of this contribution is to show what possibility are hidden in utilization of the cophenetic coefficient of correlation during the test of the consistency of the data with clustering algorithm. During the computation we used hierarchical agglomerative clustering method with six agglomerative rules and two metrics (Euclidean and Manhattan city block). This statistical method was used for the analysis of data from marketing survey. It was shown that although the complete linkage method based on Euclidean metric prove the best consistency the CRCC =0720 this consistency is not significant. With this conclusion correspond the result from searching for optimal number of clusters proposed by Mojena (1977). This rules show only one possible cluster. Klíčová slova: Shluková analýza kofenetický koeficient korelace optimální počet shluků Key words: Cluster analysis; cophenetic coefficient of correlation; optimal number of clusters Úvod Shluková analýza je zpravidla prováděna na množině objektů které jsou popsány vektory hodnot statistických znaků. Prostřednictvím této techniky se snažíme zjistit zda množinu objektů lze rozložit na disjunktní podmnožiny vnitřně homogenní avšak navzájem heterogenní. Kvalitní rozklad objektů - např. zákazníků - může napomoci marketingovým manažérům při tvorbě lepších marketingových rozhodnutí a tím vytvoření lepší pozice firmy v konkurenčním prostředí. Metody a materiál Jednou z nejčastěji používaných technik shlukové analýzy je aglomerativní hierarchické shlukování. Spočívá v tom že každý objekt nejprve považujeme za samostatný shluk a poté
2 objekty či shluky postupně spojujeme na základě propočítané vzdálenosti mezi nimi. Ve finálním stupni shlukování pak všechny objekty tvoří jeden shluk. Shlukujeme vždy ty objekty které mají v matici vzdáleností nejmenší vzdálenost. Při shlukové analýze musíme řešit tři základní problémy: 1) jakou použít metriku 2) jak spočítat podobnost nově vzniklého shluku s ostatními objekty či shluky 3) jaký je ideální počet shluků. Zabývejme se blíže druhým problémem. Symbolem D označme trojúhelníkovou matici vzdáleností. Maticí vzdáleností rozumíme a) buď matici vzdáleností mezi objekty - její prvky spočítáme např. prostřednictvím Euklidovské metriky nebo Manhattan metriky p 2 X ( ) i X = j ik jk k = 1 d x x p d = x x Xi X j ik jk k = 1 b) nebo matici vzdáleností mezi shluky. V procesu shlukování se vždy do shluku t spojují nejpodobnější shluky (označme je q p) tj. shluky s nejmenší vzdáleností. Spojením shluků vzniká nová situace. Počet shluků se sníží vzdálenost mezi nimi se musí přepočítat a opět se musí hledat nejvhodnější shluky ke spojení. Označme: d - vzdálenost mezi shluky i a j (shlukem může být i objekt) ij ni - počet objektů v i-tém shluku. Existuje řada algoritmů pro přepočet prvků nové matice D. Mezi nejznámější patří: a) metoda nejbližšího souseda kde dtr = min( dpr ; dqr ) b) metoda nejvzdálenějšího souseda kde dtr = max( dpr ; dqr ) c) metoda průměrné vazby kde np dp r + nq dq r dtr = np + nq d) centroidní metoda kde np nq np nq dtr = dpr + dqr d 2 pq np + nq np + nq ( np + nq) e) mediánová metoda kde dpr + dqr dpq dtr = 2 4 f) Wardova metoda kde ( nr + np) dr p + ( nr + nq) dr q nr dp q dtr = nt + nr Poznámka: v matici D jejíž prvky jsou na základě předchozí matice D přepočítávány je řádek a sloupec shluku q nově označen jako t a řádek i sloupec shluku p jsou vypuštěny. Vzhledem k počtu možných algoritmů (v kombinaci s různými metrikami) vzniká oprávněná otázka který z algoritmů vede ke shlukování jež nejlépe charakterizuje data.
3 Ačkoli vlastnosti některých shlukovacích algoritmů jsou známy (např. při shlukování prostřednictvím metody nejbližšího souseda se v jednom shluku mohou ocitnout i poměrně vzdálené objekty metoda nejvzdálenějšího souseda naopak vede k poměrně kompaktním shlukům apod.) je vhodné stupeň shody mezi vlastnostmi objektů a výsledným shlukovacím procesem vyjádřit exaktním ukazatelem. Tímto ukazatelem může být kofenetický koeficient korelace CPCC (Cophenetic Correlation Coefficient). Jedná se o koeficient korelace mezi prvky primární matice vzdáleností mezi objekty D a mezi prvky kofenetické matice C (Cophenetix matrix). Kofenetickou maticí rozumíme trojúhelníkovou matici jejíž prvky tvoří vzdálenosti mezi shlukovanými objekty v okamžiku kdy byly poprvé zařazeny do shluku. Hodnotu kofenetického koeficientu korelace spočítáme podle vztahu: CPCC cov dc = s s d c kde d jsou prvky primární matice D a c jsou prvky kofenetické matice C. Obecně platí že čím vyšší je kofenetický koeficient korelace tím nižší je ztráta informací vznikající v procesu slučování objektů do shluků. Rozdělení kofenetického koeficientu při testu hypotéz H : existuje pouze jeden shluk 0 H A : existuje systém (množina) kompaktních shluků studovali F. J. Rohlf a D. L. Fisher (1968). Ukázali že k zamítnutí H 0 je třeba vysoká hodnota CPCC CPCC 08. F. J. Rohlf ve své pozdější práci (1970) dokonce doporučuje hodnotu CPCC > 09. L. J. Hubert (1974) navrhl pro tento účel použít tzv. Goodman- Kruskalovu statistiku γ. V případě že existuje dobrá shoda mezi daty a shlukovacím procesem je třeba řešit problém uvedený pod bodem 3 tj.zabývat se určením "ideálního počtu shluků. Často lze z dendogramu intuitivně počet shluků odhadnout. Objektivnější postup navrhl R. Mojena (1977). Je založen na relativních velikostech různých shlukovacích úrovní. Označíme-li shlukovací úrovně α0 α1 K αn 1 α0 < α1 < K < αn 1 pak optimální shlukovací úrovní α j + 1 je první úroveň pro kterou je α j+ 1 > α + ks α α je průměr shlukovacích úrovní s α je jejich nevychýlená směrodatná odchylka a k je číslo z intervalu Pokud takové α neexistuje soubor objektů tvoří jediný shluk. Problematice určování počtu shluků v hierarchickém shlukování se též věnoval G. W. Milligan (1985). Cílem příspěvku je ověřit jak lze kofenetický koeficient využít při výběru vhodného shlukovacího algoritmu a optimálního počtu shluků při zpracování dat marketingového výzkumu. Data vznikla při dotazníkovém šetření směrujícím k diagnostice nákupních zvyklostí českého zákazníka při nákupu potravin. Z rozsáhlého šetření byly vybrány pouze některé ukazatele které byly členěny do tříd - viz tab. 1.
4 Tab. 1: Popis objektu Třída Identifikace zákazníka Umístění prodejny Dostupnost prodejny Sortiment Personál Prodejní doba Doplňkové služby Ostatní Ukazatel Frekvence nákupu Pohlaví Věková kategorie Vzdělání Příjmová kategorie Blízkost bydliště Blízkost zaměstnání (sídla firmy) Blízkost zastávky MHD Vlastní parkoviště Výběr téhož výrobku od různých výrobců Kvalita z hlediska chuti vzhledu čerstvosti Prodej zákazníkem oblíbeného výrobku Ochota a příjemné vystupování Informovanost o novinkách v prodejně Bez polední přestávky Prodej sedm dní v týdnu Zákaznické karty Bezhotovostní platba Rychlost nákupu Byly analyzovány informace od 109 zákazníků a použity dvě metriky. Shlukování probíhalo podle šesti shlukovacích algoritmů. Metoda nejbližšího souseda vykazovala velmi nízké hodnoty CPCC není proto mezi výsledky uvedena. Výsledky Analýza dat vedla k následujícím výsledkům: 1. Wardova metoda Manhattan metrika Kofenetický korel. koeficient: Kofenetický korel. koeficient: 0.709
5 2. Metoda nejvzdálenějšího souseda Manhattan metrika Kofenetický korel.koeficient: Kofenetický korel.koeficient: Metoda průměrné vazby Manhattan metrika Kofenetický korel.koeficient: Kofenetický korel.koeficient: 0.702
6 4. Mediánová metoda Manhattan metrika Kofenetický korel. koeficient: Kofenetický korel. koeficient: Centroidní metoda Manhattan metrika Kofenetický korel. koeficient: Kofenetický korel. koeficient: Nejvyšší hodnotu kofenetického koeficientu korelace vykazuje metoda nevzdálenějšího souseda (CPCC=0720). Vzhledem k tomu že ani takto vysoká hodnota nepřesahuje hodnotu 08 nelze segmentaci zákazníků odvozovat na základě příslušného dendogramu. Opticky je tento dendogram velmi ilustrativní a pokud bychom neznali hodnotu CPCC jistě bychom jej použili a snažili bychom se nalézt optimální počet shluků. Na základě dendogramu bychom mohli polemizovatzda jsou optimální dva tři či čtyři shluky. Použijeme-li opět statistické metody konkrétně metodu navrženou Mojenou získáme tyto výsledky: α 0 =0 α 1 =3..α 107 = α 108 = α =8.524 s α =3.5 α j+1 = =18.15
7 Optimální shlukovací úrovní je tedy α 108 = neboť to je první úroveň přesahující hodnotu Dospěli jsme proto k závěru že zákazníci diagnostikovaní prostřednictvím 20- ti ukazateli tvoří jediný shluk. Výzkumník by si dospěje-li k takovému závěru měl mimo jiné položit otázku zda ukazatele byly vybrány správně. LITERATURA Hubert F. J.(1974): Approximate evaluation/techniques for the single-link and complete-link hierarchical clustering procedures. Journal of the American Statistical Association 69 pp Milligan G. W. - Cooper M. C.(1985): An examination of procedures for determining the number of clusters in a data set. Psychometrica 50 pp Mojena R. (1977): Hierarchical grouping methods and stopping rules an evaluation. Computer Journal 20 pp Rohlf F. J. (1970): Adaptive hierarchical clustering schemes. Systematic Zoology 19 pp Rohlf F. J. - Fisher D. L.(1968): Test for hierarchical structure in random data sets. Systematic Zoology 17 pp Adresa autorů Prof. RNDr. Anna Čermáková CSc. katedra aplikované matematiky a informatiky ZF JU České Budějovice Studentská e-meil: annacer@zf.jcu.cz ing. Michael Rost katedra aplikované matematiky a informatiky ZF JU České Budějovice Studentská e-meil: rost@zf.jcu.cz
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny
Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem
Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody
Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte
Shluková analýza dat a stanovení počtu shluků
Shluková analýza dat a stanovení počtu shluků Autor: Tomáš Löster Vysoká škola ekonomická v Praze Ostrava, červen 2017 Osnova prezentace Úvod a teorie shlukové analýzy Podrobný popis shlukování na příkladu
Vícerozměrné statistické metody
Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o
Algoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
Státnice odborné č. 20
Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin
Klasifikace obchodních partnerů s využitím metod shlukové analýzy
Klasifikace obchodních partnerů s využitím metod shlukové analýzy Mária Režňáková 1 Abstrakt Předpokladem úspěšnosti podnikatelských subjektů je schopnost generovat příjmy v takové výši, která zajistí
Miroslav Čepek
Vytěžování Dat Přednáška 4 Shluková analýza Miroslav Čepek Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti 14.10.2014 Miroslav Čepek
Metody analýzy dat I. Míry a metriky - pokračování
Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:
Uni- and multi-dimensional parametric tests for comparison of sample results
Uni- and multi-dimensional parametric tests for comparison of sample results Jedno- a více-rozměrné parametrické testy k porovnání výsledků Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Universita
Ing. Michael Rost, Ph.D.
Statistika úvodní přednáška Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Cíle základního kurzu: seznámit posluchače se základy počtu pravděpodobnosti, seznámit posluchače s aspekty
Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod
PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal
NADSTAVBOVÝ MODUL MOHSA V1
NADSTAVBOVÝ MODUL MOHSA V1 Nadstavbový modul pro hierarchické shlukování se jmenuje Mod_Sh_Hier (MOHSA V1) je součástí souboru Shluk_Hier.xls. Tento soubor je přístupný na http://jonasova.upce.cz, a je
ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY
ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY Knowledge and skills of Czech men in the field of information security - the results of statistical analysis
Cvičná bakalářská zkouška, 1. varianta
jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární
1 Determinanty a inverzní matice
Determinanty a inverzní matice Definice Necht A = (a ij ) je matice typu (n, n), n 2 Subdeterminantem A ij matice A příslušným pozici (i, j) nazýváme determinant matice, která vznikne z A vypuštěním i-tého
APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII
ROBUST 2, 2 28 c JČMF 2 APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII MARIE BUDÍKOVÁ Abstrakt. In this paper, the basic principles of hierarchical cluster analysis are described.an example of calculation and application
Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:
Příklad 2: Obsah PCB v játrech zemřelých lidí Zadání: V rámci Monitoringu zdraví byly měřeny koncentrace polychlorovaných bifenylů vjátrech lidí zemřelých náhodnou smrtí ve věku 40 let a více. Sedm vybraných
Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ
Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ Ing. Dana Trávníčková, PaedDr. Jana Isteníková Funkční gramotnost je používání čtení a psaní v životních situacích. Nejde jen o elementární
Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování
Metody analýzy dat I (Data Analysis I) Rozsáhlé struktury a vlastnosti sítí (Large-scale Structures and Properties of Networks) - pokračování Základní (strukturální) vlastnosti sítí Stupně vrcholů a jejich
České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)
České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611 Semestrální práce ze Statistiky (SIS) Petr Procházka, Jakub Feninec Skupina: 97 Akademický rok: 01/013 Úvod V naší
Vícerozměrné statistické metody
Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti
NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev
NUMERICKÁ KLASIFIKACE http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický gradient) 172 http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický
Karta předmětu prezenční studium
Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 545-0250 Garantující institut: Garant předmětu: Ekonomická statistika Institut ekonomiky a systémů řízení RNDr. Radmila Sousedíková, Ph.D.
Multivariátní porovnání dat - klastrová (shluková) analýza
Multivariátní porovnání dat - klastrová (shluková) analýza - bez apriorních předpokladů Shluková analýza Shluková analýza - cluster analysis úvod - definice princip algoritmy výsledky Shluková analýza
ZNALOSTI A DOVEDNOSTI ČESKÝCH ŽEN V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY
ZNALOSTI A DOVEDNOSTI ČESKÝCH ŽEN V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY Knowledge and skills of Czech women in the field of information security - the results of statistical analysis
Univerzita Pardubice 8. licenční studium chemometrie
Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí
Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze
Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3,
Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka
Univerzita Pardubice Fakulta ekonomicko-správní Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka Bakalářská práce 009 Tuto práci jsem
VYHODNOCENÍ UDRŽITELNÉHO ROZVOJE V ÚZEMNÍM PLÁNOVÁNÍ EVALUATION OF SUSTAINABLE DEVELOPEMENT IN LANDSCAPE PLANNING
VYHODNOCENÍ UDRŽITELNÉHO ROZVOJE V ÚZEMNÍM PLÁNOVÁNÍ EVALUATION OF SUSTAINABLE DEVELOPEMENT IN LANDSCAPE PLANNING Bc. Aneta Panchártková Univerzita Pardubice, Fakulta ekonomickosprávní, Studentská 84 532
Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Cíle kurzu: seznámit posluchače s vybranými statistickými metodami, které jsou aplikovatelné v ekonomických
Fakulta chemicko technologická Katedra analytické chemie
Fakulta chemicko technologická Katedra analytické chemie Licenční studium statistické zpracování dat Analýza vícerozměrných dat Ing. Pavel Valášek Školní rok OBSAH ÚVOD DATA EDA EXPLORATORÍ AALÝZA 4 PCA
SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA
SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA CLUSTER ANALYSIS OF REGIONS OF CZECH REPUBLIC BY SELECTED CHARACTERISTICS OF AGRICULTURE IN PROGRAM
VOLBA SAMOSTATNÉHO CENTRÁLNÍHO ÚTVARU LOGISTIKY VE VÝROBNÍM PODNIKU
VOLBA SAMOSTATNÉHO CENTRÁLNÍHO ÚTVARU LOGISTIKY VE VÝROBNÍM PODNIKU THE CHOICE OF AN INDEPENDENT CENTRAL LOGISTICS DEPARTMENT IN A MANUFACTURING COMPANY Stanislav Koutný 1 Anotace: V rámci příprav na širší
KULOVÝ STEREOTEPLOMĚR NOVÝ přístroj pro měření a hodnocení NEROVNOMĚRNÉ TEPELNÉ ZÁTĚŽE
české pracovní lékařství číslo 1 28 Původní práce SUMMARy KULOVÝ STEREOTEPLOMĚR NOVÝ přístroj pro měření a hodnocení NEROVNOMĚRNÉ TEPELNÉ ZÁTĚŽE globe STEREOTHERMOMETER A NEW DEVICE FOR measurement and
PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ
PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ Jiří HORÁK 1, Igor IVAN 1, Tomáš INSPEKTOR 1 1 Institut geoinformatiky, Hornicko-geologická fakulta, VŠB-TUO, 17. listopadu 15/2172, 708 33, Ostrava- Poruba, ČR Abstrakt
Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.
Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Shluková analýza Jiří Militky Analýza experimentálních dat V Klasifikace objektů Rozdělení objektů do shluků dle jejich podobnosti
SHLUKOVACÍ METODY V DATA MININGU
SHLUKOVACÍ METODY V DATA MININGU Petr Klímek 1. Data Mining Obecná definice data mining popisuje jako proces výběru, prohledávání a modelování ve velkých objemech dat, sloužící k odhalení dříve neznámých
Vybrané mzdové charakteristiky v krajích ČR členěné podle věku a pohlaví v roce 2008
Vybrané mzdové charakteristiky v krajích ČR členěné podle věku a pohlaví v roce 2008 Luboš Marek, Michal Vrabec Souhrn: V tomto příspěvku jsme se zaměřili na zkoumání rozdílů u běžných charakteristik mzdových
12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
Shluková analýza. shlukovací metodě
Shluková analýza (Cluster analysis, numerická taxonomie,... ) Cíle shlukové analýzy : ne testovací, ale popisné: klasifikace objektů (Q-technika) nebo znaků (R-technika) nalezení typů generování hypotéz
Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy
Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Zadání: Deponie nadložních jílových sedimentů SHP byla testována za účelem využití v cihlářské výrobě. Z deponie bylo odebráno
2D A 3D SNÍMACÍ SYSTÉMY PRŮMĚRU A DÉLKY KULATINY ROZDÍLY VE VLASTNOSTECH A VÝSLEDCÍCH MĚŘENÍ
TRIESKOVÉ A BEZTRIESKOVÉ OBRÁBANIE DREVA 2006 12. - 14. 10. 2006 159 2D A 3D SNÍMACÍ SYSTÉMY PRŮMĚRU A DÉLKY KULATINY ROZDÍLY VE VLASTNOSTECH A VÝSLEDCÍCH MĚŘENÍ Karel Janák Abstract Different methods
Neparametrické metody
Neparametrické metody Dosud jsme se zabývali statistickými metodami, které zahrnovaly předpoklady o rozdělení dat. Zpravidla jsme předpokládali normální rozdělení. Např. Grubbsův test odlehlých hodnot
ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz
ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík,, CSc. VII. VOLBA A VÝBĚR PŘÍZNAKŮ ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená pracnost, vysoké
ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky a mezioborových inženýrských studií ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE AUTOREFERÁT DISERTAČNÍ PRÁCE 2005 JOSEF CHALOUPKA
Testování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
Testování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
CZ.1.07/1.2.08/ Vyhledávání talentů pro konkurenceschopnost a práce s nimi. Závislost úspěšnosti v testu TP2 na známce z matematiky
úspěšnost v % CZ.1.07/1.2.08/02.0017 Vyhledávání talentů pro konkurenceschopnost a práce s nimi TEST TROJÚHELNÍKŮ Test rovnostranných trojúhelníků (TP2) vychází z Testu čtverců (IQ test parciálních a kombinovaných
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů
STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů 1) Test na velikost rozptylu Test na velikost rozptylu STATISTICA nemá. 2) Test na velikost střední hodnoty V menu Statistika zvolíme nabídku Základní
12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)
cvičení z PSI 0-4 prosince 06 Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem) Z realizací náhodných veličin X a Y s normálním rozdělením) jsme z výběrů daného rozsahu obdrželi
Jednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
KLASIFIKACE OBCHODNÍCH PARTNERŮ S VYUŽITÍM MATEMATICKÝCH METOD
ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS Ročník LVIII 23 Číslo 3, 2010 KLASIFIKACE OBCHODNÍCH PARTNERŮ S VYUŽITÍM MATEMATICKÝCH METOD M. Režňáková, J. Jedlička Došlo: 16.
Metody analýzy dat II
Metody analýzy dat II Detekce komunit MADII 2018/19 1 Zachary s club, Collaboration network in Santa Fe Institute, Lusseau s network of Bottlenose Dolphins 2 Web Pages, Overlaping communities of word associations
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
APROXIMACE KŘIVEK V MATLABU NEWTONŮV INTERPOLAČNÍ POLYNOM CURVE FITTING IN MATLAB NEWTON INTERPOLATION POLYNOMIAL
APROXIMACE KŘIVEK V MATLABU NEWTONŮV INTERPOLAČNÍ POLYNOM CURVE FITTING IN MATLAB NEWTON INTERPOLATION POLYNOMIAL Jiří Kulička 1 Anotace: Článek se zabývá odvozením, algoritmizací a popisem konstrukce
PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady
PSY117/454 Statistická analýza dat v psychologii přednáška 8 Statistické usuzování, odhady Výběr od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným
Základy popisné statistiky
Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2
HEURISTICKÉ ALGORITMY PRO ŘEŠENÍ ÚLOH OBCHODNÍHO CESTUJÍCÍHO
HEURISTICKÉ ALGORITMY PRO ŘEŠENÍ ÚLOH OBCHODNÍHO CESTUJÍCÍHO Heuristické algoritmy jsou speciálními algoritmy, které byly vyvinuty pro obtížné úlohy, jejichž řešení je obtížné získat v rozumném čase. Mezi
AVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
Porovnání předpovídané zátěže se zátěží skutečnou (podle modelu III-C BMP ČHMÚ) Martin Novák 1,2
Porovnání předpovídané zátěže se zátěží skutečnou (podle modelu III-C BMP ČHMÚ) Martin Novák 1,2 1 ČHMÚ, pobočka Ústí n.l., PS 2, 400 11 Ústí n.l., novakm@chmi.cz 2 PřF UK Praha, KFGG, Albertov 6, 128
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Klasifikace a rozpoznávání
Klasifikace a rozpoznávání Prezentace přednášek M. Španěl, 2009 Ústav počítačové grafiky a multimédií Téma přednášky Unsupervised techniky Obsah: Literatura Úvod do shlukování Metriky, základní přístupy,
Shluková analýza příklad
Shluková analýza příklad K dispozici jsou údaje o složení vybraných přírodních a minerálních vod. Pracujeme s následujícím seznamem proměnných: Dané hodnoty vznikly tak, že byl zjištěn u všech vod celkový
Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová
Využití hybridní metody vícekriteriálního rozhodování za nejistoty Michal Koláček, Markéta Matulová Outline Multiple criteria decision making Classification of MCDM methods TOPSIS method Fuzzy extension
Shluková analýza. 1 Úvod Formulace úlohy Typy metod shlukové analýzy... 2
Shluková analýza Jan Kelbel David Šilhán Obsah 1 Úvod 1 1.1 Formulace úlohy................................. 1 1.2 Typy metod shlukové analýzy.......................... 2 2 Objekty a znaky 2 2.1 Typy znaků....................................
VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY
VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY Jan Krejčí 31. srpna 2006 jkrejci@physics.ujep.cz http://physics.ujep.cz/~jkrejci Obsah 1 Přímé metody řešení soustav lineárních rovnic 3 1.1 Gaussova eliminace...............................
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VYUŽITÍ VÍCEROZMĚRNÝCH STATISTICKÝCH METOD PŘI HODNOCENÍ KRAJŮ USING OF MULTIVARIATE STATISTICAL METHODS FOR REGIONAL EVALUATION.
VYUŽITÍ VÍCEROZMĚRNÝCH STATISTICKÝCH METOD PŘI HODNOCENÍ KRAJŮ USING OF MULTIVARIATE STATISTICAL METHODS FOR REGIONAL EVALUATION Jakub Hloušek Anotace: Problematika diferenciace regionů podle ekonomických
Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů
Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů Design and implementation of algorithms for adaptive control of stationary robots Marcel Vytečka 1, Karel Zídek 2 Abstrakt Článek
Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1
Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1 1 ČHMÚ, OPZV, Na Šabatce 17, 143 06 Praha 4 - Komořany sosna@chmi.cz, tel. 377 256 617 Abstrakt: Referát
ŽÁCI GYMNÁZIA A MÍRA JEJICH ZÁVISLOSTI NA POČÍTAČOVÝCH HRÁCH
DOI: 10.5507/tvv.2016.015 Trendy ve vzdělávání 2016 ŽÁCI GYMNÁZIA A MÍRA JEJICH ZÁVISLOSTI NA POČÍTAČOVÝCH HRÁCH CHRÁSKA Miroslav, CZ Resumé Příspěvek popisuje částečné výsledky výzkumu, který zkoumal
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
VYUŽITÍ PROGRAMU DATA MINING V ANALÝZE NÁKUPNÍHO CHOVÁNÍ
VYUŽITÍ PROGRAMU DATA MINING V ANALÝZE NÁKUPNÍHO CHOVÁNÍ Petra Hloušková Stanislava Grosová Definice funkčních potravin: Funkční potraviny jsou potraviny, které se podobají běžným konvenčním potravinám
POČÍTAČOVÁ SIMULACE JAKO NÁSTROJ OPTIMALIZACE SVAŘOVACÍ LINKY
134 Ing. Luděk Volf e-mail: ludek.volf@fs.cvut.cz Ing. Libor Beránek e-mail: libor.beranek@fs.cvut.cz Ing. Petr Mikeš e-mail: p.mikes@fs.cvut.cz Ing. Igor Vilček, Ph.D. Katedra manažmentu a ekonomiky SjF
Aplikovaná numerická matematika
Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních
Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic
2 nd Central European Conference in Regional Science CERS, 2007 862 Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic PETR ŘEHOŘ, DARJA HOLÁTOVÁ Jihočeská
Arnoldiho a Lanczosova metoda
Arnoldiho a Lanczosova metoda 1 Částečný problém vlastních čísel Ne vždy je potřeba (a někdy to není ani technicky možné) nalézt celé spektrum dané matice (velké řídké matice). Úloze, ve které chceme aproximovat
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,
Hledání optimální cesty v dopravní síti
Hledání optimální cesty v dopravní síti prezentace k diplomové práci autor DP: Bc. Rudolf Koraba vedoucí DP: doc. Ing. Rudolf Kampf, Ph.D. oponent DP: Ing. Juraj Čamaj, Ph.D. Vysoká škola technická a ekonomická
Testování statistických hypotéz
Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,
Nehierarchické shlukování
Základní informace Následující text je součástí učebních textů předmětu Vícerozměrné statistické metody a je určen zejména pro studenty Matematické biologie. Může být ovšem přínosný i pro další studenty
Hledání optimální polohy stanic a zastávek na tratích regionálního významu
Hledání optimální polohy stanic a zastávek na tratích regionálního významu Václav Novotný 31. 10. 2018 Anotace 1. Dopravní obsluha území tratěmi regionálního významu 2. Cíle výzkumu a algoritmus práce
MATEMATICKÁ STATISTIKA - XP01MST
MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného
Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )
Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent ) Zadání : Titanová běloba (TiO ) se vyrábí ve dvou základních krystalových modifikacích - rutilové a anatasové.
Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Ivana Kozlová. Modely analýzy obalu dat
Západočeská univerzita v Plzni Fakulta aplikovaných věd SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU MATEMATICKÉ MODELOVÁNÍ Ivana Kozlová Modely analýzy obalu dat Plzeň 2010 Obsah 1 Efektivnost a její hodnocení 2 2 Základní
Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead
PSY117/454 Statistická analýza dat v psychologii Přednáška 8 Statistické usuzování, odhady Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead Barevná srdíčka kolegyně
Operační výzkum. Vícekriteriální hodnocení variant. Grafická metoda. Metoda váženého součtu.
Operační výzkum Vícekriteriální hodnocení variant. Grafická metoda. Metoda váženého součtu. Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu
Vícerozměrné statistické metody
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Vícerozměrné statistické rozdělení
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
Detekce kartografického zobrazení z množiny
Detekce kartografického zobrazení z množiny bodů Tomáš Bayer Katedra aplikované geoinformatiky Albertov 6, Praha 2 bayertom@natur.cuni.cz Abstrakt. Detekce kartografického zobrazení z množiny bodů o známých
Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.
Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít
Neparametrické testy
Neparametrické testy Dosud jsme se zabývali statistickými metodami, které zahrnovaly předpoklady o rozdělení dat. Zpravidla jsme předpokládali normální (Gaussovo) rozdělení. Například: Grubbsův test odlehlých