Customer Provider Relationship Monitoring by Association Analyse Means



Podobné dokumenty
Dolování asociačních pravidel

Získávání znalostí z databází. Alois Kužela

Dolování z textu. Martin Vítek

Základy vytěžování dat

Získávání dat z databází 1 DMINA 2010

Profitabilita klienta v kontextu Performance management

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

DATABÁZE A SYSTÉMY PRO UCHOVÁNÍ DAT 61 DATABÁZE - ACCESS. (příprava k vykonání testu ECDL Modul 5 Databáze a systémy pro zpracování dat)

VYUŽITÍ PROGRAMU DATA MINING V ANALÝZE NÁKUPNÍHO CHOVÁNÍ

4. blok část A Logické operátory

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

1. Umístěte kurzor do sloupce Datový typ na řádek s polem, ve kterém vytvořit chcete seznam.

Informační systémy pro podporu rozhodování

Základní informace o co se jedná a k čemu to slouží

PROJEKT BAKALÁŘSKÉ PRÁCE

6. blok část C Množinové operátory

Současný stav likvidace dat v organizacích

Role BI v e-business řešeních pohled do budoucnosti

PODNIKOVÁ INFORMATIKA

Metadata. RNDr. Ondřej Zýka

FUNKCE 3. Autor: Mgr. Dana Kaprálová. Datum (období) tvorby: září, říjen Ročník: sedmý. Vzdělávací oblast: Informatika a výpočetní technika

Databáze v MS ACCESS

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Leady & MERK Integrace Microsoft Dynamics CRM s aplikacemi Leady a MERK

8.2 Používání a tvorba databází

Základy databází. O autorech 17 PRVNÍ ČÁST. KAPITOLA 1 Začínáme 19

Jak získat nové a čerstvé adresy? Ing. Miroslav Červenka, Schober Information Group CZ a.s.

Metadata. MI-DSP 2013/14 RNDr. Ondřej Zýka,

Metodika analýzy návštěvnosti horských středisek v České republice. Ondřej Špaček 11. listopadu 2015

Informace a znalosti v organizaci

Popis ovládání. Po přihlášení do aplikace se objeví navigátor. Navigátor je stromově seřazen a slouží pro přístup ke všem oknům celé aplikace.

Stav a vývoj prodeje potravin ve vybrané oblasti v závislosti na rozvoji sítě supermarketů

DATA SUPPORT READER S LOYALTY CONSUMER GUIDE

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

BA_EM Electronic Marketing. Pavel

Primární klíč, cizí klíč, referenční integrita, pravidla normalizace, relace

Primární klíč (Primary Key - PK) Je právě jedna množina atributů patřící jednomu z kandidátů primárního klíče.

Zpráva o výsledcích výzkumu postojů rodičů žáků 5. ročníku k otázkám spravedlivého přístupu ke vzdělávání a překonávání školního neúspěchu

4IT218 Databáze. 4IT218 Databáze

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Personální bezpečnost v organizacích

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

DATABÁZE MS ACCESS 2010

INOVATIVNÍ MANAŽER MARKETINGU: INOVATIVNÍ BUSINESS INTELLIGENCE

Proces marketingového výzkumu - jednotlivé fáze, význam, stručná charakteristika. Výběr a formulace výzkumného problému. Vztahy mezi proměnnými.

Bezpečnost úložišť v organizacích

Hospodářská informatika

CO JE TO SWOT ANALÝZA

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Marketing Marketingový výzkum

CHOVÁNÍ SPOTŘEBITELŮ NA TRHU VÍNA V ČR

coachpage.cz MARKETINGOVÝ VÝZKUM Faktory ovlivňující nákupní chování ve vztahu ke koupi automobilu TOOLS for SUCCESS in TODAY s BUSINESS

Doplňování chybějících hodnot v kategoriálních datech 2.00

Architektury Informačních systémů. Jaroslav Žáček

Dolování v objektových datech. Ivana Rudolfová

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Excel mini úvod do kontingenčních tabulek

INFORMAČNÍ SYSTÉMY (IS) Ing. Pavel Náplava Katedra počítačů K336, ČVUT FEL Praha 2004/2005

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Příprava dat v softwaru Statistica

Manažerský GIS. Martina Dohnalova 1. Smilkov 46, 2789, Heřmaničky, ČR

PORTÁLOVÉ ŘEŠENÍ PERSONÁLNÍHO INFORMAČNÍHO SYSTÉMU

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

Základy business intelligence. Jaroslav Šmarda

Multi-dimensional expressions

KOMUNIKACE A LIDSKÉ ZDROJE

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Regionální produkt a jeho využití na zvýšení tržeb maloobchodní jednotky

Segmentace bankovních zákazníků algoritmem k- means

Úvod do databázových systémů

zobrazuje názvy polí, vložené hodnoty jednotlivých záznamů, lze v něm zadávat data (přidávat záznamy) v návrhovém zobrazení:

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

MO-ME-N-T MOderní MEtody s Novými Technologiemi

Znalostní systém nad ontologií ve formátu Topic Maps

Katedra managementu ŘÍZENÍ OBCHODU. Ing. Miloš Krejčí

Problematika tvorby podnikatelského záměru internetového projektu

Určeno studentům středního vzdělávání s maturitní zkouškou, předmět: Marketing a management, téma: Marketingový výzkum

CATEGORY MANAGEMENT BIO POTRAVIN

METODIKA ANALÝZY ODMĚŇOVÁNÍ ZAMĚSTNANCŮ ZPRACOVATELSKÉHO PODNIKU METHODOLOGY OF EMPLOYEE REWARDING ANALYSIS IN A PRODUCER ENTERPRISE

Ing. Petr Kalčev, Ph.D.

REGIONÁLNÍ ZNAČKY NA ÚZEMÍ JIHOČESKÉHO KRAJE A OCHRANA SPOTŘEBITELE IG 8/09 1. Srbová, Alena. Úvod

Management IS. Doc.Ing.Miloš Koch,CSc. 22/ 1

Microsoft Office. Excel vyhledávací funkce

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

MS Access Dotazy SQL

POUŽITÍ DATABÁZÍ. Po ukončení tohoto kurzu budete schopni

Evropský zemědělský fond pro rozvoj venkova: Evropa investuje do venkovských oblastí. v cestovním ruchu P3. Pavel Petr Petr.USII@upce.

Chování spotřebitelů na trhu s bydlením shánění bydlení

BARIÉRY VSTUPU V ODVĚTVÍ PRODUKCE JABLEK V ČESKÉ REPUBLICE BARRIERS TO ENTRY IN THE CZECH APPLES PRODUCTION INDUSTRY.

Proč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat

KIV/ZIS cvičení 1. Martin Kryl

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Architektura informačních systémů. - dílčí architektury - strategické řízení taktické řízení. operativní řízení a provozu. Globální architektura

VÝZKUMNÝ ONLINE NÁSTROJ LIKEEX V PRAXI

Problémové domény a jejich charakteristiky

Transkript:

Sledování vztahu zákazníka a poskytovatele prostředky asociační analýzy Customer Provider Relationship Monitoring by Association Analyse Means Naděžda Chalupová, Arnošt Motyčka Mendelova zemědělská a lesnická univerzita v Brně Provozně ekonomická fakulta, Ústav informatiky, nadule@pef.mendelu.cz, mot@pef.mendelu.cz Abstrakt Příspěvek se věnuje možnostem využití asociačních pravidel pro podporu manažerského rozhodování. Tato pravidla představují znalosti popisující frekventované vzory vyskytující se v databázi. Možnosti uplatnění asociační analýzy jsou ilustrovány na problému internetového obchodu, který chce přesněji zacílit nabídku svého zboží zákazníkům. Pozornost je věnována formulaci úlohy, předzpracování a přípravě dat pro úlohu a v neposlední řadě také interpretaci získaných znalostí. Pro řešení úlohy bylo použito softwarového nástroje Enterprise Miner společnosti SAS Institute Inc. Abstract The contribution deals with possibilities of association rules using for support of managerial decision-making. These rules represent knowledges describing frequent patterns occurring in database. The possibilities of association analyze application are illustrated on a problem of an internet shop, that wants to target more precisely the offer of its goods for customers. An attention is dedicated to problem formulation, data pre-processing and preparation and last but not least to discovered knowledges interpretation too. Software tool Enterprise Miner by company of SAS Institute Inc. was used for problem solution. Klíčová slova asociační pravidla, asociační analýza, získávání znalostí, podpora rozhodování Keywords Association rules, association analysis, knowledge discovering, decision support 1 Úvod Sledování chování zákazníků je nezbytné, pokud chce firma obstát v současném konkurenčním prostředí trhu. Podnikoví manažeři odpovědní za obchodní úspěch či neúspěch organizace proto potřebují získávat znalosti potřebné pro přijetí správného rozhodnutí. Tyto znalosti představují sofistikované informace ukryté v datech, které má podnik k dispozici. Novotný, Pour a Slánský (2005) uvádějí, že objem dat se v podniku zdvojnásobí v průměru každých pět let, což znamená, že v současné době již není problém data získat a uchovat, ale efektivně je zpracovat a využít jejich potenciál. Možností, jak zmiňované znalosti z dat získat, je využít prostředků tzv. dataminingu. Tento obor se zabývá otázkami, jak nalézt v datech souvislosti, které nejsou přímo zřejmé a které napomáhají lépe porozumět firemním procesům. Jednou z významných metod dataminingu je hledání asociací, které mohou výrazně pomoci například při plánování marketingových strategií, tvorbě produktových balíčků, při péči o zákazníky, detekci podvodů atd. 2 Asociační pravidla Asociační pravidla patří k jedněm z nejčastěji používaných prostředků pro reprezentaci znalostí. Pravidla popisují znalosti vyjadřované obecně konstrukcí IF-THEN, nebo se lze setkat se vztahem (Berka, 2003): předpoklad závěr 37

Typické využití asociační analýzy je v souvislosti s tzv. analýzou nákupního košíku. Jejím cílem je nalezení častých vzorů, tj. zjištění, jaké druhy zboží si zákazníci často kupují společně. Asociační pravidla zde vyjadřují určitý závěr vyplývající z analýzy jednotlivých nákupů, například, že když si zákazník koupí nový počítač, kupuje si často i operační systém a antivirový program (Han, Kamber, 2006). Při vytváření pravidel jde o hledání vzájemných vazeb (asociací) mezi různými položkami, přičemž není upřednostňován žádný vztah (Berka, 2003). 2.1 Zajímavost pravidel Skutečnost, zda je nalezené pravidlo pro uživatele analýzy zajímavé a užitečné, určují parametry pravidla, které kvantitativně na základě četností výskytu daných položek hodnotí nalezené znalosti. Základními charakteristikami jsou (Berka, 2003; Han, Kamber, 2006): podpora (support) absolutní, popř. relativní (častěji) počet položek splňujících předpoklad i závěr, spolehlivost (confidence) podmíněná pravděpodobnost závěru, pokud platí předpoklad. Podpora (v relativním vyjádření) tedy značí, jak často se v databázi vyskytuje kombinace určitých položek. Jde o hodnotu vypočtenou na základě vztahu: P( predpoklad zaver) = a a + b + c + d kde: a je počet položek splňujících současně předpoklad i závěr, b je počet položek splňujících předpoklad a nesplňujících závěr, c je počet položek nesplňujících předpoklad, ale splňujících závěr, d je počet položek nesplňujících ani předpoklad ani závěr. V absolutním vyjádření je podpora rovna a. Spolehlivost se též nazývá platnost (validity), konzistence (consistency), nebo správnost (accuracy) a udává, jak často se objeví závěr (důsledek), pokud se vyskytl předpoklad. To vyjadřuje vztah: P(predpoklad zaver) = a a + b kde použité symboly jsou stejného významu jako ve výše uvedeném vztahu. podmíněná pravděpodobnost předpokladu pokud platí závěr nebo kvalita vážený součet spolehlivosti a pokrytí. Berka (2003) se také zmiňuje o dalších pojetích asociačních pravidel, kde se, kromě výše uvedené podpory a spolehlivosti (oboje je zde s přívlastkem deskriptivní), kvantifikuje např. kauzální podpora, kauzální spolehlivost, zajímavost či závislost pravidla. Při generování pravidel se prochází prostor všech přípustných kombinací. Kombinace má svojí délku, což je počet položek, ze kterých se pravidlo skládá. Pokud je např. délka 3, pravidlo má buď dvoupoložkový předpoklad a jednopoložkový závěr nebo naopak. Tímto údajem, tzn. maximálním počtem položek pravidla, často bývá v aplikacích pro generování pravidel toto generování omezováno, neboť příliš velký počet položek pravidla jednak neúměrně zvyšuje výpočetní náročnost úlohy, a také velmi zesložiťuje interpretaci samotného pravidla. 3 Dolovací úloha Řešený problém je zpracován z pohledu internetového obchodu, jehož zájmem je z dostupných dat získat informace o tom, které komodity zákazník prostřednictvím elektronických obchodů často nakupuje a o které by potenciálně mohl mít zájem. Například pro manažera internetového obchodu je zajímavé zjistit, jaká část zákazníků nakupujících přes internet oblečení, nakupuje také knihy nebo vyjádřila svůj zájem nakupovat další druh zboží. Nalezené asociace pak mohou napomoci při tzv. křížovém snahy, jejichž účelem je navýšit objednávku zákazníka doporučením jiných produktů nabízených společností (Clemente, 2004) a následném aktivity, jejichž cílem je nabídnout zákazníkovi vyšší/pokročilejší a tedy i dražší model/verzi produktu) prodeji (Parr Rud, 2001). Na následujícím obrázku je znázorněno blokové schéma řešené úlohy v nástroji Enterprise Miner společnosti SAS Institute Inc. Komponenta WORK.OMNIBUS07_INTERNETOVE_NAKUPOV ANI symbolizuje zdroj dat pro dolování a zajišťuje nahrání těchto dat do úlohy. Komponenta Association představuje algoritmus pro zpracování definovaných dat. 2.2 Další parametry pravidel Kromě výše uvedených základních parametrů asociačních pravidel se sledují další důležité charakteristiky jako např. pokrytí (coverage) 38

Obr. 1 Blokové schéma úlohy dolování asociačních pravidel V komponentě datového zdroje jsou také nastaveny role jednotlivých proměnných v modelu (zejména jde o to, které proměnné do modelu vstupují a které jsou cílové) v této úloze vystupují pouze dvě proměnné (o požadované struktuře dat je pojednáno dále), jako cílová je definována proměnná (atribut) vyjadřující minulé a potenciální internetové nákupy zákazníka určeného proměnnou PID, která vstupuje do modelu v roli identifikátoru. V komponentě vyhledávání asociačních pravidel jsou specifikovány tyto parametry omezující generování pravidel: minimální podpora asociace v této úloze nastavená na 10% maximální počet položek pravidla zde nastavená na 3 minimální spolehlivost pro generování pravidla v tomto případě nastavená na 20% 3.1 Zdrojová data K realizaci dolovací úlohy byla použita data poskytnutá Ing. Ladislavem Stejskalem, partnerem a koordinátorem šetření Omnibus 2007 za Ústav marketingu a obchodu Provozně ekonomické fakulty Mendelovy zemědělské a lesnické univerzity. 3.1.1 Popis a obsah dat Zpracovávaná data reprezentují odpovědi dotazovaných respondentů na jednotlivé otázky z Dotazníku pro občany v rámci šetření OMNIBUS 2007. Jedná se o dotazníkové šetření pořádané Vysokou školou evropských a regionálních studií, o.p.s. v Českých Budějovicích ve spolupráci s Českou zemědělskou univerzitou v Praze, Západočeskou univerzitou v Plzni, Vysokou školou polytechnickou v Jihlavě, Mendelovou zemědělskou a lesnickou univerzitou v Brně, Stredoeurópskou vysokou školou ve Skalici a Slovenskou poľnohospodárskou univerzitou v Nitre. Cílem uvedeného šetření je zjištění názorů občanů na otázky týkající se zejména problematiky investičního rozhodování, regionálního rozvoje a veřejné správy, spotřebitelského chování, trhu cestovního ruchu a trhu potravin. Data, která jsou zpracovávána v rámci této dolovací úlohy, mají podobu jedné tabulky o necelých stopadesáti sloupcích a více než dvou tisících řádcích. Každý záznam (řádek) představuje jeden vyplněný dotazník. Jednotlivé atributy (sloupce) představují konkrétní odpověď respondenta na určitou otázku v dotazníku. Tyto atributy mohou také být pouze částí odpovědi, a to v případě, že v odpovědi bylo možné vybrat více variant nebo určit důležitost varianty každá varianta představovala jeden atribut, který mohl nabývat více hodnot. Data byla získána pomocí několika technik sběru dat, např. papírové dotazníky, různé varianty webových formulářových dotazníků (každá instituce podílející se na výzkumu shromažďovala data do svých databází). Z této skutečnosti pak pramenila potřeba sjednotit podobu dílčích datových zdrojů. 3.1.2 Předzpracování dat Z důvodu výše zmíněné různorodosti zdrojů a i dalších nedostatků v datech bylo nutné všechna data konsolidovat do jediného zdroje a nadále je upravit. Snahou těchto transformací bylo upravit data do jednotného formátu (struktury) vhodného pro dolování. Nežádoucím jevem v datech byly různé logické chyby, například v části dotazníku zjišťující od respondenta základní identifikační údaje docházelo k tomu, že v jedné otázce bylo zadáno státní občanství a v jedné z dalších otázek, nezávisle na výše uvedené odpovědi, vybrán region bydliště, přičemž bylo možné jako státní občanství zadat např. Českou republiku a zároveň z regionů vybrat např. Bratislavský kraj. Tento nesoulad bylo naštěstí možné ve většině případů odstranit dohledáním regionu bydliště respondenta podle uvedené obce a upravením příslušných atributů (špatně uvedeného státu nebo kraje) jiná část šetření se totiž zabývala spokojeností s různými oblastmi života v místě bydliště respondenta a toto bydliště zde bylo také uvedeno. Tímto způsobem často byly i doplněny některé chybějící hodnoty atributů, které bylo možné odvodit z atributů jiných. Z určitých skupin dat byly odstraněny další nesrovnalosti způsobené integrací několika zmiňovaných datových zdrojů. V některých skupinách dat bylo u příslušného atributu uvedeno ano nebo ne (označený příslušný checkbox ve webovém formuláři), v jiných podmnožinách dat byly tyto atributy prázdné a jiný atribut obsahoval souhrnnou odpověď řetězec obsahující označení jednotlivých položek vybraných respondentem (např. mezerami či jinak oddělená písmena a, b, c atd.). Z těchto řetězců byla tato jednotlivá označení (písmena) vyextrahována 39

a do příslušného sloupce přenesena správná hodnota např. v MS Excelu v buňkách příslušného sloupce funkcí =KDYŽ(JE.CHYBHODN(NAJÍT("a"; <buňka_s_řetězcem>; 1)); ""; "ano"). Použitím nejen uvedených způsobů vedoucích k vyčištění a zhodnocení dat, se však všechna negativa odstranit nepodařilo. Pro dolování asociačních pravidel v této úloze ale byly použity atributy, jejichž negativa bylo možné odstranit. Zmiňované nedostatky se objevují v atributech, jejichž hodnoty z převážné většiny nebylo možné zařadit do několika (cca max. deseti) kategorií. Takovými jsou např. uvedení různých názorů nebo zdůvodnění spokojenosti či nespokojenosti zákazníka s produktem. 3.1.3 Příprava dat pro dolování Před vlastním dolováním asociačních pravidel bylo nutné vybrat atributy, které budou do procesu vstupovat a upravit je do podoby zpracovatelné dataminingovým nástrojem. Požadovaná struktura dat je demonstrována následující tabulkou. Tab. 1 Ukázka struktury dat pro dolování asociačních pravidel 1 pivo 1 chleba 1 ovoce 2 pivo 2 čokoláda 2 chleba První sloupec je označení (identifikační číslo) zákazníka, druhý sloupec udává zboží, které zákazník koupil. Nejsou zde uvažovány další faktory, jako je množství zakoupeného druhu výrobku nebo čas jeho zakoupení (předpokládá se, že nákupy všech uvedených položek byly provedeny současně), neboť tyto skutečnosti jednak nebylo možné z odpovědí respondentů získat, a také pro tuto úlohu nejsou důležité pro jednoduchost postačuje informace, zda si zákazník určitý druh zboží někdy prostřednictvím internetového obchodu zakoupil. Pro transformaci zdrojových dat z podoby demonstrované následující tabulkou do požadovaného formátu bylo využito kancelářského databázového systému MS Access. První sloupec tabulky zde opět udává identifikaci zákazníka a další sloupce udávají informaci o tom, zda si zákazník příslušný druh zboží zakoupil či nikoliv. Tab. 2 Ukázka struktury zdrojových dat PID A6_obleceni A6_knihy A6_elektro 1 ano ne ano 2 ano ano ne 3 ano ano ano Příprava dat sestávala ze dvou základních kroků: vybrání požadovaných sloupců tabulky (zdrojových dat) a nahrazení příslušných hodnot novou vhodnější hodnotou vyjadřující nákup či zájem o nákup konkrétního produktu sesypání dvojic položek zákazník nákup do jedné dvousloupcové tabulky. První krok byl realizován SQL příkazem: SELECT PID, IIF(A6_media="ano","eshop_media",NULL) AS A6_media, IIF(A6_elektro="ano","eshop_elektro",NULL) AS A6_elektro, IIF(A6_klenoty="ano","eshop_klenoty",NULL) AS A6_klenoty, IIF(A6_tisk="ano","eshop_tisk",NULL) AS A6_tisk, IIF(A6_kosmetika="ano","eshop_kosmetika", NULL) AS A6_kosmetika, IIF(A6_obleceni="ano","eshop_obleceni",NULL) AS A6_obleceni, IIF(A6_potraviny="ano","eshop_potraviny", NULL) AS A6_potraviny, IIF(A6_jine <> "ne" AND A6_jine IS NOT NULL,"eshop_" & A6_jine,NULL) AS A6_jine, IIF(A8_cerstve="spíše ano" OR A8_cerstve = "rozhodně ano","zajem_cerstve",null) AS A8_cerstve, IIF(A8_trvanlive="spíše ano" OR A8_trvanlive = "rozhodně ano","zajem_trvanlive",null) AS A8_trvanlive, IIF(A8_napoje="spíše ano" OR A8_napoje = "rozhodně ano","zajem_napoje",null) AS A8_napoje, IIF(A8_prumyslove="spíše ano" OR A8_prumyslove = "rozhodně ano", "zajem_kosmetika",null) AS A8_kosmetika FROM omnibus; Při výběru relevantních atributů ze zdrojových dat byly rovnou funkcí IIF nahrazeny hodnoty určitých položek požadovanými hodnotami a to následujícím způsobem: U atributů týkajících se již provedených nákupů v případě, že položka obsahovala hodnotu ano, byla nahrazena řetězcem vyjadřujícím nákup příslušného produktu, v případě, že obsahovala jinou hodnotu ( ne ) nebo neobsahovala žádnou hodnotu, byla tato položka nahrazena hodnotou NULL, tzn. hodnota byla vymazána. U atributů týkajících se zájmu o budoucí elektronické nakupování občanů vyjádřených úrovní tohoto zájmu byly pro jednoduchost položky obsahující hodnotu spíše ano nebo rozhodně ano chápány pouze jako zájem o nákup toho konkrétního produktu ( vážnost toho zájmu nebyla zohledněna). Tyto hodnoty byly 40

nahrazeny řetězcem vyjadřujícím zájem o nákup této komodity a ostatní hodnoty byly opět odstraněny. Výsledkem výše uvedeného příkazu byl nový datový zdroj použitý v následujícím příkazu implementujícím druhou fázi přípravy dat. SELECT PID, A6_elektro AS nakup FROM nakupovani WHERE A6_elektro IS NOT NULL UNION SELECT PID, A6_klenoty FROM nakupovani WHERE A6_klenoty IS NOT NULL UNION SELECT PID, A6_media FROM nakupovani WHERE A6_media IS NOT NULL UNION SELECT PID, A6_kosmetika FROM nakupovani WHERE A6_kosmetika IS NOT NULL UNION SELECT PID, A6_obleceni FROM nakupovani WHERE A6_obleceni IS NOT NULL UNION SELECT PID, A6_potraviny FROM nakupovani WHERE A6_potraviny IS NOT NULL UNION SELECT PID, A6_tisk FROM nakupovani WHERE A6_tisk IS NOT NULL UNION SELECT PID, A6_jine FROM nakupovani WHERE A6_jine IS NOT NULL UNION SELECT PID, A8_cerstve FROM nakupovani WHERE A8_cerstve IS NOT NULL UNION SELECT PID, A8_trvanlive FROM nakupovani WHERE A8_trvanlive IS NOT NULL UNION SELECT PID, A8_kosmetika FROM nakupovani WHERE A8_kosmetika IS NOT NULL UNION SELECT PID, A8_napoje FROM nakupovani WHERE A8_napoje IS NOT NULL; V tomto druhém kroku šlo již pouze o sloučení výsledků několika dotazů obsahujících vždy dvojici zákazník nákup/zájem o nákup určitého druhu produktu, kde druhá položka dvojice byla neprázdná (obsahovala řetězec vyjadřující nákup či zájem o nákup příslušného druhu produktu). Konečná tabulka sestávala ze dvou sloupců (viz tab. 1) a téměř čtyřech tisíc (přesně 3965) řádků. 3.2 Výsledky a jejich interpretace I přes výše uvedená nastavená omezení generování pravidel, byla z dat vytvořena stovka asociačních pravidel, z nichž pouze některá pro koncového uživatele analýzy lze považovat za zajímavá. Čím vyšší je podpora a spolehlivost, tím má pravidlo větší vypovídací hodnotu a je tedy i zajímavější. Výsledkům, které mají malou podporu, nelze přikládat velkou důležitost. Seznam a význam některých nejzajímavějších pravidel následuje: zajem_napoje zajem_kosmetika [podpora: 25.45%, spolehlivost: 78.67%] ve čtvrtině všech transakcí (druhy zboží nakoupené přes internet či zájmů o nákupy určitých druhů zboží přes internet) se vyskytují tyto dvě položky (zájem o nákup nápojů a kosmetiky) společně téměř 80% respondentů, kteří uvedli, že mají zájem o nákup nápojů přes internet, také uvedli, že mají zájem o nákup kosmetiky přes internet eshop_tisk zajem_napoje [podpora: 10.52%, spolehlivost: 36.94%] v cca 10% všech transakcí se vyskytuje společně nákup tiskovin a zájem o nákup nápojů přibližně v 37% všech transakcí, kde zákazník nakupuje přes internet tiskoviny, má také zájem o nákup nápojů 4 Závěr Postupy uvedené v tomto příspěvku demonstrují možnosti využití prostředků dataminingu v řízení vztahu se zákazníky (CRM Customer Relationship Management) v oblasti odhalování zajímavých vzorců chování stávajících zákazníků. Asociační pravidla mohou manažerovi pomoci především ve fázi hledání řešení problému např. jak zvýšit prodej dokážou napovědět při sestavování cílených nabídek (jaké produkty nabídnout při koupi jiných produktů). Je však nutné zdůraznit skutečnost, že aby bylo možné vzniklá pravidla použít jako podklad pro rozhodnutí o podobě nabídek, je samozřejmě nutné přihlédnout k charakteru dat. Jak bylo zmíněno v článku, v tomto případě data představují odpovědi respondentů dotazníkového šetření, kde není možné ošetřit pravdivost odpovědí nebo náhodnost toho, že někdo v dotazníku něco rychle nakliká (či zaškrtne) na rozdíl například od reálných podnikových dat, které obsahují skutečné výsledky chování zákazníků (jejich skutečné nákupy, placení apod.). Ne vždy je proto možné datům (a tedy i pravidlům) plně důvěřovat a záleží výhradně na osobě manažera, do jaké míry se nechá v rozhodování výsledky analýzy ovlivnit. Literatura [1] Berka, P. Dobývání znalostí z databází. 1. vyd. Praha: Academia, 2003, 368. s. ISBN 80-200-1062-9. [2] Clemente, M. N. Slovník marketingu. 1. vyd. Brno: Computer Press, 2004, 378 s. ISBN 80-251-0228-9. [3] Han, J., Kamber, M. Data Mining Concepts and Techniques. 2. vyd. San Francisco: Morgan Kaufmann, 2006, 800 s. ISBN 1-55860-901-6. [4] Novotný, O., Pour, J., Slánský, D. Business Intelligence Jak využít bohatství ve vašich datech. 1. vyd. Praha: Grada Publishing, 2005, 256 s. ISBN 80-247-1094-3. [5] Parr Rud, O. Data Mining Praktický průvodce dolováním dat pro efektivní prodej, cílený marketing a podporu zákazníků (CRM). 1. vyd. Praha: Computer Press, 2001, 329 s. ISBN 80-7226-577-6. 41

Poděkování Článek vznikl za podpory výzkumného záměru Provozně ekonomické fakulty Mendelovy zemědělské a lesnické univerzity v Brně, MSM 6215648904/03/03/02 a projektu IG 180601 s názvem Analýza a návrh využitelnosti prostředků dataminingu při monitorování interakcí subjektů účastnících se procesu obchodování. Ing. Naděžda Chalupová Ústav informatiky PEF MZLU v Brně, Zemědělská 1, 613 00 Brno e-mail nadule@pef.mendelu.cz Doc. Ing. Arnošt Motyčka, CSc. Ústav informatiky PEF MZLU v Brně, Zemědělská 1, 613 00 Brno e-mail mot@pef.mendelu.cz 42